Chomsky hierarki

I teoretisk informatikk , språkteori og beregningsevne er Chomsky-hierarkiet (noen ganger kalt Chomsky- Schützenberger- hierarkiet ) en klassifisering av formelle grammatikker (og i forlengelse av de respektive formelle språk generert av grammatikker), beskrevet av Noam Chomsky i 1956 .

Presentasjon

Hierarkiet introdusert av Noam Chomsky er basert på den formelle grammatikkmodellen . Han definerer klassene i hierarkiet som mulige modeller for beskrivelsen av naturlige språkers strukturelle egenskaper. Noam Chomsky foreslo en klassifisering i fire typer språk, fra type 0 til type 3. Denne første terminologien har blitt opprettholdt, men andre navn er nå mer vanlig. Chomsky presenterte disse familiene i form av formelle grammatikker, og de forskjellige klassene grammatikkene er definert av suksessive begrensninger i form av reglene.

En bemerkelsesverdig egenskap ved Chomsky-klassifiseringen er at det for hver type er en familie av automater som aksepterer nøyaktig språk av den typen. Disse kontrollerne varierer i arten og bruken av hjelpeminnet. Oversettelsen til kompleksitetsklasser er mindre tydelig: rasjonelle språk (type 3) er i DTIME (n), algebraiske språk (type 2) i DTIME (n 3 ), kontekstuelle språk (type 1) i DTIME ( n M ), hvor M avhenger av grammatikken, men det omvendte er ikke sant.

Chomskys klassifisering, tatt opp i nesten alle informatikkhåndbøker for datavitenskap, har vist seg å være svært fruktbar i sine applikasjoner, spesielt når det gjelder design og analyse av programmeringsspråk og utarbeidelse av disse språkene. Rasjonelle og algebraiske språk har tidligere vært gjenstand for omfattende teoretiske studier. De kontekstsensitive språkene brukes hovedsakelig i beskrivelsen av naturlige språk.

Fire klasser av grammatikk og språk

Chomsky definerte fire klasser av grammatikk, kalt type 0 til type 3, og derfor også fire klasser av språk, generert av disse hierarkisk nestede grammatikkene:

Type 0-språk er de mest generelle: de er rekursivt tallrike språk .
Type 1- språk er kontekstuelle språk , på engelsk “kontekst-sensitive”.
Type 2- språk kalles algebraiske eller "kontekstfrie" språk , på engelsk "kontekstfrie".
Type 3-språk er "vanlige" språk eller rasjonelle språk .

Alle språk for type 3 er språk for type 2. Alle språk for type 2 er språk for språk 1. Alle språk for type 1 er språk for type 0. Følgende tabell oppsummerer samsvaret mellom grammatikktyper, språk og maskiner.

Grammatikk	Produksjonsregler	Språk	Maskin
skriv inn 0	$\ alpha \ rightarrow \ beta$	rekursivt opptellingen	Turing maskin
type 1	$\ alpha A \ beta \ rightarrow \ alpha \ gamma \ beta$	kontekstuell	Lineær avgrenset automat
type 2	$En \ høyre pil \ gamma$	algebraisk	Ikke-deterministisk stakeautomat
type 3	$A \ rightarrow aB, \ quad A \ rightarrow a$	rasjonell	Ferdig automat

I den formelle presentasjonen nedenfor, er vokabularet til grammatikk, sammensatt av terminale og ikke-terminale symboler , er settet med ikke-terminale symboler, og er det tomme ordet. $V$ $IKKE$ $\ varepsilon$

Type 0: generelle grammatikker

Det er ingen begrensninger på reglene. De har formen:

\ alpha \ rightarrow \ beta \ quad \ quad (\ alpha \ i V ^ {*} NV ^ {*}, \ beta \ i V ^ {*})

Disse grammatikkene genererer klassen med rekursivt tallrike språk . Dette er nøyaktig språkene som kan gjenkjennes av en Turing-maskin . Problemet med om et ord tilhører et språk i denne klassen er ubestemmelig .

Type 1: kontekstuelle grammatikker

Reglene er av form:

\ alpha A \ beta \ rightarrow \ alpha \ gamma \ beta \ qquad (A \ i N, \ alpha, \ beta, \ gamma \ i V ^ {*}, \ gamma \ neq \ varepsilon)

Med andre ord inkluderer enhver regel en ikke-terminal omgitt av to ord som beskriver konteksten variabelen kan erstattes i. Disse grammatikkene kalles kontekstuelle (på engelsk kontekst-sensitive ), fordi erstatningen av et ikke-terminal element kan avhenge av elementene rundt det: dets kontekst. Språkene som produseres, kalt kontekstuelle eller kontekstsensitive språk , er nøyaktig de som gjenkjennes av en ikke-deterministisk Turing-maskin med lineært avgrenset minne, ofte kalt lineært avgrenset automat . Andre tilsvarende formuleringer finnes for grammatikk som definerer kontekstuelle språk.

Type 2: ikke-kontekstuelle eller algebraiske grammatikker

Reglene er av form:

A \ rightarrow \ gamma \ qquad (A \ i N, \ gamma \ i V ^ {*})

En slik regel kan sees på som en kontekstuell regel der konteksten til reglene er tom, forutsatt at riktig medlem ikke er det tomme ordet. Adjektivet "ikke-kontekstuelt" uttrykker det faktum at ikke-terminale symboler behandles uavhengig av hvor de vises. Disse grammatikkene genererer nøyaktig algebraiske språk , også kalt kontekstfrie språk, akontekstuelle språk eller ikke-kontekstuelle språk. De gjenkjennes av en batteridrevet automat . $\ gamma$

Type 3: vanlige grammatikker

Vanlige grammatikker er enten venstre lineære grammatikk eller høyre lineære grammatikk:

I lineære grammatikker til venstre har reglene form:

A \ rightarrow Ba, \ quad A \ rightarrow a \ qquad (A, B \ i N, a \ i T)

I lineære grammatikker til høyre har reglene formen:

A \ rightarrow aB, \ quad A \ rightarrow a \ qquad (A, B \ i N, a \ i T)

Vanlige grammatikker genererer rasjonelle språk . Faktisk blir en vanlig grammatikk lett forvandlet til en endelig automat ( Kleenes teorem ).

Oppmerksomhet, vi kan ikke autorisere de to typene regler samtidig i en grammatikk uten å forlate klassen av rasjonelle språk: vi får de lineære grammatikkene som utgjør en mellomklasse mellom type 2 og type 3. Reglene for en grammatisk lineær er av skjema:

A \ rightarrow aBb, \ quad A \ rightarrow a \ qquad (A, B \ i N, a, b \ i T \ cup \ varepsilon)

Inkludering av familier

Klassen av rasjonelle språk (type 3) er strengt tatt med i klassen av algebraiske språk (type 2).

Klassen av kontekstuelle språk (type 1) er strengt tatt med i klassen med rekursivt tallrike språk (type 0).

Inkluderingen av klassen av algebraiske språk (type 2) i klassen av kontekstuelle språk (type 1) må avklares fordi et kontekstuelt språk aldri inneholder det tomme ordet ε. Den eksakte uttalelsen er:

Et algebraisk språk som ikke inneholder det tomme ordet, er et kontekstuelt språk eller, tilsvarende: Et algebraisk språk er et kontekstuelt språk, muligens forsterket av det tomme ordet .

Eksempler på språk

Regelmessig Språk: .
$a ^ {*} b ^ {*}, \ quad (aaab) ^ {*}, \ quad \ {a ^ {{3i}}: i> 0 \}$
Algebraiske språk som ikke er rasjonelle: settet med palindromer (som til og med er et lineært språk, som det forrige), Dykks språk
$\ {a ^ {i} b ^ {i}: i> 0 \} \,$
Kontekstsensitive språk som ikke er algebraisk: .
$\ {a ^ {i} b ^ {i} c ^ {i}: i> 0 \}, \ quad \ {a ^ {i} b ^ {k} c ^ {i} d ^ {k}: i > 0, k> 0 \}, \ quad \ {uu: u \ in \ {a, b \} ^ {*} \}$

Se også eksemplene på den formelle grammatikksiden . Teorien om formelle språk har mange verktøy for å bekrefte eller ugyldiggjøre språktypen (rasjonell, algebraisk, etc.). Den eksplisitte konstruksjonen av en grammatikk som gjenkjenner et gitt språk er ikke alltid lett.

Forbedring av Chomsky-hierarkiet

Chomskys opprinnelige hierarki besto av fire klasser. Andre klasser blir ofte ispedd:

mellom type 0 og type 1, rekursive språk , som godtas av Turing-maskiner som alltid stopper;
mellom type 1 og type 2, språk med indekserte grammatikker , definert av mer generelle grammatikker enn kontekstuelle grammatikker;
mellom type 2 og type 3, deterministiske algebraiske språk , som det er karakterisering for ved hjelp av automat, men ikke ved grammatikk;
også mellom type 2 og type 3, lineære språk, generert av lineære grammatikker .

De tre tilstøtende grammatikker definere en familie mellom algebraiske språk og kontekstsensitive språk. De aksepteres av batteridrevne automater ombord . Disse grammatikkene er en del av grammatikkene som gir bedre forståelse av strukturen til naturlige språk, gruppert under navnet litt kontekstsensitivt språk (en) .

Det finnes andre forbedringer som viser at strukturen ikke er "lineær": hvis vi for eksempel sammenligner lineære språk og deterministiske algebraiske språk, ser vi at disse familiene ikke er inneholdt i den ene.

Utvidelse av dette hierarkiet

Chomsky-hierarkiet gjelder bare domenet til det kalkulerbare som defineres paradigmatisk av hva en Turing-maskin kan beregne . Utover det eksisterer andre språkhierarkier, inkludert det aritmetiske hierarkiet .

Bibliografi

Noam Chomsky,
- 1959a Om visse formelle egenskaper ved grammatikk , Informasjon og kontroll 2, s. 137–67 .
- 1959b Et notat om setningsstrukturgrammatikk , Informasjon og kontroll 2, s. 393–95 .
- 1962 Kontekstfri grammatikk og pushdown-lagring , RLE Quart.Prog. Rept. n o 65. Cambridge, Mass., MIT.

John E. Hopcroft og Jeffrey D. Ullman , introduksjon til automatteori, språk og beregning , Addison-Wesley ,1979

(no) John E. Hopcroft , Rajeev Motwani og Jeffrey D. Ullman , Introduksjon til Automata Theory, Languages, and Computation , Addison-Wesley ,2007, 3 e ed. ( ISBN 978-0-32146225-1 )

Daniel IA Cohen , Introduksjon til Computer Theory , John Wiley & Sons ,1997
Peter Linz, en introduksjon til formelle språk og automata , Jones og Bartlett,2001, 3 e ed. , 410 s. ( ISBN 978-0-7637-1422-2 , les online )

Merknader og referanser

(in) Noam Chomsky , " Three models for the description of language " , IRE Transactions on Information Theory , n o 21956, s. 113–124 ( les online ).
Cohen 1997 , kap. 30: Chomsky-hierarkiet .
Hopcroft og Ullman 1979 , kap. 9: Chomsky-hierarkiet . Gjenutgivelsen av dette arbeidet i 2001 med Rajeev Motwani inkluderer ikke lenger dette kapitlet.
Linz 2001 , kap. 11.4: Chomsky-hierarkiet .
Hopcroft og Ullman 1979 , kap. 10: Deterministiske kontekstfrie språk .
AK Joshi, LS Levy og M. Takahashi, "Tree adjunct grammars", Journal of Computer Systems Science , 10 (1), 1975.
Enhetsbasert tre tilstøtende grammatikk .
(in) K. Vijay-Shanker , " A Study of Tree-Adjoining Grammars " , PhD-avhandling , University of Pennsylvania ,Januar 1988.
se også: Robert McNaughton, “ En innsetting i Chomsky-hierarkiet? ", Jewels are forever , 1999, side 204-212, og T. Jurdziński, K. Lorys, G. Niemann, F. Otto," Noen resultater om RWW- og RRWW-automata og deres forhold til klassen av voksende kontekst- sensitive språk ”, Journal of Automata, Languages and Combinatorics , Volume 9 Number 4, October 2004.

Relaterte artikler