Formelt språk

I matematikk , informatikk og lingvistikk er et formelt språk et sett med ord . Alfabetet til et formelt språk er settet med symboler, bokstaver eller leksemer som brukes til å konstruere språkets ord; ofte antas det at dette alfabetet er ferdig. Den Målet med formelle språkteori er å beskrive formelle språk.

Ord er sekvenser av elementer i dette alfabetet; ord som tilhører et bestemt formelt språk kalles noen ganger velformede ord eller velformede formler . Et formelt språk defineres ofte av en formell grammatikk , for eksempel algebraiske grammatikker, og analyseres av automata .

Mål

Teorien om formelle språk studerer de rent syntaktiske aspektene ved slike språk, det vil si deres formelle interne struktur. Språkteori stammer fra lingvistikk , som et middel til å forstå de syntaktiske regelmessighetene til naturlige språk :

Innen datavitenskap brukes formelle språk ofte som grunnlag for definisjonen av programmeringsspråk og andre systemer; ordene til et språk inkluderer da også en betydning, en semantikk .
I algoritmisk kompleksitetsteori blir beslutningsproblemer generelt definert som formelle språk, og kompleksitetsklasser er definert som sett med formelle språk som kan analyseres av maskiner med begrensede beregningsressurser.
I matematisk logikk brukes formelle språk til å representere syntaksen til aksiomatiske systemer , og den formalistiske holdningen i matematikk eller logikk hevder at matematikk i prinsippet kan reduseres til den syntaktiske manipulasjonen av formelle språk.

Studiet av formelle språk inkluderer alle metodene for beskrivelse og analyse av disse språkene, for eksempel formelle grammatikker for generering og automatikk for anerkjennelse, men det er også interessert i maskinlæring og oversettelse . Innen oversettelsesområdet gjelder språkteori programmeringsspråk kompilatorer .

Ord og språk

Definisjoner

Vi gir oss et sett , kalt et alfabet der elementene kalles bokstaver . $PÅ$

Et ord av lengde k er en serie av k bokstaver. I praksis bruker vi den kondenserte notasjonen . $u = (a_ {1}, a_ {2}, ..., a_ {k})$ $u = a_ {1} a_ {2} \ cdots a_ {k}$
Ordsettet i alfabetet er notert . $PÅ$ $A ^ {*}$
Det tomme ordet , med lengde 0, blir notert , eller noen ganger (eller igjen for å skille det fra -overganger i endelig automata). $1$ $\ varepsilon$ $\ Lambda$ $\ varepsilon$
Vi definerer på , en intern komposisjonslov kalt sammenføyning . Den forbinder to ord og ordet (i lengde ). $A ^ {*}$ $a_ {1} \ cdots a_ {n}$ $b_ {1} \ cdots b_ {m}$ $a_ {1} \ cdots a_ {n} b_ {1} \ cdots b_ {m}$ $n + m$

Denne loven om intern komposisjon er assosiativ og innrømmer det tomme ordet for nøytralt element (som rettferdiggjør notasjonen ). Følgelig er settet , utstyrt med denne loven, en monoid . Det er en fri monoid i betydningen algebra. $1$ $A ^ {*}$

Et formelt språk er et sett med ord på et endelig alfabet, det vil si en del av det frie monoidet på dette alfabetet.

Eksempler

Noen eksempler på formelle språk:

settet med alle ord på , $\ {a, b \}$
settet med ord i skjemaet , hvor er et primtall , $a ^ {n}$ $ikke$
settet med syntaktisk korrekte programmer i et gitt programmeringsspråk ,
settet med inngangsord som en gitt Turing-maskin stopper på,
settet med de 1000 hyppigste ordene på et gitt språk.

Konstruksjon av et formelt språk

Et formelt språk kan spesifiseres på forskjellige måter. Det som søkes er en endelig og eksplisitt metode eller mekanisme som gjør det mulig å produsere eller analysere et generelt uendelig språk. Blant disse metodene er det:

de formelle grammatikkene . Ord er produsert av regler, i endelig antall, som gjelder under presise forhold. Vi får en klassifisering av språk som kalles Chomsky-hierarkiet ;
de vanlige uttrykkene . Ordene er beskrevet i henhold til en symbolikk som gjør det mulig å beskrive suksesser, repetisjoner, alternativer. Det er en veldig populær måte å søke etter ord i tekster;
den PLC . De er matematiske maskiner som gjenkjenner en bestemt kategori av ord. Blant dem er det statlige overgangssystemer , Turing-maskiner eller endelige automater ;
settet med forekomster av et avgjørelsesproblem med svaret er JA;
ulike logiske beskrivelsessystemer ved hjelp av logiske formler.
av omskrivingssystemer . En bestemt familie er dannet av kongruensielle språk .

Tilhørighet, beregningsevne og kompleksitet

Typiske spørsmål vi stiller oss om et formelt språk er følgende:

Kan vi bestemme etter algoritme om et gitt ord tilhører dette språket?
I så fall, hva er den algoritmiske kompleksiteten til et slikt svar?

Disse spørsmålene har koblinger til beregningsevne og kompleksitetsteori .

Språkfamilier

Språk er gruppert i språkfamilier. Chomsky-hierarkiet gir oss fire typer grammatikk, hver type grammatikk genererer en språkfamilie.

Type 0-grammatikk genererer familien med rekursivt tallrike språk . Dette er nøyaktig språkene som kan gjenkjennes av en Turing-maskin .
Type 1-grammatikk genererer familien med kontekstuelle språk . Dette er nøyaktig språkene som er gjenkjennelige med lineært avgrensede automater .
Type 2-grammatikk genererer familien av algebraiske språk . Dette er språkene som er gjenkjennelige med push- down automata .
Type 3-grammatikk genererer familien av rasjonelle språk . Dette er språkene som er gjenkjennelige med endelige automater .

Disse språksettene er alle inkludert i hverandre og er gitt her fra det største settet til det minste. Så alt rasjonelt språk er algebraisk , som i seg selv er kontekstuelt , som i seg selv er rekursivt opptelt .

Mellom disse 4 språkfamiliene kan man merke familier som ikke er en del av Chomsky-hierarkiet, men som forblir bemerkelsesverdige av definisjonene og egenskapene. De deterministiske kontekstfrie språkene er språkene som er anerkjent av automatisk deterministisk stabel , og er strengt tatt med i familien av algebraiske språk. De rekursive språkene er språkene som er gjenkjent av en Turing-maskin, og hvis komplement også er anerkjent av en Turing-maskin. De er derfor strengt tatt med i rekursivt tallrike språk .

Operasjoner på formelle språk

Flere operasjoner kan brukes til å lage nye språk fra gitte språk. Anta at L og M er språk på noe vanlig alfabet.

Angi operasjoner

Den mengdeoperasjoner kryss , union og komplemente er definert som for hvilket som helst sett.

Sammenkjøring eller produkt

Den sammensetning av L og M , bare bemerket er det sett av ord på formen xy der x er et ord av L og det er et ord av M . $LM$

Kvoter eller rester

Den kvotient til venstre av et ord er det sett av ord som tilhører . Kvotienten til venstre kalles også rest . $x ^ {{- 1}} L$ $L$ $x$ $y$ $xy$ $L$

Den kvotient til høyre av et ord defineres symmetrisk som det sett av ord som hører til . $Lx ^ {{- 1}}$ $L$ $x$ $y$ $yx$ $L$

Den kvotient til venstre og kvotienten til høyre utvide til språk. Dermed er kvotienten til venstre for et språk , betegnet , foreningen av språkene for i . $L$ $M$ $M ^ {{- 1}} L$ $x ^ {{- 1}} L$ $x$ $M$

Star of Kleene

Den Kleene stjerne av L er den sett merke sammensatt av ordene i skjemaet med og . Dette settet inneholder ordet tomt . $L ^ {\ star}$ ${\ displaystyle u_ {1} .u_ {2}. \ prikker .u_ {n}}$ $n \ geqslant 0$ $u_ {1}, u_ {2}, \ prikker, u_ {n} \ i L$

Snu eller speilbilde

Det motsatte av L , bemerket eller inneholder speilordene til ordene til L , det vil si ordene til L lest fra høyre til venstre. $L ^ {R}$ ${\ tilde {L}}$

Blanding eller "bland"

Den blanding av L og M , betegnet L Ш M er et sett med ord som kan skrives der og er ord (muligens tøm) som et ord av L og enten et ord fra M . For eksempel Ш . $u_ {1} v_ {1} u_ {2} v_ {2} \ prikker u_ {n} v_ {n}$ $n \ geqslant 0$ $u_ {1}, \ prikker, u_ {n}, v_ {1}, \ prikker, v_ {n}$ $u_ {1} u_ {2} \ prikker u_ {n}$ $v_ {1} v_ {2} \ prikker v_ {n}$ $\ {ab \}$ $\ {ba \} = \ {abba, baab, baba, abab \}$

Morfisme og omvendt morfisme

En applikasjon er en morfisme eller homomorfisme hvis for alle ord av . Det homomorfe bildet av et språk på er settet $f: A ^ {*} \ til B ^ {*}$ $f (xy) = f (x) f (y)$ $x, y$ $A ^ {*}$ $L$ $PÅ$

f (L) = \ {f (x) \ mid x \ i L \}

Ved misbruk av språk kaller vi omvendt morfisme omvendt av en morfisme. Den inverse av morphism er betegnet funksjon av i settet av deler av definert av $f: A ^ {*} \ til B ^ {*}$ $f ^ {- 1}$ $B ^ {*}$ $A ^ {*}$

f ^ {- 1} (y) = \ {x \ i A ^ {*} \ mid f (x) = y \}

Det er generelt ikke en morfisme. Bildet av en omvendt morfisme av et språk på er språket $M$ $B$

f ^ {- 1} (M) = \ bigcup _ {y \ i M} f ^ {- 1} (y)

En morfisme er ikke å slette eller øke, eller, etterligning av engelsk, ε-fri hvis bildet av et brev aldri er det tomme ordet. I dette tilfellet er lengden på bildet av et ord større enn eller lik ordets.

Gjerdeegenskaper

Et vanlig spørsmål om disse operasjonene er å kjenne de avsluttende egenskapene til hver språkfamilie for hver av disse operasjonene, dvs. hvis språket som kommer fra en operasjon forblir i samme språkfamilie som språkene han kommer fra.

Tabell over nedleggelsesegenskaper for språkfamilier som følge av Chomsky hierarkiet

	Rasjonelle språk	Deterministiske algebraiske språk	Algebraiske språk	Kontekstuelle språk	Rekursive språk	Rekursivt tallrike språk
Union	Lukket	Ingen gjerde	Lukket	Lukket	Lukket	Lukket
Kryss	Lukket	Ingen gjerde	Ingen gjerde	Lukket	Lukket	Lukket
Utfyllende	Lukket	Lukket	Ingen gjerde	Lukket	Lukket	Ingen gjerde
Sammenkobling	Lukket	Ingen gjerde	Lukket	Lukket	Lukket	Lukket
Star of Kleene	Lukket	Ingen gjerde	Lukket	Lukket	Lukket	Lukket
Speil	Lukket	Ingen gjerde	Lukket	Lukket	Lukket	Lukket
Blandet	Lukket	Ingen gjerde	Ingen gjerde	Ingen gjerde	Ingen gjerde	Ingen gjerde
Morfisme	Lukket	Ingen gjerde	Lukket	Ingen gjerde	Ingen gjerde	Lukket
Voksende morfisme	Lukket	Ingen gjerde	Lukket	Lukket	Lukket	Lukket
Omvendt morfisme	Lukket	Lukket	Lukket	Lukket	Lukket	Lukket

Merknader og referanser

Et "ord" i begrepets matematiske betydning er en serie symboler hentet fra et sett kalt "alfabet" .
For å forstå dette eksemplet skriver vi bokstavene i det andre ordet i store bokstaver. Så vi får: $\ {ab \}$ Ш $\ {BA \} = \ {abBA, aBbA, BAab, BaAb, BabA, aBAb \}$ og når vi erstatter store og små bokstaver, har vi ordene angitt.
Bevis i Olivier Carton , formelle språk, beregningsevne og kompleksitet ,2008[ detalj av utgaven ] ( les online )
Bevis i (i) Zoltán esik og Imre Simon , " Modelling literal morphisms by shuffle " , Semigroup Forum , vol. 56,1998, s. 225-227

Olivier Carton , Formelle språk, beregningsevne og kompleksitet , Paris, Vuibert , koll. "Capes-aggregate",28. oktober 2008, 1 st ed. , 240 s. , 17 x 24 ( ISBN 978-2-7117-2077-4 og 2-7117-2077-2 , online presentasjon , les online )

Se også