Automatisk språkbehandling

Automatisk naturlig språkbehandling
Underklasse av Kunstig intelligens , informatikk , beregningslingvistikk , industri , akademisk disiplin
Objekter Lemmatisering
grammatisk merking
syntaks analyse
setning grensen disambiguation ( no )
rootization Leksikalsk
terminologi utvinning
semantikk ( no )
maskinoversettelses
oppkalt enhet anerkjennelse
automatisk tekst generasjon
optisk tegngjenkjenning
spørsmål-svar-systemer
tekstlig entailment ( no )
forholdet utvinning ( no )
mening Mining
tekst segmentering ( no )
leksikalsk disambiguation
Automatisk tekst Sammendrag
koreferanse
taleanalyse
Automatisk tale gjenkjennelse
tale segmentering ( no )
talesyntese
Word innstøping
decompounding ( d )

Den naturlig språk prosessering (Rep. NLP ), eller automatisk behandling av naturlig språk eller språkbehandling (Rep. TAL ) er et tverrfaglig felt som involverer språk , den maskinen og kunstig intelligens , som har som mål å skape naturlig språk prosessering verktøy for ulike bruksområder. Det skal ikke forveksles med beregningslingvistikk , som tar sikte på å forstå språk ved hjelp av dataverktøy.

TALN kom ut av forskningslaboratoriene for å bli gradvis implementert i dataprogrammer som krever integrering av menneskelig språk i maskinen. Så NLP blir noen ganger referert til som språkteknikk . I Frankrike har Natural Language Processing sin journal, Automatic Language Processing , utgitt av Association for Automatic Language Processing (ATALA).

Historie

1950- 1960-tallet

Det første arbeidet med naturlig språkbehandling begynte på 1950-tallet, hovedsakelig i USA hvor den politiske konteksten, knyttet til den kalde krigen , var gunstig for utviklingen av temaet maskinoversettelse .

De første dataprogrammene var knyttet til automatisk behandling av samtaler. I 1950 presenterte Alan Turing i sin grunnleggende artikkel om kunstig intelligens, "  Computing machines and intelligence  ", en evalueringsmetode som senere ville bli kalt "  Turing test  " eller "Turing criterion". Denne testen måler graden av intelligens til en maskin, basert på evnen til et samtaleprogram til å utgi seg for et menneske: i en utveksling av skriftlige meldinger må et menneske bestemme om samtalepartneren er en maskin eller ikke. Grunnlaget som brukes er imidlertid skjørt for å evaluere kunstig intelligens, fordi inntrykket av en enkelt bruker avhenger av for mange faktorer relatert til det omgivende miljøet som regel.

I 1954 involverte Georgetown-IBM-eksperimentet , utført i fellesskap av Georgetown University og IBM- selskapet , den fullautomatiske oversettelsen til engelsk av mer enn seksti romaniserte russiske setninger knyttet til felt politikk, jus, matematikk og vitenskap. Forfatterne hevder at innen tre til fem år vil maskinoversettelse ikke lenger være et problem. Det ser imidlertid ut til at ytringene på russisk ble valgt med omhu, og at mange av operasjonene som ble utført for demonstrasjonen var tilpasset bestemte ord og uttrykk. I tillegg er det ingen relasjons- eller syntaktisk analyse for å identifisere setningenes struktur. Metoden som brukes er en i hovedsak leksikografisk metode basert på en ordbok der et gitt ord er knyttet til spesifikke regler og prosedyrer.

Konseptene introdusert av Turing tillot Joseph Weizenbaum å utvikle, fra 1964 til 1966, den første samtaleautomaten som lurte et menneske om sin natur. Automaten, kalt ELIZA , simulerer en Rogerisk psykoterapeut , selv om den nesten ikke bruker informasjon om menneskelig tanke eller følelser, klarer noen ganger å etablere en interaksjon som er overraskende lik menneskelig interaksjon. Så når "pasienten" overstiger kunnskapens svake kapasitet, kan ELIZA gi en generisk respons, for eksempel "Hvorfor sier du at du har hodepine? »Som svar på« Jeg har hodepine ».

På slutten av 1960-tallet, Terry Winograd , en MIT-forsker, utviklet et naturlig språk program kalt SHRDLU (uttales "chreudeul"), som gjør det mulig for brukeren å snakke med en datamaskin til å styre en "verden for å bygge kuber“( en blokker verden ) vises på en av de første skjermbildene. Det er det første programmet som kan forstå og utføre komplekse ordrer på naturlig språk. Men den eneste operasjonen han kan gjøre er å ta kuber, flytte dem, samle dem eller spre dem. Han vil aldri kunne forstå alt det menneskene kan gjøre med fysiske gjenstander.

Virkelig fremgang er derfor skuffende. Rapporten ALPAC  (i) 1966 bemerker at ti års forskningsmål ikke har blitt nådd. Denne bevisstheten om språkens ekstreme kompleksitet har redusert ambisjonen med forskningsarbeid betraktelig.

1970-80-tallet

I løpet av 1970-tallet begynte mange programmerere å skrive "konseptuelle ontologier", som hadde som mål å strukturere informasjon i data som datamaskinen kunne forstå. Dette er tilfellet MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCRUPULE (Lehnert, 1977), Politics (Carbonell, 1979), Plot Units ( Lehnert 1981).

År 1990-2000

Siden 2000

I januar 2018, lykkes kunstige intelligensmodeller utviklet av Microsoft og Alibaba å slå mennesker i en lese- og forståelsestest fra Stanford University . Naturlig språkbehandling etterligner menneskelig forståelse av ord og uttrykk, og lar nå maskinlæringsmodeller behandle store mengder informasjon før de gir nøyaktige svar på spørsmålene til dem.

I november 2018, Google lanserer BERT , en språkmodell.

I Mai 2020, OpenAI , et selskap grunnlagt av Elon Musk og Sam Altman , kunngjør lanseringen av GPT-3 , en 175 milliarder parameter språkmodell utgitt som en gaffel i et kommersielt API .

Statistisk NLP

Statistisk bruk av naturlig språkbehandling er avhengig av stokastiske , probabilistiske eller ganske enkelt statistiske metoder for å løse noen av problemene som er diskutert ovenfor, spesielt de som oppstår fordi svært lange setninger er svært tvetydige når de behandles med realistiske grammatikker. Tillater tusenvis eller millioner av mulige analyser. Tvetydighetsmetoder innebærer ofte bruk av corpora og formaliseringsverktøy som Markov-modeller . Statistisk NLP inneholder alle kvantitative tilnærminger til automatisert språklig prosessering, inkludert modellering, informasjonsteori og lineær algebra . Teknologien for statistisk NLP kommer først og fremst fra maskinlæring og datautvinning , som innebærer å lære av data som kommer fra kunstig intelligens .

Forskningsfelt og applikasjoner

Feltet med automatisk naturlig språkbehandling dekker et stort antall forskningsdisipliner som kan bruke ferdigheter så forskjellige som anvendt matematikk eller signalbehandling.

Syntaks

Semantikk

Signalbehandling (tale og skriving)

Henting av informasjon

Bibliometri

De Bibliometri er bruk av naturlig språk prosessering vitenskapelige publikasjoner.

Bibliometrisk studie av automatisk naturlig språkbehandling

Den første store studien ble utført i 2013 , i anledning jubileet for Association for Computational Linguistics (ACL), med en workshop med tittelen Rediscovering 50 Years of Discoveries in Natural Language Processing . Discovery in natural language processing ”).

Samme år skjedde drift Naturlig språkbehandling for behandling av naturlig språk (NLP4NLP), med fokus på anvendelse av automatiske naturlige språkbehandlingsverktøy i arkivene for automatisk naturlig språkbehandling fra 1960-tallet til i dag. Det handlet om å automatisk avgjøre hvem som var oppfinnerne av de tekniske begrepene vi bruker for øyeblikket.

Et annet studieområde er å bestemme hvilken som helst klippe og lime forskere som behandler naturlige språkbehandling når de skriver et vitenskapelig papir.

En komplett syntese av NLP4NLP-arbeidet ble publisert i 2019 som et dobbeltnummer av tidsskriftet Frontiers in Research Metrics and Analytics for å kvantitativt beskrive flere aspekter som andelen kvinner (sammenlignet med menn), antall medforfattere, evolusjon studiefag  osv. .

Se også

Bibliografi

  • (en) Dan Jurafsky, tale- og språkbehandling , Stanford, Pearson (forlag) ,2008, 320  s. ( ISBN  9780131873216 )

Relaterte artikler

Eksterne linker

  • ATALA Association for Automatic Language Processing
  • Technolangue , språkteknisk portal

Referanser

  1. Se for eksempel Ludovic Tanguy, "Automatic Processing of Natural Language and Interpretation: Contribution to the Development of a Computer Model of Interpretative Semantics" , Computer Science and Language , University of Rennes 1, 1997.
  2. Eugene Charniak, Introduksjon til kunstig intelligens , Addison-Wesley, 1984, s. 2.
  3. Definisjon av språkteknikk på nettstedet evariste.org (1996): "Lingvistikk er settet med metoder og teknikker i skjæringspunktet mellom datavitenskap og lingvistikk. Det tar sikte på å implementere alle datateknikker (ofte de mest avanserte) for utvikling av applikasjoner med en mer eller mindre bred forståelse av naturlig språk. "
  4. Marc-Emmanuel Perrin, Machines progress in their learning of natural language , Mission for Science and Technology of the Embassy of France in the United States, 22. september 2017.
  5. Rubrikken “Turing Criterion”, Dictionary of Computing and the Internet 2001 , Micro Application, 2000, s. 232.
  6. (in) John Hutchins, Fra første konsept til første demonstrasjon: de nye årene med maskinoversettelse, 1947-1954. En kronologi, i maskinoversettelse , 12, s. 195-252.
  7. (in) Erwin Reifler, MT-løsningen av språklige problemer gjennom leksikografi, i Proceedings of the National Symposium on Machine Translation , Machine Translation, 12., 2. - 5. februar 1960, s. 195-252.
  8. Marc-Emmanuel Perrin, op. cit. .
  9. Serge Boisse, Etaoin Shrdlu , på Journal d'un terrien , udatert.
  10. Villard Masako ( red. ), “  Machine translation and cognitive research  ”, History Epistemology Language (Language sciences and cognitive research) , vol.  Bind 11, n o  hefte 1,1989, s.  55-84 ( DOI  10.3406 / hel.1989.2290 , www.persee.fr/doc/hel_0750-8069_1989_num_11_1_2290)
  11. “  Alibaba's AI Outguns Humans in Reading Test,  ” Bloomberg.com ,15. januar 2018( les online , konsultert 16. januar 2018 ).
  12. Toutanova, Kristina, “  BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding  ” , på arXiv.org ,11. oktober 2018(åpnet 31. juli 2020 ) .
  13. (in) Will Douglas Heaven, "  OpenAIs nye språkgenerator GPT-3 er sjokkerende tankeløs og fullstendig Call  " , MIT Technology Review ,20. juli 2020( les online ).
  14. Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing , MIT Press (1999), ( ISBN  978-0-262-13360-9 ) , s.  xxxi .
  15. (in) Radev Dragomir R Muthukrishnan Pradeep, Qazvinian Vahed, Jbara Abu Amjad, The ACL Anthology Corpus Network, Language Resources and Evaluation , 47, 2013, Springer, pp. 919–944.
  16. (i) Gil Francopoulo Joseph Mariani og Patrick Paroubek, "  The Cobbler barn vil ikke gå uskodde  " i D-Lib Magazine ,november 2015 (konsultert 12. juni 2016).
  17. (i) Joseph Mariani Patrick Paroubek , Gil Francopoulo og Olivier Hamon , "  Gjenoppdage 15 + 2 års oppdagelser i språkressurser og evaluering  " , Language Resources and Evaluation , Vol.  50,1 st april 2016, s.  165–220 ( ISSN  1574-020X og 1574-0218 , DOI  10.1007 / s10579-016-9352-9 , leses online , åpnet 12. juni 2016 ).
  18. (i) Gil Francopoulo Joseph Mariani og Patrick Paroubek, "A Study of Gjenbruk og plagiat i lREC papirer" i Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Marko Grobelnik Bente Maegaard Joseph Mariani, Asuncion Moreno, Jan Odijk og Stelios Piperidis, Proceedings av den tiende internasjonale konferansen om språkressurser og evaluering (LREC 2016) , Portorož (Slovenia), European Language Resources Association (ELRA),2016( ISBN  978-2-9517408-9-1 , les online ).
  19. (i) Joseph Mariani , Gil Francopoulo og Patrick Paroubek , "  The Corpus NLP4NLP (I): 50 års samarbeid og publisering Citation i tale og språk Processing  " , Frontiers i Research Metrics og Analytics ,2019( les online )
  20. (i) Joseph Mariani , Gil Francopoulo Patrick Paroubek og Frederic Vernier , "  The Corpus NLP4NLP (II): 50 års forskning i tale og språk Processing  " , Frontiers i Research Metrics og Analytics ,2019( les online ).