Et system Q ( spørsmålssvaresystem på engelsk, eller QA-system ) er et datasystem som automatisk svarer på spørsmål fra mennesker, i en utveksling på naturlig språk (f.eks. Fransk). Den relaterte disiplinen tilhører feltene automatisk språkbehandling og informasjonsinnhenting . Det skiller seg fra søkemotorsøket ved at det ikke bare tar sikte på å hente relevante dokumenter fra en samling tekster, men også å formulere et veldig målrettet svar på det stilte spørsmålet.
Et spørsmål og svar-verktøy søker å svare på spørsmål, eller spørsmål, for eksempel "Hva er det mest talte språket i Europa?" "Eller" Når døde Louis XIV? ". Systemet bruker deretter automatiske språkbehandlingsteknikker for å analysere spørsmålet og finne et passende svar ved hjelp av dokumentene det har tilgang til.
Ved å foreslå en serie dokumenter klassifisert i henhold til estimatet av deres interesse, tvinges metoden for "klassiske" søkemotorer brukeren til å foreta en sortering av de aktuelle dokumentene selv, mange av sidene som foreslås ikke svarer på spørsmålet være inkonsekvent, spredt over forskjellige sider osv. Når det gjelder et system for å svare på spørsmål, vil vi generelt søke å konstruere et svar på naturlig språk og ikke å tilby brukeren en noen ganger lang liste med dokumenter.
Den START Systemet kan gis som et eksempel på en elektronisk spørsmål respons system.
Spørsmålssystemer har derfor tre hovedformål:
For å gjøre dette bruker de strategier fra flere forskjellige områder:
Det er fire forskjellige trinn som fører til svaret på et spørsmål i et spørsmålssvarssystem: analyse av spørsmålet, søk etter dokumenter, valg av skriftsteder, utvinning av svar.
I et spørsmål må et visst antall elementer identifiseres før de kan behandles.
SpørsmålstypenSpørsmålstypen er en kategorisering som skal brukes til å velge strategien for å svare på spørsmålet.
Vi kan skille mellom mange typer forespørsler:
Faktiske spørsmål | “Hvor ble Joan of Arc brent? " |
---|---|
Boolske spørsmål (ja eller nei) | “Er Hosni Mubarak fortsatt president? " |
Definisjoner | “Hva betyr akronymet HMI? " |
Årsaker / konsekvenser | "Hvorfor er havet blått? " |
Prosedyrer | "Hvordan gjør du om identitetskortet ditt? " |
Lister | "Sitere 3 amerikanske presidenter" |
Evaluerende / komparative forespørsler | “Hva er den største byen i Frankrike? " |
Meninger | “Hva synes franskmennene om Nicolas Sarkozy? " |
Typen av det forventede svaret tilsvarer identifikasjonen av emnet for spørsmålet (ofte fra anerkjennelsen av typen navngitt enhet) eller av typen forventet setning.
Ingen | "Hvem ...", "Hvilken minister ..." |
---|---|
Organisasjon | "Hvem ...", "Hvilket selskap ..." |
plassering | "Hvor ...", "I hvilken region ..." |
Datert | "Når ...", "I hvilket år ..." |
Forklaring | "Hvorfor ...", "Av hvilken grunn ..." |
---|---|
Fremgangsmåte | "Hvordan ...", "Hva er trinnene for ..." |
Fokus for et spørsmål er eiendommen eller enheten som spørsmålet leter etter.
Temaet for spørsmålet er objektet som spørsmålet er adressert til.
Etter å ha analysert spørsmålet er målet å finne dokumenter som kan svare på spørsmålet.
Det første trinnet i å søke etter dokumenter er vanligvis et "klassisk" søk. Vi trekker ut stikkordene fra spørsmålet, og vi bruker dem sammen med Google- søkemotoren eller i en database for eksempel.
Spørsmål | Nøkkelord |
---|---|
"Hvem er Chuck Norris?" " | Chuck Norris |
“Hva gjør Peugeot-selskapet? " | Peugeot; entreprise; fabriquer |
"Hvilket land invaderte Irak i 1990?" " | Irak; envahir; 1990 |
“Hvor mange innbyggere var det i Frankrike i 2005? " | France, habitants, 2005 |
Det andre trinnet er å velge de skriftstedene som sannsynligvis inneholder svaret.
Diagrammet til høyre illustrerer denne prosessen.
Vi begynner med å bruke typen forventet svar, stikkordene i spørsmålet, dets navngitte enheter for å velge en første serie med skriftsteder. Deretter vil passasjens kvalitet estimeres for å justere nøkkelordene som brukes i spørringen, om nødvendig. Antall oppnådde pasninger tas også i betraktning. Hvis vi får for mange, vil vi begrense antall søkeord, hvis det tvert imot ikke er nok, vil vi utvide spørringen.
Når en serie passasjer er valgt, tildeles de en poengsum for å rangere dem.
En passasje valgt av søkemotoren kalles en kandidatpassasje . En passasje kan bestå av en enkelt setning eller et helt dokument. En kandidatpassasje kan eller ikke inneholde kandidatsvar. Vanligvis rangeres de etter en poengsum tildelt av søkemotoren .
Et kandidatsvar er et ord eller en gruppe ord generelt av samme type som den forventede responsen og som kan brukes til konstruksjonen.
Spørsmål | Hvem er far til dronning Elizabeth II? → Persontype |
---|---|
Kandidatpassasjer og kandidatsvar |
|
Det er forskjellige teknikker for å trekke ut en kandidatsvar fra en eller flere passasjer.
Mønstre av ekstraksjonerIdeen er å se etter en sjiktsekvens som modellerer responsen. Det søkte elementet plasseres i form av en variabel. For eksempel hvis man blir konfrontert med spørsmålet "Hva er hovedstaden i USA?" ", Vi kan søke (blant andre) etter mønsteret" X er hovedstaden i USA ". Denne tilnærmingen er arvet fra teknikker for utvinning av informasjon .
På grunn av språklige variasjoner er det imidlertid viktig å bruke mange varianter av hvert lag:
Problemet med gruvedrift er at de er ekstremt tidkrevende og dyre å lage for hånd. Et av alternativene er å bruke læringsmetoder som gjør det mulig å hente dem automatisk fra corpus. Ideen er å starte fra et bestemt mønster, for så å erstatte et element i mønsteret med en variabel (et predikat eller et av argumentene), så trekker vi ut et sett av elementer som kan instantiere mønsteret fra corpus.
For eksempel fra <person>Steve Jobs</person> dirige <company>Apple</company>og fra følgende korpus:
Det er mulig å få sjefene Steve Jobs <dirige, préside> Appleog <le PDG de> Apple <,> Steve Jobs.
Imidlertid kompliserer anaforer og tidsuttrykk problemet.
Anaphora |
Andorra er et lite landlagt land mellom Frankrike og Spania i sørvest-Europa,
[...] Turisme er den største sektoren i dette lille landet med en sunn økonomi, som står for rundt 80% av BNP ... |
Hva er Andorras største økonomiske sektor? |
---|---|---|
Temporal uttrykk |
Iran invaderte Irak videre22. september 1980. Etter åtte år med kamper , avsluttet FNs resolusjon 598 krigen ... |
Hvor lenge varte krigen mellom Iran og Irak? |
Enkel anerkjennelse av navngitte enheter er også problematisk og kan føre til inkonsekvenser. Modaliteten er vanskelig å definere (snakker forfatteren en sannhet eller bare en mening eller til og med et rykte) og til slutt er informasjonen på nettet ofte upålitelig (vitser ...).
Poengsum og kriterierTanken er å beregne en poengsum som gjør det mulig å bedømme en kandidatsvar.
Generelt brukes fire forskjellige kriterier:
Tanken er å analysere syntaksen på spørsmålet og kandidatdelene.
Vi trekker ut forhold mellom predikat og argument:
Spørsmål | Forhold |
---|---|
“Hvem skrev Les Misérables? " | [X, écrire], [écrire, Les Misérables] |
Kandidatsvar | Forhold |
"Victor Hugo skrev Les Misérables" | [Victor Hugo, écrire], [écrire, Les Misérables] |
Fra forrige eksempel kan systemet utlede X = Victor Hugo.
For å gå lenger, vil vi generelt integrere litt mer semantisk analyse ved å introdusere typen relasjoner som knytter elementene. Faktisk bygger vi et avhengighetstre fra spørsmålet.
For eksempel fra setningen "Hvilket metall har høyest smeltepunkt?" », Vi får forholdene representert på treet til høyre.
Vi søker derfor å fylle ut variabelen METALav "metall" -typen.
Deretter, hvis forskning tillater oss å få passasjen "Tungsten er et veldig hardt metall og har det høyeste smeltepunktet." »Type svar er faktisk« metall ». Vi sammenligner deretter forholdene som er oppnådd:
Spørsmål | Passasje |
---|---|
<METAL, a, sujet> |
<tungstène, métal, pred> <tungstène, a, sujet> |
Dette gjør at vi kan få Tungsten-responsen.
Bruke logikkTanken er å konvertere spørsmålet til et mål og deretter gjøre passasjen til logiske formler . Vi legger til et visst antall predikater som gjør det mulig å representere underordnede regler (tillater å definere at ett element innebærer et annet), kunnskap ... Så prøver vi å bevise målet med spørsmålet fra passasjen.
Så "Hvem myrdet John Lennon?" "Omregnet til: personne(X) & assassiner(X, Y) & John_Lennon(Y).
Kandidatsvaret "Mark Chapman skjøt John Lennon i 1980, ..." vil bli konvertert til Mark_Chapman(X) & abattre(X, Y) & John_Lennon(Y).
Her vil vi da trenge leksikal slutning abattre → assassiner.
MaskinlæringOvervåket maskin læring teknikker er ansatt for å trene modeller som forsøker å automatisk oppdage hvor svaret ligger i ett eller flere kandidat passasjer. Funksjonene ( funksjonene ) som brukes til å gjøre denne typen diskriminering, dekker både spørsmålet og svarkandidaten, og inkluderer:
Det er også mulig å få øye på kandidatsvar ved hjelp av tilsyn uten læring , når de relevante dokumentene er tilstrekkelig overflødige, for eksempel når det blir spurt om en stor samling. Tessellasjonen med n- gram gjør det for eksempel mulig å vurdere og tildele en vekt til alle ordsekvensene som finnes i de relevante utdragene av de identifiserte dokumentene, idet ideen er at de mest gjentatte ordsekvensene sannsynligvis er en del av svar. De mest interessante sammenhengende ordsekvensene utgjør svaret.
Det er forskjellige kampanjer som tar sikte på å rangere de beste spørsmålssvarssystemene: TREC (engelsk), CLEF (flerspråklig), EQUER (fransk), NTCIR (japansk), QUAERO (fransk, engelsk). Systemer blir evaluert fra både åpne domener og lukkede samlinger (vanligvis journalartikler). Spørsmålstypene som er analysert er hovedsakelig faktoider og definisjoner.
Det er to hovedmåter å bedømme et svar på. Den første typen dom er automatisk: av Mean Reciprocal Rank (MRR). Det vil for eksempel gi en peker til systemet når en re svaret er riktig, hvis 0,5 sekunder er 0,2, og hvis det er før den 5 e . Den andre måten å bedømme et svar på er å bruke menneskelig dømmekraft. Dette er avhengig av korrekte eller nøyaktige svar og begrunnelse.
Nøyaktigheten av svaret på et spørsmål er imidlertid ikke lett å bedømme:
Et annet viktig mål er tilbakekalling og nøyaktighet . Tilbakekallingen måler andelen av relevante dokumenter valgt blant alle relevante dokumenter (så jo færre relevante dokumenter som ikke ble valgt, jo bedre blir tilbakekallingen). Presisjon måler andelen relevante dokumenter som er valgt blant alle valgte dokumenter (så jo mer dårlige dokumenter som er valgt, jo dårligere presisjon). Generelt resulterer økende tilbakekalling i redusert nøyaktighet og omvendt.