Underklasse | Canonical (informatikk) |
---|---|
Navngitt med henvisning til | Lemma ( i ) , lemma |
Den lemmatisation betyr en leksikalsk behandling gitt en tekst for analyse. Denne behandlingen består i å anvende en forekomst av leksemer som er underlagt bøyning (på fransk, verb, substantiv, adjektiver) som refererer til deres vanlige leksikalske oppføring ("kanonisk form" registrert i ordbøkene til språket, som oftest), som 'betegner vi med begrepet lemma .
Leksemene ( lemmene ) til et språk kan ha flere former avhengig av kjønn (maskulin eller feminin), antall (en eller flere), deres person (meg, deg, dem ...), modus (veiledende, viktig). ..). Vi møter dermed flere former for samme lemma . Disse figurene blir referert til som bøyninger eller bøyde former.
Lemmatisering av et forekommende skjema er applikasjonen til denne formen for koding som gjør det mulig å identifisere sitt lemma. Generelt sett brukes den kanoniske formen som brukes til å lokalisere leksemen i dagens ordbøker for det aktuelle språket som et lemma. På fransk, for eksempel, for et verb er det infinitivt, for et substantiv dets entall, for et adjektiv dets maskulin-entall. Men på latin vil vi som konvensjon oftest bruke formen til 1. person entall indikativ.
Alle oppføringene i en ordbok er derfor oppført (spesielt i alfabetisk rekkefølge eller som mål i et hypertekstperspektiv Wikipedia, for eksempel som lemma. Eksemplene, sitatene, som mater artikkelen, inneholder bøyde former.
Eksempler:
Den samme grafiske formen (forekomst) kan referere til to eller flere forskjellige lemmaer.
Eksempler:
I lang tid Bestod lemmatisering i å lage en gjenstand av teksten der lemma fullstendig erstattet bøyde forekommende former. De klare stjernene lyser i den mørke natten ble den klare stjernelyden i den mørke natten . Programvareskriptene analyserte de to versjonene hver for seg. Med generaliseringen av HTML og spesielt XML er det mulig å justere de lemmatiserte og rå versjonene , i form av parallelle kolonner.
Eksempel:
/
stjernene /
lyse / klare stjerner
lyser / skinner
i / i
/
natt /
mørk natt / svart
deretter å integrere i den samme XML-beholderen forskjellige opplysninger om hendelsen, inkludert dens forekommende grafiske form og dens lemma. <w form = "clear" lemma = "clear"> for eksempel.
I tekstlig databehandling eller i tekstometri er det umulig for et dataprogram å gruppere sammen uten å ty til eksterne ressurser eller til en merkekodende intern tekstfilen, bøyningene av samme lemma, og enda mer for å skille de leksikale verdiene Av identiske former ("ratt, slør, dør ..."). Lemmatisering er derfor en foreløpig operasjon for en språklig basert anerkjennelse av bestanddelene i en setning. Den "konservative" lemmatiseringen som er tillatt av XML-kodingen, tillater at forskningen kan utføres så vel på lemmaene som på deres bøyde former (for eksempel hvis man ønsker å skille friheten fra frihetene ).