Adresse | https://books.google.com/ngrams |
---|---|
Beskrivelse | Statistisk analysetjeneste |
Kommersiell | Ja |
Publisitet | Nei |
Språk | Flerspråklig |
Hovedkontoret |
Mountain View USA |
Eieren | |
Laget av | |
Start | Juni 2010 |
Nåværende tilstand | I aktivitet |
Ngram Viewer er et språkprogram som tilbys avGoogle, som gjør det mulig å observere utviklingen av frekvensen til ett eller flere ord eller grupper av ord over tid i trykte kilder. Verktøyet ble tatt i bruk i 2010. Den siste oppdateringen var i februar 2020.
Uttrykket ngram betegner i denne sammenheng en serie med "n" ord, som er et spesielt tilfelle av begrepet n-gram .
Googles Ngram-verktøy er basert på Google Books tekstdatabase . Tekstene fra Google Books er klassifisert etter hyppigheten av ordsekvenser (kalt ngrams ) etter utgivelsesår, og hver ordsekvens tildeles deretter en "vekt".
Når brukeren ber om en sammenligning av flere ordsekvenser , tegner verktøyet deretter kurver som gjør det mulig å sammenligne bruksfrekvensen over tid.
Ngrams interesse er i hovedsak å gjennomføre historisk- lingvistiske eller sosiokulturelle studier, kjent som kroppsbyggere .
Verktøyet inneholder følgende grenser (spesielt for fransk ). Før 1790 ble "s" i midten av ord fremdeles skrevet "ſ" (sa lange s ), ufullkomne "ait" ble skrevet "oit", og disse få små spesifisitetene samt en uregelmessig typografi kompromitterer relevansen. OCR om verkene fra XVI th century XVIII th century. Teamet til OCRization-prosjektet til Nasjonalbiblioteket i Frankrike anser derfor at man uten menneskelig inngripen i digitaliseringsprosessen ikke kan gjøre pålitelige fulltekstsøk i verk fra 1800. Denne analysen har imidlertid siden blitt gjennomgått: falske positive eller falske negativer representerer ofte en lav prosentandel sammenlignet med alle dataene. I tillegg brukes Google Ngram til å skissere trender i bruken av et begrep og ikke for å gi absolutte og presise bruksfigurer.
En annen feil ligger i det faktum at et lite redigert verk vil være like representert som et vidt distribuert verk. I tillegg risikerer bruken av et ord i samme tekst igjen å gi for mye vekt på dette ordet, spesielt hvis det er sjeldent.