Ngram Viewer

Ngram Viewer-logo
Adresse https://books.google.com/ngrams
Beskrivelse Statistisk analysetjeneste
Kommersiell Ja
Publisitet Nei
Språk Flerspråklig
Hovedkontoret Mountain View USA
Eieren Google
Laget av Google
Start Juni 2010
Nåværende tilstand I aktivitet

Ngram Viewer er et språkprogram som tilbys avGoogle, som gjør det mulig å observere utviklingen av frekvensen til ett eller flere ord eller grupper av ord over tid i trykte kilder. Verktøyet ble tatt i bruk i 2010. Den siste oppdateringen var i februar 2020.

Uttrykket ngram betegner i denne sammenheng en serie med "n" ord, som er et spesielt tilfelle av begrepet n-gram .

Prinsipp for drift

Googles Ngram-verktøy er basert på Google Books tekstdatabase . Tekstene fra Google Books er klassifisert etter hyppigheten av ordsekvenser (kalt ngrams ) etter utgivelsesår, og hver ordsekvens tildeles deretter en "vekt".

Når brukeren ber om en sammenligning av flere ordsekvenser , tegner verktøyet deretter kurver som gjør det mulig å sammenligne bruksfrekvensen over tid.

Interesse og grenser

Ngrams interesse er i hovedsak å gjennomføre historisk- lingvistiske eller sosiokulturelle studier, kjent som kroppsbyggere .

Verktøyet inneholder følgende grenser (spesielt for fransk ). Før 1790 ble "s" i midten av ord fremdeles skrevet "ſ" (sa lange s ), ufullkomne "ait" ble skrevet "oit", og disse få små spesifisitetene samt en uregelmessig typografi kompromitterer relevansen. OCR om verkene fra XVI th  century XVIII th  century. Teamet til OCRization-prosjektet til Nasjonalbiblioteket i Frankrike anser derfor at man uten menneskelig inngripen i digitaliseringsprosessen ikke kan gjøre pålitelige fulltekstsøk i verk fra 1800. Denne analysen har imidlertid siden blitt gjennomgått: falske positive eller falske negativer representerer ofte en lav prosentandel sammenlignet med alle dataene. I tillegg brukes Google Ngram til å skissere trender i bruken av et begrep og ikke for å gi absolutte og presise bruksfigurer.

En annen feil ligger i det faktum at et lite redigert verk vil være like representert som et vidt distribuert verk. I tillegg risikerer bruken av et ord i samme tekst igjen å gi for mye vekt på dette ordet, spesielt hvis det er sjeldent.

Merknader og referanser

  1. (in) "  Google Books Ngram Viewer  "books.google.com (åpnet 14. januar 2021 )
  2. (no) https://books.google.com/ngrams/info
  3. Roth, S. (2014), "Fasjonable funksjoner. Et Google ngram-syn på trender innen funksjonell differensiering (1800-2000)", International Journal of Technology and Human Interaction , Band 10, Nr. 2, S. 34-58 ( online: http://ssrn.com/abstract=2491422 ).
  4. [PDF] “  BNF Archives digitaliseringsprosjekt  ” ( ArkivwikiwixArchive.isGoogle • Hva må gjøres? ) Publisert i 2006.

Se også

Relaterte artikler

Ekstern lenke