Stylometri

Den stylometry er et felt av språk som anvender statistikk for å beskrive de stilistiske egenskaper av en tekst. Det brukes til å identifisere stilen til en forfatter, for å identifisere en forfatter av gamle tekster, for å identifisere en anonym forfatter innen det juridiske feltet.

Historie

Stylometri har gått gjennom tidene og århundrene. Kanskje inspirert av Pythagoras ( "Everything is number" ), begynte det virkelig med den engelske logikeren Augustus de Morgan , før den utviklet seg takket være moderne databehandling . Den første bruken av begrepet stylometri skyldtes Lutoslawski.

Stylometry tar sin moderne form av 1963med Frederick Mosteller fra Harvard University og David Wallace fra University of Chicago, som publiserer en banebrytende artikkel i Journal of the American Statistical Association .

Stylometri har også utviklet seg i Frankrike siden, særlig med Jean-Paul Benzécri , Charles Bernet, Étienne Brunet , Charles Muller og Jean-Marie Viprey. Det undervises spesielt på École des Chartes .

Metoder

Stylometri følger en kvantitativ tilnærming. Den identifiserer de objekterte enhetene i en tekst. Avhengig av språklig synspunkt, varierer disse enhetene. Ordforrådet som bærer mening er naturlig nok den mest studerte; det innebærer en lemmatisering for å redusere leksikale former til ordbokoppføringer, og dens rikdom begrenser antall forekomster . De grammatiske kategoriene blir undersøkt ved hjelp av en grammatisk tagger. Tegnsetting, avstand og bokstaver formidler arkaiske og ubevisste språkstrukturer, sammensatt av lyder og følelser; objektiv og rikelig, karakterer er en betydelig ressurs.

Av disse enhetene beholder tekststatistikk tradisjonelt utseendefrekvensene: teksten forstås fra ordforrådets synspunkt. For syntaktiske strukturer består en første metode i å segmentere en tekst i biter, deretter i å følge utviklingen av frekvensene; divisjonen krever finesse, a fortiori en sammenligning av to forskjellige arkitekturer. Ved å utvide marsjen mot det uendelig lille, tar opptaket av hver forekomst en grunnleggende rytme i kunsten.

Bruker

The Federalist Papers

I 1963, Frederick Mosteller David Wallace fastslår hvem, av Alexander Hamilton og James Madison , som spesifikt skrev de forskjellige artiklene i Federalist Papers som fremmet den amerikanske grunnloven , og publiserte i fellesskap under pseudonymet "Publius". Mens søket etter innholdsord (f.eks. "Krig") mislykkes, er bruken av verktøyord (som "og", "deretter", "på") avslørende: Hamilton bruker ofte "på". "(På), Madison nesten aldri, Hamilton bruker "til" mye, Madison "av", og  så videre. .

Bibliografisk arv

Stylometri har blitt brukt til å identifisere tekster av Homer og Platon , skuespill av Corneille og Molière , dikt av Shakespeare , Voynich-manuskriptet .

De to kartistene , Florian Cafiero og Jean-Baptiste Camps, bekrefter i 2019 forfatterskapet til verkene til Molière, hvis tvil fortsatt var til fordel for Corneille .

Petr Plecháč bekrefter i 2020 at John Fletcher hjalp Shakespeare med å skrive Henry VIII .

Lovlig

I sammenheng med Grégory Affair , en ekspertise innen stylometri bestilt av dommer Claire Barbier fra det sveitsiske selskapet OrphAnalytics i2017 går tilbake til nyheten i 2020, fordi det ville ha belastet en mistenkt i de berømte bokstavene "kråker" og ville bli ledsaget av nye høringer av dommer Dominique Brault. Advokatene og deres parti er uenige om bruken av denne teknikken.

I USA har slike språklige analyser blitt praktisert i domstolene siden det banebrytende arbeidet til Patrick Juola  (i) , understreker de to kartistene Florian Cafiero og Jean-Baptiste Camps. De stiller seg til fordel for bruk i juridiske saker i Frankrike, og husker at teknikken for stilometri verken er sjelden eller fremmed eller ny, samtidig som de innrømmer at den ikke er feilbar, og at de korte tekstene studert i sammenheng med Gregory affære som er kjent for media, egner seg ikke til statistisk analyse på grunn av de mange mistenkte. Resultatene må undersøkes nøye.

Bibliografi

Merknader og referanser

Merknader

  1. Ikke forveksles med stilografi, som innebærer tegning med penn.

Referanser

  1. Cafiero and Camps (2020) .
  2. Holmes David, "  The Evolution of Stylometry in Humanities Scholarship"  ", Digital Scholarship in the Humanities , Oxford Journals,1998( les online )(Fransk oversettelse)
  3. W. Lutoslawski , "  Prinsipper for stilometri anvendt på kronologien til verkene til Platon  ", Revue des Études Grecques , vol.  11, n o  41,1898, s.  61–81 ( ISSN  0035-2039 , DOI  10.3406 / reg.1898.5847 , lest online , åpnet 21. desember 2020 )
  4. Adam Pawłowski og Artur Pacewicz , “  Wincenty Lutosławski (1863–1954)  ”, Historiographia Linguistica , vol.  31, n bein  2-3,31. desember 2004, s.  423-447 ( ISSN  0302-5160 og 1569-9781 , DOI  10.1075 / hl.31.2.10paw , les online , åpnet 20. desember 2020 )
  5. Frederick Mosteller og David L. Wallace , “  Inference in an Authorship Problem,  ” Journal of the American Statistical Association , vol.  58, n o  302,1963, s.  275–309 ( ISSN  0162-1459 , DOI  10.2307 / 2283270 , lest online , åpnet 28. desember 2020 )
  6. Brunet Etienne, fransk vokabular fra 1789 til i dag , Champion,nitten åtti en
  7. Longrée Dominique, Luong Xuan, Mellet Sylvie, "  Verbal tenses, syntagmatic axis, textual topology: analyses of a lemmatized corpus  ", Lexicometrica ,2004( les online )
  8. Markov Andrei, "  Et eksempel på statistisk forskning på teksten til Eugene Onegin som illustrerer sammenhengen mellom testene i kjeder  ", Bulletin of the Imperial Academy of Sciences , Saint-Petersburg,1913
  9. Vonfelt Stephan Music letters: Variations on Yourcenar, Tournier and Le Clézio (thesis), University of Toulouse,2008( les online )
  10. (in) Florian Cafiero og John the Baptist Camps , "  Why Molière Most Sannsynligvis DID wrote His plays  " , Science Advances , vol.  5, n o  11november 2019, eaax5489 ( ISSN  2375-2548 , PMID  31807702 , PMCID  PMC6881153 , DOI  10.1126 / sciadv.aax5489 , lest online , åpnet 28. desember 2020 )
  11. Florian Cafiero og Jean-Baptiste Camps, "  Molière er forfatteren av hans verk  ", Pour la science , nr .  507,januar 2020, s.  54-58
  12. Frédéric Lewino , "  Definitivt, Corneille skrev ikke Molières skuespill!"  » , On Le Point ,27. november 2019(åpnet 28. desember 2020 )
  13. (in) Petr Plecháč , "  Relative bidrag fra Shakespeare og Fletcher i Henry VIII: En analyse basert på hyppigste ord og MEST hyppige rytmiske mønstre  " , Digital Stipend i humaniora ,26. juni 2020, fqaa032 ( ISSN  2055-7671 og 2055-768X , DOI  10.1093 / llc / fqaa032 , leses online , åpnet 28. desember 2020 )
  14. Adrienne Rey , “  AI avslører hva Shakespeare ikke skrev , og hvem gjorde det for det ,  ”korii. ,28. november 2019(åpnet 28. desember 2020 )
  15. Le Progrès , “  Grégory Affair. Justice lanserer en enestående ekspertise i Frankrike  ” , på www.leprogres.fr ,15. mars 2018(åpnet 4. april 2018 ) .
  16. Jean-Michel Décugis, Vincent Gautronneau, Jérémie Pham-Lê, Geoffroy Tomasovitch, Timothée Boutry, "  Grégory affære: nye høringer, inkriminerende ekspertise ... etterforskningen er relansert  " , på leparisien.fr ,15. desember 2020(åpnet 16. desember 2020 )

Se også

Eksterne linker