P-verdi

I en statistisk test er p-verdien (på engelsk p-verdi for sannsynlighetsverdi ), noen ganger også kalt p-verdi , sannsynligheten for en gitt statistisk modell under nullhypotesen for å oppnå samme verdi eller en tilleggsverdi. Mer ekstrem enn det som er observert.

Bruk av p-verdien er vanlig i mange forskningsfelt som fysikk , psykologi , økonomi og biovitenskap .

Generelt prinsipp

P-verdien brukes til å kvantifisere den statistiske signifikansen av et resultat under en nullhypotese . Den generelle ideen er å avgjøre om nullhypotesen er eller ikke er sant, for hvis den gjør det, vil det observerte resultatet være svært usannsynlig. Som sådan er det en utvidelse av prinsippet om bevis ved absurditet .

Et statistisk signifikant resultat er et som ville være usannsynlig hvis nullhypotesen (som vanligvis representerer normen) var sant. Det følger derfor at nullhypotesen ikke gjelder det observerte resultatet, og at den studerte saken skiller seg vesentlig fra standarden og dermed er av spesiell interesse.

Moralt, som et eksempel, forestill deg at vi kjenner loven som fordeler vekten av mennesker i en overvektig befolkning, og at vi tester en "slankende" behandling på en gruppe mennesker. Vi vurderer middelvekten til gruppen etter behandlingen, og vi sjekker med den opprinnelige loven om resultatet er sannsynlig eller usannsynlig. Hvis det er "usannsynlig", er behandlingen effektiv.

I statistiske termer tolkes p-verdien som sannsynligheten for et resultat minst like "ekstrem" som det observerte resultatet, "å kjenne nullhypotesen", eller hvis vi tar standard sannsynlighetsnotasjon ved å kalle x det observerte resultatet og H 0 nullhypotesen kan vi naivt definere p-verdien:

Resultatet av en ”usannsynlig” p-verdi (i henhold til konvensjoner som skal vedtas) innebærer at det observerte eksperimentet ikke følger nullhypotesen, men ikke tillater stricto sensu å skyve fortolkningen videre. P-verdien skal ikke tolkes som en sannsynlighet på nullhypotesen og samsvarer ikke , med den forrige notasjonen, til P ( H 0 | x ) i strid med en feilaktig tolkning som noen ganger er gitt.

For en hale test, dersom X er en tilfeldig variabel og verdien observert i dataene, og p-verdien er: .

For ensidig test på venstre side, dersom X er en tilfeldig variabel og verdien observert i dataene, og p-verdien er: .

For en to-halet test, dersom X er en tilfeldig variabel og verdien observert i dataene, og p-verdien er: . I det spesielle tilfellet med en tetthetsfunksjon på X even, kan man ganske enkelt skrive som vist i illustrasjonen.

Bruk

Dette tallet brukes i inferensiell statistikk for å konkludere med resultatet av en statistisk test. Fremgangsmåten som vanligvis brukes, består i å sammenligne p-verdien med en tidligere definert terskel (tradisjonelt 5%). Hvis p-verdien er mindre enn denne terskelen, blir nullhypotesen avvist til fordel for den alternative hypotesen, og testresultatet blir erklært "statistisk signifikant". Ellers, hvis p-verdien er større enn terskelen, avviser vi ikke nullhypotesen, og vi kan ikke konkludere med noe om hypotesene som er formulert.

Denne bruken av p-verdien settes i tvil, se kritikkavsnittet på denne siden, fordi det ikke tillater at svaret på spørsmålet det er ment å gi svar på, og det bør stoppes i det minste i denne sammenhengen.

Konvensjoner om sannsynlighet

Klassisk tilnærming

Statistikeren Ronald Fisher introduserte begrepene betydning, nullhypotese og bruk av p-verdi. Imidlertid avviste han forestillingen om statistisk makt  : ifølge ham kan nullhypotesen aldri aksepteres, men kan bare avvises av den statistiske testen. I denne tilnærmingen blir p-verdien tatt som et mål på hvor godt dataene argumenterer mot nullhypotesen. Følgende terskler blir generelt tatt for referanse:

Hvis disse verdiene er klassiske og i vanlig bruk, forblir de imidlertid helt vilkårlige og danner således en konvensjon som ikke aksepteres i visse felt som krever veldig høy presisjon.

I eksakte vitenskaper

I eksakte vitenskaper har forskere lenge krevd en statistisk signifikans som tilsvarer et avvik på minst 3 standardavvik for å betrakte et eksperimentelt resultat som en mulig oppdagelse, som tilsvarer en p-verdi på det meste lik 2,7 × 10 −3 , eller omtrent -25,7 desibaner ). Men det store antallet falske positive , det vil si i henhold til definisjonen ovenfor, det store antallet feil av den første typen, har ført til at det vitenskapelige samfunnet krever en statistisk signifikans som tilsvarer en forskjell på minst 5 standardavvik , som tilsvarer en p-verdi på det meste lik 5,7 × 10 −7 , dvs. omtrent -62,5 decibaner (i tilfelle hvor avviket er mulig på begge sider, det vil si - si en ikke-null effekt, enten positiv eller negativ) eller 2,9 × 10 −7 (for bare den ene siden).

Vi vil med interesse konsultere det nylige notatet om emnet, og spesielt erfaringsfeedbacken som er presentert i tabell 1. Forfatteren utvider også diskusjonen om enkel statistisk signifikans til "overraskelsesnivået" og til "virkningen" av antatt oppdagelse (tabell 2), eller, som Laplace allerede sa , "Jo mer ekstraordinært et faktum, jo ​​mer trenger det å bli støttet av sterke bevis". I dette finner vi begreper risikovurdering , der kritisitetsmatrisen kombinerer sannsynligheten for forekomst og alvorlighetsgraden av det aktuelle fenomenet.

P-verdien i Neyman-Pearson-tilnærmingen

Den polske matematikeren Jerzy Neyman og den britiske statistikeren Egon Sharpe Pearson har utviklet en alternativ teoretisk ramme.

I sin tilnærming må feilrate defineres før datainnsamlingen:

Testens statistiske styrke , lik 1 - β, blir således kontrollert og definert på forhånd. Det er da nødvendig å beregne antall data som skal samles inn for å oppnå en slik statistisk kraft, noe som krever estimering av variansen til dataene: for å gjøre dette baserer vi oss på tidligere studier eller på en pilotstudie.

Når dataene samles inn, beregnes p-verdien og følgende beslutning tas:

Beslutningen bør tas mekanisk på slutten av datainnsamlingen. Begrepet betydning avvises: Hvis terskelen som er definert på forhånd er 0,05, anses en p-verdi på 0,001 ikke å være mer signifikant enn en p-verdi på 0,049, i begge tilfeller er avgjørelsen den samme.

Denne prosedyren gjør det teoretisk mulig å ta avgjørelser om tolkningen av dataene mens de tilstrekkelig kontrollerer feilraten på lang sikt. Gyldigheten av disse feilratene avhenger imidlertid av streng overholdelse av prosedyren: innsamling av nye data hvis p-verdien er "nesten signifikant", ellers beregningen av p-verdien før samlingen av helheten. stopper eksperimentet hvis det viser seg å være betydelig ugyldiggjør feilfrekvensen. Dermed avhenger den effektive kontrollen av feilraten av hva forskere faktisk ville gjort når de møtte resultater de ikke forventet, ikke hva de sier de ville gjøre, eller til og med hva de sier de ville gjort. Som de tror de ville gjort. På den annen side, hvis langtidsfeilratene er kjent, er sannsynligheten for å forsvare feil hypotese som et resultat av den statistiske testen i dette eksperimentet ikke kjent. Disse begrensningene førte til utviklingen av den bayesiske tilnærmingen .

Vanlig feil på p-verdi

P-verdien er ikke sannsynligheten for at testhypotesen er sann. P-verdien indikerer hvor godt dataene samsvarer med testhypotesen og dens hypoteser (dvs. den underliggende statistiske modellen).

Eksempler: falske mynter

Anta et myntkast-spill . Nullhypotesen H 0 er at mynten er balansert, dvs. at sannsynligheten for en gitt tegning for å treffe en bunke er den samme som for å slå en hale , nemlig1/2. En observatør utfører eksperimentelle utskrifter for å avgjøre om delen som brukes er partisk eller ikke.

4 'stack' for 4 utskrifter

Anta at observatøren tar fire tegninger og får 4 haler .

Observatøren utfører sannsynlighetsberegningen av dette resultatet. Hvis mynten er balansert (hypotese H 0 ), er sannsynligheten for å få 4 påfølgende slag1/2 4eller 0,0625 eller 6,25%. Hvis observatøren har beholdt den klassiske terskelen på 5%, er konklusjonen av eksperimentet at andelen batteri for eksperimentet ikke er vesentlig større enn forventet andel og ikke tillater konklusjonen om at delen er partisk i det valgte rammeverk. Dette resultatet tillater oss imidlertid ikke å konvertere, omvendt, at delen ikke er partisk.

5 'stack' for 5 utskrifter

Anta at observatøren fortsetter trekkene sine og får 5 resultater haler ut av 5 uavgjorte.

Observatøren utfører den teoretiske sannsynlighetsberegningen igjen hvis hypotesen H 0 er oppfylt. I denne sammenheng er sannsynligheten for å oppnå 5 påfølgende bunker lik1/2 5eller 0,03125 eller 3,125%. Hvis observatøren har beholdt den klassiske terskelen på 5%, er konklusjonen av eksperimentet at andelen batteri for eksperimentet som er utført er betydelig større enn forventet andel, og at det er sannsynlig at hypotesen H 0 ikke vil eller ikke blir verifisert. på signifikansnivået på 5%, for hvis H 0 ble verifisert, ville dette resultatet være usannsynlig (mindre enn 5% sjanse i henhold til den konvensjonelle terskelen som ble brukt). Dette resultatet betyr imidlertid ikke at det er en 95% sjanse for at delen vil være partisk.

17 'stack' for 36 utskrifter

Anta at observatøren starter på nytt med en ny mynt og får 17 haler av 36 trekk.

Tilnærmingen er den samme som for de foregående eksemplene, hvor hovedforskjellen er i beregningen av sannsynligheten for resultatet.

Eksperimenteren vil da kaste mynten n ganger, og vi betegner med X den tilhørende tilfeldige variabelen , som følger en binomefordeling B ( n , p ). Mynten er ikke skjev hvis sannsynligheten for å ha en haler er lik sannsynligheten for å ha en haler, dvs. nullhypotesen er H 0  : p =1/2mot den alternative hypotesen H 1  : p >1/2(vi kunne også ha valgt H 1  : p ≠1/2eller H 1  : p <1/2). For denne hypotesen kan vi teste andelen av en binomial fordeling . Vi får deretter en teststatistikk Z som asymptotisk følger en redusert sentrert normalfordeling . P-verdien er sannsynligheten for at modellen som nettopp er definert for nullhypotesen, har en verdi mer ekstrem enn den som ble observert (teststatistikken), det vil si å ha P ( Y > z ) med Y en redusert sentrert normalvariabel og z oppnåelse av teststatistikken.

Numerisk eksempel med eksemplet ovenfor: anta at man oppnår 17 hoder (eller suksess) på 36 forsøk. Realiseringen av teststatistikken til testen på andelen av en binomialfordeling vil da være:

.

P-verdien er med Y etter en redusert sentrert normalfordeling.

P-verdien er større enn 0,05, slik at nullhypotesen ikke avvises.

Anmeldelser

Bruken av en p-verdi for å konkludere etter en statistisk test blir veldig sterkt stilt spørsmål ved av flere grunner. Først fra et formelt synspunkt betegner verdien av p sannsynligheten for å observere et datasett under hypotesen H 0 (P ( x | H 0 )), mens vi ved å gjøre testen søker å vite hva som er sannsynligheten for at H 0 er sant gitt dataene (P ( H 0 | x )). Nå fremgår det av Bayes 'teorem at P ( x | H 0 ) ≠ P ( H 0 | x ), i dette tilfellet siden:

Så David Colquhoun konkluderer: "Det konkluderes med at hvis du vil holde den falske oppdagelsesgraden under 5%, bør du bruke regelen 68-95-99.7 eller en p-verdi mindre enn 0,001" .

Verdien skal altså aldri brukes til å validere en hypotese fra data, siden det ikke er det som beregnes.

Merknader

  1. Denne naive definisjonen er problematisk når det gjelder kontinuerlige fordelinger, hvor sannsynligheten for en gitt individuell verdi alltid er null. I dette tilfellet vil vi omgå vanskeligheten enten ved å bruke intervaller av verdier som avrunding eller ved å omformulere observasjonen x som "verdien av en hendelse er mindre / større enn den observerte verdien x"

Referanser

  1. (in) Larry Wasserman , All Statistics: A Concise Course in Statistical Inference , New York, Springer-Verlag ,15. september 2004, 461  s. ( ISBN  978-0-387-40272-7 , DOI  10.1007 / 978-0-387-21736-9 , les online ), definisjon 10.11.
  2. (i) Paul E. Meehl  (i) , "  Hvorfor sammendrag av forskning er psykologiske teorier er ofte ufortolkbare  " , Psychological Reports ,1990( DOI  10.2466 / PR0.66.1.195-244 )
  3. (i) Jacob Cohen, "  Jorden er rund (p <.05)  " , amerikansk psykolog ,1994( DOI  10.1037 / 0003-066X.49.12.997 )
  4. (i) Monya Baker, "  Statistikere etter advarsel på P-verdier  " , Nature ,2016, s.  351: 151-152 ( DOI  10.1038 / nature.2016.19503 )
  5. (en) David Colquhoun, "  En undersøkelse av den falske oppdagelsesgraden og feiltolkningen av p-verdier  " , Royal Society Open Science ,2014, s.  140216 ( DOI  10.1098 / rsos.140216 )
  6. (en) Wasserstein RL, Lazar NA, "  ASAs uttalelse om p-verdier: kontekst, prosess og formål  " , den amerikanske statistikeren ,2016, s.  70: 129-133 ( DOI  10.1080 / 00031305.2016.1154108 )
  7. (in) Johnson VE, "  Revised standards for statistical evidence  " , PNAS ,2013, s.  110: 19313-19317 ( DOI  10.1073 / pnas.1313476110 )
  8. (i) Valentin Amrhein og Sander Greenland , "  Fjern, heller enn omdefinere, statistisk signifikans  " , Nature Human Behavior , vol.  1,2017, s.  0224 ( DOI  10.1038 / s41562-017-0224-0 )
  9. (in) 38.1 Tabellgjennomgang av Particle Data Group-statistikken.
  10. ) å lese for eksempel diskusjonen nedenfor ligning. (38.41) av den statistiske gjennomgangen av Particle Data Group.
  11. (in) "Ekstraordinære påstander: 0,000029% -løsningen" EPJ Web of Conferences, Volume 95, 2015, 3rd International Conference on New Frontiers in Physics, 2015. DOI : 10.1051 / epjconf / 20159502003
  12. Laplace - Komplett verk, Gauthier-Villars, 1878, bind 7
  13. (in) Zoltán Dienes , Understanding Psychology as a Science: An Introduction to Scientific and Statistical Inference , Palgrave Macmillan ,2008, 170  s. ( ISBN  978-0-230-54231-0 og 0-230-54231-X )
  14. (in) "  Statistiske tester, P-verdier, konfidensintervaller og kraft: en guide til feiltolkninger  " ( DOI  10.1007 / s10654-016-0149-3 )