Paradoks av bursdager

De bursdager paradoks Resultatene fra sannsynlighetsestimat for antall personer som må bringes sammen for å ha minst én sjanse i to som to personer i denne gruppen har sine bursdager på samme dag. Det viser seg at tallet er 23, noe som sjokkerer intuisjonen litt. Fra en gruppe på 57 personer er sannsynligheten større enn 99%.

Dette er et paradoks ikke i betydningen logisk motsetning , men i den forstand at det er en matematisk sannhet som strider mot intuisjonen  : de fleste anslår at denne sannsynligheten er mye mindre enn 50%.

Denne studien er av Richard von Mises .

Forstå problemet

For enkelhets skyld er artikkelen skrevet forutsatt at alle år ikke er sprang . Ta hensyn til29. februar ville endre resultatene lite, men ville gjøre beregningene veldig delikate.

Intuitiv mening

Problemet med bursdager kommer ned på å velge et antall n elementer i et sett som inkluderer N , uten uttak; det vil si uten å fjerne de valgte elementene, slik at noen kan være identiske. Paradokset med bursdager er virkelig et tilfelle av denne typen, fordi hver og en har en mer eller mindre tilfeldig jubileumsdato, og det er ingen a priori grunn til annet enn sannsynligheten for at to datoer er identiske eller forskjellige.

Forestille seg for eksempel at i løpet av en kveld høsting n mennesker, små papirer, på hvilke det er bemerket tallene fra 1 til N , er plassert i en kurv. Hver av dem tegner et stykke papir, leser nummeret han bærer, og legger det deretter i kurven. Hva er sjansene for at minst to tall som er trukket er like? eller tvert imot slik at alle er forskjellige?

For å beregne den numeriske sannsynligheten er det lettere å telle sjansene for at alle tallene er forskjellige. Det ikke åpenbare nøkkelpunktet som villeder vår intuisjon, snarere tvert imot, gjelder sjansene for at minst to tall er identiske. Til slutt er de to tilnærmingene selvsagt likeverdige.

Hvis vi vurderer et gitt tall tegnet, hva er sjansene for å være identiske med et annet? Det kan være lik alle andre; Det totale antall muligheter begrenses sine sjanser: så vi intuitivt proporsjonal hell n / N . Men denne mulighet gjelder for alle de tall som trekkes, slik at til slutt, er sjansen for at et hvilket som helst antall trukket er identisk med et hvilket som helst annet tall trukket er i en mengde på ca. N 2 / N . Det er her intuisjonen vår blir lurt, og vi forutser en sannsynlighet på 50% for n nær N / 2 mens N er en bedre tilnærming.

Dette tilsvarer å si at vi forveksler det stilte spørsmålet: sjansene for at et valgt element er identisk med et annet, med et annet lignende spørsmål: sjansene for at et valgt element er identisk med et annet gitt element . Når det gjelder bursdager, har vi en tendens til å intuitivt vurdere sannsynligheten for at noens bursdag er den samme som en gitt bursdag (f.eks. Min); i stedet for sannsynligheten for at noen bursdag er det samme som noens andres.

Det gjenstår å se hvorfor vår intuisjon blir lurt, det vil si hvorfor den ikke virker spontant i stand til å nærme seg et problem av denne typen riktig. Dette er et spørsmål for kognitiv vitenskap .

Demonstrasjon

Vi gir et bevis for den opprinnelige saken, med bursdager, men dette overføres ganske enkelt til saken om den oppgitte generaliseringen. En hyppig feil i demonstrasjonen er å telle antall par, så utelater vi det faktum at hendelsene ikke er usammenhengende, og at tre personer godt kan dele samme fødselsdato: disse hendelsene er ikke usammenhengende . Den enkleste måten å oppnå det annonserte resultatet er å beregne sannsynligheten for at hver person har en annen bursdag enn de andres: det motsatte av det vi leter etter.

Vi kan fortsette med induksjon  : den første personen har derfor 365 valg, den andre 364, den tredje 363, den fjerde 362, og så videre. Vi vil fortsette her ved å telle , det vil si, vi vil telle antall tilfeller der n mennesker har forskjellige bursdager, og vi vil dele på antall muligheter. I begge tilfeller legger vi til grunn antrekkbarhet for fødselsdagene.

Det er mennesker, for hver er det 365 mulige dager, så totalt sett hvis vi ikke setter noen begrensninger, er det 365 n muligheter. Hvis nå ønsker vi dagene annerledes , får vi en forståelse av fra 365, enten: .

Så det har vi gjort

Vi kan også se det som en multiplikasjon av sannsynligheten for uavhengige hendelser:

Arrangementet "en annen jubileumsdag per person" er imidlertid komplementet til "minst to identiske". Derfor er sannsynligheten som er søkt .

Ved å lage den digitale applikasjonen er det 50,73% sjanse for to identiske fødselsdager i en samling på tjuetre personer.

ikke p ( n )
5 2,71%
10 11,69%
15 25,29%
20 41,14%
23 50,73%
25 56,87%
30 70,63%
40 89,12%
50 97,04%
60 99,41%
80 99,99%
100 99,99997%
200 99.99999999999999999999999998%
300
350
> 365 100% (etter skuffeprinsippet )

Generalisering

Dette paradokset av bursdager generaliserer til den mer abstrakte situasjonen som kan angis i formen:

La være et endelig sett med kardinal . Sannsynligheten for at minst to elementer er like mellom elementene i at hvert element blir tegnet jevnt gjennom hele settet , er:

Sannsynlighetstilnærming

Sannsynligheten kan skrives om som:

Imidlertid har vi den begrensede utvidelsen for x nær 0. Dette fører til tilnærmingen:

Summen av heltall fra 0 til er imidlertid verdt , noe som til slutt gir:

Kommer tilbake til  :

Anslag for antall trekk for en gitt sannsynlighet

Tilnærmingen av gjør det mulig å bare få en tilnærming til antall personer som er nødvendige for å ha en gitt sannsynlighet for å ha minst to personer med samme bursdag. Vi får dermed:

Noen numeriske verdier

Tabellen nedenfor indikerer i det opprinnelige tilfellet ( ), for en sannsynlighet , tilnærmingen , deretter på samme linje, tilnærmingen av sannsynligheten for heltallet mindre enn eller lik (bemerket ) og sannsynligheten for heltallet større enn eller lik (bemerket ). Normalt bør sannsynligheten som er fast i starten være mellom disse to verdiene. Oppføringer som ikke oppfyller denne betingelsen er angitt i farger .

0,01 2.70864 2 0,00274 3 0,00820
0,05 6,11916 6 0,04046 7 0,05624
0,1 8,77002 8 0,07434 9 0,09462
0,2 12,76302 12 0,16702 1. 3 0,19441
0,3 16.13607 16 0,28360 17 0,31501
0,5 22.49439 22 0,47570 23 0,50730
0,7 29,64625 29 0,68097 30 0,70632
0,8 34,27666 34 0,79532 35 0,81438
0,9 40.99862 40 0,89123 41 0,90315
0,95 46,76414 46 0,94825 47 0.95477
0,99 57.98081 57 0,99012 58 0,99166

Kobling til Rayleighs lov

I uttrykket:

vi gjenkjenner distribusjonsfunksjonen til Rayleigh  :

Faktisk, sett i det mer generelle rammeverket av tildelingsproblemer, blir beregningen ovenfor tolket som konvergensen til en distribusjonsfunksjon mot en annen, og oversetter konvergensen til loven til en serie tilfeldige variabler: la oss vurdere m bokser nummerert fra 1 til m , m er, for øyeblikket, fast . Anta at baller er allokert til den, hver ball blir plassert i en av m- boksene på en ekviprobabel måte, uavhengig av foregående tildelinger, og dette på ubestemt tid . Hvis m = 365 , er dette bursdagssituasjon for en stadig voksende gruppe mennesker . Legg merke til rangeringen til den første ballen som er tildelt i en boks som allerede inneholder en annen ball, som tilsvarer rangen til den første personen som ankommer gruppen, hvis jubileumsdato allerede er for et annet medlem av gruppen (før hans ankomst alle medlemmene i gruppen har forskjellige bursdager, etter ankomst er dette ikke lenger tilfelle). Så

Og tilnærmingen ovenfor kan derfor skrives:

Dette gjenspeiler det faktum at sekvensen av tilfeldige variabler konvergerer i lov mot Rayleighs lov, og på samme måte avslører dette et paradoks for sunn fornuft: vi forventer sannsynligvis at den skal være i samme størrelsesorden som m , mens dette konvergens i lov avslører at det er av samme størrelsesorden som Fenomenet gjentakelse av fødselsdager foregår derfor tidligere, for en mindre gruppe enn man forventer.

Ikke-uniform sak

I forrige beregning ble det implisitt antatt fordeling av fødselsdager i året. Hva skjer hvis vi ikke lenger antar det? Svaret er at det øker sjansen for å vinne innsatsen at to personer blir født samme dag, noe som ytterligere forsterker paradokset.

Demonstrasjon av dette faktum.

Ettersom demonstrasjonen vil bli gjort ved induksjon på antall dager i året, noterer vi dette tallet og antall personer; eller den tilfeldige variabelen som gir fødselsdagen til person nr . Naturligvis antas variablene å være uavhengige med samme lov :, uavhengig av .

Den etterspurte begivenheten (mennesker blir født på forskjellige dager) er møtet med usammenhengende hendelser som en ordning av .

Ønsket sannsynlighet er derfor

.

Som kunngjort vil vi vise at for alt mellom 2 og ,

.

Posering , vi vil enda mer generelt bevise ved induksjon på det for alt mellom 2 og  :

.

For , den eneste muligheten for er , og ulikheten er lett.

Anta at eiendommen er ordensbestemt og viser den til bestilling .

La oss sette og .

Legg merke til det .

Ved induksjonshypotese,

og .

Så vi får .

Er

.

Posering , den siste parentesen er

.

De avledede viser som er maksimal for , det vil si .

Så hva fullfører gjentakelsen.

Merk at dette tilsvarer at forventningen til produktet av forskjellige tall hentet fra positive tall for en gitt sum er maksimum når disse tallene er like.

Geometrisk:

Blant alle de rektangulære hyperparallelepepedene (eller ortotoper) av dimensjonen av summen av lengdene på de oppgitte kantene, er den som har størst gjennomsnitt av hypervolumene i cellene hypercube. For eller 3: blant alle de rektangulære parallellepipedene med summen av lengdene på de angitte kantene, er den med det største arealet (eller volumet) kuben.

applikasjoner

I Le Trésor des Paradoxes (Éd Belin, 2007) bemerker forfatterne at den amerikanske informatikeren Robert Mac Eliece etablerte interessen for paradokset til fødselsdager i datavitenskap, for å sikre påliteligheten til dataminner, takket være feiloppdagelseskoder, basert spesielt om arbeidet til Richard Hamming ved Bell Laboratories . Strategien for feiloppdagelseskoder viser seg fra et statistisk synspunkt å være lik bursdagsparadokset. Bursdagsparadokset brukes i kryptografi for å utvikle angrep på hashfunksjoner . En av begrensningene som pålegges disse funksjonene, for kryptografisk bruk, er å produsere få kollisjoner , med andre ord å sjelden ta den samme verdien på forskjellige innganger.

Fødselsdagsparadokset gir en avgrensning av det gjennomsnittlige antall elementer som er nødvendige for å ha en kollisjon med en sannsynlighet , nemlig i hovedsak kvadratroten til antall mulige verdier for hashfunksjonen, under antagelse om at denne funksjonen er jevnt fordelt på sin ankomstverdier.

Mer konkret, hvis en hash-funksjon har en utgang på N- bits , har ankomstsettet elementer og det tar omtrent hasj av forskjellige elementer for å produsere en kollisjon med 50% sjanse; resultatene av funksjonen kan sammenlignes med personer med bursdager spredt over verdier.

Praktisk anvendelse av bursdagsangrepet

La oss anta at Martine ønsker å tvinge Daniel til å undertegne en veldig ugunstig kontrakt, og kontrakten må valideres av hans avtrykk (hash-verdi), og denne garanterer at kontrakten ikke kan endres etter signaturen.

Hun utarbeider en rettferdig kontrakt, og en ugunstig kontrakt. Deretter genererer den automatisk varianter av hver av avtalene med kosmetiske endringer (tillegg av mellomrom, bruk av synonymer, ombestilling av avsnitt osv.). Den beregner fingeravtrykket til hver kontrakt ved å se etter par med de samme fingeravtrykkene (med og uten modifikasjoner). Så snart en kollisjon er funnet, gir hun den tilsvarende rettferdige kontrakten til Daniel som verifiserer den, signerer den, beregner avtrykket og fester det til kontrakten.

Martine gjør det samme med den ugunstige kontrakten, og presenterer den for Daniel. Hvis han bestrider vilkårene for kontrakten han signerte, viser avtrykket at det er umulig at det kunne blitt endret. Det vil fremdeles være mulig for ham å motsette seg den opprinnelige kontrakten mot Martine, noe som skulle føre til at kontrakten blir ugyldig.

Kobling med DNA-identifikasjon

I det rettsmedisinske feltet er identifikasjonssannsynlighetene som gis med DNA-fingeravtrykksteknikken ofte dårlig forstått. Så hvis sannsynligheten for at to individer som deler ni lokus er omtrent en av 13 milliarder kroner, vil omtrent 116 par personer i en database på 65 000 mennesker ha 9 av de 13 lokene til felles. Brukt til identifikasjonsformål.

Anekdote

I boka som gjør Crazy , Raymond Smullyan sier han hadde sine 19 studenter etablere formelen. Han konkluderer etter digital søknad at det er mye mindre enn én sjanse av to (litt under 38%) at to elever har bursdag samme dag. En student svarer at han satser på at det hele er det samme. Læreren ringer ved å be elevene oppgi fødselsdato, og ler før slutten, etterfulgt av hele klassen, og husker at to av elevene hans er tvillinger .

Merknader og referanser

  1. Ross 2014 , s.  37.
  2. "  Attack" bursdager "  "
  3. Leila Schneps og Coralie Colmez ( oversatt  fra engelsk av Coralie Colmez), Matematikk i retten: feilberegninger gjør rettslige feil [“  Math on Trial. Hvordan numre blir brukt og misbrukt i rettssalen  ”], Paris, Seuil , koll.  "Åpen vitenskap", 280  s. ( ISBN  978-2-02-110439-4 ) , kap.  5 ("Diana Sylvester-affære: analyse av en kald hit").
  4. Smullyan 1982 , s.  6.

Vedlegg

Bibliografi

Relaterte artikler

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">