Median (statistikk)

I sannsynlighetsteori og statistikk er medianen verdien som skiller den nederste halvdelen fra den øverste halvdelen av et sett ( utvalg , populasjon , sannsynlighetsfordeling ). Intuitivt er dermed medianen midtpunktet for helheten. Det er en sentral tendensindikator for serien. Vi kan bestemme en median for et sett med ikke-numeriske verdier så lenge vi kan velge et kriterium for å bestille disse verdiene.

Beregningsmetode

Generell tilnærming

For å bestemme en median av et verdisett, er det tilstrekkelig å ordne verdiene i en økende liste og velge verdien som er i sentrum av denne listen. For en ordnet liste over n elementer, hvor n er merkelig, er verdien av elementet i posisjon (n + 1) / 2 medianen. Hvis antallet n av elementene er jevnt, er en hvilken som helst verdi mellom elementene i posisjoner (n-1) / 2 og (n + 1) / 2 en median; i praksis, når det gjelder en liste over tall, er det det aritmetiske gjennomsnittet av disse to sentrale verdiene som oftest brukes .

Den kompleksiteten av algoritmen for å beregne median er derfor kompleksiteten av sorteringsalgoritme som brukes, nemlig O ( n log n ) i beste fall .

Eksempler

Annen tilnærming

For å bestemme en median av et verdisett, er det tilstrekkelig å beregne de økende kumulative prosentene, og vi tar den første verdien av serien hvis kumulative prosentandel overstiger 50%.

Denne metoden er mer praktisk når du har et stort antall verdier.

Effektivitet av algoritmer

Det er algoritmer med lineær kompleksitet (i O ( n )), derfor mer effektive. Dette er algoritmer som generelt gjør det mulig å bestemme k- th-elementet i en liste over n- elementer (se Seleksjonsalgoritme ); k = n / 2 for medianen. Dette er tilpasninger av sorteringsalgoritmene, men som er mer effektive fordi vi ikke er interessert i alle verdiene. For eksempel kan vi bruke delings- og erobringsalgoritmen i bare O ( n ) -operasjoner; i tilfelle av algoritmen QuickSelect , endre hurtig sortering ( kviksort ), som vanligvis er i O ( n ), men i verste fall kan være i O ( n 2 ).

I praksis, hvis vi leter etter medianen til en liste over n heltall, og hvis vi er heldige å finne at maksimumsverdien m er mindre enn n 2 (dette funnet koster O ( n )), så tellesortering , implementering veldig enkelt, og kostnaden for dette er, i dette tilfellet, O ( m ) -operasjoner gjør det mulig å oppnå medianen i mindre enn O ( n 2 ) -operasjoner. Denne saken gjelder særlig for karakterer av 20 (uten desimaler) i en klasse på mer enn 5 elever (5 i kvadrat er større enn 20).

Statistisk spredningsmåling

Når medianen brukes til å lokalisere verdier i beskrivende statistikk, er det forskjellige muligheter for å uttrykke variabiliteten: rekkevidde , interkvartilområde og absolutt område . Siden medianen er den samme verdien som den andre kvartilen , er beregningen dens detaljert i artikkelen om kvartiler .

Medianer i sannsynlighetsfordelinger

For alle reelle sannsynlighetsfordelinger tilfredsstiller medianen m likheten:

dvs. når det gjelder distribusjonsfunksjon  :

Så for en diffus sannsynlighetsfordeling (kontinuerlig distribusjonsfunksjon):

Medianer av noen distribusjoner

For alle symmetriske fordelinger er medianen lik forventningen.

Medianere i beskrivende statistikk

Medianen brukes hovedsakelig for skjevfordelinger fordi den representerer dem bedre enn det aritmetiske gjennomsnittet. Tenk på settet {1, 2, 2, 2, 3, 9}. Medianen er 2, i likhet med modusen, som er et bedre mål på sentral tendens enn det aritmetiske gjennomsnittet på 3.166….

Beregningen av medianen gjøres ofte for å representere forskjellige fordelinger og er lett å forstå så vel som å beregne. Det er også mer robust enn gjennomsnittet i nærvær av ekstreme verdier.

Teoretiske egenskaper

Optimal eiendom

Medianen er også den sentrale verdien som minimerer middelverdien av de absolutte avvikene. I serien {1, 2, 2, 2, 3, 9} gitt tidligere, vil dette være (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5, i stedet for 1,944 fra gjennomsnittet, som for sin del minimerer kvadratiske avvik. I sannsynlighetsteori, verdien c som minimerer

er medianen av sannsynlighetsfordelingen for den stokastisk variabel X .

Ulikhet som involverer midler og medianer

For kontinuerlige sannsynlighetsfordelinger er forskjellen mellom medianen og forventningen høyst ett standardavvik .

Merknader og referanser

  1. "Beregning av medianen" , Statistics Canada .
  2. Fabrice Mazerolle, "  Median  " ,2012(åpnet 13. februar 2012 ) .
  3. [ (no)  Valg (deterministisk og randomisert): å finne medianen i lineær tid ]

Se også

Relaterte artikler

Eksterne linker