Bestillingsstatistikk
I statistikk er k- rangordensstatistikken til et statistisk utvalg lik den k -minste verdien. Sammen med rangstatistikk er ordrestatistikk et av de grunnleggende verktøyene for ikke-parametrisk statistikk og statistisk slutning .
To viktige tilfeller av ordrestatistikk er statistikken over minimum og maksimum , og i mindre grad medianen til utvalget samt de forskjellige kvantilene .
Når vi bruker sannsynlighetsteori til å analysere ordrestatistikken til et utvalg fra en kontinuerlig sannsynlighetslov , brukes distribusjonsfunksjonen til å redusere analysen til tilfelle ordrestatistikk på en ensartet lov, fortsetter
Notasjon og eksempler
La være et eksperiment som fører til observasjon av et utvalg på 4 tall, og ta følgende verdier:
6, 9, 3, 8,
som vi legger merke til i henhold til konvensjonen:
x1=6; x2=9; x3=3; x4=8{\ displaystyle x_ {1} = 6; \ \ x_ {2} = 9; \ \ x_ {3} = 3; \ \ x_ {4} = 8 \,}hvor i i abonnement brukes til å identifisere observasjonen (ved sin tidsrekkefølge, nummeret på den tilsvarende enheten osv.), og ikke er på forhånd korrelert med verdien av observasjonen.
Vi noterer ordrestatistikken:
x(1)=3; x(2)=6; x(3)=8; x(4)=9{\ displaystyle x _ {(1)} = 3; \ \ x _ {(2)} = 6; \ \ x _ {(3)} = 8; \ \ x _ {(4)} = 9 \, }der indeksen ( i ) angir den i rekkefølge statistikken til utvalget etter den vanlige rekkefølge relasjonen på naturlige tall .
Etter konvensjonen er den første ordens statistikk, bemerket , alltid minimumet av prøven, det vil si:
X(1){\ displaystyle X _ {(1)}}
X(1)=min{X1,...,Xikke}{\ displaystyle X _ {(1)} = \ min \ {\, X_ {1}, \ ldots, X_ {n} \, \}}Etter den vanlige konvensjonen refererer store bokstaver til tilfeldige variabler , og bokstavene med små bokstaver til de observerte verdiene (realiseringene) av disse variablene.
På samme måte er statistikken for rekkefølge n (med andre ord maksimum)
for et utvalg av størrelse n
X(ikke)=maks{X1,...,Xikke}.{\ displaystyle X _ {(n)} = \ max \ {\, X_ {1}, \ ldots, X_ {n} \, \}.}Bestillingsstatistikken er lokaliteten til diskontinuitetene i prøvenes empiriske distribusjonsfunksjon .
Probabilistisk analyse
Tetthet av en ordrestatistikk
Gitt et utvalg oppnås derfor ordrestatistikken ved stigende sortering.
X=(X1,X2,...,Xikke){\ displaystyle X = (X_ {1}, X_ {2}, \ ldots, X_ {n})}X(1),X(2),...,X(ikke){\ displaystyle X _ {(1)}, X _ {(2)}, \ ldots, X _ {(n)}}
Teorem - Hvis vi antar at prøven X er uavhengig og identisk fordelt i henhold til en lov om tetthet f og fordelingsfunksjon F , så er tettheten til k- ordensstatistikken
fX(k)(x)=ikke!(k-1)!(ikke-k)!F(x)k-1(1-F(x))ikke-kf(x).{\ displaystyle f_ {X _ {(k)}} (x) = {n! \ over (k-1)! (nk)!} F (x) ^ {k-1} (1-F (x)) ^ {nk} f (x).}
Demonstrasjon
Beregning via fordelingsfunksjonen
Distribusjonsfunksjonen til k- ordensstatistikken er
P(X(k)≤x)=FX(k)(x)=P(påu moJegikkes k des ikke X soikket ≤x)=∑j=kikke(ikkej)P(X1≤x)j(1-P(X1≤x))ikke-j=∑j=kikke(ikkej)F(x)j(1-F(x))ikke-j.{\ displaystyle {\ begin {align} \ mathbb {P} \ left (X _ {(k)} \ leq x \ right) & {} = F_ {X _ {(k)}} (x) \ quad = \ quad \ mathbb {P} (\ mathrm {au} \ \ mathrm {less} \ k \ \ mathrm {des} \ n \ X \ \ mathrm {are} \ \ leq x) \\ & = \ sum _ { j = k} ^ {n} {n \ velg j} \ mathbb {P} (X_ {1} \ leq x) ^ {j} (1- \ mathbb {P} (X_ {1} \ leq x)) ^ {nj} \\ & = \ sum _ {j = k} ^ {n} {n \ velg j} F (x) ^ {j} (1-F (x)) ^ {nj}. \ end { justert}}}Med andre ord, antall elementer i prøven mindre enn x følger en binomial lov av parameterne n og F (x) , siden dette er n uavhengige eksperimenter, med to utfall: "å være mindre enn x " og "være større enn x ”, det første av de to resultatene har sannsynligheten F (x) , og det andre resultatet har sannsynligheten 1-F (x) . Ved å drive, finner vi en teleskopisk sum som gir tettheten:
fX(k)(x)=ddxFX(k)(x)=∑j=kikke(ikkej)(jF(x)j-1f(x)(1-F(x))ikke-j+F(x)j(ikke-j)(1-F(x))ikke-j-1(-f(x)))=(ikkek)kF(x)k-1f(x)(1-F(x))ikke-k + ∑j=k+1ikke(ikkej)jF(x)j-1f(x)(1-F(x))ikke-j - ∑j=kikke-1(ikke-j)(ikkej) F(x)jf(x)(1-F(x))ikke-j-1=(ikkek)kF(x)k-1f(x)(1-F(x))ikke-k + ∑j=k+1ikke(ikkej)jF(x)j-1f(x)(1-F(x))ikke-j - ∑j=k+1ikke(ikke-j+1)(ikkej-1) F(x)j-1f(x)(1-F(x))ikke-j=(ikkek)kF(x)k-1f(x)(1-F(x))ikke-k + ∑j=k+1ikke((ikkej)j-(ikke-j+1)(ikkej-1)) F(x)j-1f(x)(1-F(x))ikke-j=(ikkek)kF(x)k-1f(x)(1-F(x))ikke-k,{\ displaystyle {\ begin {align} f_ {X _ {(k)}} (x) & {} = {d \ over dx} F_ {X _ {(k)}} (x) \\ & {} = \ sum _ {j = k} ^ {n} {n \ velg j} \ venstre (jF (x) ^ {j-1} f (x) (1-F (x)) ^ {nj} + F (x) ^ {j} (nj) (1-F (x)) ^ {nj-1} (- f (x)) \ høyre) \\ & {} = {n \ velg k} \, kF ( x) ^ {k-1} f (x) (1-F (x)) ^ {nk} \ + \ \ sum _ {j = k + 1} ^ {n} {n \ velg j} jF (x ) ^ {j-1} f (x) (1-F (x)) ^ {nj} \ - \ \ sum _ {j = k} ^ {n-1} (nj) {n \ velg j} \ F (x) ^ {j} f (x) (1-F (x)) ^ {nj-1} \\ & {} = {n \ velg k} \, kF (x) ^ {k-1} f (x) (1-F (x)) ^ {nk} \ + \ \ sum _ {j = k + 1} ^ {n} {n \ velg j} jF (x) ^ {j-1} f (x) (1-F (x)) ^ {nj} \ - \ \ sum _ {j = k + 1} ^ {n} (n-j + 1) {n \ velg j-1} \ F (x) ^ {j-1} f (x) (1-F (x)) ^ {nj} \\ & {} = {n \ velg k} \, kF (x) ^ {k-1} f (x) (1-F (x)) ^ {nk} \ + \ \ sum _ {j = k + 1} ^ {n} \ left ({n \ velg j} j- (nj + 1) {n \ velg j -1} \ høyre) \ F (x) ^ {j-1} f (x) (1-F (x)) ^ {nj} \\ & {} = {n \ velg k} \, kF (x ) ^ {k-1} f (x) (1-F (x)) ^ {nk}, \ end {justert}}}fordi
(ikkej)j = ikke!jj!(ikke-j)! = ikke!(ikke-j+1)(j-1)!(ikke-j+1)! = (ikke-j+1)(ikkej-1).{\ displaystyle {n \ velg j} j \ = \ {\ frac {n! \, j} {j! \, (nj)!}} \ = \ {\ frac {n! \, (n-j + 1) } {(j-1)! \, (Nj + 1)!}} \ = \ (Nj + 1) {n \ velg j-1}.}Endelig:
fX(k)(x)=ikke!(k-1)!(ikke-k)!F(x)k-1(1-F(x))ikke-kf(x).{\ displaystyle f_ {X _ {(k)}} (x) = {n! \ over (k-1)! (nk)!} F (x) ^ {k-1} (1-F (x)) ^ {nk} f (x).}Direkte beregning
I en serie av n uavhengige og identiske tilfeldige eksperimenter som hver har tre mulige resultater, si en , b , og c , med respektive sannsynligheter p en , p b , p c , den felles loven om antallet av utfall N en (resp. N b , N c ) typen har . (henholdsvis b , c ) er en MULTINOMIAL fordelingsparametere n og p = (p en p b , p c ), beskrevet av:
P((IKKEpå,IKKEb,IKKEvs.)=(kpå,kb,kvs.))=(ikkekpå,kb,kvs.) spåkpåsbkbsvs.kvs. 11kpå+kb+kvs.=ikke=ikke!kpå!kb!kvs.! spåkpåsbkbsvs.kvs. 11kpå+kb+kvs.=ikke.{\ displaystyle {\ begin {align} \ mathbb {P} \ left ((N_ {a}, N_ {b}, N_ {c}) = (k_ {a}, k_ {b}, k_ {c}) \ høyre) & = {n \ velg k_ {a}, k_ {b}, k_ {c}} \ p_ {a} ^ {k_ {a}} \, p_ {b} ^ {k_ {b}} \ , p_ {c} ^ {k_ {c}} \ 1 \! \! 1_ {k_ {a} + k_ {b} + k_ {c} = n} \\ & = {\ frac {n!} {k_ {a}! \, k_ {b}! \, k_ {c}!}} \ p_ {a} ^ {k_ {a}} \, p_ {b} ^ {k_ {b}} \, p_ {c } ^ {k_ {c}} \ 1 \! \! 1_ {k_ {a} + k_ {b} + k_ {c} = n}. \ end {justert}}}Således er tettheten av X (k) blir oppnådd ved å gjenkjenne en serie av n uavhengige og identiske tilfeldige eksperimenter som hver har tre mulige resultater, X i ≤ x , x <X i ≤ x + dx , og X i > x + dx ' ' , med respektive sannsynligheter F (x) , f (x) dx og 1-F (x) -f (x) dx . Så,
fX(k)(x) dx=P(X(k)∈[x,x+dx])P( fra ikke XJeg,nøyaktig k-1 er ≤x,nøyaktig en av XJeg∈[x,x+dx],og de andre er ≥x+dx)=ikke!(k-1)!1!(ikke-k)! F(x)k-1f(x)dx(1-F(x))ikke-k=ikke!(k-1)!(ikke-k)! F(x)k-1(1-F(x))ikke-kf(x)dx.{\ displaystyle {\ begin {align} f_ {X _ {(k)}} (x) \ dx & {} = \ mathbb {P} \ left (X _ {(k)} \ i [x, \, x + dx] \ høyre) \\ & {} \ mathbb {P} \ venstre ({\ text {blant}} n \ X_ {i}, {\ text {nøyaktig}} \ k-1 \ {\ tekst {er}} \ \ leq x, {\ text {nøyaktig en av}} X_ {i} \ i [x, \, x + dx], {\ text {og de andre er}} \ \ geq x + dx \ høyre) \\ & = {\ frac {n!} {(k-1)! \, 1! \, (nk)!}} \ F (x) ^ {k-1} \, f (x) \, dx \, (1-F (x)) ^ {nk} \\ & = {\ frac {n!} {(K-1)! \, (Nk)!}} \ F (x) ^ { k-1} \, (1-F (x)) ^ {nk} \, f (x) \, dx. \ Slutt {justert}}}
Spesielt
fX(ikke)(x)=ikkeF(x)ikke-1 f(x),{\ displaystyle f_ {X _ {(n)}} (x) = nF (x) ^ {n-1} \ f (x),}formel som kan bli funnet direkte, ved å utlede resultatet av beregningen nedenfor:
P(X(ikke)≤x)=FX(ikke)(x)=P(maks(X1,...,Xikke)≤x)=P(hver av ikke X est ≤x)=P(X1≤x)...P(Xikke≤x)=F(x)...F(x)=F(x)ikke{\ displaystyle {\ begin {align} P \ venstre (X _ {(n)} \ leq x \ høyre) & {} = F_ {X _ {(n)}} (x) \\ & = P \ venstre (\ max (X_ {1}, ..., X_ {n}) \ leq x \ right) \\ & = P \ left ({\ text {each of}} \ n \ X \ \ mathrm {est} \ \ leq x \ høyre) \\ & = P \ venstre (X_ {1} \ leq x \ høyre) ... P \ venstre (X_ {n} \ leq x \ høyre) \\ & = F \ venstre ( x \ høyre) ... F \ venstre (x \ høyre) \\ & = F \ venstre (x \ høyre) ^ {n} \ slutt {justert}}}For den kontinuerlige ensartede loven er tettheten til k- rekkefølge statistikken den for en beta-lov , med parametrene k og n + 1- k .
Felles tetthet av all ordrestatistikk
Teorem - Hvis vi antar prøven X uavhengig og identisk fordelt i henhold til en lov om tetthet f , er fellestettheten til n statistikk av orden
f(x(1),...,x(ikke)) = ikke! (∏Jeg=1ikkef(x(Jeg))) 11x(1)<x(2)<⋯<x(ikke-1)<x(ikke).{\ displaystyle f (x _ {(1)}, \ prikker, x _ {(n)}) \ = \ n! \ \ left (\ prod _ {i = 1} ^ {n} f (x _ { (i)}) \ høyre) \ 1 \! \! 1_ {x _ {(1)} <x _ {(2)} <\ prikker <x _ {(n-1)} <x _ {(n )}}.}
Demonstrasjon
Det er tilstrekkelig å vise at for enhver funksjon φ målbar, avgrenset og positiv eller null,
E[φ(X(1),X(2),...,X(ikke))]= ∫Rikkeφ(x(1),x(2),...,x(ikke))ikke! (∏Jeg=1ikkef(x(Jeg))) 11x(1)<x(2)<⋯<x(ikke-1)<x(ikke)dx(1)...dx(ikke).{\ displaystyle {\ begin {align} \ mathbb {E} \ left [\ varphi (X _ {(1)}, X _ {(2)}, \ dots, X _ {(n)}) \ right] & = \ \ int _ {\ mathbb {R} ^ {n}} \ varphi (x _ {(1)}, x _ {(2)}, \ prikker, x _ {(n)}) \, n ! \ \ left (\ prod _ {i = 1} ^ {n} f (x _ {(i)}) \ høyre) \ 1 \! \! 1_ {x _ {(1)} <x _ {( 2)} <\ prikker <x_ {(n-1)} <x _ {(n)}} dx _ {(1)} \ prikker dx _ {(n)}. \ Slutt {justert}}}Men ettersom X i er uavhengige og har tettheter , har vi:
P(∀Jeg≠j, XJeg≠Xj)=1.{\ displaystyle {\ begin {align} \ mathbb {P} \ left (\ forall i \ neq j, \ X_ {i} \ neq X_ {j} \ right) & = 1. \ end {align}}}Derfor, nesten sikkert,
φ(X(1),X(2),...,X(ikke))= ∑σ∈Sikkeφ(Xσ(1),Xσ(2),...,Xσ(ikke)) 11Xσ(1)<Xσ(2)<⋯<Xσ(ikke-1)<Xσ(ikke).{\ displaystyle {\ begin {align} \ varphi (X _ {(1)}, X _ {(2)}, \ dots, X _ {(n)}) & = \ \ sum _ {\ sigma \ in {\ mathfrak {S}} _ {n}} \ varphi (X _ {\ sigma (1)}, X _ {\ sigma (2)}, \ prikker, X _ {\ sigma (n)}) \ 1 \! \! 1_ {X _ {\ sigma (1)} <X _ {\ sigma (2)} <\ dots <X _ {\ sigma (n-1)} <X _ {\ sigma (n)} }. \ Slutt {justert}}}Endelig:
E[φ(Xσ(1),Xσ(2),...,Xσ(ikke))11Xσ(1)<Xσ(2)<⋯<Xσ(ikke)]= E[φ(X1,X2,...,Xikke)11X1<X2<⋯<Xikke]= ∫Rikkeφ(x1,x2,...,xikke) (∏Jeg=1ikkef(xJeg)) 11x1<x2<⋯<xikkedx1...dxikke,{\ displaystyle {\ begin {align} \ mathbb {E} \ left [\ varphi (X _ {\ sigma (1)}, X _ {\ sigma (2)}, \ dots, X _ {\ sigma (n )}) \, 1 \! \! 1_ {X _ {\ sigma (1)} <X _ {\ sigma (2)} <\ dots <X _ {\ sigma (n)}} \ right] & = \ \ mathbb {E} \ left [\ varphi (X_ {1}, X_ {2}, \ dots, X_ {n}) \, 1 \! \! 1_ {X_ {1} <X_ {2} <\ prikker <X_ {n}} \ right] \\ & = \ \ int _ {\ mathbb {R} ^ {n}} \ varphi (x_ {1}, x_ {2}, \ prikker, x_ {n}) \ \ left (\ prod _ {i = 1} ^ {n} f (x_ {i}) \ right) \ 1 \! \! 1_ {x_ {1} <x_ {2} <\ dots <x_ {n }} dx_ {1} \ prikker dx_ {n}, \ slutt {justert}}}siden og har samme tetthet Linjæriteten til forventningen lar oss konkludere.
(Xσ(1),Xσ(2),...,Xσ(ikke)){\ displaystyle (X _ {\ sigma (1)}, X _ {\ sigma (2)}, \ prikker, X _ {\ sigma (n)})}(X1,X2,...,Xikke){\ displaystyle (X_ {1}, X_ {2}, \ prikker, X_ {n})}∏Jeg=1ikkef(xJeg). {\ displaystyle \ prod _ {i = 1} ^ {n} f (x_ {i}). \}
Referanser
- Herbert Aron David og Haikady N. Nagaraja, ordrestatistikk , Wiley ,august 2003, 3 e ed. , 458 s. ( ISBN 978-0-471-38926-2 )
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">