Fisher Informasjon
Fisher Informasjon
Den Fisher informasjon er et konsept for statistisk introdusert av RA Fisher som kvantifiserer den informasjon relatert til en parameter som inneholdes i en fordeling. Det er definert som forventningen til den observerte informasjonen, eller igjen som variansen til poengsumfunksjonen . I det multi-parametriske tilfellet snakker vi om en Fisher-informasjonsmatrise.
Definisjon
La f ( x ; θ ) være sannsynlighetsfordelingen av en tilfeldig variabel X (som kan være flerdimensjonal), parameterisert med θ . Poengsummen er definert som den delvise avledningen av log-sannsynligheten med hensyn til parameteren θ :
∂∂θLoggf(X;θ)=1f(X;θ)∂f(X;θ)∂θ.{\ displaystyle {\ frac {\ partial} {\ partial \ theta}} \ log f (X; \ theta) = {\ frac {1} {f (X; \ theta)}} {\ frac {\ partial f (X; \ theta)} {\ partial \ theta}}.}
Fisher-informasjonen blir deretter definert som andre ordens øyeblikk av poengsumfunksjonen:
Jeg(θ)=E[(∂∂θLoggf(X;θ))2|θ]{\ displaystyle I (\ theta) = E \ left [\ left. \ left ({\ frac {\ partial} {\ partial \ theta}} \ log f (X; \ theta) \ right) ^ {2} \ høyre | \ theta \ høyre]}![{\ displaystyle I (\ theta) = E \ left [\ left. \ left ({\ frac {\ partial} {\ partial \ theta}} \ log f (X; \ theta) \ right) ^ {2} \ høyre | \ theta \ høyre]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8c163334db31748846b541aca8ff77a4cf166be4)
.
Det er mulig å vise at poengsummen har null forventning. Fisher-informasjonen tilsvarer derfor også variansen til poengsumfunksjonen.
Diskret formulering
De forskjellige observasjonene tillater oss å prøve sannsynlighetstetthetsfunksjonen f ( x ; θ ) . Den maksimum sannsynlighets er å maksimere sannsynligheten . Hvis observasjonene er avkorrelert, blir den mest sannsynlige verdien gitt oss maksimalt
xJeg{\ displaystyle x_ {i}}
P(X|θ){\ displaystyle P (X | \ theta)}
θ^{\ displaystyle \ scriptstyle {\ hat {\ theta}}}
∏JegP(xJeg|θ),{\ displaystyle \ prod _ {i} P (x_ {i} | \ theta),}
som også er maksimum på
λ(θ)=∑JegLoggP(xJeg|θ).{\ displaystyle \ lambda (\ theta) = \ sum _ {i} \ log P (x_ {i} | \ theta).}
Passasjen i logaritme gjør det mulig å transformere produktet til sum, som lar oss finne det maksimale ved avledning:
∑Jeg[∂∂θLoggP(xJeg|θ)]θ=θ^=0.{\ displaystyle \ sum _ {i} \ left [{\ frac {\ partial} {\ partial \ theta}} \ log P (x_ {i} | \ theta) \ right] _ {\ theta = {\ hat { \ theta}}} = 0.}
Denne summen tilsvarer et tilstrekkelig høyt antall observasjoner til den matematiske forventningen. Å løse denne ligningen gjør det mulig å finne en estimator på θ fra settet med parametere i betydningen maksimal sannsynlighet. Nå er spørsmålet å kvantifisere presisjonen til vårt estimat. Vi søker derfor å estimere formen på sannsynlighetsfordelingen av θ rundt verdien gitt av estimatoren . Fra en utvidelse begrenset til ordre 2, da den lineære termen maksimalt er null, får vi:
θ^{\ displaystyle \ scriptstyle {\ hat {\ theta}}}
λ(θ)=λ(θ^)-(θ-θ^)22Jeg(θ^)+o((θ-θ^)2){\ displaystyle \ lambda (\ theta) = \ lambda ({\ hat {\ theta}}) - {\ frac {(\ theta - {\ hat {\ theta}}) ^ {2}} {2}} I ({\ hat {\ theta}}) + o ((\ theta - {\ hat {\ theta}}) ^ {2})}
hvor er Fisher-informasjonen knyttet til θ når det er størst sannsynlighet. Dette betyr at θ følger som en første tilnærming en Gaussisk lov om forventning og varians
:
Jeg(θ^){\ displaystyle \ scriptstyle I ({\ hat {\ theta}})}
θ^{\ displaystyle {\ hat {\ theta}}}
1/Jeg(θ^){\ displaystyle \ scriptstyle 1 / I ({\ hat {\ theta}})}
P(θ|X)∝eksp(-(θ-θ^)22Jeg(θ^)){\ displaystyle P (\ theta | X) \ propto \ exp \ left (- {\ frac {(\ theta - {\ hat {\ theta}}) ^ {2}} {2}} I ({\ hat { \ theta}}) \ høyre)}
Denne avviket kalles Cramér-Rao-bundet og utgjør den beste estimeringspresisjonen som er oppnåelig i fravær av a priori.
Tilsetningsevne
En av de grunnleggende egenskapene til Fisher-informasjonen er additiviteten. Informasjonen som kommer fra to uavhengige tilfeldige variabler er summen av informasjonen:
JegX,Y(θ)=JegX(θ)+JegY(θ).{\ displaystyle I_ {X, Y} (\ theta) = I_ {X} (\ theta) + I_ {Y} (\ theta).}
Hvis vi har N uavhengige realisasjoner som adlyder samme sannsynlighetstetthet, er den resulterende informasjonen en enkel skalering av den enkelte informasjonen.
Jeg(X1⋯XIKKE)(θ)=IKKEJegX(θ).{\ displaystyle I _ {(X_ {1} \ cdots X_ {N})} (\ theta) = N \, I_ {X} (\ theta).}
Når en statistikk S (X) på en tilfeldig variabel X er uttømmende , er informasjonen knyttet til statistikken mindre enn eller lik den for den tilfeldige variabelen. Med andre ord
JegS(X)(θ)≤JegX(θ),{\ displaystyle I_ {S (X)} (\ theta) \ leq I_ {X} (\ theta),}
med likeverd for en tilstrekkelig statistikk .
Multi-parametrisk formulering
I tilfelle hvor sannsynlighetsfordelingen f ( X ) avhenger av flere parametere, er θ ikke lenger en skalar, men en vektor . Søket etter maksimal sannsynlighet kommer derfor ikke ned til en enkelt ligning, men til et system:
θ→=(θ1,θ2,⋯){\ displaystyle {\ vec {\ theta}} = (\ theta _ {1}, \ theta _ {2}, \ cdots)}
E[∂∂θJegLoggf(X;θ→)]=0,∀Jeg{\ displaystyle E \ left [{\ frac {\ partial} {\ partial \ theta _ {i}}} \ log f (X; {\ vec {\ theta}}) \ right] = 0, \ qquad \ forall Jeg}
vi utledes med hensyn til de forskjellige komponentene i . Til slutt er Fisher-informasjonen ikke lenger definert som en skalarvarians, men som en kovariansmatrise :
θ→{\ displaystyle {\ vec {\ theta}}}
Jeg(θJeg,θj)=E[(∂∂θJegLoggf(X;θ→))(∂∂θjLoggf(X;θ→))].{\ displaystyle I (\ theta _ {i}, \ theta _ {j}) = E \ left [\ left ({\ frac {\ partial} {\ partial \ theta _ {i}}} \ log f (X ; {\ vec {\ theta}} \ høyre) \ venstre ({\ frac {\ partial} {\ partial \ theta _ {j}}} \ log f (X; {\ vec {\ theta}}) \ høyre) \ høyre].}
Anslag og terminal for Cramér-Rao
Det omvendte av denne matrisen gjør det mulig å bestemme Cramér-Rao- grensene , dvs. samvariansene knyttet til felles estimater av de forskjellige parametrene fra observasjonene: det faktum at alle parametrene skal estimeres samtidig gjør det vanskeligere å estimere . Dette fenomenet er en manifestasjon av det som noen ganger kalles " dimensjonsplagen ". Det er av denne grunn at vi, når det er mulig, bruker a priori på parametrene (metode for å estimere maksimalt a posteriori ). Dermed er usikkerheten på hver av parametrene begrenset, noe som begrenser innvirkningen på det felles estimatet.
Fisher-beregning
Denne matrisen blir vanligvis referert til som den Fisher informasjonen metrisk ;
gJegj=Jeg(θJeg,θj){\ displaystyle g_ {ij} = Jeg (\ theta _ {i}, \ theta _ {j})}
Faktisk er overgangen fra observasjonsrommet til parametrets plass en endring av krøllete koordinatsystem . I parameter base, med kovariansen som dot produkt , er denne matrisen beregningen. Dette geometrisk synspunkt, introdusert av C. Rao, ble så stor grad utviklet av S. Amari under navnet informasjonen geometri . Målingen er generelt ikke invariant, og parameterområdet er Riemannian . Den Cramér-Rao ulikheten blir tolket med ekspresjonen av Schwarz ulikhet mellom vektoren av derivatet av fordelings ifølge en parameter og dens doble. Fisher-informasjon spiller en bestemt rolle som beregning på grunn av dens additivitet og uforanderlige egenskaper med hensyn til statistisk prøvetaking (Chentsov- eller Čencov-setning). Det er en beregning som derfor er naturlig når man vurderer sannsynlighetsfordelinger. I tillegg gjør tilnærmingen til begrepet informasjon fra vinkelen til differensialgeometri det mulig å foreslå et sammenhengende rammeverk som knytter forskjellige begreper:
Alternative formuleringer
Det er et veldig stort antall alternative formuleringer av Fisher-informasjon som avslører noen interessante egenskaper.
- Skrive i form av en krumning.
Jeg(θJeg,θj)=-E[(∂2∂θJeg∂θjLoggf(X;θ→))].{\ displaystyle I (\ theta _ {i}, \ theta _ {j}) = - E \ left [\ left ({\ frac {\ partial ^ {2}} {\ partial \ theta _ {i} \ partial \ theta _ {j}}} \ logf (X; {\ vec {\ theta}}) \ høyre) \ høyre].}
Jeg(θJeg,θj)=∫1f(x;θ→)⋅∂f(x;θ→)∂θJeg∂f(x;θ→)∂θjdx.{\ displaystyle I (\ theta _ {i}, \ theta _ {j}) = \ int {\ frac {1} {f (x; {\ vec {\ theta}})}} \ cdot {\ frac { \ partial f (x; {\ vec {\ theta}})} {\ partial \ theta _ {i}}} {\ frac {\ partial f (x; {\ vec {\ theta}})} {\ partial \ theta _ {j}}} \, dx.}
- Symmetrisk skriving i form av sannsynlighetsamplituder (introdusert av Fisher i 1943, i form av reelle fordelinger uavhengig av utviklingen av kvantemekanikk der komplekse distribusjoner brukes). Denne formuleringen skal sammenlignes med definisjonen av Hellinger-avstanden .
Jeg(θJeg,θj)=4∫∂q(x;θ→)∂θJeg∂q(x;θ→)∂θjdx, eller q(x;θ→)=f(x;θ→).{\ displaystyle I (\ theta _ {i}, \ theta _ {j}) = 4 \ int {\ frac {\ partial q (x; {\ vec {\ theta}})} {\ partial \ theta _ { i}}} {\ frac {\ partial q (x; {\ vec {\ theta}})} {\ partial \ theta _ {j}}} \, dx, {\ hbox {hvor}} q (x; {\ vec {\ theta}}) = {\ sqrt {f}} (x; {\ vec {\ theta}}).}
Jeg(θJeg,θj)=∫∂f(x;θ→)∂θJeg∂Loggf(x;θ→)∂θjdx=∫∂Loggf(x;θ→)∂θJeg∂f(x;θ→)∂θjdx.{\ displaystyle I (\ theta _ {i}, \ theta _ {j}) = \ int {\ frac {\ partial f (x; {\ vec {\ theta}})} {\ partial \ theta _ {i }}} {\ frac {\ partial \ log f (x; {\ vec {\ theta}})} {\ partial \ theta _ {j}}} \, dx = \ int {\ frac {\ partial \ log f (x; {\ vec {\ theta}})} {\ partial \ theta _ {i}}} {\ frac {\ partial f (x; {\ vec {\ theta}})} {\ partial \ theta _ {j}}} \, dx.}
.
- Generell skrift for settet med α-representasjoner av Amari:
Jeg(θJeg,θj)=41-α2∫∂f1-α2(x;θ→)∂θJeg∂f1+α2(x;θ→)∂θjdx.{\ displaystyle I (\ theta _ {i}, \ theta _ {j}) = {\ frac {4} {1- \ alpha ^ {2}}} \ int {\ frac {\ partial f ^ {\ frac {1- \ alpha} {2}} (x; {\ vec {\ theta}})} {\ partial \ theta _ {i}}} {\ frac {\ partial f ^ {\ frac {1+ \ alpha } {2}} (x; {\ vec {\ theta}})} {\ partial \ theta _ {j}}} \, dx.}
.
Informasjon gitt av en statistikk
På samme måte som vi har definert Fisher-informasjonen for vektoren for observasjoner X, kan vi definere Fisher-informasjonen som er inneholdt i en statistikk S ( X ) :
JegS(θ)=Eθ[(∇θLoggfS(S;θ))⋅(∇θLoggfS(S;θ))′].{\ displaystyle I_ {S} (\ theta) = \ mathbb {E} _ {\ theta} \ left [\ left (\ nabla _ {\ theta} \ log f_ {S} (S; \ theta) \ right) \ cdot \ left (\ nabla _ {\ theta} \ log f_ {S} (S; \ theta) \ right) '\ right].}
Denne definisjonen er nøyaktig den samme som for Fishers informasjon for X for en multiparametrisk modell, vi erstatter bare tettheten til X med S (X) statistikken S. To teoremer illustrerer interessen til dette begrepet:
- For en tilstrekkelig statistikk har vi det som gjør det mulig å se en tilstrekkelig statistikk som en statistikk som inneholder all informasjonen til modellen. Vi har også det motsatte, nemlig at hvis S er uttømmende selv om denne karakteriseringen sjelden brukes i denne forstand, er definisjonen takket være kriteriet faktorisering av uttømmende statistikk ofte mer håndterbar.JegS(θ)=Jeg(θ){\ displaystyle I_ {S} (\ theta) = I (\ theta)}
JegS(θ)=Jeg(θ){\ displaystyle I_ {S} (\ theta) = I (\ theta)}
- Uavhengig av S-statistikken, med uavgjort sak bare for uttømmende statistikk . Vi kan derfor ikke hente mer informasjon enn den som inngår i en uttømmende statistikk. Dette forklarer i stor grad interessen til uttømmende statistikk for estimering . Ordenforholdet er her den delvise ordenforholdet på de symmetriske matriser, nemlig at en matrise hvis BA er en positiv symmetrisk matrise .JegS(θ)≤Jeg(θ){\ displaystyle I_ {S} (\ theta) \ leq I (\ theta)}
PÅ≤B{\ displaystyle A \ leq B}
Koblinger til andre forestillinger
Fishers informasjon har blitt knyttet til andre forestillinger:
- The Information Shannon og entropi av Boltzmann . Fisher-informasjonen skyldes en lokal differensiering av Shannon-informasjonen i sannsynlighetsfordelingsområdet.
- Den energifysikk. De grunnleggende ligningene i fysikk kan sees på som uttrykk for Fishers informasjon om problemet som stilles, avhengig av settet med uavhengige fysiske variabler og de betraktede uforanderlige regler. Ulike nåværende Lagrangians kan således utledes av Fishers informasjon.
Bevaring av energi blir sett på som et resultat av bevaring av informasjon. For eksempel betrakter vi en kompleks bølgefunksjon (slik at sannsynlighetstettheten for tilstedeværelsen av partikkelen er ) i Minkowski-koordinatene (i x , i y , i z , ct ) . Hvis vi anser disse koordinatene som kanoniske, dvs. tilstrekkelig, ekvivalente og uavhengige, er den tilknyttede indre Fisher-informasjonen
Ψ{\ displaystyle \ Psi}
|Ψ|2{\ displaystyle | \ Psi | ^ {2}}
Jeg=4∫∇→Ψ⋅(∇→Ψ)∗vs.dxdydzdt{\ displaystyle I = 4 \ int {\ vec {\ nabla}} \ Psi \ cdot ({\ vec {\ nabla}} \ Psi) ^ {*} \, c \, \ mathrm {d} x \, \ mathrm {d} y \, \ mathrm {d} z \, \ mathrm {d} t}
hvor .
∇→=(-Jeg∂x,-Jeg∂y,-Jeg∂z,1vs.∂t){\ displaystyle {\ vec {\ nabla}} = (- \ mathrm {i} \ partial _ {x}, - \ mathrm {i} \ partial _ {y}, - \ mathrm {i} \ partial _ {z }, {\ frac {1} {c}} \ delvis _ {t})}
Passerer gjennom gjensidig rom , kommer det:
∇~→=(kx,ky,kz,Jegvs.ω){\ displaystyle {\ vec {\ tilde {\ nabla}}} = \ left (k_ {x}, k_ {y}, k_ {z}, {\ frac {\ mathrm {i}} {c}} \ omega \ Ikke sant)}
Jeg∝(ω2vs.2-|k|2)|Ψ~|2dkxdkydkzdω{\ displaystyle I \ propto \ left ({\ frac {\ omega ^ {2}} {c ^ {2}}} - | k | ^ {2} \ right) | {\ tilde {\ Psi}} | ^ {2} \, \ mathrm {d} k_ {x} \, \ mathrm {d} k_ {y} \, \ mathrm {d} k_ {z} \, \ mathrm {d} \ omega}
.
Med andre ord, ifølge Plancks forhold
Jeg∝∫(E2vs.2-|s|2)|Ψ~|2dsxdsydszdE{\ displaystyle I \ propto \ int \ left ({\ frac {E ^ {2}} {c ^ {2}}} - | p | ^ {2} \ right) | {\ tilde {\ Psi}} | ^ {2} \, \, \ mathrm {d} p_ {x} \, \ mathrm {d} p_ {y} \, \ mathrm {d} p_ {z} \, \ mathrm {d} E}
.
Konserveringen av denne informasjonen tilsvarer konseptuelt den uforanderlige massen til partikkelen, i henhold til den klassiske relasjonen av spesiell relativitet , som for kvantefysikk tilsvarer Klein-Gordon-ligningen .
E2-s2vs.2=m2vs.4{\ displaystyle E ^ {2} -p ^ {2} c ^ {2} = m ^ {2} c ^ {4}}
Merknader og referanser
-
CR Rao , informasjon og nøyaktighet oppnåelig ved estimering av statistiske parametere, Bulletin of the Calcutta Mathematical Society, 37: 81-91, 1945
-
S. Amari, H. Nagaoka, Metoder for informasjonsgeometri, Oversettelser av matematiske monografier; v. 191, American Mathematical Society, 2000 ( ISBN 978-0821805312 )
-
B.R. Frieden, Science from Fisher Information , Cambridge, 2004
-
NN Chentsov (Čencov), statistiske beslutningsregler og optimal inferens , oversettelser av matematiske monografier; v. 53, American Mathematical Society, 1982
-
CR Rao, Differential Geometry in Statistical Inference, Chapter 5, Institute of Mathematical Statistics, 1987
-
Alain Monfort , Kurs i matematisk statistikk , 1982, Economica. Paris.
Se også
Relaterte artikler
Eksterne linker
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">