Gjensidig informasjon

I sannsynlighetsteori og informasjonsteori er den gjensidige informasjonen til to tilfeldige variabler en størrelse som måler den statistiske avhengigheten av disse variablene. Det måles ofte i biter .

Den gjensidige informasjonen til et par variabler representerer deres grad av avhengighet i sannsynlig forstand. Dette begrepet logisk avhengighet bør ikke forveksles med begrepet fysisk årsakssammenheng, selv om det i praksis ofte innebærer det andre. $(X, Y)$

Uformelt sier vi at to variabler er uavhengige hvis realiseringen av den ene ikke gir noen informasjon om realiseringen av den andre. Den korrelasjon koeffisient er et mål for det spesielle tilfellet med avhengighet, hvor forholdet mellom de to variablene er strengt lineær .

Den gjensidige informasjonen er null hvis og bare hvis variablene er uavhengige, og øker når avhengigheten øker.

Definisjon

La oss være et par tilfeldige variabler av felles sannsynlighetstetthet gitt av (vi gjør, i denne artikkelen, misbruk av notasjon for å representere sannsynligheten for hendelsen ). Legg merke til marginale fordelinger og . Da er den gjensidige informasjonen i det diskrete tilfellet: $(X, Y)$ $P (x, y)$ $P (x)$ $X = x$ $P (x)$ $P (y)$

{\ displaystyle I (X; Y) = \ sum _ {x, y} P (x, y) \ log {\ frac {P (x, y)} {P (x) \, P (y)}} , \!}

og i kontinuerlig tilfelle:

{\ displaystyle I (X; Y) = \ int _ {\ mathbb {R}} \ int _ {\ mathbb {R}} p (x, y) \ log {\ frac {p (x, y)} { p (x) \, p (y)}} \; dxdy. \!}

hvor , og er henholdsvis tettheter av lovene til , og . $p (x, y)$ $p (x)$ $p (y)$ $(X, Y)$ $X$ $Y$

Gaussisk sak

Den gjensidige informasjonen i tilfelle en gaussisk fordeling er skrevet i følgende form:

{\ displaystyle I (X; Y) = {\ dfrac {1} {2}} \ log {\ dfrac {| K_ {X} || K_ {Y} |} {| K_ {XY} |}}}

med determinant av kovariansmatrisen av X og Y , determinant av kovariansmatrisen X og determinant av kovariansmatrisen Y . ${\ displaystyle | K_ {XY} |}$ ${\ displaystyle | K_ {X} |}$ ${\ displaystyle | K_ {Y} |}$

Eiendommer

${\ displaystyle I (X; Y) = 0}$ hvis og bare hvis X og Y er uavhengige tilfeldige variabler.
Gjensidig informasjon er positiv eller null.
Gjensidig informasjon er symmetrisk.
Setning for databehandling : hvis og er to målbare funksjoner da . Dette betyr at ingen transformasjon på rådataene kan avsløre informasjon. $g_ {1}$ $g_2$ ${\ displaystyle I (g_ {1} (X), g_ {2} (Y)) \ leq I (X, Y)}$
Når den felles fordelingen av tilfeldige variabler og følger en multivariat normalfordeling , har det blitt vist at den gjensidige informasjonen er direkte relatert til korrelasjonskoeffisienten mellom disse to variablene: $\ X$ $\ Y$ ${\ mathcal {N}} (\ mu, \, \ Sigma)$ $\ rho$ ${\ displaystyle I (X; Y) = - {\ frac {1} {2}} \ log (1- \ rho ^ {2})}$

Flere generaliseringer av denne mengden til et større antall variabler er blitt foreslått, men det er ennå ikke enighet.

Koblinger med informasjonsteori

Entropi

Gjensidig informasjon måler mengden av informasjon som gis i gjennomsnitt med en realisering av X på sannsynligheten for å oppnå Y . Ved å vurdere at en sannsynlighetsfordeling representerer vår kunnskap om et tilfeldig fenomen, måler vi fraværet av informasjon av entropien til denne fordelingen. I disse vilkårene uttrykkes gjensidig informasjon av:

{\ displaystyle I (X; Y) = H (X) -H (X | Y) = H (Y) -H (Y | X) = H (X) + H (Y) -H (X, Y) .}

hvor H ( x ) og H ( Y ) er entropi , H ( X | Y ) og H ( Y | X ) er betinget entropies , og H ( Y , X ) er den felles entropi mellom X og Y .

Det ses således at iff det antall bits som trengs for å kode for en utførelsesform av dreiemomentet er lik summen av antall biter for å kode for en utførelsesform av X og antallet bits til å kode en utførelsesform av Y . ${\ displaystyle I (X; Y) = 0}$

Kullback-Leibler divergens

Gjensidig informasjon kan også uttrykkes av Kullback-Leibler-avviket . Vi har

{\ displaystyle I (X; Y) = {\ mathit {KL}} (P (X, Y), P (X) P (Y)) = \ sum P (X, Y) \ log {\ frac {P (X, Y)} {P (X) P (Y)}}.}

Måler dermed en slags "avstand" mellom distribusjonene og . Ettersom, per definisjon, to variabler er uavhengige iff disse to fordelingene er like, og som iff , finner vi ekvivalensen mellom og uavhengighet. ${\ displaystyle I (X; Y)}$ $P (X, Y)$ $P (X) * P (Y)$ ${\ mathit {KL}} (p, q) = 0$ $p = q$ $I (X, Y) = 0$

Intuitivt bærer mer informasjon når variabler er avhengige enn når de ikke er. Hvis de to variablene er diskrete i N- tilfeller, trenger vi i verste fall koeffisienter å spesifisere , mot bare hvis . $P (X, Y)$ $N ^ {2} -1$ $P (X, Y)$ $2N-1$ $P (X, Y) = P (X) P (Y)$

Avviket gir antall informasjonsbiter som kommer av kunnskapen om når man allerede vet og . ${\ mathit {KL}}$ $P (X, Y)$ $P (X)$ $P (Y)$

Merknader og referanser

(in) S. Kullback, Informasjonsteori og statistikk , John Wiley and Sons, NY, 1959