Forventnings-maksimeringsalgoritme

Natur	Data partisjoneringsalgoritme ( d )
Oppfinner	Donald rubin
Oppfinnelsesdato	1977

Den forventning-maksimering algoritme (engelsk forventning-maksimering algoritme , ofte forkortet EM ), foreslått av Dempster et al. (1977), er en iterativ algoritme som gjør det mulig å finne maksimale sannsynlighetsparametere for en sannsynlighetsmodell når sistnevnte er avhengig av ikke observerbare latente variabler. Mange varianter har senere blitt foreslått, og danner en hel klasse algoritmer.

Bruk

EM-algoritmen brukes ofte til dataklassifisering, maskinlæring eller maskinvisjon. Det kan også nevnes bruken av den i medisinsk bildebehandling i sammenheng med tomografisk rekonstruksjon.

Forventnings-maksimeringsalgoritmen består av:

et trinn for å evaluere forventningen (E), der forventningen om sannsynligheten beregnes ved å ta hensyn til de siste observerte variablene,
et maksimeringstrinn (M), der maksimal sannsynlighet for parametrene estimeres ved å maksimere sannsynligheten funnet i trinn E.

Vi bruker deretter parametrene som er funnet i M som utgangspunkt for en ny fase av evaluering av forventningen, og vi gjentar på denne måten.

For å løse problemet med å lære skjulte Markov-modeller (HMM), dvs. bestemme parametrene til Markov-modellen, bruker vi Baum-Welch-algoritmen .

Prinsipp for drift

Ved å vurdere et utvalg $x = ( x 1 , ..., x n )$ av individer i henhold til en fordeling $f ( x i , θ ) som er$ parametrisert av $θ$ , prøver vi å bestemme parameteren $θ$ maksimere log-sannsynligheten gitt av

L (\ mathbf {x}; \ boldsymbol {\ theta}) = \ sum_ {i = 1} ^ n \ log f (\ boldsymbol {x} _i, \ boldsymbol {\ theta}).

Denne algoritmen er spesielt nyttig når maksimering av $L$ er veldig komplisert, men når vi, med forbehold om å kjenne visse hensynsfullt valgte data, veldig enkelt kan bestemme $θ$ .

I dette tilfellet stoler vi på data fullført med en ukjent vektor $z = ( z 1 , ..., z n )$ . Ved å notere $f ( z i | x i , θ )$ sannsynligheten for $z i$ å vite $x i$ og parameteren $θ$ , kan vi definere den ferdige log-sannsynlighet som mengden

L \ left ((\ mathbf {x, z}); \ boldsymbol {\ theta} \ right) = \ sum_ {i = 1} ^ n \ left (\ log f (z_i | \ boldsymbol {x} _i, \ fettsymbol {\ theta}) + \ log f (\ boldsymbol {x} _i; \ boldsymbol {\ theta}) \ høyre).

og så,

L (\ mathbf {x}; \ boldsymbol {\ theta}) = L \ left (\ mathbf {(x, z)}; \ boldsymbol {\ theta} \ right) - \ sum_ {i = 1} ^ n \ logg f (z_i | \ boldsymbol {x} _i, \ boldsymbol {\ theta}).

EM-algoritmen er en iterativ prosedyre basert på forventningen om at dataene blir fullført betinget av den nåværende parameteren. Ved å merke $θ ( c )$ denne parameteren, kan vi skrive

{\ displaystyle \ mathbb {E} \ left [L (\ mathbf {x}; {\ boldsymbol {\ theta}}) {\ Bigg |} {\ boldsymbol {\ theta}} ^ {(c)} \ right] = \ mathbb {E} \ left [L \ left (\ mathbf {(x, z)}; {\ boldsymbol {\ theta}} \ right) {\ Bigg |} {\ boldsymbol {\ theta}} ^ {( c)} \ right] - \ mathbb {E} \ left [\ sum _ {i = 1} ^ {n} \ log f (z_ {i} | {\ boldsymbol {x}} _ {i}, {\ fettsymbol {\ theta}}) {\ Bigg |} {\ boldsymbol {\ theta}} ^ {(c)} \ høyre],}

der forventningen er tatt på

z

eller

L (\ mathbf {x}; \ boldsymbol {\ theta}) = Q \ venstre (\ boldsymbol {\ theta}; \ boldsymbol {\ theta} ^ {(c)} \ høyre) -H \ venstre (\ boldsymbol { \ theta}; \ boldsymbol {\ theta} ^ {(c)} \ høyre)

, fordi

L ( x ; θ )

ikke er avhengig av

z

med og . ${\ displaystyle Q \ left ({\ boldsymbol {\ theta}}; {\ boldsymbol {\ theta}} ^ {(c)} \ right) = \ mathbb {E} \ left [L \ left (\ mathbf {( x, z)}; {\ boldsymbol {\ theta}} \ right) {\ Bigg |} {\ boldsymbol {\ theta}} ^ {(c)} \ right]}$ ${\ displaystyle H \ left ({\ boldsymbol {\ theta}}; {\ boldsymbol {\ theta}} ^ {(c)} \ right) = \ mathbb {E} \ left [\ sum _ {i = 1} ^ {n} \ log f (z_ {i} | {\ boldsymbol {x}} _ {i}, {\ boldsymbol {\ theta}}) {\ Bigg |} {\ boldsymbol {\ theta}} ^ {( c)} \ høyre]}$

Vi viser at sekvensen definert av

\ boldsymbol {\ theta} ^ {(c + 1)} = \ arg \ max _ {\ boldsymbol {\ theta}} \ left (Q \ left (\ boldsymbol {\ theta}, \ boldsymbol {\ theta} ^ { (c)} \ høyre) \ høyre)

har en tendens til et lokalt maksimum. $L \ left (\ mathbf {x}; \ boldsymbol {\ theta} ^ {(c + 1)} \ right)$

EM-algoritmen kan defineres av:

Tilfeldig initialisering av $θ (0)$
$c = 0$
Så lenge algoritmen ikke har konvergert, gjør
- Evaluering av forventning (trinn E): ${\ displaystyle Q \ left ({\ boldsymbol {\ theta}}; {\ boldsymbol {\ theta}} ^ {(c)} \ right) = \ mathbb {E} \ left [L \ left (\ mathbf {( x, z)}; {\ boldsymbol {\ theta}} \ right)) | {\ boldsymbol {\ theta}} ^ {(c)} \ right]}$
- Maksimering (trinn M): $\ boldsymbol {\ theta} ^ {(c + 1)} = \ arg \ max _ {\ boldsymbol {\ theta}} \ left (Q \ left (\ boldsymbol {\ theta}, \ boldsymbol {\ theta ^ {( c)}} \ høyre) \ høyre)$
- $c = c +1$
Slutt

I praksis roteres EM-algoritmen et stort antall ganger fra forskjellige utgangsverdier for å overvinne den lokale karakteren av det maksimalt oppnådde, for å ha større sjanser for å nå den totale maksimale sannsynligheten.

Detaljert eksempel: applikasjon i automatisk klassifisering

En av EMs viktigste applikasjoner er estimering av parametrene for en blandingstetthet i automatisk klassifisering innenfor rammen av Gaussiske blandingsmodeller . I dette problemet vurderer vi at et utvalg $( x 1 , ..., x n )$ av , dvs. preget av $p$ kontinuerlige variabler, faktisk kommer fra $g$ forskjellige grupper. Tatt i betraktning at hver av disse gruppene $G$ $k$ følger en rett $f$ med parameter $θ$ $k$ , og hvis andeler er gitt av en vektor $(π$ $1$ $, ..., π$ $g$ $)$ . Ved å merke $Φ = (π$ $1$ $, ..., π$ $g$ $,$ $θ$ $1$ $, ...,$ $θ$ $g$ $)$ parameteren til blandingen, blir densitetsfunksjonen som prøven følger gitt av $\ mathbb {R} ^ s$

g (x, \ Phi) = \ sum_ {k = 1} ^ g \ pi_kf (x, \ theta_k),

og derfor blir logg-sannsyn-av para $Φ$ er gitt ved

L (x, \ Phi) = \ sum_ {i = 1} ^ n \ log \ left (\ sum_ {k = 1} ^ g \ pi_kf (x_i, \ theta_k) \ right).

Maksimering av denne funksjonen i henhold til $Φ$ er veldig kompleks. For eksempel, hvis man ønsker å bestemme parametrene som tilsvarer to grupper i henhold til en normal lov i et rom med dimensjon 3, er det nødvendig å optimalisere en ikke-lineær funksjon av . $\ mathbb {R} ^ {19}$

På samme tid, hvis vi kjente gruppene som hver enkelt tilhører, ville problemet være et veldig enkelt og veldig klassisk estimeringsproblem.

Styrken til EM-algoritmen ligger nettopp i å stole på disse dataene for å utføre estimatet. Ved å merke $z ik$ størrelsen som er lik 1 hvis individet $x i$ tilhører gruppen $G k$ og 0 ellers, skrives log-sannsynligheten for de fullførte dataene

L (x, z, \ Phi) = \ sum_ {i = 1} ^ n \ sum_ {k = 1} ^ gz_ {ik} \ log \ left (\ pi_kf (x_i, \ theta_k) \ right).

Vi får da raskt

{\ displaystyle Q \ left (\ Phi, \ Phi ^ {(c)} \ right) = \ sum _ {i = 1} ^ {n} \ sum _ {k = 1} ^ {g} \ mathbb {E } \ left (z_ {ik} {\ Bigg |} x, \ Phi ^ {(c)} \ right) \ log \ left (\ pi _ {k} f (x_ {i}, \ theta _ {k} ) \ Ikke sant)}

Ved å merke $t ik$ mengden gitt av , kan vi skille EM-algoritmen i to trinn, som klassisk kalles, når det gjelder blandingsmodeller, estimeringstrinnet og maksimeringstrinnet. Disse to trinnene gjentas til konvergens. ${\ displaystyle t_ {ik} = \ mathbb {E} \ left (z_ {ik} {\ Bigg |} x, \ Phi ^ {(c)} \ right)}$

Trinn E: beregning av $t ik$ ved Bayes inversjonsregel:

t_ {ik} = \ frac {\ pi_k ^ {(c)} f (x_i, \ theta_k ^ {(c)})} {\ sum _ {\ ell = 1} ^ g \ pi_ \ ell ^ {(c )} f (x_i, \ theta_ \ ell ^ {(c)})}

Trinn M: bestemmelse om å maksimere $Φ$

Q \ left (\ Phi, \ Phi ^ {(c)} \ right) = \ sum_ {i = 1} ^ n \ sum_ {k = 1} ^ gt_ {ik} \ log \ left (\ pi_kf (x_i, \ theta_k) \ høyre)

Fordelen med denne metoden er at vi kan skille problemet i $g$ elementære problemer som generelt er relativt enkle. I alle tilfeller er de optimale proporsjonene gitt av

\ pi_k = \ frac {1} {n} \ sum_ {i = 1} ^ nt_ {ik}

Anslaget for $θ$ avhenger $også$ av sannsynlighetsfunksjonen $f$ valgt. I det normale tilfellet er dette midlene $μ k$ og varians-kovariansmatriser $Σ k$ . De optimale estimatorene er gitt av

\ mu_k = \ frac {\ sum_ {i = 1} ^ nt_ {ik} x_i} {\ sum_ {i = 1} ^ nt_ {ik}}

{\ displaystyle \ Sigma _ {k} = {\ frac {\ sum _ {i = 1} ^ {n} t_ {ik} (x_ {i} - \ mu _ {k}) (x_ {i} - \ mu _ {k}) ^ {T}} {\ sum _ {i = 1} ^ {n} t_ {ik}}}}

Med $M T er$ den transponerte matrisen til $M$ og forutsatt at $μ k$ er kolonnevektorer.

Vanlige varianter av EM

EM-algoritmen kombinerer i de fleste tilfeller enkelhet i implementering og effektivitet. Imidlertid har noen få problematiske saker gitt ytterligere utvikling. Blant de eksisterende variantene av denne algoritmen vil vi nevne GEM (generalisert EM) algoritme som forenkler problemet med maksimeringstrinnet; CEM- algoritmen (EM-klassifisering) som gjør det mulig å ta hensyn til klassifiseringsaspektet under estimeringen, så vel som SEM- algoritmen (stokastisk EM), hvis mål er å redusere risikoen for å falle inn i et lokalt sannsynlighetsoptimum.

GEM-algoritme

GEM har blitt foreslått sammen med EM av Dempster et al. (1977) som beviste at for å sikre konvergens mot en lokal maksimal sannsynlighet, er det ikke nødvendig å maksimere Q ved hvert trinn, men at en enkel forbedring av Q er tilstrekkelig.

GEM kan derfor skrives som følger:

Tilfeldig initialisering av $\ theta ^ {(0)} \,$
$c = 0 \,$
Så lenge algoritmen ikke har konvergert, gjør
- velg som $\ theta ^ {(c + 1)} \,$ ${\ displaystyle Q \ left (\ theta ^ {(c + 1)}, \ theta ^ {(c)} \ right)> Q \ left (\ theta ^ {(c)}, \ theta ^ {(c) } \ Ikke sant)}$
- $c = c + 1 \,$
Slutt

CEM-algoritme

EM-algoritmen er posisjonert i et estimeringsperspektiv , det vil si at vi søker å maksimere sannsynligheten for parameteren , uten å ta i betraktning klassifiseringen som er gjort etterpå ved bruk av Bayes-regelen. $\ theta \,$

Den klassifisering fremgangsmåte , foreslått av Celeux og Govaert (1991) består i å optimalisere, ikke sannsynligheten for parameteren, men direkte den ferdige sannsynlighet, gitt, i tilfellet ved blanding av modeller, etter

$L (x, z; \ theta) = \ sum_ {i = 1} ^ n \ sum_ {k = 1} ^ gz_ {ik} \ log \ left (\ pi_kf (x, \ theta_k) \ right)$

For å gjøre dette, fortsett bare som følger:

Tilfeldig initialisering av $\ theta ^ {(0)} \,$
$c = 0 \,$
Så lenge algoritmen ikke har konvergert, gjør
- $z ^ {(c + 1)} = \ arg \ max_ {z} \ venstre (L \ venstre (x, z; \ theta ^ {(c)} \ høyre) \ høyre)$
- $\ theta ^ {(c + 1)} = \ arg \ max _ {\ theta} \ left (L \ left (x, z ^ {(c + 1)}; \ theta \ right) \ right)$
- $c = c + 1 \,$
Slutt

Når komponentene i blandingen tilhører den samme eksponensielle familien, ved å bruke sammenhengen mellom Bregman-avvikene og de eksponensielle familiene, får vi k-MLE-algoritmen.

SEM-algoritme

For å redusere risikoen for å falle til en lokal maksimal sannsynlighet, foreslår Celeux og Diebolt ( 1985 ) å sette inn et stokastisk klassifiseringstrinn mellom trinn E og M. Etter å ha beregnet sannsynlighetene trekkes medlemskapet til individer til klasser tilfeldig i henhold til en multinomial fordeling av parametere . $t_ {ik} ^ {(c)}$ $z_ {ik} ^ {(c)}$ $\ mathcal {M} \ left (1, t_ {i1} ^ {(q)}, \ dots, t_ {ig} ^ {(q)} \ right)$

I motsetning til hva som skjer i CEM-algoritmen, kan vi ikke vurdere at algoritmen har konvergert når individer ikke lenger bytter klasse. Faktisk, når disse trekkes tilfeldig, konvergerer ikke sekvensen i streng forstand. I praksis foreslår Celeux og Diebolt (1985) å kjøre SEM-algoritmen et gitt antall ganger for deretter å bruke CEM-algoritmen til å oppnå en partisjon og et estimat av parameteren . $\ left (z ^ {(q)}, \ theta ^ {(q)} \ høyre)$ $\ theta \,$

Se også

Datadelingering

Referanser

(in) AP Dempster , NM Laird og Donald Rubin , " Maximum Likelihood from Incomplete Data via the EM Algorithm " , Journal of the Royal Statistical Society. Series B (Methodological) , vol. 39, n o 1,1977, s. 1–38 ( JSTOR 2984875 )
(in) G. Celeux og G. Govaert , " En klassifisering EM-algoritme for klynging og to stokastiske versjoner " , Computational Statistics Quarterly , Vol. 2, n o 1, 1991, s. 73–82
(i) Frank Nielsen , " k-MLE: En rask algoritme for å lære statistiske blandingsmodeller " , arxiv (ICASSP 2012) , 2012( les online )
(en) G. Celeux og G. Diebolt , " Sem-algoritmen: en sannsynlig læreralgoritme avledet fra em-algoritmen for blandingsproblemet " , Forskningsrapport RR-1364, Inria, National Institute for Research in Computer Science and Automation , 1985