Forventnings-maksimeringsalgoritme

Forventnings-maksimeringsalgoritme
Natur Data partisjoneringsalgoritme ( d )
Oppfinner Donald rubin
Oppfinnelsesdato 1977

Den forventning-maksimering algoritme (engelsk forventning-maksimering algoritme , ofte forkortet EM ), foreslått av Dempster et al. (1977), er en iterativ algoritme som gjør det mulig å finne maksimale sannsynlighetsparametere for en sannsynlighetsmodell når sistnevnte er avhengig av ikke observerbare latente variabler. Mange varianter har senere blitt foreslått, og danner en hel klasse algoritmer.

Bruk

EM-algoritmen brukes ofte til dataklassifisering, maskinlæring eller maskinvisjon. Det kan også nevnes bruken av den i medisinsk bildebehandling i sammenheng med tomografisk rekonstruksjon.

Forventnings-maksimeringsalgoritmen består av:

Vi bruker deretter parametrene som er funnet i M som utgangspunkt for en ny fase av evaluering av forventningen, og vi gjentar på denne måten.

For å løse problemet med å lære skjulte Markov-modeller (HMM), dvs. bestemme parametrene til Markov-modellen, bruker vi Baum-Welch-algoritmen .

Prinsipp for drift

Ved å vurdere et utvalg x = ( x 1 , ..., x n ) av individer i henhold til en fordeling f ( x i , θ ) som er parametrisert av θ , prøver vi å bestemme parameteren θ maksimere log-sannsynligheten gitt av

Denne algoritmen er spesielt nyttig når maksimering av L er veldig komplisert, men når vi, med forbehold om å kjenne visse hensynsfullt valgte data, veldig enkelt kan bestemme θ .

I dette tilfellet stoler vi på data fullført med en ukjent vektor z = ( z 1 , ..., z n ) . Ved å notere f ( z i | x i , θ ) sannsynligheten for z i å vite x i og parameteren θ , kan vi definere den ferdige log-sannsynlighet som mengden

og så,

EM-algoritmen er en iterativ prosedyre basert på forventningen om at dataene blir fullført betinget av den nåværende parameteren. Ved å merke θ ( c ) denne parameteren, kan vi skrive

der forventningen er tatt på z .

eller

, fordi L ( x  ; θ ) ikke er avhengig av z ,

med og .

Vi viser at sekvensen definert av

har en tendens til et lokalt maksimum.

EM-algoritmen kan defineres av:

I praksis roteres EM-algoritmen et stort antall ganger fra forskjellige utgangsverdier for å overvinne den lokale karakteren av det maksimalt oppnådde, for å ha større sjanser for å nå den totale maksimale sannsynligheten.

Detaljert eksempel: applikasjon i automatisk klassifisering

En av EMs viktigste applikasjoner er estimering av parametrene for en blandingstetthet i automatisk klassifisering innenfor rammen av Gaussiske blandingsmodeller . I dette problemet vurderer vi at et utvalg ( x 1 , ..., x n ) av , dvs. preget av p kontinuerlige variabler, faktisk kommer fra g forskjellige grupper. Tatt i betraktning at hver av disse gruppene G k følger en rett f med parameter θ k , og hvis andeler er gitt av en vektor 1 , ..., π g ) . Ved å merke Φ = (π 1 , ..., π g , θ 1 , ..., θ g ) parameteren til blandingen, blir densitetsfunksjonen som prøven følger gitt av

og derfor blir logg-sannsyn-av para Φ er gitt ved

Maksimering av denne funksjonen i henhold til Φ er veldig kompleks. For eksempel, hvis man ønsker å bestemme parametrene som tilsvarer to grupper i henhold til en normal lov i et rom med dimensjon 3, er det nødvendig å optimalisere en ikke-lineær funksjon av .

På samme tid, hvis vi kjente gruppene som hver enkelt tilhører, ville problemet være et veldig enkelt og veldig klassisk estimeringsproblem.

Styrken til EM-algoritmen ligger nettopp i å stole på disse dataene for å utføre estimatet. Ved å merke z ik størrelsen som er lik 1 hvis individet x i tilhører gruppen G k og 0 ellers, skrives log-sannsynligheten for de fullførte dataene

Vi får da raskt

Ved å merke t ik mengden gitt av , kan vi skille EM-algoritmen i to trinn, som klassisk kalles, når det gjelder blandingsmodeller, estimeringstrinnet og maksimeringstrinnet. Disse to trinnene gjentas til konvergens.

Fordelen med denne metoden er at vi kan skille problemet i g elementære problemer som generelt er relativt enkle. I alle tilfeller er de optimale proporsjonene gitt av

Anslaget for θ avhenger også av sannsynlighetsfunksjonen f valgt. I det normale tilfellet er dette midlene μ k og varians-kovariansmatriser Σ k . De optimale estimatorene er gitt av

Med M T er den transponerte matrisen til M og forutsatt at μ k er kolonnevektorer.

Vanlige varianter av EM

EM-algoritmen kombinerer i de fleste tilfeller enkelhet i implementering og effektivitet. Imidlertid har noen få problematiske saker gitt ytterligere utvikling. Blant de eksisterende variantene av denne algoritmen vil vi nevne GEM (generalisert EM) algoritme som forenkler problemet med maksimeringstrinnet; CEM- algoritmen (EM-klassifisering) som gjør det mulig å ta hensyn til klassifiseringsaspektet under estimeringen, så vel som SEM- algoritmen (stokastisk EM), hvis mål er å redusere risikoen for å falle inn i et lokalt sannsynlighetsoptimum.

GEM-algoritme

GEM har blitt foreslått sammen med EM av Dempster et al. (1977) som beviste at for å sikre konvergens mot en lokal maksimal sannsynlighet, er det ikke nødvendig å maksimere Q ved hvert trinn, men at en enkel forbedring av Q er tilstrekkelig.

GEM kan derfor skrives som følger:

CEM-algoritme

EM-algoritmen er posisjonert i et estimeringsperspektiv , det vil si at vi søker å maksimere sannsynligheten for parameteren , uten å ta i betraktning klassifiseringen som er gjort etterpå ved bruk av Bayes-regelen.

Den klassifisering fremgangsmåte , foreslått av Celeux og Govaert (1991) består i å optimalisere, ikke sannsynligheten for parameteren, men direkte den ferdige sannsynlighet, gitt, i tilfellet ved blanding av modeller, etter

For å gjøre dette, fortsett bare som følger:

Når komponentene i blandingen tilhører den samme eksponensielle familien, ved å bruke sammenhengen mellom Bregman-avvikene og de eksponensielle familiene, får vi k-MLE-algoritmen.

SEM-algoritme

For å redusere risikoen for å falle til en lokal maksimal sannsynlighet, foreslår Celeux og Diebolt ( 1985 ) å sette inn et stokastisk klassifiseringstrinn mellom trinn E og M. Etter å ha beregnet sannsynlighetene trekkes medlemskapet til individer til klasser tilfeldig i henhold til en multinomial fordeling av parametere .

I motsetning til hva som skjer i CEM-algoritmen, kan vi ikke vurdere at algoritmen har konvergert når individer ikke lenger bytter klasse. Faktisk, når disse trekkes tilfeldig, konvergerer ikke sekvensen i streng forstand. I praksis foreslår Celeux og Diebolt (1985) å kjøre SEM-algoritmen et gitt antall ganger for deretter å bruke CEM-algoritmen til å oppnå en partisjon og et estimat av parameteren .

Se også

Referanser

  1. (in) AP Dempster , NM Laird og Donald Rubin , "  Maximum Likelihood from Incomplete Data via the EM Algorithm  " , Journal of the Royal Statistical Society. Series B (Methodological) , vol.  39, n o  1,1977, s.  1–38 ( JSTOR  2984875 )
  2. (in) G. Celeux og G. Govaert , En klassifisering EM-algoritme for klynging og to stokastiske versjoner  " , Computational Statistics Quarterly , Vol.  2, n o  1, 1991, s.  73–82
  3. (i) Frank Nielsen , k-MLE: En rask algoritme for å lære statistiske blandingsmodeller  " , arxiv (ICASSP 2012) , 2012( les online )
  4. (en) G. Celeux og G. Diebolt , Sem-algoritmen: en sannsynlig læreralgoritme avledet fra em-algoritmen for blandingsproblemet  " , Forskningsrapport RR-1364, Inria, National Institute for Research in Computer Science and Automation , 1985
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">