Kryssvalidering

Den kryssvalidering ( kryssvalidering  " ) er, i maskinlæring , en metode for å anslag påliteligheten av en modell basert på en teknikk for prøvetaking .

Nytten av kryssvalidering

Anta at vi har en statistisk modell med en eller flere ukjente parametere, og et treningsdatasett som vi kan lære (eller "trene") modellen på. Treningsprosessen optimaliserer parametrene til modellen slik at den samsvarer med treningsdataene så tett som mulig. Hvis vi da tar et uavhengig valideringsprøve, visstnok fra samme populasjon som treningsutvalget, vil det generelt vise seg at modellen ikke modellerer valideringsdataene så vel som treningsdataene: vi snakker om overmontering . Imidlertid er et uavhengig valideringseksempel ikke alltid tilgjengelig. I tillegg kan modellvalideringsytelsen variere fra ett valideringseksempel til et annet. Kryssvalidering gjør det mulig å utlede flere valideringssett fra samme database og dermed oppnå et mer robust estimat, med skjevhet og varians, av valideringens ytelse til modellen.

Valideringsteknikker

Det er mange varianter av validering, men vi kan først skille mellom:

Datadistribusjonstabell for kryssvalidering ved k = 3 blokker
k blokk 1 blokk 2 blokk 3
1 validering læring læring
2 læring validering læring
3 læring læring validering

Etter å ha utført validering av modellen, er det da nødvendig å gå til testen med settet med test som tidligere er satt til side.

Administrere ubalanserte databaser

I klassifiseringsoppgaver kan distribusjonen av klasser i databasen være ubalansert, dvs. antall observasjoner per klasse er kanskje ikke det samme fra en klasse til en annen: hvis vi betegner antall observasjoner av -th klasse, så eksisterer den slik det . I dette tilfellet anbefales det å bruke en stratifisert kryssvalidering ("stratifisert kryssvalidering") for å forhindre at validering (og læring) blir forspent av en skiftende fordeling av klasser fra en validering (resp. Læring) satt til en annen . Stratifisering består i å sikre at distribusjonen av klassene er den samme i alle trenings- og valideringssettene som brukes. Det vil si at hvis den opprinnelige databasen for eksempel presenterer 3 observasjoner av klasse 1 for 7 observasjoner av klasse 2, så må hvert valideringssett (resp. Læring) presentere dette forholdet 3 for 7.

Når det gjelder kryssvalidering med blokker, handler det ganske enkelt om å distribuere klassene på samme måte fra en blokk til en annen. Validerings- og opplæringssettene som kommer fra det, vil arve denne distribusjonen.

Se også

Interne lenker

Referanser

  1. Payam Refaeilzadeh, Lei Tang, Huan Liu, “  Cross-Validation  ” ( ArkivWikiwixArchive.isGoogle • Que faire? ) (Tilgang 20. april 2020 )
  2. Andrew W. Moore, Cross-validering for å avdekke og forebygge overtilpassing


<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">