I computer vision, påvisning av gjenstander (eller objekt klassifisering ) angir en fremgangsmåte som gjør det mulig å oppdage tilstedeværelsen av en forekomst ( objekt anerkjennelse ) eller av en klasse av gjenstander i et digitalt bilde . Spesiell oppmerksomhet er gitt til ansiktsgjenkjenning og persongjenkjenning . Disse metodene involverer ofte veiledet læring og har applikasjoner innen flere felt, for eksempel innholdssøk eller videoovervåking .
I henhold til vanlig terminologi kan vi skille mellom gjenkjenning, lokalisering og gjenkjenning av objekter:
For lokaliserte visuelle enheter (objekt, ansikt, person osv.) Smelter deteksjon og lokalisering ofte sammen. Det er annerledes for mer "abstrakte" enheter som interiør / eksteriør, dag / natt, landskap / by osv. Noe som snarere gjelder gjenkjenning av visuelle scener . I sistnevnte tilfelle gir ikke lokalisering alltid mening, siden konseptet er tilstede i hele bildet.
Oppdagelsen av en klasse av objekter anses generelt å være et vanskeligere problem enn anerkjennelsen av en bestemt forekomst, siden det er nødvendig å identifisere karakteristikkene som er felles for klassen mens man ignorerer mangfoldet av de forskjellige forekomster i nevnte forekomst. Denne variasjonen kan skyldes flere faktorer, inkludert lysforholdene eller synspunktet som bildet ble tatt fra. Det øker ytterligere når det gjelder ledd ( dvs. ikke-stive) gjenstander som fotgjengere eller dyr.
Den generelle tilnærmingen til å oppdage et objekt i et bilde (uten forhåndskunnskap om fotograferingsforholdene) består av tre trinn:
Spesifikke fremgangsmåter er blitt utviklet for visse typer objekter, for eksempel for ansiktsdeteksjon eller person deteksjon . Disse metodene kan ta hensyn til spesifikke egenskaper ved objektet, for eksempel størrelsesforholdet, tilstedeværelsen av øyne og munn i tilfelle ansikter, etc.
De samsvarende mål å registrere bildene (eksempel: SIFT )
Når bildedatabasene er store, blir samsvarsteknikkene ineffektive fordi de krever for mye beregning. Den pose-i-visterms metode består da i å samle de lokale detektorene i henhold til en forhåndsdefinert vokabular, ordboken. Inspirert av teknikken som er kjent lenge i tekstfeltet ( ord-med-ord ), ble det foreslått i 2003 for videoen.