Objektdeteksjon

I computer vision, påvisning av gjenstander (eller objekt klassifisering ) angir en fremgangsmåte som gjør det mulig å oppdage tilstedeværelsen av en forekomst ( objekt anerkjennelse ) eller av en klasse av gjenstander i et digitalt bilde . Spesiell oppmerksomhet er gitt til ansiktsgjenkjenning og persongjenkjenning . Disse metodene involverer ofte veiledet læring og har applikasjoner innen flere felt, for eksempel innholdssøk eller videoovervåking .

Problematisk

I henhold til vanlig terminologi kan vi skille mellom gjenkjenning, lokalisering og gjenkjenning av objekter:

For lokaliserte visuelle enheter (objekt, ansikt, person osv.) Smelter deteksjon og lokalisering ofte sammen. Det er annerledes for mer "abstrakte" enheter som interiør / eksteriør, dag / natt, landskap / by osv. Noe som snarere gjelder gjenkjenning av visuelle scener . I sistnevnte tilfelle gir ikke lokalisering alltid mening, siden konseptet er tilstede i hele bildet.

Oppdagelsen av en klasse av objekter anses generelt å være et vanskeligere problem enn anerkjennelsen av en bestemt forekomst, siden det er nødvendig å identifisere karakteristikkene som er felles for klassen mens man ignorerer mangfoldet av de forskjellige forekomster i nevnte forekomst. Denne variasjonen kan skyldes flere faktorer, inkludert lysforholdene eller synspunktet som bildet ble tatt fra. Det øker ytterligere når det gjelder ledd ( dvs. ikke-stive) gjenstander som fotgjengere eller dyr.

Generell tilnærming

Den generelle tilnærmingen til å oppdage et objekt i et bilde (uten forhåndskunnskap om fotograferingsforholdene) består av tre trinn:

Spesifikke metoder

Spesifikke fremgangsmåter er blitt utviklet for visse typer objekter, for eksempel for ansiktsdeteksjon eller person deteksjon . Disse metodene kan ta hensyn til spesifikke egenskaper ved objektet, for eksempel størrelsesforholdet, tilstedeværelsen av øyne og munn i tilfelle ansikter, etc.

Matchende

De samsvarende mål å registrere bildene (eksempel: SIFT )

Storskala forskning

Når bildedatabasene er store, blir samsvarsteknikkene ineffektive fordi de krever for mye beregning. Den pose-i-visterms metode består da i å samle de lokale detektorene i henhold til en forhåndsdefinert vokabular, ordboken. Inspirert av teknikken som er kjent lenge i tekstfeltet ( ord-med-ord ), ble det foreslått i 2003 for videoen.

Se også

Merknader og referanser

  1. se for eksempel stedet for den internasjonale PascalVOC kampanjen mal feil {{Arkiv link}}  : fyll i en "  " parameter |titre=
  2. K. Murphy, A. Torralba, D. Eaton, WT Freeman, Objektdeteksjon og lokalisering ved bruk av lokale og globale funksjoner Forelesningsnotater i datavitenskap (ikke refert). Sicilia workshop om gjenkjennelse av gjenstander, 2005
  3. Josef Sivic, Andrew Zisserman , Video Google: A Text Retrieval Approach to Object Matching in Videos, internasjonal konferanse om datasyn 2003