Tittel | ImageNet |
---|---|
Produsent | ImageNet |
Beskrevet av | ImageNet: En storstilt hierarkisk bildedatabase ( d ) |
Nettsted | www.image-net.org |
Tillatelse | BSD-3-klausul |
---|
ImageNet er et annotert bilde database produsert av organisasjonen med samme navn for forskning på datamaskinen visjon . I 2016 ble over ti millioner nettadresser kommentert for hånd for å indikere hvilke objekter som er representert i bildet; over en million bilder drar også fordel av å avgrense bokser rundt gjenstander. Databasen med merknader om tredjeparts URL-er for bilder er fritt tilgjengelig, men ImageNet eier ikke bildene selv. Siden 2010 har ImageNet- prosjektet organisert en årlig konkurranse: ImageNet Large Scale Visual Recognition Challenge (ILSVRC), eller "ImageNet Large Scale Visual Recognition Competition". Den består av en programvarekonkurranse som har som mål å presist oppdage og klassifisere objekter og scener i naturlige bilder.
Forsker Fei-Fei Li begynte å jobbe med ideen til ImageNet-datasettet i 2006. I en tid da forskere fokuserer på modeller og algoritmer, bestemmer Li seg for å øke og forbedre tilgjengelige data for å trene dataene. Maskinlæringsalgoritmer . I 2007 møtte Fi-Fei Li Christiane Fellbaum , professor ved Princeton University og en av skaperne av WordNet for å diskutere prosjektet. Som et resultat av dette møtet bygger Li ImageNet fra WordNet, og bruker mange av funksjonene på nytt.
ImageNet-databasen ble først presentert under plakatsessioner i 2009 på Computer Vision and Pattern Recognition (CVPR) Conference i Florida, av forskere fra Institutt for informatikk ved Princeton University .
IMAGEnet bruker deltakende produksjon i merkeprosessen . Merknaden på skalaen til bildet indikerer tilstedeværelse eller fravær av en objektklasse i den, for eksempel "det er tigre i dette bildet" eller "det er ingen tigre i dette bildet". For å kommentere objekter innebærer dette å tilveiebringe en avgrensningsboks rundt objektet eller dets synlige del. ImageNet bruker en variant av WordNet- objektkategoriseringsstrukturen, forsterket av 120 hunderase-kategorier, for å presentere den fine semantiske klassifiseringen.
ILSVRC ble lansert i 2010 og er en årlig konkurranse der forskerteamene vurderer bildebehandlingsalgoritmene sine på ImageNet-datasettet (et valideringssett ikke tilgjengelig), og konkurrerer om den beste nøyaktigheten på flere visjonsoppgaver via datamaskin . Målet med ILSVRC er å følge eksemplet med den mindre skalaen PASCAL VOC-utfordring, opprettet i 2005 og som bare inneholder rundt 20 000 bilder og rundt tjue objektklasser. På 2010-tallet så det spektakulære fremskritt innen bildebehandling . I 2011 var de laveste klassifiseringsfeilratene for ILSVRC-konkurransen rundt 25%. I 2012 brakte den dype læringsrevolusjonen plutselig denne rekorden ned til 16%. De neste to årene vil feilprosenten falle drastisk til noen få prosent. Forskerne Anslår at algoritmene i 2015 vil være i stand til å overgå ytelsen til menneskelige operatører på oppgavene til ILSVRC-utfordringen. Imidlertid, som en av arrangørene av utfordringen, Olga Russakovsky, påpekte i 2015, må algoritmer bare diskriminere et antall klasser i størrelsesorden tusen mens mennesker kan diskriminere et stort antall. I tillegg kan den menneskelige operatøren lett forstå sammenhengen til et bilde, noe som ikke er tilfelle med automatiserte løsninger.
I 2014 deltok mer enn femti institusjoner i ILSVRC-konkurransen. I 2015 ble Baidu- forskere utestengt i ett år for å bruke flere kontoer for å overskride grensen for to innleveringer per uke. Baidu sa senere at lederen for det involverte teamet ble fjernet fra kontoret og ville opprette en vitenskapelig rådgivende gruppe.