Den bildebehandling er en disiplin av databehandling og Applied Mathematics som studerer digitale bilder og deres transformasjoner for å forbedre deres kvalitet, eller for å trekke ut informasjon.
Dette er en delmengde av signalbehandling dedikert til bilder og avledede data som video (i motsetning til deler av signalbehandling viet til andre typer data: spesielt lyd og andre endimensjonale signaler), mens de opererer i det digitale domenet (i motsetning til til analoge signalbehandlingsteknikker , for eksempel tradisjonell fotografering eller TV ).
I sammenheng med kunstig syn foregår bildebehandling etter anskaffelses- og digitaliseringstrinnene , og sikrer bildetransformasjonene og beregningsdelen som gjør det mulig å gå mot en tolkning av de bearbeidede bildene. Denne tolkningsfasen er mer og mer integrert i bildebehandlingen, spesielt ved å påkalle kunstig intelligens for å manipulere kunnskap, hovedsakelig på informasjonen vi har om hva bildene representerer. Behandlet (kunnskap om "domenet").
Å forstå bildebehandling begynner med å forstå hva et bilde er. Modus og betingelser for anskaffelse og digitalisering av de bearbeidede bildene forutsetter i stor grad operasjonene som må utføres for å hente ut informasjon. Faktisk spiller mange parametere inn, de viktigste er:
Noen typiske eksempler på informasjon som kan fås fra et digitalt bilde:
Bildebehandling begynte å bli studert på 1920-tallet for overføring av bilder med sjøkabelen som gikk fra New York til London . Harry G. Bartholomew og Maynard D. McFarlane utfører den første datakomprimeringsbildeskanningen for å sende fakser fra London til New York. Overføringstiden synker dermed fra mer enn en uke til mindre enn tre timer. Det er ingen reell evolusjon deretter etter etterkrigstiden.
Signalbehandling vokste i betydning mot slutten av andre verdenskrig med innføringen av radar . Olje prospektering er også en viktig bidragsyter til utviklingen av signalprosesseringsteknikker.
Den virkelige oppblomstringen i bildebehandling skjedde ikke før på 1960-tallet da datamaskiner begynte å være kraftige nok til å jobbe med bilder. Rett etter revolusjonerte gjenoppdagelsen av Fast Fourier Transform (FFT) feltet, ved å muliggjøre manipulering av frekvensinnholdet i signaler på en datamaskin. Imidlertid fokuserte det meste av forskningen på den tiden fremdeles på å forbedre bilder og komprimere dem.
I 1980 var David Marr den første som formaliserte konturdeteksjon på en presis måte (D. Marr og E. Hildreth: Theory of Edge Detection , Proc. R. Soc. London, B 207, 187-217, 1980). I løpet av 1980-tallet oppsto det en skikkelig mani for bildebehandling og spesielt for forståelse av bildet av ekspertsystemer . Ambisjonene var altfor store, fiaskoen var desto mer bitter.
På 1990-tallet ble operatørene stadig forbedret. Medisinsk forskning blir et veldig stort behov for bildebehandling for å forbedre diagnosene fra mange medisinske bildebehandlingsteknikker , hvor hovedteknikken er MR . Annonsører, så allmennheten, ble kjent med bilderedigering ved hjelp av Photoshop- programvare , og bildebehandling for estetiske formål spredte seg med utseendet til annen dedikert programvare ( The Gimp , Paint Shop Pro ). Endelig slutter tiåret med mani for bølger og multimodale bilder .
Bildeprosessoren bruker hovedsakelig digitale bilder , som derfor samples . Det har også mellomdata av forskjellige slag: regionale kart, lister over relaterte punkter, tabeller over målte verdier, etc.
Når det gjelder bildene i seg selv, er den mest brukte representasjonen den av et todimensjonalt bord som består av et sett med rader og kolonner. Hver celle i tabellen, kalt en piksel, inneholder en kvantisert verdi. Denne verdien er semantikk, avhengig av hvilken type signal det koder (lysintensiteten til punktet, avstand til et referansepunkt eller nummeret til regionen det tilhører, for eksempel). Når det gjelder 3D MR- bilder , er representasjonen ikke lenger et todimensjonalt bord, men et tredimensjonalt bord.
Bildeanskaffelse er et romlig mål på en interaksjon mellom en bølge og materie . Bølgen sendes ut av en kilde og mottas av en sensor . For eksempel i tilfelle ultralyd , blir ultralyd , en akustisk bølge, sendt ut og mottatt av sonden. Interaksjon er refleksjon av ultralyd på kroppens struktur.
Når det gjelder elektromagnetiske bølger , bruker fotografering det synlige spekteret, det vil si det som er synlig for det menneskelige øye. Det er applikasjoner over hele det elektromagnetiske spekteret , fra gammastråler til radiobølger . Dermed blir bilder ervervet av røntgen eller gammastråler hovedsakelig brukt i medisinsk bildebehandling og i astronomi . I medisin bruker vi bildebehandling MR , PET , CT-skanning , Doppler-ultralyd , ultralyd , scintigrafi , computertomografi .
De to viktige egenskapene til den romlige målingen er størrelsen på det minste elementet ( piksel ), men også interkorrelasjonen av to naboelementer: jo lavere denne interkorrelasjonen, jo bedre blir bildet.
I analogi med matematiske operatører kaller vi bildebehandlingsoperatører mer eller mindre komplekse prosesser som tar et bilde eller et sett med informasjon relatert til et bilde, og produserer et bilde eller et sett med informasjon relatert til dataene.
Operatører klassifiseres vanligvis i forskjellige familier, i henhold til informasjonen de godtar som input og som de gir som output, og i henhold til transformasjonene de utsetter dataene for. Dermed skiller vi for eksempel (denne listen er langt fra å være uttømmende):
Bilde → bildeoperatører:
Bildeoperatører → informasjonssett:
Operatørsett med informasjon → bilde:
Følgende deler fokuserer på å detaljere de forskjellige operatørene og deres vanlige applikasjoner, og deretter presentere måten de kombineres for å lage en bildebehandlingsapplikasjon.
Det er da nødvendig å bruke mer komplekse behandlingsoperatører ofte delt inn i to underkategorier:
Den første underkategorien inkluderer alle operatorene som kan uttrykke resultatet som en lineær kombinasjon av grå nivåer i et nabolag i bildet. Disse filtrene har spektralegenskaper, så vi snakker om et lavpassfilter (bildet blir uskarpt) eller et høypassfilter (konturene skiller seg ut).
Den andre underkategorien inkluderer feltet matematisk morfologi, så vel som andre behandlinger som karakteristiske punktdetektorer, Di-Zenzo-operatøren (konturdetektor generalisert til fargevalget), Retinex-filteret , så vel som de homomorfe operatorene (de som fungerer på logaritmen til bildet), men også alle operatørene som tillater å trekke ut for eksempel informasjon om tekstur av bildet ( konkurransematrise , fraktalindeks , rekkevidde ...).
Vi er ofte vant til å se en kantdetektor påført etter et lineært lavpasfilter som gjør bildet uskarpt. Mesteparten av tiden må du på en smart måte kombinere et ikke-lineært filter og et lineært filter for å oppdage hva du vil mens du ignorerer støyen.
Når støyen er eliminert og bildet er gjenopprettet for å kompensere for deformasjonene som ble innført av overføringsmediet og opptaksoptikken, er det mulig å gå videre til segmenteringstrinnet som skulle gjøre det mulig å utføre en partisjon av bildet i homogene tilkoblede sett.
Det er to hovedkategorier for segmentering:
Konturorientert segmentering har sett mange fremskritt rundt bruken av aktive konturer eller sett med nivåer. Innføringen av sannsynlige aspekter ( Markov-kjeder og Markov- felt) gjorde det mulig å arbeide ved å redusere den a priori kunnskapen som er nødvendig for å oppnå en tilfredsstillende behandling.
I dette trinnet finner vi ofte en del av klassifiseringen av piksler i klasser. Vi prøver å gruppere sammen i samme sett, også kalt klasse, og pikslene har samme karakteristikk: grå nivå inkludert i et bestemt intervall eller andre derivat større enn en viss terskel.
Et lineært filter transformerer et sett med inngangsdata til et sett med utdata ved hjelp av en matematisk operasjon som kalles konvolusjon . Når det gjelder digitaliserte data, for eksempel når det gjelder bildebehandling, er forholdet mellom verdiene til utgangspikslene og de inngangspikslene beskrevet av en rekke tall, vanligvis firkantede, kalt en konvolusjonsmatrise eller kjerne. . Beregningstiden reduseres ofte når man ønsker å skille et filter i to filtre hvis gjensidig konvolusjon gjør det mulig å rekonstruere det. Denne bemerkningen brukes spesielt til å lage et todimensjonalt filter fra to endimensjonale filtre (vektorer) i horisontal og vertikal retning.
UtjevningDette er lavpassfilter som kutter høyere eller lavere frekvenser mer eller mindre. De brukes til å dempe lydene av den mest forskjellige opprinnelsen som forurenser informasjonen, spesielt i påvisning av konturer som er vurdert nedenfor.
Teknisk sett er dette diskrete oversettelser av kontinuerlige filtre som, som disse, ikke endrer det totale signalnivået. Betingelsene for konvolusjonsmatrisen er derfor generelt heltall som skal deles med deres sum.
Det Gaussiske filteret brukes som en komponent i den uskarpe masken som forbedrer den tilsynelatende skarpheten til digitale fotografier. Selv om den er populært av mer eller mindre kunstnerisk fotografering, brukes den også i visse teknikker, for eksempel astronomi .
KonturregistreringDisse filtrene forvandler inngangsbildet til et svart bilde, bortsett fra på punkter der det oppdages en kant som er merket med hvitt. De absolutte verdiene spiller ingen rolle, det er uten interesse å endre skalaen som for en utjevning.
Påvisningen er basert på avledningen i henhold til de to koordinatene. Hvis vi klassisk betrakter signalene som summer av sinusoider, fremstår avledningen som et høypassfilter som derfor introduserer støy ved opprinnelsen til falske konturer. For amatører anbefales det å dempe denne støyen før du bruker et enkelt filter ved å passere gjennom et uklart filter. Mer forseggjorte metoder er systematisert for fagpersoner.
Matematisk morfologi tilbyr ikke-lineære operatorer spesielt nyttige for filtrering, segmentering og kvantifisering av bilder. Opprinnelig ment for behandling av binære bilder, ble det raskt generalisert til bilder på grått nivå, deretter til farger og multispektrale bilder.
Naturen til morfologiske operatører betyr at de egner seg godt til utvikling av spesialiserte elektroniske kretser (eller til bruk av FPGAer ) i morfologiske operatører.
Målene for søknadene kan være av forskjellige slag:
I alle tilfeller er ideen, med utgangspunkt i et innledende bilde, å hente ut informasjon fra den. For dette vil vi bruke operatørene på samme måte som "programvareklosser", ved å kombinere dem og kjede dem. Disse teknikkene er grunnlaget for maskinens visjonssystemer .
Mange murstein er tilgjengelige for å lage komplekse og avanserte applikasjoner.
Objektgjenkjenning er en gren av maskinsynet og en av pilarene i maskinsynet . Den består i å identifisere skjemaer som er beskrevet på forhånd i et digitalt bilde , og i forlengelse i en digital videostrøm .
Ikke forveksle objektgjenkjenning (på engelsk: " objektgjenkjenning " eller " formgjenkjenning ") og mønstergjenkjenning (" mønstergjenkjenning " på engelsk). Den første fokuserer på å gjenkjenne geometriske former i et bilde, mens den andre søker å identifisere mønstre i statistiske data. Forvirringen oppstår fra det faktum at mønstergjenkjenning ofte brukes som en teknikk som brukes til gjenkjenning av objekter.
Først og fremst gjenstanden for algoritmer rettet av mennesker, fram til 1995 (forsøk på å reprodusere en menneskelig resonnement for identifikasjon, som i "en sykkel har to hjul, en ramme ..."), gjenkjennelsen av Objektene var gjenstand for betydelig fremgang deretter gjennom implementering av læringsteknikker, for eksempel separatorer med bred margin . Disse teknikkene tar sikte på å benytte grunnlagene for positive og negative eksempler (moteksempler) av en algoritme for å lete etter diskriminerende kriterier, det vil si kriterier som gjør det mulig å skille eksemplene så godt som mulig fra moteksemplene.