Den skanning er omdannelsen av informasjon fra en bærer (tekst, bilde, lyd, video) eller et elektrisk signal i data digital som enheter datamaskin eller digital elektronikk kan behandles. Numeriske data er definert som en serie tegn og tall som representerer informasjon. Noen ganger bruker vi det franske begrepet digitalisering ( siffer som betyr figur på engelsk ).
Den skanning i sammenheng med arkiver administrasjon er masse konvertering av datafiler dokumenter.
Digitalisering konstruerer en diskret representasjon av et objekt, i form av en samling av et endelig antall tegn hentet fra et tellbart sett med gyldige tegn.
digitalisering av tekster:Digitaliseringen av en tekst er dens transformasjon til en sekvens av tegn hentet fra en liste over tegn som eksisterer i skriftspråket, ettersom en diktering forvandler lydene til tale til en sekvens av ord som finnes i ordboken for skriftspråket.
skanne bilder:Digitaliseringen av et bilde forvandler det til en rekke instruksjoner som lar det rekonstrueres. Disse instruksjonene kan bestå av en rekke visuelle opplevelser for hvert element ( piksel ) eller ha en mer kompleks organisering ( komprimert bilde , vektorgrafikk ).
Med mindre digitale data produseres direkte av mennesker (dette kalles datainnføring ), involverer digitalisering vanligvis minst tre faser:
Disse tre fasene følger ofte mer komplekse operasjoner som gir mer effektiv koding. Dette er spesielt tilfelle for digitalisering av bilder i digitale kameraer og for digitalisering av tekster ( Djvu- format , optisk tegngjenkjenning ).
Noen ganger kan digitaliseringsprosessen ta andre former.
skanning av temperaturen med en datalogger ( datalogger ):Den Temperaturen varierer langsomt over tid . Digitalisering skaper en journal over evolusjonen:
Hver gang temperaturavrundingen endres, registreres den nye temperaturen og dato og klokkeslett.
Dataloggeren utfører automatisk disse operasjonene ved først å konvertere de to dimensjonene, temperatur og tid, til elektriske signaler . Resultatet registreres i en kode som andre databehandlingsenheter kan utnytte.
I de fleste tilfeller brukes imidlertid vanlige trinn, og en av mengdene som beskriver objektet måles ved å øke de andre. Vi får dermed et endelig antall data.
Operasjonen med å ta en verdi for hver inkrement av en mengde kalles prøvetaking . I romlig prøvetaking diskreterer man langs en lengde , for eksempel ved å ta en lysstyrkeverdi hver tiendedel av en millimeter , på hver romlige akse . I timelig prøvetaking vil vi diskretisere tidens forløp, for eksempel ved å ta en verdi ved hvert mikrosekund.
Operasjonen med å avrunde en verdi til en annen, hentet fra en endelig liste, kalles kvantisering .
Resultatet av denne digitaliseringen er en serie verdier som representerer størrelsen målt langs de valgte aksene, i en konvensjonell rekkefølge som gjør det mulig å rekonstruere alle dimensjonene til hvert element av objektet.
For at de digitaliserte dataene trofast skal representere de opprinnelige mengdene, må man alltid gjøre antakelser om at signalet skal representeres.
Når bare dets båndbredde og signal-til-støy-forholdet er kjent , informasjonsteori bestemmer den digitale gjennomløpet . Den samplingsteoremet foreslår et minimum samplingsfrekvens med en kvantisering slik at kvantiseringsstøyen er av et nivå som tilsvarer bakgrunnsstøyen. Støyen kan gjøres uavhengig av signalet ved dekorrelasjon ( dithering ) . Flere kombinasjoner av frekvens og kvantiseringsskala kan tilstrekkelig beskrive det samme signalet.
Med en mer presis kunnskap om mengdene som skal representeres, kan man bruke færre prøver takket være de komprimerte anskaffelsesmetodene .
Selve prinsippet om digitalisering innebærer at brukeren (generelt sett en maskin) kjenner konvensjonene som gjør det mulig å rekonstruere gjenstanden som er representert. Disse konvensjonene kalles dataformatet . Digitaliseringen av informasjon inkluderer uatskillelig
Objektet kan bare rekonstrueres hvis datamaskinen har begge komponentene i minnet. Når algoritmen som tilsvarer en fil eller en datastrøm mangler fra maskinen, kan vi ikke bruke dataene, og vi snakker om et kompatibilitetsproblem .
Formatene kan være veldig enkle, som i tilfelle en rå strøm av digitalisering av et endimensjonalt signal, hvor prøvene følger hverandre uten avbrudd, og hvor det er tilstrekkelig å vite størrelsen, den numeriske kodingen og hastigheten. å rekonstruere signalet, eller mer komplekst, som i tilfelle vektorbeskrivelsesformater for dokumenter.
Datakompresjonsteknikker gjør det mulig å redusere størrelsen på filene eller hastigheten av strømmene. I dette tilfellet vokser den uforanderlige delen av informasjonen (formatet) og blir mer kompleks. Når dokumentet som er representert av disse filene eller strømmene er ment å distribueres, søkes et format slik at dekodingen, som utføres på hver stasjon, er mindre kompleks enn kodingen, som bare utføres en gang.
Digitaliseringsprosessene varierer avhengig av den fysiske naturen til informasjonen som skal digitaliseres:
Slik digitaliserer du en mengde som varierer over tid, for eksempel en lyd :
For å digitalisere et bilde blir høyden og bredden diskretisert, og lysnivåene konverteres for hvert punkt, enten globalt eller for hver primærfarge. Romprøvetaking utføres på tre forskjellige måter:
Disse prosedyrene er gyldige for reproduksjon i svart-hvitt. For fargegjengivelse kreves verdier for hver av de tre primærfargene. Enten deler vi lysstrålen til bildet i tre deler som tilsvarer de tre primærfargene, eller så setter vi inn filtre foran hver sensor ved å alternere fargene, og vi fortsetter ved interpolering , etter den digitale konverteringen, for å evaluere fargen ved hver piksel. Generelt kompenserer andre prosesser for manglene i det rå bildet.
Digitaliseringen av et bilde som varierer over tid kombinerer de to prosessfamiliene. Å skanne et bevegelig bilde ( video ), et digitalt kamera , et digitalt videokamera , et webkamera , prøve tid og digitalisere et bilde hver gang (for eksempel med et bilde hver 40 millisekund). Datastrømmen gjennomgår deretter en hastighetsreduksjonsprosess.
Det er også mulig å digitalisere et analogt videosignal, enten ved å produsere en rå konvertering av dette elektriske signalet, eller ved å rekonstruere hele eller deler av tidens diskretiseringsinformasjon fra de vertikale synkroniseringssignalene (rammer) og rommet fra horisontale synkroniseringssignaler ( linjer).
For å digitalisere en tekst, kommer enten en menneskelig operatør inn i teksten , eller dokumentet digitaliseres som et bilde ved å anvende på dette første datasettet et optisk tegngjenkjenningsprogram , eventuelt supplert med automatiske eller manuelle kontroller.
Datasystemer tillater:
Overføring av digitale data behandlet for å oppnå maksimal belegg av det tilgjengelige spekteret krever mindre båndbredde på overføringskanalene enn deres analoge motstykke.
Til gjengjeld blir informasjon forsømt eller tapt på digitaliseringstidspunktet eller under beregninger eller omkoding tapt for etterfølgende brukere.
Spesialiserte komponenter sørger for konvertering til et digitalt system av det analoge signalet som først produseres av svingere ( lysfølsom celle , termometer , mikrofon , radiomottaker osv.).
En A / D-ombyggingskjede ( analog til digital ) kan brytes ned i funksjoner og kretser i elementer:
Nøyaktigheten av digitaliseringen avhenger av kvaliteten på kvantiseringen av signalet og klokkens stabilitet.
En multiplekser (MuX) kan forvandles til en sekvens av diskrete signaler, analoge eller digitale, de uavhengige signalene som når den parallelt (flere innganger, men bare en utgang).
Som en følge av de mange digitaliseringsprosjektene, er arkiveringen av elektronisk innhold basert på et sett med handlinger, verktøy og metoder implementert for å samle, identifisere, velge, klassifisere og lagre elektronisk innhold på et sikkert medium, med sikte på å bruke dem og gjøre dem tilgjengelige over tid. Arkivering skiller seg fra lagring og sikkerhetskopiering .
Målene for prosjekter som kombinerer digitalisering og arkivering er mange. Innen elektronisk dokumenthåndtering og informasjons- og bibliotekvitenskap oppfyller de flere funksjoner:
Digitalisering er et aspekt av det som noen ganger på feil måte kalles dematerialisering . Det er unektelig et av de viktigste trinnene i ethvert prosjekt som tar sikte på å optimalisere forvaltningen av innkommende dokumenter og e-post, som fremdeles mottas mye i papirformat av selskaper og administrasjoner.
Eksplosjonen i volumet av elektroniske data har uunngåelig presset organisasjoner til å vurdere elektronisk innhold gjennom hele sin livssyklus, til det arkiveres eller til og med blir ødelagt.
Franske selskaper og administrasjoner må også integrere forestillingen om prøvetid i deres arkiveringsprosjekter for å bevise integriteten over tid for visst elektronisk innhold og ektheten til dets opprinnelse (i samsvar med de pålagte kravene). Av en juridisk ramme eller av forskrifter som for eksempel gjelder visse bransjer eller sektorer). De elektroniske dokumentene som prioriteres ved arkivering for prøvetid, er således fakturaer, kunder eller leverandører, lønnsslipp eller elektronisk korrespondanse.
Mange operasjoner for å digitalisere ulike elementer av kulturarv ble lansert fra 2000-tallet over hele verden. Blant disse er det flere veldig store prosjekter.
"Alliance for åpen innhold" (OCA)OCA-konsortiet er en amerikansk forening som samler private selskaper som Yahoo! , Adobe , HP , Internet Archive , biblioteker (BU California, BU Toronto), arkiver og utgivere. De25. oktober 2005, Microsoft har sluttet seg til denne gruppen.
Målet med OCA er å digitalisere og sette online en database tilgjengelig for alle, flerårig og flerspråklig (database som består av multimediedokumenter). Imidlertid tar det bare hensyn til copyright-fri arvsmidler i motsetning til Google Book Search . Ingen digitalisering vil bli gjort uten tillatelse fra rettighetshaverne . Sistnevnte kan bidra til prosjektet ved å definere omfanget av formidlingen med mulige begrensninger.
Google Book SearchKunngjort 14. desember 2004av medstifterne av selskapet Google , er " Google Print " -programmet ansvarlig for digitalisering av 15 millioner bøker, som representerer 4,5 milliarder sider på 6 år ifølge Jean-Noël Jeanneney , den gang presidenten for Nasjonalbiblioteket i Frankrike . Fem biblioteker har blitt enige om å digitalisere midlene sine: bibliotekene til Harvard University , University of Michigan og Stanford University , New York Public Library og Bodleian Library of Oxford University . Google Print ble offisielt lansert i november 2005 med en samling digitaliserte bøker i det offentlige området og fra prosjektpartnerne. Det ble omdøpt i midten av november til "Google Books Search" ("Google Book Search" på fransk). Nye avtaler er inngått mellom Google og andre universiteter for å berike dette digitale biblioteket.
Det europeiske digitale biblioteketDe 22. januar 2005, presidenten for Nasjonalbiblioteket i Frankrike , Jean-Noël Jeanneney , lanserer i det daglige Le Monde en appell om å reagere på Googles initiativ. I slutten av april 2005 etterlyste de nasjonale bibliotekene i 19 land, deretter seks europeiske stats- og regjeringssjefer, europeisk samarbeid for å opprette et europeisk digitalt bibliotek ( Europeana ). Et år senere åpner The European Library , den flerspråklige portalen til BNE.
I 2016 gir Europeana tilgang til 53 millioner digitaliserte dokumenter fra 3300 europeiske institusjoner. Året etter viser en studie bestilt av EU-kommisjonen at Europeana blir konsultert 700 000 ganger i måneden.