En database gjør det mulig å lagre og hente strukturerte, semistrukturerte eller rådata eller informasjon , ofte relatert til et tema eller en aktivitet; disse kan være av forskjellige natur og mer eller mindre sammenkoblet.
Dataene deres kan lagres i en veldig strukturert form ( relasjonsdatabase for eksempel), eller i form av ustrukturerte rådata (med NoSQL-databaser for eksempel). En database kan være lokalisert på samme sted og på samme datastyrte medium , eller spredt over flere maskiner flere steder.
Databasen er midt i datasystemene for innsamling, formatering, lagring og bruk av informasjon . Innretningen omfatter en databasehåndteringssystem (forkortelse: SGBD ): en motor programvare som manipulerer databasen og dirigerer adgang til innholdet. Slike enheter inkluderer også applikasjonsprogramvare, og et sett med regler som gjelder tilgang og bruk av informasjon.
En av de vanligste bruken av datamaskiner er datamanipulering . Databaser brukes for eksempel innen økonomi , forsikring , skole , epidemiologi , offentlig administrasjon (inkludert statistikk) og mediesektoren .
Når flere objekter kalt “databaser” settes sammen i form av en samling, kalles dette en database .
En database er en "container" som lagrer data som tall, datoer eller ord, som kan bearbeides på datamaskin for å produsere informasjon; for eksempel tall og navn samlet og sortert for å danne en katalog . Omstillinger er vanligvis en kombinasjon av finne, velge, sortere, gruppere og sammenkoble operasjoner .
Det er den sentrale delen av et informasjonssystem eller et databasesystem (eller bare en database ), som styrer innsamling, lagring, ombehandling og bruk av data. Denne enheten inkluderer ofte motorprogramvare (se neste avsnitt), applikasjonsprogramvare og et sett med regler som gjelder tilgang og bruk av informasjon.
Den databasestyringssystem er en pakke med programmer som manipulerer databasestrukturen og dirigerer adgang til de data som er lagret i den. En database består av en samling filer; det er tilgjengelig via DBMS som mottar forespørsler om innholdsmanipulering og utfører de nødvendige operasjonene på filene. Det skjuler kompleksiteten i operasjonene og gir et syntetisk syn på innholdet. DBMS lar flere brukere samtidig manipulere innholdet, og kan tilby forskjellige visninger på samme datasett.
Bruk av databaser er et alternativ til den tradisjonelle metoden for datalagring, der en applikasjon plasserer data i filer som manipuleres av applikasjonen. Det letter deling av informasjon, tillater automatisk kontroll av konsistens og redundans av informasjon, begrensning av tilgang til informasjon og enklere produksjon av sammendragsinformasjon fra rå informasjon. Databasen har også en samlende effekt: i et fellesskap som bruker en database, organiserer en enkelt person - databaseadministratoren - innholdet i databasen på en måte som er gunstig for hele samfunnet. Dette kan unngå konflikter på grunn av konkurrerende interesser mellom fellesskapsmedlemmer.
En database krever vanligvis mer diskplass, det store spekteret av funksjoner som tilbys av DBMS gjør håndtering mer komplisert, og feil har større innvirkning og er vanskeligere å gjenopprette.
Bruken av dataene er forskjellig fra en database til en annen. Databasene kan klassifiseres etter antall brukere, type innhold, spesielt hvis det er svakt eller sterkt strukturert, så vel som i henhold til bruken som gjøres av databasen, spesielt den operasjonelle bruken. Eller for analytisk bruk formål :
Databaser kan klassifiseres etter antall brukere - en enkelt, en liten gruppe eller til og med et selskap. En kontordatabase er installert på en personlig datamaskin for tjenesten til en enkelt bruker. Mens en bedriftsdatabase er installert på en kraftig datamaskin som betjener hundrevis av brukere. En sentralisert database er installert på ett sted, mens en “ distribuert database ” er spredt på flere steder.
Den mest populære måten å klassifisere databaser på er i henhold til deres bruk og det tidsmessige aspektet av innholdet:
operasjonelle baser eller OLTP ( online transaksjonsbehandling ) er ment å hjelpe brukere med å holde orden på daglige aktiviteter. Spesielt gjør de det mulig å umiddelbart lagre informasjon om hver operasjon som utføres innenfor rammen av aktiviteten: kjøp, salg, reservasjoner, betalinger. I slike applikasjoner er det lagt vekt på responsens hastighet og muligheten til å behandle flere transaksjoner samtidig. analyse baser også kjent som OLAP (fra engelsk analyseprosessene ) er sammensatt av historisk informasjon, for eksempel målinger som massive operasjoner utføres for å skaffe statistikk og prognoser . Databaser er ofte databaserdatabaser (engelsk datawarehouse ) som brukes til å samle store mengder historiske data på en daglig basis for en operativ database. Innholdet i databasen brukes til å utføre analyser av tidsmessig utvikling og statistikk som den som brukes i ledelsen . I slike applikasjoner blir det lagt vekt på evnen til å utføre svært kompleks behandling, og motorprogramvaren (DBMS) er egentlig en analysemotor .Databaser klassifiseres også noen ganger i henhold til innholdskarakteristikker:
De harddisker , masselager med stor kapasitet, ble oppfunnet i 1956 . Oppfinnelsen av harddisken gjorde det mulig å bruke datamaskiner til å samle inn, klassifisere og lagre store mengder informasjon på en mer fleksibel og effektiv måte enn det forrige mediet: magnetbånd .
Begrepet database dukket først opp i 1964 for å referere til en samling informasjon som deles av forskjellige brukere av et militært informasjonssystem.
De første hierarkiske databasene dukket opp på begynnelsen av 1960 - tallet . Informasjonen ble delt inn i to hierarkinivåer: ett nivå inneholdt informasjon som er identisk i flere poster i databasen. Klippet ble deretter utvidet til å ta form av et trediagram.
I 1965 designet Charles Bachman Ansi / Sparc-arkitekturen som fremdeles er i bruk i dag. I 1969 opprettet han nettverksdatamodellen i CODASYL- konsortiet for dataprogrammer som den hierarkiske modellen ikke er egnet for. Charles Bachman mottok Turing-prisen i 1973 for sine "fremragende bidrag til databaseteknologi".
I 1968 opprettet Dick Pick Pick , et operativsystem som inneholder et "multi-valued" database management system (MV RDBMS).
I 1970 , Edgar F. Codd bemerket i hans matematiske avhandling om relasjonsalgebra som et sett av enheter kan sammenlignes med en familie som definerer en relasjon i matematikk og som blir med er kartesiske produkter . Denne oppgaven er opprinnelsen til relasjonsdatabaser. Edgar F. Codd mottok Turing-prisen i 1981 .
Den enhet-foreningen modell ble oppfunnet av Peter Chen i 1975 ; det er ment å avklare organiseringen av data i relasjonsdatabaser.
I 1990 ble den juridiske databasen LEADERS, med månedlige oppdateringer på klientens datamaskiner, først på disketter og deretter på CD-ROM (ansvarlig for René Janray), lansert i Belgia. Den ble solgt i 2000 til selskapet Kluwer. I mellomtiden hadde det samlet nesten 1000 kunder, inkludert de viktigste butikkene og selskapene. En avhandling ved slutten av studien ved ISAT fokuserte på dette produktet og hadde tittelen The Leaders Database: A Breakthrough in the World of Electronic Legal Publishing . I 1998, i en bok viet til databaser, viet forlaget MARABOUT et helt kapittel til LEADERS-databasen.
I relasjonsmodellen betegner forholdet all informasjonen i en tabell, mens tilknytningen i enhetsassosiasjonsmodellen angir den logiske lenken som eksisterer mellom to tabeller som inneholder relatert informasjon.
De første databasene var basert på presentasjon av stansede kort : delt inn i rader og kolonner med fast bredde. En slik fordeling gjør det vanskelig å lagre programmering gjenstander ; spesielt tillater de ikke arv mellom enheter, noe som er karakteristisk for objektorientert programmering .
Viste seg på 1990-tallet , bruker objektrelasjonsdatabaser en relasjonsdatamodell mens de tillater lagring av objekter. I disse databasene legges arveassosiasjonene til objekter til tilknytningene mellom enhetene i relasjonsmodellen.
De viktigste stadiene i livssyklusen til en database er design og igangkjøring.
Før utformingen blir brukerne og produsentene av informasjonen intervjuet for å bli kjent med informasjonens egenskaper, forholdet mellom informasjonen, samt egenskapene til datasystemet som er vert for databasen. Målet med dette trinnet er å samle egenskapene til informasjonen i praksis, og brukernes behov, og å formulere dem på en enkel måte, like forståelig for brukerne som databaseadministratorene.
Deretter vil det opprettes et overordnet diagram over informasjons- og relasjonsnettverket, i form av et diagram som inneholder enheter, attributter og relasjoner. Det finnes forskjellige metoder for datamodellering, den mest kjente er DCM ( Conceptual Data Model ). Dette gjør det spesielt mulig å etablere et strukturert diagram over alle dataene i et informasjonssystem, forståelig for alle dets aktører (produktsjef, utvikler, kunde hvis han blir informert ...).
Denne planen blir deretter transformert til instruksjoner formulert på kommandospråket til DBMS, og instruksjonene blir utført for å skape strukturen i databasen og gjøre den operativ.
Å definere den interne organisasjonen til en database - dens fysiske datamodell - er det siste trinnet i konstruksjonen. Denne operasjonen består først og fremst i å definere poster som tilsvarer den logiske datamodellen. Opptak lagres i filer, og hver fil inneholder vanligvis en serie lignende opptak. I løpet av dette trinnet brukes forskjellige teknikker for å oppnå en modell som resulterer i en tilstrekkelig hastighet på datamanipulering, samtidig som dataenes integritet garanteres.
Kvaliteten på den fysiske datamodellen har stor innvirkning på hastigheten på databasedriften. En enkel forbedring kan gjøre datahandlinger 50 ganger raskere, en forskjell desto mer merkbar når det er mye datamengde. På begynnelsen av 2000 - tallet var det databaser som inneholder flere terabyte (10 12 ) med data og uavhengige ingeniører som bare hadde til formål å hjelpe kunder med å øke hastigheten på databasene.
Når operasjonen er i drift, gjør det mulig å oppdage problemer som kan kreve endringer i ordningen. Endringer kan også gjøres i tilfelle endrede brukerbehov.
Den interne organisasjonen til en database - dens fysiske datamodell - inkluderer poster som tilsvarer den logiske datamodellen, pekere og koder som brukes av DBMS for å finne og manipulere dataene. Opptak lagres i filer, og hver fil inneholder vanligvis en serie lignende opptak. Den interne organisasjonen bruker forskjellige teknikker som tar sikte på å oppnå tilstrekkelig hastighet i datamanipulering, samtidig som de sikrer dataintegritet.
Den logiske organisasjonen av data er uavhengig av deres fysiske organisering. Dette betyr at posisjonen til data i filer kan endres fullstendig uten at organisasjonen deres i form av poster i tabeller påvirkes. DBMS organiserer filer på en måte som fremskynder driften og er forskjellig avhengig av maskinvare og operativsystem som databasestyringssystemet er designet for. Postene er vanligvis gruppert i klynger (engelsk klynge ), hvis størrelse er justert med en optimal størrelse for maskinvaren ( harddisker ).
De viktigste teknikkene som brukes i den fysiske datamodellen er indekser, materialiserte visninger og partisjonering. Datalagring gjøres ofte av RAID- enheter, og DBMS bruker teknikker som hashtabeller, B-trær, bitmaps eller ISAM-filer:
Indeks En indeks er et datasett som skal øke hastigheten på datasøk. Indeksens struktur består av verdier tilknyttet pekere der hver peker gjør det mulig å finne dataene som har denne verdien. Materialisert visning I en materialisert visning lagres resultatet av et søk / aggregering i databasen, slik at den kan brukes flere ganger og sparer tid. Denne teknikken brukes spesielt i analytiske databaser og OLAP- applikasjoner . Oppdeling I partisjoneringsteknikken distribuerer DBMS dataene mellom flere harddisker, noe som øker driften ved å redusere mengden arbeid som hver harddisk utfører. RAID (fra det engelske redundante utvalget av billige disker ) I RAID-teknikken distribuerer en maskinvareenhet data mellom flere harddisker, noe som gir raskere drift og forhindrer tap av informasjon i tilfelle en feil. Denne maskinvareenheten brukes av programvare som en vanlig harddisk ; Hash-bord (på engelsk hashing ) I denne organisasjonen brukes en hash-funksjon til å transformere, ved aritmetisk beregning, hvilken som helst verdi til et helt tall. Det oppnådde nummeret brukes til å bestemme den nøyaktige plasseringen der dataene til denne verdien skal lagres. Tre B Den aksel B er en struktur tre hvor alle grener har samme lengde, og hver node har mellom N / 2 og N grener. Dette er en struktur som ofte brukes til indekser. Bitmap Bitmap-indekser brukes ofte til data der det bare er noen få mulige verdier (eksempel: kjønn M / F, ukedag osv.). For hver av de mulige verdiene til referansen omfatter indeksen en tabell med bits der Nth-biten er på "1" hvis Nth-referansen har den aktuelle verdien. ISAM ( indeksert sekvensiell tilgangsmetode ) I denne organisasjonen lagres postene sortert etter primærnøkkelen , i en struktur delt inn i sylindere og spor av fast størrelse. Hvert spor har en ledig plass slik at nye innspillinger kan settes inn. En trestruktur inneholder nøkkelverdien og en peker til den første posten i hvert spor. Avis En logg inneholder listen over de siste operasjonene som ble utført i databasen. Denne loggen brukes av databasemotoren til å rulle tilbake-operasjoner, for eksempel i tilfelle av en datamaskin krasj , eller dersom driften inneholde en feil. Se også IT-transaksjon .Et databasesystem er et sett med programvare som manipulerer innholdet i databaser. Den brukes til å utføre ordinære operasjoner som å finne, legge til eller slette poster ( Opprett , Les , Oppdater , Slett forkortet CRUD ), manipulere indekser , opprette eller kopiere databaser).
Mekanismene i databasestyringssystemet tar sikte på å sikre konsistens, konfidensialitet og holdbarhet av innholdet i databasene. Programvaren nekter å tillate en bruker å endre eller slette informasjon hvis den ikke tidligere har blitt autorisert til det; det vil nekte at en bruker legger til informasjon hvis den finnes i databasen og er gjenstand for en unikhetsregel ; det vil også nekte å lagre informasjon som ikke overholder konsistensregler som referanseintegritetsregler i relasjonsdatabaser.
Databasehåndteringssystemet tilpasser automatisk indeksene for hver endring som gjøres i en database, og hver operasjon skrives i en logg som finnes i databasen, som gjør det mulig å avbryte eller avslutte selve operasjonen i tilfelle datamaskinkrasj og dermed garantere konsistensen av innholdet i databasen.
Fra og med 2009 er IBM DB2 , Oracle Database , MySQL , PostgreSQL og Microsoft SQL Server de viktigste databasesystemene på markedet.
Databaser blir oftere og oftere gjort tilgjengelig for brukerne sine på servere, via Internett eller på lokale servere for mer optimal sikkerhet. Tilgang er mer eller mindre sikker.
Noen dataprodusenter (spesielt lokale myndigheter) gjør noen av databasene sine fritt tilgjengelige for alle. Dataene som de er juridisk eiere eller forvarere med autorisasjon til å distribuere (for eksempel bilder) kan i dette tilfellet være tilgjengelig under en gratis lisens (eks CC-BY-SA ), eller noen ganger kan hele selve databasen være tilgjengelig under en gratis lisens ( for eksempel ODBL ). Disse lisensene gjør det mulig å bevare den intellektuelle eiendommen på innholdet, mens du autoriserer gjenbruk og transformasjon, ved å sitere kilden. Mange andre lisenser, mer eller mindre restriktive, finnes.
En av de vanligste bruken av datamaskiner er datamanipulering. Finans-, forsikrings-, utdannings-, offentlig administrasjons- og mediesektorer, hovedsektorer i informasjonssamfunnet , som tilbyr informasjonsbaserte tjenester, bruker databaser. Blant de praktiske bruksområdene er det varelager (aksjer, butikker, biblioteker), reservasjonsverktøy (flyreiser, kino osv.), Lisensiering (kjøring, jakt, hundeeier) ...), menneskelige ressurser, lønn, industriproduksjon ( produksjonsmaskiner blir ofte datastyrt), samt regnskap og fakturering.
Dataprogrammer for å samle inn administrativ informasjon som medisinske poster, skatteregister eller tillatelser til å bære våpen, bruker databaser.
I et datastyrt programvare for billetter registreres reise- eller konsertbilletter i en database.
I regnskap eller egenprogramvare registreres oppføringene samt kontoplanen i en database; i rapporten er en rapport som oppnås ved automatisk syntese av innholdet i databasen. Tilsvarende lagres datamaskinstøttet produksjonsstyring (Rep. POAG), lagerstatus, tilgjengelighet på personell og tid i en database, og gir grunnlag for en rapport om planlegging.
I medisinsk diagnostisk programvare registreres et sett med patologier og diagnoser i en database. En søkemotor trekker ut diagnosene som best samsvarer med patologiene valgt av brukeren.
The Schengen Information System er en database applikasjon som brukes av politi og tollvesen i Schengen-området i Europa for å samle og utveksle juridisk informasjon (arrestordre, fingeravtrykk, forbud opphold ...).
ITIS er et dataprogram som inneholder en katalog over taksonomi for levende arter (planter, dyr, sopp, mikroorganismer, etc.).
The CIA , en etterretningsorganisasjon i USA, har en av de største databaser i verden.
Den elektroniske bokhandelskatalogen amazon.com er en av de største databasene i verden med over 250 millioner katalogiserte bøker. Amazon.com eier også IMDb- filmdatabasen .
Biblioteker, spesielt universitetsbiblioteker , gir publikum tilgang til databaser. Dette er vanligvis databaser som inneholder digitale bøker og / eller artikler fra den generelle eller spesialiserte pressen, levert av eksterne tjenesteleverandører. For eksempel tilbyr biblioteket ved National School of Information Sciences and Libraries ( enssib ) tilgang til 76 databaser til brukerne, inkludert A til Z (press), Cairn (press og e-bøker), Dawsonera (e-bøker), Électra (bibliografisk database) osv. Noen har gratis tilgang, andre har bare tilgang på stedet, og andre har tilgang på stedet og eksternt. I tillegg produserer og setter skolen (enssib) sine egne databaser på nettet for å bedre tjene fellesskapet av fagpersoner innen informasjonsvitenskap og biblioteker: Fransk bibliotekkonstruksjonsbase siden 1992 , praksisplass og jobbtilbud service de l'enssib, Base Maguelone: Database med typografiske ornamenter.
I geografiske informasjonssystemer blir kartinformasjon registrert i en database. Informasjon om himmelkartlegging er tilgjengelig i stjernekataloger .
I en nyhets- eller e-postprogramvare lagres ofte meldinger i en database.
Antivirus programvare bruker ofte en database hvor fingeravtrykkene igjen av datavirus er lagret .
Den registeret er en database som inneholder innstillinger konfigurasjon av operativsystemer Windows . The Object Data Manager er en database som ligner på AIX driftssystemer .
I elektronisk dokumentadministrasjonsprogramvare lagres elektroniske dokumenter i en database. I et innholdshåndteringssystem lagres deler av en webside i en database, og i e- handelsprogramvare er dette reklamene, samt annonsørene.
I en e-læringsplattform lagres øvelser, eksamener, læreplaner, samt katalog over lærere og elever i en database.
En ERP som SAP ERP (fra SAP AG ) består av et sett med programvare som alle bruker samme database. De ulike programvare slike produkter relatert til ordinære virksomheten som omfatter fakturering , det regnskap , den lønn , sporing bestillinger og varelager .