Den genomet , eller sjelden genom , er alt genetisk materiale av en art som er kodet i sin deoksyribonukleinsyre (DNA), med unntak av visse virus hvis genom består av ribonukleinsyre (RNA). Den inneholder spesielt alle gener som koder for proteiner eller tilsvarer strukturerte RNA. Den brytes derfor ned i kodende sekvenser (transkribert til messenger RNA og oversatt til proteiner ) og ikke-kodende (ikke transkribert, eller transkribert til RNA, men ikke oversatt).
Genomet består av en eller flere kromosomer , hvis totale antall avhenger av arten som vurderes, hvert kromosom består av et enkelt DNA-molekyl, lineært i eukaryoter og oftest sirkulært i prokaryoter . Hvert kromosom kan være til stede i en eller flere eksemplarer, ofte to i seksuelle arter, en fra mors opprinnelse og den andre av faderlig opprinnelse ( diploid organisme ).
Vitenskapen som studerer genomet er genomikk .
Genomet skal ikke forveksles med karyotypen , som er den makroskopiske analysen eller beskrivelsen av kromosomarrangementet.
I virus er genomet inneholdt i ett (eller flere) DNA ( DNA- virus ) eller RNA ( RNA- virus eller ribovirus) molekyl (er ), enkelt- eller dobbeltstrenget, beskyttet i en partikkel eller kapsid av proteinnatur. Noen mennesker tenker ikke på virus som organismer, men som molekylære parasitter. De reproduserer faktisk ved å infisere levende celler som de injiserer genomene i. Noen virus, for eksempel retrovirus som HIV er knyttet til, har for eksempel et genom som består av RNA, som enten er enkeltstrenget eller dobbeltstrenget. Uansett nukleinsyre, er det for noen virus i sirkulær form og for andre i lineær form. I alle tilfeller eksisterer virusgenomet i det minste i en av fasene av cellesyklusen i form av dobbeltstrenget DNA.
I prokaryoter ( bakterier og archaea ) er genomet vanligvis inneholdt i et sirkulært DNA-molekyl. Det kan også være et ekstrakromosomalt genom, inneholdt i plasmider og episomer . Noen bakterier, som aktinomyceter , har imidlertid lineære genomer.
I eukaryoter kan vi skille mellom:
I noen eukaryoter (f.eks. Gjær) er plasmider (av redusert størrelse) også til stede.
Hos mennesker i særdeleshet (eukaryot organisme), den nukleære genom fordeles på 46 kromosomer , dvs. 22 par av autosomer og to gonosomes (XX hos kvinner, XY hos menn).
Størrelsen på genomet måles i antall nukleotider eller baser . Mesteparten av tiden snakker vi om bp (for basepar , siden flertallet av genomene består av doble DNA- tråder eller annet av RNA ). Multiplene av kb (for kilobase) eller Mb (megabase) brukes ofte , som er henholdsvis 1.000 og 1.000.000 baser. Størrelsen på genomet kan også uttrykkes i pg (pikogrammer), som tilsvarer massen av DNA ( haploid ) per celle. 1 pg representerer omtrent 1000 Mb .
Størrelsen på genomet kan variere fra noen kilobaser i virus til flere hundre tusen Mb i visse eukaryoter . Mengden DNA, i motsetning til det som lenge har blitt antatt, er ikke proporsjonal med den tilsynelatende kompleksiteten til en organisme. De salaman , den lungfish , noen bregner eller visse nåletrær så som furu har mer enn 10 ganger større genom enn det humane genomet. Dette funnet blir ofte referert til som C-verdi paradoks .
Til dags dato er den levende organismen med det største kjente genomet den urteaktige planten Paris japonica ; det er omtrent 150 milliarder basepar langt, nesten 50 ganger størrelsen på det menneskelige genomet .
Noen amøber , slik som Amoeba dubia, kan ha et enda større genom, opptil 200 ganger større enn Homo sapiens . Denne bestemmelsen er imidlertid omstridt og kan forvrenges av det faktum at disse encellede organismer fagocyterer et stort antall andre mikroorganismer hvis kromosomer de inntar, som forurenser bestemmelsen av deres eksakte DNA-innhold.
Genomer består av kodende regioner, som tilsvarer gener, og ikke-kodende regioner. Ikke-kodende regioner består av intergene segmenter og introner i gener. Den DNA-sekvensering etablerer sekvensen av nukleotider i DNA-trådene, for å kartlegge genomet.
Antallet gener i genomet til levende organismer varierer mye mindre enn størrelsen på genomet. I de fleste levende organismer er den mellom 1000 og 40 000. Den er heller ikke korrelert med den tilsynelatende kompleksiteten til organismer. Den paramecium , kropps cilierte unicellulære og har et genom som inneholder flere gener enn mennesker. Den følgende tabellen gir den totale størrelsen på genomet (inkludert heterokromatiske regioner som vanligvis ikke er sekvensert) og antall gener som er tilstede i et antall organismer hvis genom er fullstendig sekvensert.
Organisasjon | Antall gener | Genomstørrelse |
---|---|---|
Haemophilus influenzae (bakterier) | 1800 | 1,8 Mpb |
Escherichia coli (bakterier) | 4.300 | 4,6 Mbp |
gjær | 6000 | 12,1 Mpb |
Drosophila (insekt) | ~ 14.500 | 150,0 Mbp |
Nematode | ~ 21.000 | 110,0 Mbp |
Arabette (blomstrende plante) | ~ 25.500 | 110,0 Mbp |
Mus | ~ 22.000 | 2700,0 Mpb |
Mann | ~ 22.000 | 3400,0 Mbp |
Paramecium | ~ 40.000 | 72,0 Mbp |
Ettersom antall gener varierer i mye mer begrensede proporsjoner enn størrelsen på genomet, ettersom størrelsen på genomet øker (se forrige avsnitt), reduseres andelen av genomet som tilsvarer de kodende regionene. Det er en økning i lengden på introner så vel som intergeniske regioner. De forskjellige typene av ikke-kodende regioner er listet opp nedenfor, som eksempel, deres andel i det menneskelige genomet som er representativ for situasjonen hos pattedyr:
I tillegg til gener inneholder genomer ofte pseudogener . Dette er sekvenser som har mange kjennetegn ved gener ( kodende sekvenser , promotorsekvens , spleising av signaler ...), men som ikke er funksjonelle og dermed ikke fører til produksjon av et protein . Dette kan være konsekvensen av genetiske mutasjoner som har endret sekvensen. Det menneskelige genomet inneholder således omtrent 20 000 pseudogener, som er praktisk talt så mange som det er funksjonelle gener. Ofte er pseudogener duplikasjoner av et aktivt gen som beholder funksjonaliteten for cellen . Det er således flere pseudogener for cytokrom c i genomet vårt, i tillegg til det funksjonelle genet. I andre tilfeller fører transformasjonen av et gen til et pseudogen til tap av funksjon når det er den eneste aktive kopien som påvirkes av mutasjoner. I vårt genom er dette tilfellet med genet som koder for L-guluno-γ-laktonoksidase, et enzym som tillater syntese av askorbinsyre som har blitt et pseudogen, noe som betyr at vi må absorbere vitamin C hver dag i kostholdet vårt, i mangel av å kunne syntetisere det.
I store genomer består størstedelen av de ikke-kodende regionene av gjentatte sekvenser og nærmere bestemt av dispergert gjentakelse . Andelen deres øker også med størrelsen på genomet. I det menneskelige genom er denne frekvensen rundt 45%. Det overstiger 80% i hvetegenomet , som er fem ganger større enn mennesker.
Den tredimensjonale konfigurasjonen av genomet har en funksjonell betydning: oppviklingen (eller " kondensering ") av DNA på seg selv takket være histonene gjør det mulig å " lagre " en stor mengde genetisk informasjon i den lille kjernen i en celle ., og det tillater også fjerne deler av kromosomer å berøre hverandre når DNA-sløyfer dannes (disse sløyfene tillater at to fjerne gener virker sammen). Kromosomet kan sammenlignes med perlekjeder hvor hver perle er et gen eller et av de andre "DNA-stykkene", men hvis funksjon ikke er "lineær". I dette tilfellet, for å slå på eller av et gen ( en perle ), må dette genet være koblet til DNA som styrer eller regulerer dets aktivitet, eller som må fungere sammen ( en annen perle, av en komplementær form ). Dette andre genet kan være plassert ganske langt på denne kragen ( eller til og med på en nabokrage, dvs. et annet kromosom ).
I flere tiår har molekylærbiologer sterkt mistenkt at måten DNA avvikler og kondenserer tredimensjonalt i kjernen spiller en nøkkelrolle i å muliggjøre disse forbindelsene, hvor og når de er nødvendige, samtidig som det øker funksjonene til kjernen. 'Interaksjoner mellom fjerne gener .
Siden begynnelsen av 2000-tallet har vi litt bedre forståelse av sammenhengen mellom de biokjemiske og topologiske ” tipsene ” som brukes av genomet under konfigurasjonsendringer, i de forskjellige fasene av mitose og / eller meiose og i dets tilstand. .
Nye biomolekylære teknikker er under utvikling for å modellere eller observere den relative posisjonen til et enkelt stykke DNA (for eksempel et gen) i forhold til andre gener eller DNA-deler for å definere et " transkripsjonsinteraktom " (som ville være en slags kartlegging av de funksjonelle forholdene mellom alle interagerende gener, av alle kromosomene i den samme organismen); og vi må også legge til denne kompleksiteten av epigenetikk eller horisontale genoverføringsforhold fra en art til en annen ( for eksempel i bakterier ).
I 2009 produserte Erez Lieberman Aiden og hans kolleger en metode (probabilistisk modell) kalt Hi-C som søker å representere alle samtidige eller mulige forbindelser til et genom. De møtte et problem med oppløsning, der de opprinnelig bare kunne skille mellom to avdelinger, det ene inneholdt aktivt DNA og det andre der gener hadde en tendens til å bli slått av ; denne teknikken kunne da bare brukes på utfoldet DNA og fjernet fra kjernen, noe som førte til uklare resultater. De forsøkte derfor å kartlegge kontaktene mellom gener eller andre elementer i genomet i intakte kjerner, via metoder som gir mye mer detaljert informasjon (går fra en oppløsning på millioner av baser til en oppløsning som gjør det mulig å observere elementer på bare 1000 baser (typisk Sofistikerte dataprogrammer var i stand til å produsere biter av " 3D DNA-kart " (for åtte humane cellelinjer, inkludert kreft eller grunnleggende vev, så vel som for en. Laboratoriemus kreftcellelinje).
For en menneskelig lymfekreftcellelinje er for eksempel ca. 4 900 000 000 kontakter blitt oppdaget mellom forskjellige biter av DNA; for andre typer celler varierte antall kontakter fra 395 til 1100 millioner. Jo flere kontakter det er, jo nærmere elementene i kontakt er i et tredimensjonalt rom.
I 2014 konkluderte Rao, Huntley, Aiden og deres kolleger (i tidsskriftet Cell ) at genomet er ordnet i rundt 10 000 sløyfer, hvor hver celletype har en annen konfigurasjon som tilsvarer forskjellige typer kontakt mellom DNA-fragmenter. Disse forskjellene i struktur induserer forskjellige mønstre for genaktivitet, og definerer hver type celle i henhold til Aiden.
Innen celler avledet fra (kvinnelige) givere er det dannet "gigantiske sløyfer i en av X-kromosomene" . Denne sløyfen kan ha den funksjonen å dempe det andre X-kromosomet for å tillate riktig funksjon av genene til det fremdeles aktive X-kromosomet.
Gruppen sammenlignet 3D-kart av genomet til musekreftceller og humane kreftceller. Disse kartene var veldig like, ofte med de samme løkkene, noe som tyder på at den tredimensjonale strukturen som definerer en bestemt type celle, ikke har endret seg mye hos pattedyr under evolusjonen.
Produksjonen av komplette 3D-kart over genomet til forskjellige arter vil gjøre det mulig for forskere, leger og bioteknologiindustrien å bedre forstå eller utnytte artenes genomer. I 2014 opprettet Aidens laboratorium allerede en applikasjon og en portal kalt " Juicebox " med en søkemotor som fungerer som Google Earth, der forskere kan finne et gen av interesse for dem i genomet og se kontaktene han har med DNA-løkke han "berører" . Disse kartene skal også kunne bekrefte eller benekte den forventede funksjonen til visse gener som er involvert i genetiske sykdommer eller den normale funksjonen til organismen.
De reiser også spørsmålet om direkte eller indirekte effekter av gener introdusert - ofte tilfeldig - i topologien til DNA (ved hjelp av transgenese ).
Det er den vitenskapelige disiplinen som studerer funksjonen til en organisme, et organ, en kreft, etc. på nivået av genomet og ikke av et enkelt gen, med:
Merknaden av et genom består i å analysere nukleotidsekvensen som utgjør den rå informasjonen for å hente ut den biologiske informasjonen. Denne analysen forfølger to påfølgende mål, den første er å lokalisere genene og de kodende regionene, og den andre er, når disse genene er lokalisert, å identifisere eller forutsi deres biologiske funksjon. Disse to trinnene er opprinnelig basert på bruk av sofistikerte algoritmiske verktøy , hvis utvikling utgjør et av feltene innen bioinformatikk .
For å finne gener er det forskjellige komplementære verktøy: statistiske metoder som identifiserer kodingsregioner på grunnlag av kodonfrekvensanalyse , mønstersøkemetoder og spesielt signaturkarakteristikk for start og slutt, kryss mellom introner og eksoner , promotorsekvenser , terminatorer , ribosombinding nettsteder (RBS).
For å forutsi den potensielle funksjonen til disse genene (fest en merkelapp til dem, med deres sannsynlige navn, sannsynlige funksjon, sannsynlige interaksjoner), brukes forskningsprogrammer for sekvenshomologi . Når produktet av et gen forutsier likheter med et kjent protein, trekkes det generelt ut en sannsynlig funksjonshomologi. Aminosyremotiver som er karakteristiske for visse klasser av proteiner ( kinaser , proteaser, etc.) kan også identifiseres i den forutsagte proteinsekvensen , noe som kan gjøre det mulig å tilordne en sannsynlig funksjon til det tilsvarende genet. Denne typen merknader kalles funksjonell merknad .
Merknaden kan være automatisk, det vil si å stole utelukkende på algoritmer som ser etter likheter (av sekvens, struktur, mønstre, etc.), noe som gjør det mulig å forutsi (faktisk gjette) funksjonen til et gen. Det resulterer i den "automatiske" overføringen av informasjonen som vises på etiketten til et "lignende" gen fra et genom som allerede er kommentert til genomet som er merket.
Den første automatiske merkingen suppleres noen ganger med en manuell merknad av eksperter som validerer eller ugyldiggjør prediksjonen i henhold til deres kunnskap eller eksperimentelle resultater. Dette kan dermed unngå automatisk overføring av feil og dermed forplantning, noe som kan bli det største problemet som genomikk vil måtte møte, gitt den enorme tilstrømningen av data som særlig skyldes nye sekvenseringsteknikker (se pyrosekvensering ).
Månedens magasin Science et Vie januar 2019 kunngjør at "Alle arter skal ha sitt genom sekvensert i 2028".
Earth BioGenome-prosjektet har satt seg dette målet for dyr, planter og andre flercellede arter.
Mot 4000 genomer som er kjent i dag, bør vi telle mer enn 1,2 millioner i 2028!