SENG (filformat)

SENG Kjennetegn
Utvidelse .seng
MIME-type tekst / vanlig
Signatur 62 72 6F 77 73 65 72 20 70 6F 73 69 74 69 6F 6E 20 63 68 72( heksa )
Formattype Tekstfil
Spesifikasjon Åpent format

Den BED størrelse (eller størrelse Browser Extensible data ) er en skjerm av tekstfil brukes til å lagre deler genomisk form av koordinater og merknader tilknyttet. Dataene er i form av kolonner atskilt med mellomrom eller faner. Dette formatet ble utviklet under Human Genome Project og deretter vedtatt av andre sekvenseringsprosjekter. På grunn av denne stadig bredere bruken har dette formatet blitt en de facto standard innen bioinformatikk uten å motta offisielle spesifikasjoner.

En av fordelene med dette formatet ligger i manipulering av koordinater i stedet for nukleotidsekvenser som muliggjør en optimalisering av kraften og beregningstiden under sammenligningen av hele eller deler av genomene. I tillegg gjør dens enkelhet manipulering og lesing (eller parsing ) av koordinater eller merknader enkelt ved bruk av tekstbehandlingsverktøy og skriptspråk som Python , Ruby eller Perl eller av mer spesialiserte verktøy. Som BEDTools .

Historisk

Slutten av XX th  århundre så fremveksten av de første prosjektene sekvenserer av genomer komplett. Blant disse prosjektene var Human Genome Project da det mest ambisiøse med sikte på å sekvensere et genom på flere gigabaser for første gang . Dette tvang sekvenseringssentrene til en viktig metodisk utvikling for å automatisere behandlingen av sekvenser og deres analyser. Dermed ble det laget mange formater som FASTQ , GFF eller BED. Men ingen offisiell spesifikasjon ble ikke publisert, hva noen formater som FASTQ led deretter i multiplikasjon av sekvense prosjekter i begynnelsen av XXI th  århundre.

Den brede bruken i Explorer-genomene ( Genome Browser ) har definert dette relativt stabile formatet, og denne beskrivelsen blir gjengitt av mange verktøy.

Format

BED-formatet har ingen offisiell spesifikasjon. Imidlertid er beskrivelsen gitt av UCSC Genome Explorer mye brukt.

Beskrivelse

En BED-fil består av minst tre kolonner som kan legges til ni valgfrie kolonner for totalt tolv kolonner. De tre første kolonnene inneholder navnene på kromosomer eller stillaser , start- og sluttkoordinatene til de valgte sekvensene. De neste ni kolonnene inneholder merknader knyttet til disse sekvensene. Disse kolonnene må være atskilt med mellomrom eller faner , sistnevnte anbefales av hensyn til kompatibilitet mellom programmer. Hver rad i en fil må ha samme antall kolonner. Rekkefølgen til kolonnene må respekteres: hvis det brukes kolonner med høye tall, må kolonnene med mellomliggende tall fylles ut.

Kolonner som utgjør en BED-fil (obligatoriske kolonner i rødt)
Kolonne nummer Tittel Definisjon
1 krom Navn på kromosomer (f.eks. Chr3, chrY, chr2_random) eller stillaser ( f.eks . Stillas10671 )
2 chromStart Start koordinat på kromosomet eller stillaset for den vurderte sekvensen (den første basen på kromosomet er nummerert 0)
3 chromEnd Sluttkoordinat på kromosomet eller stillaset for den vurderte sekvensen. denne posisjonen er ikke-inkluderende i motsetning til chromStart!
4 Navn BED filnavnet
5 score Resultat mellom 0 og 1000
6 Strand Orientering av DNA-strengen (positiv ("+") eller negativ ("-"))
7 thickStart Start-koordinaten fra når kommentaren blir vist på en tykkere måte på en grafisk representasjon (f.eks. Den start -kodonet av et gen )
8 thickEnd Sluttkoordinater hvorfra anmerkningen er ikke lenger i en tykkere måte på en grafisk representasjon (f.eks. En stopp -kodonet av et gen)
9 vareRgb RGB- verdi i form av R, G, B (f.eks. 255,0,0) som bestemmer visningsfargen på merknaden i BED-filen
10 blockCount Antall blokker (f.eks. Eksoner ) på linjen i BED-filen
11 blockSizes Liste over verdier atskilt med komma som tilsvarer størrelsen på blokkene (antall verdier må tilsvare det for blockCount )
12 blockStarts Liste over verdier atskilt med komma som tilsvarer startkoordinatene til blokkene, koordinater beregnet i forhold til de som er tilstede i kolonnen chromStart (antall verdier må tilsvare det som er for blockCount )

I tankene dine

En BED-fil kan valgfritt inneholde en overskrift . Imidlertid er det ingen offisiell beskrivelse av formatet på denne overskriften. Den kan inneholde en eller flere linjer og betegnes med forskjellige ord eller symboler, avhengig av dens funksjonelle eller bare beskrivende rolle. Dermed kan en overskriftslinje innføres ved:

Koordinatsystem

I motsetning til koordinatsystemer som brukes av andre standarder som GFF , systemet som brukes ved sengen formatet er et system basert på bruk av 0. Følgelig vil koordinere bunnen 1 på et genom vil ha en verdi fra 0 i kolonne 2 og en verdi på 1 i kolonne 3.

Dette valget er begrunnet med metoden for beregning av lengdene til de aktuelle genomområdene, beregningen basert på den enkle subtraksjonen av endekoordinaten (kolonne 3) av toppene (kolonne 2) . Når koordinatsystemet er basert på bruk av 1 for å angi den første posisjonen, blir beregningen litt mer komplisert . Denne lille forskjellen kan ha en relativt stor konsekvens når det gjelder beregningstid når datasett med flere tusen til hundretusener av rader brukes.

Typiske eksempler

Her er et minimalt eksempel:

chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697

Her er et typisk ni kolonneeksempel fra Genome Explorer  :

browser position chr7:127471196-127495720 browser hide all track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On" chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0 chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0 chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0 chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0 chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255 chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255

Filutvidelse

Det er for øyeblikket ingen standard filutvidelse for BED-filer, men .bed-utvidelsen er den mest brukte.

Bruke BED-filer

Bruken av BED-filer har spredd seg raskt med fremveksten av nye sekvenseringsteknikker og håndteringen av stadig større sekvensfiler . Faktisk kan sammenligning av genomiske sekvenser eller til og med hele genomer ved å sammenligne selve sekvensene raskt kreve betydelige beregningsressurser og bli tidkrevende. Manipulering av BED-filer gjør dette arbeidet mer effektivt ved å bruke koordinater for å trekke ut sekvenser av interesse fra sekvenseringssett eller for å sammenligne og direkte manipulere to sett med koordinater.

For å utføre disse oppgavene kan forskjellige programmer brukes til å manipulere BED-filer, her er en ikke-uttømmende liste:

Referanser

  1. (in) Kent WJ., Sugnet CW., Furey TS., Roskin KM., Pringle TH., Zahler AM. & Haussler D., “  Det menneskelige genom-nettleseren ved UCSC.  ” , Genome Research , vol.  12, n o  6, 2002, s.  996-1006 ( ISSN  1088-9051 , PMID  12045153 , DOI  10.1101 / gr.229102. Artikkel publisert online før trykk i mai 2002 )
  2. (in) Cock PJ., Fields CJ., N. Goto, Heuer ML. & Rice PM., “  Sanger FASTQ-filformatet for sekvenser med kvalitetspoeng, og Solexa / Illumina FASTQ-variantene.  ” , Nucleic Acids Research , vol.  38, n o  6, 2010, s.  1767-71 ( ISSN  1362-4962 , PMID  20015970 , DOI  10.1093 / nar / gkp1137 )
  3. (in) Genome Bioinformatics Group, "  Format Description BED  "UCSC Genome Bioinformatics , University of California Santa Cruz (åpnet 15. februar 2013 )
  4. (no) BEDTools manualen ,21. september 2010, 103  s. ( les online )

Se også

Relaterte artikler

Eksterne linker

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">