Utvidelse | .seng |
---|---|
MIME-type | tekst / vanlig |
Signatur | 62 72 6F 77 73 65 72 20 70 6F 73 69 74 69 6F 6E 20 63 68 72( heksa ) |
Formattype | Tekstfil |
Spesifikasjon | Åpent format |
Den BED størrelse (eller størrelse Browser Extensible data ) er en skjerm av tekstfil brukes til å lagre deler genomisk form av koordinater og merknader tilknyttet. Dataene er i form av kolonner atskilt med mellomrom eller faner. Dette formatet ble utviklet under Human Genome Project og deretter vedtatt av andre sekvenseringsprosjekter. På grunn av denne stadig bredere bruken har dette formatet blitt en de facto standard innen bioinformatikk uten å motta offisielle spesifikasjoner.
En av fordelene med dette formatet ligger i manipulering av koordinater i stedet for nukleotidsekvenser som muliggjør en optimalisering av kraften og beregningstiden under sammenligningen av hele eller deler av genomene. I tillegg gjør dens enkelhet manipulering og lesing (eller parsing ) av koordinater eller merknader enkelt ved bruk av tekstbehandlingsverktøy og skriptspråk som Python , Ruby eller Perl eller av mer spesialiserte verktøy. Som BEDTools .
Slutten av XX th århundre så fremveksten av de første prosjektene sekvenserer av genomer komplett. Blant disse prosjektene var Human Genome Project da det mest ambisiøse med sikte på å sekvensere et genom på flere gigabaser for første gang . Dette tvang sekvenseringssentrene til en viktig metodisk utvikling for å automatisere behandlingen av sekvenser og deres analyser. Dermed ble det laget mange formater som FASTQ , GFF eller BED. Men ingen offisiell spesifikasjon ble ikke publisert, hva noen formater som FASTQ led deretter i multiplikasjon av sekvense prosjekter i begynnelsen av XXI th århundre.
Den brede bruken i Explorer-genomene ( Genome Browser ) har definert dette relativt stabile formatet, og denne beskrivelsen blir gjengitt av mange verktøy.
BED-formatet har ingen offisiell spesifikasjon. Imidlertid er beskrivelsen gitt av UCSC Genome Explorer mye brukt.
En BED-fil består av minst tre kolonner som kan legges til ni valgfrie kolonner for totalt tolv kolonner. De tre første kolonnene inneholder navnene på kromosomer eller stillaser , start- og sluttkoordinatene til de valgte sekvensene. De neste ni kolonnene inneholder merknader knyttet til disse sekvensene. Disse kolonnene må være atskilt med mellomrom eller faner , sistnevnte anbefales av hensyn til kompatibilitet mellom programmer. Hver rad i en fil må ha samme antall kolonner. Rekkefølgen til kolonnene må respekteres: hvis det brukes kolonner med høye tall, må kolonnene med mellomliggende tall fylles ut.
Kolonne nummer | Tittel | Definisjon |
---|---|---|
1 | krom | Navn på kromosomer (f.eks. Chr3, chrY, chr2_random) eller stillaser ( f.eks . Stillas10671 ) |
2 | chromStart | Start koordinat på kromosomet eller stillaset for den vurderte sekvensen (den første basen på kromosomet er nummerert 0) |
3 | chromEnd | Sluttkoordinat på kromosomet eller stillaset for den vurderte sekvensen. denne posisjonen er ikke-inkluderende i motsetning til chromStart! |
4 | Navn | BED filnavnet |
5 | score | Resultat mellom 0 og 1000 |
6 | Strand | Orientering av DNA-strengen (positiv ("+") eller negativ ("-")) |
7 | thickStart | Start-koordinaten fra når kommentaren blir vist på en tykkere måte på en grafisk representasjon (f.eks. Den start -kodonet av et gen ) |
8 | thickEnd | Sluttkoordinater hvorfra anmerkningen er ikke lenger i en tykkere måte på en grafisk representasjon (f.eks. En stopp -kodonet av et gen) |
9 | vareRgb | RGB- verdi i form av R, G, B (f.eks. 255,0,0) som bestemmer visningsfargen på merknaden i BED-filen |
10 | blockCount | Antall blokker (f.eks. Eksoner ) på linjen i BED-filen |
11 | blockSizes | Liste over verdier atskilt med komma som tilsvarer størrelsen på blokkene (antall verdier må tilsvare det for blockCount ) |
12 | blockStarts | Liste over verdier atskilt med komma som tilsvarer startkoordinatene til blokkene, koordinater beregnet i forhold til de som er tilstede i kolonnen chromStart (antall verdier må tilsvare det som er for blockCount ) |
En BED-fil kan valgfritt inneholde en overskrift . Imidlertid er det ingen offisiell beskrivelse av formatet på denne overskriften. Den kan inneholde en eller flere linjer og betegnes med forskjellige ord eller symboler, avhengig av dens funksjonelle eller bare beskrivende rolle. Dermed kan en overskriftslinje innføres ved:
I motsetning til koordinatsystemer som brukes av andre standarder som GFF , systemet som brukes ved sengen formatet er et system basert på bruk av 0. Følgelig vil koordinere bunnen 1 på et genom vil ha en verdi fra 0 i kolonne 2 og en verdi på 1 i kolonne 3.
Dette valget er begrunnet med metoden for beregning av lengdene til de aktuelle genomområdene, beregningen basert på den enkle subtraksjonen av endekoordinaten (kolonne 3) av toppene (kolonne 2) . Når koordinatsystemet er basert på bruk av 1 for å angi den første posisjonen, blir beregningen litt mer komplisert . Denne lille forskjellen kan ha en relativt stor konsekvens når det gjelder beregningstid når datasett med flere tusen til hundretusener av rader brukes.
Her er et minimalt eksempel:
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697Her er et typisk ni kolonneeksempel fra Genome Explorer :
browser position chr7:127471196-127495720 browser hide all track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On" chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0 chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0 chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0 chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0 chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255 chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255Det er for øyeblikket ingen standard filutvidelse for BED-filer, men .bed-utvidelsen er den mest brukte.
Bruken av BED-filer har spredd seg raskt med fremveksten av nye sekvenseringsteknikker og håndteringen av stadig større sekvensfiler . Faktisk kan sammenligning av genomiske sekvenser eller til og med hele genomer ved å sammenligne selve sekvensene raskt kreve betydelige beregningsressurser og bli tidkrevende. Manipulering av BED-filer gjør dette arbeidet mer effektivt ved å bruke koordinater for å trekke ut sekvenser av interesse fra sekvenseringssett eller for å sammenligne og direkte manipulere to sett med koordinater.
For å utføre disse oppgavene kan forskjellige programmer brukes til å manipulere BED-filer, her er en ikke-uttømmende liste: