Utvidelse |
.fastq .fq |
---|---|
MIME-type | tekst / vanlig |
Signatur | 40 53 45 51 5F 49 44( heksa ) |
Utviklet av | Jim mullikin |
Innledende versjon | 2000 |
Formattype | Tekstfil |
Basert på | FASTA |
Opprinnelse til | Wellcome Trust Sanger Institute |
Spesifikasjon | Åpent format |
Den FASTQ størrelse er en størrelse på tekstfilen til å lagre både biologiske sekvenser (bare nukleinsyresekvenser ) og tilhørende kvalitetspoeng. Sekvensen og poengsummen er kodet med et enkelt ASCII- tegn . Dette formatet ble opprinnelig utviklet av Wellcome Trust Sanger Institute for å koble en FASTA-format- sekvensfil til tilsvarende kvalitetsdata, men har nylig blitt de facto- standarden for lagring av utdata fra sekvensere med høy bithastighet.
Den FASTQ størrelse ble oppfunnet av Jim Mullikin ved Wellcome Trust Sanger Institute i slutten av XX th århundre. På den tiden begynte sekvenseringsprosjekter å ta stor skala og ga opphav til prosjekter som Human Genome Project . Disse prosjektene genererte stadig større mengder opptak, og krever automatisk behandling. Dette behovet for automatisering førte blant annet til opprettelsen av Phred- programmet for å tildele kvalitetspoeng til sekvenserte databaser . For hver genererte sekvens ble det således opprettet to filer: en FASTA- fil som inneholder nukleinsyresekvensen og en QUAL- fil som inneholder i digitalt format poengene som er knyttet til hver av basene i sekvensen. For å kun håndtere en enkelt fil, ble FASTA- og QUAL-formatene slått sammen til et enkelt format, FASTQ-formatet. Imidlertid, selv om dette nye formatet ble bredt spredt og vedtatt, ble det ikke gitt noen offisiell spesifikasjon.
På begynnelsen av XXI - tallet førte spredningen av sekvenseringsprosjekter rundt om i verden til fremveksten av nye sekvenseringsteknikker som spredte seg raskt. Ettersom disse nye teknikkene også er basert på omfattende sekvenseringsautomatisering, tok de naturlig nok FASTQ-formatet. Siden ingen offisielle spesifikasjoner innrammet dette formatet, kom det imidlertid noen varianter som var uforenlige med hverandre og med det opprinnelige formatet. Imidlertid har et forsøk på å spesifisere dette formatet blitt utført av det vitenskapelige samfunnet og spesielt av Open Bioinformatics Foundation .
En FASTQ-fil bruker vanligvis 4 linjer per sekvens. Linje 1 begynner med et "@" tegn etterfulgt av sekvensidentifikatoren og muligens en beskrivelse (på samme måte som en fil i FASTA-format , hvor "@" erstatter ">"). Felt 2 inneholder den rå nukleinsyresekvensen . Linje 3 begynner med et "+" tegn, noen ganger etterfulgt av repetisjon av sekvensidentifikatoren og beskrivelsen hvis den er til stede. Rad 4 inneholder kvalitetspoengene knyttet til hver av basene i rad 2-sekvensen og må ha nøyaktig samme antall symboler som rad 2.
Opprinnelig ble phred-kvalitetspoeng for QUAL-filer kodet i numerisk format, med hvert tall atskilt med et mellomrom og består av en eller to sifre . Dette systemet kan ikke brukes på FASTQ-formatet fordi for hver base som er kodet av et enkelt tegn (A, C, G eller T), må det tilsvare en poengsum som også må kodes av et enkelt tegn. Bruken av ASCII- koden gjør det mulig å overvinne denne begrensningen ved å gjøre basen ti- kode tilsvarer et tegn , og denne koden tilsvarer deretter kvalitetspoengene. Men de første 32 tegnene i ASCII-kode blir kontrolltegn (ikke koding for et latinsk karakter og derfor ikke i stand til å bli lest av et menneske) og 32 nd karakter som tilsvarer det vanskelig å tolke plass, ble det bestemt at den første koden som brukes til å kode 0-kvalitetspoengene, vil være 33 (tilsvarer "!" -tegnet). På den annen side, ASCII koden bare har 128 tegn, er 128 th er et styretegn (kode 127), har dette kodesystem er derfor en øvre grense svarende til en score på 93 (126-33). I tillegg symboliseres vanligvis forskjellen mellom verdien av phred-poengsummen og den tilsvarende ASCII-koden med betegnelsen Phred + 33.
Her er presentasjonen av en minimal FASTQ-fil:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65Den opprinnelige versjonen av dette formatet (kalt fastq-sanger ) tillot nye linjer i rekkefølge og kvalitetspoeng, men denne oppførselen anbefales ikke fordi den kompliserer oppgaven med å lese filen (eller parsing ) på grunn av valget "@" og "+ ", disse tegnene kan faktisk kode kvalitetspoeng.
Foreløpig er det ingen standard filtypen for FASTQ-filer, men utvidelsene .fastq og .fq er de mest brukte.
Ettersom FASTQ-formatet ikke hadde noen offisiell spesifikasjon, observeres mer eller mindre signifikante variasjoner i filene opprettet av de forskjellige sekvenseringsplattformene. Dermed er tre formatvarianter offisielt anerkjent av Open Bioinformatics Foundation : Sanger fastq-sanger- varianten, Solexa / Illumuna fastq-solexa-varianten og Illumina fastq-illumina-varianten . Formatharmoniseringen initiert av Open Bioinformatics Foundation bruker den opprinnelige fastq-sanger- varianten som grunnlag .
Disse variasjonene gjelder hovedsakelig formateringen av identifikatoren som er knyttet til hver sekvens, metoden for å beregne kvalitetspoengene samt kodingen. Disse to siste punktene gjorde formatene inkompatible med hverandre, noe som krever filkonvertering.
Selv om identifikatoren ikke har mottatt noen spesifikasjon både på antall tegn og karakteren og på minimumsinformasjonen den må inneholde, har standarder som er spesifikke for hver plattform kommet fram. Når det gjelder Illumina- plattformer , var identifikatoren opprinnelig brukt den som ble opprettet av Solexa før den gjennomgikk noen variasjoner under påfølgende utvikling.
Sekvensene fra Illumina plattformene ble identifisert som følger opp til 1.4 av det Illumina Genome Analyzer rørledning :
@HWUSI-EAS100R:6:73:941:1973#0/1HWUSI-EAS100R | Unikt navn på instrumentet |
---|---|
6 | knivspor nummer ( flowcell lane ) |
73 | arealnummer ( flis ) innenfor sporet |
941 | Nummerering i planet og i rommet # Nummerering i planet | x koordinaten til klyngen innenfor sonen |
1973 | Nummerering i planet og i rommet # Nummerering i planet | y-koordinaten til klyngen i sonen |
# 0 | indeksnummer for multipleksede prøver (hvis ingen multiplex, 0) |
/ 1 | medlemmet av paret, / 1 eller / 2 (bare når matchede sekvenser ( par-end eller kompispar leser )) |
Siden versjon 1.4, den rørledning erstatter indeksnummeret # 0 med sekvensen av indeksen (nukleotid tag eller tag ) NNNNNN i rekkefølge for å identifisere de multipleksede sampler.
Med versjon 1.8 av CASAVA har identifikasjonsformatet endret seg igjen:
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACGEAS139 | unik identifikator for instrumentet |
---|---|
136 | prosjektidentifikator ( kjør ) |
FC706VJ | bladidentifikator ( flytcelle ) |
2 | knivspor nummer ( flowcell lane ) |
2104 | nummer på området ( flisen ) innenfor sporet |
15343 | Nummerering i planet og i rommet # Nummerering i planet | x koordinaten til klyngen innenfor sonen |
197393 | Nummerering i planet og i rommet # Nummerering i planet | y-koordinaten til klyngen i sonen |
1 | parmedlem, 1 eller 2 (bare i tilfelle samsvarende sekvenser ( par-end eller kompispar leser )) |
Y | indikasjon på filterpassasje, Y (for ja ) indikerer en dårlig sekvens ( les ), ellers N (for nei ) |
18 | 0 når ingen av kontrollbittene er aktivert, ellers er det et tall |
ATCACG | indeks (nukleotidmerke eller -merke ) av sekvensen |
Filene som sendes til FASTQ sekvenseringsarkiv ( Sequence Read Archive ) fra NCBI , EBI eller DDBJ har en ID og en beskrivelse som følger:
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9ICI dette eksemplet erstattes den originale identifikatoren med en identifikator tildelt av arkivene som inneholder en unik referanse i sekvenseringsarkivet, etterfulgt av en beskrivelse som inneholder den originale identifikatoren som ble produsert under sekvensering (som beskrevet tidligere), samt lengden på sekvensen.
Det skal bemerkes at arkivene systematisk konverterer FASTQ-data kodet ved hjelp av Solexa / Illumina- variantene til Sanger-varianten (se kodingsdelen av kvalitetspoengene ).
En kvalitetspoeng Q er et heltall logaritmisk relatert til en sannsynlighet for feil p . Denne sannsynligheten for feil beregnes under identifiseringen av en base og tilsvarer sannsynligheten for at det handler om en dårlig identifikasjon.
To forskjellige ligninger ble brukt for å beregne dette kvalitetspoenget. Den første er Sanger-standarden for å bestemme presisjon i baseline-identifikasjon, også kjent som phred-kvalitetspoeng :
Den Solexa / Illumina rørledning opprinnelig brukt en annen ligning, beregning av logaritmen av p / (1- p ) i stedet for at sannsynligheten p :
Selv om poengverdiene er de samme på nivået av den vertikale asymptoten som tilsvarer de høyeste poengene, er de forskjellige for de laveste poengene (dvs. for sannsynligheter p > 0,05 tilsvarer Q- poengene <13)
Imidlertid er det en viss uklarhet om beregningsmetoden som Illumina faktisk bruker. Rørledningen versjon 1.4 brukerhåndbok sier at “Poeng er definert i henhold til Q = 10 * log10 (p / (1-p)) [ sic ], hvor p er sannsynligheten for at den identifiserte basen samsvarer med den aktuelle basen” (vedlegg B , side 122). I ettertid ser det ut til at denne definisjonen ville ha vært feil. Brukerhåndboken for Pipeline Versjon 1.5 uttaler denne nye beskrivelsen: “Betydelige endringer i Pipeline v1.3 [ sic ]. Metoden for å beregne kvalitetspoengene som skal endres til den for Phred-metoden (det vil si Sanger), hvor hver poengsum blir kodet med et ASCII-tegn som tilsvarer Phred-verdien som 64 er lagt til. Phred-poengsummen d 'a base beregnes som følger: = -10 (e), hvor e er estimert sannsynlighet for at en base er i feil ”( Hva er nytt , side 5).
En annen tolkning av denne ASCII-kodingen er blitt foreslått. I Illumina-prosjekter ved bruk av PhiX- kontrollene ble tegnet "B" likestilt med et "ukjent kvalitetspoeng". "B" -poengsummen ble tildelt omtrent når kvalitetspoengene var 3 poeng lavere enn gjennomsnittlig poengsum observert under en gitt sekvensering.
For rå sekvenser vil rekkevidden avhenge av sekvenseringsteknikken og det baserte identifikasjonsprogrammet som brukes, men kan vanligvis ikke overstige verdien 40. Nylig har Illuminas forbedring av teknikken ført til å oppnå 41 poeng, noe som skapte feil i mange skript og programmer som ikke er ment å tolke en score over 40. For justerte sekvenser og konsensus-sekvenser er høyere score vanlige.
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS..................................................... ..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...................... ...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII...................... .................................JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ...................... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL.................................................... !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ | | | | | | 33 59 64 73 104 126 0........................26...31.......40 -5....0........9.............................40 0........9.............................40 3.....9.............................40 0........................26...31........41 S - Sanger Phred+33, scores des séquences brutes compris entre 0 et 40 X - Solexa Phred+64, scores des séquences brutes compris entre -5 et 40 I - Illumina 1.3+ Phred+64, scores des séquences brutes compris entre 0 et 40 J - Illumina 1.5+ Phred+64, scores des séquences brutes compris entre 3 et 40 avec 0=inutilisé, 1=inutilisé, 2=Indicateur de contrôle qualité de segment de séquence (en gras) L - Illumina 1.8+ Phred+33, scores des séquences brutes compris entre 0 et 41Når det gjelder sekvenseringsdataene fra SOLiD- teknikken , blir DNA sekvensert av en fargeplassmetode , bortsett fra den første posisjonen. Kvalitetspoengene er de for Sanger-varianten. Sekvensbehandlingsprogrammer er forskjellige når det gjelder preferanser for kvalitetspoeng assosiert med den første posisjonen: noen inkluderer en kvalitetspoeng for denne posisjonen (definert som 0, derfor med "!" -Tegnet), andre ikke. Sekvensarkivet inkluderer automatisk en kvalitetspoeng på denne posisjonen "
På grunn av inkompatibiliteten mellom variantene i FASTQ-formatet, er det nødvendig å konvertere dem til en av variantene (helst Sanger-varianten) for å kunne bruke filer av forskjellig opprinnelse sammen. For dette er omformere integrert i de forskjellige prosjektene som støttes av Open Bioinformatics Foundation :
Det finnes også andre verktøy som tillater disse konverteringene:
Under et system UNIX kan du enkelt konvertere en fil av FASTQ-størrelse til en FASTA ved hjelp av følgende kommandolinje:
cat input_file.fastq | paste - - - - | awk '{print ">"$1"\n"$2}' > output_file.faeller hvis filen er komprimert med gunzip :
zcat input_file.fastq.gz | paste - - - - | awk '{print ">"$1"\n"$2}' > output_file.faDenne kommandoen holder bare fra FASTQ-filen linjene som inneholder identifikatoren (med beskrivelsen hvis den finnes) og de tilhørende sekvensene. Tegnet "@" som introduserer identifikasjonslinjen blir også erstattet av ">".