Grunnleggende verktøy for lokal justering

SPRENG

Beskrivelse av CCDC132 Blast Results.png-bilde. Informasjon
Utviklet av Altschul SF, Gish W., Miller EW, Lipman DJ, NCBI
Siste versjon 2.9.0+ (1 st april 2019)
Skrevet i C og C ++
Operativsystem Skriv inn Unix , Linux , macOS og Microsoft Windows
Miljø Kryssplattform
Les formater XML BLAST-utgang ( d )
Skriftlige formater XML BLAST-utgang ( d )
Type Bioinformatikk verktøy
Tillatelse Offentlig domene
Nettsted blast.ncbi.nlm.nih.gov

BLAST (akronym for basic local alignment search tool ) er en heuristisk søkemetode som brukes i bioinformatikk . Det gjør det mulig å finne lignende regioner mellom to eller flere sekvenser av nukleotider eller aminosyrer , og å gi en justering av de homologe regionene.

Gitt en sekvens som er skrevet inn av brukeren, gjør BLAST det mulig å raskt finne i databaser, sekvensene som er oppført har områder av likhet med inngangssekvensen. Denne metoden brukes til å finne funksjonelle eller evolusjonære forhold mellom sekvenser og kan hjelpe til med å identifisere medlemmer av samme genfamilie .

Historisk

Dette programmet ble utviklet av Stephen Altschul, Warren Gish og David Lipman ved National Center for Biotechnology Information (NCBI). Den opprinnelige publikasjonen i oktober 1990, Basic local alignment search tool  " , er sitert over 90 000 ganger, noe som gjør den til en av de mest siterte i den vitenskapelige verden.

Prinsipp

BLAST søker i en sekvensdatabase etter segmenter som er lokalt homologe med en brukerforsynt spørringssekvens . BLAST bruker en likhetsmatrise for å beregne justeringspoeng. Den gir en poengsum for hver justering som er funnet, og bruker denne poengsummen for å gi en statistisk evaluering av relevansen av denne justeringen (sannsynligheten for at den skyldes tilfeldigheter).

Driftsprinsippet til BLAST kan deles inn i tre trinn:

Opprette k -uplet ordbok

Den analyserte sekvensen blir først kuttet i overlappende k- upletter. Vanligvis brukes aminosyrekvadriller til en proteinsekvens . Et sekvenssegment som FATCATY er for eksempel delt inn i:

FATC, ATCA, TCAT, CATY

Hver av disse k- tuplene blir deretter analysert for å identifisere alle mulige k-tupler som vil gi en justeringspoeng større enn en terskelverdi, satt av brukeren. For å beregne denne justeringspoengsummen bruker vi en likhetsmatrise, M ( a , b ), ofte BLOSUM62 (med a og b de to aminosyrene sammenlignet). Hvis vi for eksempel tar FATC-firdoblingen som er nevnt ovenfor, blir poengsummen vi får ved å tilpasse den til seg selv 24 hvis vi bruker BLOSUM62-matrisen:

score (FATC, FATC) = M (F, F) + M (A, A) + M (T, T) + M (C, C) = 6 + 4 + 5 + 9 = 24

Noen få andre firdobler gir gode justeringspoeng med FATC, for eksempel YATC, FASC eller FSTC, som gir justeringspoeng større enn 20:

score (FATC, YATC) = 21; score (FATC, FASC) = 20; score (FATC, FSTC) = 21

På den annen side gir det store flertallet av de andre firdoblene veldig dårlig justeringspoeng, ofte negativt. Hvis vi setter en høy terskel, som 18 eller 20 i vårt eksempel, vil vi derfor bare ha noen få mulige firdobler som vil gi en justeringspoeng som er større enn denne terskelen.

BLAST vil derfor for hver k -uplett av den analyserte sekvensen utgjøre en ordbok over alle mulige k -upler som gir en poengsum større enn terskelen. Ordboken vil også indikere posisjonen i referansesekvensen der den opprinnelige k -upletten er plassert . Når den er opprettet, inneholder denne ordlisten listen over alle mulige k -upler som gjør det mulig å oppnå en innledende justeringspoeng som er større enn terskelen.

Søk og utvidelse av homologi

Når ordlisten til alle k- uplettene som har en terskel for homologi med referansesekvensen er blitt konstruert, vil BLAST skanne sekvensbanken som skal analyseres ved å se suksessivt på alle k- uplettene som utgjør hver sekvens. Hver gang sjekker den om k -upletten til banken er til stede i ordboken. Hvis det ikke er en del av det, fortsetter det til neste. Hvis den finnes i ordboken, betyr det at det er et homologt regionembryo mellom referansesekvensen og sekvensen til biblioteket som analyseres. Denne homologien har en minimumscore lik terskelen som ble satt i første trinn.

BLAST vil da prøve å se om denne homologe regionen strekker seg utover start- k- upletten. Den vil da prøve å utvide regionen oppstrøms og nedstrøms for å se om homologipoengene øker med dette utvidelsesforsøket. Hvis de to sekvensene faktisk viser lokal homologi rundt start- k- tupletten, vil utvidelsen føre til en effektiv økning i poengsummen, fordi nye aminosyrer vil bli justert. Hvis utvidelsesforsøket tvert imot ikke gjør det mulig å øke poengsummen fordi homologien ikke fortsetter, stopper BLAST. Hvis den endelige poengsummen etter utvidelse er større enn en gitt terskel, holdes justeringen for den endelige analysen.

Denne prosessen utføres for alle k- upletter av sekvensene som er tilstede i det analyserte biblioteket, som skannes sekvensielt.

Resultatanalyse og relevansvurdering

BLAST og dens avledede versjoner (se nedenfor) brukes til å søke etter sekvenser som er homologe med en sekvens av interesse, angitt av brukeren, i en sekvensdatabase. Disse databasene, som GenBank eller UniProt , er veldig store, og inneholder vanligvis flere hundre millioner sekvenser. Det uttømmende søket med BLAST returnerer vanligvis flere titalls justeringer med interessesekvensen. Spørsmålet som så blir stilt er det om den biologiske relevansen av disse linjene: er justeringen bare resultatet av tilfeldigheter, fordi vi har analysert et veldig stort antall sekvenser, eller er det en refleksjon av en reell biologisk bevaring?

For å gjøre dette, utfører BLAST en analyse av fordelingen av justeringspoengene mellom interessesekvensen og biblioteket under søket. Han passer denne fordelingen til en teoretisk tetthetsfunksjon , som gjør at han kan beregne sannsynligheten og den matematiske forventningen om å finne en justering som gir en gitt poengsum i banken, bare på grunn av tilfeldigheter. Parametrene for denne tetthetsfunksjonen varierer som en funksjon av nukleotid- eller aminosyresammensetningene i sekvensen og av det analyserte biblioteket.

Vanligvis vil BLAST indikere verdien for denne forventningen kalt E-verdi for hver justering . For biologisk relevante justeringer tar E-verdien uendelige verdier (fra 10-10 til 10-200 ), noe som betyr at det er høyst usannsynlig at den oppnådde justeringspoengene skyldes tilfeldigheter.

Variasjoner

Data brukt

Begrepet eksplosjon kan endres avhengig av typen inngangssekvens og databasen som brukes:

Algoritme

Siden opprettelsen har forskjellige versjoner av algoritmen blitt utviklet:

Merknader og referanser

  1. Greg Gibson, Spencer V. Muse, Lionel Domenjoud, Raymond Cunin ( trad.  Lionel Domenjoud), Précis de genomique , Bruxelles / Paris, De Boeck University, 2004, 347  s. ( ISBN  2-8041-4334-1 ) , "2"
  2. (i) SF Altschul , W Gish , W Miller , EW Myers og DJ Lipman , Basic local alignment search tool  " , Journal of Molecular Biology , vol.  215, n o  3, 5. oktober 1990, s.  403-10 ( PMID  2231712 , sammendrag )
  3. 20 000 ganger
  4. Frédéric Dardel og François Kepes , bioinformatikk. Genomikk og postgenomikk , Palaiseau, Éditions de l'École Polytechnique,2002, 246  s. ( ISBN  2-7302-0927-1 , online presentasjon )

Se også

Relaterte artikler

Eksterne linker