Bioinformatik für Biochemiker - Oliver Kohlbacher

Bioinformatik
für Biochemiker
Oliver Kohlbacher
WS 2009/2010
7. Datenbanksuche
Abt. Simulation biologischer Systeme
WSI/ZBIT, Eberhard Karls Universität Tübingen
Übersicht
•  Datenbanksuche statt Alignment
•  Heuristiken: schnell statt optimal
•  BLAST
–  Algorithmus & Komplexität
–  Signifikanz von Alignments
–  Anwendung & Ausgaben des Programms
•  Beispiel
2
Datenbanksuche
•  Problem
–  Gegeben: eine Sequenz und eine Sequenzdatenbank
–  Gesucht: „ähnlichste“ Vorkommen der Sequenz in der
Datenbank
•  Beispiele
–  Suche nach dem nächsten Homologen in einem Genom
–  Identifizierung einer unbekannten Sequenz
Anfragesequenz S
Datenbanksequenz D
1
GenBank – Wachstum
•  Größe von Genbank wächst immer noch
exponentiell an
•  Derzeit sind über 99 Mio. Sequenzen mit ca.
99 Mrd. bp gespeichert
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
Komplexität von Datenbanksuche
•  Sucht man in großen Datensätzen nach einer
Sequenz, ist dies naiv durch Berechnung des
optimalen lokalen Alignments möglich
•  Problem: Hauptspeicher!
•  Zum Aufbau der DP-Matrix benötigt man O(|
S||D|) Speicher
•  Sucht man eine DNA-Sequenz von 1.000 bp im
menschlichen Genom (3 Gbp), so benötigt
man 12.000 GB Hauptspeicher für die Matrix!
•  Suche mit Smith-Waterman ist auch recht
langsam auf Datenbanken dieser Länge
Heuristiken zur Datenbanksuche
•  Smith-Waterman ist ein “optimaler Algorithmus”, d.h.
er findet ein optimales Alignment
•  In der Informatik verwendet man neben optimalen
Algorithmen häufig auch Heuristiken
•  Heuristiken sind Algorithmen, die oft suboptimale
(aber meist hinreichend gute) Lösungen liefern, dafür
aber weniger rechenaufwändig als optimale
Algorithmen sind
•  In der Datenbanksuche setzt man aus
Geschwindigkeitsgründen ausschließlich Heuristiken ein
•  Eines der wichtigsten Werkzeuge zur heuristischen
Suche ist BLAST
2
BLAST
•  BLAST (Basic Local Alignment Search Tool) wurde
1990 von Altschul et al. vorgestellt
•  Wir werden zunächst den Algorithmus anreißen, dann
die Verwendung von BLAST sowie die Interpretation
der Ergebnisse
•  BLAST ist ein mehrstufiger Algorithmus:
–  Zunächst werden Regionen der Datenbank identifiziert, die
Treffer enthalten können
–  Diese werden dann mit Hilfe eines lokalen Alignments näher
untersucht
•  Auffinden der interessanten Regionen ist sehr schnell
möglich
•  Anschließend müssen Alignments nur auf einem
geringen Bruchteil der Datenbank berechnet werden
) deutlicher Geschwindigkeitsgewinn!
Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. (1990), 215(3):403-10.
BLAST
Grundidee:
–  Eine zur Anfrage ähnliche Sequenz in der Datenbank besitzt
auch kurze Teilsequenzen (ohne Gaps), die zu Teilsequenzen
der Datenbank ähnlich sind
–  Finde kurze Substrings in der Datenbank, die zu Substrings
der Anfrage sehr ähnlich sind
–  Treten diese an einer Stelle gehäuft auf, haben wir
vermutlich die Anfrage gefunden
Anfragesequenz S
Datenbanksequenz D
BLAST – w-mere
•  BLAST basiert auf so genannten w-meren, Worten der Länge w
•  BLAST versucht in D alle Vorkommen kurzer Worte zu
identifizieren, die ausreichend ähnlich zu gleich langen Worten
aus S sind
Beispiel: w = 2
S = RQCSAGW
Alle 2-mere in S: RQ, QC, CS, SA, AG, GW
Mit BLOSUM62 erzielen folgende 2-mere einen Score > 8,
wenn sie mit den 2-meren aus S verglichen werden:
RQ:
QC:
CS:
…
RQ
QC, RC, EC, NC, DC, HC, KC, MC, SC
CS, CA, CN, CD, CQ, CE, CG, CK, CT
3
BLAST – w-mere
•  Für jede Anfrage S konstruiert BLAST zunächst eine Liste aller in
S vorkommenden w-mere, dann eine Liste aller dazu ähnlichen
w-mere (gemäß Scoringmatrix)
•  Nach diesen w-meren wird dann in D gesucht
•  Da keine Gaps zugelassen werden und nur direkte Identität mit
sehr kurzen Sequenzen getestet werden muss, geht dies sehr
schnell
S
w-mere aus S
Treffer in D
Ähnliche k-mere
Treffer in D
Datenbanksequenz D
BLAST – Hits
•  Treffer (hits) in der Datenbank deuten auf Regionen
hin, in denen evtl. Ähnlichkeit zur Anfragesequenz
besteht
•  Starke Ähnlichkeit = viele Treffer nah beieinander
•  Ähnlichkeit bedingt aber auch richtige Reihenfolge
der Treffer – Diagonalen!
S
D
BLAST – HSPs
•  Im zweiten Schritt wird nun nach Paaren von Treffern
gesucht, die auf der selben Diagonalen liegen und
einen gewissen Höchstabstand in D nicht
überschreiten
•  Diese Paare werden als HSPs (high-scoring pairs)
bezeichnet
S
D
4
BLAST – Alignment
S
•  HSPs werden durch lokale Alignments erweitert
soweit möglich (Abbruch, wenn Score unter
Grenzwert fällt)
•  Alignment wird dabei nur auf den Regionen um HSPs
herum berechnet (seeds)
•  Alignment kann lokal recht effizient (ähnlich SmithWaterman) berechnet werden
D
BLAST – Auswertung
S
•  Nicht signifikante Alignments werden verworfen
•  Alignments die ausreichend gute Scores liefern,
werden beibehalten
•  Diese entsprechenden lokalen Alignments werden
dann von BLAST als Ergebnis ausgegeben
•  Alle möglichen Alignments werden dabei nach ihrer
statistischen Signifikanz bewertet und sortiert
D
Statistik
•  Wann ist eine Sequenzsuche erfolgreich?
•  Wie unterscheidet man sinnvolle Alignments von
solchen die durch Zufall entstanden sind?
•  Wann ist ein Alignment statistisch signifikant?
•  Es gibt eine Reihe von Größen, die zur Entscheidung
dieser Fragen herangezogen werden
– 
– 
– 
– 
Sequenzidentität
Ähnlichkeit (raw score)
Bit-Score (normalisierter Score)
E-Wert (E-value)
•  Oft geht man davon aus, dass Sequenzidentität über
25-30% funktionelle und strukturelle Ähnlichkeit der
Proteine impliziert
5
Bit-Score
•  Da der unbereinigte Score (raw score) eines Alignments
von der Länge der Sequenzen, der verwendeten
Scoringmatrix und Gapkostenfunktion abhängt, ist der
Vergleich der Raw-Scores nicht aussagekräftig
•  Karlin und Altschul haben eine Normalisierung
vorgeschlagen, der die Ergebnisse untereinander besser
vergleichbar macht, den so genannten Bit-Score s´, der
sich wie folgt aus dem Raw-Score s berechnet:
•  Karlin-Altschul-Parameter λ und K ergeben sich dabei
jeweils aus der verwendeten Scoringfunktion
E-Werte
•  Der E-Wert ist die wichtigste statistische Größe bei
der Bewertung eines BLAST-Ergebnisses
•  Er trifft eine Aussage über die statistische
Signifikanz des Alignments, d.h. wie wahrscheinlich
es ist, dass die Ähnlichkeit der beiden Sequenzen ein
zufälliges Ergebnis ist
•  Berechnung des E-Werts basiert auf den Bit-Scores:
•  Genauer betrachtet ist der E-Wert E(s) der
Erwartungswert für die Anzahl der Alignments mit
Score s´ die sich zufällig ergeben
E-Werte
•  Für die Wahrscheinlichkeit P(s´), dass ein Alignment
mit einem Score von s´ oder besser zufällig zu finden
ergibt sich dann:
•  E-Wert kann Werte zwischen Null und unendlich
annehmen
•  Sehr kleine E-Werte bedeuten natürlich ein
statistisch signifikanteres Alignment
•  Gute Alignments haben sehr kleine E-Werte
(z.B. · 0.001)
•  Alignments mit größeren E-Werten sind nicht als
relevant anzusehen
6
Vorbereitung
•  BLAST erfordert eine Vorbereitung der
Sequenzdatenbank bevor die Suche gestartet werden
kann
•  Dabei werden die Sequenzen aus einem beliebigen
Format (z.B. FASTA) in ein spezielles BLAST-Format
umgewandelt und zusätzliche Index-Strukturen
angelegt
•  Dies erledigt das Programm formatdb
•  Die Vorbereitung einer Datenbank muss nur einmal
durchgeführt werden, danach können beliebig viele
Suchen damit durchgeführt werden
•  Ändert sich die Datenbank, muss formatdb natürlich
wieder neu ausgeführt werden
•  Details zur Verwendung in der Übung
Aufruf von BLAST
•  Von BLAST existieren eine Reihe von Varianten, je nachdem was
und worin gesucht werden soll:
–  blastp
–  blastn
–  blastx
–  tblastn
–  tblastx
Proteinsequenz in Protein-DB
NA-Sequenz in NA-DB
alle Translationen einer NA-Sequenz in
Protein-DB
eine Proteinsequenz gegen alle sechs
übersetzten Leserahmen einer NA-DB
alle sechs Translationen einer NA-Sequenz
gegen alle entsprechenden Translationen einer
NA-DB (sehr rechenaufwändig!)
•  Aktuelle Versionen von BLAST vereinen dies in einem einzigen
Programm (blastall), dem man den Namen der BLASTVariante als Kommandozeilenparameter mitgibt:
•  Beispiel:
blastall –p blastp …
sucht eine Proteinsequenz in einer Proteindatenbank
Parameter
•  BLAST hat natürlich jede Menge an Parametern, die das
Verhalten des Algorithmus bestimmen
•  Relevant sind in erster Linie
–  Wortlänge w (Default: 3 für Proteine, 11 für NA)
–  E-Wert bis zu dem Alignments als relevant angesehen werden
sollen (Default: 10.0)
–  Verwendete Scoring-Matrix und Gapkosten (Default: BLOSUM62,
σ = 0, ρ = 0)
•  Diese Parameter müssen BLAST – sofern sie von den
Standardeinstellungen abweichen – an der
Kommandozeile mitgegeben werden
•  blastall verrät mögliche Parameter, wenn es ohne
Kommandozeilenparameter aufgerufen wird, Details in
der Übung
7
Interpretation der Ergebnisse
•  BLAST erzeugt eine Menge Output, der erstmal
interpretiert werden muss
•  Ausgabe besteht aus einer oft recht langen Textdatei
•  In der Ausgabe erscheinen
–  Versionsnummer
–  Eingabedaten
–  Eine Liste aller Treffer
–  Alle Treffer im Detail (inkl. Alignment)
•  Wir werden uns dieses Format nun oberflächlich
ansehen (Details: Übung)
BLAST-Ausgabe
BLASTP 2.2.8 [Jan-05-2004]
Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro
A. Schaffer,
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman
(1997),
"Gapped BLAST and PSI-BLAST: a new generation of protein
database search
programs", Nucleic Acids Res. 25:3389-3402.
Query= 1HSO:B CLASS I ALCOHOL DEHYDROGENASE 1, ALPHA SUBUNIT
(374 letters)
Database: Arabidopsis_chr1.fasta
7493 sequences; 3,192,001 total letters
Searching...............done
BLAST-Ausgabe
Score
Sequences producing significant alignments: (bits)
ref|NP_177837.1| alcohol dehydrogenase (ADH) 382
ref|NP_564409.1| alcohol dehydrogenase,...
335
ref|NP_176652.2| alcohol dehydrogenase,...
320
ref|NP_173659.1| alcohol dehydrogenase,...
289
ref|NP_173660.1| alcohol dehydrogenase,...
286
E
Value
e-107
5e-93
3e-88
6e-79
5e-78
•  Der zweite Teil der Ausgabe enthält die Trefferliste
•  Am Anfang jeder Zeile dieser Liste steht jeweils die ID (aus der
FASTA-Beschreibung) der Sequenz aus der Datenbank
•  Die beiden letzten Spalten enthalten den Bit-Score und den EWert für das zugehörige Alignment
8
BLAST-Ausgabe
>ref|NP_177837.1| alcohol dehydrogenase (ADH) [Arabidopsis thaliana]
Length = 379
Score = 382 bits (980), Expect = e-107
Identities = 190/374 (50%), Positives = 249/374 (66%), Gaps = 2/374 (0%)
Query: 1
Sbjct: 2
Query: 61
Sbjct: 62
STAGKVIKCKAAVLWELKKPFSIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVSGTMVTP 60
ST G++I+CKAAV WE KP IEEVEVAPP+ HEVRIK++
+C TD +
TP
STTGQIIRCKAAVAWEAGKPLVIEEVEVAPPQKHEVRIKILFTSLCHTDVYFWEAKGQTP 61
L-PVILGHEAAGIVESVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPESNYCLKNDVSNP 119
L P I GHEA GIVESVGEGVT ++PGD V+P+
+CG+CR C + ESN C
++
LFPRIFGHEAGGIVESVGEGVTDLQPGDHVLPIFTGECGECRHCHSEESNMCDLLRINTE 121
Query: 120 QG-TLQDGTSRFTCRRKPIHHFLGISTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFST 178
+G + DG SRF+
KPI+HFLG STFS+YTVV
VAKI+ +PL+KVC++ CG ST
Sbjct: 122 RGGMIHDGESRFSINGKPIYHFLGTSTFSEYTVVHSGQVAKINPDAPLDKVCIVSCGLST 181
Query: 179 GYGSAVNVAKVTPGSTCAVFGLGGVGLSAIMGCKAAGAARIIAVDINKDKFAKAKELGAT 238
G G+ +NVAK
G + A+FGLG VGL A G + AGA+RII VD N +F +AKE G T
Sbjct: 182 GLGATLNVAKPKKGQSVAIFGLGAVGLGAAEGARIAGASRIIGVDFNSKRFDQAKEFGVT 241
Query: 239 ECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPDS 298
EC+NP+D+ KPIQ+V+ EMTDGGVD S E G + M+ + C H+ G +V+VGVP
Sbjct: 242 ECVNPKDHDKPIQQVIAEMTDGGVDRSVECTGSVQAMIQAFECVHDGWGVAVLVGVPSKD 301
BLAST und BioPython
•  BioPython bietet viele Möglichkeiten BLAST direkt aus
einem Python-Programm heraus aufzurufen und die
Ergebnisse komfortabel auszulesen
•  Dazu bietet BioPython einen BLAST-Output-Parser an
(Parser = Code der bestimmte Dateiformate lesen
und interpretieren kann)
•  Damit kann man recht schnell Alignments berechnen,
sortieren, miteinander vergleichen usw.
•  Details zur Verwendung:
–  Übung
–  www.biopython.org
Literatur + Links
•  Merkl/Waak, S. 128ff: etwas
ausführlichere Grundlagen
•  Korf, Yandell, Bedell: BLAST,
O‘Reilly, 2003: alles was Sie zu
BLAST wissen müssen
•  BLAST zum Herunterladen für
praktisch alle Rechner (inkl.
Windows: ia32-win32):
ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.22/
9