Algorithmic concepts for searching in biological databases

Werbung
Algorithmic Concepts for Searching in Biological Databases
Algorithmic concepts for searching in biological
databases
Danciu Iulian-Ionut
07.06.2010
PAM, BLOSUM, FASTA, BLAST sind alle Begriffe, die aus dem ersten Blick
einer Person als total unbekannt erscheinen. Diese sind aber die Begriffe, die die Bioinformatik und die Forschung des Genoms revolutioniert haben. Es sind Konzepte, die für
die Suche in Sequenzdatenbanken entwickelt wurden. Zunächst wird dargestellt, wie
diese funktionieren, wofür und wann sie eingeführt werden.
Die erste Frage, die hier auftaucht wäre, warum Sequenzdatenbaken. Wenn wir an
dem Menschgenome denken, kommen wir zu einer Zahl von etwa 25000 Gene. Zurzeit
wurden 1354 bakterielle Genomen schon im Labor sequenziert(lt.“NCBI“). Dadurch
wäre der Vergleich zweier Sequenzen ohne dieser Datenbanken unmöglich. Der Vergleich zweier Sequenzen? Worum geht es da? Was macht da Sinn? Dies sind Fragen,
die hier wieder auftauchen. Bei der Suche in Sequenzdatenbanken wird versucht, Ähnlichkeiten zwischen zwei oder mehreren Sequenzen quantitativ zu erfassen, Mutationen
der Gene herauszufinden, die Gesetzmäßigkeiten der Konservierung und Variabilität zu
beobachten oder die Rückschlüsse auf entwicklungsgeschichtliche Verwandtschaftsverhältnisse zu ziehen.
Nach diesen Gründen sind diese Algorithmen entwickelt worden. Damit versucht
man die Fehlerquote und den Zeitaufwand bei der Suche zu verringern. Jeder dieser Algorithmen ist für eine bestimmte Suche geeignet und zwar, entweder für Proteinsequenzen oder Nukleotidsequenzen. Das Ziel all dieser Konzepte bezieht sich darauf das beste
Alignment zwischen der gesuchten Teilsequenz und einer Sequenz aus der Datenbank
zu finden. Um das leichter für den Sucher zu machen, werden sogenannte Scores ermittelt, die dazu dienen, die Alignments nach ihrer Ähnlichkeit zu bewerten. Aber um alles
genauer zu verstehen werden in den folgenden Abschnitten all diese Begriffe deutlicher
dargestellt.
PAM
Die Mutationen und Veränderungen im Protein verursachen die Entwicklung eines Organismus. Diese Veränderungen, die bei einem Organismus „bleiben“ dürfen,
sollen als übernommene oder beibehaltende Mutationen angenommen werden. Wenn
zwei Proteine aus zwei verschiedenen Organismen verglichen werden, würde man erwarten, dass einige dieser Mutationen als Unterschiede in den Aminosäuren-Ketten für
die Proteine des Organismus zu beobachten sind.
Dayhoff et. lat. baute einen phylogenetischen Baum der eng verwandten Proteine,
um akzeptiere Mutationen zu entdecken. Sie sammelte die Anzahl der Aminosäure i von
substituierten Aminosäure j als ein „travel-up“ des phylogenetischen Baumes. Diese
Daten wurden in einer Matrix 20×20, symmetrisch unter der Hauptdiagonalen, als
Übergang von i nach j gespeichert, galt als eine Substitution von beiden i nach j und j
auf i.
PAM-Einheit
PAM ist eine Abkürzung von Point Accepted Mutation. Somit wird PAM als eine
Einheit eingeführt, mit der die evolutionäre Distanz zwischen zwei Aminosäuren gemessen wird. Außerdem werden auch bestimmte Scoring-Matrizen für den Vergleich
von Aminosäuren mit dem Begriff PAM benannt, die unter Verwendung des Dayhoffschen Konzepts entwickelt wurden. Eine Darstellung der PAM-Einheit lässt sich wie
folgt geben:
Danciu Iulian Ionut
Seite 1
07.06.2010
München
Algorithmic Concepts for Searching in Biological Databases
„Zwei Sequenzen A und B unterscheiden sich um eine PAM-Einheit, wenn B aus A
durch eine Serie akzeptierten Punktmutationen entstanden ist pro 100 Residuen im
Schnitt eine Punktmutation auftrat“.
Unter „akzeptierte Punktmutation“ versteht man, in diesem Zusammenhang, die
Mutation, die in die Proteinsequenz inkorporiert und weitervererbt wurden. D.h. es werden nur die Mutationen betrachtet, welche entweder die Funktion eines Proteins nicht
verändern oder für den Organismus von Vorteil sind. Es werden hierbei keine Mutationen ausgewertet, die durch Insertionen oder Deletionen entstanden sind. Dadurch müssen zwei Sequenzen die um 100 PAM Einheiten divergieren nicht an jeder Position unterschiedlich sein. Es kann erwartet werden, dass selbst Sequenzen, die sich um 250
PAM Einheiten unterscheiden an ca. 25% aller Positionen übereinstimmen. Wie bereits
erwähnt werden mit dem Begriff PAM auch Scoring-Matrizen bezeichnet.
PAM-Matrizen
„PAM Matrizen sind Scoring-Matrizen, die evolutionäre Mutationsprozesse auf
dem Niveau der Aminosäure-Residuen bewerten“. Mit einer PAM-n Matrix werden Proteine verglichen, die um n PAM-Einheiten divergieren. So verwendete Dayhoff zur Ableitung der Matrizen nur solche Sequenzen, die sich an wenigen Positionen unterscheiden. Um Matrizen mit größerem n berechnen zu können, wird folgende Technik angewandt:
Man nimmt M als eine PAM1 Matrix. Sei M n die n-mal mit sich selbst multiplizierte Matrix M. Sei f(ai) und f(aj) die Häufigkeit, mit der die Aminosäure ai bzw. aj in
den betrachteten Sequenz vorkommt. Dann wird der Eintrag für (i, j) in der Matrix
PAM-n berechnet als:
݂ሺܽ௜ ሻ‫ܯ‬௡ ሺܽ௜ , ܽ௝ ሻ
‫ܯ‬௡ ሺܽ௜ , ܽ௝ ሻ
݈‫݃݋‬
= ݈‫݃݋‬
݂ሺܽ௜ ሻ݂ሺܽ௝ ሻ
݂ሺܽ௝ ሻ
Dann werden, die auf diese Weise berechnete Werte mit 10 multipliziert und zu
ganze Zahlen gerundet. Durch Addition einer Konstanten werden die Werte zusätzlich
häufig transformiert. Allerdings gibt M(ai,aj) als PAM-1 Matrix an, mit welcher Häufigkeit der Aminosäure ai nach aj in solchen Sequenzen mutiert, die um eine PAMEinheit divergieren.
PAM-250 Matrix ist diejenige, die für Alignements von Proteinsequenzen am
häufigsten verwendet wird, bis zur Einführung der BLOSUM-62-Matrix, die in den
nächsten Abschnitten dargestellt werden. Es gibt auch Genome (z.B. bei a priori) in denen nicht klar ist, welche evolutionäre Distanz Proteine haben, d.h. man weiß nicht welche Matrix gewählt werden soll. Es ist empfehlenswert alternativ mehrere Matrizen zu
verwenden.
BLOSUM
Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren, sind
von eingeschränktem Wert, da ihre Substitutionsraten von den Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind. Ein anderer Weg wurde von S. Henikoff
und J.G. Henikoff eingeschlagen, welcher die lokalen multiplen Alignements von entfernt verwandten Sequenzen verwendet. Die Matrizen werden durch konservierte Regionen der Proteine gebaut. Diese Regionen werden Blocks (Fig.1) genannt und sie stehen hinter dem Begriff BLOSUM-BLOck SUbstitution Matrix-. Die Blocks entstehen
durch aligning von multiplen Proteinen in Proteinfamilien (multiple Alignments).
Danciu Iulian Ionut
Seite 2
07.06.2010
München
Algorithmic Concepts for Searching in Biological Databases
Fig.1 Die Blöcke sind markiert
(http://www.cs.tau.ac.il/~rshamir/algmb/98/scribe/html/lec03/node10.html)
Wie schon beschrieben, sind die Blöcke Regionen mit einer hochgradigen Ähnlichkeit. Innerhalb dieser Regionen kann es passieren, dass bestimmte Proteine sehr
ähnlich sind. Aus diesem Hintergrund werden beim Rechnen der BLOSUM X Matrix,
multiple Proteine, die X Prozent ähnlich sind, als ein einziges Protein bewertet.
Die Berechnung von den Substitutionsraten basiert auf die Enumeration von allen
Aminosäuren Paare, die in jeder Spalte der Blöcke auftreten. Eine Wert pi,j wird für die
Aminosäuren i und j berechnet, auf Grundlage dieser multiplen Alignment. Wenn pi und
pj die Wahrscheinlichkeit des Auftretens der Aminosäure i bzw. Aminosäure j ist, dann
lässt sich die BLOSUM Matrix mit der folgenden Gleichung rechnen:
‫݌‬௜௝
1
ܵሺ݅. ݆ሻ = ݈‫݃݋‬
‫݌‬௜ ‫݌‬௝
ߣ
λ wird als ein Skalierungsfaktor verwendet um Scores zu generieren, die auf ganze Zahlen umgewandelt werden können.
Die Wahl eines Scoring-System einschließlich der Scores für Substitutionen, Insertionen, und Deletionen beeinflusst das Alignment der beiden DNA-und ProteinSequenzen. Um die Matches und Missmatches in einem Alignments von Proteinen bewerten zu können, ist es notwendig zu wissen, wie oft eine Aminosäure aus verwandten
Proteinen in einer anderen Aminosäure ersetzt wird. PAM-Matrizen liefern die Wahrscheinlichkeit der Umwandlung von einer Aminosäure zur anderen in homologen Protein-Sequenzen während der Evolution. Diese sind daher auf die Verfolgung des evolutionären Ursprungs der Proteine konzentriert. Im Gegensatz dazu sind die BLOSUMMatrizen auf Scoring Substitutions über eine Reihe von evolutionären Dauern gefunden
worden. Es gibt also wichtige Unterschiede in der Art, wie die PAM- und BLOSUMScoring Matrizen abgeleitet werden.
Die größte Frage die hinter diesen beiden Methoden steckt, wäre, welche Matrix
benutzt werden soll. Es hängt streng von der Verwandtschaft der Proteine ab. Während
man für enger verwandte Proteinsequenzen eine niedrige PAM– bzw. eine hohe BLOSUM–Matrix verwendet, soll man für entfernter verwandte Proteinsequenzen eine hohe
PAM- bzw. eine niedrige BLOSUM-Matrix verwenden, welche in der unterliegenden
Abbildung dargestellt sind:
Fig.2 PAM vs. BLOSUM
(http://www.clcbio.com/scienceimages/pam-blosum.png)
Danciu Iulian Ionut
Seite 3
07.06.2010
München
Algorithmic Concepts for Searching in Biological Databases
FASTA
Die Berechnung der dynamischen Programmierungsmatrizen für ein Paar von Sequenzen benötigt eine erhebliche Menge an Zeit und Speicherplatz. Allerdings haben
wir gesehen, dass die Bereiche, die in diesen Matrizen uns interessieren winzig im Vergleich zu den gesamten Bereichen der Matrize sind. Der FASTAAlgorithmus(Abkürzung für „fast-all“) ist konzipiert, um die Bereiche der Matrix zu
begrenzen. FASTA verwendet vier Schritte um die Scores zu berechnen, die die Sequenz Ähnlichkeit charakterisieren.
Der Geschwindigkeitsvorteil von FASTA wird schon in der ersten Phase erzielt.
In diesem Schritt werden sämtliche Substrings der Eingabe einer definierten Länge untersucht. Die Substrings bezeichnet man hier als k-tupel bzw. die Länge als k-tup. Der
Algorithmus bestimmt die Positionen (i, j), für die ein Teilstring mit Länge k-tup in der
Eingabe an i beginnend, der exakt mit einem Teilstring der Vergleichsequenz an Position j beginnend übereinstimmt. Die Paare (i, j) werden hot-spots genannt. Empfohlen
wird für die Suche in DNA- bzw. Proteindatenbanken einen Wert für k-tup = 6 bzw. ktup=2 zu wählen. Aufgrund der Kürze der Strings sind die hot-spots mittels HashVerfahren (Lookup-Tabellen) sehr effektiv zu bestimmen. Für sämtliche hot-spots wird
nun deren relative Lage ausgewertet, um die zehn besten Diagonal-Folgen von hot-spots
zu bestimmen. Diese Diagonal-Folge besteht aus hot-spots, die alle auf einer Diagonalen (einer gedachten Matrix, wie im Smith-Waterman-Algorithmus) liegen. Die Suche
nach Diagonal-Folgen benötigt wegen der Benutzung von Hash-Tabelle nur einen Zeitaufwand der proportional zur Anzahl der hot-spots deutlich geringer als O(n²) ist. Hinter
jeder oben gewählten Diagonal-Folge besteht ein Alignment, das wieder Matches(in den
hot-spots) und Missmatches(in den Lücken) enthält. Jedoch keine Gaps da jede Folge
auf einer Diagonale (der gedachten Matrix) liegt.
In der zweiten Phase werden die 10 Diagonal-Folgen mit den höchsten ScoreWerten weiter angenommen. Innerhalb einer jeden Diagonale wird unter Verwendung
einer Substitutionsmatrix(PAM oder BLOSUM) ein optimales Alignment(das Alignment mit der besten Score) bestimmt. Dieses ergibt sich aus der Bewertung sämtlicher
Positionen einer Diagonale, d.h. auch übereinstimmenden Teilstrings kürzer als k-tup
und konservative Replacements tragen nun zu den Scores bei. Diese Alignments werden
initiale Regionen genannt. Der Score für das beste Alignment wird als init1 ausgegeben.
In der dritten Phase wird überprüft, ob solche initiale Regionen, deren Score jeweils über dem Cutoff-Wert liegt, zu größeren Alignments verbunden werden können.
Um die allgemeine Strategie erklären zu können, sei jedes der zehn Subalignments mit
dem Score über dem Cutoff durch einen Knoten in einem gerichteten Graphen dargestellt, wobei der Wert des Knotens, den Wert des Score des entsprechenden Subalignments entspricht. Sei u einer der gewählten Subalignment, beginnend an der Position (i,
j) und endend an der Position (i+d, j+d) in der Tabelle. Sei v das andere Subalignment,
beginnend an der Position (i`, j`). Dann erweitere eine Bindung von Knoten u nach v nur
wenn i`> i+d, d.h. sollte v auf eine Zeile tiefer in der Tabelle beginnen als dort wo u
endet. Anwendung eines Werts auf diese Bindungen ist notwendig um alle Gaps zu
bestraffen, die hier auftreten könnten. Wenn i` viel größer als i+d oder eine große Distanz zwischen den beiden aus u und v enthaltenden Diagonale auftritt, sollte eine große
Gap-Strafe (negativer Wert) angewendet werden. Aus der Lage der initialen Regionen,
deren Scores und einer Gap-Straffe wird ein optimales Alignment als Kombination
kompatibler Regionen mit maximalem Score errechnet. Dieser Wert wird als initn ausgegeben.
In der vierten Phase wird ein zu initn alternativer score opt errechnet. Unter
Verwendung des Smith-Waterman-Algorithmus wird hier nur ein schmaler, diagonal
Danciu Iulian Ionut
Seite 4
07.06.2010
München
Algorithmic Concepts for Searching in Biological Databases
verlaufender Streifen der durch die Sequenzen aufgespannten Matrix ausgewertet.
Durch diejenige initiale Region mit dem Score init1 wird die Mitte des Streifens festgelegt(z.B. für ktup=2 ist der Streifen 16 Diagonalen breit, für ktup=1 enthält der Streifen
32 Diagonalen). Der höchste Wert, der in dieser Phase bestimmt wurde, heißt der optWert. Wird beim Start von FASTA die Ausgabe des Alignments gefordert, so werden
diese im Fall von Proteinsequenzen unter Verwendung des Smith-WatermanAlgorithmus und Auswertung der kompletten durch die Sequenzen aufgespannten Matrix bestimmt. Die aus diesem Verfahren resultierenden Scores können von den optWerten abweichen. Diese aufwendige Alignment wird jedoch nur für signifikante Treffer berechnet welche üblicherweise ca. 10 bis 100 sind.
BLAST
BLAST(Basic Local Alignment Search Tool) ist ähnlich wie FASTA eine Approximation des Smith-Waterman-Algorithmus. Blast beginnt mit der Lokalisation kurzer
Teilsequenzen(Segment-Paare oder hits genannt), die als Paar in der Query- bzw. Vergleichsequenz vorkommen und einen bestimmten Score aufweisen. Hits sind der Ausgangspunkt für die Bestimmung von HSPs ( High-Scoring Segment-Pairs), d.h. lokal
optimale Paare, die je einen hit enthalten. Beginn und Ende der HSPs werden so gewählt, dass sowohl eine Verkürzung als auch eine Verlängerung der Strings den Score
erniedrigen. Der Aufwand für Blast ist von O(nm). Hinter BLAST befinden sich vier
Schritte, die dazu dienen, den Algorithmus effektiver und schneller zu machen Im Folgenden wird die aktuelle Version von BLAST(Version 2) für Proteinsequenzen beschrieben.
In dem ersten Schritt –Preprocessing- wird aus der Eingabesequenz die Menge
aller Teilworte TW mit Länge w gebildet. Jedes Teilwort B aus TW dient dazu, sämtliche Worte(w-mers) mit Länge w zu bestimmen, die einen Score von mindestens T haben, wenn sie mit B verglichen werden. Lücken werden hierbei nicht eingeführt. Für die
Länge w wird im Vergleich von Proteinsequenzen mest 3 und im Vergleich von DNA
meist 11 gewählt. Zur Bildung der w-mers wurde die BLOSUM 62 Matrix herangezogen.
In dem zweiten Schritt-Lokalisierung der hits- wird die Vergleichssequenz auf
dass Vorkommen der w-mere hin untersucht, von jedem Vorkommen (hit) wird die Position bestimmt.
In dem dritten Schritt-Bestimmung der HSPs- wird bestimmt, welche Paare von
Hits einer jeden Sequenz auf derselben Diagonalen (einer gedachten Matrix des SmithWaterman-Algorithmus) liegen und einen räumlichen Abstand kleiner als A haben. Der
Abstand zweier Hits ist die Differenz der Positionen des jeweils ersten Zeichens der wmere. Für Proteine wird A gleich 40 gewählt. Beide Hits werden nun zu einem HSP erweitert. Wenn der Score des HSPs einen Schwellwert Sg überschreitet, wird eine Erweiterung mit Lücken angestoßen.
In dem vierten Schritt wird ausgehend von einem Residuenpaar (seed genannt)
mittels dynamischer Programmierung das Alignment in beide Richtungen erweitert.
Hierbei werden nur solche Zellen der Matrix betrachtet, für die der errechnete Score um
weniger Xg im Vergleich zum bisher berechneten maximalen Score abfällt. Der Parameter Xg hat eine Ähnliche Funktion wie die Begrenzung der Breite des Diagonalstreifens
zur Bestimmung des opt-Wertes im FASTA-Algorithmus, vermeidet jedoch ein Problem: der Pfad für optimale Alignment kann aus dem in seiner Breite begrenzten Diagonalstreifen herausführen. Der im BLAST-Algorithmus ausgewertete Teil der Matrix
passt sich dynamisch dem Alignment an, ist jedoch nur ein kleiner Ausschnitt der
kompletten Matrix und damit effizienter zu bestimmen. Das Residuenpaar (seed) wird
folgendermaßen bestimmt: In demjenigen HSP, das ein Erweitern mit Lücke anstieß,
wird das 11-mer mit höchstem Score bestimmt. Dessen zentrales Residuenpaar wird als
Danciu Iulian Ionut
Seite 5
07.06.2010
München
Algorithmic Concepts for Searching in Biological Databases
seed verwendet. Ist das HSP kürzer als 11 Residuen, wird ein zentrales Residuenpaar
verwendet. Das resultierende Alignment mit Lücken wird ausgegeben, wenn der berechnete E-Wert den vorgegebenen Schwellenwert unterschreitet.
Der E-Wert aus gilt für den Vergleich zweier Sequenzen der Länge n und m. Für
die Bewertung von Alignments einer Sequenz gegen eine Datenbank, die unterschiedlich lange Sequenzen enthält, gibt es zwei Betrachtungsweisen: Eine Ansicht ist es, anzunehmen, dass a priori alle Sequenzen der Datenbank mit derselben Wahrscheinlichkeit ähnlich zur Query sind. Dann hat der E-Wert eines Alignments mit einer kurzen
Sequenz dasselbe Gewicht wie der eines Alignments mit einer langen Sequenz. Alternativ kann angenommen werden, dass eine Query a priori zu einer längeren Sequenz mit
höherer Wahrscheinlichkeit eine Ähnlichkeit aufweist, da Proteine häufig aus Domänen
aufgebaut sind. In diesem Fall, d.h. unter der Annahme, daß die Wahrscheinlichkeit von
der Länge der Sequenzen abhängt, ist der E-Wert mit N / n zu multiplizieren. Hierbei ist
n die Länge der Querysequenz und N die Gesamtanzahl der Residuen in der Datenbank.
BLAST gibt E-Werte aus, die auf diese Art berechnet wurden.
Es gibt deutlich einen Anstieg von sequenzierter Genomen. Deswegen muss die
Technik den Schritt damit halten und immer neue Methoden entwickeln, um die ganze
Menge von diesen Daten speichern zu können, der Aufwand beim Rechnen zu verringern und die Algorithmen dabei effektiver und korrekter zu sein. Gibt es derzeit keinen
bestimmten Punkt, der sagt mit welchem der oben genannten Methoden am liebsten zu
arbeiten ist, denn jede hat ihre Vor- und Nachteile.
LITERATUR
[1] R. Merkl, S. Waack : Bionformatik Interaktiv: Algorithmen und Praxis, WILEYVCH Verlag GmbH & Co. KGaA Weinheim, 2003
[2] Chapman & Hall/CRC Computer and Information Science Series: Handbook of
Computational Molecular Biology, Taylor & Francis Group Verlag, 2006
[3] D. Gusfield : Algorithms on Strings, Trees, and Sequences-Computer Science and
Computational Biology, Cambridge University Press, 1997
[4] D. W. Mount: Bioinformatics-Sequence and Genome Analysis, Cold Spring Harbor
Laboratory Press, 2001
Danciu Iulian Ionut
Seite 6
07.06.2010
München
Herunterladen