Algorithmic Concepts for Searching in Biological Databases Algorithmic concepts for searching in biological databases Danciu Iulian-Ionut 07.06.2010 PAM, BLOSUM, FASTA, BLAST sind alle Begriffe, die aus dem ersten Blick einer Person als total unbekannt erscheinen. Diese sind aber die Begriffe, die die Bioinformatik und die Forschung des Genoms revolutioniert haben. Es sind Konzepte, die für die Suche in Sequenzdatenbanken entwickelt wurden. Zunächst wird dargestellt, wie diese funktionieren, wofür und wann sie eingeführt werden. Die erste Frage, die hier auftaucht wäre, warum Sequenzdatenbaken. Wenn wir an dem Menschgenome denken, kommen wir zu einer Zahl von etwa 25000 Gene. Zurzeit wurden 1354 bakterielle Genomen schon im Labor sequenziert(lt.“NCBI“). Dadurch wäre der Vergleich zweier Sequenzen ohne dieser Datenbanken unmöglich. Der Vergleich zweier Sequenzen? Worum geht es da? Was macht da Sinn? Dies sind Fragen, die hier wieder auftauchen. Bei der Suche in Sequenzdatenbanken wird versucht, Ähnlichkeiten zwischen zwei oder mehreren Sequenzen quantitativ zu erfassen, Mutationen der Gene herauszufinden, die Gesetzmäßigkeiten der Konservierung und Variabilität zu beobachten oder die Rückschlüsse auf entwicklungsgeschichtliche Verwandtschaftsverhältnisse zu ziehen. Nach diesen Gründen sind diese Algorithmen entwickelt worden. Damit versucht man die Fehlerquote und den Zeitaufwand bei der Suche zu verringern. Jeder dieser Algorithmen ist für eine bestimmte Suche geeignet und zwar, entweder für Proteinsequenzen oder Nukleotidsequenzen. Das Ziel all dieser Konzepte bezieht sich darauf das beste Alignment zwischen der gesuchten Teilsequenz und einer Sequenz aus der Datenbank zu finden. Um das leichter für den Sucher zu machen, werden sogenannte Scores ermittelt, die dazu dienen, die Alignments nach ihrer Ähnlichkeit zu bewerten. Aber um alles genauer zu verstehen werden in den folgenden Abschnitten all diese Begriffe deutlicher dargestellt. PAM Die Mutationen und Veränderungen im Protein verursachen die Entwicklung eines Organismus. Diese Veränderungen, die bei einem Organismus „bleiben“ dürfen, sollen als übernommene oder beibehaltende Mutationen angenommen werden. Wenn zwei Proteine aus zwei verschiedenen Organismen verglichen werden, würde man erwarten, dass einige dieser Mutationen als Unterschiede in den Aminosäuren-Ketten für die Proteine des Organismus zu beobachten sind. Dayhoff et. lat. baute einen phylogenetischen Baum der eng verwandten Proteine, um akzeptiere Mutationen zu entdecken. Sie sammelte die Anzahl der Aminosäure i von substituierten Aminosäure j als ein „travel-up“ des phylogenetischen Baumes. Diese Daten wurden in einer Matrix 20×20, symmetrisch unter der Hauptdiagonalen, als Übergang von i nach j gespeichert, galt als eine Substitution von beiden i nach j und j auf i. PAM-Einheit PAM ist eine Abkürzung von Point Accepted Mutation. Somit wird PAM als eine Einheit eingeführt, mit der die evolutionäre Distanz zwischen zwei Aminosäuren gemessen wird. Außerdem werden auch bestimmte Scoring-Matrizen für den Vergleich von Aminosäuren mit dem Begriff PAM benannt, die unter Verwendung des Dayhoffschen Konzepts entwickelt wurden. Eine Darstellung der PAM-Einheit lässt sich wie folgt geben: Danciu Iulian Ionut Seite 1 07.06.2010 München Algorithmic Concepts for Searching in Biological Databases „Zwei Sequenzen A und B unterscheiden sich um eine PAM-Einheit, wenn B aus A durch eine Serie akzeptierten Punktmutationen entstanden ist pro 100 Residuen im Schnitt eine Punktmutation auftrat“. Unter „akzeptierte Punktmutation“ versteht man, in diesem Zusammenhang, die Mutation, die in die Proteinsequenz inkorporiert und weitervererbt wurden. D.h. es werden nur die Mutationen betrachtet, welche entweder die Funktion eines Proteins nicht verändern oder für den Organismus von Vorteil sind. Es werden hierbei keine Mutationen ausgewertet, die durch Insertionen oder Deletionen entstanden sind. Dadurch müssen zwei Sequenzen die um 100 PAM Einheiten divergieren nicht an jeder Position unterschiedlich sein. Es kann erwartet werden, dass selbst Sequenzen, die sich um 250 PAM Einheiten unterscheiden an ca. 25% aller Positionen übereinstimmen. Wie bereits erwähnt werden mit dem Begriff PAM auch Scoring-Matrizen bezeichnet. PAM-Matrizen „PAM Matrizen sind Scoring-Matrizen, die evolutionäre Mutationsprozesse auf dem Niveau der Aminosäure-Residuen bewerten“. Mit einer PAM-n Matrix werden Proteine verglichen, die um n PAM-Einheiten divergieren. So verwendete Dayhoff zur Ableitung der Matrizen nur solche Sequenzen, die sich an wenigen Positionen unterscheiden. Um Matrizen mit größerem n berechnen zu können, wird folgende Technik angewandt: Man nimmt M als eine PAM1 Matrix. Sei M n die n-mal mit sich selbst multiplizierte Matrix M. Sei f(ai) und f(aj) die Häufigkeit, mit der die Aminosäure ai bzw. aj in den betrachteten Sequenz vorkommt. Dann wird der Eintrag für (i, j) in der Matrix PAM-n berechnet als: ݂ሺܽ ሻܯ ሺܽ , ܽ ሻ ܯ ሺܽ , ܽ ሻ ݈݃ = ݈݃ ݂ሺܽ ሻ݂ሺܽ ሻ ݂ሺܽ ሻ Dann werden, die auf diese Weise berechnete Werte mit 10 multipliziert und zu ganze Zahlen gerundet. Durch Addition einer Konstanten werden die Werte zusätzlich häufig transformiert. Allerdings gibt M(ai,aj) als PAM-1 Matrix an, mit welcher Häufigkeit der Aminosäure ai nach aj in solchen Sequenzen mutiert, die um eine PAMEinheit divergieren. PAM-250 Matrix ist diejenige, die für Alignements von Proteinsequenzen am häufigsten verwendet wird, bis zur Einführung der BLOSUM-62-Matrix, die in den nächsten Abschnitten dargestellt werden. Es gibt auch Genome (z.B. bei a priori) in denen nicht klar ist, welche evolutionäre Distanz Proteine haben, d.h. man weiß nicht welche Matrix gewählt werden soll. Es ist empfehlenswert alternativ mehrere Matrizen zu verwenden. BLOSUM Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren, sind von eingeschränktem Wert, da ihre Substitutionsraten von den Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind. Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff eingeschlagen, welcher die lokalen multiplen Alignements von entfernt verwandten Sequenzen verwendet. Die Matrizen werden durch konservierte Regionen der Proteine gebaut. Diese Regionen werden Blocks (Fig.1) genannt und sie stehen hinter dem Begriff BLOSUM-BLOck SUbstitution Matrix-. Die Blocks entstehen durch aligning von multiplen Proteinen in Proteinfamilien (multiple Alignments). Danciu Iulian Ionut Seite 2 07.06.2010 München Algorithmic Concepts for Searching in Biological Databases Fig.1 Die Blöcke sind markiert (http://www.cs.tau.ac.il/~rshamir/algmb/98/scribe/html/lec03/node10.html) Wie schon beschrieben, sind die Blöcke Regionen mit einer hochgradigen Ähnlichkeit. Innerhalb dieser Regionen kann es passieren, dass bestimmte Proteine sehr ähnlich sind. Aus diesem Hintergrund werden beim Rechnen der BLOSUM X Matrix, multiple Proteine, die X Prozent ähnlich sind, als ein einziges Protein bewertet. Die Berechnung von den Substitutionsraten basiert auf die Enumeration von allen Aminosäuren Paare, die in jeder Spalte der Blöcke auftreten. Eine Wert pi,j wird für die Aminosäuren i und j berechnet, auf Grundlage dieser multiplen Alignment. Wenn pi und pj die Wahrscheinlichkeit des Auftretens der Aminosäure i bzw. Aminosäure j ist, dann lässt sich die BLOSUM Matrix mit der folgenden Gleichung rechnen: 1 ܵሺ݅. ݆ሻ = ݈݃ ߣ λ wird als ein Skalierungsfaktor verwendet um Scores zu generieren, die auf ganze Zahlen umgewandelt werden können. Die Wahl eines Scoring-System einschließlich der Scores für Substitutionen, Insertionen, und Deletionen beeinflusst das Alignment der beiden DNA-und ProteinSequenzen. Um die Matches und Missmatches in einem Alignments von Proteinen bewerten zu können, ist es notwendig zu wissen, wie oft eine Aminosäure aus verwandten Proteinen in einer anderen Aminosäure ersetzt wird. PAM-Matrizen liefern die Wahrscheinlichkeit der Umwandlung von einer Aminosäure zur anderen in homologen Protein-Sequenzen während der Evolution. Diese sind daher auf die Verfolgung des evolutionären Ursprungs der Proteine konzentriert. Im Gegensatz dazu sind die BLOSUMMatrizen auf Scoring Substitutions über eine Reihe von evolutionären Dauern gefunden worden. Es gibt also wichtige Unterschiede in der Art, wie die PAM- und BLOSUMScoring Matrizen abgeleitet werden. Die größte Frage die hinter diesen beiden Methoden steckt, wäre, welche Matrix benutzt werden soll. Es hängt streng von der Verwandtschaft der Proteine ab. Während man für enger verwandte Proteinsequenzen eine niedrige PAM– bzw. eine hohe BLOSUM–Matrix verwendet, soll man für entfernter verwandte Proteinsequenzen eine hohe PAM- bzw. eine niedrige BLOSUM-Matrix verwenden, welche in der unterliegenden Abbildung dargestellt sind: Fig.2 PAM vs. BLOSUM (http://www.clcbio.com/scienceimages/pam-blosum.png) Danciu Iulian Ionut Seite 3 07.06.2010 München Algorithmic Concepts for Searching in Biological Databases FASTA Die Berechnung der dynamischen Programmierungsmatrizen für ein Paar von Sequenzen benötigt eine erhebliche Menge an Zeit und Speicherplatz. Allerdings haben wir gesehen, dass die Bereiche, die in diesen Matrizen uns interessieren winzig im Vergleich zu den gesamten Bereichen der Matrize sind. Der FASTAAlgorithmus(Abkürzung für „fast-all“) ist konzipiert, um die Bereiche der Matrix zu begrenzen. FASTA verwendet vier Schritte um die Scores zu berechnen, die die Sequenz Ähnlichkeit charakterisieren. Der Geschwindigkeitsvorteil von FASTA wird schon in der ersten Phase erzielt. In diesem Schritt werden sämtliche Substrings der Eingabe einer definierten Länge untersucht. Die Substrings bezeichnet man hier als k-tupel bzw. die Länge als k-tup. Der Algorithmus bestimmt die Positionen (i, j), für die ein Teilstring mit Länge k-tup in der Eingabe an i beginnend, der exakt mit einem Teilstring der Vergleichsequenz an Position j beginnend übereinstimmt. Die Paare (i, j) werden hot-spots genannt. Empfohlen wird für die Suche in DNA- bzw. Proteindatenbanken einen Wert für k-tup = 6 bzw. ktup=2 zu wählen. Aufgrund der Kürze der Strings sind die hot-spots mittels HashVerfahren (Lookup-Tabellen) sehr effektiv zu bestimmen. Für sämtliche hot-spots wird nun deren relative Lage ausgewertet, um die zehn besten Diagonal-Folgen von hot-spots zu bestimmen. Diese Diagonal-Folge besteht aus hot-spots, die alle auf einer Diagonalen (einer gedachten Matrix, wie im Smith-Waterman-Algorithmus) liegen. Die Suche nach Diagonal-Folgen benötigt wegen der Benutzung von Hash-Tabelle nur einen Zeitaufwand der proportional zur Anzahl der hot-spots deutlich geringer als O(n²) ist. Hinter jeder oben gewählten Diagonal-Folge besteht ein Alignment, das wieder Matches(in den hot-spots) und Missmatches(in den Lücken) enthält. Jedoch keine Gaps da jede Folge auf einer Diagonale (der gedachten Matrix) liegt. In der zweiten Phase werden die 10 Diagonal-Folgen mit den höchsten ScoreWerten weiter angenommen. Innerhalb einer jeden Diagonale wird unter Verwendung einer Substitutionsmatrix(PAM oder BLOSUM) ein optimales Alignment(das Alignment mit der besten Score) bestimmt. Dieses ergibt sich aus der Bewertung sämtlicher Positionen einer Diagonale, d.h. auch übereinstimmenden Teilstrings kürzer als k-tup und konservative Replacements tragen nun zu den Scores bei. Diese Alignments werden initiale Regionen genannt. Der Score für das beste Alignment wird als init1 ausgegeben. In der dritten Phase wird überprüft, ob solche initiale Regionen, deren Score jeweils über dem Cutoff-Wert liegt, zu größeren Alignments verbunden werden können. Um die allgemeine Strategie erklären zu können, sei jedes der zehn Subalignments mit dem Score über dem Cutoff durch einen Knoten in einem gerichteten Graphen dargestellt, wobei der Wert des Knotens, den Wert des Score des entsprechenden Subalignments entspricht. Sei u einer der gewählten Subalignment, beginnend an der Position (i, j) und endend an der Position (i+d, j+d) in der Tabelle. Sei v das andere Subalignment, beginnend an der Position (i`, j`). Dann erweitere eine Bindung von Knoten u nach v nur wenn i`> i+d, d.h. sollte v auf eine Zeile tiefer in der Tabelle beginnen als dort wo u endet. Anwendung eines Werts auf diese Bindungen ist notwendig um alle Gaps zu bestraffen, die hier auftreten könnten. Wenn i` viel größer als i+d oder eine große Distanz zwischen den beiden aus u und v enthaltenden Diagonale auftritt, sollte eine große Gap-Strafe (negativer Wert) angewendet werden. Aus der Lage der initialen Regionen, deren Scores und einer Gap-Straffe wird ein optimales Alignment als Kombination kompatibler Regionen mit maximalem Score errechnet. Dieser Wert wird als initn ausgegeben. In der vierten Phase wird ein zu initn alternativer score opt errechnet. Unter Verwendung des Smith-Waterman-Algorithmus wird hier nur ein schmaler, diagonal Danciu Iulian Ionut Seite 4 07.06.2010 München Algorithmic Concepts for Searching in Biological Databases verlaufender Streifen der durch die Sequenzen aufgespannten Matrix ausgewertet. Durch diejenige initiale Region mit dem Score init1 wird die Mitte des Streifens festgelegt(z.B. für ktup=2 ist der Streifen 16 Diagonalen breit, für ktup=1 enthält der Streifen 32 Diagonalen). Der höchste Wert, der in dieser Phase bestimmt wurde, heißt der optWert. Wird beim Start von FASTA die Ausgabe des Alignments gefordert, so werden diese im Fall von Proteinsequenzen unter Verwendung des Smith-WatermanAlgorithmus und Auswertung der kompletten durch die Sequenzen aufgespannten Matrix bestimmt. Die aus diesem Verfahren resultierenden Scores können von den optWerten abweichen. Diese aufwendige Alignment wird jedoch nur für signifikante Treffer berechnet welche üblicherweise ca. 10 bis 100 sind. BLAST BLAST(Basic Local Alignment Search Tool) ist ähnlich wie FASTA eine Approximation des Smith-Waterman-Algorithmus. Blast beginnt mit der Lokalisation kurzer Teilsequenzen(Segment-Paare oder hits genannt), die als Paar in der Query- bzw. Vergleichsequenz vorkommen und einen bestimmten Score aufweisen. Hits sind der Ausgangspunkt für die Bestimmung von HSPs ( High-Scoring Segment-Pairs), d.h. lokal optimale Paare, die je einen hit enthalten. Beginn und Ende der HSPs werden so gewählt, dass sowohl eine Verkürzung als auch eine Verlängerung der Strings den Score erniedrigen. Der Aufwand für Blast ist von O(nm). Hinter BLAST befinden sich vier Schritte, die dazu dienen, den Algorithmus effektiver und schneller zu machen Im Folgenden wird die aktuelle Version von BLAST(Version 2) für Proteinsequenzen beschrieben. In dem ersten Schritt –Preprocessing- wird aus der Eingabesequenz die Menge aller Teilworte TW mit Länge w gebildet. Jedes Teilwort B aus TW dient dazu, sämtliche Worte(w-mers) mit Länge w zu bestimmen, die einen Score von mindestens T haben, wenn sie mit B verglichen werden. Lücken werden hierbei nicht eingeführt. Für die Länge w wird im Vergleich von Proteinsequenzen mest 3 und im Vergleich von DNA meist 11 gewählt. Zur Bildung der w-mers wurde die BLOSUM 62 Matrix herangezogen. In dem zweiten Schritt-Lokalisierung der hits- wird die Vergleichssequenz auf dass Vorkommen der w-mere hin untersucht, von jedem Vorkommen (hit) wird die Position bestimmt. In dem dritten Schritt-Bestimmung der HSPs- wird bestimmt, welche Paare von Hits einer jeden Sequenz auf derselben Diagonalen (einer gedachten Matrix des SmithWaterman-Algorithmus) liegen und einen räumlichen Abstand kleiner als A haben. Der Abstand zweier Hits ist die Differenz der Positionen des jeweils ersten Zeichens der wmere. Für Proteine wird A gleich 40 gewählt. Beide Hits werden nun zu einem HSP erweitert. Wenn der Score des HSPs einen Schwellwert Sg überschreitet, wird eine Erweiterung mit Lücken angestoßen. In dem vierten Schritt wird ausgehend von einem Residuenpaar (seed genannt) mittels dynamischer Programmierung das Alignment in beide Richtungen erweitert. Hierbei werden nur solche Zellen der Matrix betrachtet, für die der errechnete Score um weniger Xg im Vergleich zum bisher berechneten maximalen Score abfällt. Der Parameter Xg hat eine Ähnliche Funktion wie die Begrenzung der Breite des Diagonalstreifens zur Bestimmung des opt-Wertes im FASTA-Algorithmus, vermeidet jedoch ein Problem: der Pfad für optimale Alignment kann aus dem in seiner Breite begrenzten Diagonalstreifen herausführen. Der im BLAST-Algorithmus ausgewertete Teil der Matrix passt sich dynamisch dem Alignment an, ist jedoch nur ein kleiner Ausschnitt der kompletten Matrix und damit effizienter zu bestimmen. Das Residuenpaar (seed) wird folgendermaßen bestimmt: In demjenigen HSP, das ein Erweitern mit Lücke anstieß, wird das 11-mer mit höchstem Score bestimmt. Dessen zentrales Residuenpaar wird als Danciu Iulian Ionut Seite 5 07.06.2010 München Algorithmic Concepts for Searching in Biological Databases seed verwendet. Ist das HSP kürzer als 11 Residuen, wird ein zentrales Residuenpaar verwendet. Das resultierende Alignment mit Lücken wird ausgegeben, wenn der berechnete E-Wert den vorgegebenen Schwellenwert unterschreitet. Der E-Wert aus gilt für den Vergleich zweier Sequenzen der Länge n und m. Für die Bewertung von Alignments einer Sequenz gegen eine Datenbank, die unterschiedlich lange Sequenzen enthält, gibt es zwei Betrachtungsweisen: Eine Ansicht ist es, anzunehmen, dass a priori alle Sequenzen der Datenbank mit derselben Wahrscheinlichkeit ähnlich zur Query sind. Dann hat der E-Wert eines Alignments mit einer kurzen Sequenz dasselbe Gewicht wie der eines Alignments mit einer langen Sequenz. Alternativ kann angenommen werden, dass eine Query a priori zu einer längeren Sequenz mit höherer Wahrscheinlichkeit eine Ähnlichkeit aufweist, da Proteine häufig aus Domänen aufgebaut sind. In diesem Fall, d.h. unter der Annahme, daß die Wahrscheinlichkeit von der Länge der Sequenzen abhängt, ist der E-Wert mit N / n zu multiplizieren. Hierbei ist n die Länge der Querysequenz und N die Gesamtanzahl der Residuen in der Datenbank. BLAST gibt E-Werte aus, die auf diese Art berechnet wurden. Es gibt deutlich einen Anstieg von sequenzierter Genomen. Deswegen muss die Technik den Schritt damit halten und immer neue Methoden entwickeln, um die ganze Menge von diesen Daten speichern zu können, der Aufwand beim Rechnen zu verringern und die Algorithmen dabei effektiver und korrekter zu sein. Gibt es derzeit keinen bestimmten Punkt, der sagt mit welchem der oben genannten Methoden am liebsten zu arbeiten ist, denn jede hat ihre Vor- und Nachteile. LITERATUR [1] R. Merkl, S. Waack : Bionformatik Interaktiv: Algorithmen und Praxis, WILEYVCH Verlag GmbH & Co. KGaA Weinheim, 2003 [2] Chapman & Hall/CRC Computer and Information Science Series: Handbook of Computational Molecular Biology, Taylor & Francis Group Verlag, 2006 [3] D. Gusfield : Algorithms on Strings, Trees, and Sequences-Computer Science and Computational Biology, Cambridge University Press, 1997 [4] D. W. Mount: Bioinformatics-Sequence and Genome Analysis, Cold Spring Harbor Laboratory Press, 2001 Danciu Iulian Ionut Seite 6 07.06.2010 München