Evolutionäre Bäume (Distanzbasierte Methoden) Stefan Loipnger 12.12.2015 1 Einleitung "Da alles ständig im Wandel ist, kann nichts auf Dauer existieren" - Dalai Lama So durchleben auch alle verschiedenen Spezies von Organismen auf dieser Welt einen Wandel, eine Veränderung. Sie versuchen sich ihrem Umfeld immer besser anzupassen und entwickeln sich dabei ständig weiter, um das Überleben ihrer Spezies zu sichern. Dieser langsame Prozess der Entwicklung wird Evolution genannt. Die DNA ist dabei der wichtigste Träger der Erbinformationen. Sie wird von Generation zu Generation weitergegeben und durch Mutationen stets leicht verändert. Nach vielen Vorgängen der Reproduktion bilden sich langsam aus einer Spezies neue verschiedene Gruppen von Lebewesen. Die Wissenschaft der Phylogenese, die Phylogenetik, befasst sich mit den Stammesgeschichten von Organismen und versucht festzustellen, in welcher Beziehung diese zueinander stehen und welchen gemeinsamen Vorfahren sie haben. Diese Relationen werden meist mit phylogenetischen Bäumen veranschaulicht. Im Folgenden werden die zwei Algorithmen, Fitch-Margoliash und WPGMA, zur Erstellung durch distanzbasierte Methoden vorgestellt. 2 Phylogenetische Bäume Dazu muss man wissen, dass jeder Baum einer Menge gerichtet, V T G = (V, E) ist. Graph G besteht aus E ⊆ V × V von Kanten. Diese sind entweder j mit i → j verbindet oder ungerichtet, wenn ein Graph von Knoten und einer Menge wenn eine Kante die Knoten i zu die Kanten symmetrisch sind, d.h. eine Verbindung existiert, die in beide Richtungen gerichtet ist. Ein Pfad auf dem Graphen ist eine endliche Folge von Kanten, die zwei Knoten miteinander verbindet. Ein gerichteter Graph ist zusammenhängend, wenn er für zwei beliebige entfernte Knoten einen gerichteten Pfad zwischen ihnen gibt. Auÿerdem ist ein Graph zyklisch, wenn er einen verbundenen Kreis von Knoten, d.h. dass ein Pfad existiert, bei dem Anfang- gleich Endknoten des Pfades sein kann, in sich hat und nicht zyklisch wenn er keinen besitzt. Ein Baum T ist immer zusammenhängend und nicht zyklisch. Daraus folgt, dass zwi- schen allen Knoten ein eindeutiger Pfad existiert. Zudem sind ungewurzelte Bäume ungerichtet, im Gegensatz zu den gewurzelten Bäumen, die einen Knoten besitzen, der als Wurzel gekennzeichnet ist. Die Wurzel ist der Knoten im gerichteten Baum, der selbst nicht von andern Knoten aus erreichbar ist, aber von dem alle anderen Knoten im Baum 1 Vater y direkt vor y erreichbar sind. Der Wurzel r zu eines Knotens zu y . Die Blätter ist der Knoten, der auf dem Pfad von der y liegt. Der Knoten ist. Die Vorfahren eines Knoten r y y ist Kind von x, wenn x der Vater von y ist ein beliebiger Knoten auf dem Pfad von der Wurzel eines gewurzelten Baums besitzen keine Kinder. Des weiteren sind alle Knoten, die keine Blätter sind, innere Knoten. Ein Baum wird binär genannt, wenn jeder Knoten höchstens zwei Kinder besitzt (vgl. [2] 4.3). Phylogenetische Bäume bestehen aus inneren Knoten, die hypothetische Vorfahren repräsentieren und Blättern, die die gegenwärtigen Taxa darstellen. Ein Taxon ist eine bestimmte Gruppe von Organismen, die von anderen Organismengruppen unterscheidbar ist. Zwei am nächsten verwandte Taxa werden mit benachbarten äuÿeren Zweigen ausgedrückt, die mit einem gemeinsamen Vaterknoten verbunden sind. Ein wichtiger Aspekt ist dabei die Topologie, also wie die inneren Knoten untereinander und zu den Blättern verbunden sind. Ein anderer sind die Distanz zwischen den Knoten, die mithilfe von gewichteten Kanten repräsentiert werden. Sie spiegelt eine Schätzung der evolutionären Distanz zwischen den Knoten wieder. Phylogenetische Bäume mit ihren Beziehungen sind nur Hypothesen, sie können stimmen, müssen jedoch nicht. Denn aufgrund unzureichender Informationen und unklaren Daten über die entfernten Vorfahren ist es schwierig oder kompliziert den richtigen Stammbaum auszugeben. Daher ist es nicht möglich, 100%ige Sicherheit über eine Beziehung zu geben. Man kann gewöhnlich nur Schlussfolgerungen der groben evolutionären Entwicklung aufstellen, was auch dazu führt, dass der erstellte phylogenetische Baum mit groÿer Wahrscheinlichkeit der richtige sein kann, aber nicht unbedingt sein muss. Die Daten zur Erstellung eines phylogenetischen Baumes erhält man durch den Vergleich von heutigen Spezies. Dabei lassen sich zwei generelle Arten von Eingabedaten unterscheiden. Neben dem Auslesen von diskreten Merkmalen mit bestimmten Zuständen der Spezies, wie z.B. die Anzahl der Finger oder die Form der Wirbelsäule, gibt es vergleichbare Distanzen zwischen zwei Taxa, die in Zahlen ausgedrückt werden können. Diese Distanz kann vereinfacht als Anzahl an Mutationen zwischen zwei Taxa interpretiert werden, die benötigt werden, um eine Spezies in eine andere zu verändern. Dabei haben jeweils zwei Taxa ihre eigene Distanz, die als Eingabewerte dienen, zur Erstellung einer quadratische Distanzmatrix. Als Daten hierfür hat man die Anzahl jedem Paar i, j n an Taxa gegeben. Daraus wird die Matrix den Werten von dij dij zwischen Gröÿe n × n und der Taxa, sowie die Distanz D mit der für die entsprechenden Taxa erstellt. Wie bestimmt man nun den besten phylogenetischen Baum daraus? Ein Ansatz wäre, alle möglichen Baumtopologien mit n Blättern zu erstellen und den Baum, mit der kleinsten Anzahl an Mutationen, als den wahrscheinlichsten auszuwählen. Jedoch ergibt sich für die Anzahl der möglichen ungewurzelten Bäume mit n Blätter (vgl. [2] Korollar 4.1): n Y (2k − 5) = k=3 Durch den exponentiellen Anstieg bzgl. n (2n − 5)! − 3)! 2n−3 (n sind es bei bereits n = 10 Taxa schon mehr als 2 000 000 verschiedene Möglichkeiten. Für gewurzelte Bäume gibt es für die gleiche Anzahl an Taxa schon mehr als 34 000 000 mögliche Bäume (vgl. [2] Korollar 4.2), sodass dieser Ansatz wegfällt. Deswegen helfen die später aufgezeigten Algorithmen dabei, den passenden Baum schneller und eektiver zu nden. 2 Abbildung 1: Vereinfachter ultrametrischer Baum 3 Algorithmen zur Baumerstellung n × n Matrix sein. Um damit arbeiten zu können, muss sie vielmehr die Bedingungen einer Metrik erfüllen. Dazu zählen, dass für drei beliebige Taxa a, b und c folgende Bedingungen erfüllt werden: Die vorher denierte Distanzmatrix (1) dab > 0 für a 6= b (2) dab = 0 für a=b (3) dab = dba (4) dab ≤ dac + dcb für alle D soll aber nicht nur eine a, b für alle a, b, c So muss eine Metrik stets positive Werte besitzen (1), bei einem Distanzwert gleich null zwischen den Taxa muss es sich somit um das gleiche Taxon handeln (2). Auch besitzt eine Metrik die Bedingung der Symmetrie (3) und die der Dreiecksungleichung. Wenn nun dab in D mit der Summe der Kantengewichtungen eines Pfades zwischen zwei Blättern a, b übereinstimmt und ein Baum T gefunden werden kann, der dies erfüllt, so sind D und T additiv. Dafür muss zusätzlich die 4-Punkt Bedingung gelten: Eine Metrik D mit einer Menge S von Taxa ist genau dann additiv, wenn für beliebige vier Taxa i,j ,k ,l von S gilt, dass dij + dkl = dik + djl ≥ dil + djk . Eine additive Metrik ist eine Ultrametrik, wenn sie zur 4-Punkt Bedingung zusätzlich die 3-Punkt Bedingung erfüllt: D ist eine Ultrametrik, wenn für eine Metrik für beliebige drei Taxa i,j ,k von S darüber hinaus gilt, dass dik = djk ≥ dij . Diese Bedingung schränkt Beder Eintrag dingung (4) stärker ein und bedeutet, dass eine direkte Verbindung zwischen zwei Knoten echt kürzer sein muss als eine Verbindung über einen Zwischenpunkt. Die ausführlichen Beweise für diese Gleichungen ndet man in [3] Theorem 7.1 und 7.2. 3.1 Additiver Baum mit Fitch-Margoliash Voraussetzung für die Erstellung eines phylogenetischen Baumes mit dem Fitch-Margoliash Algorithmus ist eine additive Metrik als Eingabeparameter. Um die Kantengewichte und damit den evolutionären Abstand zu berechnen, werden die folgenden einfachen Feststellungen zur Anlehnung benutzt. So ist aus Abbildung 1 ersichtlich, dass x= dab + dac − dbc 2 , y= dab + dbc − dac 2 und u+z = dac + dbc − dab 2 (1) gilt. Der Algorithmus 1 funktioniert, indem eine Taxa nach dem anderen dem Baum hinzugefügt wird. Dazu wiederholt er nach Eingabe der Matrix immer wieder die Bestimmung 3 Abbildung 2: Beispiel für phylogenetische Bäume aus einer Distanzmatrix a und b, die am nächsten zusammen liegen. Daraufhin werden die S zusammengefügt und jeweils die durchschnittlichen Distanzen daS und dbS berechnet. Durch das Vereinigen von a und b entsteht ein Vaterknoten P (a, b), dessen Distanzen zu a bzw. b mit den vorher bestimmten Formeln in (1) derjenigen zwei Cluster restlichen Cluster in eine Menge berechnet werden kann. Dieser Vorgang wird so lange durchgeführt, solange die Anzahl der Cluster in S noch gröÿer als zwei ist. So entsteht schrittweise ein binärer, ungerichteter ungewurzelter additiver Baum (Abbildung 2). Der erstellte Baum aus einer bestimmten additiven oder ultrametrischen Matrix ist dabei eindeutig (Beweis durch Induktion dazu in [1] unter Beispiel 6.1). Wie man im Algorithmus 1 und der while-Schleife erkennt, wird der Baum für mehr als 2 Taxa über mehrere Iterationen aufgebaut. Dadurch ergibt sich eine theoretische 2 worst-case Laufzeit von O(n ), da jedes Taxon, das wir den Baum hinzufügen, mit allen anderen bereits bestehenden Taxa verglichen und D geupdatet werden muss. Jedoch ist das Laufzeitverhalten nicht trivial und die Laufzeit kann durch komplexere Algorithmen noch weiter eingespart werden. Sollten an einem Baum negativen Kantenlängen auftreten, D so ist das ein Zeichen für eine falsche Topologie und dass nicht additiv ist, jedoch wird das durch die Bedingung der Metrik ausgeschlossen. Data : additive n × n Distanzmatrix D Result : additver ungerichteter ungewurzelter Baum S , bestehend aus einzelne Cluster {1}, ...{n}; while Anzahl Cluster > 2 do 1. Bestimme das Paar a, b von Clustern mit der geringsten Distanz; 2. S besteht aus allen anderen Cluster; Initialisiere eine Menge 3. Bestimme die Durchschnittsdistanz mit P daS = i∈a P j∈S P dij dbS = |a||S| 4. Erstelle einen Vaterknoten i∈b P j∈S dij |b||S| P (a, b) von a, b durch Vereinigen der beiden x von P (a, b) zu a und y von P (a, b) zu b Cluster und deniere die Astlänge durch x= dab + daS − dbS 2 y= dab + dbS − daS 2 end Algorithmus 1 : Fitch-Margoliash Alogrithmus (vgl. [2] Algorithmus 4.3) 4 3.2 Ultrametrischer Baum mit WPGMA Bei einem ultrametrischen Baum wird von einer konstanten molekularen Uhr ausgegangen. Dieses Modell nimmt an, dass sich alle gegenwärtigen Taxa mit einer konstanten Mutationsrate von einem gemeinsamen Vorfahren entwickelt haben. Ein Baum ist ultrametrisch, wenn er additiv ist und so gewurzelt werden kann, dass alle Pfade von der Wurzel zu den Blättern die gleichen Pfadlängen besitzen. Mithilfe von WPGMA (Weighted Method with Arithmetic mean ) kann so ein Baum nach dem Bottom-Up Pair Group Ansatz iterativ aufgebaut werden. Dazu sollte er als Eingabeparameter eine ultrametrische Matrix bekommen. Ist dies nicht der Fall, so entsteht zwar ein Baum, doch dieser ist meist nicht aussagekräftig oder spiegelt nicht die Werte in D wieder. Wie man beim Algorithmus 2 erkennen kann, wird dazu nach der Initialisierung der S eine neue Funktion dist(i, j) für zwei Taxa i und j deniert. Wie bei FitchMargoliash werden nun wiederholend die Cluster c und d ausgewählt, die am nächsten zusammen liegen. Daraufhin wird ein neuer Cluster e mit c und d als Kinder erstellt, wobei zugleich alle drei Knoten aus der Menge S wegfallen. Nun hat e zu seinen beiden Kindern c und d den gleichen Abstand, sodass dist(c, d) immer noch der gleichen Entfernung Menge entspricht (den ausführlichen Beweis für diesen Schritt nden man in [2] 4.3). Anschlieÿend werden die Distanzen zwischen allen noch übrigen Knoten e aktualisiert. Dadurch entsteht von unten nach oben f ∈S bzgl. des neuen Clusters ein binärer gerichteter gewurzelter ultrametrische Baum (siehe Abbildung 2). WPGMA benötigt dabei n−1 Iterationen, in denen jeweils in O(n2 )-Zeit die minimale Distanz zwischen den Elementen gefunden wird. Die Aktualisierung der Distanzen der einen Spalte in M geht in O(n), da nur eine Spalte neu berechnet werden muss. So ergibt 3 sich für WPGMA eine Gesamtlaufzeit von O(n ), jedoch ist mit komplexeren Algorithmen 2 auch eine Gesamtlaufzeit von O(n ) möglich. Data : ultrametrische n × n Distanzmatrix D Result : ultrametrischer gerichteter gewurzelter Baum S , bestehend aus einzelne Cluster {1}, ...{n}; Funktion dist(c, d) auf S , sodass für alle i und j in S gilt: Initialisiere eine Menge Initialisiere die dist(i, j) = dij in M for n − 1 mal do 1. Bestimme ein Paar c, d von den Cluster in D, sodass dist(c, d) minimal ist: dmin = dist(c, d) 2. Erstelle ein neues Cluster e=c∪d und S = S − {c, d} ∪ {e}; c, d, wobei die Distanz 3. Erstelle einen Knoten e mit den Kindern d seinen Kinderknoten min beträgt; 2 4. Deniere für alle f ∈ S mit f 6= e: dist(e, f ) = dist(f, e) = von dist(c, f ) + dist(d, f ) 2 end Algorithmus 2 : WPGMA Alogrithmus (vgl. [2] Algorithmus 4.3) 5 e zu (2) 3.3 Ultrametrischer Baum mit UPGMA Eine Modikation von WPGMA ist die UPGMA-Methode (Unweightend Pair Group Method with Arithmetic mean ). Dieser Algorithmus unterscheidet sich zu Algorithmus 2 in der verwendeten dist-Formel (2), die durch folgende Funktion ersetzt wird: dist(e, f ) = dist(f, e) = |c|dist(c, f ) + |d|dist(d, f ) |c| + |d| Diese Funktion gewichtet zwar die Cluster in ihrer Gröÿe, indem im Zähler zu beiden Funktionen eine Gewichtung bzgl. der Gröÿe von diese Gewichtung durch den Nenner mit dist- c bzw. d hinzugefügt wird, allerdings fällt |c| + |d| wieder weg. Somit werden alle Distanzen gleichberechtigt in die Berechnung mit einbezogen und man enthält im Gegensatz zu WPGMA bei UPGMA ein ungewichtetes Ergebnis. Man beachte auch, dass wenn die Clustergröÿe der Paare annähernd gleich groÿ sind, der UPGMA Algorithmus im Grunde genommen gleich WPGMA ist. 4 Zusammenfassung und Ausblick Zur Erstellung eines additiven phylogenetischen Baums mit dem Fitch-Margoliash Algo- rithmus ist es wichtig, dass die benutzte Distanzmatrix die Bedingungen einer Metrik erfüllt, da es sonst zu falschen Berechnungen der Topologien und Distanzen der Bäume kommt. Es wird ein ungerichteter und ungewurzelter additiver Baum erstellt, der die Beziehungen der verschiedenen Taxa untereinander und den evolutionären Abstand durch die Kantengewichte angibt. Für die Rekonstruktion eines ultrametrischen Baum mit WPGMA bzw. UPGMA muss die Distanzmatrix additiv sein und zusätzlich die Voraussetzung einer Ultrametrik erfüllen, damit anhand der Matrix ein der dazugehörige Baum ausgegeben werden kann. Unter Annahme einer konstanten molekularen Uhr entsteht so ein gerichteter gewurzelter Baum, bei dem alle Blätter einen gleich groÿen evolutionären Abstand zur Wurzel besitzen. Neben dem Aufzeigen und Verstehen von Stammesgeschichten einzelner Spezies wird Phylogenie auch an vielen anderen Stellen verwendet. So werden zum Beispiel beim multiplen Sequenzalignment phylogenetische Bäume als Orientierungshilfe genutzt. Genauso sind sie hilfreich bei Strukturvorhersagen von Proteinen und RNA-Segmenten, sowie zur Vorhersage der Genexpression und für vieles mehr. Da sich Nukleinsäuren und Proteine auch weiterentwickeln, können ebenso phylogenetische Bäume für sie erstellt werden. Phylogenetische Bäume sind vielseitig einsetzbar, jedoch sind die wenigsten in der Natur streng den Regeln von Additivität oder Ultrametrik unterworfen, somit muss man beachten, dass es sich aufgrund mangelnder Informationen meist nur um hypothetische Bäume handelt. Zudem kommt die Annahme dazu, dass Taxa mit der geringster evolutionären Distanz Nachbarn im Baum sind, was bei stark unterschiedlichen Mutationsraten aber nicht der Fall ist. Dennoch kann man mithilfe des Fitch-Margoliash oder UPGMA-Algorithmus wegen der geringen Laufzeit einen ersten Fixpunkt als Orientierung berechnen. Jedoch werden in der Regel für genauere Untersuchungen auf komplexere Methoden mit viel längerer Laufzeit zurückgegrien, wie z.B. Maximum-Likelihood oder Maximum-Parsimony Methode. Oft reicht auch die Darstellung als Baum einfach nicht mehr aus, sodass Netzwerke in Betracht gezogen werden müssen. 6 5 [1] Quellenangabe J.Setubal, J. Meidanis: Introduction to Computational Molecular Biology, PWS, 1997; Abschnitte 6.1, 6.5.1 [2] P.Clote, R. Backofen: Computational Molecular Biology - An Introduction, Wiley, 2000; Abschnitte 4.3.0, 4.3.1 [3] W.-K: Sung: Algorithms in Bioinformatics - A Practical Introduction, CRC Press, 2010; Abschnitte 7.1, 7.3 7