Evolutionary Trees: Distance Based Buftea Alexandru Laut der Evolutionstheorie findet in allen Organismen eine langsame Änderung statt (Evolution). Ein evolutionärer Baum, auch phylogenetischer Baum genannt, ist ein Baum, der für die Darstellung evolutionärer Beziehungen benutzt wird. Die Knoten dieses Baumes stellen Organismen dar und die Kanten stellen evolutionäre Beziehungen dar. Der bekannteste Einsatz solcher Bäume sind die so genannten Trees of Life. Die Trees of Life versuchen die evolutionäre Beziehungen zwischen sämtlichen Organismen darzustellen. Phylogenetische Bäume können aber auch für die Darstellung von vielen anderen Problemen benutzt werden. Zum Beispiel für die Darstellung der Evolution von Viren, die Darstellung von metabolic pathways (die Abwicklung chemischer Reaktionen in der Zelle) oder gene mapping (Darstellung der Evolution von Genen). Sie finden Einsätze auch in nicht mit der Biologie verbundene Felder wie zum Beispiel Sprachwissenschaften, wo sie die Evolution und Abzweigung von Sprachen beschreiben können. Phylogenetische Bäume werden nach verschiedenen Kriterien kategorisiert. Das erste Kriterium ist, ob der Baum eine Wurzel hat oder nicht. Ein Baum mit einer Wurzel (rooted tree) ist ein gerichteter Baum mit einem Knoten der den gemeinsamen Vorfahren aller dargestellten Organismen repräsentiert. Es ist oft ziemlich schwer, einen gemeinsamen Vorfahren für alle beschriebene Organismen zu finden, sogar für kleine, eng verwandte Gruppen von Organismen. Die inneren Knoten eines gewurzelten Baumes stellen gemeinsame Vorfahren der jetzt existierenden Spezies dar und der Pfad von der Wurzel zum einzelnen Knoten stellt den evolutionären Pfad dieser Art dar. Die inneren Knoten sind oft nicht genau bekannt und werden nicht genau beschrieben oder benannt. Jeder innere Knoten hat genau zwei Kinder. Das simuliert der biologischen Prozess der Artbildung, wobei ein Organismus sich in zwei verschiedene biologische Arten trennt. Phylogenetische Bäume mit einer Wurzel stellen die Evolution der beschriebenen Elemente sehr gut dar. Man kann einen klaren evolutionären Pfad von den gemeinsamen Vorfahren zur jetzigen Arten erkennen. Dafür muss man mit der Unsicherheit, ob man den korrekten Vorfahren bestimmt hat, leben. Ein Phylogenetischer Baum, der keine Wurzel hat, (ungewurzelter Baum) ist ein ungerichteter Baum, das keinen gemeinsamen Vorfahren für die beschriebene Elemente nennt. Es beschreibt also nur die Beziehungen zischen den Elementen ohne einen genauen evolutionären Pfad zu beschreiben. Weil uns bewusst ist, dass wir nur begrenztes Wissen über den genauen evolutionären Pfad vieler Organismen haben, ist es oft sinnvoller, keine Annahme über den gemeinsamen Vorfahren der beschriebenen Organismen zu machen und lieber nur die gut bekannten Beziehungen zwischen bekannte Elemente zu beschreiben. So entstehen 1 phylogenetische Bäume ohne Wurzel. Das wichtigste Merkmal solcher Bäume ist, dass die inneren Knoten immer einen Grad von 3 haben. Es ist möglich, aus einen ungewurzelten Baum einen gewurzelten Baum zu machen. Dafür werden so genannte Outgroups benutzt. Ein Outgroup ist ein Element das mit den anderen Elementen nahe verwandt ist aber nicht so nah wie alle andere Elemente untereinander. Man kann dann die Schlussfolgerung treffen, dass dieses Element sich von dem Vorgänger früher geteilt hat als alle anderen. Der Vorgänger des Elements wird also als Wurzel der anderen Elemente betrachtet. Das zweite Kriterium, nach dem Phylogenetische Bäume aufgeteilt werden, sind die Daten, nach denen die Bäume wieder aufgebaut werden. Hier unterscheiden wir zwei Arten von Bäumen: Merkmals basierte Bäume und Distanz basierte Bäume. Merkmals basierte Bäume nehmen als Eingabe eine Matrix mit diskreten Merkmalen der beschriebenen Elemente wie z.B die Anzahl von Füße, die Gestaltung des Schnabels etc. Diese Merkmale werden in eine binäre Matrix dargestellt und ausgewertet. Merkmal basierte Methoden umfassen die Maximum Parsimony und Maximum Likelihood Methoden. Der größte Vorteil solcher Methoden ist, dass sie ein klares und realistisches Modell der Evolution darstellen. Der größte Nachteil dieser Methoden ist, dass sie sehr kompliziert und langsam sind. Distanz basierte Bäume nehmen als Eingabe eine n X n große Dreiecksmatrix die die "Distanz" zwischen Organismen beschreibt. Die Distanz beschreibt, wie unterschiedlich zwei Organismen untereinander sind. Je größer der Distanzwert zweier Organismen ist, umso weniger eng verwandt sind diese. Wie die Distanz zwischen zwei Organismen berechnet wird, hängt von der Datensammlung und Art der Auswertung ab. Es gibt keine beste Methode für die Festlegung der Distanz. Man kann als Distanz die Unterschiedlichkeit des genetischen Kodes der zwei Organismen betrachten. In solchen Fällen wird normalerweise die Anzahl der unterschiedlichen Nukleotide oder die editing distance (Anzahl von Inserts, Deletions und Substitutions) ausgewertet. Eine andere Möglichkeit für die Berechnung der Distanz ist eine gewichtete Auswertung der unterschiedlichen Merkmale der Organismen. Manche Distanzauswertung nehmen mehrere solche Methoden in Anspruch, um eine möglichst genaue Auswertung der Distanz zu liefern. Da die Genauigkeit des Baumes bei Distanz basierte Bäume stark auf die Genauigkeit der Distanzwerte beruht ist es unglaublich wichtig möglichst repräsentative Distanzwerte für alle Organismen zu haben. Deshalb ist der Distanz basierte Ansatz für den Aufbau von phylogenetischen Bäumen auch so fehleranfällig, wenn man es von einem biologischen Ansichtspunkt betrachtet. Es gibt keine wirklich biologisch korrekte Methode die Distanzdaten auszuwerten, damit es die evolutionäre Unterschiede korrekt wiederspiegelt. Die Datensammlung kann auch ziemlich ungenau sein da Fehler in der DNA Sequenzierung oft auftauchen. 2 Man unterscheidet zwei Arten von Distanz basierte Bäume: additive Bäume und ultrametrische Bäume. Additive Bäume nehmen als Eingabe eine n X n große additive Dreieckmatrix. Eine Matrix ist additiv, wenn es einen metrischen Raum darstellt und additiv ist. Die Definition eines metrischen Raumes lautet wie folgt: Eine Menge von Objekten O stellen einen Metrischen Raum dar, wenn für alle Paare i, j die zu O gehören ein nichtnegativer, reeller Wert dij zugeordnet ist, mit den folgenden Eigenschaften: • • • • dij > 0 für i != j dij = 0 für i = j dij = dji für alle i & j dij <= dik + dkj für alle i, j und k (Dreiecksungleichung) Ein metrischer Raum O ist additiv, wenn für beliebige 4 Objekte i, j, k, l aus O das Folgende gilt: • dij + dkl = dik + djl >= dil + djk (4-Punkte Bedingung) In Worten, bedeutet die obige Gleichung, dass die zwei größeren Summen gleich sind und größer als die dritte Summe sind. Wenn die 4-Punkte Bedingung erfüllt ist, folgt, dass die Matrix additiv ist und ein additiver Baum daraus gebildet werden kann. Der Beweis dafür kann man am einfachsten mit dem Aufbauen der Bäume, aus einer additiven Matrix verstehen: Ein ungewurzeltes Baum das aus genau 4 Punkte besteht hat eine einzige Topologie und ein gewurzeltes Baum mit 4 Punkte kann nur 2 Topologien haben wenn man die Blattmarkierung nicht berücksichtigt: Im Fall a sehen wir dass: dAB + dCD ≤ dAC + dBD = dAD + dBC Im Fall b gilt: dAB + dCD ≤ dBC + dAD = dBD + dAC Und im Fall c gilt: dAB + dCD ≤ dAC + dBD = dAD + dBC 3 Also gilt in alle Fällen, dass die zwei größeren Summen gleich sind und größer als die dritte Summe sind. Daraus folgt, dass die Matrix additiv sein muss, um daraus einen additiven Baum zu bauen. Ein additiver Baum hat keine Wurzel. Der Grad (Anzahl von Kanten) aller internen Knoten ist 3 und der Grad aller externen Knoten ist 1. Die Topologie und Kantenlänge eines additiven Baumes mit mehr als 4 Knoten ist einzigartig. Da es für ein ungewurzelter Baum ∏ni=3(2i-5) (wobei n die Anzahl von Knoten ist) mögliche Konfigurationen gibt, ist es unplausibel einfach eine Enumerationsstrategie zu benutzen. Man hat also einen Aufbauprozess dafür bestimmt. Man fängt mit zwei beliebigen Punkten an und verbindet sie mit einer Kante. Man fügt dann ein drittes beliebiges Element hinzu. Beim Einfügen des weiteren Elements wird ein weiterer interner Knoten gebaut. Das große Problem ist, wie man die Kantenlängen zwischen den einzelnen externen Knoten und den neuen internen Knoten festlegt. Wenn die Knoten a,b,c die drei externen Knoten darstellen und x das neue interne Knoten dann kann man die Distanz zwischen a,b,c und x mit den folgenden Gleichungen berechnen: Mac = dax + dxc (1.1) Mbc = dbx + dxc (1.2) dbx = Mab – dax (1.3) *1.2 – 1.1 (1.3 Einsatzen) Mac- Mbc = dax + dxc – (dbx+dxc) Mac- Mbc = dax+dxc-((Mab-dax)+dxc) Mac- Mbc = dax+dxc-Mab+dax-dxc Mac- Mbc = 2dax-Mab dax = (Mab + Mac – Mbc) / 2 dbx = (Mab + Mbc – Mac) / 2 (wird genau wie dax berechnet) dcx = (Mac + Mbc – Mab) / 2 (wird genau wie dax berechnet) Nachdem man die Kantenlängen festgelegt hat, fügt man ein weiteres Element zwischen zwei beliebige Knoten hinzu. Das erzeugt einen neuen internen Knoten und man verwendet dieselben Gleichungen, um die Kantenlängen zwischen den drei externen Knoten (das neue externe Knoten und die zwei Knoten zwischen den man den neuen Knoten eingefügt hat) und das neue interne Knoten zu berechnen. Man wiederholt dieses Verfahren, bis alle Elemente in den Baum eingefügt sind. Man muss aber immer aufpassen, dass alle Kantenlängen in den Baum mit dem Kantenlängen in der Matrix übereinstimmen. Deshalb ist es sehr wichtig, dass man die korrekte 4 Position für das Einfügen der neuen internen und externen Knoten findet. Wenn die Position des neuen internen Knotens mit einem schon existierenden Knoten übereinstimmt, muss man eine neue Ansatzstelle für den Knoten finden. Man wählt dann zwei neue Punkte, zwischen denen man den Knoten einzufügen versucht. In der Regel werden die zwei neuen Knoten so ausgewählt, dass sie Teil des Teilbaumes der vorher gewählten Knotens sind. Man wiederholt den Prozess bis man die korrekte Stelle findet. Wie vorher erwähnt, ist die Topologie und Kantenlänge von additiven Bäume, die mehr als 4 Elemente enthalten, einzigartig. Die Einzigartigkeit der Topologie kann man durch Widerspruch beweisen. Wenn es 2 Topologien geben würde, heißt es, dass 3 externe Knoten x, y, z die Abschnitte P1, P2, P3 in der ersten Topologie und Q1, Q2, Q3 in der zweiten Topologie bestimmen würden, so dass die Abteile unterschiedlich sind. Also muss es der Fall sein, dass eines der Blätter x auch zu P1 und auch zu Q2 gehört, wobei P1 != Q2. Dann muss es der Fall sein, dass es ein weiteres Element w gibt, dass zu P1 gehört aber nicht zu Q2 und das bedeutet wiederum, dass es 2 verschiedene Baume für die Elemente x,y,z und w geben muss, was nicht der Fall sein kann. Es folgt auch, dass die Längen der Kanten einzigartig sein müssen, da alle Kanten, die zu ein Blatt x führen eine einzige Länge haben können da, x zusammen mit 2 andere Elemente einen einzigartigen Baum bestimmen. Die inneren Kanten müssen auch einzigartig sein, da sie die Blätter in einzelne Abteile (P1, P2, P3 und P4) aufteilen. Die 4 einzelnen Abteile bilden wiederum einen einzigartigen Baum. Also können auch die inneren Kanten eine einzige Länge haben. Wir sehen, dass wir mit additiven Bäumen jedes Mal ein einzigartiges Ergebnis bekommen. Die Anwendung solcher Bäume ist aber stark von den Voraussatzungen beschränkt, da Matrizen, die echte biologische Umstände simulieren, selten additiv sind. Aber angenommen, dass die additiven Matrizen korrekt aufgebaut sind und biologische Umstände gut simulieren, dann wird der additive Baum immer ein korrektes, einzigartiges Ergebnis liefern. Die zweite Art von Distanz basierte Bäume sind die ultrametrische Bäume. Diese sind eine Erweiterung der additiven Bäume mit der nachträglichen Bedingung, dass die Distanzen zwischen allen Blätter und der Wurzel gleich sein müssen. Es gelten also dieselbe Regeln für die Matrix wie bei den additiven Bäumen (Metrischer Raum & additiv), aber der Aufbauprozess und die Merkmale sind ziemlich unterschiedlich. Es gibt dazu strenge biologische Voraussetzungen, damit ein ultrametrisches Modell ein realistisches phylogenetisches Baum wiedergibt. Die beschriebenen Organismen müssen alle eine uniforme Evolutionsgeschwindigkeit haben. Eine weitere Annahme ist, dass nur Substitutionen in den Nukleotiden stattfinden (keine Insertions oder Deletions). Das sind ziemlich anspruchsvolle Voraussetzungen, aber wenn diese erfüllt sind, wird der ultrametrische Baum ein korrekter phylogenetischer Baum wiedergeben. Ein ultrametrischer Baum hat im Gegensatz zu einem additiven Baum eine Wurzel und jeder innere Knoten hat genau zwei Kinder. Da es für ein gewurzelter Baum ∏ni=3(2i-3) mögliche Konfigurationen gibt, ist es wieder unplausibel eine Enumerationsstrategie zu benutzen. Ultrametrische Bäume werden deswegen in der Regel mit den UPGMA Algorithmus aufgebaut. 5 UPGMA steht für Unweighted Pair Group Method with Arithmetic Mean. Man fängt mit der untersten Ebene des Baumes an (den Blättern). Man verbindet dann die ähnlichsten Elemente (kleinste Distanz) mit einem neuen inneren Knoten. Wenn zwei Paare dieselbe kleinste Distanz haben kann man ein beliebiges Paar auswählen. Der neue interne Knoten wird bei einer Höhe von dij/2 platziert (wobei i,j die zwei verbundene Elemente sind). Die Distanz vom neuen internen Knoten zu den anderen Knoten wird als der Durchschnittwert der Distanzen der zwei verbundenen Knoten zu den anderen Knoten berechnet. Also wenn man Knoten A und B unter den Knoten M verbindet, dann ist dMC gleich dem Durchschnittswert zwischen dAC und dBC. Man wiederholt diesen Prozess bis alle Knoten verbunden sind. Das Ergebnis des UPGMA ist immer korrekt, wenn die Voraussetzungen dafür erfüllt sind und die Distanz-Daten korrekt berechnet worden sind. Der große Vorteil der ultrametrischen Bäume ist, dass sie ein gewurzeltes Baum wiedergeben. Da der Baum gerichtet ist, kann man ein klares zeitliches Modell der Evolution beobachten. Es gibt sämtliche andere Distanz basierte Methoden für den Aufbau von phylogenetischen Bäume wie z.B die Neighbor Joining oder die Fitch-Margoliash Methode. Diese liegen aber außerhalb des Rahmens dieses Vortrages. Wie schon gesehen, sind die Voraussetzungen für die Benutzung von additiven und ultrametrischen Bäume ziemlich anspruchsvoll. Es gibt aber Situationen, in denen diese Voraussetzungen erfüllt sind, und in solche Umständen, sind die Distanz basierte Algorithmen sehr gut für den Aufbau von phylogenetischen Bäumen geeignet. Da solche Situationen aber relativ selten vorkommen, werden Distanz basierte Ansätze normalerweise für die Erstellung einer ersten Vorlage verwendet, da sie sehr schnell und unaufwendig sind. Die Daten werden dann mit komplexerem merkmalsbasierte Ansätze verbessert und erweitert. 6 Quellen Angaben: J. Setubal, J. Meidanis: Introduction to Computational Molecular Biology, PWS, 1997; P. Clote, R. Backofen: Computational Molecular Biology — An Introduction, Wiley 2000; M.Waterman: Introduction to Computational Biology, Chapman & Hall, 1995; Fred Opperdoes. Construction of a distance tree using clustering with the Unweighted Pair Group Method with Arithmatic Mean (UPGMA), De Duve Institute. Erstellt: 12 August 1995. Zugriffsdatum: 6 Januar 2010. http://www.icp.ucl.ac.be/~opperd/private/upgma.html Nikos Drakos. Appendices: 4.14 The Four-Point Condition. Technische Fakultät der Universität Bielefeld. Zugriffsdatum. 16 Januar 2010. http://www.techfak.uni-bielefeld.de/bcd/Curric/MathAn/node17.html Wikipedia contributors. Phylogenetic tree. Wikipedia, The Free Encyclopedia. Erstellt: 14 Jan. 2010. Zugriffsdatum. 18 Jan. 2010. 7