Evolutionary Trees: Distance Based

Werbung
Evolutionary Trees: Distance Based
Buftea Alexandru
Laut der Evolutionstheorie findet in allen Organismen eine langsame Änderung statt
(Evolution). Ein evolutionärer Baum, auch phylogenetischer Baum genannt, ist ein Baum, der
für die Darstellung evolutionärer Beziehungen benutzt wird. Die Knoten dieses Baumes stellen
Organismen dar und die Kanten stellen evolutionäre Beziehungen dar.
Der bekannteste Einsatz solcher Bäume sind die so genannten Trees of Life. Die Trees of
Life versuchen die evolutionäre Beziehungen zwischen sämtlichen Organismen darzustellen.
Phylogenetische Bäume können aber auch für die Darstellung von vielen anderen Problemen
benutzt werden. Zum Beispiel für die Darstellung der Evolution von Viren, die Darstellung von
metabolic pathways (die Abwicklung chemischer Reaktionen in der Zelle) oder gene mapping
(Darstellung der Evolution von Genen). Sie finden Einsätze auch in nicht mit der Biologie
verbundene Felder wie zum Beispiel Sprachwissenschaften, wo sie die Evolution und
Abzweigung von Sprachen beschreiben können.
Phylogenetische Bäume werden nach verschiedenen Kriterien kategorisiert. Das erste
Kriterium ist, ob der Baum eine Wurzel hat oder nicht.
Ein Baum mit einer Wurzel (rooted tree) ist ein gerichteter Baum mit einem Knoten der
den gemeinsamen Vorfahren aller dargestellten Organismen repräsentiert. Es ist oft ziemlich
schwer, einen gemeinsamen Vorfahren für alle beschriebene Organismen zu finden, sogar für
kleine, eng verwandte Gruppen von Organismen. Die inneren Knoten eines gewurzelten Baumes
stellen gemeinsame Vorfahren der jetzt existierenden Spezies dar und der Pfad von der Wurzel
zum einzelnen Knoten stellt den evolutionären Pfad dieser Art dar. Die inneren Knoten sind oft
nicht genau bekannt und werden nicht genau beschrieben oder benannt. Jeder innere Knoten hat
genau zwei Kinder. Das simuliert der biologischen Prozess der Artbildung, wobei ein
Organismus sich in zwei verschiedene biologische Arten trennt. Phylogenetische Bäume mit
einer Wurzel stellen die Evolution der beschriebenen Elemente sehr gut dar. Man kann einen
klaren evolutionären Pfad von den gemeinsamen Vorfahren zur jetzigen Arten erkennen. Dafür
muss man mit der Unsicherheit, ob man den korrekten Vorfahren bestimmt hat, leben.
Ein Phylogenetischer Baum, der keine Wurzel hat, (ungewurzelter Baum) ist ein
ungerichteter Baum, das keinen gemeinsamen Vorfahren für die beschriebene Elemente nennt.
Es beschreibt also nur die Beziehungen zischen den Elementen ohne einen genauen
evolutionären Pfad zu beschreiben. Weil uns bewusst ist, dass wir nur begrenztes Wissen über
den genauen evolutionären Pfad vieler Organismen haben, ist es oft sinnvoller, keine Annahme
über den gemeinsamen Vorfahren der beschriebenen Organismen zu machen und lieber nur die
gut bekannten Beziehungen zwischen bekannte Elemente zu beschreiben. So entstehen
1
phylogenetische Bäume ohne Wurzel. Das wichtigste Merkmal solcher Bäume ist, dass die
inneren Knoten immer einen Grad von 3 haben.
Es ist möglich, aus einen ungewurzelten Baum einen gewurzelten Baum zu machen.
Dafür werden so genannte Outgroups benutzt. Ein Outgroup ist ein Element das mit den anderen
Elementen nahe verwandt ist aber nicht so nah wie alle andere Elemente untereinander. Man
kann dann die Schlussfolgerung treffen, dass dieses Element sich von dem Vorgänger früher
geteilt hat als alle anderen. Der Vorgänger des Elements wird also als Wurzel der anderen
Elemente betrachtet.
Das zweite Kriterium, nach dem Phylogenetische Bäume aufgeteilt werden, sind die
Daten, nach denen die Bäume wieder aufgebaut werden. Hier unterscheiden wir zwei Arten von
Bäumen: Merkmals basierte Bäume und Distanz basierte Bäume.
Merkmals basierte Bäume nehmen als Eingabe eine Matrix mit diskreten Merkmalen der
beschriebenen Elemente wie z.B die Anzahl von Füße, die Gestaltung des Schnabels etc. Diese
Merkmale werden in eine binäre Matrix dargestellt und ausgewertet. Merkmal basierte
Methoden umfassen die Maximum Parsimony und Maximum Likelihood Methoden. Der größte
Vorteil solcher Methoden ist, dass sie ein klares und realistisches Modell der Evolution
darstellen. Der größte Nachteil dieser Methoden ist, dass sie sehr kompliziert und langsam sind.
Distanz basierte Bäume nehmen als Eingabe eine n X n große Dreiecksmatrix die die
"Distanz" zwischen Organismen beschreibt.
Die Distanz beschreibt, wie unterschiedlich zwei Organismen untereinander sind. Je
größer der Distanzwert zweier Organismen ist, umso weniger eng verwandt sind diese. Wie die
Distanz zwischen zwei Organismen berechnet wird, hängt von der Datensammlung und Art der
Auswertung ab. Es gibt keine beste Methode für die Festlegung der Distanz. Man kann als
Distanz die Unterschiedlichkeit des genetischen Kodes der zwei Organismen betrachten. In
solchen Fällen wird normalerweise die Anzahl der unterschiedlichen Nukleotide oder die editing
distance (Anzahl von Inserts, Deletions und Substitutions) ausgewertet. Eine andere Möglichkeit
für die Berechnung der Distanz ist eine gewichtete Auswertung der unterschiedlichen Merkmale
der Organismen. Manche Distanzauswertung nehmen mehrere solche Methoden in Anspruch,
um eine möglichst genaue Auswertung der Distanz zu liefern. Da die Genauigkeit des Baumes
bei Distanz basierte Bäume stark auf die Genauigkeit der Distanzwerte beruht ist es unglaublich
wichtig möglichst repräsentative Distanzwerte für alle Organismen zu haben. Deshalb ist der
Distanz basierte Ansatz für den Aufbau von phylogenetischen Bäumen auch so fehleranfällig,
wenn man es von einem biologischen Ansichtspunkt betrachtet. Es gibt keine wirklich biologisch
korrekte Methode die Distanzdaten auszuwerten, damit es die evolutionäre Unterschiede korrekt
wiederspiegelt. Die Datensammlung kann auch ziemlich ungenau sein da Fehler in der DNA
Sequenzierung oft auftauchen.
2
Man unterscheidet zwei Arten von Distanz basierte Bäume: additive Bäume und
ultrametrische Bäume. Additive Bäume nehmen als Eingabe eine n X n große additive
Dreieckmatrix. Eine Matrix ist additiv, wenn es einen metrischen Raum darstellt und additiv ist.
Die Definition eines metrischen Raumes lautet wie folgt:
Eine Menge von Objekten O stellen einen Metrischen Raum dar, wenn für alle Paare i, j die zu O
gehören ein nichtnegativer, reeller Wert dij zugeordnet ist, mit den folgenden Eigenschaften:
•
•
•
•
dij > 0 für i != j
dij = 0 für i = j
dij = dji für alle i & j
dij <= dik + dkj für alle i, j und k (Dreiecksungleichung)
Ein metrischer Raum O ist additiv, wenn für beliebige 4 Objekte i, j, k, l aus O das Folgende gilt:
•
dij + dkl = dik + djl >= dil + djk (4-Punkte Bedingung)
In Worten, bedeutet die obige Gleichung, dass die zwei größeren Summen gleich sind und größer
als die dritte Summe sind. Wenn die 4-Punkte Bedingung erfüllt ist, folgt, dass die Matrix additiv
ist und ein additiver Baum daraus gebildet werden kann. Der Beweis dafür kann man am
einfachsten mit dem Aufbauen der Bäume, aus einer additiven Matrix verstehen:
Ein ungewurzeltes Baum das aus genau 4 Punkte besteht hat eine einzige Topologie und ein
gewurzeltes Baum mit 4 Punkte kann nur 2 Topologien haben wenn man die Blattmarkierung
nicht berücksichtigt:
Im Fall a sehen wir dass: dAB + dCD ≤ dAC + dBD = dAD + dBC
Im Fall b gilt: dAB + dCD ≤ dBC + dAD = dBD + dAC
Und im Fall c gilt: dAB + dCD ≤ dAC + dBD = dAD + dBC
3
Also gilt in alle Fällen, dass die zwei größeren Summen gleich sind und größer als die dritte
Summe sind. Daraus folgt, dass die Matrix additiv sein muss, um daraus einen additiven Baum
zu bauen.
Ein additiver Baum hat keine Wurzel. Der Grad (Anzahl von Kanten) aller internen
Knoten ist 3 und der Grad aller externen Knoten ist 1. Die Topologie und Kantenlänge eines
additiven Baumes mit mehr als 4 Knoten ist einzigartig.
Da es für ein ungewurzelter Baum ∏ni=3(2i-5) (wobei n die Anzahl von Knoten ist)
mögliche Konfigurationen gibt, ist es unplausibel einfach eine Enumerationsstrategie zu
benutzen. Man hat also einen Aufbauprozess dafür bestimmt. Man fängt mit zwei beliebigen
Punkten an und verbindet sie mit einer Kante. Man fügt dann ein drittes beliebiges Element
hinzu. Beim Einfügen des weiteren Elements wird ein weiterer interner Knoten gebaut. Das
große Problem ist, wie man die Kantenlängen zwischen den einzelnen externen Knoten und den
neuen internen Knoten festlegt. Wenn die Knoten a,b,c die drei externen Knoten darstellen und x
das neue interne Knoten dann kann man die Distanz zwischen a,b,c und x mit den folgenden
Gleichungen berechnen:
Mac = dax + dxc (1.1)
Mbc = dbx + dxc (1.2)
dbx = Mab – dax (1.3)
*1.2 – 1.1 (1.3 Einsatzen)
Mac- Mbc = dax + dxc – (dbx+dxc)
Mac- Mbc = dax+dxc-((Mab-dax)+dxc)
Mac- Mbc = dax+dxc-Mab+dax-dxc
Mac- Mbc = 2dax-Mab
dax = (Mab + Mac – Mbc) / 2
dbx = (Mab + Mbc – Mac) / 2 (wird genau wie dax berechnet)
dcx = (Mac + Mbc – Mab) / 2 (wird genau wie dax berechnet)
Nachdem man die Kantenlängen festgelegt hat, fügt man ein weiteres Element zwischen zwei
beliebige Knoten hinzu. Das erzeugt einen neuen internen Knoten und man verwendet dieselben
Gleichungen, um die Kantenlängen zwischen den drei externen Knoten (das neue externe Knoten
und die zwei Knoten zwischen den man den neuen Knoten eingefügt hat) und das neue interne
Knoten zu berechnen. Man wiederholt dieses Verfahren, bis alle Elemente in den Baum
eingefügt sind. Man muss aber immer aufpassen, dass alle Kantenlängen in den Baum mit dem
Kantenlängen in der Matrix übereinstimmen. Deshalb ist es sehr wichtig, dass man die korrekte
4
Position für das Einfügen der neuen internen und externen Knoten findet. Wenn die Position des
neuen internen Knotens mit einem schon existierenden Knoten übereinstimmt, muss man eine
neue Ansatzstelle für den Knoten finden. Man wählt dann zwei neue Punkte, zwischen denen
man den Knoten einzufügen versucht. In der Regel werden die zwei neuen Knoten so
ausgewählt, dass sie Teil des Teilbaumes der vorher gewählten Knotens sind. Man wiederholt
den Prozess bis man die korrekte Stelle findet.
Wie vorher erwähnt, ist die Topologie und Kantenlänge von additiven Bäume, die mehr
als 4 Elemente enthalten, einzigartig. Die Einzigartigkeit der Topologie kann man durch
Widerspruch beweisen. Wenn es 2 Topologien geben würde, heißt es, dass 3 externe Knoten x,
y, z die Abschnitte P1, P2, P3 in der ersten Topologie und Q1, Q2, Q3 in der zweiten Topologie
bestimmen würden, so dass die Abteile unterschiedlich sind. Also muss es der Fall sein, dass
eines der Blätter x auch zu P1 und auch zu Q2 gehört, wobei P1 != Q2. Dann muss es der Fall
sein, dass es ein weiteres Element w gibt, dass zu P1 gehört aber nicht zu Q2 und das bedeutet
wiederum, dass es 2 verschiedene Baume für die Elemente x,y,z und w geben muss, was nicht
der Fall sein kann. Es folgt auch, dass die Längen der Kanten einzigartig sein müssen, da alle
Kanten, die zu ein Blatt x führen eine einzige Länge haben können da, x zusammen mit 2 andere
Elemente einen einzigartigen Baum bestimmen. Die inneren Kanten müssen auch einzigartig
sein, da sie die Blätter in einzelne Abteile (P1, P2, P3 und P4) aufteilen. Die 4 einzelnen Abteile
bilden wiederum einen einzigartigen Baum. Also können auch die inneren Kanten eine einzige
Länge haben.
Wir sehen, dass wir mit additiven Bäumen jedes Mal ein einzigartiges Ergebnis
bekommen. Die Anwendung solcher Bäume ist aber stark von den Voraussatzungen beschränkt,
da Matrizen, die echte biologische Umstände simulieren, selten additiv sind. Aber angenommen,
dass die additiven Matrizen korrekt aufgebaut sind und biologische Umstände gut simulieren,
dann wird der additive Baum immer ein korrektes, einzigartiges Ergebnis liefern.
Die zweite Art von Distanz basierte Bäume sind die ultrametrische Bäume. Diese sind
eine Erweiterung der additiven Bäume mit der nachträglichen Bedingung, dass die Distanzen
zwischen allen Blätter und der Wurzel gleich sein müssen. Es gelten also dieselbe Regeln für die
Matrix wie bei den additiven Bäumen (Metrischer Raum & additiv), aber der Aufbauprozess und
die Merkmale sind ziemlich unterschiedlich.
Es gibt dazu strenge biologische Voraussetzungen, damit ein ultrametrisches Modell ein
realistisches phylogenetisches Baum wiedergibt. Die beschriebenen Organismen müssen alle
eine uniforme Evolutionsgeschwindigkeit haben. Eine weitere Annahme ist, dass nur
Substitutionen in den Nukleotiden stattfinden (keine Insertions oder Deletions). Das sind
ziemlich anspruchsvolle Voraussetzungen, aber wenn diese erfüllt sind, wird der ultrametrische
Baum ein korrekter phylogenetischer Baum wiedergeben.
Ein ultrametrischer Baum hat im Gegensatz zu einem additiven Baum eine Wurzel und
jeder innere Knoten hat genau zwei Kinder. Da es für ein gewurzelter Baum ∏ni=3(2i-3)
mögliche Konfigurationen gibt, ist es wieder unplausibel eine Enumerationsstrategie zu
benutzen. Ultrametrische Bäume werden deswegen in der Regel mit den UPGMA Algorithmus
aufgebaut.
5
UPGMA steht für Unweighted Pair Group Method with Arithmetic Mean. Man fängt mit
der untersten Ebene des Baumes an (den Blättern). Man verbindet dann die ähnlichsten Elemente
(kleinste Distanz) mit einem neuen inneren Knoten. Wenn zwei Paare dieselbe kleinste Distanz
haben kann man ein beliebiges Paar auswählen. Der neue interne Knoten wird bei einer Höhe
von dij/2 platziert (wobei i,j die zwei verbundene Elemente sind). Die Distanz vom neuen
internen Knoten zu den anderen Knoten wird als der Durchschnittwert der Distanzen der zwei
verbundenen Knoten zu den anderen Knoten berechnet. Also wenn man Knoten A und B unter
den Knoten M verbindet, dann ist dMC gleich dem Durchschnittswert zwischen dAC und dBC. Man
wiederholt diesen Prozess bis alle Knoten verbunden sind.
Das Ergebnis des UPGMA ist immer korrekt, wenn die Voraussetzungen dafür erfüllt
sind und die Distanz-Daten korrekt berechnet worden sind. Der große Vorteil der ultrametrischen
Bäume ist, dass sie ein gewurzeltes Baum wiedergeben. Da der Baum gerichtet ist, kann man ein
klares zeitliches Modell der Evolution beobachten.
Es gibt sämtliche andere Distanz basierte Methoden für den Aufbau von
phylogenetischen Bäume wie z.B die Neighbor Joining oder die Fitch-Margoliash Methode.
Diese liegen aber außerhalb des Rahmens dieses Vortrages.
Wie schon gesehen, sind die Voraussetzungen für die Benutzung von additiven und
ultrametrischen Bäume ziemlich anspruchsvoll. Es gibt aber Situationen, in denen diese
Voraussetzungen erfüllt sind, und in solche Umständen, sind die Distanz basierte Algorithmen
sehr gut für den Aufbau von phylogenetischen Bäumen geeignet. Da solche Situationen aber
relativ selten vorkommen, werden Distanz basierte Ansätze normalerweise für die Erstellung
einer ersten Vorlage verwendet, da sie sehr schnell und unaufwendig sind. Die Daten werden
dann mit komplexerem merkmalsbasierte Ansätze verbessert und erweitert.
6
Quellen Angaben:
J. Setubal, J. Meidanis: Introduction to Computational Molecular Biology,
PWS, 1997;
P. Clote, R. Backofen: Computational Molecular Biology — An Introduction,
Wiley 2000;
M.Waterman: Introduction to Computational Biology, Chapman & Hall, 1995;
Fred Opperdoes. Construction of a distance tree using clustering with the Unweighted
Pair Group Method with Arithmatic Mean (UPGMA), De Duve Institute. Erstellt: 12
August 1995. Zugriffsdatum: 6 Januar 2010.
http://www.icp.ucl.ac.be/~opperd/private/upgma.html
Nikos Drakos. Appendices: 4.14 The Four-Point Condition. Technische Fakultät der
Universität Bielefeld. Zugriffsdatum. 16 Januar 2010.
http://www.techfak.uni-bielefeld.de/bcd/Curric/MathAn/node17.html
Wikipedia contributors. Phylogenetic tree. Wikipedia, The Free Encyclopedia. Erstellt:
14 Jan. 2010. Zugriffsdatum. 18 Jan. 2010.
7
Herunterladen