Kurzausarbeitung

Werbung
Evolutionäre Bäume
(Distanzbasierte Methoden)
Stefan Loipnger
12.12.2015
1
Einleitung
"Da alles ständig im Wandel ist, kann nichts auf Dauer existieren"
- Dalai Lama
So durchleben auch alle verschiedenen Spezies von Organismen auf dieser Welt einen Wandel, eine Veränderung. Sie versuchen sich ihrem Umfeld immer besser anzupassen und
entwickeln sich dabei ständig weiter, um das Überleben ihrer Spezies zu sichern. Dieser
langsame Prozess der Entwicklung wird Evolution genannt. Die DNA ist dabei der wichtigste Träger der Erbinformationen. Sie wird von Generation zu Generation weitergegeben
und durch Mutationen stets leicht verändert. Nach vielen Vorgängen der Reproduktion
bilden sich langsam aus einer Spezies neue verschiedene Gruppen von Lebewesen. Die
Wissenschaft der Phylogenese, die Phylogenetik, befasst sich mit den Stammesgeschichten von Organismen und versucht festzustellen, in welcher Beziehung diese zueinander
stehen und welchen gemeinsamen Vorfahren sie haben. Diese Relationen werden meist
mit phylogenetischen Bäumen veranschaulicht. Im Folgenden werden die zwei Algorithmen,
Fitch-Margoliash
und
WPGMA,
zur Erstellung durch distanzbasierte Methoden
vorgestellt.
2
Phylogenetische Bäume
Dazu muss man wissen, dass jeder Baum
einer Menge
gerichtet,
V
T
G = (V, E) ist. Graph G besteht aus
E ⊆ V × V von Kanten. Diese sind entweder
j mit i → j verbindet oder ungerichtet, wenn
ein Graph
von Knoten und einer Menge
wenn eine Kante die Knoten
i
zu
die Kanten symmetrisch sind, d.h. eine Verbindung existiert, die in beide Richtungen
gerichtet ist. Ein
Pfad
auf dem Graphen ist eine endliche Folge von Kanten, die zwei
Knoten miteinander verbindet. Ein gerichteter Graph ist
zusammenhängend,
wenn er für
zwei beliebige entfernte Knoten einen gerichteten Pfad zwischen ihnen gibt. Auÿerdem
ist ein Graph
zyklisch,
wenn er einen verbundenen Kreis von Knoten, d.h. dass ein Pfad
existiert, bei dem Anfang- gleich Endknoten des Pfades sein kann, in sich hat und nicht
zyklisch wenn er keinen besitzt.
Ein Baum
T
ist immer zusammenhängend und nicht zyklisch. Daraus folgt, dass zwi-
schen allen Knoten ein eindeutiger Pfad existiert. Zudem sind ungewurzelte Bäume ungerichtet, im Gegensatz zu den gewurzelten Bäumen, die einen Knoten besitzen, der als
Wurzel gekennzeichnet ist. Die
Wurzel
ist der Knoten im gerichteten Baum, der selbst
nicht von andern Knoten aus erreichbar ist, aber von dem alle anderen Knoten im Baum
1
Vater
y direkt vor y
erreichbar sind. Der
Wurzel
r
zu
eines Knotens
zu
y . Die Blätter
ist der Knoten, der auf dem Pfad von der
y
liegt. Der Knoten
ist. Die Vorfahren eines Knoten
r
y
y
ist
Kind
von
x,
wenn
x
der Vater von
y
ist ein beliebiger Knoten auf dem Pfad von der Wurzel
eines gewurzelten Baums besitzen keine Kinder. Des weiteren sind alle
Knoten, die keine Blätter sind,
innere Knoten. Ein Baum wird binär
genannt, wenn jeder
Knoten höchstens zwei Kinder besitzt (vgl. [2] 4.3).
Phylogenetische Bäume bestehen aus inneren Knoten, die hypothetische Vorfahren
repräsentieren und Blättern, die die gegenwärtigen Taxa darstellen. Ein
Taxon
ist eine
bestimmte Gruppe von Organismen, die von anderen Organismengruppen unterscheidbar
ist. Zwei am nächsten verwandte Taxa werden mit benachbarten äuÿeren Zweigen ausgedrückt, die mit einem gemeinsamen Vaterknoten verbunden sind. Ein wichtiger Aspekt
ist dabei die Topologie, also wie die inneren Knoten untereinander und zu den Blättern verbunden sind. Ein anderer sind die Distanz zwischen den Knoten, die mithilfe von
gewichteten Kanten repräsentiert werden. Sie spiegelt eine Schätzung der evolutionären
Distanz zwischen den Knoten wieder.
Phylogenetische Bäume mit ihren Beziehungen sind nur Hypothesen, sie können stimmen, müssen jedoch nicht. Denn aufgrund unzureichender Informationen und unklaren
Daten über die entfernten Vorfahren ist es schwierig oder kompliziert den richtigen Stammbaum auszugeben. Daher ist es nicht möglich, 100%ige Sicherheit über eine Beziehung zu
geben. Man kann gewöhnlich nur Schlussfolgerungen der groben evolutionären Entwicklung aufstellen, was auch dazu führt, dass der erstellte phylogenetische Baum mit groÿer
Wahrscheinlichkeit der richtige sein kann, aber nicht unbedingt sein muss.
Die Daten zur Erstellung eines phylogenetischen Baumes erhält man durch den Vergleich von heutigen Spezies. Dabei lassen sich zwei generelle Arten von Eingabedaten
unterscheiden. Neben dem Auslesen von diskreten Merkmalen mit bestimmten Zuständen der Spezies, wie z.B. die Anzahl der Finger oder die Form der Wirbelsäule, gibt es
vergleichbare Distanzen zwischen zwei Taxa, die in Zahlen ausgedrückt werden können.
Diese Distanz kann vereinfacht als Anzahl an Mutationen zwischen zwei Taxa interpretiert werden, die benötigt werden, um eine Spezies in eine andere zu verändern. Dabei
haben jeweils zwei Taxa ihre eigene Distanz, die als Eingabewerte dienen, zur Erstellung
einer quadratische Distanzmatrix.
Als Daten hierfür hat man die Anzahl
jedem Paar
i, j
n
an Taxa gegeben. Daraus wird die Matrix
den Werten von
dij
dij zwischen
Gröÿe n × n und
der Taxa, sowie die Distanz
D
mit der
für die entsprechenden Taxa erstellt. Wie bestimmt man nun den
besten phylogenetischen Baum daraus? Ein Ansatz wäre, alle möglichen Baumtopologien
mit
n
Blättern zu erstellen und den Baum, mit der kleinsten Anzahl an Mutationen,
als den wahrscheinlichsten auszuwählen. Jedoch ergibt sich für die Anzahl der möglichen
ungewurzelten Bäume mit
n
Blätter (vgl. [2] Korollar 4.1):
n
Y
(2k − 5) =
k=3
Durch den exponentiellen Anstieg bzgl.
n
(2n − 5)!
− 3)!
2n−3 (n
sind es bei bereits
n = 10
Taxa schon mehr
als 2 000 000 verschiedene Möglichkeiten. Für gewurzelte Bäume gibt es für die gleiche
Anzahl an Taxa schon mehr als 34 000 000 mögliche Bäume (vgl. [2] Korollar 4.2), sodass
dieser Ansatz wegfällt. Deswegen helfen die später aufgezeigten Algorithmen dabei, den
passenden Baum schneller und eektiver zu nden.
2
Abbildung 1: Vereinfachter ultrametrischer Baum
3
Algorithmen zur Baumerstellung
n × n Matrix sein. Um
damit arbeiten zu können, muss sie vielmehr die Bedingungen einer Metrik erfüllen. Dazu
zählen, dass für drei beliebige Taxa a, b und c folgende Bedingungen erfüllt werden:
Die vorher denierte Distanzmatrix
(1)
dab > 0
für
a 6= b
(2)
dab = 0
für
a=b
(3)
dab = dba
(4)
dab ≤ dac + dcb
für alle
D
soll aber nicht nur eine
a, b
für alle
a, b, c
So muss eine Metrik stets positive Werte besitzen (1), bei einem Distanzwert gleich null
zwischen den Taxa muss es sich somit um das gleiche Taxon handeln (2). Auch besitzt
eine Metrik die Bedingung der Symmetrie (3) und die der Dreiecksungleichung. Wenn nun
dab in D mit der Summe der Kantengewichtungen eines Pfades zwischen zwei
Blättern a, b übereinstimmt und ein Baum T gefunden werden kann, der dies erfüllt, so
sind D und T additiv.
Dafür muss zusätzlich die 4-Punkt Bedingung gelten: Eine Metrik D mit einer Menge S
von Taxa ist genau dann additiv, wenn für beliebige vier Taxa i,j ,k ,l von S gilt, dass
dij + dkl = dik + djl ≥ dil + djk .
Eine additive Metrik ist eine Ultrametrik, wenn sie zur 4-Punkt Bedingung zusätzlich die
3-Punkt Bedingung erfüllt: D ist eine Ultrametrik, wenn für eine Metrik für beliebige drei
Taxa i,j ,k von S darüber hinaus gilt, dass dik = djk ≥ dij . Diese Bedingung schränkt Beder Eintrag
dingung (4) stärker ein und bedeutet, dass eine direkte Verbindung zwischen zwei Knoten
echt kürzer sein muss als eine Verbindung über einen Zwischenpunkt. Die ausführlichen
Beweise für diese Gleichungen ndet man in [3] Theorem 7.1 und 7.2.
3.1
Additiver Baum mit Fitch-Margoliash
Voraussetzung für die Erstellung eines phylogenetischen Baumes mit dem
Fitch-Margoliash
Algorithmus ist eine additive Metrik als Eingabeparameter. Um die Kantengewichte und
damit den evolutionären Abstand zu berechnen, werden die folgenden einfachen Feststellungen zur Anlehnung benutzt. So ist aus Abbildung 1 ersichtlich, dass
x=
dab + dac − dbc
2
,
y=
dab + dbc − dac
2
und
u+z =
dac + dbc − dab
2
(1)
gilt.
Der Algorithmus 1 funktioniert, indem eine Taxa nach dem anderen dem Baum hinzugefügt wird. Dazu wiederholt er nach Eingabe der Matrix immer wieder die Bestimmung
3
Abbildung 2: Beispiel für phylogenetische Bäume aus einer Distanzmatrix
a und b, die am nächsten zusammen liegen. Daraufhin werden die
S zusammengefügt und jeweils die durchschnittlichen
Distanzen daS und dbS berechnet. Durch das Vereinigen von a und b entsteht ein Vaterknoten P (a, b), dessen Distanzen zu a bzw. b mit den vorher bestimmten Formeln in (1)
derjenigen zwei Cluster
restlichen Cluster in eine Menge
berechnet werden kann. Dieser Vorgang wird so lange durchgeführt, solange die Anzahl
der Cluster in
S
noch gröÿer als zwei ist. So entsteht schrittweise ein binärer, ungerichteter
ungewurzelter additiver Baum (Abbildung 2). Der erstellte Baum aus einer bestimmten
additiven oder ultrametrischen Matrix ist dabei eindeutig (Beweis durch Induktion dazu
in [1] unter Beispiel 6.1).
Wie man im Algorithmus 1 und der while-Schleife erkennt, wird der Baum für mehr
als 2 Taxa über mehrere Iterationen aufgebaut. Dadurch ergibt sich eine theoretische
2
worst-case Laufzeit von O(n ), da jedes Taxon, das wir den Baum hinzufügen, mit allen
anderen bereits bestehenden Taxa verglichen und
D
geupdatet werden muss. Jedoch ist
das Laufzeitverhalten nicht trivial und die Laufzeit kann durch komplexere Algorithmen
noch weiter eingespart werden. Sollten an einem Baum negativen Kantenlängen auftreten,
D
so ist das ein Zeichen für eine falsche Topologie und dass
nicht additiv ist, jedoch wird
das durch die Bedingung der Metrik ausgeschlossen.
Data : additive n × n Distanzmatrix D
Result : additver ungerichteter ungewurzelter Baum
S , bestehend aus einzelne Cluster {1}, ...{n};
while Anzahl Cluster > 2 do
1. Bestimme das Paar a, b von Clustern mit der geringsten Distanz;
2. S besteht aus allen anderen Cluster;
Initialisiere eine Menge
3. Bestimme die Durchschnittsdistanz mit
P
daS =
i∈a
P
j∈S
P
dij
dbS =
|a||S|
4. Erstelle einen Vaterknoten
i∈b
P
j∈S
dij
|b||S|
P (a, b) von a, b durch Vereinigen der beiden
x von P (a, b) zu a und y von P (a, b) zu b
Cluster und deniere die Astlänge
durch
x=
dab + daS − dbS
2
y=
dab + dbS − daS
2
end
Algorithmus 1 : Fitch-Margoliash Alogrithmus (vgl. [2] Algorithmus 4.3)
4
3.2
Ultrametrischer Baum mit WPGMA
Bei einem ultrametrischen Baum wird von einer
konstanten molekularen Uhr
ausgegangen.
Dieses Modell nimmt an, dass sich alle gegenwärtigen Taxa mit einer konstanten Mutationsrate von einem gemeinsamen Vorfahren entwickelt haben. Ein Baum ist ultrametrisch,
wenn er additiv ist und so gewurzelt werden kann, dass alle Pfade von der Wurzel zu den
Blättern die gleichen Pfadlängen besitzen. Mithilfe von WPGMA (Weighted
Method with Arithmetic mean )
kann so ein Baum nach dem
Bottom-Up
Pair Group
Ansatz iterativ
aufgebaut werden. Dazu sollte er als Eingabeparameter eine ultrametrische Matrix bekommen. Ist dies nicht der Fall, so entsteht zwar ein Baum, doch dieser ist meist nicht
aussagekräftig oder spiegelt nicht die Werte in
D
wieder.
Wie man beim Algorithmus 2 erkennen kann, wird dazu nach der Initialisierung der
S eine neue Funktion dist(i, j) für zwei Taxa i und j deniert. Wie bei FitchMargoliash werden nun wiederholend die Cluster c und d ausgewählt, die am nächsten
zusammen liegen. Daraufhin wird ein neuer Cluster e mit c und d als Kinder erstellt, wobei
zugleich alle drei Knoten aus der Menge S wegfallen. Nun hat e zu seinen beiden Kindern
c und d den gleichen Abstand, sodass dist(c, d) immer noch der gleichen Entfernung
Menge
entspricht (den ausführlichen Beweis für diesen Schritt nden man in [2] 4.3). Anschlieÿend
werden die Distanzen zwischen allen noch übrigen Knoten
e aktualisiert. Dadurch entsteht von unten nach oben
f ∈S
bzgl. des neuen Clusters
ein binärer gerichteter gewurzelter
ultrametrische Baum (siehe Abbildung 2).
WPGMA benötigt dabei
n−1 Iterationen, in denen jeweils in O(n2 )-Zeit die minimale
Distanz zwischen den Elementen gefunden wird. Die Aktualisierung der Distanzen der
einen Spalte in M geht in O(n), da nur eine Spalte neu berechnet werden muss. So ergibt
3
sich für WPGMA eine Gesamtlaufzeit von O(n ), jedoch ist mit komplexeren Algorithmen
2
auch eine Gesamtlaufzeit von O(n ) möglich.
Data : ultrametrische n × n Distanzmatrix D
Result : ultrametrischer gerichteter gewurzelter Baum
S , bestehend aus einzelne Cluster {1}, ...{n};
Funktion dist(c, d) auf S , sodass für alle i und j in S gilt:
Initialisiere eine Menge
Initialisiere die
dist(i, j) = dij
in
M
for n − 1 mal do
1. Bestimme ein Paar
c, d
von den Cluster in
D,
sodass
dist(c, d)
minimal ist:
dmin = dist(c, d)
2. Erstelle ein neues Cluster
e=c∪d
und
S = S − {c, d} ∪ {e};
c, d, wobei die Distanz
3. Erstelle einen Knoten e mit den Kindern
d
seinen Kinderknoten min beträgt;
2
4. Deniere für alle f ∈ S mit f 6= e:
dist(e, f ) = dist(f, e) =
von
dist(c, f ) + dist(d, f )
2
end
Algorithmus 2 : WPGMA Alogrithmus (vgl. [2] Algorithmus 4.3)
5
e
zu
(2)
3.3
Ultrametrischer Baum mit UPGMA
Eine Modikation von WPGMA ist die UPGMA-Methode (Unweightend Pair Group Method with Arithmetic mean ). Dieser Algorithmus unterscheidet sich zu Algorithmus 2 in
der verwendeten dist-Formel (2), die durch folgende Funktion ersetzt wird:
dist(e, f ) = dist(f, e) =
|c|dist(c, f ) + |d|dist(d, f )
|c| + |d|
Diese Funktion gewichtet zwar die Cluster in ihrer Gröÿe, indem im Zähler zu beiden
Funktionen eine Gewichtung bzgl. der Gröÿe von
diese Gewichtung durch den Nenner mit
dist-
c bzw. d hinzugefügt wird, allerdings fällt
|c| + |d| wieder weg. Somit werden alle Distanzen
gleichberechtigt in die Berechnung mit einbezogen und man enthält im Gegensatz zu
WPGMA bei UPGMA ein ungewichtetes Ergebnis. Man beachte auch, dass wenn die
Clustergröÿe der Paare annähernd gleich groÿ sind, der UPGMA Algorithmus im Grunde
genommen gleich WPGMA ist.
4
Zusammenfassung und Ausblick
Zur Erstellung eines additiven phylogenetischen Baums mit dem
Fitch-Margoliash
Algo-
rithmus ist es wichtig, dass die benutzte Distanzmatrix die Bedingungen einer Metrik
erfüllt, da es sonst zu falschen Berechnungen der Topologien und Distanzen der Bäume
kommt. Es wird ein ungerichteter und ungewurzelter additiver Baum erstellt, der die Beziehungen der verschiedenen Taxa untereinander und den evolutionären Abstand durch
die Kantengewichte angibt.
Für die Rekonstruktion eines ultrametrischen Baum mit WPGMA bzw. UPGMA muss
die Distanzmatrix additiv sein und zusätzlich die Voraussetzung einer Ultrametrik erfüllen, damit anhand der Matrix ein der dazugehörige Baum ausgegeben werden kann. Unter
Annahme einer konstanten molekularen Uhr entsteht so ein gerichteter gewurzelter Baum,
bei dem alle Blätter einen gleich groÿen evolutionären Abstand zur Wurzel besitzen.
Neben dem Aufzeigen und Verstehen von Stammesgeschichten einzelner Spezies wird
Phylogenie auch an vielen anderen Stellen verwendet. So werden zum Beispiel beim multiplen Sequenzalignment phylogenetische Bäume als Orientierungshilfe genutzt. Genauso
sind sie hilfreich bei Strukturvorhersagen von Proteinen und RNA-Segmenten, sowie zur
Vorhersage der Genexpression und für vieles mehr. Da sich Nukleinsäuren und Proteine auch weiterentwickeln, können ebenso phylogenetische Bäume für sie erstellt werden.
Phylogenetische Bäume sind vielseitig einsetzbar, jedoch sind die wenigsten in der Natur
streng den Regeln von Additivität oder Ultrametrik unterworfen, somit muss man beachten, dass es sich aufgrund mangelnder Informationen meist nur um hypothetische Bäume
handelt. Zudem kommt die Annahme dazu, dass Taxa mit der geringster evolutionären Distanz Nachbarn im Baum sind, was bei stark unterschiedlichen Mutationsraten aber nicht
der Fall ist. Dennoch kann man mithilfe des
Fitch-Margoliash
oder
UPGMA-Algorithmus
wegen der geringen Laufzeit einen ersten Fixpunkt als Orientierung berechnen. Jedoch
werden in der Regel für genauere Untersuchungen auf komplexere Methoden mit viel längerer Laufzeit zurückgegrien, wie z.B. Maximum-Likelihood oder Maximum-Parsimony
Methode. Oft reicht auch die Darstellung als Baum einfach nicht mehr aus, sodass Netzwerke in Betracht gezogen werden müssen.
6
5
[1]
Quellenangabe
J.Setubal, J. Meidanis: Introduction to Computational Molecular Biology, PWS,
1997; Abschnitte 6.1, 6.5.1
[2]
P.Clote, R. Backofen: Computational Molecular Biology - An Introduction, Wiley,
2000; Abschnitte 4.3.0, 4.3.1
[3]
W.-K: Sung: Algorithms in Bioinformatics - A Practical Introduction, CRC Press,
2010; Abschnitte 7.1, 7.3
7
Herunterladen