Biophysik_2006

Biophysik F1-Praktikum –
Kursteil "Molekulare Evolution"
Thorsten Burmester
Institut für Zoologie
Universität Mainz
1
Ziel des Kurses:
Wie erhalte ich aus meinen (Sequenz-) Daten einen
Stammbaum, und was sagt mir dieser?
Sequenz 1:
Sequenz 2:
Sequenz 3:
Sequenz 4:
Sequenz 5:
KIADKNFTYRHHNQLV
KVAEKNMTFRRFNDII
KIADKDFTYRHW-QLV
KVADKNFSYRHHNNVV
KLADKQFTFRHH-QLV
Sequenz 1
Sequenz 4

Sequenz 2
Sequenz 3
Sequenz 5
2
Programm
 Grundlagen der Molekularen Evolution
 Datenbanken und Datenbankanalysen
 Sequenzalignment
 Stammbaumerstellung
 Statistische Auswertung
3
Warum molekulare Phylogenie?
Verständnis von phylogenetischen
Zusammenhängen:
• Organismische Evolution (Systematik)
• Evolution von Proteinfamilien (Funktion!)
• forensische Medizin (Bsp. HIV)
• Epidemiologie
• Mathematische Probleme
4
Warum molekulare Phylogenie?
Rekonstruktion von Verwandtschaftsverhältnissen
A. Morphologische Daten
B. Sequenzdaten
Vorteil der Sequenzdaten:
- leichte Zugänglichkeit
- Grosse Datenmenge
- Zumeist frei von Gewichtungen
- können aber dennoch zu falschen Ergebnissen führen!
5
Voraussetzungen der
molekularen Phylogenie
1. Evolution vollzieht sich durch Veränderungen.
2. Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab.
3. Die Speziesbildung vollzog sich durch hierarchische Auftrennung.
4. Deren Verlauf läßt sich durch Stammbäume darstellen.
5. Es gibt nur einen historisch korrekten Stammbaum.
6. Organismen sind historisch. Sowohl die Morphologie als auch die DNA- und
Aminosäuresequenzen speichern die Informationen über die Vergangenheit.
7. Die Methoden der molekularen Evolution erlauben die Extraktion der in der
DNA bzw. den Proteinen gespeicherten Informationen.
6
Was ist ein Stammbaum?

Darstellung der Verwandtschaftsverhältnisse
A
B
C
D
E
Schwestergruppen
A
B
C
D
E
F
t
F
t
A – F auch "operational taxonomic units" (OTUs)
7
Phylogenetische Grundbegriffe
Dichotomie Polytomie
A B C D
E
A
B C D
E
Ast
(branch)
Knotenpunkt
(node)
8
Phylogenetische Grundbegriffe
Monophylie
A B C D E F
monophyletische Taxa
(AB)
(CDEF)
(DEF)
(EF)
9
Phylogenetische Grundbegriffe
Paraphylie
=> nicht alle Nachkommen
"Reptilien"
Eidechsen
+
Schildkröten
Krokodile
Schlangen
Vögel
werden erfasst
aufgrund von Plesiomorphien
(ursprünglichen Merkmalen)
10
Phylogenetische Grundbegriffe
"Geier"
Polyphylie
=> verschiedenen Ursprungs
NeuweltGeier
StorchenRaubvögel
vögel
AltweltGeier
aufgrund von Homoplasien
(Konvergenzen)
11
ungewurzeletes Phylogramm
Regenwurm
Tausendfüsser
Tintenfisch
Schnecke
Languste
Vogelspinne
Heuschrecke
=> keine Evolutions"richtung"
12
Stammbaum
Mit Außengruppe gewurzelt
Mensch (Außengruppe)
= "outgroup"
Regenwurm
Schnecke
Tintenfisch
Wurzel
("Root")
Tausendfüsser
Heuschrecke
Languste
Vogelspinne
t
13
Molekure Phylogenie
Vorgehensweise zur Stammbaumerstellung:
A.
•
•
•
•
Wie ist meine Sequenz zu anderen verwandt?
Auswahl ähnlicher Sequenzen aus Datenbanken
Sequenzalignment
Molekularphylogenetische Analyse
Statistische Überprüfung
B.
•
•
•
Wie sind bestimmte Taxa miteinander verwandt?
Auswahl geeigneter Sequenzen
Sequenzierung (Datenbanken, Klonierung, PCR)
Sequenzalignment usw. wie oben
14
Datenbanksuche:
Welche Sequenz ist meiner
Sequenz "ähnlich"?
 => Sequenzvergleich:
"Alignment" (dt. Alignierung)

DPEFKLSYFREDIAINSHHWHWHVIYPVGSNPS--DKKINRKGELFYYMHEQMLARYDAE
::: ::::::::: :: :::::: ::
::
:
:::::: ::: :: :::: :
DPEYKLSYFREDIGINAHHWHWHIVYPATWNPTVMGKEKDRKGELFFYMHQQMCARYDSE
15
Datenbanksuche
z.B. BLAST (Basic Local Alignment Search Tool)
=> vergleicht zwei Sequenzen miteinander
BLASTN: Vergleicht eine Nukleinsäuresequenz mit
Nukleinsäuredatenbank
=> nahe verwandte Sequenzen
BLASTP: Vergleicht eine Aminosäuresequenz mit
Proteindatenbank.
=> entfernt verwandte Sequenzen
16
Datenbanksuche
.
BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6
Leserastern mit Proteindatenbank.
=> Für welches Protein kodiert meine Sequenz?
TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäuredatenbank, die in allen 6 Leserastern translatiert wird.
=> findet z.B. nicht annotierte Proteine in DNA-Daten
TBLASTX: Vergleicht die Translationsprodukte aller drei Leseraster einer
Nukleinsäuresequenz mit den Translationsprodukten aller 6
Leseraster einer Nukleinsäuredatenbank.
=> z.B. entfernte Verwandtschaft unbek. DNA-Sequenzen
17
BLAST (Basic Local Alignment Search Tool)
18
Multiples SequenzAlignments
Gegeben: SeqA
Gesucht:
SeqB
SeqC
SeqD
N
N
N
N
A
A
A
A
F
F
K
Y
L S
S
Y L S
L S
SeqA
SeqB
SeqC
SeqD
N
N
N
N
A
A
A
A
K
-
F
F
Y
Y
L
L
L
S
S
S
S
19
Sequenzalignments
Wie erhält man ein multiples Sequenzalignment?
Algorithmus (z.B. ClustalX):
1. paarweiser Vergleichen aller Sequenzen miteinander =>
Berechnung der Distanzen zw. Sequenzen
2. gruppiert Sequenzen nach Ähnlichkeit (Cluster-Bildung)
3. Erstellung paarweiser Alignments
4. sukzessives Alignment nach Ähnlichkeit,
dabei die ähnlichsten Sequenzpaare zuerst
20
CLUSTALX
1) Sequenzvergleich
A
B
C
D
Alle Sequenzen werden miteinander verglichen
(schnelles "quick and dirty" Alignment)
=> Berechnen der Distanzen
21
CLUSTALX
2) Ähnliche Sequenzen werden gruppiert
=> Cluster-Analyse = Erstellung eines
hierarchischen Stammbaums ("guide tree").
A
B
C
D
A
B
C
D
-
0.75
0.89
0.27
-
0.45
0.82
-
0.77
-
A
D
B
C
"guide tree"
22
CLUSTALX
3) Alignment von nahe verwandten
Sequenzen; die ähnlichsten zuerst.
A
D
B
C
A
D
B
C
23
CLUSTALX
4) Sukzessives
globales Alignment
A
D
B
C
Lücken = "gaps"
A
D
B
C
A
D
B
C
24
Alignment Parameter



Substitutionsmatrix (Wahrscheinlichkeit
von nt bzw. AS-Austauschen)
"Gap creation" und "Gap length
weights"
jeweils für paarweise und MultiAlignments
25
Stammbaumerstellung
Anzahl der möglichen Stammbäume:
Number
Number of
Number of
of OTUs
rooted trees
unrooted trees
2
3
4
5
6
7
8
9
10
1
3
15
105
954
10395
135135
2027025
34459425
1
1
3
15
105
954
10395
135135
2027025
26
Stammbaumerstellung
1. Matrix-orientierte Methoden
• UPGMA (Unweighted Pair-Group Method with Arithmetric Means)
• Neighbor-joining
• Minimal Evolution (least squares)
2. Charakter-orientierte Methoden
• Maximum Parsimony
• Maximum Likelihood
27
Matrix-orientierte Methoden
Aus jedem Datensatz kann im Prinzip eine
Distanzmatrix erstellt werden
Zwei Schritte:
1. Berechnen der paarweisen Abstände
zwischen den einzelnen Sequenzen
2. Erstellen eines Stammbaums anhand
dieser Abstandsdaten
28
Sequenzevolution
Ursprungssequenz
Mutationen
Sequenz A
Zeit
Sequenz B
Unterschied = Divergenz = Distanz
29
Berechnung einer Distanzmatrix
Sequenz
Sequenz
Sequenz
Sequenz
Sequenz
1
2
3
4
5
TATAAGCATGACTAGTAAGC
TATTAGCATGACTGGTAACC
TATTGGCATGACTAGCAGGC
TGTTGCCACGATTAGCTACC
CGTAGCTATGACCAACGGGC
Distanz = Durchschnittliche Änderung pro Position
hier: 20 Positionen; => Wieviele beobachtete Änderungen?
30
Distanzmatrix
Sequenz
Sequenz
Sequenz
Sequenz
Sequenz
1
2
3
4
5
1
2
3
4
0.00 0.15 0.20 0.45
0.00 0.25 0.40
0.00 0.35
0.00
5
0.50
0.65
0.40
0.50
0.00
Abstand zwischen Sequenz 1 und Sequenz 2,
ausgedrückt in durchschnittlichen Änderungen pro
Nukleotidposition (unkorrigierte Hamming-Distanz).
31
Abstand gegen Zeit!
tatsächlicher Abstand
zweier Sequenzen
= Anzahl der Mutationen
%
Sättigung
beobachteter Abstand
=> Abstand wird unterschätzt!
t
32
Warum?
13 Mutationen
=>
3 Unterschiede
33
Korrektur der Distanzen
tatsächlicher Abstand
= Anzahl der Mutationen
%
Korrektur
beobachteter Abstand
t
34
Korrektur der Distanzen
Frage: Wie korrigieren wir?
 Wir wollen die tatsächliche Anzahl der
evolutiven Ereignisse rekonstruieren.
 Wir brauchen also ein Evolutionsmodell,
welches die Wahrscheinlichkeit von
multiplen Austauschen, Rückmutationen
etc. berücksichtigt.
35
DNA-Evolutionsmodelle






1969:
1980:
1981:
1985:
1990:
etc.
Jukes & Cantor (JC)
Kimura 2-Parameter (K2P)
Felsenstein 81 (F81)
Hasegawa, Koshino & Yano (HKY85)
General Reversible Model (REV)
36
Evolutionsmodell Jukes & Cantor
Korrigierte Distanz nach Jukes & Cantor:
3  4
K   ln 1 
4  3

p

K ist der berechnete Abstand (Anzahl der tatsächlichen
Substitutionen), p der beobachtete Abstand zwischen
zwei Sequenzen.
37
Abstandsberechnung Proteine
Modelle für Proteinevolution meist empirisch.
 Nach Kimura 1983:
 D = - ln(1 - p - 0.2 x p2)
 Beispiel: Beobachtete Distanz = 60%
=> p = 0.6
=> D = - ln(1 – 0.6 – 0.2 x 0.62)
= 1.11474

=> d.h., im Schnitt hat an jeder Position ~ 1,11 AS-Austausche stattgefunden
38
Aber:





Modell ist zu einfach!
Denn jeder Aminosäureaustausch wird
gleich bewertet.
In der Natur aber nicht so beobachtet.
In der Praxis sind meist bessere Modelle
notwendig.
Wir kennen diese Modelle:
=> PAM, BLOSUM-Matrizen
39
Aminosäureeigenschaften
Sehr klein
aliphatisch
CS+S
I
V
L
hydrophob
M
P
Y
F
klein
G
G
A
CSH
T
S
D
K
W H
N
E
R
Q
aromatisch
positiv
polar
geladen
40
PAMDistanzmatrix
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
B
Z
F
A
2
-2
0
0
-2
0
0
1
-1
-1
-2
-1
-1
-3
1
1
1
-6
-3
0
2
1
R
-2
6
0
-1
-4
1
-1
-3
2
-2
-3
3
0
-4
0
0
-1
2
-4
-2
1
2
N
0
0
2
2
-4
1
1
0
2
-2
-3
1
-2
-3
0
1
0
-4
-2
-2
4
3
D
0
-1
2
4
-5
2
3
1
1
-2
-4
0
-3
-6
-1
0
0
-7
-4
-2
5
4
C
C
-2
-4
-4
-5
12
-5
-5
-3
-3
-2
-6
-5
-5
-4
-3
0
-2
-8
0
-2
-3
-4
Q
0
1
1
2
-5
4
2
-1
3
-2
-2
1
-1
-5
0
-1
-1
-5
-4
-2
3
5
-4
E
0
-1
1
3
-5
2
4
0
1
-2
-3
0
-2
-5
-1
0
0
-7
-4
-2
4
5
G
1
-3
0
1
-3
-1
0
5
-2
-3
-4
-2
-3
-5
0
1
0
-7
-5
-1
2
1
H
-1
2
2
1
-3
3
1
-2
6
-2
-2
0
-2
-2
0
-1
-1
-3
0
-2
3
3
I
-1
-2
-2
-2
-2
-2
-2
-3
-2
5
2
-2
2
1
-2
-1
0
-5
-1
4
-1
-1
L
-2
-3
-3
-4
-6
-2
-3
-4
-2
2
6
-3
4
2
-3
-3
-2
-2
-1
2
-2
-1
K
-1
3
1
0
-5
1
0
-2
0
-2
-3
5
0
-5
-1
0
0
-3
-4
-2
2
2
M
-1
0
-2
-3
-5
-1
-2
-3
-2
2
4
0
6
0
-2
-2
-1
-4
-2
2
-1
0
FF
-3
-4
-3
-6
-4
-5
-5
-5
-2
1
2
-5
0
9
-5
-3
-3
0
7
-1
-3
-4
9
P
1
0
0
-1
-3
0
-1
0
0
-2
-3
-1
-2
-5
6
1
0
-6
-5
-1
1
1
S
1
0
1
0
0
-1
0
1
-1
-1
-3
0
-2
-3
1
2
1
-2
-3
-1
2
1
T
1
-1
0
0
-2
-1
0
0
-1
0
-2
0
-1
-3
0
1
3
-5
-3
0
2
1
W
-6
2
-4
-7
-8
-5
-7
-7
-3
-5
-2
-3
-4
0
-6
-2
-5
17
0
-6
-4
-4
YY
-3
-4
-2
-4
0
-4
-4
-5
0
-1
-1
-4
-2
7
-5
-3
-3
0
10
-2
-2
-3
7
V
0
-2
-2
-2
-2
-2
-2
-1
-2
4
2
-2
2
-1
-1
-1
0
-6
-2
4
0
0
B
2
1
4
5
-3
3
4
2
3
-1
-2
2
-1
-3
1
2
2
-4
-2
0
6
5
Z
1
2
3
4
-4
5
5
1
3
-1
-1
2
0
-4
1
1
1
-4
-3
0
5
6
PAM und BLOSUM Matricen
Hohe Sequenzähnlichkeit
Hohe Sequenzähnlichkeit
PAM 1
BLOSUM 80
PAM 120
BLOSUM 62
PAM 250
BLOSUM 30
Geringe Sequenzähnlichkeit
Geringe Sequenzähnlichkeit
42
Distanzmatrix
Berechnen des paarweisen Abstands
Sequenz
Sequenz
Sequenz
Sequenz
Sequenz
1
2
3
4
5
0.000 0.236 0.621 0.702
0.000 0.599 0.672
0.000 0.112
0.000
1.510
1.482
1.561
1.425
0.000
• Ausgedrückt i.d.R. als Mutationen pro Position
• Abstand kann > 1 werden!
43
Stammbaumerstellung



Wie kommen wir von einer
Distanzmatrix zu einem Stammbaum?
=> Algorithmus berechnet aus den
Distanzen den "besten" Stammbaum.
Sequenzen selbst werden nicht mehr
berücksichtigt.
44
UPGMA
Unweighted Pair-Group Method with Arithmetric Means
 Additive Methode. OTUs werden durch sequenzielles
Clustern nach absteigender Ähnlichkeit gruppiert.
45
UPGMA
Unweighted Pair-Group Method with Arithmetric Means
OTU
OTU
OTU
OTU
A
B
C
D
OTU A/B
OTU C
OTU D
A
0
B
6
0
A/B
0
C
10
12
0
C
11
0
D
18
20
19
0
D
19
19
0
3
3
3
2.5
3
5.5
A
B
A
B
C
46
UPGMA
A/B/C D
Sequenz A/B/C
0
19
Sequenz D
0
3
2.5
4
3
5.5
9.5
A
B
C
D
• nimmt konstante Evolutionsraten an
• Außengruppe wird "automatisch" bestimmt
47
UPGMA
Ausgangsmatrix
A
B
OTU A
0
6
OTU B
0
OTU C
OTU D
C
10
12
0
rekonstruierte Matrix
A
B
C
OTU A
0
6 11
OTU B
0 11
OTU C
0
OTU D
D
18
20
19
0
3
2.5
4
3
5.5
D
19
19
19
0
9.5
A
B
C
D
48
Neighbor-joining (NJ)
• Ähnlicher Algorithmus wie UPGMA
• berücksichtigt unterschiedliche Evolutionsraten:
=> Astlängenberechnung
• Sukzessives Gruppieren der OTUs
• Minimierung der Astlängen
=> Stammbaum wird aufgelöst
=> keine konstante Evolutionsrate angenommen
49
Neighbor-joining (NJ)
b.
1
a.
8
1
2
X
7
3
4
X
3
5
Y
6
2
4
6
7
8
5
S = ( dji)/N;
1ijN
S = Summe aller Astlängen
d = Distanzen zwischen allen OTUs
N = Anzahl der OTUs
Ziel NJ => Minimierung von S
50
Neighbor-joining (NJ)
Beispiel:
OTU
OTU
OTU
OTU
A
B
C
D
A
B
C
D
0
6
0
10
12
0
18
20
19
0
A
C
B
D
 Abstand OTU A zu allen anderen ist aber kürzer als der von OTU B
=> Astlängen werden bei ungleichen Raten falsch berechnet.
 NJ korrigiert dies, indem es den Gesamtabstand des betrachteten
OTUs zu allen anderen Sequenzen berücksichtigt
51
Neighbor-joining (NJ)
Beispiel:
OTU
OTU
OTU
OTU
A
B
C
D
A
B
C
D
S
0
6
0
10
12
0
18
20
19
0
34
38
41
57
1. Schritt: Berechnung der Summe der
Abstände
SA = dAB + dAC + dAD
52
Neighbor-joining (NJ)
OTU
OTU
OTU
OTU
A
B
C
D
A
B
C
D
S
0
-30
6
0
10
12
0
18
20
19
0
34
38
41
57
2. Schritt: Transformation der Matrix:
d'AB = dAB – (SA + SB)/2
= 6 – (34 + 38)/2 = –30 usw.
53
Neighbor-joining (NJ)
Transformation der Matrix:
d'AB = dAB – (SA + SB)/2
= 6 – (34 + 38)/2 = –30 usw.
A
OTU
OTU
OTU
OTU
A
B
C
D
B
0
6
-30
0
-27.5 -27.5
-27.5 -29.5
C
10
12
0
-30
D
S
18
20
19
0
34
38
41
57
=> Auswahl der Nachbarn (negativster Wert)
hier: A+B oder C+D (führen zum gleichen Ergebnis)
=> Werden durch Knotenpunkt verbunden
54
Neighbor-joining (NJ)
3. Schritt: Berechnen des Abstands von A und B zu
Knotenpunkt X:
A
OTU
OTU
OTU
OTU
A
B
C
D
B
0
6
-30
0
-27.5 -27.5
-27.5 -29.5
C
D
S
10
12
0
-30
18
20
19
0
34
38
41
57
dXA = dAB/2 + [SA/(N-2)* - SB/(N-2)]/2
<=>
6/2 + (17 - 19)/2 = 2
dXB = dAB/2 + [SB/(N-2) - SA/(N-2)]/2 <=>
<=>
6/2 + (19 - 17)/2 = 4
oder einfacher: dAB – dXA = 6 – 2 = 4
C
B
4
X
A
2
D
*N-2 = Anzahl der Knotenpunkte
55
Neighbor-joining (NJ)
Erstellen einer reduzierten Datenmatrix
dXC = (dAC – dAX + dBC – dBX)/2
<=> (10 – 2 + 12 –4)/2 = 8 usw.
X
OTU
OTU
OTU
X
C
D
0
-17.5
-15.5
C
D
S
8
0
-12
16
19
0
24
27
35
usw...
56
Neighbor-joining (NJ)
C
A
5.5
2.5
2
4
13.5
B
D
57
Neighbor-joining (NJ)
Ausgangsmatrix
A
B
OTU A
0
6
OTU B
0
OTU C
OTU D
C
10
12
0
D
18
20
19
0
C
2.5
D
18
20
19
0
2
4
13.5
rekonstruierte Matrix
A
B
C
OTU A
0
6 10
OTU B
0 12
OTU C
0
OTU D
A
5.5
B
D
58
Neighbor-joining (NJ)
Warum Transformation?
3
A
2
15
1
B
5
C
7
OTU
OTU
OTU
OTU
D
A
B
C
D
A
B
C
D
0
18
0
10
22
0
13
25
13
0
59
Neighbor-joining (NJ)
UPGMA würde rekonstruieren:
5
1.5
5
4.33
=> "long branch attraction"
A
C
6.5
D
10.83
OTU
OTU
OTU
OTU
A
B
C
D
B
A
B
C
D
0
18
0
10
22
0
13
25
13
0
60
Neighbor-joining (NJ)
NJ konstruiert?
3
A
2
15
1
B
5
C
7
D
A
OTU
OTU
OTU
OTU
A
B
C
D
B
0
18
-35
0
-33
-33
-31.5 -31.5
C
10
22
0
-33.5
D
S
13
25
13
0
41
65
45
48
61
Matrix-orientierte Methoden
UPGMA
Neighbor-joining
3
2.5
4
3
5.5
9.5
A
C
A
5.5
2.5
B
2
4
C
13.5
B
D
D
62
Charakter-orientierte Methoden
1. Maximum Parsimony (MP)
2. Maximum Likelihood (ML)
• Arbeiten direkt mit dem Alignment
• Extrahieren mehr Information
63
Charakter-orientierte Methoden
Charaktere
• kontinuierliche oder diskontinuierliche Eigenschaften
1,2,3,4.... = kontinuierliche Charaktere
A,T,G,C = diskontinuierliche Charaktere
• Nukleotide und Aminosäuren können als diskrete,
diskontinuierliche Charaktere behandelt werden
• Der phylogenetische Stammbaum wird anhand des
Musters der Änderungen der Charaktere berechnet
64
Maximum Parsimony
• Annahme: Evolution ging stets den
kürzesten Weg
• => Methode des "maximalen Geizes"
• kürzester Stammbaum wird berechnet,
d.h., der die wenigsten evolutiven
Schritten benötigt.
65
Maximum Parsimony
Beispiel:
3 mögliche
Stammbäume
Sequenz
A
B
C
D
Position
1 2 3 4 5
A A G A G
A G C C G
A G A T A
A G A G A
6
T
T
T
T
7
G
G
C
C
8
C
C
C
C
9
A
G
A
G
A
C
A
B
A
B
B
D
C
D
D
C
((A,B)(C,D))
((A,C)(B,D))
((A,D)(B,C))
66
Maximum Parsimony
Welche Positionen sind informativ, bevorzugen
also eine bestimmte Topologie?
Sequenz
A
B
C
D
Position
1 2 3 4 5
A A G A G
A G C C G
A G A T A
A G A G A
6
T
T
T
T
7
G
G
C
C
8
C
C
C
C
9
A
G
A
G
3 Positionen invariabel => nicht informativ
67
Maximum Parsimony
Sequenz
A
B
C
D
Position
1 2 3 4 5
A A G A G
A G C C G
A G A T A
A G A G A
6
T
T
T
T
7
G
G
C
C
8
C
C
C
C
9
A
G
A
G
6 Positionen sind variabel
=> aber auch informativ?
68
Maximum Parsimony
Sequenz
A
B
C
D
Position
1 2 3 4 5
A A G A G
A G C C G
A G A T A
A G A G A
6
T
T
T
T
7
G
G
C
C
8
C
C
C
C
9
A
G
A
G
3 Positionen sind zwar variabel, aber nicht informativ
69
Maximum Parsimony
Welche Positionen sind aber nun informativ?
Position
Sequenz 1 2 3 4 5 6 7 8 9 10 11
A
A A G A G T G C A - A
B
A G C C G T G C G - G
C
A G A T A T C C A C G
D
A G A G A T C C G C G
*
*
* *
=> nur 3 von 9 Positionen sind informativ, d.h.,
favorisieren eine best. Topologie.
=> Indels sind Charaktere!
70
Maximum Parsimony
((A,B),(C,D))
Position 3:
G
•
Position 5:
•
A
((A,C),(B,D))
G
A A
•
A A
G
•
A A
•
A
•
C
A
A
C
A
C
G
A
G
A
G
A
G• A
Position 9:
A
((A,D),(B,C))
•
A A
•
A A
•
•
G
A
A
G
A
G
A
A
A
G
A
A
•
G
A A
A •G
•
G
A
?
• A A •
G
G
G
71
Maximum Parsimony
Position
1 2 3 4 5
A A G A G
A G C C G
A G A T A
A G A G A
*
Sequenz
A
B
C
D
6
T
T
T
T
7
G
G
C
C
*
C
A
D
10 Mutationen
C
A
8
C
C
C
C
9
A
G
A
G
*
B
A
D
15 Mutationen
D
B
3 mögliche
Stammbäume
B
C
14 Mutationen
72
Maximum Parsimony
Aber: Ort der Mutation nicht (immer) eindeutig definiert
=> Parsimony kann keine Astlängen berechnen.
Position
1 2 3 4 5
A A G A G
A G C C G
A G A T A
A G A G A
Sequenz
A
B
C
D
A
C
A
6
T
T
T
T
7
G
G
C
C
8
C
C
C
C
9
A
G
A
G
C
=
B
D
10 Mutationen
A
C
=
B
D
10 Mutationen
=
.....
B
D
10 Mutationen
73
Maximum Parsimony
Proteinparsimony:
1. Modell (z.B. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt).
Beispiel
Ile ->
Trp

Ile
->
Met
 Ile
->
Ala ...
2. Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden
(PROTPARS-Modell in PHYLIP).
Beispiel:
Ile -> Met: ATA/C/T -> ATG: ein Schritt
Ile -> Ala: ATA/C/T -> GCN: zwei Schritte
Ile -> Trp: ATA/C/T -> TGG: drei Schritte
74
Maximum Parsimony
(1)
Start: 3 bel. Taxa
B
C
A
+ 4. Taxon (D) in jeder möglichen Position -> 3 Bäume
B
D
D
C
(2a)
A
C
B
(2b)
E
B
C
E
D
(2c)
A
+ 5. Taxon (E) in jeder der fünf möglichen Positionen
=> 15 Stammbäume etc.
E
E
A
E
75
Maximum Parsimony
Problem: Anzahl der möglichen Stammbäume
Number
Number of
Number of
of OTUs
rooted trees
unrooted trees
2
3
4
5
6
7
8
9
10
1
3
15
105
954
10395
135135
2027025
34459425
1
1
3
15
105
954
10395
135135
2027025
=> bei > 10 Sequenzen
ausführliche Suche aller
Stammbäume de facto
unmöglich
76
Maximum Parsimony
1. Lösung:



"Branch and bound"-Methode verwirft Gruppen von
Bäumen, die nicht kürzer werden können als der bis
dahin erhaltene kürzeste Stammbaum.
Man kann die maximale Stammbaumlänge (in
Schritten) vorgeben.
Kann für Problemlösungen mit < ~ 20 Taxa verwendet
werden.
77
Maximum Parsimony
2. Lösung:



Heuristische Verfahren:
"Random addition"
"Branch Swapping":
Nearest neighbor interchange (NNI)
Subtree pruning and regrafting (SPR)
Tree bisection and reconnection (TBR)
78
Maximum Parsimony
Vorteile:
 einfach; ohne konkretes Evolutionsmodell
 Errechnung ancestraler Positionen
 funktioniert gut mit konsistenen Datensätzen
Nachteile:  empfindlich gegen Homoplasien (Konvergenz)
 empfindlich gegen "Long Branch Attraction"
 Astlängen werden unterschätzt
 kein Evolutionsmodell möglich
 für die meisten molekularen Analysen nicht
sehr gut geeignet
79
Charakter-orientierte Methoden
1. Maximum Parsimony (MP) 
2. Maximum Likelihood (ML)
80
Maximum Likelihood
L = P(data|tree)
• Die "Likelihood" ist die Wahrscheinlichkeit der
beobachteten Daten (Sequenzen!), gegeben die
Hypothese (Stammbaum).
• d.h, es wird der Stammbaum errechnet, der die
beobachteten Daten (also die alignierten
Sequenzen) am besten (unter der Annahme des
Modells) erklärt.
81
Maximum Likelihood
Probability (P) = Wahrscheinlichkeit
Wahrscheinlichkeiten summieren sich stets auf 1 auf:
Wie wahrscheinlich ist es, dass ich eine 6 würfele? Antwort: 1/6.
Wie wahrscheinlich ist es, dass ich keine 6 würfele? Antwort
5/6. => 1/6 + 5/6 =1.
Maximum Likelihood (L)  Wahrscheinlichkeit (P)
Für "Likelihood"-Werte summieren sich nicht auf 1 auf:
=> Wie wahrscheinlich ist meine Hypothese unter dem
gegebenen Randbedingungen?
82
Maximum Likelihood
Seq1
Seq2
Seq3
Seq4
CGAGAC
AGCGAC
AGATTA
GGATAG
1
3
A
2
4
Frage: Wie hoch ist die Wahrscheinlichkeit, daß der
Stammbaum A für die Daten (Sequenzen) unter dem
gegebenen Modell verantwortlich ist?
83
Maximum Likelihood
OTU
OTU
OTU
OTU
1
2
3
4
CGAGA
AGCGA
AGATT
GGATA
C
C
A
A
j
C
C
A
A
ACGT ?
Wurzel willkürlich!
ACGT ? 4 x 4 Möglichkeiten
Die Wahrscheinlichkeit für eine best. Position j ist die
Summe der Einzelwahrscheinlichkeiten aller möglichen
ancestralen Nukleotide unter dem gegebenen Modell.
84
ML – Beispiel (vereinfacht):
Daten:
OTU
OTU
OTU
OTU
1
2
3
4
C
C
A
A
Modell (nicht realistisch):
A
A
T
C
G
1 0.1 0.1 0.1
T
1 0.1 0.1
C
1 0.1
G
1
85
ML - Beispiel:
Stammbaum A:
A
C
X
X,Y = A, T, G, oder C
C
Y
A
ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten
86
ML - Beispiel:
Stammbaum 1:
Stammbaum 2:
A
C
C
C
A
C
1 x 1 x 0.1 x 1 x 1 = 0.1
A
C
A
C
T
A
1 x 1 x 0.1 x 0.1 x 0.1 = 0.001
usw... Summe aus 16 möglichen Stammbäumen!
87
ML - Beispiel:
Stammbaum A:
Stammbaum B:
C
A
C
C
C
A
A
A
Gesamt"wahrscheinlichkeit":
Gesamt"wahrscheinlichkeit":
= 0.12427
=> logL = -0.90563
= 0.02302
=> logL = -1.6379
88
Maximum Likelihood
1
2
3
4
CGAGAC
AGCGAC
AGATTA
GGATAG
i ....z
1
3
A
2
4
Wahrscheinlichkeit des Stammbaums A ist das Produkt aller
Wahrscheinlichkeiten für jede Position. ML-Stammbaum =
Stammbaum mit größter "Likelihood".
89
Maximum Likelihood
 Austauschparameter werden aus Evolutionsmodell
berechnet
 Typisches Evolutionsmodell:
• Substitationswahrscheinlichkeit unabhängig von der
Historie der Position (Markov-Modell).
• Eine Substitutationswahrscheinlichkeit im
Stammbaum unabhängig von Zeit oder Position
(homogener Markov-Prozeß).
• Ratenreversibilität: P(A -> T) = P(T -> A).
90
Maximum Likelihood - Vorteile





Mathematisch gut definiert
Funktioniert gut in Simulationsexperimenten
Erlaubt explizite Verbindung von
Evolutionsmodell und Daten (Sequenzen)
"Realistische" Annahmen zur Evolution
Verschiedene Modelle und Stammbäume lassen
sich testen
91
Maximum Likelihood - Nachteile


Maximum likelihood ist nur konsistent (ergibt
einen "wahren" Stammbaum) wenn die
Evolution nach den gegebenen Modell ablief:
Wie gut stimmt mein Modell mit den Daten
überein?
Computertechnisch nicht zu lösen wenn zu
viele Taxa oder Parameter berücksichtigt
werden müssen.
92
Maximum Likelihood


Bei vielen Taxa sind computertechnisch nicht
alle möglichen Stammbäume berechenbar
Lösung: "Intelligente Algorithmen"
- Quartet puzzling
- Bayessche Methode + MCMCMC
93
Statistische Auswertung



ML-Methoden
Parametrisches Bootstrapping
(Datensimulation)
Nicht-parametrisches Bootstrapping
=> häufigste Methode
94
Bootstrapping
Pseudosample 1
Orginalsequenzen
Position
Sequence 1 2 3 4 5
A
A A A A G
B
A G C C G
C
A G A T A
D
A G A G A
6
T
T
T
T
7
G
G
C
C
8
C
C
C
C
9
A
G
A
G
6
T
T
T
T
7
G
G
C
C
7
G
G
C
C
7
G
G
C
C
Position
Sequence 1 2 2 4 5
A
A A A A G
B
A G G C G
C
A G G T A
D
A G G G A
5
G
G
A
A
7
G
C
C
C
8
C
C
C
C
8
C
C
C
C
Pseudosample 2
Position
Sequence 1 1 1 4 4
A
A A A A A
B
A A A C C
C
A A A T T
D
A A A G G
z.B. 100 Wiederholungen
95
Bootstrapping
Taxon 1
Taxon 2
100
Taxon 3
Taxon 8
84
Taxon 9
96
100
Taxon 4
Taxon 5
100
100
Majority-rule consensus tree
Taxon 6
123456789
Freq
----------------.**...... 100.00
...**.... 100.00
.....**.. 100.00
...****.. 100.00
...******
95.50
.......**
84.33
...****.*
11.83
...*****.
3.83
.*******.
2.50
.**....*.
1.00
.**.....*
1.00
Taxon 7
96