Fernstudium "Molekulare Evolution" Bernhard Lieb Michael Schaffeld

Werbung
Fernstudium
"Molekulare Evolution"
Bernhard Lieb
Michael Schaffeld
Institut für Zoologie
Universität Mainz
1
Ziel des Kurses
Wie erhalte ich aus meinen (Sequenz-) Daten
einen Stammbaum, und was sagt mir dieser?
Sequenz 1:
Sequenz 2:
Sequenz 3:
Sequenz 4:
Sequenz 5:
KIADKNFTYRHHNQLV
KVAEKNMTFRRFNDII
KIADKDFTYRHW-QLV
KVADKNFSYRHHNNVV
KLADKQFTFRHH-QLV
Sequenz 1
Sequenz 4
⇒
Sequenz 2
Sequenz 3
Sequenz 5
2
Programm
• Datenbanken
• Sequenzalignment
• Stammbaumerstellung
• Statistische Auswertung
3
Warum Phylogenie?
=> Verständnis von phylogenetischen
Zusammenhängen:
• Organismische Evolution
(Systematik)
• Evolution von Proteinfamilien
(Funktion)
• Medizin
(Epidemiologie)
• Forensik
(CSI Miami)
=> Stammbäume
4
Evolution vollzieht sich durch
Veränderungen
AAGACTT
AGGACTT
AAGGCCT
TAGCCCT
AGGGCAT
AGGGCAT
OTU
A
TAGCCCA
B
AGCACTT
TAGACTT
AGCACAA
C
D
AGCGCTT
heute
E
5
Gemeinsame Vorfahren
Vorfahre
Nachkomme 1
Das Leben ist nur einmal
enstanden.
=> alle Organismen sind
miteinander verwandt,
d.h. haben einen
Vorfahren, der in der
Vergangenheit gelebt hat
Nachkomme 2
© Dan Graur
6
Vorfahre (~5 MYA)
Einige Organismen
haben einen
Vorfahren, der erst
vor kurzem gelebt
hat.
© Dan Graur
7
Vorfahre (~100 MYA)
Andere gemeinsame
Vorfahren haben
früher gelebt.
8
© Dan Graur
Vorfahre
(1.500 MYA)
Aber:
Aber Alle
Organismen haben
einen gemeinsamen
Vorfahren!
© Dan Graur
9
Hierarchie und Stammbaum
AAGACTT
AAGGCCT
TGGACTT
AGGGCAT
OTU
A
AGCACTT
TAGCCCT
AGGGCAT
TAGCCCA
B
TAGACTT
AGCACAA
C
D
AGCGCTT
heute
E
10
(1.500 MYA)
(100 MYA)
(5 MYA)
© Dan Graur
11
Ein korrekter Stammbaum
AGGGCAT
OTU
A
TAGCCCA
B
TAGACTT
AGCACAA
C
D
AGCGCTT
heute
E
12
Rekonstruktion
Rekonstruktion
AGGGCAT
OTU
A
TAGCCCA
B
TAGACTT
AGCACAA
C
D
AGCGCTT
Daten
E
13
„Das große Ziel“
Aus den Daten (Sequenzen u.a.)
einen Stammbaum erstellen,
der die historischen
Verwandtschaftsverhältnisse
widerspiegelt.
14
Warum molekulare
Phylogenie?
Rekonstruktion von Verwandtschaftsverhältnissen
A. morphologische Daten (Fossilien, Merkmale, Ontogenie …)
B. molekulare Daten (DNA- u. AS-Sequenzen, Gene …)
Die Methoden der molekularen Evolution erlauben die Extraktion der in
der DNA bzw. den Proteinen gespeicherten Informationen.
Vorteil der Sequenzdaten:
- leichte Zugänglichkeit
- grosse Datenmenge
- können aber dennoch zu falschen Ergebnissen führen!
15
Molekulare Phylogenie
Vorgehensweise zur Stammbaumerstellung:
A. Evolution der Proteine
Wo liegt der Ursprung eines Proteins oder einer Proteinfamilie?
Auswahl ähnlicher Sequenzen aus Datenbanken
Sequenzalignment
Molekularphylogenetische Analyse
Statistische Überprüfung
B. Evolution der Organsimen (Tree of Life)
Verwandschaft bestimmter Taxa miteinander verwandt?
Auswahl geeigneter Sequenzen
Sequenzierung (Datenbanken, Klonierung, PCR)
Sequenzalignment usw. (wie oben)
16
Datenbanken
•
•
•
•
•
•
•
NCBI – GenBank
DDBJ - DNA
EMBL-EBI
SWISS-PROT
PIR
UniProt
pdb
17
Datenbanksuche
z.B. Ausgangspunkt: eigene ermittelte Sequenz
(Query)
BLAST (Basic Local Alignment Search Tool)
=> vergleicht zwei Sequenzen miteinander
BLASTN: Vergleicht eine Nukleinsäuresequenz mit
Nukleinsäuredatenbank
=> nahe verwandte Sequenzen
BLASTP: Vergleicht eine Aminosäuresequenz mit
Proteindatenbank.
=> entfernt verwandte Sequenzen
18
Datenbanksuche
.
BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6
Leserastern mit Proteindatenbank.
=> Für welches Protein kodiert meine Sequenz?
TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäuredatenbank, die in allen 6 Leserastern translatiert wird.
=> findet z.B. nicht annotierte Proteine in DNA-Daten
TBLASTX: Vergleicht die Translationsprodukte aller 6 Leseraster einer
Nukleinsäuresequenz mit den Translationsprodukten aller 6
Leseraster einer Nukleinsäuredatenbank.
=> z.B. entfernte Verwandtschaft unbekannte DNA-Sequenzen
19
BLAST
(Basic Local Alignment Search Tool)
20
BLAST
(Basic Local Alignment Search Tool)
PRAXIS 1
21
Multiples SequenzAlignments
Gegeben:
Gesucht:
SeqA
SeqB
SeqC
SeqD
N
N
N
N
A
A
A
A
F
F
K
Y
L S
S
Y L S
L S
Indel:
Insertion/Deletion
SeqA
SeqB
SeqC
SeqD
N
N
N
N
A
A
A
A
K
-
F
F
Y
Y
L
L
L
S
S
S
S
22
CLUSTALX
Alle Sequenzen werden paarweise
miteinander verglichen
A
B
C
D
Berechnung der Distanzen
guide tree
A
B
C
D
A
B
C
D
-
0.75
0.89
0.27
-
0.45
0.82
-
0.77
A
B
D
C
23
CLUSTALX
Ähnliche Sequenzen werden zu einem Cluster
gruppiert
Alignment innerhalb der Cluster
A
B
D
C
Lücken = "gaps"
A
D
B
C
24
CLUSTALX
A
D
Sukzessives
globales
Alignment
A
B
B
C
D
C
alte Lücken = "gaps"
neue Lücken = "gaps"
A
D
B
C
25
Alignment Parameter
PRAXIS 1
26
Was ist ein Stammbaum?
Darstellung der Verwandtschaftsverhältnisse
A
Schwestergruppen
A
B
B
C
C
D
E
F
D
E
F
t
t
A – F auch "operational taxonomic units" (OTUs)
Taxon/Taxa
27
A
(o uße
ut n
gr g r
ou up
p) pe
Phylogenetische Grundbegriffe
A
B
Dichotomie
Innengruppe
C(ingroup)
D
A
E
Polytomie
B C D
E
Ast
(branch)
Knotenpunkt
(node)
Wurzel
(root)
A – F auch "operational taxonomic units" (OTUs)
28
Mono-, Para- und Polyphylie
A
B C D E
F
Monophyletische Taxa:
Alle Nachkommen einer
gemeinsamen Stammform
Paraphyletische Taxa:
Nicht alle Nachkommen einer
gemeinsamen Stammform
Polyphyletische Taxa:
Keine gemeinsame Stammform
(unterschiedliche Vorfahren)
29
Phylogenetische Grundbegriffe
Paraphylum
aufgrund von homologen
(ursprünglichen) Merkmalen
"Reptilien"
Eidechsen
+
Schildkröten
Schlangen
Krokodile
Vögel
aber nicht alle Nachkommen
werden erfasst
30
Phylogenetische Grundbegriffe
Polyphylie
=> verschiedenen Ursprungs
"Geier"
NeuweltGeier
StorchenAltweltvögel
Geier Raubvögel
aufgrund von Homoplasien
(Konvergenzen)
31
Clado-, Phylo- und Dendrogramm
C
C
D
D
D
E
E
F
F
F
Änderungen & Zeit
Änderungen
Cladogramm
B
B
B
C
E
A
A
A
Phylogramm
(metrisch)
Dendrogramm
(ultrametrisch)
Additive Phylogramme
32
Stammbaum
Ohne Außengruppe:
Mit Außengruppe:
Neunauge
Hai
Hai
Flösselhecht
Neunauge
Goldfisch
Zebrafisch
Maus
Flösselhecht
Mensch
Stahlenflosser
Forelle
Lungenfisch
Molch
Forelle
Molch
Ochsenfrosch
Ochsenfrosch
Goldfisch
Zebrafisch
Krallenfrosch
Lungenfisch
Evolutionsrichtung?
Krallenfrosch
Maus
Landwirbeltiere
Mensch
Evolutionsrichtung
33
Vorgehensweise
Sequenzen
(Input)
Multiple Sequence Alignment
Auswahl der Methode
Evolutionsmodell/Algorithmus
Stammbaumberechnung
Ergebnisüberprüfung
(output)
34
Stammbaumerstellung
1. Distanz-orientierte Methoden
•
•
•
Sequenzen
UPGMA (Unweighted Pair-Group Method with
Arithmetric Means)
Neighbor-joining
Minimal Evolution
=> Sequenzen werden in Distanzmatrix
konvertiert
Multiples Alignment
Auswahl der Methode
Evolutionsmodell/Algorithmus
2. Charakter-orientierte Methoden
•
•
Parsimony
Maximum Likelihood
=> jede Position wird als informative Einheit
betrachtet
Stammbaumberechnung
Ergebnisüberprüfung
35
Distanz-orientierte Methoden
Aus ‘jedem‘ Datensatz kann eine
Distanzmatrix erstellt werden
Zwei Schritte:
1.Berechnen der paarweisen
Abstände zwischen den
Sequenzen
2. Erstellen eines Stammbaums
anhand dieser Abstandsdaten
Sequenzen
Multiples Alignment
Auswahl der Methode
Evolutionsmodell/Algorithmus
Stammbaumberechnung
Ergebnisüberprüfung
36
Berechnung einer Distanzmatrix
Sequenz
Sequenz
Sequenz
Sequenz
Sequenz
1
2
3
4
5
TATAAGCATGACTAGTAAGC
TATTAGCATGACTGGTAACC
TATTGGCATGACTAGCAGGC
TGTTGCCACGATTAGCTACC
CGTAGCTATGACCAACGGGC
Distanz = durchschnittliche Änderung pro Position
hier: 3 von 20 Positionen verändert
Sequenz
Sequenz
Sequenz
Sequenz
Sequenz
Sequenz
Sequenz
Sequenz
Sequenz
Sequenz
11
22
33
11 0.00
0.15 0.20
0.00 0.15
0.15
0.20
22
0.00
0.00 0.25
0.25
33
0.00
0.00
44
55
44
0.45
0.45
0.40
0.40
0.35
0.35
0.00
0.00
55
0.50
0.50
0.65
0.65
0.40
0.40
0.50
0.50
0.00
0.00
37
Korrektur der Distanzen
tatsächlicher Abstand
= Anzahl der Mutationen
%
Korrektur
beobachteter Abstand
t
38
Korrektur der Distanzen
Frage: Wie korrigieren wir?
Wir wollen die tatsächliche Anzahl der
evolutiven Ereignisse rekonstruieren.
Wir brauchen also ein Evolutionsmodell,
welches die Wahrscheinlichkeit von
multiplen Austauschen, Rückmutationen
etc. berücksichtigt.
39
Korrekturmodelle
(Evolutionsmodell)
Modelle
für Proteinevolution sind meist
empirisch
40
Evolutionsmodelle
Transmembran-Proteine
Globuläre Proteine
K
K
R
N
41
Stammbaumberechnung
Daten
ClustalX
Alignment
Evolutionsmodell z.B.
JTT; PAM; BLOSUM ...
Protdist
Distanzmatrix
Algorithmus
z.B UPGMA; NJ…
neighbor
Stammbaum
NJTree
UPGMA-Tree
42
Stammbaumberechnung
output
PRAXIS 3
43
Der Baum
Ente
95
36
Gans
95
Taube
79
Huhn
Krokodil
52
100
Alligator
65
Schildkrot
Wal
?
100
Mensch
‚Long branch attraction?‘
Salamander
Zebrafisch
100
Lachs
44
UPGMA
-
NJ
A
A
B
B
C
C
D
D
E
F
UPGMA
Unweighted Pair-Group Method
with Arithmetric Means
E
F
NJ
Neighbor Joining
•Aussengruppe festgelegt
•Aussengruppe wählbar
•konstante Evolutionsrate
•unterschiedliche Evolutionsraten
45
UPGMA
Unweighted Pair-Group Method with Arithmetric
Means
OTU
OTU
OTU
OTU
OTU
OTU
OTU
OTU
AA
BB
CC
DD
AA
00
BB
CC
DD
66 10
10 18
18
00 12
12 20
20
00 19
19
00
d AC + d BC
2
OTU
OTU
OTU
OTU
OTU
OTU
3
=3
3
A
B
d AD + d BD
2
A/B
CC
DD
A/B
A/B
00
11
A/B
11 19
19
CC
00 19
19
DD
00
5.5
2.5
A/B
=5,5
5.5
C
46
UPGMA
Unweighted Pair-Group Method with Arithmetric Means
A/B/C
A/B/C DD
Sequenz
00
19
Sequenz A/B/C
A/B/C
19
Sequenz
00
Sequenz DD
2.5
4
3
3
5.5
9.5
A
B
C
D
• nimmt konstante Evolutionsraten an
• Außengruppe wird „automatisch“ bestimmt
47
UPGMA
Unweighted Pair-Group Method with Arithmetric Means
Ausgangsmatrix
AA
BB
CC
DD
OTU
00
66 10
OTU AA
10 18
18
OTU
00 12
OTU BB
12 20
20
OTU
00 19
OTU CC
19
OTU
00
OTU DD
rekonstruierte
AA
OTU
00
OTU AA
OTU
OTU BB
OTU
OTU CC
OTU
OTU DD
Matrix
BB
CC
DD
66 11
11 19
19
00 11
11 19
19
00 19
19
00
2.5
4
3
3
5.5
9.5
A
B
C
D
UPGMA setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten
48
berücksichtigt werden
Problem UPGMA
3
5
A
2
1.5
15
1
5
B
6.5
C
7
10.83
D
OTU
OTU
OTU
OTU
OTU
OTU
OTU
OTU
AA
BB
CC
DD
5
4.33
AA
BB
00
18(21,7)
18(21,7)
00
CC
A
C
D
B
DD
10
13
10
13
22(21,7)
22(21,7) 25(21,7)
25(21,7)
00
13
13
00
49
Neighbor-joining NJ
A
„Star-tree“
B
C
b
c
a
A
OTU A
OTU A
OTU B
OTU B
OTU C
OTU C
OTU D
OTU D
OTU E
OTU E
d
e
E
A
0
B
C
B
C
22 39
22 39
0 41
0 41
0
0
D
D
39
39
41
41
18
18
E
E
41
41
43
43
20
20
10
10
0
0
Paare werden kombiniert
D
S0=78,5
S0=a+b+c+d+e
0
„modified Star-tree“
B
C
b
a
c
f
A
Aber: Welche Paare werden
kombiniert?
d
e
D
E
Smn = [(∑dim+din)/2(N-2)]+dmn/2+∑dij/N-2
i und j alle Sequenzen ausser m und n, wobei i<j
S0 = (∑ dji)/N-1
i≤j
S0 = Summe aller Astlängen
d = Distanzen zwischen allen OTUs
N = Anzahl
Ziel
NJder
=>OTUs
Minimierung
SAB=67,7
SBC=81
SCD=76
SDE=70
der Summe aller Astlängen
50
Neighbor-joining NJ
„Star tree“
Grouping
Astlängen
„modified Star-tree“
B
C
b
a
A
c
f
d
e
E
-> Baumlänge
-> Baumlängen
-> FM
Neues taxon (AB) -> neue Matrix
D
Grouping
Astlängen
Neues taxon
-> Baumlängen
-> FM
-> neue Matrix
Neues taxon (XY) -> neue Matrix
Grouping
Astlängen
Neues taxon
-> Baumlängen
-> FM
-> neue Matrix
51
Neighbor-joining NJ
Errechnen der durchschnittlichen Distanzen von jedem Taxon zu jedem
anderen. Dies geschieht mit folgender Formel:
OTU
OTU AA
OTU
OTU BB
OTU
OTU CC
OTU
OTU DD
OTU
OTU EE
AA
00
BB
22
22
00
CC
39
39
41
41
00
DD
39
39
41
41
18
18
00
EE
41
41
43
43
20
20
10
10
00
Summe
Summe
141
141
147
147
118
118
108
108
114
114
CC
DD
EE
39
39
39
39 41
41
41
41
43
41
41
43
00
18
20
18
20
-57,3
0
10
-57,3
0
10
-57,3
-60,6
-57,3 -60,6 00
Summe
Summe
141
141
147
147
118
118
108
108
114
114
…und errechnen der „Distanzunterschiede“ DAB
DAB=dAB –(SA+SB)/N-2
OTU
OTU AA
OTU
OTU BB
OTU
OTU CC
OTU
OTU DD
OTU
OTU EE
AA
00
-74
-74
-47,3
-47,3
-46
-46
-44
-44
BB
22
22
00
-47
-47
-44
-44
-44
-44
52
Neighbor-joining NJ
OTU
OTU AA
OTU
OTU BB
OTU
OTU CC
OTU
OTU DD
OTU
OTU EE
AA
00
BB
22
22
00
CC
39
39
41
41
00
DD
39
39
41
41
18
18
00
EE
41
41
43
43
20
20
10
10
00
Summe
Summe
141
141
147
147
118
118
108
108
114
114
CC
29
29
00
-44
-44
-44
-44
DD
29
29
18
18
00
-49
-49
EE
31
31
20
20
10
10
00
Summe
Summe
89
89
67
67
57
57
61
61
Reduzierte Matrix
OTU
OTU AB
AB
OTU
C
OTU C
OTU
OTU DD
OTU
OTU EE
AB
AB
00
-49
-49
-44
-44
-44
-44
Berechnen der Astlängen nach FM
Und so weiter…..
53
Neighbor-joining NJ
„final tree“
B
C
b=12
c=9
c
f=20
a=10
d=4
g=5
e=6
A
D
E
OTU
OTU AA
OTU
OTU BB
OTU
OTU CC
OTU
OTU DD
OTU
OTU EE
AA
00
BB
22
22
00
CC
39
39
41
41
00
DD
39
39
41
41
18
18
00
EE
41
41
43
43
20
20
10
10
00
Summe
Summe
141
141
147
147
118
118
108
108
114
114
54
Neighbor-joining NJ
• Ähnlicher Algorithmus wie UPGMA
• Sukzessives Gruppieren der Taxa ohne Verlust eines
Astlängenunterschiedes
• Minimierung der Gesamt-Astlängen des Baums
=> Stammbaum wird aufgelöst
=> berücksichtigt unterschiedliche Evolutionsraten
(Rekonstruierte Distanzmatrix=Ausgangsmatrix)
55
Was bisher geschah...
Daten
Alignment
ClustalX, Dialign…
Evolutionsmodell JTT,
PAM, BLOSUM ...
Distanzmatrix
Algorithmus
Stammbaum
NJ
FM
LS
ME
z.B UPGMA; NJ…
UPGMA
56
Statistische Auswertung
….oder….
Wie gut passt mein Stammbaum zu den
Daten?
häufigste Methode ist „Bootstrapping“…
57
Bootstrapping
Ziehen MIT
Zurücklegen
58
Bootstrapping
Pseudosample 1
Orginalsequenzen
Position
Sequence 1 2 3 4 5
A
A A A A G
B
A G C C G
C
A G A T A
D
A G A G A
6
T
T
T
T
7
G
G
C
C
8
C
C
C
C
9
A
G
A
G
Pseudosample 2
Position
Sequence 1 1 1 4 4
A
A A A A A
B
A A A C C
C
A A A T T
D
A A A G G
Position
Sequence 1 2 2 4 5
A
A A A A G
B
A G G C G
C
A G G T A
D
A G G G A
5
G
G
A
A
7
G
C
C
C
8
C
C
C
C
8
C
C
C
C
z.B. 100 Wiederholungen
6
T
T
T
T
7
G
G
C
C
7
G
G
C
C
7
G
G
C
C
A
C
D
B
B
A
C
D
…
100 Stammbäume
59
Bootstrapping
Taxon 1
100
84
96
100
100
100
Majority-rule consensus tree
Taxon 2
Taxon 3
Taxon 8
Taxon 9
Taxon 4
Taxon 5
Taxon 6
123456789
Freq
----------------.**...... 100.00
...**.... 100.00
.....**.. 100.00
...****.. 100.00
...******
96.00
.......**
84.00
...****.*
13.00
...*****.
5.00
.*******.
3.00
.**....*.
1.00
.**.....*
1.00
Taxon 7
60
Bootstrapping
61
Stammbaumerstellung
1. Matrix-orientierte Methoden
2. Charakter-orientierte Methoden
62
Charakter-orientierte
Methoden
• Arbeiten direkt mit dem Alignment indem Nukleotide
bzw. Aminosäuren als diskrete Charaktere behandelt
werden
• Der phylogenetische Stammbaum wird anhand des
Musters der Änderungen der Charaktere berechnet
• Extrahieren mehr Information als Matrix-orientierte
Methoden
1. Maximum Parsimony (MP)
2. Maximum Likelihood (ML)
63
Maximum Parsimony
„Maximaler Geiz"
Annahme:
• Evolution ging stets den kürzesten Weg und
somit wird der Stammbaum berechnet, der die
wenigsten evolutiven Schritten benötigt.
Methode:
• Alle Möglichkeiten analysieren
64
Maximum Parsimony
Sequenz
A
B
C
D
3 mögliche
Stammbäume
A
B
Position
1 2 3 4 5
A A G A G
A G C C G
A G A T A
A G A G A
*
C
D
10 Mutationen
A
C
6
T
T
T
T
7
G
G
C
C
*
8
C
C
C
C
9
A
G
A
G
*
B
D
15 Mutationen
A
B
D
C
14 Mutationen
65
Maximum Parsimony
Aber: Ort der Mutation nicht (immer) eindeutig
definiert => Parsimony kann keine Astlängen
berechnen.
Position
Sequenz
A
B
C
D
2
A
G
G
G
3
G
C
A
A
A
C
G
G
1
A
A
A
A
5
G
G
A
A
A
6
T
T
T
T
7
G
G
C
C
8
C
C
C
C
9
A
G
A
G
A
C
=
A
2 Mutationen
4
A
C
T
G
C
G
A
2 Mutationen
A
66
Maximum Parsimony
Aber: Ort der Mutation nicht immer eindeutig definiert =>
Parsimony kann keine Astlängen berechnen.
A
Sequenz
A
B
C
D
Position
1 2 3 4 5
A A G A G
A G C C G
A G A T A
A G A G A
C
A
6
T
T
T
T
C
=
B
D
10 Mutationen
7
G
G
C
C
8
C
C
C
C
9
A
G
A
G
A
=
B
D
10 Mutationen
C
=
.....
B
D
10 Mutationen
67
Maximum Parsimony
Proteinparsimony:
1. Modell (z.B. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt).
Beispiel
Ile -> Trp ≡ Ile -> Met ≡ Ile -> Ala ...
2. Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden
(PROTPARS-Modell in PHYLIP).
Beispiel:
Ile -> Met: ATA/C/T -> ATG: ein Schritt
Ile -> Ala: ATA/C/T -> GCN: zwei Schritte
Ile -> Trp: ATA/C/T -> TGG: drei Schritte
68
Maximum Parsimony
Vorteile:
Nachteile:
gesamter Datensatz
empfindlich gegenüber:
stark unterschiedliche Evolutionsraten
Evolutionsmodelle eingeschränkt möglich
hoher Rechenaufwand bei >20 Taxa
69
Maximum Parsimony
Vorteile:
gesamter Datensatz
Nachteile:
empfindlich gegenüber
stark unterschiedliche Evolutionsraten
Evolutionsmodelle eingeschränkt möglich
hoher Rechenaufwand bei >20 Taxa
70
Stammbaumberechnung
Daten
ClustalX
Alignment
Evolutionsmodell
„kürzester Weg“
Protpars
Maximum
Parsimony
Stammbaum
71
Stammbaumberechnung
PRAXIS 5
72
Likelihood
Hypothese
• Ereignisse sind unabhängig
• Alle ‚Kopfwürfe‘ besitzen gleiche
UNBEKANNTE Kopfwahrscheinlichkeit p
Daten: KKZKZKKZZZ
L = P(Daten | Hypothese )
Keine Verteilung, Plot der selben Daten
(KKZKZKKZZZ) gegen verschiedene
Werte von p (Hypothese)
=> Mit welcher Kopfwahrscheinlichkeit p
bekomme ich am ehesten diese Daten?
Likelihood
=> Likelihood L(D|H) = pp(1-p)(1-p)p(1-p)pp(1-p)(1-p)(1-p)
0,0 0,2
0,4
0,6
0,8
1,0[p] 73
Maximum Likelihood
L = P(data|hypothesis)
• Wahrscheinlichkeit der beobachteten Daten
(Sequenzen!) im Lichte der Hypothese
(Stammbaum).
• d.h, es wird der Stammbaum errechnet, der
die beobachteten Daten (also die alignierten
Sequenzen) am besten (unter der Annahme des
Modells) erklärt.
Evolutionsmodell
Ein Baum wird generiert und man prüft dann ob die gegebenen Daten den Baum generieren können 74
ML - Prinzip
Sequence 1
Sequence 2
Sequence 3
Sequence 4
CGAGAA
AGCGAA
AGATTT
GGATAT
X,Y = A, T, G, oder C
A
T
C
G
A
1,0
T
0,1
C
0,2
G
0,4
1,0
0,3
0,6
1,0
0,1
1,0
Likelihood einer
vorgegebenen für
Berechnen
aller Möglichkeiten
Topologie
ist dasund
Produkt
aller
eine Topologie
eine Position
1x1x1x0,1x0,1=0,01
Wahrscheinlichkeiten jeder
Position
75
ML - Beispiel:
Stammbaum B:
Stammbaum A:
C
A
C
C
C
A
A
A
Gesamt"wahrscheinlichkeit":
Gesamt"wahrscheinlichkeit":
= 0,12427
=> logL = -0,90563
= 0,02302
=> logL = -1,6379
76
Maximum Likelihood
Vorteile
Mathematisch gut definiert
Funktioniert gut in Simulationsexperimenten
Erlaubt explizite Verbindung von
Evolutionsmodell und Daten (Sequenzen)
"Realistische" Annahmen zur Evolution
Verschiedene Modelle und Stammbäume
lassen sich testen
77
Maximum Likelihood
Nachteile
Maximum likelihood ist nur konsistent
(ergibt einen "wahren" Stammbaum) wenn
die Evolution nach den gegebenen Modell
ablief: Wie gut stimmt mein Modell mit den
Daten überein?
Computertechnisch nicht zu lösen wenn zu
viele Taxa oder Parameter berücksichtigt
werden müssen.
78
Maximum Likelihood
Bei vielen Taxa sind computertechnisch
nicht alle möglichen Stammbäume
berechenbar
Lösung: "Intelligente Algorithmen"
- Quartet puzzling
- Bayessche Methode + MCMCMC
79
ML, MP versus NJ und UPGMA
ML, MP
Stammbaum vorgegeben
Analyse aller Möglichkeiten diesen Stammbaum zu
erhalten
MP: kürzester – ML: zutreffenster
NJ, UPGMA
Sukkzessive Rekonstruktion des Stammbaumes
NJ: „echte“ Evolutionsraten
UPGMA: „gemittelte“ Evolutionsraten
80
Stammbaumberechnung
Daten
ClustalX
Alignment
Protdist
„Evolutionsmodelle“
Distanzmatrix
neighbor
NJ
UPGMA
protpars
proML
ML
MP
81
Was ‚können‘ oder ‚kennen wir !?
Charakter
Max.Parsimony
Alignment
Evolutionsmodelle
Max. Likelihood
Matrix
Distanz matrix
Neigbor Joining
UPGMA
Stammbaum
82
☺
Kritik,
Anregungen
Vorschläge
Verbesserungen…
…. oder was auch
immer,
bitte
an
Bernd
oder
Michael
[email protected]
[email protected]
83
Herunterladen