Biophysik F1-Praktikum – Kursteil "Molekulare Evolution" Thorsten Burmester Institut für Zoologie Universität Mainz 1 Ziel des Kurses: Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser? Sequenz 1: Sequenz 2: Sequenz 3: Sequenz 4: Sequenz 5: KIADKNFTYRHHNQLV KVAEKNMTFRRFNDII KIADKDFTYRHW-QLV KVADKNFSYRHHNNVV KLADKQFTFRHH-QLV Sequenz 1 Sequenz 4 Sequenz 2 Sequenz 3 Sequenz 5 2 Programm Grundlagen der Molekularen Evolution Datenbanken und Datenbankanalysen Sequenzalignment Stammbaumerstellung Statistische Auswertung 3 Warum molekulare Phylogenie? Verständnis von phylogenetischen Zusammenhängen: • Organismische Evolution (Systematik) • Evolution von Proteinfamilien (Funktion!) • forensische Medizin (Bsp. HIV) • Epidemiologie • Mathematische Probleme 4 Warum molekulare Phylogenie? Rekonstruktion von Verwandtschaftsverhältnissen A. Morphologische Daten B. Sequenzdaten Vorteil der Sequenzdaten: - leichte Zugänglichkeit - Grosse Datenmenge - Zumeist frei von Gewichtungen - können aber dennoch zu falschen Ergebnissen führen! 5 Voraussetzungen der molekularen Phylogenie 1. Evolution vollzieht sich durch Veränderungen. 2. Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab. 3. Die Speziesbildung vollzog sich durch hierarchische Auftrennung. 4. Deren Verlauf läßt sich durch Stammbäume darstellen. 5. Es gibt nur einen historisch korrekten Stammbaum. 6. Organismen sind historisch. Sowohl die Morphologie als auch die DNA- und Aminosäuresequenzen speichern die Informationen über die Vergangenheit. 7. Die Methoden der molekularen Evolution erlauben die Extraktion der in der DNA bzw. den Proteinen gespeicherten Informationen. 6 Was ist ein Stammbaum? Darstellung der Verwandtschaftsverhältnisse A B C D E Schwestergruppen A B C D E F t F t A – F auch "operational taxonomic units" (OTUs) 7 Phylogenetische Grundbegriffe Dichotomie Polytomie A B C D E A B C D E Ast (branch) Knotenpunkt (node) 8 Phylogenetische Grundbegriffe Monophylie A B C D E F monophyletische Taxa (AB) (CDEF) (DEF) (EF) 9 Phylogenetische Grundbegriffe Paraphylie => nicht alle Nachkommen "Reptilien" Eidechsen + Schildkröten Krokodile Schlangen Vögel werden erfasst aufgrund von Plesiomorphien (ursprünglichen Merkmalen) 10 Phylogenetische Grundbegriffe "Geier" Polyphylie => verschiedenen Ursprungs NeuweltGeier StorchenRaubvögel vögel AltweltGeier aufgrund von Homoplasien (Konvergenzen) 11 ungewurzeletes Phylogramm Regenwurm Tausendfüsser Tintenfisch Schnecke Languste Vogelspinne Heuschrecke => keine Evolutions"richtung" 12 Stammbaum Mit Außengruppe gewurzelt Mensch (Außengruppe) = "outgroup" Regenwurm Schnecke Tintenfisch Wurzel ("Root") Tausendfüsser Heuschrecke Languste Vogelspinne t 13 Molekure Phylogenie Vorgehensweise zur Stammbaumerstellung: A. • • • • Wie ist meine Sequenz zu anderen verwandt? Auswahl ähnlicher Sequenzen aus Datenbanken Sequenzalignment Molekularphylogenetische Analyse Statistische Überprüfung B. • • • Wie sind bestimmte Taxa miteinander verwandt? Auswahl geeigneter Sequenzen Sequenzierung (Datenbanken, Klonierung, PCR) Sequenzalignment usw. wie oben 14 Datenbanksuche: Welche Sequenz ist meiner Sequenz "ähnlich"? => Sequenzvergleich: "Alignment" (dt. Alignierung) DPEFKLSYFREDIAINSHHWHWHVIYPVGSNPS--DKKINRKGELFYYMHEQMLARYDAE ::: ::::::::: :: :::::: :: :: : :::::: ::: :: :::: : DPEYKLSYFREDIGINAHHWHWHIVYPATWNPTVMGKEKDRKGELFFYMHQQMCARYDSE 15 Datenbanksuche z.B. BLAST (Basic Local Alignment Search Tool) => vergleicht zwei Sequenzen miteinander BLASTN: Vergleicht eine Nukleinsäuresequenz mit Nukleinsäuredatenbank => nahe verwandte Sequenzen BLASTP: Vergleicht eine Aminosäuresequenz mit Proteindatenbank. => entfernt verwandte Sequenzen 16 Datenbanksuche . BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6 Leserastern mit Proteindatenbank. => Für welches Protein kodiert meine Sequenz? TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäuredatenbank, die in allen 6 Leserastern translatiert wird. => findet z.B. nicht annotierte Proteine in DNA-Daten TBLASTX: Vergleicht die Translationsprodukte aller drei Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6 Leseraster einer Nukleinsäuredatenbank. => z.B. entfernte Verwandtschaft unbek. DNA-Sequenzen 17 BLAST (Basic Local Alignment Search Tool) 18 Multiples SequenzAlignments Gegeben: SeqA Gesucht: SeqB SeqC SeqD N N N N A A A A F F K Y L S S Y L S L S SeqA SeqB SeqC SeqD N N N N A A A A K - F F Y Y L L L S S S S 19 Sequenzalignments Wie erhält man ein multiples Sequenzalignment? Algorithmus (z.B. ClustalX): 1. paarweiser Vergleichen aller Sequenzen miteinander => Berechnung der Distanzen zw. Sequenzen 2. gruppiert Sequenzen nach Ähnlichkeit (Cluster-Bildung) 3. Erstellung paarweiser Alignments 4. sukzessives Alignment nach Ähnlichkeit, dabei die ähnlichsten Sequenzpaare zuerst 20 CLUSTALX 1) Sequenzvergleich A B C D Alle Sequenzen werden miteinander verglichen (schnelles "quick and dirty" Alignment) => Berechnen der Distanzen 21 CLUSTALX 2) Ähnliche Sequenzen werden gruppiert => Cluster-Analyse = Erstellung eines hierarchischen Stammbaums ("guide tree"). A B C D A B C D - 0.75 0.89 0.27 - 0.45 0.82 - 0.77 - A D B C "guide tree" 22 CLUSTALX 3) Alignment von nahe verwandten Sequenzen; die ähnlichsten zuerst. A D B C A D B C 23 CLUSTALX 4) Sukzessives globales Alignment A D B C Lücken = "gaps" A D B C A D B C 24 Alignment Parameter Substitutionsmatrix (Wahrscheinlichkeit von nt bzw. AS-Austauschen) "Gap creation" und "Gap length weights" jeweils für paarweise und MultiAlignments 25 Stammbaumerstellung Anzahl der möglichen Stammbäume: Number Number of Number of of OTUs rooted trees unrooted trees 2 3 4 5 6 7 8 9 10 1 3 15 105 954 10395 135135 2027025 34459425 1 1 3 15 105 954 10395 135135 2027025 26 Stammbaumerstellung 1. Matrix-orientierte Methoden • UPGMA (Unweighted Pair-Group Method with Arithmetric Means) • Neighbor-joining • Minimal Evolution (least squares) 2. Charakter-orientierte Methoden • Maximum Parsimony • Maximum Likelihood 27 Matrix-orientierte Methoden Aus jedem Datensatz kann im Prinzip eine Distanzmatrix erstellt werden Zwei Schritte: 1. Berechnen der paarweisen Abstände zwischen den einzelnen Sequenzen 2. Erstellen eines Stammbaums anhand dieser Abstandsdaten 28 Sequenzevolution Ursprungssequenz Mutationen Sequenz A Zeit Sequenz B Unterschied = Divergenz = Distanz 29 Berechnung einer Distanzmatrix Sequenz Sequenz Sequenz Sequenz Sequenz 1 2 3 4 5 TATAAGCATGACTAGTAAGC TATTAGCATGACTGGTAACC TATTGGCATGACTAGCAGGC TGTTGCCACGATTAGCTACC CGTAGCTATGACCAACGGGC Distanz = Durchschnittliche Änderung pro Position hier: 20 Positionen; => Wieviele beobachtete Änderungen? 30 Distanzmatrix Sequenz Sequenz Sequenz Sequenz Sequenz 1 2 3 4 5 1 2 3 4 0.00 0.15 0.20 0.45 0.00 0.25 0.40 0.00 0.35 0.00 5 0.50 0.65 0.40 0.50 0.00 Abstand zwischen Sequenz 1 und Sequenz 2, ausgedrückt in durchschnittlichen Änderungen pro Nukleotidposition (unkorrigierte Hamming-Distanz). 31 Abstand gegen Zeit! tatsächlicher Abstand zweier Sequenzen = Anzahl der Mutationen % Sättigung beobachteter Abstand => Abstand wird unterschätzt! t 32 Warum? 13 Mutationen => 3 Unterschiede 33 Korrektur der Distanzen tatsächlicher Abstand = Anzahl der Mutationen % Korrektur beobachteter Abstand t 34 Korrektur der Distanzen Frage: Wie korrigieren wir? Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren. Wir brauchen also ein Evolutionsmodell, welches die Wahrscheinlichkeit von multiplen Austauschen, Rückmutationen etc. berücksichtigt. 35 DNA-Evolutionsmodelle 1969: 1980: 1981: 1985: 1990: etc. Jukes & Cantor (JC) Kimura 2-Parameter (K2P) Felsenstein 81 (F81) Hasegawa, Koshino & Yano (HKY85) General Reversible Model (REV) 36 Evolutionsmodell Jukes & Cantor Korrigierte Distanz nach Jukes & Cantor: 3 4 K ln 1 4 3 p K ist der berechnete Abstand (Anzahl der tatsächlichen Substitutionen), p der beobachtete Abstand zwischen zwei Sequenzen. 37 Abstandsberechnung Proteine Modelle für Proteinevolution meist empirisch. Nach Kimura 1983: D = - ln(1 - p - 0.2 x p2) Beispiel: Beobachtete Distanz = 60% => p = 0.6 => D = - ln(1 – 0.6 – 0.2 x 0.62) = 1.11474 => d.h., im Schnitt hat an jeder Position ~ 1,11 AS-Austausche stattgefunden 38 Aber: Modell ist zu einfach! Denn jeder Aminosäureaustausch wird gleich bewertet. In der Natur aber nicht so beobachtet. In der Praxis sind meist bessere Modelle notwendig. Wir kennen diese Modelle: => PAM, BLOSUM-Matrizen 39 Aminosäureeigenschaften Sehr klein aliphatisch CS+S I V L hydrophob M P Y F klein G G A CSH T S D K W H N E R Q aromatisch positiv polar geladen 40 PAMDistanzmatrix A R N D C Q E G H I L K M F P S T W Y V B Z F A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 -4 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 FF -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 9 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 YY -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 7 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6 PAM und BLOSUM Matricen Hohe Sequenzähnlichkeit Hohe Sequenzähnlichkeit PAM 1 BLOSUM 80 PAM 120 BLOSUM 62 PAM 250 BLOSUM 30 Geringe Sequenzähnlichkeit Geringe Sequenzähnlichkeit 42 Distanzmatrix Berechnen des paarweisen Abstands Sequenz Sequenz Sequenz Sequenz Sequenz 1 2 3 4 5 0.000 0.236 0.621 0.702 0.000 0.599 0.672 0.000 0.112 0.000 1.510 1.482 1.561 1.425 0.000 • Ausgedrückt i.d.R. als Mutationen pro Position • Abstand kann > 1 werden! 43 Stammbaumerstellung Wie kommen wir von einer Distanzmatrix zu einem Stammbaum? => Algorithmus berechnet aus den Distanzen den "besten" Stammbaum. Sequenzen selbst werden nicht mehr berücksichtigt. 44 UPGMA Unweighted Pair-Group Method with Arithmetric Means Additive Methode. OTUs werden durch sequenzielles Clustern nach absteigender Ähnlichkeit gruppiert. 45 UPGMA Unweighted Pair-Group Method with Arithmetric Means OTU OTU OTU OTU A B C D OTU A/B OTU C OTU D A 0 B 6 0 A/B 0 C 10 12 0 C 11 0 D 18 20 19 0 D 19 19 0 3 3 3 2.5 3 5.5 A B A B C 46 UPGMA A/B/C D Sequenz A/B/C 0 19 Sequenz D 0 3 2.5 4 3 5.5 9.5 A B C D • nimmt konstante Evolutionsraten an • Außengruppe wird "automatisch" bestimmt 47 UPGMA Ausgangsmatrix A B OTU A 0 6 OTU B 0 OTU C OTU D C 10 12 0 rekonstruierte Matrix A B C OTU A 0 6 11 OTU B 0 11 OTU C 0 OTU D D 18 20 19 0 3 2.5 4 3 5.5 D 19 19 19 0 9.5 A B C D 48 Neighbor-joining (NJ) • Ähnlicher Algorithmus wie UPGMA • berücksichtigt unterschiedliche Evolutionsraten: => Astlängenberechnung • Sukzessives Gruppieren der OTUs • Minimierung der Astlängen => Stammbaum wird aufgelöst => keine konstante Evolutionsrate angenommen 49 Neighbor-joining (NJ) b. 1 a. 8 1 2 X 7 3 4 X 3 5 Y 6 2 4 6 7 8 5 S = ( dji)/N; 1ijN S = Summe aller Astlängen d = Distanzen zwischen allen OTUs N = Anzahl der OTUs Ziel NJ => Minimierung von S 50 Neighbor-joining (NJ) Beispiel: OTU OTU OTU OTU A B C D A B C D 0 6 0 10 12 0 18 20 19 0 A C B D Abstand OTU A zu allen anderen ist aber kürzer als der von OTU B => Astlängen werden bei ungleichen Raten falsch berechnet. NJ korrigiert dies, indem es den Gesamtabstand des betrachteten OTUs zu allen anderen Sequenzen berücksichtigt 51 Neighbor-joining (NJ) Beispiel: OTU OTU OTU OTU A B C D A B C D S 0 6 0 10 12 0 18 20 19 0 34 38 41 57 1. Schritt: Berechnung der Summe der Abstände SA = dAB + dAC + dAD 52 Neighbor-joining (NJ) OTU OTU OTU OTU A B C D A B C D S 0 -30 6 0 10 12 0 18 20 19 0 34 38 41 57 2. Schritt: Transformation der Matrix: d'AB = dAB – (SA + SB)/2 = 6 – (34 + 38)/2 = –30 usw. 53 Neighbor-joining (NJ) Transformation der Matrix: d'AB = dAB – (SA + SB)/2 = 6 – (34 + 38)/2 = –30 usw. A OTU OTU OTU OTU A B C D B 0 6 -30 0 -27.5 -27.5 -27.5 -29.5 C 10 12 0 -30 D S 18 20 19 0 34 38 41 57 => Auswahl der Nachbarn (negativster Wert) hier: A+B oder C+D (führen zum gleichen Ergebnis) => Werden durch Knotenpunkt verbunden 54 Neighbor-joining (NJ) 3. Schritt: Berechnen des Abstands von A und B zu Knotenpunkt X: A OTU OTU OTU OTU A B C D B 0 6 -30 0 -27.5 -27.5 -27.5 -29.5 C D S 10 12 0 -30 18 20 19 0 34 38 41 57 dXA = dAB/2 + [SA/(N-2)* - SB/(N-2)]/2 <=> 6/2 + (17 - 19)/2 = 2 dXB = dAB/2 + [SB/(N-2) - SA/(N-2)]/2 <=> <=> 6/2 + (19 - 17)/2 = 4 oder einfacher: dAB – dXA = 6 – 2 = 4 C B 4 X A 2 D *N-2 = Anzahl der Knotenpunkte 55 Neighbor-joining (NJ) Erstellen einer reduzierten Datenmatrix dXC = (dAC – dAX + dBC – dBX)/2 <=> (10 – 2 + 12 –4)/2 = 8 usw. X OTU OTU OTU X C D 0 -17.5 -15.5 C D S 8 0 -12 16 19 0 24 27 35 usw... 56 Neighbor-joining (NJ) C A 5.5 2.5 2 4 13.5 B D 57 Neighbor-joining (NJ) Ausgangsmatrix A B OTU A 0 6 OTU B 0 OTU C OTU D C 10 12 0 D 18 20 19 0 C 2.5 D 18 20 19 0 2 4 13.5 rekonstruierte Matrix A B C OTU A 0 6 10 OTU B 0 12 OTU C 0 OTU D A 5.5 B D 58 Neighbor-joining (NJ) Warum Transformation? 3 A 2 15 1 B 5 C 7 OTU OTU OTU OTU D A B C D A B C D 0 18 0 10 22 0 13 25 13 0 59 Neighbor-joining (NJ) UPGMA würde rekonstruieren: 5 1.5 5 4.33 => "long branch attraction" A C 6.5 D 10.83 OTU OTU OTU OTU A B C D B A B C D 0 18 0 10 22 0 13 25 13 0 60 Neighbor-joining (NJ) NJ konstruiert? 3 A 2 15 1 B 5 C 7 D A OTU OTU OTU OTU A B C D B 0 18 -35 0 -33 -33 -31.5 -31.5 C 10 22 0 -33.5 D S 13 25 13 0 41 65 45 48 61 Matrix-orientierte Methoden UPGMA Neighbor-joining 3 2.5 4 3 5.5 9.5 A C A 5.5 2.5 B 2 4 C 13.5 B D D 62 Charakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) • Arbeiten direkt mit dem Alignment • Extrahieren mehr Information 63 Charakter-orientierte Methoden Charaktere • kontinuierliche oder diskontinuierliche Eigenschaften 1,2,3,4.... = kontinuierliche Charaktere A,T,G,C = diskontinuierliche Charaktere • Nukleotide und Aminosäuren können als diskrete, diskontinuierliche Charaktere behandelt werden • Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der Charaktere berechnet 64 Maximum Parsimony • Annahme: Evolution ging stets den kürzesten Weg • => Methode des "maximalen Geizes" • kürzester Stammbaum wird berechnet, d.h., der die wenigsten evolutiven Schritten benötigt. 65 Maximum Parsimony Beispiel: 3 mögliche Stammbäume Sequenz A B C D Position 1 2 3 4 5 A A G A G A G C C G A G A T A A G A G A 6 T T T T 7 G G C C 8 C C C C 9 A G A G A C A B A B B D C D D C ((A,B)(C,D)) ((A,C)(B,D)) ((A,D)(B,C)) 66 Maximum Parsimony Welche Positionen sind informativ, bevorzugen also eine bestimmte Topologie? Sequenz A B C D Position 1 2 3 4 5 A A G A G A G C C G A G A T A A G A G A 6 T T T T 7 G G C C 8 C C C C 9 A G A G 3 Positionen invariabel => nicht informativ 67 Maximum Parsimony Sequenz A B C D Position 1 2 3 4 5 A A G A G A G C C G A G A T A A G A G A 6 T T T T 7 G G C C 8 C C C C 9 A G A G 6 Positionen sind variabel => aber auch informativ? 68 Maximum Parsimony Sequenz A B C D Position 1 2 3 4 5 A A G A G A G C C G A G A T A A G A G A 6 T T T T 7 G G C C 8 C C C C 9 A G A G 3 Positionen sind zwar variabel, aber nicht informativ 69 Maximum Parsimony Welche Positionen sind aber nun informativ? Position Sequenz 1 2 3 4 5 6 7 8 9 10 11 A A A G A G T G C A - A B A G C C G T G C G - G C A G A T A T C C A C G D A G A G A T C C G C G * * * * => nur 3 von 9 Positionen sind informativ, d.h., favorisieren eine best. Topologie. => Indels sind Charaktere! 70 Maximum Parsimony ((A,B),(C,D)) Position 3: G • Position 5: • A ((A,C),(B,D)) G A A • A A G • A A • A • C A A C A C G A G A G A G• A Position 9: A ((A,D),(B,C)) • A A • A A • • G A A G A G A A A G A A • G A A A •G • G A ? • A A • G G G 71 Maximum Parsimony Position 1 2 3 4 5 A A G A G A G C C G A G A T A A G A G A * Sequenz A B C D 6 T T T T 7 G G C C * C A D 10 Mutationen C A 8 C C C C 9 A G A G * B A D 15 Mutationen D B 3 mögliche Stammbäume B C 14 Mutationen 72 Maximum Parsimony Aber: Ort der Mutation nicht (immer) eindeutig definiert => Parsimony kann keine Astlängen berechnen. Position 1 2 3 4 5 A A G A G A G C C G A G A T A A G A G A Sequenz A B C D A C A 6 T T T T 7 G G C C 8 C C C C 9 A G A G C = B D 10 Mutationen A C = B D 10 Mutationen = ..... B D 10 Mutationen 73 Maximum Parsimony Proteinparsimony: 1. Modell (z.B. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt). Beispiel Ile -> Trp Ile -> Met Ile -> Ala ... 2. Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden (PROTPARS-Modell in PHYLIP). Beispiel: Ile -> Met: ATA/C/T -> ATG: ein Schritt Ile -> Ala: ATA/C/T -> GCN: zwei Schritte Ile -> Trp: ATA/C/T -> TGG: drei Schritte 74 Maximum Parsimony (1) Start: 3 bel. Taxa B C A + 4. Taxon (D) in jeder möglichen Position -> 3 Bäume B D D C (2a) A C B (2b) E B C E D (2c) A + 5. Taxon (E) in jeder der fünf möglichen Positionen => 15 Stammbäume etc. E E A E 75 Maximum Parsimony Problem: Anzahl der möglichen Stammbäume Number Number of Number of of OTUs rooted trees unrooted trees 2 3 4 5 6 7 8 9 10 1 3 15 105 954 10395 135135 2027025 34459425 1 1 3 15 105 954 10395 135135 2027025 => bei > 10 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich 76 Maximum Parsimony 1. Lösung: "Branch and bound"-Methode verwirft Gruppen von Bäumen, die nicht kürzer werden können als der bis dahin erhaltene kürzeste Stammbaum. Man kann die maximale Stammbaumlänge (in Schritten) vorgeben. Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden. 77 Maximum Parsimony 2. Lösung: Heuristische Verfahren: "Random addition" "Branch Swapping": Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR) 78 Maximum Parsimony Vorteile: einfach; ohne konkretes Evolutionsmodell Errechnung ancestraler Positionen funktioniert gut mit konsistenen Datensätzen Nachteile: empfindlich gegen Homoplasien (Konvergenz) empfindlich gegen "Long Branch Attraction" Astlängen werden unterschätzt kein Evolutionsmodell möglich für die meisten molekularen Analysen nicht sehr gut geeignet 79 Charakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) 80 Maximum Likelihood L = P(data|tree) • Die "Likelihood" ist die Wahrscheinlichkeit der beobachteten Daten (Sequenzen!), gegeben die Hypothese (Stammbaum). • d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt. 81 Maximum Likelihood Probability (P) = Wahrscheinlichkeit Wahrscheinlichkeiten summieren sich stets auf 1 auf: Wie wahrscheinlich ist es, dass ich eine 6 würfele? Antwort: 1/6. Wie wahrscheinlich ist es, dass ich keine 6 würfele? Antwort 5/6. => 1/6 + 5/6 =1. Maximum Likelihood (L) Wahrscheinlichkeit (P) Für "Likelihood"-Werte summieren sich nicht auf 1 auf: => Wie wahrscheinlich ist meine Hypothese unter dem gegebenen Randbedingungen? 82 Maximum Likelihood Seq1 Seq2 Seq3 Seq4 CGAGAC AGCGAC AGATTA GGATAG 1 3 A 2 4 Frage: Wie hoch ist die Wahrscheinlichkeit, daß der Stammbaum A für die Daten (Sequenzen) unter dem gegebenen Modell verantwortlich ist? 83 Maximum Likelihood OTU OTU OTU OTU 1 2 3 4 CGAGA AGCGA AGATT GGATA C C A A j C C A A ACGT ? Wurzel willkürlich! ACGT ? 4 x 4 Möglichkeiten Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell. 84 ML – Beispiel (vereinfacht): Daten: OTU OTU OTU OTU 1 2 3 4 C C A A Modell (nicht realistisch): A A T C G 1 0.1 0.1 0.1 T 1 0.1 0.1 C 1 0.1 G 1 85 ML - Beispiel: Stammbaum A: A C X X,Y = A, T, G, oder C C Y A ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten 86 ML - Beispiel: Stammbaum 1: Stammbaum 2: A C C C A C 1 x 1 x 0.1 x 1 x 1 = 0.1 A C A C T A 1 x 1 x 0.1 x 0.1 x 0.1 = 0.001 usw... Summe aus 16 möglichen Stammbäumen! 87 ML - Beispiel: Stammbaum A: Stammbaum B: C A C C C A A A Gesamt"wahrscheinlichkeit": Gesamt"wahrscheinlichkeit": = 0.12427 => logL = -0.90563 = 0.02302 => logL = -1.6379 88 Maximum Likelihood 1 2 3 4 CGAGAC AGCGAC AGATTA GGATAG i ....z 1 3 A 2 4 Wahrscheinlichkeit des Stammbaums A ist das Produkt aller Wahrscheinlichkeiten für jede Position. ML-Stammbaum = Stammbaum mit größter "Likelihood". 89 Maximum Likelihood Austauschparameter werden aus Evolutionsmodell berechnet Typisches Evolutionsmodell: • Substitationswahrscheinlichkeit unabhängig von der Historie der Position (Markov-Modell). • Eine Substitutationswahrscheinlichkeit im Stammbaum unabhängig von Zeit oder Position (homogener Markov-Prozeß). • Ratenreversibilität: P(A -> T) = P(T -> A). 90 Maximum Likelihood - Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen) "Realistische" Annahmen zur Evolution Verschiedene Modelle und Stammbäume lassen sich testen 91 Maximum Likelihood - Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein? Computertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen. 92 Maximum Likelihood Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar Lösung: "Intelligente Algorithmen" - Quartet puzzling - Bayessche Methode + MCMCMC 93 Statistische Auswertung ML-Methoden Parametrisches Bootstrapping (Datensimulation) Nicht-parametrisches Bootstrapping => häufigste Methode 94 Bootstrapping Pseudosample 1 Orginalsequenzen Position Sequence 1 2 3 4 5 A A A A A G B A G C C G C A G A T A D A G A G A 6 T T T T 7 G G C C 8 C C C C 9 A G A G 6 T T T T 7 G G C C 7 G G C C 7 G G C C Position Sequence 1 2 2 4 5 A A A A A G B A G G C G C A G G T A D A G G G A 5 G G A A 7 G C C C 8 C C C C 8 C C C C Pseudosample 2 Position Sequence 1 1 1 4 4 A A A A A A B A A A C C C A A A T T D A A A G G z.B. 100 Wiederholungen 95 Bootstrapping Taxon 1 Taxon 2 100 Taxon 3 Taxon 8 84 Taxon 9 96 100 Taxon 4 Taxon 5 100 100 Majority-rule consensus tree Taxon 6 123456789 Freq ----------------.**...... 100.00 ...**.... 100.00 .....**.. 100.00 ...****.. 100.00 ...****** 95.50 .......** 84.33 ...****.* 11.83 ...*****. 3.83 .*******. 2.50 .**....*. 1.00 .**.....* 1.00 Taxon 7 96