Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung: http://gobics.de/lectures/ss07/rv ID rv07 PW molbio Phylogenie Ziel: “Baum des Lebens”, d.h. Aufklärung der Verwandtschaftsverhältnisse zwischen Organismen zwischen Genen bzw. Proteinen Phylogenie Tree of Life web projekt Phylogenie Phylogenie Stammbäume von Genen/Proteinen Phylogenie Phylogenie der Organismen – traditionell: Anatomie Entwicklung Verhalten Geographie Biochemie Um Verwandtschaft zu bestimmen. Phylogenie Seit 1967: Phylogenie­Rekonstruktion durch Software­ Analyse von DNA­ bzw. Protein­Sequenzen (Walter Fitch) Phylogenie Erste Schwierigkeit, wenn Sequenzdaten zur Rekonstruktion Phylogenie von Spezies verwendet werden: Orthologie: Sequenzen getrennt durch Artenbildung Paralogie: Sequenzen getrennt durch Duplikation innerhalb einer Art Phylogenie Nur orthologe Sequenzen zur Rekonstruktion der Phylogenie von Spezies geeignet! Phylogenie Phylogenetischer Baum als Graph: Phylogenie Phylogenetischer Baum als Graph: Wurzel Innere Knoten Blätter Graph besteht aus Kanten und Knoten Phylogenie Phylogenetischer Baum als Graph: Wurzel Innere Knoten Blätter Bestandteile (1) Topologie (Verzweigung), (2) Längen der Kanten Phylogenie Phylogenetischer Baum als Graph: Wurzel Zeit Innere Knoten Blätter B C D A E Spezies/Sequenzen A, B, C, D, E an Blättern des Baums Phylogenie Phylogenetischer Baum als Graph: Wurzel Zeit Innere Knoten Blätter B C D A E Bei Baum mit Wurzel: Richtung der Zeit von Wurzel zu Blättern Phylogenie E A B C D Baum ohne Wurzel: Keine Richtung der Zeit Phylogenie E A B C D “Richtiger” Baum hat Wurzel, aber viele Methoden liefern Baum ohne Wurzel. Phylogenie: Distanz­Methoden Gegeben: N Spezies X1, … XN Distanzen d(i,j) für jedes Paar Xi und Xj (“Metrik”). Interpretation: Evolutionärer Abstand Gemesen z.B. als Zahl der Mutationen zwischen Xi und Xj Gesucht: Baum T , der zu Distanzen d(i,j) “passt” Phylogenie: Distanz­Methoden Genauer: Baum T für X1, … XN mit Kantenlängen definiert Abstand dT(i,j) für jedes Xi und Xj (Länge des “Wegs” von Blatt Xi zu Blatt Xj Für “beobachtete” bzw. Berechnete Distanzen d(i,j): Baum T gesucht mit d(i,j) = dT(i,j) Bzw. d(i,j) ≈ d (i,j) Phylogenie: Distanz­Methoden Methoden (“hierarchisches Clustern”): UPGMA: Einfache Clustering­Methode Neighbor­Joining: weniger sensitiv gegen unterschiedliche Mutationsraten Phylogenie: Distanz­Methoden UPGMA findet “richtigen” Baum, falls Baum T existiert, von dem Distanzen d(i,j) abgeleitet. D.h. d(i,j) = dT(i,j) Bedingung: Molekulare Uhr gegeben, d.h. Alle Blätter gleich weit von Wurzel entfernt. Phylogenie: Distanz­Methoden Bei Sequenz­Daten: 3. Konstante Mutationsrate im ganzen Baum 5. Wenige Mutationen: Doppelmutationen können vernachlässigt werden Dann: Zahl der Mutationen zwischen Xi und Xj proportional zu Zeit seit letztem gemeinsamen Vorfahren von Xi und Xj Phylogenie: Distanz­Methoden Idee bei UPGMA: Bilde Cluster Ci von Spezies/Sequenzen. Anfangs Ci = { Xi }, d.h. jeder Cluster enthält ein Element Für grössere Cluster: Abstand zwischen Clustern = durchschnittlicher Abstand d(i,j) ihrer Elemente. Phylogenie: Distanz­Methoden Idee bei UPGMA: Bilde Cluster Ci von Spezies/Sequenzen. Vereinige Cluster Ci und Cj mit kleinstem Abstand Höhe des “Knotens” über vereinigten Clustern = halbe Distanz zwischen Ci und Cj Problem: unterschiedliche Mutationsraten! Phylogenie Neighbour­Joining (NJ) Verwende korrigierte Distanz D(i,j) für unterschiedliche Mutationsraten. Spezies mit kleinster Distanz D(i,j) sind in Baum benachbart! Ergebnis: Baum ohne Wurzel Findet richtigen Baum, falls Baum T existiert, von dem Distanzen d(i,j) abgeleitet. D.h. d(i,j) = dT(i,j) Phylogenie Neighbour­Joining (NJ) Letzter Schritt: Finde Position der Wurzel durch “Outgroup” (Aussengruppe) Phylogenie Zeichen­basierte Methoden: Betrachten einzelne Positionen in multiplem Alignment Genauer als Distanz­Methoden, aber rechenaufwendig! Phylogenie: Maximum Parsimony Ziel: finde phylogenetischen Baum, der die Zahl der evloutionären Ereignisse minimiert Gegeben: Matrix von Merkmalen bzw. Merkmals­ Ausprägungen bei Spezies/Sequenzen Frage: Wie viele Änderungen von Merkmalsausprägungen erforderlich, um beobachtete Merkmale zu erklären? Antwort: Hängt von Baum ab (bzw. von Topologie). Phylogenie: Maximum Parsimony Beispiel: Spalte in multiplem Alignment: . . . a . . . Spezies A . . . t . . . Spezies B . . . a . . . Spezies C . . . t . . . Spezies D Frage: Wieviele Mutationen t­>a oder a­>t sind (mindestens) passiert? Antwort: Hängt von Baum ab! Phylogenie: Maximum Parsimony . . . a . . . spezies A . . . t . . . spezies B . . . a . . . spezies C . . . t . . . spezies D Baum 1 A B C D (mindestens) zwei Mutationen notwendig, um beobachtete Daten zu erklären! Phylogenie: Maximum Parsimony . . . a . . . spezies A . . . t . . . spezies B . . . a . . . spezies C . . . t . . . spezies D Baum 2 A C B D Nur eine Mutationen notwendig, um beobachtete Daten zu erklären! Phylogenie: Maximum Parsimony . . . a . . . spezies A . . . t . . . spezies B . . . a . . . spezies C . . . t . . . spezies D zwei Mutationen notwendig, um beobachtete Daten zu erklären! Baum 3 A D C B Phylogenie: Maximum Parsimony Ziel: finde phylogenetischen Baum, der die Zahl der evloutionären Ereignisse minimiert Berechne minimale Zahl der Ereignisse für jede mögliche Topologie (keine Kantenlängen berechnet!) Bei molekularen Sequenzdaten: Merkmal = Position in Alignment Ausprägung = Nukleotid/Aminosäure an Position Phylogenie: Maximum Parsimony Im Sinne von Parsimony (“Sparsamkeit”): Baum 2 besser als Baum 1 und Baum 2, weil weniger Ereignisse notwendig, um Daten zu erklären Zahl der (notwendigen) Ereignisse (Mutationen) hängt nicht von Position der Wurzel im Baum ab. Daher: Suche Baum ohne Wurzel Phylogenie: Maximum Parsimony Um besten Baum zu finden: Betrachte alle Spalten in multiplem Alignment, summiere Zahl der (notwendigen) Mutationen für jede Topologie. Phylogenie: Maximum Parsimony . . . a . . . spezies A . . . a . . . spezies B . . . a . . . spezies C . . . a . . . spezies D A Einfachster Fall: Identische Nukleotide in Spalte ­> Null Mutationen notwendig für jeden B C D möglichen Baum Phylogenie: Maximum Parsimony . . . a . . . spezies A . . . b . . . spezies B . . . a . . . spezies C . . . a . . . spezies D A Zweit­einfachster Fall: Identische Nukleotide in Spalte, bis auf eine Abweichung ­> Eine Mutationen B C D notwendig für jeden möglichen Baum Phylogenie: Maximum Parsimony Daher: Ignoriere alle Spalten in denen alle Sequenzen das selbe Nukleotid haben oder (g) alle bis auf eine Sequenz das selbe Nukleotid haben (f)