Phylogenie

Werbung
Einführung in die Bioinformatik
Ringvorlesung Biologie Sommer 07
Burkhard Morgenstern
Institut für Mikrobiologie und Genetik
Abteilung für Bioinformatik
Goldschmidtstr. 1
Online Materialien zur Ringvorlesung:
http://gobics.de/lectures/ss07/rv
ID rv07
PW molbio
Phylogenie Ziel: “Baum des Lebens”, d.h. Aufklärung der Verwandtschaftsverhältnisse 
zwischen Organismen 
zwischen Genen bzw. Proteinen
Phylogenie Tree of Life web projekt
Phylogenie Phylogenie Stammbäume von Genen/Proteinen
Phylogenie Phylogenie der Organismen – traditionell:
 Anatomie
 Entwicklung
 Verhalten
 Geographie
 Biochemie
Um Verwandtschaft zu bestimmen. Phylogenie Seit 1967: Phylogenie­Rekonstruktion durch Software­
Analyse von DNA­ bzw. Protein­Sequenzen
(Walter Fitch)
Phylogenie Erste Schwierigkeit, wenn Sequenzdaten zur Rekonstruktion Phylogenie von Spezies verwendet werden:  Orthologie: Sequenzen getrennt durch Artenbildung  Paralogie: Sequenzen getrennt durch Duplikation innerhalb einer Art
Phylogenie Nur orthologe Sequenzen zur Rekonstruktion der Phylogenie von Spezies geeignet!
Phylogenie Phylogenetischer Baum als Graph:
Phylogenie Phylogenetischer Baum als Graph:
Wurzel Innere Knoten Blätter
Graph besteht aus Kanten und Knoten
Phylogenie Phylogenetischer Baum als Graph:
Wurzel Innere Knoten Blätter
Bestandteile (1) Topologie (Verzweigung),
(2) Längen der Kanten
Phylogenie Phylogenetischer Baum als Graph:
Wurzel Zeit Innere Knoten Blätter
B
C
D A
E
Spezies/Sequenzen A, B, C, D, E an Blättern des Baums
Phylogenie Phylogenetischer Baum als Graph:
Wurzel Zeit Innere Knoten Blätter
B
C
D A
E
Bei Baum mit Wurzel: Richtung der Zeit von Wurzel zu Blättern
Phylogenie
E
A
B
C
D
Baum ohne Wurzel: Keine Richtung der Zeit
Phylogenie
E
A
B
C
D
“Richtiger” Baum hat Wurzel, aber viele Methoden liefern Baum ohne Wurzel.
Phylogenie: Distanz­Methoden Gegeben: N Spezies X1, … XN
Distanzen d(i,j) für jedes Paar Xi und Xj
(“Metrik”). Interpretation: Evolutionärer Abstand
 Gemesen z.B. als Zahl der Mutationen zwischen Xi und Xj
 Gesucht: Baum T , der zu Distanzen d(i,j) “passt”
Phylogenie: Distanz­Methoden Genauer:
Baum T für X1, … XN mit Kantenlängen definiert Abstand dT(i,j) für jedes Xi und Xj (Länge des “Wegs” von Blatt Xi zu Blatt Xj Für “beobachtete” bzw. Berechnete Distanzen d(i,j): Baum T gesucht mit d(i,j) = dT(i,j) Bzw. d(i,j) ≈ d (i,j)
Phylogenie: Distanz­Methoden Methoden (“hierarchisches Clustern”):
 UPGMA: Einfache Clustering­Methode
 Neighbor­Joining: weniger sensitiv gegen unterschiedliche Mutationsraten
Phylogenie: Distanz­Methoden UPGMA findet “richtigen” Baum, falls Baum T existiert, von dem Distanzen d(i,j) abgeleitet. D.h. d(i,j) = dT(i,j) Bedingung: Molekulare Uhr gegeben, d.h. Alle Blätter gleich weit von Wurzel entfernt. Phylogenie: Distanz­Methoden Bei Sequenz­Daten:
3.
Konstante Mutationsrate im ganzen Baum
5.
Wenige Mutationen: Doppelmutationen können vernachlässigt werden
Dann: Zahl der Mutationen zwischen Xi und Xj proportional zu Zeit seit letztem gemeinsamen Vorfahren von Xi und Xj Phylogenie: Distanz­Methoden Idee bei UPGMA: Bilde Cluster Ci von Spezies/Sequenzen. 
Anfangs Ci = { Xi }, d.h. jeder Cluster enthält ein Element

Für grössere Cluster: Abstand zwischen Clustern = durchschnittlicher Abstand d(i,j) ihrer Elemente.
Phylogenie: Distanz­Methoden Idee bei UPGMA: Bilde Cluster Ci von Spezies/Sequenzen. 
Vereinige Cluster Ci und Cj mit kleinstem Abstand

Höhe des “Knotens” über vereinigten Clustern = halbe Distanz zwischen Ci und Cj Problem: unterschiedliche Mutationsraten!
Phylogenie Neighbour­Joining (NJ)
 Verwende korrigierte Distanz D(i,j) für unterschiedliche Mutationsraten. Spezies mit kleinster Distanz D(i,j) sind in Baum benachbart!
 Ergebnis: Baum ohne Wurzel
 Findet richtigen Baum, falls Baum T existiert, von dem Distanzen d(i,j) abgeleitet. D.h. d(i,j) = dT(i,j) Phylogenie Neighbour­Joining (NJ)
Letzter Schritt: Finde Position der Wurzel durch “Outgroup” (Aussengruppe) Phylogenie Zeichen­basierte Methoden:
Betrachten einzelne Positionen in multiplem Alignment
Genauer als Distanz­Methoden, aber rechenaufwendig!
Phylogenie: Maximum Parsimony Ziel: finde phylogenetischen Baum, der die Zahl der evloutionären Ereignisse minimiert
Gegeben: Matrix von Merkmalen bzw. Merkmals­
Ausprägungen bei Spezies/Sequenzen
Frage: Wie viele Änderungen von Merkmalsausprägungen erforderlich, um beobachtete Merkmale zu erklären? Antwort: Hängt von Baum ab (bzw. von Topologie).
Phylogenie: Maximum Parsimony Beispiel: Spalte in multiplem Alignment:
. . . a . . . Spezies A
. . . t . . . Spezies B
. . . a . . . Spezies C
. . . t . . . Spezies D
Frage: Wieviele Mutationen t­>a oder a­>t sind (mindestens) passiert?
Antwort: Hängt von Baum ab!
Phylogenie: Maximum Parsimony . . . a . . . spezies A
. . . t . . . spezies B
. . . a . . . spezies C
. . . t . . . spezies D
Baum 1
A
B C D
(mindestens) zwei Mutationen notwendig, um beobachtete Daten zu erklären! Phylogenie: Maximum Parsimony . . . a . . . spezies A
. . . t . . . spezies B
. . . a . . . spezies C
. . . t . . . spezies D
Baum 2
A
C B D
Nur eine Mutationen notwendig, um beobachtete Daten zu erklären! Phylogenie: Maximum Parsimony . . . a . . . spezies A
. . . t . . . spezies B
. . . a . . . spezies C
. . . t . . . spezies D
zwei Mutationen notwendig, um beobachtete Daten zu erklären! Baum 3
A
D C B
Phylogenie: Maximum Parsimony Ziel: finde phylogenetischen Baum, der die Zahl der evloutionären Ereignisse minimiert
 Berechne minimale Zahl der Ereignisse für jede mögliche Topologie (keine Kantenlängen berechnet!)
 Bei molekularen Sequenzdaten:  Merkmal = Position in Alignment
 Ausprägung = Nukleotid/Aminosäure an Position
Phylogenie: Maximum Parsimony Im Sinne von Parsimony (“Sparsamkeit”):  Baum 2 besser als Baum 1 und Baum 2, weil weniger Ereignisse notwendig, um Daten zu erklären  Zahl der (notwendigen) Ereignisse (Mutationen) hängt nicht von Position der Wurzel im Baum ab. Daher: Suche Baum ohne Wurzel
Phylogenie: Maximum Parsimony Um besten Baum zu finden: Betrachte alle Spalten in multiplem Alignment, summiere Zahl der (notwendigen) Mutationen für jede Topologie. Phylogenie: Maximum Parsimony . . . a . . . spezies A
. . . a . . . spezies B
. . . a . . . spezies C
. . . a . . . spezies D
A
Einfachster Fall: Identische Nukleotide in Spalte ­> Null Mutationen notwendig für jeden B C D
möglichen Baum Phylogenie: Maximum Parsimony . . . a . . . spezies A
. . . b . . . spezies B
. . . a . . . spezies C
. . . a . . . spezies D
A
Zweit­einfachster Fall: Identische Nukleotide in Spalte, bis auf eine Abweichung ­> Eine Mutationen B C D
notwendig für jeden möglichen Baum Phylogenie: Maximum Parsimony Daher: Ignoriere alle Spalten in denen alle Sequenzen das selbe Nukleotid haben oder (g) alle bis auf eine Sequenz das selbe Nukleotid haben
(f)
Herunterladen