Vergleich und Robustheit phylogenetischer Algorithmen

Werbung
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Vergleich und Robustheit phylogenetischer
Algorithmen
Niklas Hofer
Seminar Verwandtschaft und Abstammung in Zeichenketten
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Gliederung
1
2
3
4
Einleitung
Begriffe
Annahmen
Probleme
Experimente
Durchführung
Variation
Charakteristiken / Eigenschaften
Statistische Konsistenz
Effizienz der Berechnung
Ausdrucksstärke
Robustheit
Auswertung
Resultate
university-logo
mögliche Verbesserungen
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Fazit
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Begriffe
Annahmen
Probleme
Begriffsklärung - kleine Erinnerung
phylogenetische Algorithmen
phylum - Stamm bzw. Stammbaum
generieren - erzeugen
Algorithmus - eine Kette von Befehlen
Wir haben gerade gelernt: Es gibt unterschiedliche
Algorithmen.
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Begriffe
Annahmen
Probleme
Annahmen 1
Was setzen die Methoden voraus?
Mathematische Besonderheiten
Additivität
Metrik/Ultrametrik
(spez. bei distanzbasierten Methoden)
- unrealistisch in der Praxis
Mutationen
treten unabhängig voneinander auf
gleichverteilt in Zeit und Raum („alle x Generationen
geschehen y Mutationen“) - sehr unwahrscheinlich
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Begriffe
Annahmen
Probleme
Annahmen 2
Evolutionsmodell
„Wie wahrscheinlich ist der Austausch einer AS gegen eine
andere?“
variierbar: Komplexität, Reversibilität - sehr viele vorhanden
Molekulare Uhr
Mutationen setzen sich bzgl. der Zeit mit gleicher Häufigkeit
durch.
(„alle x Generationen sind y Mutationen erfolgreich“)
- nicht nachgewiesen
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Begriffe
Annahmen
Probleme
Probleme 1
prinzipielle Probleme existieren für alle Methoden
Informationsverlust durch
Betrachtung von Teildaten
Numerische Abstände (Verlust genetischer Information)
Kumulierende und mehrfache Mutationen (Reihenfolge,
Zwischenstufen nicht bekannt/erkennbar)
Nur aktuelle Daten vorhanden (wir kennen nur die Blätter)
aber: bei Sprachen sind Aufzeichnungen vorhanden
(innere Knoten)
Niklas Hofer
university-logo
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Begriffe
Annahmen
Probleme
Probleme 2
Homoplasie - Mehrfaches Auftreten einer
Änderung/Mutation in unterscheidlichen Teilbäumen
Evolutionsprozesse unbekannt, deshalb vereinfachte
Modelle
„low phylogenetic signal“
der korrekte reale Baum ist unbekannt (später mehr)
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Durchführung
Variation
Vergleichen von Algorithmen
Frage
Können wir phylogenetische Algorithmen bzw.
Methoden irgendwie bewerten und vergleichen?
Antwort
Ja, und zwar anhand
der erzeugten oder gefundenen Bäume
und dem Verhalten bei Änderung z.B. der Eingangsdaten
Experimente
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Durchführung
Variation
Durchführung
Wie testet man phylogenetische Algorithmen?
1
Erzeugung von eigenen Sequenzen durch Simulation von
evolutionären Prozessen (Modelle)
2
Dabei: auch Speicherung der phylogenetischen Daten
(Ergeben sich aus der „künstlichen Evolution“)
3
Ansetzen der Algorithmen auf die Sequenzen → Bäume
4
Vergleich dieser Bäume mit den Ursprungsdaten
Durch mehrfache Durchläufe können die Methoden ausgetestet
werden.
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Durchführung
Variation
Variation
Welche Größen können bei der Generierung der Testdaten
geändert werden?
Anzahl und Länge der Sequenzen
Evolutions- und Mutationsrate
verschiedene Evolutionsmodelle
Reihenfolge der Daten bei der Eingabe
→ somit auch Annahmen änderbar
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Durchführung
Variation
Variation
aber:
Was bei simulierten Daten funktioniert, kann in der Realität
scheitern, denn:
Die konkreten Prozesse in der Natur sind unbekannt.
Zudem ist der Vergleich mit dem „korrekten“ Baum nicht
möglich
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Statistische Konsistenz
Effizienz der Berechnung
Ausdrucksstärke
Robustheit
Charakteristiken / Eigenschaften
Durchführung der Experimente → Beobachtungen
Lassen sich diese Beobachtungen zusammenfassen &
bewerten?
→ Charakteristiken von Algorithmen
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Statistische Konsistenz
Effizienz der Berechnung
Ausdrucksstärke
Robustheit
Statistische Konsistenz (consistency)
Konvergenz auf den „richtigen“
Baum wird mit wachsender
Länge der Eingabe
wahrscheinlicher
stark abhängig von der Erfüllung
der Annahmen
Inkonsistent: Konvergenz auf
falschen Baum in bestimmten
Situationen (z.B. nichtadditive
Distanzmethoden)
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Statistische Konsistenz
Effizienz der Berechnung
Ausdrucksstärke
Robustheit
Effizienz der Berechnung (computational efficiency)
Komplexität vs. Geschwindigkeit
exakte Methoden sind meist sehr aufwändig
Taxa
10
15
20
Plattform
Pentium 3
Deep Blue
Earth Simulator
benötigte Zeit
5 Stunden
3 Tage
2 Wochen
Tabelle: NP-Rechenzeit (geschätzt)
also: Heuristiken (nicht die beste Lösung wird gesucht,
sondern eine möglichst gute)
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Statistische Konsistenz
Effizienz der Berechnung
Ausdrucksstärke
Robustheit
Ausdrucksstärke (power)
Welchen Einfluß hat die Verringerung der Datenmenge?
schnelle Konvergenz auf den „richtigen“ Baum
und zwar mit möglichst wenigen Merkmalen (Characters)
werden relevante Informationen weggelassen?
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Statistische Konsistenz
Effizienz der Berechnung
Ausdrucksstärke
Robustheit
Robustheit (robustness)
Ist die wichtigste Eigenschaft, beinhaltet zum Teil die
Vorangegangenen
Wie stark können Annahmen
verletzt werden bis Inkonsistenz
auftritt
Studien mit simulierten, stark
variierenden Daten (Baum
bekannt)
kleine Änderungen der
Eingansdaten → kleine
Änderung im Ergebnis
→ entdeckte Schwachstellen
university-logo
können oft verbessert werden
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Resultate
mögliche Verbesserungen
Fazit
Eine kleine Auswertung (1)
Durch Experimente konnten einige Eigenschaften ermittelt
werden.
Viele Eigenschaften sind aber stark von den Daten abhängig
Maximum Likelihood
am robustestem
Maximum Parsimony
berücksichtigt Originaldaten
sehr aufwendig, bei großen Datenmengen nicht mehr
brauchbar
nicht statistisch konsistent
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Resultate
mögliche Verbesserungen
Fazit
Eine kleine Auswertung (2)
Distanzbasierte Methoden
sehr schnell
am ungenauesten
sind nur wenig robust
robust beim Lockern der Additivität/Ultrametrik
Aber dazu müssen die Methoden verbesser werden!
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Resultate
mögliche Verbesserungen
Fazit
mögliche Verbesserungen
und wie?
Mehrfachmutationen
berücksichtigen
Normierungen (gegen
„long branch attraction“)
mehrere Methoden parallel
anwenden und die Bäume
vergleichen
→ „consensus tree“
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Resultate
mögliche Verbesserungen
Fazit
Fazit
(noch) keine ideale
Methode gefunden
meist noch zu strenge
Annahmen
oft unrealistische Modelle
keine Überprüfung der
Realität möglich
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Resultate
mögliche Verbesserungen
Fazit
Fragen?
university-logo
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Einleitung
Experimente
Charakteristiken / Eigenschaften
Auswertung
Resultate
mögliche Verbesserungen
Fazit
Quellen
Yang, Z. (1996). „Phylogenetic analysis using parsimony
and likelihood methods.“ J Mol Evol 42(2): 294-307.
Morrison, D. A. (1996). „Phylogenetic Tree-Building.“ Int
Journal of Parasitology 26(6): 589-617.
Steel, M. and Penny, D. (2000). „Parsimony, likelihood, and
the role of models in molecular phylogenetics.“ Mol Biol
Evol 17(6): 839-50
Kuhner, Felsenstein (1998) „A Simulation Comparison of
Phylogeny Algorithms under Equal and Unequal
Evolutionary Rates“ Department of generics, univerity of
Wahington
Brocchieri (2000) „Phylogenetic Inferences from olecular
Sequences: Review and Critique“ Department of Math.,
university-logo
Standford University
...
Niklas Hofer
Vergleich und Robustheit phylogenetischer Algorithmen
Herunterladen