Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Vergleich und Robustheit phylogenetischer Algorithmen Niklas Hofer Seminar Verwandtschaft und Abstammung in Zeichenketten university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Gliederung 1 2 3 4 Einleitung Begriffe Annahmen Probleme Experimente Durchführung Variation Charakteristiken / Eigenschaften Statistische Konsistenz Effizienz der Berechnung Ausdrucksstärke Robustheit Auswertung Resultate university-logo mögliche Verbesserungen Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Fazit Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Begriffe Annahmen Probleme Begriffsklärung - kleine Erinnerung phylogenetische Algorithmen phylum - Stamm bzw. Stammbaum generieren - erzeugen Algorithmus - eine Kette von Befehlen Wir haben gerade gelernt: Es gibt unterschiedliche Algorithmen. university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Begriffe Annahmen Probleme Annahmen 1 Was setzen die Methoden voraus? Mathematische Besonderheiten Additivität Metrik/Ultrametrik (spez. bei distanzbasierten Methoden) - unrealistisch in der Praxis Mutationen treten unabhängig voneinander auf gleichverteilt in Zeit und Raum („alle x Generationen geschehen y Mutationen“) - sehr unwahrscheinlich university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Begriffe Annahmen Probleme Annahmen 2 Evolutionsmodell „Wie wahrscheinlich ist der Austausch einer AS gegen eine andere?“ variierbar: Komplexität, Reversibilität - sehr viele vorhanden Molekulare Uhr Mutationen setzen sich bzgl. der Zeit mit gleicher Häufigkeit durch. („alle x Generationen sind y Mutationen erfolgreich“) - nicht nachgewiesen university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Begriffe Annahmen Probleme Probleme 1 prinzipielle Probleme existieren für alle Methoden Informationsverlust durch Betrachtung von Teildaten Numerische Abstände (Verlust genetischer Information) Kumulierende und mehrfache Mutationen (Reihenfolge, Zwischenstufen nicht bekannt/erkennbar) Nur aktuelle Daten vorhanden (wir kennen nur die Blätter) aber: bei Sprachen sind Aufzeichnungen vorhanden (innere Knoten) Niklas Hofer university-logo Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Begriffe Annahmen Probleme Probleme 2 Homoplasie - Mehrfaches Auftreten einer Änderung/Mutation in unterscheidlichen Teilbäumen Evolutionsprozesse unbekannt, deshalb vereinfachte Modelle „low phylogenetic signal“ der korrekte reale Baum ist unbekannt (später mehr) university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Durchführung Variation Vergleichen von Algorithmen Frage Können wir phylogenetische Algorithmen bzw. Methoden irgendwie bewerten und vergleichen? Antwort Ja, und zwar anhand der erzeugten oder gefundenen Bäume und dem Verhalten bei Änderung z.B. der Eingangsdaten Experimente university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Durchführung Variation Durchführung Wie testet man phylogenetische Algorithmen? 1 Erzeugung von eigenen Sequenzen durch Simulation von evolutionären Prozessen (Modelle) 2 Dabei: auch Speicherung der phylogenetischen Daten (Ergeben sich aus der „künstlichen Evolution“) 3 Ansetzen der Algorithmen auf die Sequenzen → Bäume 4 Vergleich dieser Bäume mit den Ursprungsdaten Durch mehrfache Durchläufe können die Methoden ausgetestet werden. university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Durchführung Variation Variation Welche Größen können bei der Generierung der Testdaten geändert werden? Anzahl und Länge der Sequenzen Evolutions- und Mutationsrate verschiedene Evolutionsmodelle Reihenfolge der Daten bei der Eingabe → somit auch Annahmen änderbar university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Durchführung Variation Variation aber: Was bei simulierten Daten funktioniert, kann in der Realität scheitern, denn: Die konkreten Prozesse in der Natur sind unbekannt. Zudem ist der Vergleich mit dem „korrekten“ Baum nicht möglich university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Statistische Konsistenz Effizienz der Berechnung Ausdrucksstärke Robustheit Charakteristiken / Eigenschaften Durchführung der Experimente → Beobachtungen Lassen sich diese Beobachtungen zusammenfassen & bewerten? → Charakteristiken von Algorithmen university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Statistische Konsistenz Effizienz der Berechnung Ausdrucksstärke Robustheit Statistische Konsistenz (consistency) Konvergenz auf den „richtigen“ Baum wird mit wachsender Länge der Eingabe wahrscheinlicher stark abhängig von der Erfüllung der Annahmen Inkonsistent: Konvergenz auf falschen Baum in bestimmten Situationen (z.B. nichtadditive Distanzmethoden) university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Statistische Konsistenz Effizienz der Berechnung Ausdrucksstärke Robustheit Effizienz der Berechnung (computational efficiency) Komplexität vs. Geschwindigkeit exakte Methoden sind meist sehr aufwändig Taxa 10 15 20 Plattform Pentium 3 Deep Blue Earth Simulator benötigte Zeit 5 Stunden 3 Tage 2 Wochen Tabelle: NP-Rechenzeit (geschätzt) also: Heuristiken (nicht die beste Lösung wird gesucht, sondern eine möglichst gute) university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Statistische Konsistenz Effizienz der Berechnung Ausdrucksstärke Robustheit Ausdrucksstärke (power) Welchen Einfluß hat die Verringerung der Datenmenge? schnelle Konvergenz auf den „richtigen“ Baum und zwar mit möglichst wenigen Merkmalen (Characters) werden relevante Informationen weggelassen? university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Statistische Konsistenz Effizienz der Berechnung Ausdrucksstärke Robustheit Robustheit (robustness) Ist die wichtigste Eigenschaft, beinhaltet zum Teil die Vorangegangenen Wie stark können Annahmen verletzt werden bis Inkonsistenz auftritt Studien mit simulierten, stark variierenden Daten (Baum bekannt) kleine Änderungen der Eingansdaten → kleine Änderung im Ergebnis → entdeckte Schwachstellen university-logo können oft verbessert werden Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Resultate mögliche Verbesserungen Fazit Eine kleine Auswertung (1) Durch Experimente konnten einige Eigenschaften ermittelt werden. Viele Eigenschaften sind aber stark von den Daten abhängig Maximum Likelihood am robustestem Maximum Parsimony berücksichtigt Originaldaten sehr aufwendig, bei großen Datenmengen nicht mehr brauchbar nicht statistisch konsistent university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Resultate mögliche Verbesserungen Fazit Eine kleine Auswertung (2) Distanzbasierte Methoden sehr schnell am ungenauesten sind nur wenig robust robust beim Lockern der Additivität/Ultrametrik Aber dazu müssen die Methoden verbesser werden! university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Resultate mögliche Verbesserungen Fazit mögliche Verbesserungen und wie? Mehrfachmutationen berücksichtigen Normierungen (gegen „long branch attraction“) mehrere Methoden parallel anwenden und die Bäume vergleichen → „consensus tree“ university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Resultate mögliche Verbesserungen Fazit Fazit (noch) keine ideale Methode gefunden meist noch zu strenge Annahmen oft unrealistische Modelle keine Überprüfung der Realität möglich university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Resultate mögliche Verbesserungen Fazit Fragen? university-logo Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen Einleitung Experimente Charakteristiken / Eigenschaften Auswertung Resultate mögliche Verbesserungen Fazit Quellen Yang, Z. (1996). „Phylogenetic analysis using parsimony and likelihood methods.“ J Mol Evol 42(2): 294-307. Morrison, D. A. (1996). „Phylogenetic Tree-Building.“ Int Journal of Parasitology 26(6): 589-617. Steel, M. and Penny, D. (2000). „Parsimony, likelihood, and the role of models in molecular phylogenetics.“ Mol Biol Evol 17(6): 839-50 Kuhner, Felsenstein (1998) „A Simulation Comparison of Phylogeny Algorithms under Equal and Unequal Evolutionary Rates“ Department of generics, univerity of Wahington Brocchieri (2000) „Phylogenetic Inferences from olecular Sequences: Review and Critique“ Department of Math., university-logo Standford University ... Niklas Hofer Vergleich und Robustheit phylogenetischer Algorithmen