Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht • Hidden Markov Model (HMM) – Allgemeines Konzept – Profile HMM – Anwendung • Phylogenie – Evolutionsmodelle – Konstruktion von Stammbäumen – Darstellung 2 Hidden Markov Models (HMM) • HMM sind ein stochastisches Modell, das eine System (z.B. Alignment) als eine Kette von Zufallsprozessen darstellt • Sie werden häufig in der Bioinformatik verwendet – Identifizierung von kodierenden Regionen oder CpG – Sequenz Suche (Profil HMM) – Sekundär-Struktur-Vorhersage 1 HMM - Definition • Ein HMM besitzt sogenannte Zustände (Sx) und Übergänge (t(Sx,Sy)) • Jeder Zustand hat eine bestimmte Anzahl von � Beobachtungen (Ea emission) mit den p(Ea ) = 1 jeweiligen Wahrscheinlichkeiten p(Ea) Sx � • Jedem Übergang (t transition) t(Sx , Sy ) = 1 zwischen Zuständen ist eine Sx Wahrscheinlichkeit zugeordnet t(S1,S3) t(S1,S2) S1 t(S2,S1) E1 t(S2,S3) S2 E2 E3 S3 E4 Profil HMM - Definition • Es gibt Zusätzlich ein Anfangs- und Endzustand • Jeder Pfad durch das Model vom Anfangs- bis zum Endzustand ergibt eine Sequenz • Die Beobachtungen (Emissionen) sind in diesem Falle eine As einer Sequenz • MSA können als sogenannte Profil HMM dargestellt werden Profil HMM - Architektur • Jede Spalte im Alignment lässt sich durch 3 Zustände darstellen – Match (M) – Deletion (D) – Insertion (I) Di Di+1 Mi Mi+1 Ii Ii+1 2 Profil HMM - Beispiel Start 1 2 1 0.8 3 4 E1 0.8 0.6 0.6 0.4 0.4 0.2 E2 0.2 0 0 A C D E F G H I K L M N P Q R S T V W Y 1 0.8 Stop 1 A C D E F G H I K L M N P Q R S T V W Y 1 E3 0.8 0.6 0.6 0.4 0.4 0.2 E4 0.2 0 0 A C D E F G H I K L M N P Q R S T V W Y A C D E F G H I K L M N P Q R S T V W Y PATH ist die wahrscheinlichste Sequenz, aber auch PETS ist möglich Profil HMM – lokale Alignments • Insertionen vor und nach HMM werden erlaubt • Auch teilweise Alignments sind möglich Start Start Still Still Profil HMM – Repeats • Das HMM darf mehrmals vorkommen Start Start Still Still 3 HMM aus MSA generieren • Die einzelnen Spalten im Alignment müssen den Zuständen zugeordnet werden – Match: Spalten ohne gaps – Insertion: Spalten mit "vielen" gaps – Somit lassen sich die Sequenzen als Pfad im HMM verfolgen – Die Gesamtwahrscheinlichkeit ist das Produkt der Wahrscheinlichkeiten für Übergängen und den Beobachtungen Profil HMM - Anwendungen • HMMER3 ist eine frei verfügbare Implementation • BLASTP / PSI-BLAST ähnliche Suche (phmmer, jackhmmer) • Ein HMM aus einem MSA erzeugen (hmmbuild) • Consensus oder eine Anzahl von Sequenzen aus einem HMM erzeugen (hmmemit) • HMM Suche gegen eine Sequenzdatenbank (hmmsearch) • Ein MSA aus Sequenzen erzeugen mit Hilfe eines HMM (hmmalign) • Sequenzsuche gegen eine Profil HMM Datenbank (SMART, PFAM, hmmscan) • HMM gegen HMM Datenbank (HHPred – Söding et al.) Profil HMM vs PSSM • Genauso wie PSSMs sind Profil HMM stark abhängig von der Qualität des MSA • HMM enthalten Wahrscheinlichkeiten für Insertionen und Deletionen, PSSM (PSI-BLAST) nicht • HMM sind deutlich sensitiver, aber auch Rechenzeit Intensiver 4 Vergleich von Suchmethoden http://toolkit.tuebingen.mpg.de/hhpred Taxonomie – Evolution – Phylogenie • Carl von Linné schlägt um 1735 eine hierarchische Systematik zur Gliederung der Arten vor http://www.ub.uit.no/northernlights/ger/linne06.htm Taxonomie – Evolution – Phylogenie • Charles Darwins Evolutionstheorie gibt ca. 120 Jahre später eine Erklärung für die Entstehung neuer Arten, die zu baumartigen Hierarchien führt http://pages.britishlibrary.net/charles.darwin2/diagram.jpg http://users.hol.gr/~dilos/prehis/Darwcar.jpg 5 Taxonomie – Evolution - Phylogenie • Phylogenie oder Phylogenese beschreibt die evolutionäre Entstehung der Arten • Diese Entwicklung kann in Form eines phylogenetischen Baums dargestellt werden • Zur Rekonstruktion phylogenetischer Bäume lassen sich verschiedene Methoden heranziehen – Morphologischer oder anatomischer Vergleich rezenter Lebewesen – Morphologischer oder anatomischer Vergleich fossiler Lebewesen – Sequenzanalyse • Verwendung der Sequenzanalyse basiert dabei auf der Annahme einer molekularen Uhr Die Molekulare Uhr 6 Die Molekulare Uhr • Mutationsraten schwanken stark von Art zu Art, von Gen zu Gen, von Lokus zu Lokus • Starker Unterschied zwischen kodierenden und nicht kodierenden Regionen • Mitochondriale DNA hat höhere Mutationsraten (Fehlende Korrekturmechanismen) http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=hmg.figgrp.1080 Graphen und Bäume • Graphen sind ein wichtiges Konzept in der Informatik • Mit Graphen lassen sich viele Alltagsprobleme anschaulich darstellen • Man hat umfangreiche mathematische Werkzeuge um abstrakt damit zu arbeiten • Ein Graph besteht aus Kante Knoten – Knoten – Kanten (die Knoten miteinander verbinden) Graphen und Bäume • Graphen sind ein wichtiges Konzept in der Informatik • Mit Graphen lassen sich viele Alltagsprobleme anschaulich darstellen • Man hat umfangreiche mathematische Werkzeuge um abstrakt damit zu arbeiten • Ein Graph besteht aus – Knoten – Kanten (die Knoten miteinander verbinden) Dieser einfache Graph drückt Nachbarschaftsbeziehungen in Europa aus. Zwei Knoten sind durch eine Kante verbunden, wenn die entsprechenden Länder aneinander grenzen. 7 Graphen und Bäume • Graphen sind ein wichtiges Konzept in der Informatik • Mit Graphen lassen sich viele Alltagsprobleme anschaulich darstellen • Man hat umfangreiche mathematische Werkzeuge um abstrakt damit zu arbeiten • Ein Graph besteht aus – Knoten – Kanten (die Knoten miteinander verbinden) H H C C C H H C C N H Dieser Graph stellt die Struktur von Pyridin dar. Knoten stehen für Atome und sind mit dem Elementsymbol beschriftet. zwei Knoten sind durch eine Kante verbunden, wenn die Atome eine Bindung teilen. Graphen und Bäume • Es gibt verschiedene Arten von Graphen, die unterschiedliche Eigenschaften haben • Graphen können z.B. Zyklen besitzen, d.h. man kann entlang der Kanten von einem Knoten zu sich selbst wandern, ohne eine Kante zweimal zu nutzen Graphen und Bäume • Es gibt verschiedene Arten von Graphen, die unterschiedliche Eigenschaften haben • Graphen können z.B. Zyklen besitzen, d.h. man kann entlang der Kanten von einem Knoten zu sich selbst wandern, ohne eine Kante zweimal zu nutzen • Graphen ohne Zyklen (azyklische Graphen), werden auch Bäume genannt Zyklischer Graph Azyklischer Graph (Baum) 8 Bäume • Einfache evolutionäre Beziehungen lassen sich mit Hilfe von Bäumen darstellen • Dabei stehen – Knoten für bestimmte Taxa – Kanten für eine direkte evolutionäre Verwandtschaft zwischen den beiden • Knoten müssen nicht immer explizit gezeichnet werden Gewurzelte und entwurzelte Bäume Gewurzelte Bäume • Man kann phylogenetische Bäume gewurzelt oder ungewurzelt darstellen • Ein gewurzelter Baum besitzt einen Wurzelknoten, der den jüngsten gemeinsamen Vorfahr aller untersuchten Taxa darstellt • Innere Knoten des Baums repräsentieren entsprechend (hypothetische) jüngste gemeinsame Vorfahren der Taxa im Zweig darunter • Die Blätter des Baums entsprechen den betrachteten Taxa • Der Weg von der Wurzel zu einem Blatt (Pfad) spiegelt die Evolutionsgeschichte des Taxons wieder Innerer Knoten Ast, Zweig A B C D Wurzel Blätter 9 Ungewurzelte Bäume • Ungewurzelte Bäume drücken zwar die Verwandtschaft der Taxa untereinander aus, besagen aber noch nicht, wo der gemeinsame Vorfahr aller Taxa lag • Gewurzelte Bäume enthalten also zusätzliche Information • Einem ungewurzelten Baum entsprechen auch mithin mehrere unterschiedliche gewurzelte Bäume A B C D Umwandlung http://artedi.ebc.uu.se/course/BioInfo-10p-2001/Phylogeny/Phylogeny-Fundamentals/Phylogeny-Basics.html Wahl der Wurzel • Die Umwandlung eines ungewurzelten Baums in einen gewurzelten erfordert die Auswahl einer Kante, an der die Wurzel eingefügt wird • Hinzufügen eines oder mehrerer Taxa, die phylogenetisch stark unterschiedlich sind (outgroup) • Vergleicht man z.B. Säugersequenzen (B1-B3), kann man entsprechende Sequenzen aus einem Fisch (A) hinzufügen • Der gemeinsame Vorfahr von B1-B3 und A liegt evolutionär vor dem gemeinsamen Vorfahr von B1-B3 ) Wurzel B2 A B2 B3 B1 B1 B3 A 10 Anzahl Bäume ist exponentiell Anzahl Taxa Anzahl möglicher Bäume 3 1 4 3 5 15 6 105 7 945 8 10,395 9 135,135 10 2,027,025 11 34,459,425 12 654,729,075 13 13,749,310,575 14 316,234,143,225 15 7,905,853,580,625 Cladogramme und Phylogramme • Ein Cladogramm enthält die Information über phylogenetische Ereignisse (Verzweigungen) der dargestellten Spezies, nicht aber die Zeitinformation • Phylogramme stellen an einer Achse die Zeit (oder äquivalente Größen) dar • Die Lage der Knoten entspricht der (postulierten) Zeit des phylogenetischen Ereignisses B2 B2 B3 B3 B1 B1 A A T1 T2 T3 Widersprüche in Bäumen • Bestimmt man phylogenetische Bäume mit Hilfe unterschiedlicher Gene, erhält man oft unterschiedliche Bäume • Gründe – – – – A B Unterschiedliche Mutationsraten Genduplikationen, orthologe vs. paraloge Gene Heuristiken zur Konstruktion der Bäume Horizontaler Gentransfer (nicht baumartige Evolution!) C D 1 E A B C D 2 E A B C D E 3 11 Konsensusbäume • Es gibt verschiedene Arten differierende Bäume zusammenzufassen • Analog zum Konsensus von Sequenzalignments, kann man auch Konsensusbäume konstruieren • Oft divergieren die Bäume nur an bestimmten Stellen • Diese Konsensusbäume drücken aus, welche Information in allen oder der Mehrheit der Bäume enthalten ist A B C D E A B C D E A B C 2 1 D E D E 3 Strikter Konsensus • Beim strikten Konsensus werden nur Verwandtschaftsbeziehungen berücksichtigt, die in allen Bäumen enthalten sind A B C D E A B C B E A B C 2 1 A D C D E 3 • In allen Bäumen ist der grüne Knoten Vorfahr von A, B und C • B wird daher an den grünen Knoten angehängt Konsensus Mehrheitskonsensus • Beim Mehrheitskonsensus werden alle Beziehungen übernommen, die in mehr als 50% der ursprünglichen Bäume vorkommen A B C D E A B C D 2 1 A B C D E 67% 100% 67% Konsensus E A B C D E 3 • Innere Knoten, die in der Mehrzahl der Bäume auftreten werden in den Konsensusbaum übernommen 12 Reticulate Evolution • Reticulate = „netzartig“ • Evolution verläuft leider nicht so geradlinig wie bisher skizziert • Horizontaler Gentransfer sorgt z.B. dafür, dass eine Spezies mehrere direkte Vorfahren hat • Die entstehenden „Bäume“ sind keine Bäume mehr, sondern allgemeine Graphen, Netzwerke • Entsprechend komplexer ist die phylogenetische Analyse dieser Vorgänge Mount, Bioinformatics, S. 244 Literatur + Links • Zvelebil & Baum, Understanding Bioinformatics • Mount, Bioinformatics, Kapitel 6 • T-Coffee: A Novel Method for Fast and Accurate Multiple Sequence Alignment, J. Mol. Biol. (2000), 302, 205-217 • T-COFFEE-Webserver http://www.ebi.ac.uk/Tools/t-coffee/index.html 13