Bioinformatik für Lebenswissenschaftler

Werbung
Bioinformatik
für Lebenswissenschaftler
Oliver Kohlbacher, Steffen Schmidt
SS 2010
11. Hiden Markov Models & Phylogenien
Abt. Simulation biologischer Systeme
WSI/ZBIT, Eberhard Karls Universität Tübingen
Übersicht
•  Hidden Markov Model (HMM)
–  Allgemeines Konzept
–  Profile HMM
–  Anwendung
•  Phylogenie
–  Evolutionsmodelle
–  Konstruktion von Stammbäumen
–  Darstellung
2
Hidden Markov Models (HMM)
•  HMM sind ein stochastisches Modell, das
eine System (z.B. Alignment) als eine
Kette von Zufallsprozessen darstellt
•  Sie werden häufig in der Bioinformatik
verwendet
–  Identifizierung von kodierenden Regionen
oder CpG
–  Sequenz Suche (Profil HMM)
–  Sekundär-Struktur-Vorhersage
1
HMM - Definition
•  Ein HMM besitzt sogenannte
Zustände (Sx) und Übergänge (t(Sx,Sy))
•  Jeder Zustand hat eine bestimmte Anzahl
von
�
Beobachtungen (Ea emission) mit den
p(Ea ) = 1
jeweiligen Wahrscheinlichkeiten p(Ea)
Sx
�
•  Jedem Übergang (t transition)
t(Sx , Sy ) = 1
zwischen Zuständen ist eine
Sx
Wahrscheinlichkeit zugeordnet
t(S1,S3)
t(S1,S2)
S1
t(S2,S1)
E1
t(S2,S3)
S2
E2
E3
S3
E4
Profil HMM - Definition
•  Es gibt Zusätzlich ein Anfangs- und
Endzustand
•  Jeder Pfad durch das Model vom
Anfangs- bis zum Endzustand ergibt eine
Sequenz
•  Die Beobachtungen (Emissionen) sind in
diesem Falle eine As einer Sequenz
•  MSA können als sogenannte Profil HMM
dargestellt werden
Profil HMM - Architektur
•  Jede Spalte im Alignment lässt sich
durch 3 Zustände darstellen
–  Match (M)
–  Deletion (D)
–  Insertion (I)
Di
Di+1
Mi
Mi+1
Ii
Ii+1
2
Profil HMM - Beispiel
Start
1
2
1
0.8
3
4
E1
0.8
0.6
0.6
0.4
0.4
0.2
E2
0.2
0
0
A C D E F G H I K L M N P Q R S T V W Y
1
0.8
Stop
1
A C D E F G H I K L M N P Q R S T V W Y
1
E3
0.8
0.6
0.6
0.4
0.4
0.2
E4
0.2
0
0
A C D E F G H I K L M N P Q R S T V W Y
A C D E F G H I K L M N P Q R S T V W Y
PATH ist die wahrscheinlichste Sequenz,
aber auch PETS ist möglich
Profil HMM – lokale Alignments
•  Insertionen vor und nach HMM werden
erlaubt
•  Auch teilweise Alignments sind möglich
Start
Start
Still
Still
Profil HMM – Repeats
•  Das HMM darf mehrmals vorkommen
Start
Start
Still
Still
3
HMM aus MSA generieren
•  Die einzelnen Spalten im Alignment
müssen den Zuständen zugeordnet
werden
–  Match: Spalten ohne gaps
–  Insertion: Spalten mit "vielen" gaps
–  Somit lassen sich die Sequenzen als Pfad im
HMM verfolgen
–  Die Gesamtwahrscheinlichkeit ist das
Produkt der Wahrscheinlichkeiten für
Übergängen und den Beobachtungen
Profil HMM - Anwendungen
•  HMMER3 ist eine frei verfügbare Implementation
•  BLASTP / PSI-BLAST ähnliche Suche (phmmer,
jackhmmer)
•  Ein HMM aus einem MSA erzeugen (hmmbuild)
•  Consensus oder eine Anzahl von Sequenzen aus einem
HMM erzeugen (hmmemit)
•  HMM Suche gegen eine Sequenzdatenbank
(hmmsearch)
•  Ein MSA aus Sequenzen erzeugen mit Hilfe eines HMM
(hmmalign)
•  Sequenzsuche gegen eine Profil HMM Datenbank
(SMART, PFAM, hmmscan)
•  HMM gegen HMM Datenbank (HHPred – Söding et al.)
Profil HMM vs PSSM
•  Genauso wie PSSMs sind Profil HMM
stark abhängig von der Qualität des MSA
•  HMM enthalten Wahrscheinlichkeiten
für Insertionen und Deletionen, PSSM
(PSI-BLAST) nicht
•  HMM sind deutlich sensitiver, aber auch
Rechenzeit Intensiver
4
Vergleich von Suchmethoden
http://toolkit.tuebingen.mpg.de/hhpred
Taxonomie – Evolution – Phylogenie
•  Carl von Linné schlägt um 1735
eine hierarchische Systematik
zur Gliederung der Arten vor
http://www.ub.uit.no/northernlights/ger/linne06.htm
Taxonomie – Evolution – Phylogenie
•  Charles Darwins Evolutionstheorie gibt
ca. 120 Jahre später eine Erklärung für
die Entstehung neuer Arten, die zu
baumartigen Hierarchien führt
http://pages.britishlibrary.net/charles.darwin2/diagram.jpg
http://users.hol.gr/~dilos/prehis/Darwcar.jpg
5
Taxonomie – Evolution - Phylogenie
•  Phylogenie oder Phylogenese beschreibt die
evolutionäre Entstehung der Arten
•  Diese Entwicklung kann in Form eines
phylogenetischen Baums dargestellt werden
•  Zur Rekonstruktion phylogenetischer Bäume
lassen sich verschiedene Methoden
heranziehen
–  Morphologischer oder anatomischer Vergleich
rezenter Lebewesen
–  Morphologischer oder anatomischer Vergleich
fossiler Lebewesen
–  Sequenzanalyse
•  Verwendung der Sequenzanalyse basiert dabei
auf der Annahme einer molekularen Uhr
Die Molekulare Uhr
6
Die Molekulare Uhr
•  Mutationsraten
schwanken stark von Art
zu Art, von Gen zu Gen,
von Lokus zu Lokus
•  Starker Unterschied
zwischen kodierenden
und nicht kodierenden
Regionen
•  Mitochondriale DNA hat
höhere Mutationsraten
(Fehlende
Korrekturmechanismen)
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=hmg.figgrp.1080
Graphen und Bäume
•  Graphen sind ein wichtiges
Konzept in der Informatik
•  Mit Graphen lassen sich viele
Alltagsprobleme anschaulich
darstellen
•  Man hat umfangreiche
mathematische Werkzeuge um
abstrakt damit zu arbeiten
•  Ein Graph besteht aus
Kante
Knoten
–  Knoten
–  Kanten (die Knoten miteinander
verbinden)
Graphen und Bäume
•  Graphen sind ein wichtiges
Konzept in der Informatik
•  Mit Graphen lassen sich viele
Alltagsprobleme anschaulich
darstellen
•  Man hat umfangreiche
mathematische Werkzeuge um
abstrakt damit zu arbeiten
•  Ein Graph besteht aus
–  Knoten
–  Kanten (die Knoten miteinander
verbinden)
Dieser einfache Graph drückt
Nachbarschaftsbeziehungen in
Europa aus.
Zwei Knoten sind durch eine Kante
verbunden, wenn die entsprechenden
Länder aneinander grenzen.
7
Graphen und Bäume
•  Graphen sind ein wichtiges
Konzept in der Informatik
•  Mit Graphen lassen sich viele
Alltagsprobleme anschaulich
darstellen
•  Man hat umfangreiche
mathematische Werkzeuge um
abstrakt damit zu arbeiten
•  Ein Graph besteht aus
–  Knoten
–  Kanten (die Knoten miteinander
verbinden)
H
H
C
C
C
H
H
C
C
N
H
Dieser Graph stellt die Struktur
von Pyridin dar. Knoten
stehen für Atome und sind mit
dem Elementsymbol beschriftet.
zwei Knoten sind durch eine
Kante verbunden, wenn
die Atome eine Bindung teilen.
Graphen und Bäume
•  Es gibt verschiedene Arten von
Graphen, die unterschiedliche
Eigenschaften haben
•  Graphen können z.B. Zyklen
besitzen, d.h. man kann
entlang der Kanten von einem
Knoten zu sich selbst wandern,
ohne eine Kante zweimal zu
nutzen
Graphen und Bäume
•  Es gibt verschiedene Arten von
Graphen, die unterschiedliche
Eigenschaften haben
•  Graphen können z.B. Zyklen
besitzen, d.h. man kann
entlang der Kanten von einem
Knoten zu sich selbst wandern,
ohne eine Kante zweimal zu
nutzen
•  Graphen ohne Zyklen
(azyklische Graphen), werden
auch Bäume genannt
Zyklischer
Graph
Azyklischer
Graph
(Baum)
8
Bäume
•  Einfache evolutionäre Beziehungen
lassen sich mit Hilfe von Bäumen
darstellen
•  Dabei stehen
–  Knoten für bestimmte Taxa
–  Kanten für eine direkte evolutionäre
Verwandtschaft zwischen den
beiden
•  Knoten müssen nicht immer explizit
gezeichnet werden
Gewurzelte und entwurzelte Bäume
Gewurzelte Bäume
•  Man kann phylogenetische
Bäume gewurzelt oder
ungewurzelt darstellen
•  Ein gewurzelter Baum besitzt
einen Wurzelknoten, der den
jüngsten gemeinsamen
Vorfahr aller untersuchten
Taxa darstellt
•  Innere Knoten des Baums
repräsentieren entsprechend
(hypothetische) jüngste
gemeinsame Vorfahren der
Taxa im Zweig darunter
•  Die Blätter des Baums
entsprechen den betrachteten
Taxa
•  Der Weg von der Wurzel zu
einem Blatt (Pfad) spiegelt
die Evolutionsgeschichte des
Taxons wieder
Innerer
Knoten
Ast, Zweig
A
B
C
D
Wurzel
Blätter
9
Ungewurzelte Bäume
•  Ungewurzelte Bäume drücken zwar die
Verwandtschaft der Taxa untereinander aus, besagen
aber noch nicht, wo der gemeinsame Vorfahr aller
Taxa lag
•  Gewurzelte Bäume enthalten also zusätzliche
Information
•  Einem ungewurzelten Baum entsprechen auch mithin
mehrere unterschiedliche gewurzelte Bäume
A
B
C
D
Umwandlung
http://artedi.ebc.uu.se/course/BioInfo-10p-2001/Phylogeny/Phylogeny-Fundamentals/Phylogeny-Basics.html
Wahl der Wurzel
•  Die Umwandlung eines ungewurzelten Baums in einen
gewurzelten erfordert die Auswahl einer Kante, an der die
Wurzel eingefügt wird
•  Hinzufügen eines oder mehrerer Taxa, die phylogenetisch stark
unterschiedlich sind (outgroup)
•  Vergleicht man z.B. Säugersequenzen (B1-B3), kann man
entsprechende Sequenzen aus einem Fisch (A) hinzufügen
•  Der gemeinsame Vorfahr von B1-B3 und A liegt evolutionär vor
dem gemeinsamen Vorfahr von B1-B3 ) Wurzel
B2
A
B2
B3
B1
B1
B3
A
10
Anzahl Bäume ist exponentiell
Anzahl Taxa
Anzahl möglicher Bäume
3
1
4
3
5
15
6
105
7
945
8
10,395
9
135,135
10
2,027,025
11
34,459,425
12
654,729,075
13
13,749,310,575
14
316,234,143,225
15
7,905,853,580,625
Cladogramme und Phylogramme
•  Ein Cladogramm enthält die Information über phylogenetische
Ereignisse (Verzweigungen) der dargestellten Spezies, nicht
aber die Zeitinformation
•  Phylogramme stellen an einer Achse die Zeit (oder äquivalente
Größen) dar
•  Die Lage der Knoten entspricht der (postulierten) Zeit des
phylogenetischen Ereignisses
B2
B2
B3
B3
B1
B1
A
A
T1
T2 T3
Widersprüche in Bäumen
•  Bestimmt man phylogenetische Bäume mit Hilfe
unterschiedlicher Gene, erhält man oft
unterschiedliche Bäume
•  Gründe
– 
– 
– 
– 
A
B
Unterschiedliche Mutationsraten
Genduplikationen, orthologe vs. paraloge Gene
Heuristiken zur Konstruktion der Bäume
Horizontaler Gentransfer (nicht baumartige Evolution!)
C
D
1
E
A
B
C
D
2
E
A
B
C
D
E
3
11
Konsensusbäume
•  Es gibt verschiedene Arten differierende Bäume
zusammenzufassen
•  Analog zum Konsensus von Sequenzalignments, kann
man auch Konsensusbäume konstruieren
•  Oft divergieren die Bäume nur an bestimmten Stellen
•  Diese Konsensusbäume drücken aus, welche
Information in allen oder der Mehrheit der Bäume
enthalten ist
A
B
C
D
E
A
B
C
D
E
A
B
C
2
1
D
E
D
E
3
Strikter Konsensus
•  Beim strikten Konsensus werden nur
Verwandtschaftsbeziehungen berücksichtigt, die in
allen Bäumen enthalten sind
A
B
C
D
E
A
B
C
B
E
A
B
C
2
1
A
D
C
D
E
3
•  In allen Bäumen ist der grüne
Knoten Vorfahr von A, B und C
•  B wird daher an den grünen
Knoten angehängt
Konsensus
Mehrheitskonsensus
•  Beim Mehrheitskonsensus werden alle Beziehungen
übernommen, die in mehr als 50% der ursprünglichen
Bäume vorkommen
A
B
C
D
E
A
B
C
D
2
1
A
B
C
D
E
67%
100%
67%
Konsensus
E
A
B
C
D
E
3
•  Innere Knoten, die in der
Mehrzahl der Bäume auftreten
werden in den Konsensusbaum
übernommen
12
Reticulate Evolution
•  Reticulate = „netzartig“
•  Evolution verläuft leider nicht
so geradlinig wie bisher
skizziert
•  Horizontaler Gentransfer
sorgt z.B. dafür, dass eine
Spezies mehrere direkte
Vorfahren hat
•  Die entstehenden „Bäume“
sind keine Bäume mehr,
sondern allgemeine Graphen,
Netzwerke
•  Entsprechend komplexer ist
die phylogenetische Analyse
dieser Vorgänge
Mount, Bioinformatics, S. 244
Literatur + Links
•  Zvelebil & Baum, Understanding Bioinformatics
•  Mount, Bioinformatics, Kapitel 6
•  T-Coffee: A Novel Method for Fast and Accurate
Multiple Sequence Alignment, J. Mol. Biol. (2000),
302, 205-217
•  T-COFFEE-Webserver
http://www.ebi.ac.uk/Tools/t-coffee/index.html
13
Herunterladen