D ij

Werbung
V3 - Multiples Sequenz Alignment und Phylogenie
Literatur: Kapitel 4 in Buch von David Mount
Thioredoxin-Beispiel heute aus Buch von Arthur Lesk
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
1
Definition von “Homologie”
•
Homologie: Ähnlichkeit, die durch
Abstammung von einem gemeinsamen
Ursprungsgen herrührt –
die Identifizierung und Analyse von
Homologien ist eine zentrale Aufgabe
der Phylogenie.
•
Ein Alignment ist eine Hypothese
für die positionelle Homologie
zwischen Basenpaaren bzw.
Aminosäuren.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
2
http://www.cellsignal.com
Alignments können einfach oder schwer sein
GCGGCCCA
GCGGCCCA
GCGTTCCA
GCGTCCCA
GCGGCGCA
********
TCAGGTACTT
TCAGGTAGTT
TCAGCTGGTT
TCAGCTAGTT
TTAGCTAGTT
**********
GGTGG
GGTGG
GGTGG
GGTGG
GGTGA
*****
Einfach
TTGACATG
TTGACATG
TTGACATG
TTGACATG
TTGACATC
********
CCGGGG---A
CCGGTG--GT
-CTAGG---A
-CTAGGGAAC
-CTCTG---A
??????????
AACCG
AAGCC
ACGCG
ACGCG
ACGCG
*****
Schwierig wegen Insertionen und
Deletionen (indels)
Kann man beweisen, dass ein Alignment korrekt ist?
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
3
Protein-Alignment kann durch tertiäre
Strukturinformationen geführt werden
Gaps eines
Alignments
sollten
vorwiegend
in Loops
liegen, nicht
in Sekundärstrukturelementen.
Escherichia coli
DjlA protein
Homo sapiens
DjlA protein
Nur so kann man letztlich bewerten, ob ein Sequenzalignment korrekt ist.
Beweisen im strikten Sinne kann man dies nie.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
4
Farbe
gelb
grün
Aminosäuretyp
klein, wenig polar
hydrophob
violett
rot
blau
polar
negativ geladen
positiv geladen
3. Vorlesung SS 2009
Aminosäuren
MSA
Gly, Ala, Ser, Thr
Cys, Val, Ile, Leu
Pro, Phe, Tyr, Met, Trp
Asn, Gln, His
Asp, Glu
Lys, Arg
für Thioredoxin-Familie
Softwarewerkzeuge der Bioinformatik
5
Infos aus MSA von Thioredoxin-Familie
Thioredoxin: aus 5 beta-Strängen bestehendes beta-Faltblatt,
das auf beiden Seiten von alpha-Helices flankiert ist.
Gemeinsamer Mechanismus: Reduktion von Disulfidbrücken in Proteinen
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
6
Infos aus MSA von Thioredoxin-Familie
1) Die am stärksten konservierten Abschnitte entsprechen wahrscheinlich dem
aktiven Zentrum. Disulfidbrücke zwischen Cys32 und Cys35 gehört zu dem
konservierten WCGPC[K oder R] Motiv. Andere konservierte Sequenzabschnitte,
z.B. Pro76Thr77 und Gly92Gly93 sind an der Substratbindung beteiligt.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
7
Infos aus MSA von Thioredoxin-Familie
2) Abschnitte mit vielen Insertionen und Deletionen entsprechen vermutlich
Schleifen an der Oberfläche. Eine Position mit einem konservierten Gly oder
Pro lässt auf eine Wendung der Kette (‚turn‘) schließen.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
8
Infos aus MSA von Thioredoxin-Familie
3) Ein konserviertes Muster hydrophober Bausteine mit dem Abstand 2 (d.h.,
an jeder zweiten Position), bei dem die dazwischen liegenden Bausteine
vielfältiger sind und auch hydrophil sein können, lässt auf ein -Faltblatt an der
Moleküloberfläche schließen.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
9
Infos aus MSA von Thioredoxin-Familie
4) Ein konserviertes Muster hydrophober Aminosäurereste mit dem Abstand
von ungefähr 4 lässt auf eine -Helix schließen.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
10
Automatisches multiples Sequenzalignment
Hier gibt es vor allem folgende 2 wichtigen Methoden:
•
Dynamische Programmierung
– liefert garantiert das optimale Alignment!
– aber: betrache 2 Proteinsequenzen von 100 Aminosäuren Länge.
wenn es 1002 Sekunden dauert, diese beiden Sequenzen erschöpfend
zu alignieren, dann wird es
1003 Sekunden dauern um 3 Sequenzen zu alignieren,
1004 Sekunden für 4 Sequenzen und
1.90258x1034 Jahre für 20 Sequenzen.
•
Progressives Alignment
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
11
dynamische Programmierung mit MSA Programm
berechne zunächst paarweise Alignments
für 3 Sequenzen wird Würfel aufgespannt:
D.h. dynamische Programmierung hat nun Komplexität n1 * n2 * n3
mit den Sequenzlängen n1, n2, n3.
Sehr aufwändig! Versuche, Suchraum einzuschränken und nur einen kleinen
Teil des Würfels abzusuchen.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
12
Progressives Alignment
•
wurde von Feng & Doolittle 1987 vorgestellt
•
ist eine heuristische Methode.
Daher ist nicht garantiert, das “optimale” Alignment zu finden.
•
benötigt (n-1) + (n-2) + (n-3) ... (n-n+1) paarweise Sequenzalignments als
Ausgangspunkt.
•
weitverbreitete Implementation in Clustal (Des Higgins)
•
ClustalW ist eine neuere Version, in der den Parameter für Sequenzen und
Programm Gewichte (weights) zugeteilt werden.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
13
ClustalW- Paarweise Alignments
•
Berechne alle möglichen paarweisen Alignments von Sequenzpaaren.
Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten.
•
Berechne aus diesen isolierten paarweisen Alignments den “Abstand”
zwischen jedem Sequenzpaar.
•
Erstelle eine Abstandsmatrix.
•
aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt
•
Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment
ausgeführt werden wird.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
14
Überblick der ClustalW Prozedur
Hbb_Human
Hbb_Horse
Hba_Human
Hba_Horse
Myg_Whale
1
CLUSTAL W
2
.17 3 .59 .60 4 .59 .59 .13 5 .77 .77 .75 .75
Hbb_Human
2
-
3
Schnelle paarweise Alignments:
berechne Matrix der Abstände
4
Hbb_Horse
Hba_Human
1
Nachbar-VerbindungsBaumdiagramm
Hba_Horse
Myg_Whale
alpha-helices
1
2
3
4
5
PEEKSAVTALWGKVN--VDEVGG
GEEKAAVLALWDKVN--EEEVGG
PADKTNVKAAWGKVGAHAGEYGA
AADKTNVKAAWSKVGGHAGEYGA
EHEWQLVLHVWAKVEADVAGHGQ
3. Vorlesung SS 2009
2
3
4
1
Softwarewerkzeuge der Bioinformatik
progressive Alignments
entsprechend dem
Baumdiagramm
15
ClustalW- Vor- und Nachteile
Vorteil:
– Geschwindigkeit.
Nachteile:
– keine objektive Funktion.
– Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist
(vgl. E-value für BLAST)
– Keine Möglichkeit festzustellen, ob das Alignment “korrekt” ist
Mögliche Probleme:
– Prozedur kann in ein lokales Minimum geraten.
D.h. falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut
wird, kann dieser später nicht mehr korrigiert werden, da die bereits
alignierten Sequenzen fest bleiben.
– Zufälliges Alignment.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
16
ClustalW- Besonderheiten
•
Sollen all Sequenzen gleich behandelt werden?
Obwohl manche Sequenzen eng verwandt und andere entfernt verwandt
sind?  Sequenzgewichtung
•
Variable Substitutionsmatrizen
•
Residuen-spezifische Gap-Penalties und verringerte
Penalties in hydrophilen Regionen (externe Regionen
von Proteinsequenzen), bevorzugt Gaps in Loops
anstatt im Proteinkern.
•
Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten
lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den
gleichen Stellen zu bevorzugen
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
17
ClustalW- vom Benutzer festzulegende Parameter
•
Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte
sich bewusst sein, dass diese abgeändert werden können):
•
Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in
einem Alignment zu erzeugen.
Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs
erstellt für jede Position der beiden Sequenzen.
Die GOP werden positions-spezifisch behandelt und können über die
Sequenzlänge variieren.
•
Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um
eine Position zu verlängern.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
18
Vermeide zu viele Gaps
•
Falls ein GAP an einer Position existiert, werden die GOP und GEP penalties
herabgesetzt – und alle anderen Regeln treffen nicht zu. Daher wird die
Bildung von Gaps an Positionen wahrscheinlicher, an denen bereits Gaps
existieren.
•
Solange kein GAP offen ist, wird GOP hochgesetzt falls die Position
innerhalb von 8 Residuen von einem bestehenden Gap liegt. Dadurch
werden Gaps vermieden, die zu eng beieinander liegen.
•
An jeder Position innerhalb einer Reihe von hydrophilen Residuen wird GOP
herabgesetzt, da diese gewöhnlich in Loop-Regionen von Proteinstrukturen
liegen.
•
Eine Reihe von 5 hydrophilen Residuen gilt als hydrophiler stretch.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
19
Alignment von Protein-kodierenden DNS-Sequenzen
• Es macht wenig Sinn, proteinkodierende DNS-Abschnitte
zu alignieren!
ATGCTGTTAGGG
ATGCTCGTAGGG
ATGCT-GTTAGGG
ATGCTCGT-AGGG
Das Ergebnis kann sehr unplausibel sein und entspricht eventuell nicht dem
biologischen Prozess.
Es ist viel sinnvoller, die Sequenzen in die entsprechenden Proteinsequenzen
zu übersetzen, diese zu alignieren und dann in den DNS-Sequenzen an den
Stellen Gaps einzufügen, an denen sie im Aminosäure-Alignment zu finden
sind.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
20
Zusammenfassung
Progressive Alignments sind die am weitesten verbreitete Methode für
multiple Sequenzalignments.
Sehr sensitive Methode ebenfalls: Hidden Markov Modelle (HMMer)
Multiples Sequenzalignment ist nicht trivial. Manuelle Nacharbeit kann
in Einzelfällen das Alignment verbessern.
Multiples Sequenzalignment erlaubt Denken in Proteinfamilien und –
funktionen.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
21
Rekonstruiere Phylogenien aus einzelnen Gensequenzen
Material dieser Vorlesung aus
- Kapitel 6, DW Mount „Bioinformatics“
und aus Buch von Julian Felsenstein.
Eine phylogenetische Analyse einer Familie
verwandter Nukleinsäure- oder Proteinsequenzen
bestimmt, wie sich diese Familie durch Evolution
entwickelt haben könnte.
Die evolutionären Beziehungen der Sequenzen
können durch Darstellung als Blätter auf einem Baum
veranschaulicht werden.
Phylogenien, oder evolutionäre Bäume, sind die Grundlage um Unterschiede
zwischen Arten zu beschreiben und statistisch zu analysieren.
Es gibt sie seit über 140 Jahren und seit etwa 40 Jahren mit Hilfe von
statistischen, algorithmischen und numerischen Verfahren.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
22
3 Hauptansätze für Phylogenien einzelner Gene
- maximale Parsimonie
- Distanzmatrix
- maximum likelihood (wird hier nicht behandelt)
Häufig verwendete Programme:
PHYLIP (phylogenetic inference package – J Felsenstein)
PAUP (phylogenetic analysis using parsimony – Sinauer Assoc)
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
23
Parsimonie Methoden
Edwards & Cavalli-Sforza (1963):
derjenige evolutionäre Baum ist zu bevorzugen, der „den minimalen Anteil an
Evolution“ enthält.
 suche Phylogenien, die gerade so viele Zustandsänderungen beinhalten,
wenn wir mit ihnen die evolutionären Vorgänge rekonstruieren, die zu den
vorhandenen Daten (Sequenzen) führen.
(1) Für jede vorgeschlagene Phylogenie müssen wir in der Lage sein, die
Vorgänge zu rekonstruieren, die am wenigsten Zustandsänderungen benötigen.
(2) Wir müssen unter allen möglichen Phylogenien nach denen suchen können,
die eine minimale Anzahl an Zustandsänderungen beinhalten.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
24
Ein einfaches Beispiel
Gegeben seien 6 Buchstaben lange Sequenzen aus 5 Spezies,
die die Werte 0 oder 1 annehmen können
Erlaubt seien Austausche 0  1 und 1  0.
Der anfängliche Zustand an der Wurzel des Baums kann 0 oder 1 sein.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
25
Bewerte einen bestimmten Baum
Um den Baum höchster Parsimonität zu finden müssen wir berechnen können,
wie viele Zustandsänderungen für einen gegebenen Baum nötig sind.
Dieser Baum stelle die Phylogenie des ersten Buchstabens dar.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
26
Bewerte einen bestimmten Baum
Es gibt zwei gleich gute Rekonstruktionen,
die jede nur eine Buchstabenänderung benötigen.
Sie nehmen unterschiedliche Zustände an der Wurzel des Baums an
und unterschiedliche Positionen für die eine Änderung.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
27
Bewerte einen bestimmten Baum
Hier sind drei gleich gute Rekonstruktionen für den zweiten Buchstaben gezeigt, die
jeweils zwei Zustandsänderungen benötigen.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
28
Bewerte einen bestimmten Baum
Die gesamte Anzahl an Zustandsänderungen für die 6 Buchstaben auf diesem
Baum ist
1+2+1+2+2+1=9
Rekonstruktion der Zustandsänderungen auf diesem Baum
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
29
Bewerte einen bestimmten Baum
Ein anderer Baum, der nur 8 Zustandsänderungen benötigt.
Die minimale Anzahl an Zustandsänderungen ist 6, da es 6 Buchstaben gibt, die
jeweils 2 Zustände annehmen können.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
30
Finde den besten Baum durch heuristische Suche
Die naheliegende Methode, den Baum höchster Parsimonie zu finden ist,
ALLE möglichen Bäume zu betrachten und einzeln zu bewerten.
Leider ist die Anzahl an möglichen Bäumen üblicherweise zu groß.
 verwende heuristische Suchmethoden, die versuchen,
die besten Bäume zu finden ohne alle möglichen Bäume zu betrachten.
(1) Konstruiere eine erste Abschätzung des Baums
und verfeinere diesen durch kleine Änderungen
= finde „benachbarte“ Bäume.
(2) Wenn irgendwelche dieser Nachbarn besser sind,
verwende diese und setze die Suche fort.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
31
Zähle evolutionäre Zustandsänderungen
Hierfür existieren zwei verwandte Algorithmen, die dynamische Programmierung
verwenden: Fitch (1971) und Sankoff (1975)
- bewerte eine Phylogenie Buchstabe für Buchstabe
- betrachte jeden Buchstaben als Baum mit Wurzel an einem geeigneten Platz.
- propagiere eine Information von oben nach unten durch den Baum;
beim Erreichen der Blätter ist die Anzahl der Zustandsänderungen bekannt.
Dabei werden die Zustandsänderungen oder internen Zustände an den Knoten des
Baums nicht konstruiert.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
32
Sankoff Algorithmus
Ermöglicht es, die Werte für jeden Knoten zu berechnen,
und somit auch für den Wurzelknoten.
Setze dazu die minimalen Kosten S(i) für den Wurzelknoten
S  min S 0 i 
i
Dieses Vorgehen beschreibt die minimalen evolutionären Zustandsänderungen für
den jeweiligen Zustand.
In den Anfangsknoten (den Blättern) ist S(i) einfach zu berechnen. Die Kosten sind
0, wenn der beobachtete Zustand i ist, ansonsten sind die Kosten unendlich.
Nun benötigen wir einen Algorithmus, der die minimalen Kosten S(i) für die mittleren
Knoten berechnet, die die „Vorfahren“ von jeweils zwei Vorgängerknoten bilden.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
33
Sankoff-Algorithmus
Definiere die beiden Vorgängerknoten als „l“ (linker Knoten) und „r“ (rechter Knoten).
Berechne für den inneren (ancestor) Knoten Sa(i):


Sa i   min cij  Sl  j   min cik  Sr k 
j
k
Die kleinst-möglichen Kosten dafür dass Knoten a im Zustand i ist, sind die Kosten
cij für den Übergang von Zustand i nach j in dem linken Ast plus die Kosten Sl(j) für
Prozesse weiter oben im Teil des Baums, die entstehen wenn Knoten l im Zustand s
j ist. Wähle j so, dass diese Summe minimal wird.
Für den rechten Ast wird dieselbe Berechnung durchgeführt  die Summe der
beiden Minima sind die minimalen Kosten für den Teil des Baums über Knoten a,
wenn dieser im Zustand i ist.
Die Gleichung wird von oben nach unten für alle Knoten im Baum angewandt.
Aus den berechneten S0(i)-Werten ergeben sich die minimalen Kosten für den
ganzen Baum ermittelt.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
34
Sankoff-Algorithmus
Der Vektor (6,6,7,8) an den Blättern besitzt ein Minimum von 6
= dies sind die minimalen Gesamtkosten dieses Baums für diesen Buchstaben.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
35
neighbor-joining Methode
durch Saitou und Nei (1987) eingeführt – der Algorithmus verwendet Clustering und
das Modell minimaler Evolution. ClustalW benutzt diesen Algorithmus.
„Modell minimaler Evolution“
wähle unter den möglichen Baumtopologien die mit der minimalen Gesamtlänge
der Äste.
Wenn die Distanzmatrix den Baum exakt abbildet, garantiert die Neighbor-joining
Methode, als Methode der geringsten Quadrate den optimalen Baum zu finden.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
36
neighbor-joining Methode
n
(1) Berechne für jedes Blatt
ui  
j i
Dij
n2
(2) Wähle i und j sodass Dij – ui – uj minimal ist.
(3) Verbinde i und j. Berechne die Astlängen von
i zum neuen Knoten (vi) und vom j zum neuen
Knoten (vj) als
1
1
Dij  ui  u j 
2
2
1
1
v j  Dij  u j  ui 
2
2
vi 
(4) Berechne den Abstand zwischen dem neuen Knoten (ij) und den übrigen
Dik  D jk  Dij
Blättern als
Dij ,k 
2
(5) Lösche die Blätter i und j aus den Listen und ersetze sie durch den neuen
Knoten, (ij), der nun als neues Blatt behandelt wird.
(6) Falls mehr als 2 Knoten übrig bleiben, gehe nach Schritt (1) zurück. Andernfalls
verbinde die zwei verbleibenden Knoten (z.B. l und m) durch einen Ast der Länge
Dlm.
3. Vorlesung SS 2009
Softwarewerkzeuge der Bioinformatik
37
zusätzliche Folien
Softwarewerkzeuge der Bioinformatik
38
Methoden für Einzel-Gen-Phylogenien
Wähle Menge von
verwandten
Sequenzen
Berechne
multiples
Sequenzalignment
Gibt es
starke
Sequenzähnlichkeit?
Ja
Maximale
Parsimonie
Methoden
Nein
Gibt es deutlich erkennbare Sequenzähnlichkeit?
Ja
Distanzmethoden
Nein
Maximum likelihood
Methoden
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
Analysiere wie
gut die Daten die
Vorhersage
unterstützen
39
Bewerte einen bestimmten Baum
Eine Rekonstruktion für den dritten Buchstaben mit einer Zustandsänderung.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
40
Bewerte einen bestimmten Baum
für Buchstaben 6 ist eine
Zustandsänderung erforderlich.
der vierte und fünfte Buchstabe
haben dasselbe Muster, das zwei
Zustandsänderungen erfordert.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
41
Infos aus MSA von Thioredoxin-Familie
Die Thioredoxine sind Teil einer Superfamilie, zu der auch viele weiter entfernte
homologe Protein gehören,
z.B. Glutaredoxin (Wasserstoffdonor für die Reduktion von Ribonukleotiden bei
der DNA-Synthese)
Protein-Disulfidisomerase (katalysiert bei der Proteinfaltung den Austausch
falsch gefalteter Disulfidbrücken)
Phosducin (Regulator in G-Protein-abhängigen Signalübertragungswegen)
Glutathion-S-Transferasen (Proteine der chemischen Abwehr).
Die Tabelle des MSAs für Thioredoxinsequenzen enthält implizit Muster,
die man zur Identifizierung dieser entfernteren Verwandten nutzen kann.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
42
Multiples Sequenz-Alignment - Methoden
Es gibt im wesentlichen 3 unterschiedliche Vorgehensweisen:
(1) Manuell
ein manuelles Alignment bietet sich an falls
•
Alignment einfach ist.
•
es zusätzliche (strukturelle) Information gibt
• automatische Alignment –Methoden in lokalen Minima feststecken.
• ein automatisch erzeugtes Alignment manuell “verbessert” werden kann.
(2) Automatisch
(3) Kombiniert
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
43
Software für manuelle Alignments
GDE- The Genetic Data Environment (UNIX)
CINEMA- Java applet available from:
– http://www.biochem.ucl.ac.uk
Seqapp/Seqpup- Mac/PC/UNIX available from:
– http://iubio.bio.indiana.edu
SeAl for Macintosh, available from:
– http://evolve.zoo.ox.ac.uk/Se-Al/Se-Al.html
BioEdit for PC, available from:
– http://www.mbio.ncsu.edu/RNaseP/info/programs/BIOEDIT/bioedit.html
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
44
Beispiel: Src-Kinase HcK
Sequenz:
MGGRSSCEDP
YVPDPTSTIK
KGDQMVVLEE
RKDAERQLLA
RTLDNGGFYI
EKDAWEIPRE
AFLAEANVMK
SKQPLPKLID
GLARVIEDNE
VTYGRIPYPG
RPTFEYIQSV
GCPRDEERAP
PGPNSHNSNT
SGEWWKARSL
PGNMLGSFMI
SPRSTFSTLQ
SLKLEKKLGA
TLQHDKLVKL
FSAQIAEGMA
YTAREGAKFP
MSNPEVIRAL
LDDFYTATES
RMGCMKSKFL
PGIREAGSED
ATRKEGYIPS
RDSETTKGSY
ELVDHYKKGN
GQFGEVWMAT
HAVVTKEPIY
FIEQRNYIHR
IKWTAPEAIN
ERGYRMPRPE
QYQQQP
QVGGNTFSKT
IIVVALYDYE
NYVARVDSLE
SLSVRDYDPR
DGLCQKLSVP
YNKHTKVAVK
IITEFMAKGS
DLRAANILVS
FGSFTIKSDV
NCPEELYNIM
ETSASPHCPV
AIHHEDLSFQ
TEEWFFKGIS
QGDTVKHYKI
CMSSKPQKPW
TMKPGSMSVE
LLDFLKSDEG
ASLVCKIADF
WSFGILLMEI
MRCWKNRPEE
SMART ergibt:
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
45
Beispiel: Src-Kinase HcK
Kinase-Einheit
Protein Data Bank
http://www.rcsb.org
1ATP
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
46
Beispiel: Src-Kinase HcK
SH3 Domäne
Src homology 3 (SH3) Domänen binden an Zielproteine mit Sequenzen, die Proline
und hydrophobe Aminosäuren enthalten. Pro-enthaltende Polypeptide können an
SH3 in zwei verschiedenen Orientierungen binden. SH3 Domänen sind kleine
Proteinmodule von ungefähr 50 Residuen Länge. Man findet sie in vielen
intrazellulären oder Membran-assoziierten Proteinen …
CATH: 1abo
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
47
Beispiel: Src-Kinase HcK
SH2 Domäne
Die Src homology 2 (SH2) Domäne ist eine Proteindomäne mit etwa 100
Aminosäuren. SH2 Domänen funktionieren als Regelmodule von intrazellulären
Signalkaskaden indem sie mit grosser Affinität an Phospho-Tyrosin enthaltende
Peptide binden. SH2 Domänen findet man oft zusammen mit SH3 Domänen …
Ihre Struktur ist alpha+beta …
CATH:
1g83
3. Vorlesung WS 2007/2008
1fbz
Softwarewerkzeuge der Bioinformatik
1aot
48
Beispiel: Src-Kinase HcK
http://jkweb.berkeley.edu/
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
49
Was kann man mit modularem Denken erreichen?
http://www.cellsignal.com
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
50
Least square method
DAB + DAC + DAD + DAE
DAB + DBC + DBD + DBE
DAC + DBC + DCD + DCE
DAD + DBD + DCD + DDE
DAE + DBE + DCE + DDE
DAC + DAE + DBC + DBE + DCD + DDE
DAB + DAD + DBC + DCD + DBE + DDE
= 4v1 + v2 + v3 + v4 + v5 + 2v6 + 2v7
= v1 + 4v2 + v3 + v4 + v5 + 2v6 + 3v7
= v1 + v2 + 4v3 + v4 + v5 + 3v6 + 2v7
= v1 + v2 + v3 + 4v4 + v5 + 2v6 + 3v7
= v1 + v2 + v3 + v4 + 4v5 + 3v6 + 2v7
= 2v1 + 2v2 + 3v3 + 2v4 + 3v5 + 6v6 + 4v7
= 2v1 + 3v2 + 2v3 + 3v4 + 2v5 + 4v6 + 6v7
Stack up the (4 + 3 + 2 + 1 = 10) Dij, in alphabetical order, into a vector
 D AB 
D 
 AC 
 D AD 


 D AE 
 DBC 
d

 DBD 
D 
 BE 
 DCD 
D 
 CE 
 DDE 
and the coefficients xijk
are arranged in a matrix X
with each row corresponding
to the Dij in the row of d and
containing a 1 if branch k
occurs on the path between
species i and j.
3. Vorlesung WS 2007/2008
1
1

1

1
0
X
0
0

0
0

0
Softwarewerkzeuge der Bioinformatik
1
0
0
0
1
1
1
0
0
0
0
1
0
0
1
0
0
1
1
0
0
0
1
0
0
1
0
1
0
1
0
0
0
1
0
0
1
0
1
1
0
1
0
1
1
0
1
1
0
1
1
0
1

0
1

0
1

1
0

1
51
Least square method
If we also stack up the 7 vi into a vector v, the previous set of linear equations can
be compactly expressed as:


X Td  X T X v
Multiplied from the left by the inverse of XTX one can solve for the least squares
branch lengths
1 T
T


v X X X d
This is a standard method of expressing least squares problems in matrix notation
and solving them.
check for example :-)
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
52
Least square method
When we have weighted least squares, with a diagonal matrix of weights in the
same order as the Dij:
 wAB
 0

 0

 0
 0
W
 0
 0

 0
 0

 0
0
wAC
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
wAD
0
0
0
0
0
0
0
0
wAE
0
0
0
0
0
0
0
0
wBC
0
0
0
0
0
0
0
0
0
0
0
0
wBD
0
0
wBE
0
0
0
0
0
0
0
0
0
0
wCD
0
0
0
0
0
0
0
0
wCE
0
0
0
0
0
0
0
0
0 
0 
0 

0 
0 

0 
0 

0 
0 

wDE 
then the least square equations can be written


XT Wd  XT WX v
and their solution
3. Vorlesung WS 2007/2008

v  XT WX

1
XT Wd
Softwarewerkzeuge der Bioinformatik
53
Finding the least squares tree topology
Now that we are able to assign branch lengths to each tree topology.
we need to search among tree topologies.
This can be done by the same methods of heuristic search that were presented for
the Maximum Parsimony method.
Note: no-one has sofar presented a branch-and-bound method for finding the least
squares tree exactly. Day (1986) has shown that this problem is NP-complete.
The search is not only among tree topologies, but also among branch lengths.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
54
Methods of rooting the tree
There are many rooted trees, one for each branch of this unrooted tree,
and all have the same number of changes of state.
The number of changes of state only depends on the unrooted tree, and not at all on
where the tree is then rooted.
Biologists want to think of trees as rooted
 need method to place the root in an otherwise unrooted tree.
(1) Outgroup criterion
(2) Use a molecular clock.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
55
Outgroup criterion
Assumes that we know the answer in advance.
Suppose that we have a number of great apes,
plus a single old-world monkey.
Suppose that we know that the great apes are a monophyletic group.
If we infer a tree of these species, we know that the root must be placed on the
lineage that connects the old-world monkey (outgroup) to the great apes (ingroup).
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
56
Molecular clock
If an equal amount of changes were observed on all lineages, there should be a
point on the tree that has equal amounts of change (branch lengths) from there to
all tips.
With a molecular clock, it is only the expected amounts of change that are equal.
The observed amounts may not be.
 using various methods find a root that makes the amounts of change
approximately equal on all lineages.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
57
Branch lengths
Having found an unrooted tree, locate the changes on it and find out how many
occur in each of the branches.
The location of the changes can be ambiguous.
 average over all possible reconstructions of each character for which there is
ambiguity in the unrooted tree.
Fractional numbers in some branches of left tree
add up to (integer) number of changes (right)
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
58
Open questions
* Particularly for larger data sets, need to know how to count number of changes
of state by use of an algorithm.
* need to know algorithm for reconstructing states at interior nodes of the tree.
* need to know how to search among all possible trees for the most parsimonious
ones, and how to infer branch lengths.
* sofar only considered simple model of 0/1 characters.
DNA sequences have 4 states, protein sequences 20 states.
* Justification: is it reasonable to use the parsimony criterion?
If so, what does it implicitly assume about the biology?
* What is the statistical status of finding the most parsimonious tree?
Can we make statements how well-supported it is compared to other trees?
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
59
dynamische Programmierung mit MSA Programm
Links: Baum für 5 Sequenzen ohne Paarung von Sequenzen.
Neighbour-joining Methode: berechne Summe aller Kantenlängen
S=a+b+c+d+e
(Kantenlängen sind bekannt)
In diesem Fall seien sich A und B am nächsten. Konstruiere daher den Baum
rechts.
Generell: Verbinde die Sequenzpaare mit den kürzesten Abständen …
 Man erhält den Baum mit der kleinsten Summe der Kantenlängen.
Konstruiere anhand phylogenetischem Baum ein versuchsweises Multiples
Sequenz Alignment.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
60
dynamische Programmierung mit MSA Programm
Dieses Alignment dient dazu, den möglichen Raum inmitten des Würfels
einzugrenzen, in dem das beste MSA zu finden sein sollte.
Grosse Rechenersparnis!
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
61
limitation of distance methods
Distance matrix methods are the easiest phylogeny method to program,
and they are very fast.
Distance methods have problems when the evolutionary rates vary largely.
One can correct for this in distance methods as well as in likelihood methods.
When variation of rates is large, these corrections become important.
In likelihood methods, the correction can use information from changes in one part
of the tree to inform the correction in others.
Once a particular part of the molecule is seen to change rapidly in the primates, this
will affect the interpretation of that part of the molecule among the rodents as well.
But a distance matrix method is inherently incapable of propagating the information
in this way. Once one is looking at changes within rodents, it will forget where
changes were seen among primates.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
62
Evaluating a particular tree
Figure right shows another tree also requiring 8 changes. These two most
parsimonious trees are the same tree when the roots of the tree are removed.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
63
Divergente Sequenzen
•
Die am meisten divergenten Sequenzen (also am stärksten von allen
anderen Sequenzen verschiedenen) sind gewönlich am
schwierigsten zu alignieren
•
Es ist manchmal besser, ihr Alignment auf einen späteren Zeitpunkt
zu verschieben (nachdem die einfacheren Sequenzen aligniert
wurden)
•
Man kann dazu einen Cutoff wählen (der Default liegt bei 40%
Identität).
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
64
Fitch algorithm
intended to count the number of changes in a bifurcating tree with nucleotide
sequence data, in which any one of the 4 bases (A, C, G, T) can change to any
other.
At the particular site, we have observed the bases C, A, C, A and G in the 5 species.
Give them in the order in which they appear in the tree, left to right.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
65
Fitch algorithm
For the left two, at the node that is their immediate common ancestor,
attempt to construct the intersection of the two sets.
But as {C}  {A} =  instead construct
the union {C}  {A} = {AC} and count 1
change of state.
For the rightmost pair of species, assign
common ancestor as {AG},
since {A}  {G} =  and count another
change of state.
.... proceed to bottom
Total number of changes = 3. Algorithm works on arbitrarily large trees.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
66
Complexity of Fitch algorithm
Fitch algorithm can be carried out in a number of operations that is proportional to
the number of species (tips) on the tree.
Don‘t we need to multiply this by the number of sites n ?
Any site that is invariant (which has the same base in all species, e.g. AAAAA) can
be dropped.
Other sites with a single variant base (e.g. ATAAA) will only require a single change
of state on all trees. These too can be dropped.
For sites with the same pattern (e.g. CACAG) that we have already seen, simply
use number of changes previously computed.
Pattern following same symmetry (e.g. TCTCA = CACAG) need same number of
changes  numerical effort rises slower than linearly with the number of sites.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
67
Sankoff algorithm
Fitch algorithm is very effective – but we can‘t understand why it works.
Sankoff algorithm: more complex, but its structure is more apparent.
Assume that we have a table of the cost of changes cij between each character
state i and each other state j.
Compute the total cost of the most parsimonious combinations of events by
computing it for each character.
For a given character, compute for each node k in the tree a quantity Sk(i).
This is interpreted as the minimal cost, given that node k is assigned state i,
of all the events upwards from node k in the tree.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
68
Least square method
v2
v1
v5
v6
v7
v4
v3
Number species in alphabetical order.
The expected distance between species A and D d14 = v1 + v7 + v4
The expected distance between species B and E d25 = v5 + v6 + v7 + v2.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
69
Multiples Alignment - Erstes Paar
•
aligniere die beiden ähnlichsten Sequenzen zuerst.
•
dieses Alignment ist dann “fest” und wird nicht mehr angetastet.
Falls später ein GAP eingeführt werden muss, wird er in beiden
Sequenzen an der gleichen Stelle eingeführt.
•
Deren relatives Alignment bleibt unverändert.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
70
Clustal W – Zeit der Entscheidung
Ziehe den Baum heran um festzulegen, welches Alignment als nächstes
durchgeführt werden soll:
– aligniere eine dritte Sequenz zu den ersten beiden
oder
– aligniere zwei total verschiedene Sequenzen miteinander.
Option 1
3. Vorlesung WS 2007/2008
Option 2
Softwarewerkzeuge der Bioinformatik
71
ClustalW- 2 Alternativen
Wenn beim Alignment einer dritten Sequenz mit
den ersten beiden eine Lücke eingefügt werden
muss um das Alignment zu verbessern, werden
beide als Einzelsequenzen betrachtet.
Falls, andererseits, zwei getrennte Sequenzen
aligniert werden müssen, werden diese zunächst
miteinander aligniert.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
+
+
72
Progressives Alignment – 1. Schritt
gctcgatacgatacgatgactagcta
gctcgatacaagacgatgacagcta
gctcgatacacgatgactagcta
gctcgatacacgatgacgagcga
ctcgaacgatacgatgactagct
gctcgatacgatacgatgactagcta
gctcgatacaagacgatgac-agcta
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
73
Progressives Alignment – 2. Schritt
gctcgatacgatacgatgactagcta
gctcgatacaagacgatgacagcta
gctcgatacacgatgactagcta
gctcgatacacgatgacgagcga
ctcgaacgatacgatgactagct
gctcgatacacgatgactagcta
gctcgatacacgatgacgagcga
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
74
Progressives Alignment – 3. Schritt
gctcgatacgatacgatgactagcta
gctcgatacaagacgatgac-agcta
+
gctcgatacacgatgactagcta
gctcgatacacgatgacgagcga
gctcgatacgatacgatgactagcta
gctcgatacaagacgatgac-agcta
gctcgatacacga---tgactagcta
gctcgatacacga---tgacgagcga
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
75
Progressives Alignment – letzter Schritt
gctcgatacgatacgatgactagcta
gctcgatacaagacgatgac-agcta
gctcgatacacga---tgactagcta
gctcgatacacga---tgacgagcga
+
ctcgaacgatacgatgactagct
gctcgatacgatacgatgactagcta
gctcgatacaagacgatgac-agcta
gctcgatacacga---tgactagcta
gctcgatacacga---tgacgagcga
-ctcga-acgatacgatgactagct3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
76
Tips für progressives Alignment
•
Progressives Alignment ist ein mathematischer Vorgang, der völlig unabhängig
von der biologischen Realität abläuft.
•
Es kann eine sehr gute Abschätzung sein.
•
Es kann eine unglaublich schlechte Abschätzung sein.
•
Erfordert Input und Erfahrung des Benutzers.
•
Sollte mit Vorsicht verwendet werden.
•
Kann (gewöhnlich) manuell verbessert werden.
•
Es hilft oft, farbliche Darstellungen zu wählen.
•
Je nach Einsatzgebiet sollte der Benutzer in der Lage sein, die zuverlässigen
Regionen des Alignments zu beurteilen.
•
Für phylogenetische Rekonstruktionen sollte man nur die Positionen verwenden,
für die eine zweifelsfreie Hypothese über positionelle Homologie vorliegt.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
77
Distance matrix methods
introduced by Cavalli-Sforza & Edwards (1967)
and by Fitch & Margoliash (1967)
general idea „seems as if it would not work very well“ (Felsenstein):
- calculate a measure of the distance between each pair of species
- find a tree that predicts the observed set of distances as closely as possible.
All information from higher-order combinations of character states is left out.
But computer simulation studies show that the amount of lost information is
remarkably small.
Best way to think about distance matrix methods:
consider distances as estimates of the branch length separating that pair of
species.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
78
Least square method
- observed table (matrix) of distances Dij
- any particular tree leads to a predicted set of distances dij.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
79
Least square method
Measure of the discrepancy between the observed and expected distances:
Q   wij Dij  dij 
n
n
2
i 1 j 1
where the weights wij can be differently defined:
- wij = 1
(Cavalli&Sforza, 1967)
- wij = 1/Dij2
(Fitch&Margoliash, 1967)
- wij = 1/Dij
(Beyer et al., 1974)
Aim: Find tree topology and branch lengths that minimize Q.
Doug Brutlag‘s course
Equation above is quadratic in branch lengths.
Take derivative with respect to branch lengths, set = 0,
and solve system of linear equations. Solution will minimize Q.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
80
Least square method
Number all branches of the tree and introduce an indicator variable xijk:
xijk = 1 if branch k lies in the path from species i to species j
xijk = 0 otherwise.
The expected distance between i and j will then be
di , j   xij,k vk
k
and


Q   wij  Dij   xij,k vk 
i 1 j  i
k


n
2
n
dQ


 2 wij xij,k  Dij   xij,k vk   0
dvk
i 1 j  i
k


For the case with wij = 1 ij.
Note: these are k equations for each of the k branches.
3. Vorlesung WS 2007/2008
Softwarewerkzeuge der Bioinformatik
81
Herunterladen