SW-V13-Zusammenfassu.. - Chair of Computational Biology

Werbung
V13 Zusammenfassung (V1 – V12)
Inhalt dieser Veranstaltung: Softwarewerkzeuge für
I
Sequenzanalyse
II
Analyse von Proteinstruktur
und Ligandenbindung
III
Zell- bzw. Netzwerksimulationen
auf den folgenden Folien ist der klausurrelevante Teil der Vorlesung
zusammengefaßt.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
1
Organisatorisches: Scheinvergabe
- Bewertung: Vorlesung zählt 2V + 2P = 9 Leistungspunkte
- Curriculum: Pflichtvorlesung für die Vertiefung „Bioinformatics“ (neue PO)
- kann für CMB-Bachelor eingebracht werden
- Wahlfach Pharmazie/Diplom, M.Sc. Biotechnologie
- Benotung der Scheine:
50% der Benotung ergibt sich aus der mittleren Benotung von drei praktischen Aufgaben, die während des
Semesters von jedem Studenten einzeln zu bearbeiten sind.
Die Aufgaben werden etwa alle 4 Wochen ausgegeben und sind innerhalb von 2 Wochen zu bearbeiten
und durch ein mindestens 5-seitiges Protokoll zu dokumentieren. Jeder Student muss mindestens zwei der
drei praktischen Aufgaben mit einer Note von 4 und besser bestehen.
Am Ende des Semesters wird eine 2-stündige Klausur über die Inhalte der Vorlesung und der Übungen
geschrieben. Die Klausurnote geht ebenfalls mit 50% in die Scheinnote mit ein. Die Klausur muss mit einer
Note von 4 und besser bestanden werden.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
2
Sequenzanalyse
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
3
Ziele
(0) Identifiziere alle menschlichen Proteine (ORFs) und ihre Funktion
Sind dies alle Proteine?
Nein: post-translationelle Modifikationen möglich wie Methylierung,
Phosphorylierung, Glykosilierung …
(1) Identifiziere Gen-Netzwerke. Welche Proteine wechselwirken miteinander?
(2) Identifiziere Module: abgeschlossene Einheiten
(3) Identifiziere Sequenz-Abschnitte, in denen Mutationen für Krankheiten
codieren
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
4
Proteinstruktur  Sequenz
Was hat nun Sequenz-Konservierung mit Proteinstrukturen zu tun?
sehr viel!
Die Twilight zone kennzeichnet das Mass an Sequenzidentität, bis zu der zwei
Proteinstrukturen mit hoher Wkt. die gleiche Struktur besitzen.
Richtlinien von Doolittle:
• Sequenzen mit > 150 Residuen und  25% Sequenzidentität sind
wahrscheinlich verwandt
• mit 15-20% Sequenzidentität können sie verwandt sein
• bei <15% Sequenzidentität ist es schwierig zu sagen ob sie verwandt
sind oder nicht ohne weitere strukturelle oder funktionelle Hinweise
TWILIGHT ZONE
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
5
Proteinstruktur  Sequenz
- Konservierung von Residuen sind Indizien für den Verwandtschaftsgrad von
Proteinen, für die Evolution und für die Verwandtschaft von Organismen
Q: aus welchen Gründen können bestimmte Bereiche der Proteinsequenz
konserviert sein?
- Konservierung von Residuen im aktiven Zentrum
- Konservierung von Residuen, die die Architektur der Proteinstruktur stabilisieren
- Konservierung von Residuen, die während Faltung des Proteins wichtig sind
- Konservierung von Residuen an Bindungsschnittstellen für Liganden und
andere Proteine
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
6
Eigenschaften der Aminosäuren
Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften.
Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen?
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
7
Transmembrandomänen: Hydrophobizitätsskalen
http://blanco.biomol.uci.edu/mpex/
Stephen White group, UC Irvine
13. Vorlesung WS 2005/06
TM Helices sind  20 Residuen lange
Abschnitte aus vorwiegend hydrophoben
Resiuden.
Software-Werkzeuge der Bioinformatik
8
V2 Paarweises Sequenzalignment
• Methoden des Sequenzalignments
• Áustauschmatrizen
• Bedeutsamkeit von Alignments
• BLAST, Algorithmus – Parameter – Ausgabe http://www.ncbi.nih.gov
•
Diese Vorlesung lehnt sich eng an das BLAST Tutorial-
•
Buch (links) an, Kapitel 3-9
•
siehe auch Vorlesung Bioinformatik I von Prof. Lenhof,
•
Wochen 3 und 5
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
9
Sequenz-Alignment
•Wenn man 2 oder mehr Sequenzen vorliegen hat, möchte man zunächst
einmal
- ihre Ähnlichkeiten quantitativ erfassen
- Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen erfassen
- Gesetzmässigkeiten der Konservierung und Variabilität beobachten
- Rückschlüsse auf entwicklungsgeschichtliche Verwandschaftsverhältnisse
ziehen
-Wichtiges Ziel: Annotation, z.B. Zuordnung von Struktur und Funktion
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
10
Suche in Datenbanken
•Identifiziere Ähnlichkeiten zwischen
•
einer neuen Testsequenz, deren
•
Struktur und Funktion unbekannt und nicht charakterisiert ist
•und
Sequenzen in (öffentlichen) Datenbanken
deren Strukturen und Funktionen bekannt sind.
•N.B. Die ähnlichen Regionen können die ganze Sequenz, oder Teile von
ihr umfassen!
•
Lokales Alignment  globales Alignment
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
11
Ähnlichkeit von Aminosäuren
•Margaret Dayhoff stellte die Ähnlichkeit (beobachtete Austauschhäufigkeiten zwischen
verwandten Sequenzen) zwischen Aminosäuren als log2 odds Verhältnis, oder lod score dar.
•
•Lod score einer Aminosäure: nehme den Logarithmus zur Basis 2 (log2) von dem Verhältnis
der beobachteten Häufigkeit für ein Paar durch die zufällig für das Paar erwartete Häufigkeit.
•Lod score = 0 → beobachtete und erwartete Häufigkeiten sind gleich
•
> 0 → ein Austauschpaar tritt häufiger auf als zufällig erwartet
•
< 0 → unwahrscheinlicher Austausch
•Allgemeine Formel für den Score sij von zwei Aminosäuren i und j.
sij  log
13. Vorlesung WS 2005/06
qij
pi p j
mit den individuellen Häufigkeiten pi und pj,
und der Paarungsfrequenz qjj,
Software-Werkzeuge der Bioinformatik
12
Ähnlichkeit der Aminosäuren
•Beispiel: die relative Häufigkeiten von Methionin und Leucin seien 0.01 und 0.1.
•Durch zufällige Paarung erwartet man 1/1000 Austauschpaare Met – Leu.
•Wenn die beobachtete Paarungshäufigkeit 1/500 ist, ist das Verhältnis der
•Häufigkeiten 2/1.
•Im Logarithmus zur Basis 2 ergibt sich ein lod score von +1 or 1 bit.
•Wenn die Häufigkeit von Arginin 0.1 und die Paarung mit Leu mit Häufigkeit 1/500
ist, dann ergibt sich ein lod score für ein Arg – Leu Paar von -2.322 bits.
•Gewöhnlich berechnet man nats, multipliziert die Werte mit einem
Skalierungsfaktur und rundet sie dann auf Integer Werte
•→ Austauschmatrizen PAM und BLOSUM.
•Diese Integer-werte nennt man raw scores.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
13
Bewertungs- oder Austausch-Matrizen
– dienen um die Qualität eines Alignments zu bewerten
– Für Protein/Protein Vergleiche:
eine 20 x 20 Matrix für die Wahrscheinlichkeit mit der eine bestimmte
Aminosäure gegen eine andere durch zufällige Mutationen ausgetauscht
werden kann.
– Der Austausch von Aminosäuren ähnlichen Charakters (Ile, Leu) ist
wahrscheinlicher (hat einen höheren Score) als der von Aminosäuren
unterschiedlichen Charkters (e.g. Ile, Asp).
– Matrizen werden als symmetrisch angenommen, besitzen also Form
einer Dreiecksmatrix.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
14
Substitutions-Matrizen
•Nicht alle Aminosäuren sind gleich
– Einige werden leichter ausgetauscht als andere
– Bestimmte Mutationen geschehen leichter als andere
– Einige Austausche bleiben länger erhalten als andere
•Mutationen bevorzugen bestimmte Austausche
– Einige Aminosäuren besitzen ähnliche Codons
– Diese werden eher durch Mutation der DNA mutiert
•Selektion bevorzugt bestimmte Austausche
– Einige Aminosäuren besitzen ähnliche Eigenschaften und Struktur
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
15
PAM250 Matrix
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
16
Beispiel für eine Bewertung
•log (A B) = log A + log B
• Die Bewertung (Score) eines Alignments ist die Summe aller
•Bewertungen für die Paare an Aminosäuren (Nukleinsäuren) des
Alignments:
•Sequenz 1: TCCPSIVARSN
•Sequenz 2: SCCPSISARNT
•
1 12 12 6 2 5 -1 2 6 1 0
13. Vorlesung WS 2005/06
=> Alignment Score = 46
Software-Werkzeuge der Bioinformatik
17
Dayhoff Matrix (1)
– wurde von M.O. Dayhoff aufgestellt, die statistische Daten über die
Austauschhäufigkeit von Aminosäuren sammelte
– Datensatz von eng verwandten Proteinsequenzen (> 85% Identität).
–Diese können zweifelsfrei aligniert werden.
– Aus der Frequenz, mit der Austausche auftreten, wurde die 20 x 20 Matrix
für die Wahrscheinlichkeiten aufgestellt, mit der Mutationen eintreten.
– Diese Matrize heisst PAM 1. Ein evolutionärer Abstand von 1 PAM (point
accepted mutation) bedeutet, dass es 1 Punktmutation pro 100 Residuen
gibt, bzw. Dass die beiden Sequenzen zu 99% identisch sind.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
18
Dayhoff Matrix (2)
•Log odds Matrix: enthält den Logarithmus der Elemente der PAM
Matrizen.
•Score der Mutation i  j
•
beobachtete Mutationsrate i  j
= log(
)
•
aufgrund der Aminosäurefrequenz erwartete Mutationsrate
•Die Wkt zweier unabhängiger Mutationsereignisse ist das Produkt der
Einzelwahrscheinlichkeiten.
•Bei Verwendung einer log odds Matrix (d.h. bei Verwendung der
logarithmisierten Werte) erhält man den gesamten Score des Alignments
als Summe der Scores für jedes Residuenpaar.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
19
Dayhoff Matrix (3)
•Aus PAM 1 kann man Matrizen für grössere evolutionäre Entfernungen
herstellen indem man die Matrix mehrfach mit sich selbst multipliziert.
•PAM250:
– 2,5 Mutationen pro Residue
– entspricht 20% Treffern zwischen zwei Sequenzen,
– d.h. man beobachtet Änderungen in 80% der
Aminosäurepositionen.
– Dies ist die Default-Matrize in vielen Sequenzanalysepaketen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
20
BLOSUM Matrix
•Einschränkung der Dayhoff-Matrix:
•Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren,
sind von eingeschränktem Wert, da ihre Substitionsraten von
Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind.
•Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff eingeschlagen,
welche lokale multiple Alignments von entfernter verwandten Sequenzen
verwendeten.
•Ihre Vorteile:
- grössere Datenmengen
- multiple Alignments sind robuster
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
21
BLOSUM Matrix (2)
•Die BLOSUM Matrizen (BLOcks SUbstitution Matrix) basieren auf der BLOCKS
Datenbank.
•Die BLOCKS Datenbank verwendet das Konzept von Blöcken (lückenlose
Aminosäure-Signaturen), die charakteristisch für eine Proteinfamilie sind.
•Aus den beobacheten Mutationen innerhalb dieser Blöcke wurden
Austauschwahrscheinlichkeiten für alle Aminosäurepaare berechnet und für eine
log odds BLOSUM matrix benutzt.
•Man erhält unterschiedliche Matrizen indem man die untere Schranke des
verlangten Grads an Identität variiert.
•z.B. wurde die BLOSUM80 Matrix aus Blöcken mit > 80% Identität abgeleitet.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
22
Welche Matrix soll man benutzen?
•Enge Verwandtschaft (Niedrige PAM, hohe Blosum)
Entfernte Verwandtschaft (Hohe PAM, niedrige Blosum)
•Vernünftige Default-Werte: PAM250, BLOSUM62
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
23
Gewichtung von Lücken (Gaps)
•Neben der Substitutionsmatrix braucht man auch eine Methode zur Bewertung
von Lücken.
•Welche Bedeutung haben Insertionen und Deletionen im Verhältnis zu
Substitutionen?
•
Unterscheide Einführung von Lücken:
•
aaagaaa
•
aaa-aaa
•
von der Erweiterung von Lücken:
•
aaaggggaaa
•
aaa----aaa
•Verschiedene Programme (CLUSTAL-W, BLAST, FASTA) empfehlen
unterschiedliche Default-Werte, die man wohl erst einmal verwenden sollte.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
24
Needleman-Wunsch Algorithmus
-- allgemeiner Algorithmus für Sequenzvergleiche
-- maximiert einen Ähnlichkeitsscore
-- bester Match = grösste Anzahl an Residuen einer Sequenz, die zu denen
einer anderen Sequenz passen, wobei Deletionen erlaubt sind.
-- Der Algorithmus findet durch dynamische Programmierung das bestmögliche
GLOBALE Alignment zweier beliebiger Sequenzen
-- NW beinhaltet eine iterative Matrizendarstellung
alle möglichen Residuenpaare (Basen oder Aminosäuren) – je eine von
jeder Sequenz – werden in einem zwei-dimensionalen Gitter dargestellt.
alle möglichen Alignments werden durch Pfade durch dieses Gitter
dargestellt.
-- Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
25
Needleman-Wunsch Algorithm: Initialisierung
•Aufgabe: aligniere die Wörter “COELACANTH” und “PELICAN” der
Länge m =10 und n =7. Konstruiere (m+1)  (n+1) Matrix.
•Ordne den Elementen der ersten Zeile und Reihe die Werte – m  gap
und – n  gap zu.
•Die Pointer dieser Felder zeigen zurück zum Ursprung.
13. Vorlesung WS 2005/06
C
O
E
L
A
C
A
N
T
H
0 -1
-2
-3
-4
-5
-6
-7
-8
-9
-10
P
-1
E
-2
L
-3
I
-4
C
-5
A
-6
N
-7
Software-Werkzeuge der Bioinformatik
26
Needleman-Wunsch Algorithm: Auffüllen
•Fülle alle Matrizenfelder mit Werten und Zeigern gemäss von simplen Operationen,
die die Werte der diagonalen, vertikal, und horizontalen Nachbarzellen einschliessen.
Berechne
- match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1)
- horizontal gap score: Wert der linken Zelle + gap score (-1)
- vertical gap score: Wert der oberen Zelle + gap score (-1)
-ordne der Zelle das Maximum dieser 3 Werte zu. Der Pointer zeigt in Richtung des
maximalen Scores.
-max(-1, -2, -2) = -1
P
C
O
E
L
A
C
A
N
T
H
0 -1
-2
-3
-4
-5
-6
-7
-8
-9
-10
-1
-1
-2
-max(-2, -2, -3) = -2
-(Pointer soll bei gleichen Werte immer in eine bestimmte Richtung zeigen, z.B.
-entlang der Diagonalen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
27
Needleman-Wunsch Algorithmus: Trace-back
•Trace-back ergibt das Alignment aus der Matrix.
•Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben.
C
•COELACANTH
E
L
A
C
A
N
T
H
0
-1
-2
-3
-4
-5
-6
-7
-8
-9 -10
P
-1
-1
-2
-3
-4
-5
-6
-7
-8
-9 -10
E
-2
-2
-2
-1
-2
-3
-4
-5
-6
-7
-8
L
-3
-3
-3
-2
0
-1
-2
-3
-4
-5
-6
I
-4
-4
-4
-3
-1
-1
-2
-3
-4
-5
-6
C
-5
-3
-4
-4
-2
-2
0
-1
-2
-3
-4
A
-6
-4
-4
-5
-3
-1
-1
1
0
-1
-2
N
-7
-5
-5
-5
-4
-2
-2
0
2
1
0
•-PELICAN--
13. Vorlesung WS 2005/06
O
Software-Werkzeuge der Bioinformatik
28
Smith-Waterman-Algorithmus
•Smith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr
einfache Modifikation von Needleman-Wunsch. Lediglich 3 Änderungen:
- die Matrixränder werden auf 0 statt auf ansteigende Gap-Penalties gesetzt.
- der maximale Wert sinkt nie unter 0. Pointer werden nur für Werte grösser als
0 eingezeichnet.
- Trace-back beginnt am grösseten Wert der Matrix und endet bei dem Wert 0.
•ELACAN
C
•ELICAN
13. Vorlesung WS 2005/06
O
E
L
A
C
A
N
T
H
0
0
0
0
0
0
0
0
0
0
0
P
0
0
0
0
0
0
0
0
0
0
0
E
0
0
0
1
0
0
0
0
0
0
0
L
0
0
0
0
2
1
0
0
0
0
0
I
0
0
0
0
1
1
0
0
0
0
0
C
0
1
0
0
0
0
2
0
0
0
0
A
0
0
0
0
0
1
0
3
2
1
0
N
0
0
0
0
0
0
0
1
4
3
2
Software-Werkzeuge der Bioinformatik
29
BLAST –
Basic Local Alignment Search Tool
• Findet das am besten bewertete lokale optimale Alignment einer
Testsequenz mit allen Sequenzen einer Datenbank.
• Sehr schneller Algorithmus, 50 mal schneller als dynamische
Programmierung.
• Kann verwendet werden um sehr grosse Datenbanken zu durchsuchen, da
BLAST eine vor-indizierte Datenbank benutzt
• Ist ausreichend sensititv und selektiv für die meisten Zwecke
• Ist robust – man kann üblicherweise die Default-Parameter verwenden
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
30
BLAST Algorithmus, Schritt 1
•
Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) und
eine gegebene Score-Matrix
•
Erzeuge eine Liste aller Worte (w-mers), die einen Score > T erhalten,
wenn man sie mit dem w-mer der Eingabe vergleicht
Test Sequenz
LNKCKTPQGQRLVNQ
P Q G 18
P E G 15
P R G 14
P K G 14
P N G 13
P D G 13
P M G 13
unterhalb
Schranke
(T=13)
13. Vorlesung WS 2005/06
Wort
benachbarte
Wörter
P Q A 12
P Q N 12
etc.
Software-Werkzeuge der Bioinformatik
31
BLAST Algorithmus, Schritt 2
•
jedes benachbarte Wort ergibt alle Positionen in der Datenbank,
in denen es gefunden wird (hit list).
P Q G 18
P E G 15
P R G 14
P K G 14
P N G 13
P D G 13
P M G 13
13. Vorlesung WS 2005/06
PMG
Database
Software-Werkzeuge der Bioinformatik
32
Traditional BLAST programs
Sequence 2
Search Space
Alignments
Gapped alignments
Sequence 1
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
33
Sequence 2
Seeding
Word hits
Sequence 1
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
34
Neighboorhood for 3-letter words
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
BLOSUM62
Word Score
RGD 17
KGD 14
QGD 13
RGE 13
EGD 12
HGD 12
NGD 12
RGN 12
AGD 11
MGD 11
RAD 11
RGQ 11
RGS 11
RND 11
RSD 11
SGD 11
TGD 11
13. Vorlesung WS 2005/06
PAM200
Word
RGD
RGE
RGN
KGD
RGQ
KGE
HGD
KGN
RAD
RGA
RGG
RGH
RGK
RGS
RGT
RSD
WGD
Score
18
17
16
15
15
14
13
13
13
13
13
13
13
13
13
13
13
Software-Werkzeuge der Bioinformatik
Choice of cut-off T
will affect seeding
35
Sequence 2
Seeding
Sequence 1
Word clusters
Isolated words
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
36
BLAST Algorithm: Extension
•
Program tries to extend seeds in both directions by adding residue
pairs until the added score is smaller than a cut-off.
•
After terminating the extension, the alignment is trimmed back to that
with the maximal score.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
37
PSI-BLAST
•
“Position-Specific Iterated BLAST”
– Entfernte Verwandtschaften lassen sich besser durch Motiv- oder ProfilSuchen entdecken als durch paarweise Vergleiche
– PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch.
– Das PSI-BLAST Programm verwendet die Information jedes signifikanten
Alignments um eine positionsspezifische Substitionsmatrix zu konstruieren,
die an Stelle der Eingabesequenz in der nächsten Runde der DatenbankSuche verwendet wird.
– PSI-BLAST kann iterativ verwendet werden bis keine neuen signifikanten
Alignments mehr gefunden werden.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
38
BLAST Output (2)
•
Kleine Wahrscheinlichkeit
deutet an, dass der Treffer
wohl nicht zufällig zustande
kam.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
39
Bedeutung des Alignments in BLAST
•P-Wert (Wahrscheinlichkeit)
– Gibt die Wahrscheinlichkeit an, mit der der Score eines Alignments zufällig
zustande kommen kann.
–
Je näher P bei Null liegt, desto grösser die Sicherheit, dass ein gefundener
Treffer ein richtiger Treffer (homologe Sequenz) ist.
•E-Wert (Erwartungswert)
– E = P * Anzahl der Sequenzen in Datenbank
– E entspricht der Anzahl an Alignments eines bestimmten Scores, die man
zufällig in einer Sequenz-Datenbank dieser Grösse erwartet
–
(wird z.B. für ein Sequenzalignment E=10 angegeben, erwartet man 10 zufällige
Treffer mit dem gleichen Score). Dieses Alignment ist also nicht signifikant.
– Treffer werden in BLAST nur ausgegeben, wenn der E-Wert unterhalb einer
Schranke liegt.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
40
Grobe Anhaltspunkte
•P-Wert (Wahrscheinlichkeit) – A. M. Lesk
–P  10-100
–P zwischen 10-100 und 10-50
genaue Übereinstimmung
nahezu identische Sequenzen, zum
Beispiel Allele oder SNPs
–P zwischen 10-50 und 10-10 eng verwandte Sequenzen,
–
Homologie gesichert
–P zwischen 10-10 und 10-1 in der Regel entfernte Verwandte
–P > 10-1
Ähnlichkeit vermutlich nicht signifikant
•E-Wert (Erwartungswert)
• E  0,02
Sequenzen vermutlich homolog
• E zwischen 0,02 und 1
Homologie ist nicht auszuschliessen
• E1
man muss damit rechnen, dass diese gute
•
Übereinstimmung Zufall ist.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
41
Tips für den Einsatz von BLAST
•Verwende nicht stur die Standardparameter “You get what you look for”.
•Führe Kontrollen durch, besonders in der twilight zone.
•
z.B. Schüttle die Sequenz durcheinander und wiederhole die Suche.
•
Falls die variierte Sequenz ähnliche Ergebnisse liefert, beruht das
Alignment auf einer systematischen Verfälschung, oder die Parameter sind
nicht empfindlich genug gewählt
•Setze Komplexitätsfilter ein wenn erforderlich.
•Maskiere Repeats in genomischer DNA.
•Teile große Genomsequenzen in Stücke auf um die Suche zu beschleunigen.
•
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
42
Zusammenfassung
Paarweises Sequenzalignment ist heute Routine, aber nicht trivial.
Mit dynamischer Programmierung (z.B. Smith-Waterman) findet man
garantiert das Alignment mit optimaler Bewertung.
Vorsicht: die Bewertungsfunktion ist nur ein Modell der biologischen Evolution.
FASTA ist erheblich schneller als dynamische Programmierung.
Am schnellsten ist BLAST und seine Derivate.
Beide geben sehr robuste und brauchbare Ergebnisse für Proteinsequenzen.
FASTA ist für Nukleotidsequenzen zuverlässiger.
Multiple Sequenzalignments sind in der Lage, entferntere Ähnlichkeiten
aufzuspüren und bieten ein besseres funktionelles Verständnis von Sequenzen
und ihren Beziehungen
Kommt nächste Woche dran.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
43
V3 Multiples Sequenz Alignment
Literatur: Kapitel 4 in Buch von David Mount
Thioredoxin-Beispiel heute aus Buch von Arthur Lesk
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
44
Protein-Alignment kann durch tertiäre
Strukturinformationen geführt werden
Escherichia coli
DjlA protein
Homo sapiens
DjlA protein
nur so kann man letztlich auch bewerten, ob ein Sequenzalignment
korrekt ist.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
45
Definition von “Homologie”
•
Homologie: Ähnlichkeit, die durch
Abstammung von einem gemeinsamen
Ursprungsgen herrührt –
die Identifizierung und Analyse von
Homologien ist eine zentrale Aufgabe
der Phylogenie.
•
Ein Alignment ist eine Hypothese
für die positionelle Homologie
zwischen Basenpaaren bzw.
Aminosäuren.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
46
http://www.cellsignal.com
MSA für Thioredoxin-Familie
Farbe
gelb
grün
Aminosäuretyp
klein, wenig polar
hydrophob
violett
rot
blau
polar
negativ geladen
positiv geladen
13. Vorlesung WS 2005/06
Aminosäuren
Gly, Ala, Ser, Thr
Cys, Val, Ile, Leu
Pro, Phe, Tyr, Met, Trp
Asn, Gln, His
Asp, Glu
Lys, Arg
Software-Werkzeuge der Bioinformatik
47
Infos aus MSA von Thioredoxin-Familie
Thioredoxin: aus 5 beta-Strängen bestehendes beta-Faltblatt,
das auf beiden Seiten von alpha-Helices flankiert ist.
gemeinsamer Mechanismus: Reduktion von Disulfidbrücken in Proteinen
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
48
Infos aus MSA von Thioredoxin-Familie
1) Die am stärksten konservierten Abschnitte entsprechen wahrscheinlich dem
aktiven Zentrum.
Disulfidbrücke zwischen Cys32 und Cys35 gehört zu dem konservierten
WCGPC[K oder R] Motiv.
Andere konservierte Sequenzabschnitte, z.B. Pro76Thr77 und Gly92Gly93
sind an der Substratbindung beteiligt.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
49
Infos aus MSA von Thioredoxin-Familie
2) Abschnitte mit vielen Insertionen und Deletionen entsprechen vermutlich
Schleifen an der Oberfläche. Eine Position mit einem konservierten Gly oder
Pro läßt auf eine Wendung der Kette (‚turn‘) schließen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
50
Infos aus MSA von Thioredoxin-Familie
3) Ein konserviertes Muster hydrophober Bausteine mit dem Abstand 2 (d.h.,
an jeder zweiten Position), bei dem die dazwischenliegenden Bausteine
vielfältiger sind und auch hydrophil sein können, läßt auf ein -Faltblatt an der
Moleküloberfläche schließen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
51
Infos aus MSA von Thioredoxin-Familie
4) Ein konserviertes Muster hydrophober Aminosäurereste mit dem Abstand
von ungefähr 4 läßt auf eine -Helix schließen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
52
Infos aus MSA von Thioredoxin-Familie
Die Thioredoxine sind Teil einer Superfamilie, zu der auch viele weiter entfernte
homologe Protein gehören,
z.B. Glutaredoxin (Wasserstoffdonor für die Reduktion von Ribonukleotiden bei
der DNA-Synthese)
Protein-Disulfidisomerase (katalysiert bei der Proteinfaltung den Austausch
falsch gefalteter Disulfidbrücken)
Phosducin (Regulator in G-Protein-abhängigen Signalübertragungswegen)
Glutathion-S-Transferasen (Proteine der chemischen Abwehr).
Die Tabelle des MSAs für Thioredoxinsequenzen enthält implizit auch Muster,
die man zur Identifizierung dieser entfernteren Verwandten nutzen kann.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
53
Multiples Sequenz-Alignment - Methoden
Es gibt im wesentlichen 3 unterschiedliche Vorgehensweisen:
(1) Manuell
(2) Automatisch
(3) Kombiniert
manuelles Alignment bietet sich an falls
– Alignment einfach ist.
– es zusätzliche (strukturelle) Information gibt.
– automatische Alignment –Methoden in lokalen Minima feststecken.
– ein automatisch erzeugtes Alignment manuell “verbessert” werden kann.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
54
multiples Sequenzalignment
2 Methoden:
•
Dynamische Programmierung
– betrache 2 Proteinsequenzen von 100 Aminosäuren Länge.
- wenn es 1002 Sekunden dauert, diese beiden Sequenzen erschöpfend
zu alignieren, dann wird es
1003 Sekunden dauern um 3 Sequenzen zu alignieren,
1004 Sekunden für 4 sequences und
1.90258x1034 Jahre für 20 Sequenzen.
•
Progressives Alignment
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
55
dynamische Programmierung mit MSA Programm
berechne zunächst paarweise Alignments
für 3 Sequenzen wird Würfel aufgespannt:
D.h. dynamische Programmierung hat nun Komplexität n1 * n2 * n3
mit den Sequenzlängen n1, n2, n3.
Sehr aufwändig! Versuche, Suchraum einzuschränken.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
56
dynamische Programmierung mit MSA Programm
Links: Baum für 5 Sequenzen ohne Paarung von Sequenzen.
Neighbour-joining Methode: berechne Summe aller Kantenlängen
S=a+b+c+d+e
(Kantenlängen sind bekannt)
In diesem Fall seien sich A und B am nächsten. Konstruiere daher den Baum
rechts.
Generell: Verbinde die Sequenzpaare mit den kürzesten Abständen …
 Man erhält den Baum mit der kleinsten Summe der Kantenlängen.
Konstruiere anhand phylogenetischem Baum ein versuchsweises Multiples
Sequenz Alignment.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
57
dynamische Programmierung mit MSA Programm
Dieses Alignment dient dazu, den möglichen Raum inmitten des Würfels
einzugrenzen, in dem das beste MSA zu finden sein sollte.
Grosse Rechenersparnis!
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
58
Progressives Alignment
•
wurde von Feng & Doolittle 1987 vorgestellt
•
ist eigentlich eine heuristische Methode. Daher ist nicht garantiert, das
“optimale” Alignment zu finden.
•
benötigt (n-1) + (n-2) + (n-3) ... (n-n+1) paarweise Sequenzalignments
als Ausgangspunkt.
•
weitverbreitete Implementation in Clustal
(Des Higgins)
ClustalW ist eine neuere Version, in der den Parameter für Sequenzen
und Programm Gewichte (weights) zugeteilt werden.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
59
Überblick der ClustalW Prozedur
Hbb_Human
Hbb_Horse
Hba_Human
Hba_Horse
Myg_Whale
1
2
3
4
5
.17
.59
.59
.77
.60
.59
.77
CLUSTAL W
.13
.75
Hbb_Human
.75
2
-
3
Schnelle paarweise Alignments:
berechne Matrix der Abstände
4
Hbb_Horse
Hba_Human
1
Nachbar-VerbindungsBaumdiagramm
Hba_Horse
Myg_Whale
alpha-helices
1
2
3
4
5
PEEKSAVTALWGKVN--VDEVGG
GEEKAAVLALWDKVN--EEEVGG
PADKTNVKAAWGKVGAHAGEYGA
AADKTNVKAAWSKVGGHAGEYGA
EHEWQLVLHVWAKVEADVAGHGQ
13. Vorlesung WS 2005/06
2
3
4
1
Software-Werkzeuge der Bioinformatik
progressive Alignments
entsprechend dem
Baumdiagramm
60
ClustalW- Paarweise Alignments
•
Berechne alle möglichen paarweisen Alignments von Sequenzpaaren.
Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten.
•
Berechne aus diesen isolierten paarweisen Alignments den “Abstand”
zwischen jedem Sequenzpaar.
•
Erstelle eine Abstandsmatrix.
•
aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt
•
Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment
ausgeführt werden wird.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
61
Multiples Alignment - Erstes Paar
•
aligniere die beiden ähnlichsten Sequenzen zuerst.
•
dieses Alignment ist dann “fest” und wird nicht mehr angetastet. Falls
später ein GAP eingeführt werden muss, wird er in beiden Sequenzen
an der gleichen Stelle eingeführt.
•
Deren relatives Alignment bleibt unverändert.
Vorteil:
– Geschwindigkeit.
Nachteile:
– keine objektive Funktion.
– Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist.
– Keine Möglichkeit festzustellen, ob das Alignment “korrekt” ist.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
62
ClustalW - Lokales Minimum
Mögliche Probleme:
– in ein lokales Minimum zu geraten.
Falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut
wird, kann dieser später nicht mehr korrigiert werden.
– Zufälliges Alignment.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
63
Genauigkeit des Alignments verbessern
•
Sollen all Sequenzen gleich behandelt werden?
Obwohl manche Sequenzen eng verwandt und andere entfernt
verwandt sind?
•
Sollen alle Positionen der Sequenzen gleich behandelt werden?
Obwohl sie unterschiedliche Funktionen und Positionen in der
dreidimensionalen Strukturen haben können?
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
64
ClustalW- Besonderheiten
•
Sequenzgewichtung
•
Variable Substitutionsmatrizen
•
Residuen-spezifische Gap-Penalties und verringerte Penalties in hydrophilen
Regionen (externe Regionen von Proteinsequenzen), bevorzugt Gaps in
Loops anstatt im Proteinkern.
•
Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten
lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den
gleichen Stellen zu bevorzugen
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
65
ClustalW- vom Benutzer festzulegende Parameter
•
Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte
sich bewusst sein, dass diese abgeändert werden können):
•
Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in einem
Alignment zu erzeugen
•
Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um
eine Position zu verlängern.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
66
Positions-spezifische Gap penalties
•
Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs
erstellt für jede Position der beiden Sequenzen.
•
Die GOP werden positions-spezifisch behandelt und können über die
Sequenzlänge variieren.
•
Falls ein GAP an einer Position existiert, werden die GOP und GEP
penalties herabgesetzt – und alle anderen Regeln treffen nicht zu.
•
Daher wird die Bildung von Gaps an Positionen wahrscheinlicher, an
denen bereits Gaps existieren.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
67
Vermeide zu viele Gaps
•
Solange kein GAP offen ist, wird GOP hochgesetzt falls die Position
innerhalb von 8 Residuen von einem bestehenden Gap liegt.
•
Dadurch werden Gaps vermieden, die zu eng beieinander liegen.
•
An jeder Position innerhalb einer Reihe von hydrophilen Residuen wird
GOP herabgesetzt, da diese gewöhnlich in Loop-Regionen von
Proteinstrukturen liegen.
•
Eine Reihe von 5 hydrophilen Residuen gilt als
hydrophiler stretch.
•
Die üblichen hydrophilen Residuen sind:
D
Asp
K
Lys
P
Pro
E
Glu
N
Asn
R
Arg
G
Gly
Q
Gln
S
Ser
Dies kann durch den Benutzer geändert werden.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
68
Tips für progressives Alignment
•
Progressives Alignment ist ein mathematischer Vorgang, der völlig unabhängig
von der biologischen Realität abläuft.
•
Es kann eine sehr gute Abschätzung sein.
•
Es kann eine unglaublich schlechte Abschätzung sein.
•
Erfordert Input und Erfahrung des Benutzers.
•
Sollte mit Vorsicht verwendet werden.
•
Kann (gewöhnlich) manuell verbessert werden.
•
Es hilft oft, farbliche Darstellungen zu wählen.
•
Je nach Einsatzgebiet sollte der Benutzer in der Lage sein, die zuverlässigen
Regionen des Alignments zu beurteilen.
•
Für phylogenetische Rekonstruktionen sollte man nur die Positionen verwenden,
für die eine zweifelsfreie Hypothese über positionelle Homologie vorliegt.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
69
Alignment von Protein-kodierenden DNS-Sequenzen
•
Es macht wenig Sinn, proteinkodierende DNS-Abschnitte zu alignieren!
ATGCTGTTAGGG
ATGCTCGTAGGG
ATGCT-GTTAGGG
ATGCTCGT-AGGG
Das Ergebnis kann sehr unplausibel sein und entspricht eventuell nicht dem
biologischen Prozess.
Es ist viel sinnvoller, die Sequenzen in die entsprechenden Proteinsequenzen
zu übersetzen, diese zu alignieren und dann in den DNS-Sequenzen an den
Stellen Gaps einzufügen, an denen sie im Aminosäure-Alignment zu finden
sind.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
70
Zusammenfasusng
Progressive Alignments sind die am weitesten verbreitete Methode für multiple
Sequenzalignments.
Sehr sensitive Methode ebenfalls: Hidden Markov Modelle (HMMer)
Multiples Sequenzalignment ist nicht trivial. Manuelle Nacharbeit kann in
Einzelfällen das Alignment verbessern.
Multiples Sequenzalignment erlaubt Denken in Proteinfamilien und –funktionen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
71
V4 Prediction of Phylogenies based on single genes
Material of this lecture taken from
- chapter 6, DW Mount „Bioinformatics“
and from Julian Felsenstein‘s book.
A phylogenetic analysis of a family of related
nucleic acid or protein sequences is a determination
of how the family might have been derived during
evolution.
Placing the sequences as outer branches on a tree,
the evolutionary relationships among the sequences
are depicted.
Phylogenies, or evolutionary trees, are the basic structures to describe
differences between species, and to analyze them statistically.
They have been around for over 140 years.
Statistical, computational, and algorithmic work on them is ca. 40 years old.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
72
3 main approaches in single-gene phylogeny
- maximum parsimony
- distance matrix
- maximum likelihood (not covered here)
Popular programs:
PHYLIP (phylogenetic inference package – J Felsenstein)
PAUP (phylogenetic analysis using parsimony – Sinauer Assoc
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
73
Methods for Single-Gene Phylogeny
Choose set of
related sequences
Obtain multiple
sequence
alignment
Is there
strong
sequence
similarity?
Yes
Maximum
parsimony
methods
No
Is there clearly recognizable sequence similarity?
Yes
Distance
methods
No
Maximum likelihood
methods
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
Analyze how well
data support
prediction
74
Parsimony methods
Edwards & Cavalli-Sforza (1963): that evolutionary tree is to be preferred that
involves „the minimum net amount of evolution“.
 seek that phylogeny on which, when we reconstruct the evolutionary events
leading to our data, there are as few events as possible.
(1) We must be able to make a reconstruction of events, involving as few events
as possible, for any proposed phylogeny.
(2) We must be able to search among all possible phylogenies for the one or
ones that minimize the number of events.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
75
A simple example
Suppose that we have 5 species,
each of which has been scored for 6 characters (0,1)
We will allow changes 0  1 and 1  0.
The initial state at the root of a tree may be either state 0 or state 1.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
76
Evaluating a particular tree
Figure right shows another tree also requiring 8 changes. These two most
parsimonious trees are the same tree when the roots of the tree are removed.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
77
Methods of rooting the tree
There are many rooted trees, one for each branch of this unrooted tree,
and all have the same number of changes of state.
The number of changes of state only depends on the unrooted tree, and not at all on
where the tree is then rooted.
Biologists want to think of trees as rooted
 need method to place the root in an otherwise unrooted tree.
(1) Outgroup criterion
(2) Use a molecular clock.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
78
Outgroup criterion
Assumes that we know the answer in advance.
Suppose that we have a number of great apes,
plus a single old-world monkey.
Suppose that we know that the great apes are a monophyletic group.
If we infer a tree of these species, we know that the root must be placed on the
lineage that connects the old-world monkey (outgroup) to the great apes (ingroup).
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
79
Molecular clock
If an equal amount of changes were observed on all lineages, there should be a
point on the tree that has equal amounts of change (branch lengths) from there to
all tips.
With a molecular clock, it is only the expected amounts of change that are equal.
The observed amounts may not be.
 using various methods find a root that makes the amounts of change
approximately equal on all lineages.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
80
Branch lengths
Having found an unrooted tree, locate the changes on it and find out how many
occur in each of the branches.
The location of the changes can be ambiguous.
 average over all possible reconstructions of each character for which there is
ambiguity in the unrooted tree.
Fractional numbers in some branches of left tree
add up to (integer) number of changes (right)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
81
Open questions
* Particularly for larger data sets, need to know how to count number of changes
of state by use of an algorithm.
* need to know algorithm for reconstructing states at interior nodes of the tree.
* need to know how to search among all possible trees for the most parsimonious
ones, and how to infer branch lengths.
* sofar only considered simple model of 0/1 characters.
DNA sequences have 4 states, protein sequences 20 states.
* Justification: is it reasonable to use the parsimony criterion?
If so, what does it implicitly assume about the biology?
* What is the statistical status of finding the most parsimonious tree?
Can we make statements how well-supported it is compared to other trees?
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
82
Counting evolutionary changes
2 related dynamic programming algorithms: Fitch (1971) and Sankoff (1975)
- evaluate a phylogeny character by character
- for each character, consider it as rooted tree, placing the root wherever seems
appropriate.
- update some information down a tree; when we reach the bottom, the number of
changes of state is available.
Do not actually locate changes or reconstruct interior states at the nodes of the tree.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
83
Fitch algorithm
intended to count the number of changes in a bifurcating tree with nucleotide
sequence data, in which any one of the 4 bases (A, C, G, T) can change to any
other.
At the particular site, we have observed the bases C, A, C, A and G in the 5 species.
Give them in the order in which they appear in the tree, left to right.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
84
Fitch algorithm
For the left two, at the node that is their immediate common ancestor,
attempt to construct the intersection of the two sets.
But as {C}  {A} =  instead construct
the union {C}  {A} = {AC} and count 1
change of state.
For the rightmost pair of species, assign
common ancestor as {AG},
since {A}  {G} =  and count another
change of state.
.... proceed to bottom
Total number of changes = 3. Algorithm works on arbitrarily large trees.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
85
Complexity of Fitch algorithm
Fitch algorithm can be carried out in a number of operations that is proportional to
the number of species (tips) on the tree.
Don‘t we need to multiply this by the number of sites n ?
Any site that is invariant (which has the same base in all species, e.g. AAAAA) can
be dropped.
Other sites with a single variant base (e.g. ATAAA) will only require a single change
of state on all trees. These too can be dropped.
For sites with the same pattern (e.g. CACAG) that we have already seen, simply
use number of changes previously computed.
Pattern following same symmetry (e.g. TCTCA = CACAG) need same number of
changes  numerical effort rises slower than linearly with the number of sites.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
86
Sankoff algorithm
Fitch algorithm is very effective – but we can‘t understand why it works.
Sankoff algorithm: more complex, but its structure is more apparent.
Assume that we have a table of the cost of changes cij between each character
state i and each other state j.
Compute the total cost of the most parsimonious combinations of events by
computing it for each character.
For a given character, compute for each node k in the tree a quantity Sk(i).
This is interpreted as the minimal cost, given that node k is assigned state i,
of all the events upwards from node k in the tree.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
87
Sankoff algorithm
If we can compute these values for all nodes,
we can also compute them for the bottom node in the tree.
Simply choose the minimum of these values
S  min S 0 i 
i
which is the desired total cost we seek, the minimum cost of evolution for this
character.
At the tips of the tree, the S(i) are easy to compute. The cost is 0 if the observed
state is state i, and infinite otherwise.
If we have observed an ambigous state, the cost is 0 for all states that it could be,
and infinite for the rest.
Now we just need an algorithm to calculate the S(i) for the immediate common
ancestor of two nodes.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
88
Sankoff algorithm
Suppose that the two descendant nodes are called l and r (for „left“ and „right“).
For their immediate common ancestor, node a, we compute


Sa i   min cij  Sl  j   min cik  Sr k 
j
k
The smallest possible cost given that node a is in state i is the cost cij of going from
state i to state j in the left descendant lineage, plus the cost Sl(j) of events further up
in the subtree gien that node l is in state j. Select value of j that minimizes that sum.
Same calculation for right descendant lineage  sum of these two minima is the
smallest possible cost for the subtree above node a, given that node a is in state i.
Apply equation successively to each node in the tree, working downwards.
Finally compute all S0(i) and use previous eq. to find minimum cost for whole tree.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
89
Sankoff algorithm
The array (6,6,7,8) at the bottom of the tree has a minimum value of 6
= minimum total cost of the tree for this site.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
90
Finding the best tree by heuristic search
The obvious method for searching for the most parsimonious tree is to consider ALL
trees and evaluate each one.
Unfortunately, generally the number of possible trees is too large.
 use heuristic search methods that attempt to find the best trees without looking at
all possible trees.
(1) Make an initial estimate of the tree and make small rearrangements of it
= find „neighboring“ trees.
(2) If any of these neighbors are better, consider them and continue search.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
91
Distance matrix methods
introduced by Cavalli-Sforza & Edwards (1967)
and by Fitch & Margoliash (1967)
general idea „seems as if it would not work very well“ (Felsenstein):
- calculate a measure of the distance between each pair of species
- find a tree that predicts the observed set of distances as closely as possible.
All information from higher-order combinations of character states is left out.
But computer simulation studies show that the amount of lost information is
remarkably small.
Best way to think about distance matrix methods:
consider distances as estimates of the branch length separating that pair of
species.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
92
Least square method
- observed table (matrix) of distances Dij
- any particular tree leads to a predicted set of distances dij.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
93
Least square method
Measure of the discrepancy between the observed and expected distances:
Q   wij Dij  dij 
n
n
2
i 1 j 1
where the weights wij can be differently defined:
- wij = 1
(Cavalli&Sforza, 1967)
- wij = 1/Dij2
(Fitch&Margoliash, 1967)
- wij = 1/Dij
(Beyer et al., 1974)
Aim: Find tree topology and branch lengths that minimize Q.
Doug Brutlag‘s course
Equation above is quadratic in branch lengths.
Take derivative with respect to branch lengths, set = 0,
and solve system of linear equations. Solution will minimize Q.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
94
Least square method
v2
v1
v5
v6
v7
v4
v3
Number species in alphabetical order.
The expected distance between species A and D d14 = v1 + v7 + v4
The expected distance between speices B and E d25 = v5 + v6 + v7 + v2.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
95
Finding the least squares tree topology
Now that we are able to assign branch lengths to each tree topology.
we need to search among tree topologies.
This can be done by the same methods of heuristic search that were presented for
the Maximum Parsimony method.
Note: no-one has sofar presented a branch-and-bound method for finding the least
squares tree exactly. Day (1986) has shown that this problem is NP-complete.
The search is not only among tree topologies, but also among branch lengths.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
96
neighbor-joining method
introduced by Saitou and Nei (1987) – algorithm works by clustering - does not
assume a molecular clock but approximates the „minimum evolution“ model.
„Minimum evolution“ model:
among possible tree topologies, choose the one with minimal total branch length.
Neighbor-joining, as the least-squares method, is guaranteed to recover the true
tree if the distance matrix is an exact reflection of the tree.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
97
neighbor-joining method
n
(1) For each tip, compute
ui  
j i
Dij
n2
(2) Choose the i and j for which Dij – ui – uj is smallest.
(3) Join items i and j. Compute the branch length
from i to the new node (vi) and from j to the new
node (vj) as
1
1
Dij  ui  u j 
2
2
1
1
v j  Dij  u j  ui 
2
2
vi 
(4) Compute distance between the new node (ij) and each of the remaining tips as
Dij ,k 
Dik  D jk  Dij
2
(5) Delete tips i and j from the tables and replace them by the new node, (ij), which
is now treated as a tip.
(6) If more than 2 nodes remain, go back to step (1). Otherwise, connect the two
remaining nodes (e.g. l and m) by a branch of length Dlm.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
98
limitation of distance methods
Distance matrix methods are the easiest phylogeny method to program,
and they are very fast.
Distance methods have problems when the evolutionary rates vary largely.
One can correct for this in distance methods as well as in likelihood methods.
When variation of rates is large, these corrections become important.
In likelihood methods, the correction can use information from changes in one part
of the tree to inform the correction in others.
Once a particular part of the molecule is seen to change rapidly in the primates, this
will affect the interpretation of that part of the molecule among the rodents as well.
But a distance matrix method is inherently incapable of propagating the information
in this way. Once one is looking at changes within rodents, it will forget where
changes were seen among primates.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
99
V5 – Analyse von Genomsequenzen
- Genom-Assemblierung
finde identische k-Tupel
- Genom-Alignment
Suche nach MUMs (maximal unique matches)
andere wichtige Bereiche, für die wir heute keine Zeit haben
- Gene identifizieren
Hidden Markov Modelle
- Transkriptionsfaktorbindestellen
Position Specific Scoring Matrices (PSSM)
- finde Repeat-Sequenzen
Suche nach bekannten Repeat-Motiven
Suche auf Suffix-Baum
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
100
Whole Genome Shotgun Assemblierung
Es gibt 2 Strategien für die
Sequenzierung von Genomen:
clone-by-clone Methode
whole-genome shotgun Methode
(Celera, Gene Myers).
Die Shotgun Sequenzierung wurde
bereits 1977 von F. Sanger et al.
eingeführt und ist seither eine
Standardmethode für die
Sequenzierung von Genen.
Umstritten war jedoch, ob man sie
auch für komplette Genome
verwenden kann.
13. Vorlesung WS 2005/06
ED Green, Nat Rev Genet 2, 573 (2001)
Software-Werkzeuge der Bioinformatik
101
Arachne Programm
von Serafin Batzoglou (MIT, Doktorarbeit 2000)
(i) konstruiere Graph G für Überlappungen zwischen Paaren von reads aus
Shotgun-Daten
(i) prozessiere G um Supercontigs von gemappten reads zu erhalten.
Wichtige Variation der whole-genome shotgun Sequenzierung:
sequenziere reads jeweils von beiden Enden eines Klons.
Da die Inserts nach ihrer Größe ausgewählt werden, ist damit der ungefähre
Abstand zwischen dem Paar von reads bekannt.
Man nennt diese earmuff (Ohrenwärmer) Verbindungen.
Batzoglou et al. Genome Res 12, 177 (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
102
Arachne: erzeuge Überlappungsgraphen
Liste von reads R = (r1, ..., rN) , N ist die Anzahl der reads.
Jeder read ri besitzt eine Länge li < 1000.
Wenn beide reads von den Endpunkten desselben Klons stammen (earmuff link),
besitzt ri eine Verknüpfung zu einem anderen read rj in einer festen Distanz dij.
Erstes Ziel: erzeuge Graphen G der Überlappungen (Kanten) zwischen Paaren an
reads (Knoten)  dies ergibt die Paare an reads in R, die aligniert werden müssen.
Da R sehr lang sein kann, sind N2 alignments nicht praktikabel.
 erstelle Tabelle für das Vorkommen von k-Tupel (Strings der Länge k) in den reads,
zähle die Anzahl von k-Tupel Treffern für jedes Paar an reads.
Führe dann paarweise Alignments zwischen den Paaren an reads durch,
die mehr als cutoff gemeinsame k-mere besitzen.
Batzoglou PhD thesis (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
103
Arachne: Tabelle für Vorkommen von k-meren
Ermittle die Anzahl an k-Tupel Treffern in der Vorwärts- und Rückwärts-Richtung
zwischen jedem Paar von reads in R.
(1) Ermittle alle Triplets (r,t,v)
r = Nummer des reads in R
t = Index eines k-mers, das in r vorkommt
v = Richtung des Auftretens (vorwärts oder rückwärts)
(2) sortiere die Menge der Paare nach den k-mer Indices t
(3) verwende eine sortierte Liste um eine Tabelle T von Quadrubletts (ri, rj, f, v)
zu erstellen, wobei ri und ri die reads sind, die mindestens einen gemeinsamen
k-mer enthalten, v die Richtung angiebt, und f die Anzahl an gemeinsamen
k-mers zwischen ri und rj in Richtung v.
Batzoglou PhD thesis (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
104
Arachne: Tabelle für Vorkommen von k-mers
Hier:
k=3
Batzoglou PhD thesis (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
105
Arachne: Tabelle für Vorkommen von k-mers
Wenn ein k-Tupel „zu oft“ auftritt  gehört er wahrscheinlich zu einer
Repeat-Sequenz.
Man sollte diese nicht für die Detektion von Überlappungen verwenden.
Implementierung
(1) finde k-Tupel (r,t,v) und sortieren sie in 64 Dateien entsprechen den ersten
drei Nukleotiden jedes k-mers.
(2) Für i=1,64
lade Datei in den Speicher, sortiere nach t, speichere sortierte Datei ab.
end
(3) lade 64 sortierte Dateien nacheinander in den Speicher,
fülle Tabelle T nacheinander auf.
In der Praxis ist k = 8 bis 24.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
Batzoglou PhD thesis (2002)
106
Arachne: paarweise read-Alignments
Führe paarweise Alignments zwischen den Reads durch, die mehr als Cutoff
gemeinsame k-mers besitzen.
Sobald man zu häufige k-mers ausschließt (mehr als ein zweiter Cutoff), ist
sichergestellt, daß nur O(N) viele paarweise Sequenzalignments durchgeführt
werden müssen.
Nur eine kleine Anzahl an Basen-Austauschen und Indels ist in einer
überlappenden Region zweier alignierter reads erlaubt.
Output des Alignment-Algorithmus:
für die reads ri, rj gibt es Quadrubletts (b1, b2, e1, e2) für jede detektierte
Überlappungsregion mit den Anfangspositionen b1, b2 und Endpositionen e1,e2.
Falls eine signifikante Überlappungsregion vorliegt, wird (ri, rj, b1, b2, e1, e2) eine
Kante im Überlappungsgraphen G.
Batzoglou PhD thesis (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
107
Kombination teilweiser Alignments
3 teilweise Alignments der Länge
k=6 zwischen einem Paar von
reads werden zu einem einzigen
vollen Alignment der Länge k=19
kombiniert.
Die vertikalen Linien verbinden
übereinstimmenden Basen,
wogegen x Mismatche sind.
Dies ist eine oft auftretende
Situation, in der ein ausgedehnter
k-mer Treffer ein volles Alignment
von zwei reads ist.
Batzoglou et al. Genome Res 12, 177 (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
108
Repeats erzeugen Mehrdeutigkeit
Ohne das Auftreten von Sequenzierungsfehlern und Repeats wäre es
einfach, alle entdeckbaren paarweise
Abstände von reads zu finden und
den Graph G zu konstruieren.
Da es Repeats jedoch sehr häufig
auftreten, bedeutet eine Verbindung
zwischen zwei reads in G nicht ohne
weiteres eine wahre Überlappung.
Eine „Repeat-Verbindung“ ist eine
Verbindung in G zwischen zwei
reads, die aus verschiedenen
Regionen des Genoms stammen und
in der repetitiven Sequenz übereinstimmen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
Batzoglou PhD thesis (2002)
109
Sequence contigs
unerläßlich für die Assemblierung ist die ausreichende Überdeckung (mehrfache
Sequenzierung = coverage) derselben Genomregionen
Batzoglou PhD thesis (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
110
Verbinden von Contigs
Durch die Löschung von k-mers hoher Frequenz wird einiges an Repetition im
Genom vor der Erzeugung von G effizient maskiert.
Zur Erkennung von repetitiven Verbindung dienen weitere heuristische Algorithmen,
die hier nicht diskutiert werden sollen.
Sequenz-Contigs werden gebildet
indem Paare von reads verbunden
werden, die eindeutig verbunden
werden können.
Tatsächlich ist die Situation viel
schwieriger als hier gezeigt, da
Repeats häufig nicht zu 100%
zwischen Kopien konserviert sind.
Batzoglou PhD thesis (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
111
Benutze Überlapp-Paarungen um die reads zu verbinden
Arachne sucht nach 2 Plasmiden
mit gleicher Insert-Länge, deren
Sequenzen an beiden Enden
überlappen  paired pairs.
(A) A paired pair of overlaps.
The top two reads are end sequences from
one insert, and the bottom two reads are
end sequences from another.
The two overlaps must not imply too
large a discrepancy between the insert
lengths.
(B) Initially, the top two pairs of reads
are merged. Then the third pair of
reads is merged in, based on having
an overlap with one of the top two left
reads, an overlap with one of the top
two right reads, and consistent insert
lengths. The bottom pair is similarly
merged.
Unten: eine Menge von paired pairs
werden zu contigs zusammengefasst
und eine Konsensussequenz erzeugt.
13. Vorlesung WS 2005/06
Batzoglou et al. Genome Res 12, 177 (2002)
Software-Werkzeuge der Bioinformatik
112
Detection of repeat contigs
Some of the identified contigs are repeat contigs in which nearly identical
sequence from distinct regions are collapsed together. Detection by
(a) repeat contigs usually have an unusually high depth of coverage.
(b) they will typically have conflicting links to other contigs.
Contig R is linked to contigs A and
B to the right. The distances
estimated between R and A and
R and B are such A and B cannot
be positioned without substantial
overlap between them. If there is
no corresponding detected overlap
between A and B then R is
probably a repeat linking to two
unique regions to the right.
After marking repeat contigs, the remaining
contigs should represent the correctly
assembled sequence.
Batzoglou et al. Genome Res 12, 177 (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
113
Contig assembly
If (a,b) and (a,c) overlap, then
(b,c) are expected to overlap.
Moreover, one can calculate that
shift(b,c)=shift(a,c)-shift(a,b).
A repeat boundary is detected
toward the right of read a, if there
is no overlap (b,c), nor any path
of reads x1, ..., xk such that (b,x1),
(x1,x2) ..., (xk,c) are all overlaps,
and shift(b,x1) + ... + shift(xk,c) 
shift(a,c) – shift(a,b).
Batzoglou et al. Genome Res 12, 177 (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
114
Consistency of forward-reverse links
(A) The distance d(A,B) (length of
gap or negated length of
overlap) between two linked
contigs A and B can be
estimated using the forwardreverse linked reads between
them.
(B) The distance d(B,C) between
two contigs B,C that are
linked to the same contig A
can be estimated from their
respective distances to the
linked contig.
Batzoglou et al. Genome Res 12, 177 (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
115
Filling gaps in supercontigs
(A) Contigs A and B are connected by
a path p of contigs X1,..., Xk. The
distance dp(A,B) between A and B
(along the path p) is the length of
the sequence in the path that does
not overlap A and B.
(B) Contigs Y1 and Y2 share forwardreverse links with the supercontig
S. These links position them in the
vicinity of the gap between A and
B. Therefore, Y1 and Y2 will be
used as possible stepping points
in the path closing the gap from A
to B.
Batzoglou et al. Genome Res 12, 177 (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
116
Comparison of different assemblers
you should look out for:
- smallest number of contigs + misassembled contigs
- highest possible coverage by contigs
- lowest possible coverage by misassembled contigs
Pevzner, Tang, Waterman PNAS 98, 9748 (2001)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
117
Whole Genome Alignment (WGA)
Nachdem die genomische DNA-Sequenz eng verwandter Organismen verfügbar
wird, ist die erste Frage, wie das Alignment beider Genome aussieht.
Globale Genom-Alignments machen nur für eng verwandte Organismen Sinn.
Im anderen Fall muß man erst die genomischen Rearrangements betrachten.
Dann kann man die systenischen Regionen (Regionen, in denen GenReihenfolge des nächsten gemeinsamen Vorfahrens in beiden Spezies konserviert
blieb) betrachten und lokale Genom-Alignments dieser Regionen produzieren.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
118
Vergleich von Maus und Mensch auf Genomebene
aus dem Paper des Mouse Genome Sequencing Consortiums „Initial sequencing
and comparative analysis of the mouse genome“,
Nature 420, 520-562 (5.12.2002). Excellent paper! Well readable!
Wichtigste Ergebnisse:
* das Mausgenom ist etwa 14% kürzer als das menschliche Genom.
Die unterschiedliche Länge liegt wohl an der höheren Deletionsrate in Maus.
* über 90% des Maus- und Menschen-Genoms kann in entsprechende
Regionen mit konservierter Syntenie eingeteilt werden
* auf dem Nukleotid-Level kann etwa 40% des menschlichen Genoms mit dem
Maus-Genom aligniert werden (diese am stärksten orthologen Sequenzen
blieben wohl in beiden Linien vom gemeinsamen Vorfahren erhalten).
Der Rest wurde wohl in einem oder beiden Genomen gelöscht.
* die neutrale Substitutionsrate beträgt etwa 0.5 Nucleotid-Substitutionen pro
Position seit der Divergenz der beiden Spezien. Etwa doppelt so viele
Austausche haben in Maus gegenüber Mensch stattgefunden.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
119
Vergleich von Maus und Mensch auf Genomebene
Key findings:
* der Anteil kurzer (50-100 bp) Segmente in den Säugetier-Genomen, der
reinigender Selektion unterliegt, ist etwa 5%, d.h. wesentlich höher als der Anteil
der Protein-kodierenden Regionen
 Genome enthalten viele zusätzliche Eigenschaften wie UTRs (untranslated
regions), regulatorische Elemente, nicht-Protein-kodierende Gene, chromosomale
Strukturelemente, die unter Selektion für die biologische Funktion stehen.
* die Evolution von Säugetier-Genomen verläuft ungleichmäßig. Es gibt deutliche
Unterschiede an Divergenz je nach Genomposition.
* Sowohl Maus wie Mensch-Genom enthalten etwa 30.000 Gene, die für Proteine
kodieren. Der Anteil an Mausgenen mit einem eindeutigen Orthologen im
menschlichen Genom ist etwa 80%. Der Anteil der Mausgene ohne ein homologes
Gen im menschlichen Genom ist < 1%.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
120
Konservierung von Syntenie zwischen Mensch und Maus
Ein typisches 510-kb Segment des Maus-Chromosoms 12, das mit einem
600-kb Stück des menschlichen Chromosom 14 verwandt ist.
Blaue Linien: reziprok eindeutige Treffer in beiden Genomen.
Rote Markierungen kennzeichnen die Länge der passenden Regionen.
Die Abstände zwischen diesen „Landmarks“ sind im Maus-Genom kleiner als
im Mensch, was mit der 14% kürzeren Gesamtlänge des Genoms
übereinstimmt.
The mouse genome. Nature 420, 520 - 562
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
121
Entsprechung syntenischer Regionen
342 Segmente und 217 Blöcke >300 kb mit konservierter Syntenie im Mensch
sind im Maus-Genom markiert.
Jede Farbe entspricht einem bestimmten menschlichen Chromosom.
The mouse genome. Nature 420, 520 - 562
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
122
Sensitivität
Im globalen Mensch:Maus Alignment sind mehr als eine Millionen Regionen
stärker als 70% konserviert (auf 100-bp Level)
– diese Regionen decken > 200 Million bp ab.
Nur 62% von ihnen werden von (lokalen) BLAT-Treffern abgedeckt.
Dies bedeutet, daß man 38% der konservierten Abschnitte nur durch das globale
Alignment finden kann!
Idee: lokales Alignment soll als Anker-Verfahren für anschliessendes globales
Alignment dienen. Dadurch hofft man, viele zusätzliche konservierte Regionen
ausserhalb der Anker-Regionen zu finden.
Couronne, ..., Dubchak, Genome Res. 13, 73 (2003)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
123
hohe Sensitivität von globalen Alignments
Beispiel: das globale Alignment der mouse finished sequence
NT_002570 gegen die Region, die mit BLAT-Ankern gefunden
wurde, zeigt konservierte kodierende und nicht-kodierende
Elemente, die mit BLAT nicht gefunden wurden.
Couronne, ..., Dubchak, Genome Res. 13, 73 (2003)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
124
Zusätzliche Informationen aus globalem WGA
•
Unterschiede in Repeat-Merkmalen
– Duplikationen (große Fragmente, chromosomal)
– Tandem-Repeats
•
Große Insertionen und Deletionen
•
Translokationen von einem Teil des Genoms zu einem anderen
•
Single Nucleotide Polymorphism
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
125
Methods for WGA: iterative pairwise global alignment
These Methods follow a general strategy of iteratively merging two multiple
alignments of two disjoint subsets of sequences into a single multiple
alignment of the union of those subsets.
Construct a hash table on either the query string, or the database string (or
both) for all possible substrings of a pre-specified size (say l)
Find exactly matching substrings of length l using this hash table (seeds).
In the second phase, these seeds are extended in both directions, and
combined if possible, in order to find better alignments.
If the global pairwise alignment of two genomic DNA sequences S1 and S2
is computed by standard dynamic programming algorithms
(which requires O( | S1 |∙| S2 | time, where |S| is the length of sequence S)
such iterative methods cannot be used in practice to align DNA sequences
of entire genomes due to time and memory limitations.
examples are: FASTA, BLAST, MegaBLAST, BL2SEQ,
Wu-blast, flash,PipMaker (BLASTZ), and PatternHunter
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
126
Methods for WGA: anchor-based global multiple alignment
These methods try to identify substrings of the sequences under
consideration that they are likely parts of a global alignment.
(As mentioned, these substrings can be obtained from local alignments).
These substrings form „anchors“ in the sequences to be aligned.
These methods first align the anchors and subsequently close the gaps
(align the substrings between the anchors).
Anchor-based alignment methods are well suited for aligning very
long sequences.
MUMmer is a very successful implementation of this strategy for aligning
two genome sequences.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
127
Was ist MUMmer?
•
•
A.L. Delcher et al. 1999, 2002 Nucleic Acids Res.
http://www.tigr.org/tigr-scripts/CMR2/webmum/mumplot
•
•
•
•
Nimm an, dass zwei Sequenzen eng verwandt sind (sehr ähnlich)
MUMmer kann zwei bakterielle Genome in weniger als 1 Minute alignieren
nutzt Suffix-Bäume um Maximal Unique Matches zu finden
Definition eines Maximal Unique Matches (MUM):
– Eine Subsequenz, die in beiden Sequenzen genau einmal ohne
Abweichungen vorkommt und in keine Richtung verlängert werden kann.
Grundidee: ein MUM ausreichender Länge wird sicher Teil eines globalen
Alignments sein.
•
A maximal unique matching subsequence (MUM) of 39 nt (shown in uppercase) shared by
Genome A and Genome B. Any extension of the MUM will result in a mismatch.
By definition, an MUM does not occur anywhere else in either genome.
Delcher et al. Nucleic Acids Res 27, 2369 (1999)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
128
MUMmer: wichtige Schritte
• Erkenne MUMs (Länge wird vom Benutzer festgelegt)
ACTGATTACGTGAACTGGATCCA
ACTCTAGGTGAAGTGATCCA
ACTGATTACGTGAACTGGATCCA
ACTCTAGGTGAAGTGATCCA
1
10
20
1
10
20
ACTGATTACGTGAACTGGATCCA
ACTC--TAGGTGAAGTG-ATCCA
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
129
Definition von MUMmers
•
•
Für zwei Strings S1 und S2 und einen Parameter l
Der Substring u ist eine MUM Sequenz wenn gilt:
 |u| > l
 u kommt genau einmal in S1 und genau einmal in S2 (Eindeutigkeit)
 Für jeden Buchstaben a kommt weder ua noch au sowohl in
S1 als auch in S2 vor (Maximalität)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
130
Wie findet man MUMs?
•
Naiver Ansatz
– Vergleiche alle Teilsequenzen von A mit allen Teilsequenzen von B.
Dies dauert O(nn)
•
verwende Suffix-Bäume als Datenstruktur
– ein naiver Ansatz, einen Suffix-Baum zu konstruieren hat
eine quadratische Komplexität in der Rechenzeit und dem Speicherplatz
– durch klevere Benutzung von Pointern gibt es lineare Algorithmen in
Rechenzeit und Speicherplatz wie den Algorithmus von McCreight
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
131
Suffix-Bäume
CACATAG$
Suffix-Bäume sind seit über 20
Jahren wohl etabliert.
Einige ihrer Eigenschaften:
• ein “Suffix” beginnt an jeder
Position I der Sequenz und reicht
bis zu ihrem Ende.
• Eine Sequenz der Länge N hat N
Suffices.
• Es gibt N Blätter.
• Jeder interne Knoten hat mindest
zwei Kinder.
• 2 Kanten aus dem selben Knoten
können nicht mit dem selben
Buchstaben beginnen.
• Am Ende wird $ angefügt
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
132
Suchen in einem Suffix-Baum
Search Pattern:
CATA
$
8
G
A
C
A
C
A
A
T
T
A
G
G
$
1
13. Vorlesung WS 2005/06
7
T
A
G
$
C
T
G
$
A
G
$
6
A
T
A
G
$
$
3
$
5
Software-Werkzeuge der Bioinformatik
2
133
4
Suchen in einem Suffix-Baum
Search Pattern:
ATCG
$
8
G
A
C
A
C
A
A
T
T
A
G
G
$
1
13. Vorlesung WS 2005/06
7
T
A
G
$
C
T
G
$
A
G
$
6
A
T
A
G
$
$
3
$
5
Software-Werkzeuge der Bioinformatik
2
134
4
MUMmer 1.0: Wie findet man MUMs?
• Konstruiere einen Suffix-Baum aus allen Suffices von Genom A
• Füge jedes Suffix von Genom B in diesen Suffix-Baum ein
• Kennzeichne jedes Blatt mit dem Genom, das es enthält
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
135
Sortieren der MUMs
• MUMs werden nach ihren Positionen in Genom A sortiert
Genome A:
Genome B:
Genome A:
Genome B:
1
1
1
1
3
2
3
2
2
4
5
4
6
6
4
2
4
7
5
7
6
6
7
7
Jeder MUM ist nur mit seiner Nummer gekennzeichnet, ohne Berücksichtigung seiner Länge.
Das obere Alignment zeigt alle MUMs.
Die Verschiebung von MUM 5 in Genom B zeigt eine Transposition an.
Die Verschiebung von MUM 3 könnte ein Zufallstreffer oder Teil einer inexakten Repeat-Sequenz sein.
Unteres Alignment: suche in beiden Genomen die längste gemeinsam ansteigende Folge an
Subsequenzen
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
136
Es gibt 4 Arten an Gaps in MUM-Alignments
Diese Beispiele
stammen aus dem
Alignment der beiden
M.tuberculosis
Genome.
Delcher et al.
Nucleic Acids Res 27, 2369 (1999)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
137
Beispiel: Alignment zweier Mikroorganismen
Das Genom von M.genitalium ist nur etwa 2/3 so
lang wie das von M.pneumoniae.
Obere Abbildung: FASTA-Alignment von
M.genitalium und M.pneumoniae.
Mitte: Alignment mit 25mers
Unten: Alignment mit MUMs. 5 Translokationen.
Ein Punkt bedeutet jeweils einen Treffer zwischen
den Genomen.
FASTA-Plot: ähnliche Gene
25-mer-Plot: 25-Basen-Sequenz, die in beiden
Sequenzen genau einmal vorkommt.
MUM-Plot: MUM-Treffer.
Delcher et al. Nucleic Acids Res 27, 2369 (1999)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
138
Example: alignment human:mouse
Alignment of even more distant
species: human and mouse.
Here: alignment of a 222 930 bp
subsequence of human
chromosome 12p13, accession
no. U47924, to a 227 538 bp
subsequence of mouse
chromosome 6, accession no.
AC002397. Each point in the
plot corresponds to an MUM of
[ge]15 bp.
Delcher et al. Nucleic Acids Res 27, 2369 (1999)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
139
Zusammenfassung
•
Die Anwendung der Suffix-Bäume war ein Durchbruch für die
Alignierung ganzer Genome
•
MUMmer 2 besitzt zusätzliche Verbesserung für die Rechenzeit und
den Speicherplatz
– die Verwendung von Suffix-Arrays anstatt von Suffix-Bäumen gibt
eine verbesserte Datenstruktur ( Stefan Kurtz, Hamburg)
– es wird nun möglich, mehr als zwei Genome zu alignieren
(implementiert in MGA)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
140
V6: Bioinformatische Analyse von Proteinstrukturen
Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk
- Hierarchischer Aufbau der Proteinstruktur
- Klassifikation von Proteinstrukturen
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
141
Funktion von Proteinen
Strukturproteine (Hüllenproteine von Viren, Cytoskelett)
Enzyme, die chemische Reaktionen katalysieren
Transport- und Speicheproteine (Hämoglobin)
Regulatoren wie Hormone und Rezeptoren/Signalübertragungsproteine
Proteine, die die Transkription kontrollieren
oder an Erkennungsvorgängen beteiligt sind:
Zelladhäsionsproteine, Antikörper
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
142
Warum sind Proteine so groß?
Proteine sind große Moleküle.
Ihre Funktion ist oft in einem kleinen Teil der Struktur, dem aktiven Zentrum,
lokalisiert.
Der Rest?
- Korrekte Orientierung der Aminosäuren des aktiven Zentrums
- Bindungsstellen für Interaktionspartner
- Konformationelle Dynamik
Evolution der Proteine: Veränderungen der Struktur, die durch Mutationen in ihrer
Aminosäuresequenz hervorgerufen werden.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
143
Hierarchischer Aufbau
Primärstruktur – Sekundärstruktur – Tertiärstruktur – Quartärnere Struktur –
Komplexe
Welche „Kräfte“ sind für die Ausbildung der verschiedenen „Strukturen“
wichtig?
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
144
Einleitung: Aminosäuren
Aminosäuren sind die Bausteine von Proteinen:
Aminogruppe
H
N
H
O
H
Carboxylsäure
R
OH
Aminosäuren unterscheiden sich hinsichtlich ihrer
- Größe
- elektrischen Ladung
- Polarität
- Form und Steifigkeit
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
145
Einleitung: hydrophobe Aminosäuren
Proteine sind aus 20 verschiedenen natürlichen
Aminosäuren aufgebaut
H
H
H
N
5 sind hydrophob.
Sie sind vor allem
Im Proteininneren.
N
O
OH
H
H
N
O
H
OH
HC
CH3 CH 3
OH
CH 3
Alanine
Valine
H
H
N
H
O
H
H
Glycine
O
H
N
O
CH
OH
H
H
CH 2
CH3
OH
H3C
CH3
Leucine
13. Vorlesung WS 2005/06
H
H
Software-Werkzeuge der Bioinformatik
CH 2
CH3
Isoleucine
146
Einleitung: aromatische Aminosäuren
Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan
liegen bei Membranproteinen vor allem in der Interface-region.
H
H
H
N
N
O
OH
N
CH 2
CH 2
OH
O
13. Vorlesung WS 2005/06
O
H
N
Phenylalanin
H
O
H
H
CH 2
H
H
H
Tyrosin
Software-Werkzeuge der Bioinformatik
OH
CH
H
Tryptophan
147
Einleitung: Aminosäuren
Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin.
Cysteine können Disulfidbrücken bilden.
Prolin ist ein “Helixbrecher”.
H
H
H
N
H
H
OH
CH2 N H
CH2
CH2 H
Methionin
Prolin
N
O
O
H
H
CH 2
S
H
OH
CH 2
O
OH
CH 2
S
CH 3
Cystein
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
148
Einleitung: Aminosäuren
Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen:
H
H
H
N
O
H
CH 2
CH2
O
Serin
13. Vorlesung WS 2005/06
N
O
H
H
H
OH
OH
CH 2
HC
CH3
O
H
Threonin
Software-Werkzeuge der Bioinformatik
149
Einleitung: Aminosäuren
Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der
Proteinoberflächen und in aktiven Zentren.
Thermophile Organismen besitzen besonders viele Ionenpaare auf den Proteinoberflächen.
H
H
H
N
H
H
N
O
CH 2
OH
13. Vorlesung WS 2005/06
OH
H
CH 2
+
N H
+
Lysin
CH 2
OH
CH2
CH2
NH3
O
H
CH 2
CH2
CH 2
N
O
H
H
H
H N
N
H
H
NH2
+
NH2
Arginin
Software-Werkzeuge der Bioinformatik
Histidin
150
Einleitung: Aminosäuren
Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga.
Asp und Glu haben pKa Werte von 2.8. Das heisst, erst unterhalb von pH=2.8
werden ihre Carboxylgruppe protoniert.
H
H
H
N
N
O
OH
CH 2
-
O
N
OH
CH 2
CH2
OH
O
Asparagin
OH
CH 2
CH2
NH 2
-
Software-Werkzeuge der Bioinformatik
N
H
CH 2
O
H
O
H
O
O
Asparaginsäure
Glutaminsäure
13. Vorlesung WS 2005/06
H
H
O
H
H
O
H
H
O
NH2
Glutamin
151
Buchstaben-Code der Aminosäuren
•
Ein- und Drei-Buchstaben-Codes der Aminosäuren
G
A
L
M
F
W
K
Q
E
S
Glycin
Alanin
Leucin
Methionin
Phenylalanin
Tryptophan
Lysin
Glutamin
Glutaminsäure
Serin
Gly
Ala
Leu
Met
Phe
Trp
Lys
Gln
Glu
Ser
Zusätzliche Codes
B Asn/Asp Z Gln/Glu
P
V
I
C
Y
H
R
N
D
T
Prolin
Valin
Isoleucin
Cystein
Tyrosin
Histidin
Arginin
Asparagin
Asparaginsäure
Threonin
Pro
Val
Ile
Cys
Tyr
His
Arg
Asn
Asp
Thr
X Irgendeine Aminosäure
Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments
und für Proteinstrukturanalyse!
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
152
Einleitung: Peptidbindung
In Peptiden und Proteinen sind die Aminosäuren miteinander als lange
Ketten verknüpft.
Ein Paar ist jeweils über eine „Peptidbindung“ verknüpft.
Die Aminosäuresequenz eines
Proteins bestimmt seinen
„genetischen code“.
H
+
H3N
R1
Die Kenntnis der Sequenz eines
Proteins allein verrät noch nicht
viel über seine Funktion.
Entscheidend ist seine
drei-dimensionale Struktur.
O
O
+
+
 G>0
H3N
H
N
R1
H R2
H O
+
H3N
O
R2
O
H3N
H O
+
H
H
O
+
-
H2O
O
O
N
R1
H R2
O
peptide bond
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
153
Eigenschaften der Peptidbindung
E.J. Corey und Linus Pauling studierten die Petidbindung in den
1940‘ern und 1950‘ern.
Linus Pauling
Sie fanden: die C-N Länge ist 1.33 Å.
Sie liegt damit zwischen 1.52 Å und 1.25 Å,
was die Werte für eine Einfach- bzw.
Doppelbindung sind.
Nobelpreise für
Chemie 1954 und
Frieden 1963
H
+
H3N
R1
Die benachbarte C=O Bindung hat eine Länge
Von 1.24 Å, was etwas länger als eine typische
Carbonyl- C=O Doppelbindung ist (1.215 Å).
O
-
+
+
+
 G>0
Es bleiben damit pro Residue 2 frei drehbare
Diederwinkel des Proteinrückgrats übrig.
Software-Werkzeuge der Bioinformatik
H3N
O
R2
O
H
+
H R2
H O
H3N
H
O
-
O
N
R1
H R2
-
O
N
R1
+
H
H3N
H O
 die Peptidbindung hat einen teilweise
konjugierten Charakter und ist nicht frei drehbar.
13. Vorlesung WS 2005/06
O
O
peptide bond
154
H2O
Einleitung: Sekundärstrukturelemente
Wie seit den 1950‘er Jahren bekannt,
können Aminosäure-Stränge
Sekundärstrukturelemente
bilden:
(aus Stryer, Biochemistry)
-Helices
und -Stränge.
In diesen Konformationen
bilden sich jeweils
Wasserstoffbrückenbindungen
zwischen den C=O und N-H
Atomen des Rückgrats. Daher
sind diese Einheiten strukturell
stabil.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
155
Diederwinkel des Proteinrückgrats
Die dreidimensionale
Faltung des Proteins wird
vor allem durch die
Diederwinkel des
Proteinrückgrats bestimmt.
Pro Residue gibt es 2 frei
drehbare Diederwinkel, die
als  und  bezeichnet
werden.
Lesk-Buch
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
156
Stabilität und Faltung von Proteinen
Die gefaltete Struktur eines Proteins ist
die Konformation, die die günstigste freie
Enthalpie G für diese
Aminosäuresequenz besitzt.
-Faltblatt-Region
Der Ramachandran-Plot charakterisiert
die energetisch günstigen Bereiche des
Aminosäurerückgrats.
r-Helix-Region
(rechtsgängige Helix)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
157
Domänen
Kompakter Bereich im
Faltungsmuster einer
Molekülkette,
der den Anschein hat, “er
könnte auch unabhängig von
den anderen stabil sein”.
Lesk-Buch
SERCA Calcium-Pumpe
cAMP-abhängige Proteinkinase
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
158
Modular aufgebaute Proteine
Modular aufgebaute Proteine bestehen aus mehreren Domänen.
Anwendung von SMART (www.smart.embl-heidelberg.de) für die Src-Kinase HcK
ergibt
Sequenz:
MGGRSSCEDP
YVPDPTSTIK
KGDQMVVLEE
RKDAERQLLA
RTLDNGGFYI
EKDAWEIPRE
AFLAEANVMK
SKQPLPKLID
GLARVIEDNE
VTYGRIPYPG
RPTFEYIQSV
GCPRDEERAP
PGPNSHNSNT
SGEWWKARSL
PGNMLGSFMI
SPRSTFSTLQ
SLKLEKKLGA
TLQHDKLVKL
FSAQIAEGMA
YTAREGAKFP
MSNPEVIRAL
LDDFYTATES
13. Vorlesung WS 2005/06
RMGCMKSKFL
PGIREAGSED
ATRKEGYIPS
RDSETTKGSY
ELVDHYKKGN
GQFGEVWMAT
HAVVTKEPIY
FIEQRNYIHR
IKWTAPEAIN
ERGYRMPRPE
QYQQQP
QVGGNTFSKT
IIVVALYDYE
NYVARVDSLE
SLSVRDYDPR
DGLCQKLSVP
YNKHTKVAVK
IITEFMAKGS
DLRAANILVS
FGSFTIKSDV
NCPEELYNIM
Software-Werkzeuge der Bioinformatik
ETSASPHCPV
AIHHEDLSFQ
TEEWFFKGIS
QGDTVKHYKI
CMSSKPQKPW
TMKPGSMSVE
LLDFLKSDEG
ASLVCKIADF
WSFGILLMEI
MRCWKNRPEE
159
Klassifikation von Proteinen
Die Klassifikation von Proteinstrukturen
nimmt in der Bioinformatik eine
Schlüsselposition ein, weil sie das
Bindeglied zwischen Sequenz und
Funktion darstellt.
Lesk-Buch
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
160
Anwendungen der Hydrophobizität
Lesk-Buch
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
161
Anwendungen der Hydrophobizität: Das helikale Rad
Betrachte die Residuen einer
Transmembranhelix …
-Helices in globulären Proteinen
haben oft eine ins Innere des
Proteins weisende „hydrophobe“
Seite und eine „hydrophile“ Seite,
die zum Lösungsmittel gerichtet
ist.
In einer -Helix ist jede Aminosäure
um etwa 100 Grad gegenüber ihrem
Vorgänger verdreht.
Damit müssen sich hydrophile und
hydrophobe Residuen etwa alle
4 Positionen abwechseln.
13. Vorlesung WS 2005/06
Dasselbe Verhalten zeigen
amphipatische Helices, die
auf der Oberfläche einer
Lipid-Doppelschicht binden.
Software-Werkzeuge der Bioinformatik
162
Topologie von Membranproteinen
Im Inneren der Lipidschicht kann das Proteinrückgrat keine WasserstoffbrückenBindungen mit den Lipiden ausbilden 
die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen
ausbilden,
sie müssen entweder helikale oder -Faltblattkonformation annehmen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
163
Topologie von Membranproteinen
Die hydrophobe Umgebung erzwingt, dass (zumindest die bisher bekannten)
Strukturen von Transmembranproteinen entweder reine -Barrels (links)
oder reine -helikale Bündel (rechts) sind.
http://www.biologie.uni-konstanz.de/folding/Structure%20gallery%201.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
164
Superposition von Strukturen und Struktur-Alignment
Vergleich von zwei Proteinstrukturen:
Angabe des RMS-Werts, die Wurzel
der mittleren quadratischen
Abweichung,
RMS 
2
d
 i
n
oder root-mean-square deviation
di : Abstand zwischen den Koordinaten
des i-ten Atompaares
n : Anzahl an Atompaaren
Interessanterweise ist bei zwei
verschiedenen Proteinen oft nicht klar,
welche Atome überlagert werden
sollen!
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
165
Zusammenfassung
Die Sekundärstrukturelemente -Helix und -Faltblatt werden durch energetisch
günstige Wasserstoffbrücken zwischen Atomen des Peptidrückgrats gebildet.
 Sie sind sequenzunabhängig.
 Protein ”folds” ergeben sich durch die Assemblierung von
Sekundärstrukturelementen.
Der Ramachandran-Plot ist ein wichtiges Werkzeug um die Güte von Proteinstrukturen (bzw. –modellen) zu beurteilen.
Proteine sind oft modular aus mehreren Domänen aufgebaut.
Der Vergleich mehrerer Proteinstrukturen ist nicht-trivial.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
166
V7: Aufklärung von Proteinstrukturen in der nahen Zukunft
Structural genomics soll die Strukturen von 1000-10.000 Proteinen vor allem
mit neuen Faltungsmustern („folds“) aufklären.
Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung.
Definition von Folds: siehe V6
Homologiemodellierung der Strukturen aller verwandten Proteine unter
Verwendung der bekannten 3D-Strukturen als Vorlagen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
167
Analyse einer unbekannten Sequenz
Input: neue
Proteinsequenz
Multiples
Sequenzalignment
Gibt es ähnliche
Sequenz mit
bekannter 3D-Struktur?
Ja
Experimentelle
Daten
vorhanden?
Suche in Sequenzdatenbanken
nach identischer Sequenz bzw.
ähnlichen Sequenzen
Nein
Erkenne
Domänen
Vorhersage der
Sekundärstruktur
Zuordnung eines
Protein-Folds
Analyse dieses
Folds, Nachbarn?
Ja
Alignment der
Sekundärstrukturen.
Modellierung der
Proteinstruktur durch
Homologiemodellierung
Alignment der Sequenz
mit einer Target-Struktur
3D-Proteinstruktur
Kann man Funktion
zuordnen?
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
Fold erkannt?
Nein
Ab inito Vorhersage
der Tertiärstruktur
Nach Rob Russell,
http://speedy.embl-heidelberg.de/
gtsp/flowchart2.html
168
Homologie/Komperative Modellierung
Qualität der Modellierung
hängt von Sequenzidentität
mit Vorlage ab.
Protein structure modeling for
structural genomics.
R. Sánchez et al. Nat. Struct. Biol.
7, 986 - 990 (2000)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
169
Genomweite Strukturmodellierung
Effekt des Wachstums der PDBDatenbank auf die Zahl der Protein
des Bakteriums M. Genitalium,
deren Fold und Struktur im
jeweiligen Jahr vorhergesagt
werden konnte.
Grün: Proteine mit Modell oder fold
assignment aus PSI-BLAST für mindestens
30 ihrer Residuen.
Blau: nur Modell
Rot: Anteil der Residuen des Genoms, die
in Modell oder fold assignment
vorkommen.
Homologie-Modellierung ist nicht
aufwendig, dauert pro Struktur nur
wenige Minuten.
Akkurate Modellierung von Loops
und Seitenketten kann jedoch
erheblich aufwendiger sein.
R. Sánchez et al. Nat. Struct. Biol.
7, 986 - 990 (2000)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
170
Schliesse von Struktur auf Funktion?
From structure to function: Approaches and
limitations J. M. Thornton et al. Nat. Struct.
Biol. 7, 991 (2000)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
171
Methode zur Fold-Erkennung: Threading
•
Gegeben:
– Sequenz:
IVACIVSTEYDVMKAAR…
– Ein Datenbank von möglichen
Proteinstrukturen (“folds”)
•
Bilde die Sequenz auf jeden fold ab
•
Bestimme anhand einer
Bewertungsfunktion, welcher Fold am
besten zu dieser Sequenz passt.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
172
„New view of protein folding“:
Faltung entlang trichterähnlichen Energielandschaften
Bryngelson, Wolynes, PNAS
(1987)
Gradient 
beschleunigt
Faltung
Rauhigkeit
bremst
Faltung
“Frustration”
Brooks, Gruebele, Onuchic, Wolynes,
PNAS 95, 11037 (1998)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
173
Fold Optimierung
•
Einfache Gittermodelle (HP-Modelle)
– Zwei Sorten von Seitenketten:
hydrophob und polar
– 2-D oder 3-D Gitter
– Treibende Kräfte:
hydrophober Kollaps – es ist günstig,
Kontakte zwischen hydropoben Seitenketten
zu bilden
– Bewertung = Anzahl an HH Kontakten
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
174
Homologie-basierte Proteinmodellierung (SwissModel)
•
Methode: Wissensbasierter Ansatz.
•
Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins,
•
Prozedur:
•
Superposition der verwandten 3D-Strukturen
•
Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz.
•
Generierung eines Frameworks für die neue Sequenz.
•
Konstruiere fehlende Loops.
•
Vervollständige und korrigieren das Proteinrückgrat.
•
Korrigiere die Seitenketten.
•
Überprüfe die Qualität der modellierten Struktur und deren Packung.
•
Strukturverfeinerung durch Energieminimierung und Moleküldynamik.
www.expasy.org/swissmodel/
SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
175
Überlagerung der 3D-Strukturen
Regionen mit Sequenzähnlichkeit werden automatisch ausgewählt und ihre
Residuen in 3D überlagert.
Diese erste Auswahl wird weiter verfeinert.
www.expasy.org/swissmodel/
SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
176
3D Framework für die neue Sequenz
(a) Für alle Atome, die eine ähnliche Position besitzen und vermutlich eine
strukturelle Entsprechung in der neuen Struktur besitzen, werden gemittelte
Positionen als Framework-Koordinaten bestimmt.
(b) Seitenketten mit völlig inkorrekter Geometrie werden entfernt.
(c) Matrix mit Gewichten für lokale Ähnlichkeit.
www.expasy.org/swissmodel/
SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
177
Konstruktion fehlender Loops
Basierend auf den Verankerungen der Loops werden
(a) wird eine Datenbank bekannter Loopfragmente in der PDB-Datenbank
durchsucht.
Für den neuen Loop verwendet man entweder das am besten passende
Fragment oder ein Framework aus den 5 besten Fragmenten.
(b) Der Torsionsraum der Loopresiduen wird durchsucht
- 7 erlaubte Kombinationen der - Winkel
- benötigter Raum für den gesamten Loop
www.expasy.org/swissmodel/
SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
178
Rekonstruktion von fehlendem Proteinrückgrat
Das Rückgrat wird auf der Grundlage von
C -Positionen konstruiert.
- 7 Kombinationen der - Winkel sind
erlaubt.
- Durchsuche Datenbank für BackboneFragmente mit Fenster aus 5 Residuen,
Verwende die Koordinaten der 3 zentralen
Residuen des am besten passenden
Fragments.
www.expasy.org/swissmodel/SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
179
Konstruktion unvollständiger/fehlender Seitenketten
Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der
Häufigkeit des Auftretens in der PDB-Datenbank.
- Erst werden verdrehte (aber komplette) Seitenketten korrigiert.
- fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt.
Teste dabei, ob van-der-Waals Überlapps auftreten und ob die
Torsisonswinkel in erlaubten Bereichen liegen.
www.expasy.org/swissmodel/
SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
180
Überprüfe die Qualität der 3D-Modelle
Analysiere 3D-Umgebung jeder Seitenkette. Erlaubt die Identifizierung
missgefalteter Regionen.
Auch: WHATCHECK
www.expasy.org/swissmodel/
SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
181
Analyse der Packungsdichte eines atomaren Modells
Berechne, welche Bereiche des Proteins für eine kleine Probe zugänglich sind
(Connolly-Oberfläche bzw. Kubisches Gitter). Algorithmus entdeckt Oberflächen
innerhalb und ausserhalb des Proteins. Der Vergleich von Grösse und Verteilung
von internen Cavities zwischen Modell und Kristallstruktur-Vorlage erlaubt es,
Fehler im Modell aufzuspüren.
www.expasy.org/swissmodel/
SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
182
Bewertung der Qualität eines Homologiemodells
1. Allgemeine Gesichtspunkte
•
Ein Modell wird als falsch angesehen, wenn mindestens eines seiner
strukturellen Elemente gegenüber dem Rest des Modells falsch angeordnet ist.
Dies kann durch ein falsches Sequenzalignment entstehen.
Das Modell kann dennoch korrekte Stereochemie besitzen.
•
Man kann ein Modell als ungenau ansehen wenn seine atomare Koordinaten
mehr als 0.5 Å von einer experimentellen Kontrollstruktur abweichen.
•
Ungenauigkeiten können auch in der Stereochemie (Bindungslängen und –
winkel auftreten). Dies kann leicht mit WhatCheck überprüft werden.
•
Statistische Paarpotentiale für die Verteilung von Aminosäuren in bekannten
Proteinen erlauben manchmal die Aufspürung von fehlerhaften Modellen.
www.expasy.org/swissmodel/SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
183
2. Fehlerquellen
Die Qualität eines Modells hängt von 2 Kriterien ab
1
Seine Korrektheit hängt von der Qualität des Sequenzalignments ab.
2
Seine Genauigkeit wird durch seine Abweichung von einer (zukünftig zu
bestimmenden) experimentellen Struktur bestimmt.
Strukturelle Abweichungen haben 2 Ursachen
- der inherente Fehler der Modellierungsprozedur
- durch Umgebung und Methoden der Datenerfassung bewirkte Variationen
der experimentellen Strukturen, die als Vorlage verwendet werden.
•
Ein durch komparative Methoden abgeleitetes Protein-Modell kann nicht
genauer sein als der Unterschied zwischen einer NMR-Struktur und einer
Kristallstruktur desselben Proteins.
www.expasy.org/swissmodel/SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
184
3 Proteinkern und Loops
Fast jedes Proteinmodell enthält nicht-konservierte Loops, die als die am
wenigsten zuverlässigen Teile des Proteinmodells angesehen werden können.
Andererseits sind diese Bereiche der Struktur oft auch am flexibelsten –
hohe Temperaturfaktoren in Kristallstrukturen oder hohe Unterschiede zwischen
verschiedenen (gleichsam gültigen) NMR-Strukturen.
Die Residuen im Proteinkern werden gewöhnlich fast in der identischen
Orientierung wie in experimentellen Kontrollstrukturen modelliert.
Residuen an der Proteinoberfläche zeigen grössere Abweichungen.
www.expasy.org/swissmodel/SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
185
Einordnung von Proteinmodellen in 3 Kategorien
1
Modelle, die auf falschen Alignments zwischen Vorlage und Zielprotein
basieren.
Strategie: konstruiere mehrere Modelle für unterschiedliche Alignments.
Wähle das am besten erscheinende Modell.
2
Modelle, die auf korrekten Alignments beruhen, können für zielgerichtete
Mutagenese-Experimente hilfreich sein.
Sind oft nicht zuverlässig genug für detaillierte Untersuchung von
Ligandenbindung.
3
Modelle, die auf einer hohen Sequenzidentität (> 70%) mit der Vorlage
beruhen. Solche Modelle können in Drug Design Projekten verwendet
werden.
Fehler sind jedoch immer, also auch bei sehr hoher Identität möglich.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
186
Test für die Zuverlässigkeit von SwissModell
3DCrunch-Projekt von Expasy zusammen mit SGI. Generiere „HomologieModelle“ für Proteine mit bekannter 3D-Struktur.
Die Vorlagen besaßen 25 – 95 % Sequenzidentität mit dem Zielprotein.
1200 Kontrolle-Modelle.
Grad der Identität [%]
25-29
30-39
40-49
50-59
60-69
70-79
80-89
90-95
Modell innerhalb von x Å RMSD zur Vorlage
<1
0
0
9
18
38
42
45
59
<2
10
18
44
55
72
71
79
78
<3
30
45
63
79
85
82
86
83
<4
46
66
78
86
91
85
94
86
<5
67
77
91
91
92
88
95
91
>5
33
23
9
9
8
12
5
9
www.expasy.org/swissmodel
/SWISS-MODEL.html
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
187
Zusammenfassung
•
Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität
besitzt ca. 1 Å RMSD
•
Dies gilt sogar für absolute identische Sequenzen.
•
Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt,
den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in
den konstruierten Schleifen.
•
Die Wahl der Modellvorlage ist entscheidend!
Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder
Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle,
die von ihnen abgeleitet werden.
•
Jeder Fehler im Alignment produziert falsche Modelle!
Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
188
V8 Protein-Liganden-Wechselwirkung –
anschaulich betrachtet
Beispiele für Protein-Liganden Komplexe
Wo ist das aktive Zentrum?
(Docking wird hier nicht behandelt – siehe Spezialvorlesungen von A. Kämper und
A. Hildebrandt/D. Neumann im SS05)
Wie stark binden Liganden an Proteine?
Wie kann man die Affinität des Liganden verbessern?
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
189
beta-Trypsin:Benzamidin (3ptb)
Enge, sehr polare Bindungstasche auf Proteinoberfläche.
Amidin-Gruppen
des Liganden
bilden 4 HBindungen mit
Carboxylgruppen
des Proteins
(Trypsin) aus.
Benzolring passt
optimal in hydrophobe Tasche.
www.scripps.edu/pub/olson-web/doc/autodock
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
190
Cytochrome P450cam : Kampher (2cpp)
Weites, recht unpolares aktives Zentrum im Proteininneren.
Hämgruppe katalysiert Reaktion. Partielle Desolvatation.
Wie gelangt Substrat hinein?
www.scripps.edu/pub/olson-web/doc/autodock
Software-Werkzeuge der Bioinformatik
13. Vorlesung WS 2005/06
191
Maus-Antikörper McPC-603:Phosphocholine (2mcp)
Bindungstasche auf Proteinoberfläche wird durch drei
hypervariable Loops geformt.
www.scripps.edu/pub/olson-web/doc/autodock
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
192
Streptavidin:Biotin (1stp)
Sehr polare, tiefe Bindungstasche.
Außerordentlich starke Affinität.
www.scripps.edu/pub/olson-web/doc/autodock
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
193
HIV-1 Protease:XK-263 Inhibitor (1hvr)
Inhibitor XK-263 stammt von Merck-Dupont. Er enthält eine 7-Ring
zyklische Urea-Einheit mit Phenyl- und Naphtyl-Ringen.
Die CO-Gruppe ahmt das ansonsten konservierte Wassermolekül 301 nach
und verdrängt es. Der tiefere Teil des zyklischen Urea-Rings enthält zwei
benachbarte Hydroxylgruppen, die H-Bindungen mit den katalytischen
Aspartat-Residuen bilden.
13. Vorlesung WS 2005/06
www.scripps.edu/pub/olson-web/doc/autodock
194
Software-Werkzeuge der Bioinformatik
Identifikation von funktionellen Residuen
1 Funktionelle bzw. katalytische Residuen werden traditionell in (hoch)
konservierten Regionen von Multiple Sequence Alignments erwartet
evtl. Kopplung mit Information über 3D-Struktur
2: finde Residuen, die Proteinstruktur destabilisieren.
Grund: Funktionelle Residuen im Proteininneren sind oft energetisch ungünstig.
Funktionalität auf Kosten von Stabilität.
3: finde Löcher oder Einbuchtungen in Proteinstruktur.
Hier vorgestellt: integrierte Methode, die 1 -3 implementiert. Möglichkeit für
funktionelle Annotation von Proteinen mit unbekannter Funktion.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
195
Wo ist das aktive Zentrum I?
Auswahl von 49 Enzymen. Kriterien:
- Auflösung  2.0 Å
- funktionelle Residuen sind bekannt (in Swissprot-Eintrag in ACT_SITE)
- enthalten nur eine Domäne (SCOP Datenbank)
- die SCOP-Einträge sind unterschiedlich
- es gibt  10 homologe Sequenzen mit Blast E-Wert < 10-10.
98 katalytische Residuen:
22 His
17 Asp, Glu
10 Cys
8 Ser
7 Arg, Lys
Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053
(2003)
5 Tyr
3 Asn
2 Thr
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
196
Repräsentative Enzyme
PDB
Protein
13. Vorlesung WS 2005/06
Länge Auflösung
SCOP
EC
Software-Werkzeuge der Bioinformatik
Zahl Zahl und Namen der
Seq. katalytischen Residuen
197
Fitness-Funktion
- Bewertung der Seitenketten-Konformation entsprechend Rotamer-Bibliothek
- Seitenketten-Packung (wissensbasiert)
- Hydratation (wissensbasiert)
- Analyse der Proteinoberfläche (MSP-Programm): Zuordnung zu den einzelnen
Residuen
- elektrostatische Energie: AMBER-Partialladungen  elektrostatisches Potential
(aus Poisson-Boltzmann-Rechnung)
Jeder Score(S), Rang (R) und Position (L) werden gegen den Mittelwert und die
Standardabweichung für jeden Aminosäuretyp normalisiert.
Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
198
Vorhersage katalytischer Residuen in Enzymen
Beispiel: 3D-Profil für Lysozym aus Hühnereiweiss. D52 ist katal. Residue.
native
Residue
Hydratations- lokale
klasse
Struktur
D52 hat sehr schlechten Rang. D.h.
es wäre günstig D52 zu ersetzen.
Katalytische Residuen sind stets unstabiler als nicht-katalytische.
Score Rang
Score
native native
beste
Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003)
Software-Werkzeuge der Bioinformatik
199
Residue
Residue Residue
13. Vorlesung
WS 2005/06
Vorhersage katalytischer Residuen in Enzymen
Flussdiagramm der Vorhersagemethode.
- Links oben Analyse der Konservierung.
- Rechts oben Analyse der Position in
3D-Struktur bzw. Stabilität der
Mutantenproteine
- untere Hälfte trifft für verschiedene
Aminosäuretypen (1-Letter-code)
die Entscheidung, ob katalytische
Residuen vorliegen.
Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
200
Wo ist das aktive Zentrum II
Analyse mit elektrostatischen
Kontinuumsrechnungen
 
 A 

pH  pK a  log 
 HA 
Die Titrationszustände der meisten
Aminosäuren folgen der
Henderson-Hasselbalch-Gleichung.
Berechne Titrationskurven für 3
Enzyme mit UHBD.
TIM und AR haben eine sehr ähnliche
Strukturen, katalysieren aber ganz
unterschiedliche Reaktionen.
Ondrechen, Clifton, Ringe,
PNAS 98, 12473 (2001)
AR und PMI haben sehr verschiedene
Strukturen, katalysieren aber ähnliche
Reaktionen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
201
Theoretische Titrationskurven
Titrationskurven aller His-Residuen
in TIM
Triosephosphat Isomerase (TIM) katalysiert die Isomerierung von D-Glyceraldehyd3-Phosphat zu Dihydroxyaceton-Phosphat.
Man findet 4 Residuen mit verschobenen, flachen Titrationskurven:
His95, Glu165, Lys112, Tyr164.
Ondrechen, Clifton, Ringe,
Davon liegen H95, E165 und Y164 eng beieinander.
PNAS 98, 12473 (2001)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
202
Theoretische Titrationskurven
Titrationskurven aller Tyr-Residuen
in AR
Ondrechen, Clifton, Ringe,
PNAS 98, 12473 (2001)
Aldose-Reduktase (AR) katalysiert die Reduktion einer Aldehydgruppe von
Aldose zu einem Alkohol.
Man findet 7 Residuen mit verschobenen, flachen Titrationskurven:
Tyr48, Cys298, Glu185, Lys21, Lys77, Tyr107, Tyr209.
Tyr48, His110 und Cys298 bilden das aktive Zentrum. Die anderen Residuen
liegen in der Nähe.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
203
Theoretische Titrationskurven
Titrationskurven aller Lys-Residuen
in PMI
Ondrechen, Clifton, Ringe,
PNAS 98, 12473 (2001)
PMI katalysiert die Interkonversion von Mannose-6-Phosphat und Fructose-6Phosphat. Man findet 4 Residuen mit verschobenen, flachen Titrationskurven:
His135, Lys100, Lys136, Tyr287.
Alle liegen eng beieinander, die ersten 3 wohl im aktiven Zentrum und His135
nahe bei Lys136.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
204
Weitere Beispiele
PDB ID
Name
1AMQ
Aspartat
aminotransferase* Transamination
Subtilisin
Peptidhydrolyse
Carlsberg
(Serin-Protease)
Acetylcholinesterase Ester Hydrolyse
1CSE
1EA5
1HKA
1OPY
1PIP
1PSO
1WBA
Chemie
Residuen mit auffälligen Titrationskurven
[H189, Y225, K258, R266, C191, C192],
[Y256], [Y295], [H301]
[D32, H64]
[Y130, E199, E327, H440, D392],
[Y148], [H398], [H425]
[D97, H115]
6-Hydroxymethyl-* Kinase
7,8-dihydropterin pyrophosphate kinase
3-Keto-5-Steroid Isomerase
isomerase
Papain
Peptidhydrolyse
(Cys Protease)
Pepsin
Peptidhydrolyse
(Säure-Protease)
Winged bean
Speicherung - keine
albumin
Enzymfunktion
Ondrechen, Clifton, Ringe,
PNAS 98, 12473 (2001)
13. Vorlesung WS 2005/06
[Y16, Y32, Y57], [C81]
[C25, H159],
[K17, K174, Y186], [R59], [R96]
[D32, D215, D303], [D11]
keine
Residue im
aktiven Zentrum
Software-Werkzeuge der Bioinformatik
Residue im
zweiter Schale.
205
Fazit
Mittels elektrostatischer Kontinuumsrechnungen für bekannte Kristallstrukturen
von Proteinen wurde für verschiedene externe pH-Werte die energetisch
optimale Gesamtladung der Proteine berechnet.
Aktive Zentren von Enzymen enthalten oft mehrere polare bzw. geladene
Seitenketten um die chemische Umwandlung zu katalysieren.
Deren Titrationszustände sind eng aneinander gekoppelt und zeigen im
Vergleich zu isolierten Seitenketten sehr ungewöhnliche Titrationskurven.
Diese Methode erlaubt also die Position von aktiven Zentren allein aufgrund
der Proteinstruktur zu erkennen.
Ondrechen, Clifton, Ringe,
PNAS 98, 12473 (2001)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
206
Wie stark binden Liganden an Proteine?
Kuntz, Chen, Sharp, Kollman, PNAS 96, 9997
(1999)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
207
Bindungsaffinität
 Metallionen oder Metalloenzyme
 kleine Anionen
 natürliche Liganden
Enzyminhibitoren
linearer Anstieg der freien
Bindungsenthalpie zu Beginn
bis ca. 15 Nicht-H-Atome
Gbinding = - 60 kJ mol-1 maximal.
Dann wird Sättigung beobachtet.
Kuntz, Chen, Sharp, Kollman, PNAS 96, 9997 (1999)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
208
Interpretation
Metallionen und Anionen binden
am stärksten.
-G pro Atom
Nanomolekulare Liganden können
bereits mit 7-10 Atomen erreicht werden.
Grössere Liganden
- besitzen üblicherweise nur eine
kleine Zahl polarer Atome pro Molekül
- die elektrostatischen Gruppen der
Bindungsstelle werden zunehmend
im Inneren begraben
- sind oft elektrisch neutral
- besitzen mehr entropische
Freiheitsgrade
Kuntz, Chen, Sharp, Kollman, PNAS 96, 9997 (1999)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
209
Eine konkrete Studie an einem biologischen System –
oft kommt es anders als man denkt.
Gu, W., Kofler, W., Antes, I., Freund, C., Helms, V. (2005)
Biochemistry, 44, 6404-6415.
Alternative Binding Modes of Proline-rich Peptides Binding
to the GYF-Domain.
entfällt
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
210
Zusammenfassung
Die Protein:Liganden Wechselwirkung ist heutzutage relativ gut verstanden.
Wir haben Tools kennengelernt, mit denen man
- die Position des aktiven Zentrums lokalisieren kann
- Bindungsaffinitäten abschätzen bzw. verbessern kann
- die Assoziation bzw. Dissoziation des Liganden simulieren kann.
Für die Zukunft bleibt:
(1) korrelierte Analysen aus der umgekehrten Richtung: finde einen Liganden,
der selektiv an ein bestimmtes Protein bindet, jedoch nicht an andere
(2) Automatisierung + Verknüpfung der obigen Schritte
(3) Einbeziehung zusätzlicher Gesichtspunkte (ADMET)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
211
V9 From Protein Complexes to Networks and back
Protein interaction could be defined in a number of ways
(1) Proteins that form permanent supracomplexes = „protein machines“
(2) Proteins that bind each other transiently
(signal transduction, bioenergetics ... )
(3) Co-regulated expression of genes/proteins
(4) Proteins participating in the same metabolic pathways
(5) Proteins sharing substrates
(6) Proteins that are co-localized
Techniques: Experimental methods + computational methods.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
212
How transferable are interactions?
interaction similariy (iRMSD) vs. %
sequence identity for all the available
pairs of interacting domains with
known 3D structure.
Curve shows 80% percentile (i.e. 80%
of the data lies below the curve), and
points below the line (iRMSD = 10 Å)
are similar in interaction.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
Aloy et al. Science, 303, 2026 (2004)
213
6. In silico studies to predict protein protein contacts
Field of studying protein interactions is split into two areas:
(1) on the macro level: map networks of protein interactions
(2) on the micro level: understand mechanisms of interaction
to predict interaction sites
Growth of genome data stimulated a lot of research in area (1).
Fewer studies have addressed area (2).
Constructing detailed models of the protein-protein interfaces is important
for comprehensive understanding of molecular processes, for drug design and
for prediction the arrangement into macromolecular complexes.
Also: understanding (2) should facilitate (1).
Therefore, this lecture focusses on linking area (2) to area (1).
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
214
Bioinformatic identification of interface patches
Statistical analysis of protein-protein interfaces in crystal structures of
protein-protein complexes: residues at interfaces have significantly different
amino acid composition that the rest of the protein.
 predict protein-protein interaction sites from local sequence information ?
Conservation at protein-protein interfaces: interface regions are more conserved
than other regions on the protein surface
 identify conserved regions on protein surface e.g. from solvent accessibility
Patterns in multiple sequence alignments: Interacting residues on two binding partners
often show correlated mutations (among different organisms) if being mutated
 identify correlated mutations
Structural patterns: surface patterns of protein-protein interfaces: interface often
formed by hydrophobic patch surrounded by ring of polar or charged residues.
 identify suitable patches on surface if 3D structure is known
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
215
7 Analysis of interfaces
1812 non-redundant protein
complexes from PDB
(less than 25% identity).
Results don‘t change
significantly if NMR structures,
theoretical models, or
structures at lower resolution
(altogether 50%) are excluded.
Most interesting are the results
for transiently formed
complexes.
permanent
transient
Ofran, Rost, J. Mol. Biol. 325, 377 (2003)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
216
Amino acid composition of interface types
The frequencies of all residues found in SWISS-PROT were used as background 
when the frequency of an amino acid is similar to its frequency in SWISS-PROT, the
height of the bar is close to zero. Over-representation results in a positive bar, and
under-representation results in a negative bar.
Ofran, Rost, J. Mol. Biol. 325, 377 (2003)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
217
Pairing frequencies at interfaces
red square: interaction occurs more
frequently than expected;
blue square: it occurs less frequently than
expected.
(A) Intra-domain: hydrophobic core is clear
(B) domain–domain,
(C) obligatory homo-oligomers,
(D) transient homo-oligomers,
(E) obligatory hetero-oligomers, and
(F) transient hetero-oligomers.
The amino acid residues are ordered
according to hydrophobicity, with isoleucine
as the most hydrophobic and arginine as the
least hydrophobic.
 propensities have been successfully
used to score protein-protein docking runs.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
Ofran, Rost, J. Mol. Biol. 325, 377 (2003)
218
8 Correlated mutations at interface
Pazos, Helmer-Citterich, Ausiello, Valencia J Mol Biol 271, 511 (1997):
correlation information is sufficient for selecting the correct structural arrangement of
known heterodimers and protein domains because the correlated pairs between the
monomers tend to accumulate at the contact interface.
Use same idea to identify interacting protein pairs.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
219
Correlated mutations at interface
Correlated mutations evaluate the similarity in variation patterns between positions
in a multiple sequence alignment.
Similarity of those variation patterns is thought to be related to compensatory
mutations.
Calculate for each positions i and j in the sequence a rank correlation coefficient (rij):
rij 
 S
k ,l
 S
ikl
 Si S jkl  S j 
 S   S
2
ikl
i
k ,l
jkl
Sj

2
k ,l
where the summations run over every possible pair of proteins k and l in the multiple
sequence alignment.
Sikl is the ranked similarity between residue i in protein k and residue i in protein l.
Sjkl is the same for residue j.
Si and Sj are the means of Sikl and Sjkl.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
Pazos, Valencia, Proteins 47, 219 (2002)
220
i2h method
Schematic representation of the i2h method.
A: Family alignments are collected for two
different proteins, 1 and 2, including
corresponding sequences from different
species (a, b, c, ).
B: A virtual alignment is constructed,
concatenating the sequences of the probable
orthologous sequences of the two proteins.
Correlated mutations are calculated.
C: The distributions of the correlation values
are recorded. We used 10 correlation levels.
The corresponding distributions are
represented for the pairs of residues internal
to the two proteins (P11 and P22) and for the
pairs composed of one residue from each of
the two proteins (P12).
13. Vorlesung WS 2005/06
Pazos, Valencia, Proteins 47, 219 (2002)
Software-Werkzeuge der Bioinformatik
221
Predictions from correlated mutations
Results obtained by i2h in a set of 14 two domain
proteins of known structure = proteins with two
interacting domains. Treat the 2 domains as different
proteins.
A: Interaction index for the 133 pairs with 11 or more
sequences in common. The true positive hits are
highlighted with filled squares.
B: Representation of i2h results, reminiscent of those
obtained in the experimental yeast two-hybrid system.
The diameter of the black circles is proportional to the
interaction index; true pairs are highlighted with gray
squares. Empty spaces correspond to those cases in
which the i2h system could not be applied, because they
contained <11 sequences from different species in
common for the two domains.
In most cases, i2h scored the correct pair of protein
domains above all other possible interactions.
Pazos, Valencia, Proteins 47, 219 (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
222
Predicted interactions for E. coli
Number of predicted interactions for E.
coli.
The bars represent the number of
predicted interactions obtained from the
67,238 calculated pairs (having at least 11
homologous sequences of common
species for the two proteins in each pair),
depending on the interaction index cutoff
established as a limit to consider
interaction.
Among the high scoring pairs are many cases of known interacting proteins.
Pazos, Valencia, Proteins 47, 219 (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
223
9 Coevolutionary Analysis
Idea: if co-evolution is relevant, a ligand-receptor pair should occupy related
positions in phylogenetic trees.
Goh & Cohen, 2002 showed that within correlated phylogenetic trees,
the protein pairs that bind have a higher correlation between their phylogenetic
distance matrices than other homologs drawn drom the ligand and receptor
families that do not bind.
Other Idea: analyze occurrence of proteins that can functionally substitute for
another in various organisms.
Detect analogous enzymes in thiamin biosynthesis
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
224
Detect analogous enzymes in thiamin biosynthesis
Gene names are applied according to the first gene
described from a group of orthologs.
Solid black arrows represent known or proposed
reaction steps and dashed black arrows indicate
unknown reactions. In addition, significant
anticorrelations in the occurrence of genes across
species (red arrows), and relevant in silico predicted
protein-protein interactions (blue dashed arrows) are
illustrated.
Distinct precursors have been proposed for different
species (indicated in gray). Genes with orthologous
sequences in eukaryotes and prokaryotes are in green;
genes assumed to be prokaryote-specific are black.
Interestingly, significant 'one-to-one' anticorrelations
usually involve a prokaryote-specific and a 'ubiquitous'
gene.
Abbreviations: AIR, 5-aminoimidazole ribonucleotide;
Cys, cysteine; Gly, glycine; His, histidine; HMP, 2methyl-4-amino-5-hydroxymethylpyrimidine; THZ, 4methyl-5- -hydroxyethylthiazole; Tyr, tyrosine; Vit. B6,
Vitamin B6.
13. Vorlesung WS 2005/06
Morett et al. Nature Biotech 21, 790 (2003)
Software-Werkzeuge der Bioinformatik
225
THI-PP biosynthesis pathway: analogous genes
Negatively correlating gene
occurrences are highlighted using the
same colors. Species having at least
two genes with a role unique to THIPP biosynthesis are predicted to
possess the functional pathway. The
column 'STRING score' shows the
most significant interaction for each
gene, predicted using the STRING
server. Predicted interaction partners
are listed in the column 'Interact. with'.
COG id: „id in groups of orthologous
proteins server“
(a) Essential THI-PP biosynthesis
enzymes, which are unique to the
pathway.
(b) Essential THI-PP biosynthesis
enzymes, which have been implicated
in more than one biological process.
The thiO gene, suggested to play a
role in the pathway, was also added to
that list.
(c) Proteins predicted in silico to be
involved in the pathway.
13. Vorlesung WS 2005/06
4 analogies detected:
thiE can be replaced by MTH861
thiL by THI80
thiG by THI4
thiC by tenA
Morett et al. Nature Biotech 21, 790 (2003)
Software-Werkzeuge der Bioinformatik
226
Interpretation
Proteins that functionally substitute eachother
have anti-correlated distribution pattern across organisms.
 allows discovery of non-obvious components of pathways
and function prediction of uncharacterized proteins
and prediction of novel interactions.
Morett et al. Nature Biotech 21, 790 (2003)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
227
1 Protein-Netzwerke: topologische Graphen-Netzwerke
2 Analyse von Stoffwechselwegen (metabolic pathways):
Konzentration auf Metabolite, enzym. Reaktionen
3 Zell-Simulationen: dynamische Simulation auf
Sekunden-Zeitskala, t = 0.01 s (V10 und V11)
Systems Biology: Integration von genomischen und
proteomischen Analysen (V12)
Komplexität, Level an Verständnis
Bereich 3: V10 - Integrative Biologie
www.systemsbiology.org
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
228
Analyse von Stoffwechselwegen: Beispiel E. coli
verwende Daten aus Datenbank EcoCyc
(siehe auch MetaCyc: Stoffwechsel von > 150 Organismen)
EcoCyc enthält 905 Reaktionen für E.coli
davon gehören 161 nicht zum Stoffwechsel kleiner Moleküle, z.B. DNA Replikation,
von den verbleibenden 744 wurden 569 mindestens einem Pfad zugeordnet
Dagegen gibt es 607 Enzyme.
Es gibt also keine 1:1 Zuordnung zwischen Enzymen und Reaktionen, denn
(1)
Manche Enzyme katalyiseren mehrere Reaktionen,
und manche Reaktionen werden von mehreren Enzymen katalysiert
(2)
nicht zu allen Reaktionen sind die Enzyme bekannt, die sie katalysieren.
Ouzonis, Karp, Genome Research 10, 568 (2000)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
229
Beispiel: Stoffwechsel von E. coli
Die 744 Reaktionen enthalten
791 verschiedene Substrate.
Im Mittel enthält jede Reaktion
4 Substrate.
Ouzonis, Karp, Genome Research 10, 568 (2000)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
230
Beispiel: Stoffwechsel von E. coli
EcoCyc enthält 131 StoffwechselPfade.
Die Länge der Pfade variiert von
1 bis 16. Im Mittel 5.4.
Von den 607 Enzymen sind
100 multifunktional.
Purin-Nukleosid-Phosphorylase
und Nukleosid-Diphosphatkinase
katalysieren 7 bzw. 9 Reaktionen.
483 Reaktionen gehören zu einem
Pfad, 99 Reaktionen gehören zu
mehreren Pfaden.
Ouzonis, Karp, Genome Research 10, 568 (2000)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
231
Fazit
Stoffwechsel-Netzwerke von einfachen Organismen sind mittlerweile
fast vollständig bekannt.
Ist die Beschreibung mit einzelnen Stoffwechsel-Wegen adäquat?
- Reaktionen, Enzyme und Substrate gehören oft zu mehreren Pfaden.
- Die Einteilung in einzelne Stoffwechsel-Pfade ist nicht immer eindeutig.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
232
Metabolische Pfade in der post-genomischen Ära
(a) klassische Biochemie
bestimmt Stöchiometrien
einzelner Reaktionen
(b) Katalogisierung vieler
Reaktionen, Gruppierung nach
gemeinsamen Metaboliten führt
zu traditionellen Pfaden wie
Glykolyse, Pentose-PhosphatPfad
(c) Durch komplette Information
können nun die kompletten
metabolischen Pfade zugeordnet
werden.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
233
Metabolische Pfade in der post-genomischen Ära
Traditionelle metabolische Pfade dienen als konzeptioneller Rahmen
für Forschung und Lehre.
Man kann dadurch Metabolismen verschiedener Organismen vergleichen.
Jedoch sind sie nicht für quantitative, systemische Bewertungen biologischer
Reaktionsnetzwerke geeignet, da sie nur Teile der Netzwerke darstellen.
Sie wurden oft in Zelltypen entdeckt, in denen sie wichtige metabolische
Funktionen übernehmen (z.G. Glykolyse in Hefe).
Man kann diese Pfade jedoch nicht einfach auf andere Zelltypen mit anderen
Enzymleveln und metabolischen Profilen übertragen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
234
3 Vorgehensweisen
1
konstruiere alle Transformationswege, die von einem gegebenen
Substrat zu einem gegebenen Produkt führen
2
verwende Satz von linear (systemisch) unabhängigen Basisvektoren
im Raum der Reaktionsflüsse, durch Linearkombination sollen sich
alle möglichen Flußverteilungen darstellen lassen.
Allerdings ist die Wahl dieser Basisvektoren nicht eindeutig.
3
Konzept der elementaren (Fluss-) Moden
Eine Elementarmode ist ein minimaler Satz von Enzymen, die im
Gleichgewicht operieren können. Minimal heisst: falls nur die
Enzyme dieser Mode operieren, führt Inhibition jedes einzelnen
seiner Enzyms zum Stop aller Gleichgewichtsflüsse im System
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
235
Beschreibung vernetzter metabolischer Pfade
Papin et al. TIBS 28, 250 (2003)
(a) aus genomischen, biochemischen, physiologischen Daten wird ein
Reaktionsnetzwerk aufgestellt. Es gibt interne Flüsse innerhalb der
Systemgrenzen und externe Flüsse mit der Umgebung.
(b) Dieses Netzwerk wird durch eine stöchiometrische Matrix dargestellt,
in der Metaboliten durch Reaktionen miteinander verbunden werden.
(c) Mögliche Zustände der Zelle aufgrund dieser Matrix werden mit
Techniken wie „elementary modes“ oder „extreme pathways“ identifiziert.
Die möglichen Zustände liegen innerhalb eines Konus im durch die
verschiedenen Flüsse aufgespannten Koordinatensystem.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
236
Analyse der stöchiometrischen Matrix
stöchiometrische
Darstellung des Reaktionsnetzwerks mit stöchiometrischer Koeffizienten der
einzelnen
Matrix S.
Reaktionen.
Metabolite
Analyse der Matrix S 
Pathway-Darstellung P.
Deren Zeilen enthalten
den Reaktionen
entsprechende Flüsse
und die Spalten die sich
ergebenden Pfade.
Darstellung der
Pfade ist möglich
für einfache
Netzwerke.
Papin et al. TIBS 28, 250 (2003)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
237
Netzwerk-Analyse
(a) welche Substrate (A-E) sind zur
Produktion der Biomasse erforderlich
(B,E), welche nicht?
(b) Aufspüren von nicht genutzten
Reaktionen (F  E), Refinement
der Annotation von Genomen.
Papin et al. TIBS 28, 250 (2003)
(c) quantitative Beschreibung von
Pathway-Redundanz bzw. Robustheit
des Netzwerks: P1 und P2 führen beide
von A nach D.
13. Vorlesung WS 2005/06
(d) Reaktionen RA, RB und RC werden
stets gemeinsam benutzt. Ihre Gene
werden daher vermutlich koordiniert
reguliert.
Software-Werkzeuge der Bioinformatik
238
E-cell: Software Umgebung zur Simulation ganzer Zellen
Institute for Advanced Biosciences der Keio University (existiert seit 1996)
Dr. Masaru Tomita, Team enthält > 50 Mitglieder!
weitere Programme für integrative Zellsimulationen:
GEPASI (1993, 1997) – Simulation von Stoffwechselpfaden
KINSIM (1983, 1997)
METAMODEL (1991)
SCAMP (1993)
DBSolve (1997)
V-Cell (1999)
es gibt auch separate Programme, mit denen man Genregulation und –expression,
sowie Signaltransduktion und Zellteilung untersuchen kann.
Das allgemeine Problem sind fehlende experimentelle Daten.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
239
Implementation des E-cell Systems
E-CELL wurde in C++ geschrieben, existiert nun in der Version 3.
Das Modell besteht aus 3 Listen, die bei Programmstart geladen werden:
substance list definiert alle Objekte, die die Zelle und das Kulturmedium enthalten
rule list definiert alle Reaktionen, die in der Zelle stattfinden
system list definiert die räumliche und/oder funktionelle Struktur der Zelle und
ihrer Umgebung
Der Zustand der Zelle zu jedem Zeitpunkt wird als Liste von Konzentrationen und
globalen Parametern wie Zellvolumen, pH und Temperatur angegeben.
Das Programm (simulation engine) erzeugt neue Zustände der Zelle nach
Iterationsschritten von jeweils z.B. t = 1 ms.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
240
Erstes Modellsystem: Mycoplasma genitalium
1996
Veröffentlichung des Genoms von Mycoplasma genitalium
Dies ist eines der kleinsten bisher bekannten Genome (580 kb).
Es enthält die kleinste bisher bekannte Anzahl von Genen (ca. 480) von allen
bisher bekannten lebenden Organismen.
Genom ist 10  kleiner als E.coli
ca. 80% der Gene sind homolog zu Proteinen mit bekannter Funktion.
Intensive Gene-Knockout Untersuchungen zeigten, dass viele der 480 Gene für
das Überleben von M. genitalium nicht notwendig sind.
Es wurde ein minimaler Satz von 127 Genen als notwendig und hinreichend für
das Überleben und einen stabilen Zustand der Zelle ausgewählt.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
241
Large-scale Organisation von metabolischen Netzwerken
Modell einer Zelle, die aus eigener Kraft lebt. Diese minimale Zelle besitzt 127
Gene, gerade ausreichend um Proteingehalt und Membranstruktur aufrecht zu
erhalten.
Glukose wird aus der Umgebung als Energiequelle aufgenommen; ATP wird durch
den Glykolyse-Pfad produziert und wird hauptsächlich zur Proteinsynthese
verbraucht.
Proteine und Phospholipide werden mit der Zeit spontan abgebaut.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
242
Ausblick
Zusätzlich zu der „virtuellen, überlebensfähigen Zelle“ und zum Modell des
menschlichen Erythrozyten werden in Keio andere Modelle konstruiert:
- ein Modell eines Mitochondriums
- ein Signaltransduktionsmodell für Chemotaxis in E.coli
Ein allgemeines Problem von umfangreichen Zellmodellen ist derzeit der
Mangel an quantitativen experimentellen Daten:
- Konzentrationen von Metaboliten und Enzymen
- Flussraten
- kinetische Parameter und Dissoziationskonstanten
Das Institute of Advanced Biosciences in Keio besteht aus 3 Zentren:
Metabolom-Forschung, Bioinformatik, Genom-Engineering.
Ziel: Entwicklung von custom-made Bakterien.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
243
V11 Zellsimulationen
Nerven-Verbindung (synaptischer Spalt).
Nach seiner Auschüttung bindet der
Neurotransmitter Acetylcholin (hellblaue
Kugeln) an die Acetylcholinrezeptoren
(tassenförmige Objekte) und an
Acetylcholinesterase. Doppelt besetzte
Rezeptoren (gelb) leiten Strom, der eine
Kaskade von Vorgängen einleitet, die zur
Kontraktion des Muskelstrangs führen.
Diese und nächste Stunde werden 3 Simulationspakete behandelt, E-cell, Virtual
Cell, Mcell, die 3 verschiedene Paradigmen für Zellsimulationen verkörpern
- ODE = gewöhnliche Differentialgleichungen, enthalten ∂/∂t
grösseres
- PDE = partielle Differentialgleichungen, enthalten ∂/∂t und ∂/∂r
Detail
- explizite Simulation der Brownschen Bewegungen einzelner
Moleküle
- Projekte unserer Arbeitsgruppe
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
244
Virtual Cell: Software-Umgebung für
computerunterstützte Zellbiologie
Prof. Leslie Loew, University of Conneticut Health Center
National Resource for Cell Analysis and Modeling
Virtual Cell
- wurde für die Zellbiologie-Community entwickelt
- ermöglicht die Konstruktion räumlicher Modelle
- Verbindung zur quantiativen Lichtmikroskopie an lebenden Zellen
- Kann man auf der Basis des komplexen räumlichen und zeitlichen Zusammenspiels der Zellkomponenten ein quantitatives Verständnis des gesamten zellulären
Verhaltens entwickeln?
- Sind die identifizierten Komponenten notwendig und hinreichend?
- Wie sensitiv reagiert der Gesamtprozess auf Veränderungen einer Komponente?
(Zellen sind „robust“).
- Die Simulationen werden über das Internet auf einem 16-Prozessor cluster mit
Alpha-Prozessoren durchgeführt.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
245
Design einer Virtuellen Zelle
Die `Physiologie' beinhaltet die
topologische Anordnung von
Kompartments und Membranen, die mit
ihnen assoziierten Moleküle, und die
Reaktionen zwischen den Molekülen.
Die getrennt definierte `Geometrie‘ ist
eine räumliche Beschreibung der
Kompartments in 0-3 Dimensionen.
Sie kann aus analytischen Ausdrücken
bestehen oder aus einem
experimentellen Bild abgeleitet werden,
das z.B. von einem Mikroskop stammt.
13. Vorlesung WS 2005/06
Das eigentliche Modell besteht aus
der Verbindung der Topologie der
physiologischen Beschreibung mit
einer geeigneten räumlichen
Geometrie.
Software-Werkzeuge der Bioinformatik
246
Virtual cell: graphische Benutzerschnittstelle (GUI)
Das GUI von Virtual Cell ist als JAVA
applet innerhalb eines Webbrowsers
entwickelt.
Hier sieht man, wie eine Zelltopologie
einer bestimmten experimentellen
Geometrie zugeordnet wird.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
247
Einzelschritte bei Erstellung von BioModellen
Structure Mapping – definiert die Beziehung zwischen der Physiologie
(zelluläre Strukturen) und der Geometrie des Modells. Bestimme das Verhältnis
von Oberfläche zu Volumen für die Modelle der Kompartments oder für nicht
aufgelöste räumliche Strukturen. Bilde die zellulären Strukturen auf geometrische
Objekte ab.
Wähle zwischen unterschiedlichen Randbedingungen (Wert bzw. Ableitung am
Rand = Dirichlet bzw. Neumann) für die Strukturen.
Anfangsbedingungen – Konzentrationen und Diffusionsraten können räumlich
variable definiert werden. Wähle Anfangsbedingungen für Diffusion ≠ 0.
Reaction Mapping – erlaube oder verbiete Reaktionen bzw. Flüsse.
Math Viewer – prüfe die mathematische Beschreibung, die vom Programm
automatisch für die Abbildung des physiologischen Modells auf ein
Kompartment-Modell oder auf ein räumliches Modell erstellt wird.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
248
Virtual cell: Ausblick
aktuelle Version:
- ermöglicht Simulation von Reaktions-Diffusionsprozessen in beliebigen
Geometrien. Anpassung notwendig für Probleme, die Änderungen der Geometrie
erfordern (Zellwanderung, Zellteilung).
-behandelt nur bestimmte Sorten von stochastischen Prozessen:
Brownsche Bewegung, gerichtete Teilchenbewegung entlang von Mikrotubuli,
Reaktion einzelner Teilchen mit kontinuierlich verteilten Molekülen.
- wenn die Anzahl an wechselwirkenden Molekülen zu klein wird, braucht man
statt der stochastischen Beschreibung Reaktionen zwischen diskreten Molekülen.
- Behandlung diskreter Zustände ist auch erforderlich zur Modellierung der Ströme
von einzelnen Ionenkanälen und deren räumlicher Verteilung.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
249
M-cell: Allgemeine Monte–Carlo Simulation von
zellulären Mikrophysiologien
Thomas M. Bartol Jr.
Joel R. Stiles
Computational Neurobiology Laboratory
Biomedical Applications
(T. Sejnowski), Salk Institute, San Diego
Pittsburgh Supercomputing Center
Ziel: quantitatives, molekulares Verständnis der Nervenfortleitung,
Funktion von Nervengasen, Modulatoren, oder Autoimmunerkrankungen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
250
MCell: Idee + Motivation
MCell ermöglicht 3-D Monte–Carlo Simulationen für Ligandendiffusion und
chemische Signalprozesse.
Biologische Strukturen wie Neuronen zeigen auf der subzellulären Ebene eine
enorme Komplexität und Diversität. Die inter- und intrazelluläre Kommunikation
geschieht mittels verschiedener chemischer Signalpfade.
Am Prozess der synaptischen Transmission sind z.B. Neurotransmitter und
Neuromodulatoren beteiligt. Ebenfalls beteiligt sind Proteine, die die Auffüllung
und Entleerung der synaptischen Vesikel mit Neurotransmitter-Molekülen
beeinflussen, Rezeptorproteine, Transportproteine, sowie oxidierende und
hydrolytische Enzyme.
Mit Mcell kann man alle diese Parameter in beliebig komplexen räumlichen
Darstellungen der beteiligten zellulären Strukturen darstellen und variieren.
Anfangsbedingung: Eine Monte–Carlo Simulation beginnt damit, dass die
Zellumgebung mit einzelnen Liganden und Liganden-bindenden Molekülen
angefüllt wird.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
251
Warum soll man Monte Carlo Algorithmen benutzen?
1. löse PDEs zwischen Voxels
Die Diffusion von Ligandenmolekülen in Lösung basiert auf Brownscher
Bewegung.
Der mittlere Netto-Fluss aus einer Region des Raums in eine andere hängt von
der Mobilität der Moleküle und dem räumlichen Konzentrationsunterschied der
beiden Regionen ab.
Eine Methode, den räumlichen Gradienten zu berechnen, ist, den Raum in kleine,
üblicherweise kubische Volumenelemente (Voxels) aufzuteilen, innerhalb derer
man gute Mischung annimmt, und dann mittels eindimensionaler partieller
Differentialgleichungen den mittleren Fluss durch die Verbindungsfläche zwischen
angrenzenden Voxeln zu berechnen.
Sofern die Granularität der räumlichen und zeitlichen Unterteilung fein genug ist,
wird eine numerische Simulation das korrekte mittlere Verhalten des Systems
erzeugen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
252
löse PDEs innerhalb von Voxels
Man kann weitere PDEs hinzufügen um die mittlere Raten chemischer Raten
Reaktionen innerhalb jedes Voxels zu beschreiben. Man erhält damit eine
Simulation des räumlichen und zeitlichen Diffusionsverhaltens und der
chemischen Reaktionen.
Für einfache räumliche Anordnungen kann diese Methode sehr effizient sein.
Für komplexe (d.h. realistische) Structuren werden die räumlichen Unterteilungen
immer komplexer und eine grosse Anzahl an Voxeln ist erforderlich.
Auf jeden Fall liefert die Simulation keine direkten Informationen über die
stochastischen Schwankungen, die auf der endlichen Anzahl an beteiligten
Molekülen beruhen. Diese sind in biologischen Systemen jedoch oft von grossem
Interesse.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
253
2. völlig andere Methode: Random walk
Direkte Beschreibung der Brownschen Bewegung der einzelnen
Ligandenmoleküle. Durch Verwendung von Zufallszahlen werden bei jedem
Zeitschritt beliebige erlaubte Richtungen und Verschiebungen ausgewählt.
Indem die Zeitschritte und Verschiebungen deutlich kleiner als die Teilchengröße
gehalten werden, erreicht man eine hohe numerische Genauigkeit.
Kollisionen mit beliebigen Oberflächen werden entdeckt und gemäss von
Regeln behandelt (Bindung, Transport, Reflexion etc.). Voxel sind unnötig.
Gleichsam werden Kollisionen mit möglichen Bindungsstellen entdeckt und
behandelt. Für die Ausbildung von Bindungen werden Bindungswahrscheinlichkeiten festgelegt. Die momentane Entscheidung wird durch eine Zufallszahl
bestimmt.
Alle möglichen Vorgänge werden auf einer Molekül-für-Molekül Basis betrachtet.
Dadurch enthält die Simulation realistische stochastische Schwankungen in
Abhängigkeit von der räumlichen Verteilung und der Anzahl an Molekülen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
254
Typische Vorgänge während einer MCell-Simulation
-
Freisetzung von Ligandenmolekülen aus einer
Struktur (z.B. einem Vesikel)
-
Erzeugung oder Vernichtung von Ligandenmolekülen
(z.B. Synthese, Hydrolyse, oder Redox-Reaktionen)
-
Diffusion der Liganden innerhalb des Raums
zwischen beliebigen Oberflächen
(z.B. prä- und postsynaptische Membranen)
-
chemische Reaktionen von Ligandenmolekülen
mit “Effektor”molekülen
(z.B. Rezeptoren oder Enzyme)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
255
MCell: biologische Skala
Der Level an Detail von MCell Simulationen liegt
zwischen denen von atomistischen
Moleküldynamik-Simulationen und der
Simulationen gesamter Zellen (Virtual Cell, E-cell).
Die Diffusion einzelner Ligandenmoleküle wird als
Brownsche Bewegung mit einem Random–Walk–
Algorithmus simuliert.
Mittlere Ratenkonstanten werden in Monte–
Carlo–Wahrscheinlichkeiten für Reaktionen
einzelner Moleküle pro Zeitschritt umgeformt.
Damit können die Ligandenmoleküle stochastisch
reagieren sobald sie an Rezeptoren, Enzyme oder
Transporter gebunden sind.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
256
Zusammenfassung
Zellsimulationen sind im Kommen!
Detaillierte, dreidimensionale Modelle sind notwendig,
sobald Lokalisation z.B. an Membran stattfindet, und
sobald wichtige Moleküle in kleinen Zahlen vorliegen.
Schlagwort: Systems Biology.
Messung von kinetischen Konstanten im Allgemeinen mühsam.
Daher zunächst Konzentration auf Modellsysteme.
Molekulare Simulationen können sehr aufwendig sein.
Ein Volumen von 100 nm3 enthält ca. 1000 Proteine.
1 μm3 enthält dagegen bereits ca. 106 Proteine.
Bei Beschränkung auf Molekül-Konzentrationen kann
dagegen fast in real time simuliert werden.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
257
V12 Bioinformatik-Tools für HT Proteinanalyse
traditionelle Ansätze: reduktionistisch; finde einzelne Gene und die kodierten
Proteinprodukte, die einen beobachteten Phänotyp definieren.
Oft werden hierdurch komplexe Systeme zu stark vereinfacht.
Hoch-Durchsatzmethoden: parallele Untersuchung vieler gleichzeitiger Vorgänge
omics-Welt: Genomics, Proteomics, Metabolomics, Transcriptomics ...
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
258
Wie soll man das Proteom untersuchen?
Proteomics zerfällt
derzeit in 2 Bereiche
Expression Proteomics
- katalogisiere alle Proteine in
einer Probe
- differentielle Expression:
Unterschied zwischen mehreren Proben
13. Vorlesung WS 2005/06
Cell-map Proteomics
- Protein-Protein Wechselwirkung
- Protein-Liganden Wechselwirkung
- zelluläre Lokalisation
Software-Werkzeuge der Bioinformatik
259
Expressions-Proteomik
Das zelluläre Proteom enthält 10.000ende von Proteinen,
deren Konzentrationen mehr als 106 fach verschieden sind.
Prof. Walter (UdS)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
260
Technologien in Proteomics
Separation von Proteinen
- 2-D gel Elektrophorese
- Flüssig-Chromatographie
- Affinitäts-Chromatographie
Annotation einzelner Proteine
- Massenspektroskopie
- kombinierte HPLC und MS
- Protein-Quantifizierung mit MS
Protein-Chips
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
261
Analytische versus funktionelle Protein-Microarrays
(a) analytische Microarrays:
beobachte Proteinexpression und
klinische Diagnostik. Vergleiche
Proteinproben zweier biologischer
Zustände, wobei die Protein
entweder mit einem grünen oder
mit einem roten Farbstoff gelabelt
werden. Wenn eine Farbe
überwiegt, liegt das Protein
vornehmlich in dem
entsprechenden Zustand vor.
(b) funktionelle Microarrays: visualisieren Proteinaktivität, -bindung oder
posttranslationelle Modifikationen. Auch geeignet um Substrat- oder Inhibitorbindung an Enzyme zu messen und zur Konstruktion biologischer Netzwerke.
Phizicky et al. Nature 422, 208 (2003)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
262
Yeast Two-Hybrid Methoden
(a) die DNA-bindende und die
Aktivierungsdomänen (Kreise)
sind an die Protein X und Y
fusioniert. Genexpression des
Reporters beginnt.
(b) Standard-2YH-Suche von X
gegen eine komplexe Bibliothek von
zufälligen, mit Y fusionierten PeptidSchnipseln.
(c) 2YH-Array. Screene X gegen
komplette Satz von ORFs.
Phizicky et al. Nature 422, 208 (2003)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
263
Zweidimensionale Gelelektrophorese (2D PAGE)
2D Polyacrylamid-Gel für ein BiopsieProbe mit menschlicher Leber.
In x-Richtung – nichtlinearer pHGradient - geschieht eine Auftrennung
nach dem isoelektrischen Punkt
(bei welchem pH ist die Ladung des
Proteins neutral?).
In y-Richtung geschieht durch Variation
des Anteils an Polyacrylamid eine
Trennung nach der molekularen Masse.
Problem: man kann nur Proteine
visualisieren, die relativ häufig
vorkommen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
Banks et al. Lancet 356, 1749 (2000)
264
Annotation von 2D-Gelen: mühsam
Banks et al. Lancet 356, 1749 (2000)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
265
Fallstudie: Expressions-Proteomik
Proteine des
Rinderherzen:
welche Proteine sind
im Herzen von
Rindern mit einer
vererbten
Kardiomyopathie
reduziert?
Die Balken 1-6 stammen von Kardiomyopathie-diagnostizierten Rindern, 7-12
von gesunden Rindern. 13-16 sind Rinder, die selbst klinisch normal sind, aber
von kranken Rindern abstammen (nur SPP 943 ist deutlich abgesenkt).
Banks et al. Lancet 356, 1749 (2000)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
266
(Bio)informatische Aufgaben bei Analyse von 2D-Gelen
Zwei Gele stimmen oft in Grösse,
Kontrast, Auftrennung in x- und
y-Richtung nicht überein.
Darüberhinaus treten Unterschied
als Folge der experimentellen
Bedingungen auf.
Der Vergleich zweier Gele erfordert
daher oft Methoden der Bildbearbeitung,
z.B. mit dem Programm Flicker
http://www-lecb.ncifcrf.gov/flicker/
Eine Laplace-Transformation
verbessert die Übereinstimmung
zwischen dem linken und rechten
Gel erheblich in (b) gegenüber (a).
13. Vorlesung WS 2005/06
Lemkin PF, Electrophoresis, 18, 461-470 (1997)
Software-Werkzeuge der Bioinformatik
267
Fraktionierung der Probe vor 2D PAGE-Analyse
Oft gibt es das Problem, dass die Proteineigenschaften über einen sehr grossen Bereich
variieren.
Lösung: konzentriere auf Teil der Proteine.
z.B. (a) versehe die ansonsten schwer detektierbaren Proteine an der Membranoberfläche
mit einem Biotin ‚Anker‘ (tag).
Auftrennung in 2D-Gel. Erkenne die markierten
Proteine mit Avidin. Identifikation mit MS.
(b) Getrennte Visualisierung der markierten
Proteine (oben) gegenüber der Darstellung
des gesamten Zell-Lysats (unten).
Dies erlaubte die Identifikation neuer Proteine
auf der Oberfläche von Krebszellen.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
Hanash, Nature 422, 226 (2003)
268
Direkte Visualisierung der Protein-Verteilung mit MS
Ein gefrorener Schnitt durch
ein Rattengehirn wird mit
einem MALDI MS-Gerät
abgetastet.
Hier: je 15 Spektren für 74 
75 Punkte, gleichzeitige
Aufnahme aller Massen.
Visualisiere den Schnitt
getrennt für verschiedene
Verhältnisse von Masse und
Ladung (jeweils oben rechts
gezeigt).
z.B. ist die Proteindichte für
m/z=6844 recht gering.
Ziel: vergleiche gesundes und krankes Gewebe.
Hanash, Nature 422, 226 (2003)
Aufgabe: Bildverarbeitung
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
269
Proteomics mit Massenspektroskopie (MS)
(1) Aufreinigung (SDS-PAGE).
Banden ausschneiden.
(2) Problem: Gesamtmasse eines
Proteins ist nicht aussagekräftig.
Daher Trypsin (Protease)-Verdau 
Peptidschnipsel unterschiedlicher Länge,
diese sind charakteristisch für Protein.
(3) MS-Analyse in Vakuum
(4) Detektion der Massenintensität bei
vorgegebenem Verhältnis von Masse m
und Ladung z.
(5) Weitere Auftrennung der einzelnen
Peptidschnipsel in zweitem MS-Schritt.
Teilweise Sequenzierung möglich.
Aufgabe: Annotation des Proteins aus
Sequenz-Datenbank.
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
Tyers, Mann, Nature 422, 193 (2003)
270
Sequenzdiversität in der Zelle: Analyse mit MS
Organismus kodiert über das
Genom viele Isoformen.
Identifikation der Proteine durch
Datenbanksuche um die Lücken
der exp. Daten zu füllen.
Sequenz-Datenbanken enthalten
jedoch keine komplette
Information über die natürlich
auftretende Sequenzdiversität.
Rappsilber, Mann, TIBS, 27, 74 (2002)
13. Vorlesung WS 2005/06
Software-Werkzeuge der Bioinformatik
271
Herunterladen