Document

Werbung
Softwarewerkzeuge der Bioinformatik
Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für
I
Sequenzanalyse
II
Analyse von Proteinstruktur
und Ligandenbindung
III
Zell- bzw. Netzwerksimulationen
www.cellzome.com
www.accelrys.com
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
1
Eigenschaften der Aminosäuren
Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften.
Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen?
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
2
Buchstaben-Code der Aminosäuren
• Ein- und Drei-Buchstaben-Codes der Aminosäuren
G
A
L
M
F
W
K
Q
E
S
Glycin
Alanin
Leucin
Methionin
Phenylalanin
Tryptophan
Lysin
Glutamin
Glutaminsäure
Serin
Gly
Ala
Leu
Met
Phe
Trp
Lys
Gln
Glu
Ser
Zusätzliche Codes
B Asn/Asp Z Gln/Glu
P
V
I
C
Y
H
R
N
D
T
Prolin
Pro
Valin
Val
Isoleucin
Ile
Cystein
Cys
Tyrosin
Tyr
Histidin
His
Arginin
Arg
Asparagin
Asn
Asparaginsäure
Threonin
Thr
Asp
X Irgendeine Aminosäure
Die Kenntnis dieser Abkürzungen ist essentiell für
Sequenzalignments und für Proteinstrukturanalyse!
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
3
V2 Paarweises Sequenzalignment
• Methoden des Sequenzalignments
• Austauschmatrizen
• Bedeutsamkeit von Alignments
• BLAST, Algorithmus – Parameter – Ausgabe http://www.ncbi.nih.gov
• Diese Vorlesung lehnt sich eng an das BLAST Tutorial-
• Buch (links) an, Kapitel 3-9
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
4
Sequenz-Alignment
• Wenn man 2 oder mehr Sequenzen vorliegen hat, möchte man zunächst einmal
- ihre Ähnlichkeiten quantitativ erfassen
• Die ähnlichen Regionen können hierbei die ganze Sequenz, oder Teile von ihr
• umfassen! Lokales Alignment ↔ globales Alignment
- Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen erfassen
- Gesetzmässigkeiten der Konservierung und Variabilität beobachten
- Rückschlüsse auf entwicklungsgeschichtliche Verwandschaftsverhältnisse ziehen
• Wichtiges Ziel: Annotation, d.h. Zuordnung von strukturellen und funktionellen
Merkmalen zu Gensequenzen.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
5
Ähnlichkeit von Aminosäuren
Margaret Dayhoff stellte die Ähnlichkeit (beobachtete
Austauschhäufigkeiten zwischen verwandten Sequenzen)
zwischen Aminosäuren als log2 odds Verhältnis, oder
lod score dar.
Lod score einer Aminosäure: nehme den Logarithmus
zur Basis 2 (log2) von dem Verhältnis der beobachteten
Margaret Dayhoff
http://www.nlm.nih.gov/
changingthefaceofmedicine/
gallery/photo_76_7.html
Häufigkeit für ein Paar durch die zufällig für das Paar erwartete Häufigkeit.
Lod score = 0 → beobachtete und erwartete Häufigkeiten sind gleich
> 0 → ein Austauschpaar tritt häufiger auf als zufällig erwartet
< 0 → unwahrscheinlicher Austausch
Allgemeine Formel für die Bewertung sij zweier Aminosäuren i und j.
mit den individuellen Häufigkeiten pi und pj,
und der Paarungsfrequenz qjj,
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
6
6
Ähnlichkeit der Aminosäuren
• Beispiel: die relative Häufigkeiten von Methionin und Leucin seien 0.01 und 0.1.
• Durch zufällige Paarung erwartet man 1/1000 Austauschpaare Met – Leu.
• Wenn die beobachtete Paarungshäufigkeit 1/500 ist, ist das Verhältnis der
• Häufigkeiten 2/1.
• Im Logarithmus zur Basis 2 ergibt sich ein lod score von +1 or 1 bit.
• Wenn die Häufigkeit von Arginin 0.1 und die Paarung mit Leu die Häufigkeit 1/500
hat, dann ergibt sich ein lod score für ein Arg – Leu Paar von -2.322 bits.
• Gewöhnlich berechnet man nats, multipliziert die Werte mit einem
Skalierungsfaktur und rundet sie dann auf Integer Werte
• → Austauschmatrizen PAM und BLOSUM.
• Diese ganzzahligen Werte (Integers) nennt man raw scores.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
7
Bewertungs- oder Austausch-Matrizen
– dienen um die Qualität eines Alignments zu bewerten
– Für Protein/Protein Vergleiche:
eine 20 x 20 Matrix für die Wahrscheinlichkeit, mit der eine bestimmte
Aminosäure gegen eine andere durch zufällige Mutationen ausgetauscht
werden kann.
– Der Austausch von Aminosäuren ähnlichen Charakters (Ile, Leu) ist
wahrscheinlicher (hat eine höhere Bewertung) als der von Aminosäuren
unterschiedlichen Charakters (e.g. Ile, Asp).
– Matrizen werden als symmetrisch angenommen, besitzen also Form
einer Dreiecksmatrix.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
8
Substitutions-Matrizen
• Nicht alle Aminosäuren sind gleich
– Einige werden leichter ausgetauscht als andere
– Bestimmte Mutationen geschehen leichter als andere
– Einige Austausche bleiben länger erhalten als andere
• Mutationen bevorzugen bestimmte Austausche
– Einige Aminosäuren besitzen ähnliche Codons (siehe Codon-Sonne)
– Diese werden eher durch Mutation der DNA mutiert
• Selektion bevorzugt bestimmte Austausche
– Einige Aminosäuren besitzen ähnliche Eigenschaften und Struktur
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
9
PAM250 Matrix
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
10
Beispiel für eine Bewertung
• Wenn sich zwei Sequenzen in zwei (oder mehreren) Positionen unterscheiden,
möchte man die Wahrscheinlichkeit berechnen, daß Änderung A an Position 1
auftritt UND Änderung B an Position 2 (usw).
• Man braucht also
Verknüpfung steht.
log (A × B), wobei das Malzeichen für die UND-
• Es gilt allgemein log (A × B) = log A + log B
• → die Bewertung (Score) eines Alignments ist daher einfach die Summe aller
• Bewertungen für die Paare an Aminosäuren (Nukleinsäuren) des Alignments:
• Sequenz 1: TCCPSIVARSN
• Sequenz 2: SCCPSISARNT
• 13. Vorlesung WS 12011/12
12 12
=> Alignment Bewertung = 46
6 2 5 -1
2 6 1 0
Software-Werkzeuge
der Bioinformatik
11
Dayhoff Matrix (1)
– wurde von Margaret.O. Dayhoff aufgestellt, die statistische Daten über die
Austauschhäufigkeit von Aminosäuren in paarweisen Sequenzalignments
sammelte
– Datensatz enthält eng verwandte Paare von Proteinsequenzen (> 85%
Identität). Diese können nämlich zweifelsfrei aligniert werden.
– Aus der Frequenz, mit der Austausche auftreten, stellte sie die 20 x 20
Matrix für die Wahrscheinlichkeiten auf, mit der Mutationen eintreten.
– Diese Matrize heisst PAM 1. Ein evolutionärer Abstand von 1 PAM (point
accepted mutation) bedeutet, dass es 1 Punktmutation pro 100 Residuen
gibt, bzw. dass die beiden Sequenzen zu 99% identisch sind.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
12
Dayhoff Matrix (2)
• Aus PAM 1 kann man Matrizen für größere evolutionäre Entfernungen
herstellen indem man die Matrix mehrfach mit sich selbst multipliziert.
• PAM250:
– 2,5 Mutationen pro Residue
– entspricht 20% Treffern zwischen zwei Sequenzen,
– d.h. man beobachtet Änderungen in 80% der
Aminosäurepositionen.
– Dies ist die Default-Matrize in vielen Sequenzanalysepaketen.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
13
BLOSUM Matrix
• Einschränkung der Dayhoff-Matrix:
• Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren,
sind von eingeschränktem Wert, da ihre Substitionsraten von
Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind.
• Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff
• eingeschlagen, welche lokale multiple Alignments von
• entfernter verwandten Sequenzen verwendeten.
• Vorteile dieses Ansatzes:
- größere Datenmengen (es gibt mehr Sequenzen,
Steven Henikoff
• die entfernt miteinander verwandt sind als nah verwandte)
- multiple Alignments sind robuster
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
14
BLOSUM Matrix (2)
• Die BLOSUM Matrizen (BLOcks SUbstitution Matrix) basieren auf der BLOCKS
Datenbank.
• Die BLOCKS Datenbank verwendet das Konzept von Blöcken (lückenlose
Aminosäure-Signaturen), die charakteristisch für eine Proteinfamilie sind.
• Aus den beobachteten Mutationen innerhalb dieser Blöcke wurden
Austauschwahrscheinlichkeiten für alle Aminosäurepaare berechnet
• und als Einträge für eine log odds BLOSUM matrix benutzt.
• Man erhält unterschiedliche Matrizen indem man die untere Schranke des
verlangten Grads an Identität variiert.
• z.B. wurde die BLOSUM80 Matrix aus Blöcken mit > 80% Identität abgeleitet.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
15
Welche Matrix soll man benutzen?
• Enge Verwandtschaft (Niedrige PAM, hohe Blosum)
Entfernte Verwandtschaft (Hohe PAM, niedrige Blosum)
• Vernünftige Default-Werte: PAM250, BLOSUM62
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
16
Gewichtung von Lücken (Gaps)
• Neben der Substitutionsmatrix braucht man auch eine Methode zur Bewertung
von Lücken.
• Welche Bedeutung haben Insertionen und Deletionen im Verhältnis zu
Substitutionen?
• Unterscheide Einführung von Lücken:
• aaagaaa
• aaa-aaa
• von der Erweiterung von Lücken:
• aaaggggaaa
• aaa----aaa
• Verschiedene Programme (CLUSTAL-W, BLAST, FASTA) empfehlen
unterschiedliche Default-Werte,
die man wohl erst einmal verwenden sollte.
Software-Werkzeuge der Bioinformatik
17
13. Vorlesung WS 2011/12
Needleman-Wunsch Algorithmus
• - allgemeiner Algorithmus für Sequenzvergleiche
• - maximiert eine Bewertung der Ähnlichkeit
• - bester Match = größte Anzahl an Residuen einer Sequenz, die zu denen einer
anderen Sequenz passen, wobei Deletionen erlaubt sind.
• - Der Algorithmus findet durch dynamische Programmierung das bestmögliche
GLOBALE Alignment zweier beliebiger Sequenzen
• - NW beinhaltet eine iterative Matrizendarstellung
• alle möglichen Residuenpaare (Basen oder Aminosäuren) – je eine von
jeder Sequenz – werden in einem zwei-dimensionalen Gitter dargestellt.
• alle möglichen Alignments werden durch Pfade durch dieses Gitter dargestellt.
• - Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
18
Needleman-Wunsch Algorithm: Initialisierung
• Aufgabe: aligniere die Wörter “COELACANTH” und “PELICAN” der
Länge m =10 und n =7. Konstruiere (m+1) × (n+1) Matrix.
• Ordne den Elementen der ersten Zeile und Reihe die Werte – m × gap
und – n × gap zu.
• Die Pointer dieser Felder zeigen zurück zum Ursprung.
13. Vorlesung WS 2011/12
C
O
E
L
A
C
A
N
T
H
0 -1
-2
-3
-4
-5
-6
-7
-8
-9
-10
P
-1
E
-2
L
-3
I
-4
C
-5
A
-6
N
-7
Software-Werkzeuge der Bioinformatik
19
Needleman-Wunsch Algorithm: Auffüllen
• Fülle alle Matrizenfelder mit Werten und Zeigern mittels simpler Operationen, die die
Werte der diagonalen, vertikalen, und horizontalen Nachbarzellen einschließen.
Berechne
• match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1)
• horizontal gap score: Wert der linken Zelle + gap score (-1)
• vertical gap score: Wert der oberen Zelle + gap score (-1).
• Ordne der Zelle das Maximum dieser drei Werte zu. Der Pointer zeigt in Richtung des
maximalen Werts.
C O E L
A C A N T
H
0 -1
• max(-1, -2, -2) = -1
P
-1
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
-2
• max(-2, -2, -3) = -2
• (Lege Konvention fest, damit Pointer bei gleichen Werten immer in eine bestimmte
Richtung zeigen soll, z.B. entlang der Diagonalen.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
20
Needleman-Wunsch Algorithmus: Trace-back
• Trace-back ergibt das Alignment aus der Matrix.
• Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben.
C
• COELACANTH
E
L
A
C
A
N
T
H
0
-1
-2
-3
-4
-5
-6
-7
-8
-9 -10
P
-1
-1
-2
-3
-4
-5
-6
-7
-8
-9 -10
E
-2
-2
-2
-1
-2
-3
-4
-5
-6
-7
-8
L
-3
-3
-3
-2
0
-1
-2
-3
-4
-5
-6
I
-4
-4
-4
-3
-1
-1
-2
-3
-4
-5
-6
C
-5
-3
-4
-4
-2
-2
0
-1
-2
-3
-4
A
-6
-4
-4
-5
-3
-1
-1
1
0
-1
-2
N
-7
-5
-5
-5
-4
-2
-2
0
2
1
0
• -PELICAN--
13. Vorlesung WS 2011/12
O
Software-Werkzeuge der Bioinformatik
21
Smith-Waterman-Algorithmus
• Smith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr
einfache Modifikation von Needleman-Wunsch. Es gibt lediglich 3 Änderungen:
• - die Matrixränder werden auf 0 statt auf ansteigende Gap-Penalties gesetzt.
• - der maximale Wert sinkt nie unter 0. Pointer werden nur für Werte größer als
0 eingezeichnet.
• - Trace-back beginnt am größten Wert der Matrix und endet bei dem Wert 0.
• ELACAN
C
• ELICAN
13. Vorlesung WS 2011/12
O
E
L
A
C
A
N
T
H
0
0
0
0
0
0
0
0
0
0
0
P
0
0
0
0
0
0
0
0
0
0
0
E
0
0
0
1
0
0
0
0
0
0
0
L
0
0
0
0
2
1
0
0
0
0
0
I
0
0
0
0
1
1
0
0
0
0
0
C
0
1
0
0
0
0
2
0
0
0
0
A
0
0
0
0
0
1
0
3
2
1
0
N
0
0
0
0
0
0
0
1
4
3
2
Software-Werkzeuge der Bioinformatik
22
BLAST –
Basic Local Alignment Search Tool
• Findet das am besten bewertete lokale optimale Alignment einer
Testsequenz mit allen Sequenzen einer Datenbank.
• Sehr schneller Algorithmus, 50 mal schneller als dynamische
Programmierung.
• Kann verwendet werden um sehr große Datenbanken zu durchsuchen, da
BLAST eine vor-indizierte Datenbank benutzt
• Ist ausreichend sensititv und selektiv für die meisten Zwecke
• Ist robust – man kann üblicherweise die Default-Parameter verwenden
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
23
BLAST Algorithmus, Schritt 1
• Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) und
eine gegebene Bewertungs-Matrix
• erzeuge eine Liste aller Worte (w-mers), die eine Bewertung > T
erhalten, wenn man sie mit dem w-mer der Eingabe vergleicht
Test Sequenz
LNKCKTPQGQRLVNQ
P Q G 18
P E G 15
P R G 14
P K G 14
P N G 13
P D G 13
P M G 13
unterhalb
Schranke
(T=13)
13. Vorlesung WS 2011/12
Wort
benachbarte
Wörter
P Q A 12
P Q N 12
etc.
Software-Werkzeuge der Bioinformatik
24
BLAST Algorithmus, Schritt 2
• jedes benachbarte Wort ergibt alle Positionen in der Datenbank,
• in denen es gefunden wird (hit list).
P Q G 18
P E G 15
P R G 14
P K G 14
P N G 13
P D G 13
P M G 13
13. Vorlesung WS 2011/12
PMG
Database
Software-Werkzeuge der Bioinformatik
25
Traditionelle BLAST Programme
Sequence 2
Search Space
Alignments
Gapped alignments
Sequence 1
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
26
Sequence 2
Seeding
Word hits
Sequence 1
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
27
Sequence 2
Seeding
Sequence 1
Isolated words
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
Word clusters
28
BLAST Algorithmus: Erweiterungsschritt
• das Programm versucht, den Seed in beide Richtungen auszudehnen
indem solange Residuenpaare hinzugefügt werden bis die zusätzliche
Bewertung kleiner als ein Schrankenwert ist.
• Nachdem die Ausdehnung beendet wurde, wird das Alignment so
“zurückbeschnitten” dass es die maximale Bewertung erhält.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
29
PSI-BLAST
• “Position-Specific Iterated BLAST”
– Entfernte Verwandtschaften lassen sich besser durch Motiv- oder ProfilSuchen entdecken als durch paarweise Vergleiche
– PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch.
– Das PSI-BLAST Programm verwendet die Information jedes signifikanten
Alignments um eine positionsspezifische Substitionsmatrix zu konstruieren,
die an Stelle der Eingabesequenz in der nächsten Runde der DatenbankSuche verwendet wird.
– PSI-BLAST kann iterativ verwendet werden bis keine neuen signifikanten
Alignments mehr gefunden werden.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
30
30
Karlin-Altschul Statistik: E-value
• Karlin und Altschul leiteten die Bewertung der Signifikanz eines Alignments ab
(hier ohne Herleitung):
Die Anzahl an Alignments (E), die man während einer Suche in einer
Sequenzdatenbank mit n Sequenzen mit einer m Buchstaben langen
Suchsequenz zufällig erhält, ist eine Funktion der Größe des Suchraums
(m × n), der normalisierten Austauschbewertungen (λS), und einer Konstanten
(k).
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
31
Grobe Anhaltspunkte
• E-Wert (Erwartungswert)
• E ≤ 0,0001
genaue Übereinstimmung
• 0,0001 ≤ E ≤ 0,02
Sequenzen vermutlich homolog
• 0,02 ≤ E ≤ 1
Homologie ist nicht auszuschließen
• E ≥ 1
man muss damit rechnen, dass diese gute
• Übereinstimmung Zufall ist.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
32
Zusammenfassung
Paarweises Sequenzalignment ist heute Routine, aber nicht trivial.
Mit dynamischer Programmierung (z.B. Smith-Waterman) findet man
garantiert das Alignment mit optimaler Bewertung.
Vorsicht: die Bewertungsfunktion ist nur ein Modell der biologischen Evolution.
Die schnellste Alignmentmethode ist BLAST und seine Derivate.
Es ergibt sehr robuste und brauchbare Ergebnisse für Proteinsequenzen.
Multiple Sequenzalignments sind in der Lage, entferntere Ähnlichkeiten
aufzuspüren und bieten ein besseres funktionelles Verständnis von Sequenzen
und ihren Beziehungen
Kommt nächste Woche dran.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
33
V3 - Multiples Sequenz Alignment und Phylogenie
Literatur: Kapitel 4 in Buch von David Mount
Thioredoxin-Beispiel heute aus Buch von Arthur Lesk
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
34
Leitfragen für V3
Frage1: Können wir aus dem Vergleich von Protein- (bzw. DNA-)
Sequenzen etwas über evolutionäre Prozesse lernen?
Ansatz 1: vergleiche die Aminosäuresequenzen von homologen Proteinen aus
verschiedenen Organismen und leite daraus phylogenetische Stammbäume
ab (zweiter Teil der Vorlesung heute).
Methode: (1) suche homologe Proteine in verschiedenen Organismen(BLAST
bzw. Psiblast) (2) führe multiples Sequenzalignment durch (erster Teil)
Ansatz 2: vergleiche die kompletten Genomsequenzen verschiedener
Organismen (Breakpoint-Analyse) und leite daraus phylogenetische
Stammbäume ab (wird hier nicht behandelt).
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
35
Protein-Alignment kann durch tertiäre
Strukturinformationen geführt werden
Gaps eines
Alignments
sollten
vorwiegend
in Loops
liegen, nicht
in Sekundärstrukturelementen.
Escherichia coli
DjlA protein
Homo sapiens
DjlA protein
nur so kann man letztlich bewerten, ob ein Sequenzalignment korrekt ist.
Beweisen im strikten Sinne kann man dies nie.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
36
Farbe
gelb
grün
violett
rot
blau
Aminosäuretyp
Aminosäuren
klein, wenig polar
Gly, Ala, Ser, Thr
hydrophob Cys, Val, Ile, Leu
Pro, Phe, Tyr, Met, Trp
polar
Asn, Gln, His
negativ geladen
Asp, Glu
positiv geladen
Lys, Arg
13. Vorlesung WS 2011/12
MSA für Thioredoxin-Familie
Software-Werkzeuge der Bioinformatik
37
Progressives Alignment
• wurde von Feng & Doolittle 1987 vorgestellt
• ist eine heuristische Methode.
Daher ist nicht garantiert, das “optimale” Alignment zu finden.
• benötigt (n-1) + (n-2) + (n-3) ... (n-n+1) paarweise Sequenzalignments als
Ausgangspunkt.
• weitverbreitete Implementation in Clustal (Des Higgins)
• ClustalW ist eine neuere Version, in der den Parameter für Sequenzen und
Programm Gewichte (weights) zugeteilt werden.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
38
ClustalW- Paarweise Alignments
• Berechne alle möglichen paarweisen Alignments von Sequenzpaaren.
Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten.
• Berechne aus diesen isolierten paarweisen Alignments den “Abstand”
zwischen jedem Sequenzpaar.
• Erstelle eine Abstandsmatrix.
• aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt
• Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment
ausgeführt werden wird.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
39
Überblick der ClustalW Prozedur
Hbb_Human
Hbb_Horse
Hba_Human
Hba_Horse
Myg_Whale
1
2
3
4
5
.17
.59
.59
.77
.60
.59
.77
CLUSTAL W
.13
.75
Hbb_Human
.75
2
-
3
Schnelle paarweise Alignments:
berechne Matrix der Abstände
4
Hbb_Horse
Hba_Human
1
Nachbar-VerbindungsBaumdiagramm
Hba_Horse
Myg_Whale
alpha-helices
1
2
3
4
5
PEEKSAVTALWGKVN--VDEVGG
GEEKAAVLALWDKVN--EEEVGG
PADKTNVKAAWGKVGAHAGEYGA
AADKTNVKAAWSKVGGHAGEYGA
EHEWQLVLHVWAKVEADVAGHGQ
13. Vorlesung WS 2011/12
2
3
4
1
Software-Werkzeuge der Bioinformatik
progressive Alignments
entsprechend dem
Baumdiagramm
40
ClustalW- Vor- und Nachteile
Vorteil:
– Geschwindigkeit.
Nachteile:
– keine objektive Funktion.
– Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist
(vgl. E-value für BLAST)
– Keine Möglichkeit festzustellen, ob das Alignment “korrekt” ist
Mögliche Probleme:
– Prozedur kann in ein lokales Minimum geraten.
D.h. falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut
wird, kann dieser später nicht mehr korrigiert werden, da die bereits
alignierten Sequenzen fest bleiben.
– Zufälliges Alignment.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
41
ClustalW- Besonderheiten
• Sollen all Sequenzen gleich behandelt werden?
Obwohl manche Sequenzen eng verwandt und andere entfernt verwandt
sind?  Sequenzgewichtung
• Variable Substitutionsmatrizen
• Residuen-spezifische Gap-Penalties und verringerte
Penalties in hydrophilen Regionen (externe Regionen
von Proteinsequenzen), bevorzugt Gaps in Loops
anstatt im Proteinkern.
• Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten
lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den
gleichen Stellen zu bevorzugen
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
42
ClustalW- vom Benutzer festzulegende Parameter
• Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte
sich bewusst sein, dass diese abgeändert werden können):
• Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in einem
Alignment zu erzeugen.
Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von
GOPs erstellt für jede Position der beiden Sequenzen.
Die GOP werden positions-spezifisch behandelt und können über die
Sequenzlänge variieren.
• Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um
eine Position zu verlängern.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
43
MSA mit MAFFT-Programm
Ziel: entdecke lokale Verwandtschaft zwischen zwei Sequenzen (homologe
Segmente) durch Analyse der Korrelation.
Dies geht mit der Fast Fourier Transformation sehr schnell.
Allerdings braucht man dazu eine numerische Darstellung der beiden Sequenzen.
Annahme: evolutionär besonders wichtig sind das Volumen und die Polarität jeder
Aminosäure.
Bilde daher zwei Vektoren der Länge n, die die Volumina und Polaritäten aller n
Aminosäuren k enthalten.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
44
MSA mit MAFFT-Programm
Berechne die Korrelation der beiden Vektoren v1 , v2 mit den Aminosäure-Volumina
für jede mögliche Verschiebung k:
und analog die Korrelation der Vektoren mit den Aminosäure-Polaritäten.
Bilde dann die Summe der beiden Korrelationen:
Schritt 1: Finde passende (d.h. möglicherweise homologe) Segmente mit maximaler
Korrelation
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
45
MSA mit MAFFT-Programm
Schritt 2: Bilde paarweise Alignments
mit eingeschränkter globaler
dynamischer Programmierung:
Schritt 3: erstelle progressiv multiples Alignment:
o Schnelle Berechnung einer Distanzmatrix:
 gruppiere 20 Aminosäuren in 6 physikochemische Gruppen
 zähle 6-Tuples, die beide Sequenzen gemeinsam haben (vgl. Blast)
o o konstruiere Baum mit UPGMA-Methode
Baue multiples Alignment analog auf
Schritt 4: verfeinere MSA interativ durch Aufteilen des MSAs in 2 Bereiche und
Re-Alignierung
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
46
Sankoff Algorithmus
Gesucht: Modell für Evolution einer Nukleotid-Position.
Konstruiere einen evolutionären Baum und wähle im unteren Endknoten
(der zum Ur-Vorläufer gehört) den minimalen Wert, der die
minimalen „evolutionären Kosten“ für diesen Buchstaben ausdrückt.
Bekannt ist, welche Nukleotidbasen in den heutigen Sequenzen an dieser Position gefunden
wird.
Daher ordnen wir an der Spitze des Baums jeder Sequenz die Kosten „0“ für die heute
beobachtete Base zu und setzen die Kosten für die anderen 3 Basen auf Unendlich.
ACGT
Nun brauchen wir einen Algorithmus, der die evolutionären Kosten S(i) für den jeweiligen
Vorläufer zweier Knoten berechnet.
13. Vorlesung WS 2011/12
Softwarewerkzeuge
der Bioinformatik
Software-Werkzeuge der Bioinformatik
47
47
Sankoff-Algorithmus
Nenne die beiden Kind-Knoten l und r (für „links“ und „rechts“).
Die evolutionären Kosten für den direkten Vorgänger a (für „ancestor“) seien
D.h. die geringst mögliche Kosten dafür, dass Knoten a den Zustand i hat, sind die Kosten cij
um in der linken Vorgängerlinie vom Zustand i zum Zustand j zu gelangen plus die bis dahin
bereits angefallenen Kosten Sl(j).
Wähle den Wert j, der diese Summe minimiert.
Entsprechende Berechnung für die rechte Vorgängerlinie, bilde Summe.
Wende diese Gleichung sukzessiv auf den ganzen Baum von oben nach unten an.
Berechne S0(i) und die minimalen Kosten für den Baum:
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
48
Sankoff-Algorithmus
Der Vektor (6,6,7,8) an den Blättern besitzt ein Minimum von 6
= dies sind die minimalen Gesamtkosten dieses Baums für diesen Buchstaben.
Die Ur-Vorgängersequenz enthielt an dieser Position vermutlich „A“ oder „C“.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
49
Konstruiere einen guten Baum: neighbor-joining Methode
durch Saitou und Nei (1987) eingeführt – der Algorithmus verwendet Clustering –
eine molekulare Uhr wird nicht angenommen, aber das Modell minimaler Evolution.
„Modell minimaler Evolution“
wähle unter den möglichen Baumtopologien die mit minimaler Gesamtlänge der Äste.
Wenn die Distanzmatrix den Baum exakt abbildet, garantiert die Neighbor-joining Methode,
als Methode der geringsten Quadrate, den optimalen Baum zu finden.
13. Vorlesung WS 2011/12
Softwarewerkzeuge
der Bioinformatik
Software-Werkzeuge der Bioinformatik
50
50
neighbor-joining Methode
(1) Berechne für jedes Blatt
(2) Wähle i und j sodass Dij – ui – uj minimal ist.
(3) Verbinde i und j. Berechne die Astlängen von
i zum neuen Knoten (vi) und vom j zum neuen
Knoten (vj) als
(4) Berechne den Abstand zwischen dem neuen Knoten (ij) und den übrigen Blättern als
(5) Lösche die Blätter i und j aus den Listen und ersetze sie durch den neuen Knoten, (ij), der
nun als neues Blatt behandelt wird.
(6) Falls mehr als 2 Knoten übrig bleiben, gehe nach Schritt (1) zurück. Andernfalls verbinde
die zwei verbleibenden Knoten (z.B. l und m) durch einen Ast der Länge
Dlm.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
51
Zusammenfassung
Multiple Sequenzalignments geben sehr wertvolle Einblicke in Strukutr unv
Funktion von Proteinfamilien.
Globale dynamische Programmierung ist viel zu aufwändig.
Man benötigt heuristische Verfahren.
ClustalW: geleitet durch biologische Intuition; langsame Laufzeit.
Es gibt nun viel schnelle Verfahren z.B. MAFFT.
Die Rekonstruktion von phylogenetische Bäumen beruht auf multiplen Sequenzalignments.
Die abgeleitete Phylogenie beruht stets auf Annahmen darüber, wie Evolution
abläuft (z.B. minimale Parsimonie).
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
52
V4 – Analyse von Genomsequenzen
- Gene identifizieren
Intrinsische und Extrinsische Verfahren:
Homologie bzw. Hidden Markov Modelle
- Transkriptionsfaktorbindestellen identifizieren
Position Specific Scoring Matrices (PSSM)
- Ganz kurz: finde Repeat-Sequenzen
Suche nach bekannten Repeat-Motiven
- Alignment zweier Genom-Sequenzen
Suffix Bäume
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
53
Hidden Markov Modell (HMM)
Ein Hidden Markov Modell ist ein Graph, der verschiedene Zustände verbindet.
Im Modell rechts gibt es 3 „verborgene“ Zustände: X1, X2, X3.
Zwischen den Zuständen X1 und X2 und zurück und
von X2 nach X3 sind hier Übergänge erlaubt.
Die Übergangswahrscheinlichkeiten hierfür sind
a12, a21 und 23.
y1 bis y4 sind die möglichen Output-Zustände, die aus
den verborgenen Zuständen mit den Wahrscheinlichkeiten
b11 bis b34 erzeugt werden.
Die Topologie des Graphen gibt an, zwischen welchen Zuständen Übergänge
erlaubt sind. Diese gibt man bei der Spezifikation des HMM vor. Jeder Übergang
hängt nur von den beiden Zuständen i und j ab, nicht von früheren Zuständen.
Die Übergangswahrscheinlichkeiten aij und bij müssen in der Trainingsphase des
HMM hergeleitet werden.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
54
Wettervorhersage mit Hidden Markov Modell
Ein Gefangener im Kerkerverlies möchte
das aktuelle Wetter herausfinden.
Er weiß, dass auf einen sonnigen Tag zu
70 % ein Regentag folgt und dass auf
einen Regentag zu 50 % ein Sonnentag
folgt.
Verborgener
Zustand
Weiß er zusätzlich, dass die Schuhe der
Wärter bei Regen zu 90 % dreckig, bei
sonnigem Wetter aber nur zu 60 %
dreckig sind, so kann er durch
Beobachtung der Wärterschuhe
Rückschlüsse über das Wetter ziehen.
Beobachtung
www.wikipedia.de
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
55
Positions-spezifische Gewichtsmatrix
Populäres Verfahren wenn es eine Liste von Genen gibt, die ein TF-Bindungsmotiv gemeinsam haben. Bedingung: gute MSAs müssen vorhanden sein.
Alignment-Matrix: wie häufig treten die verschiedenen
Buchstaben an jeder Position im Alignment auf?
Hertz, Stormo (1999) Bioinformatics 15, 563
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
56
V5: Proteinstruktur: Sekundärstruktur
INHALT
- Hierarchischer Aufbau der Proteinstruktur
- Ramachandran-Plot
- Vorhersage von Sekundärstrukturelementen aus der Sequenz
- Membranproteine
LERNZIEL
- lerne Prinzipien der Proteinstruktur kennen
- stelle Proteinstrukturen graphisch dar (Übung)
WOZU IST DAS GUT?
- Verständnis der dreidimensionalen Proteinstruktur macht erst deutlich, was die
Funktion vieler Proteine ist.
- viele interessante Strukturmotive können bereits aus der Sequenz mit
Bioinformatik-Methoden vorhergesagt werden
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
57
Hierarchischer Aufbau
Welche „Kräfte“ sind für die Ausbildung der verschiedenen „Strukturen“
wichtig?
Lösliche Proteine: wichtigstes Prinzip ist der hydrophobe Effekt.
Der Beitrag hydrophober WW zur Freien Enthalpie bei der Proteinfaltung und der
Protein-Liganden-Wechselwirkung kann als proportional zur Grösse der während
dieser Prozesse vergrabenen hydrophoben Oberfläche angesehen werden.
Membranproteine: sind im Transmembranbereich außen hydrophober als innen.
Die wasserlöslichen Bereiche von Membranproteinen ähneln in ihrer Zusammensetzung den löslichen Proteinen.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
58
Anwendungen der Hydrophobizität
Lesk-Buch
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
59
Stabilität und Faltung von Proteinen
Die gefaltete Struktur eines Proteins ist
die Konformation, die die günstigste freie
Enthalpie ΔG für diese
Aminosäuresequenz besitzt.
β-Faltblatt-Region
Der Ramachandran-Plot charakterisiert
die energetisch günstigen Bereiche des
Aminosäurerückgrats.
Die einzige Residue, die außerhalb der
erlaubten Bereich liegt, also alle
möglichen Torsionswinkel annehmen
kann, ist Glycin.
αr-Helix-Region
(rechtsgängige Helix)
Grund: es hat keine Seitenkette.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
60
Klassifikation von Proteinen
Die Klassifikation von
Proteinstrukturen nimmt in der
Bioinformatik eine
Schlüsselposition ein, weil sie das
Bindeglied zwischen Sequenz und
Funktion darstellt.
Lesk-Buch
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
61
Sekundärstruktur-Auftreten in löslichen Proteinen
Längenverteilung von Sekundärstrukturelementen.
Statistische Daten für eine große Menge an Proteinen mit bekannter Strukt
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
62
Rückgratwinkel in Sekundärstrukturelementen
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
63
Chou & Fasman Propensities
F : starke Tendenz
f : schwache Tendenz
B : starker (Unter-) Brecher
b : schwacher (Unter-) Brecher
I : indifferent
Prolin: stärkster Helixbrecher sowie für
Betastränge
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
64
Topologie von Membranproteinen
Im Inneren der Lipidschicht kann das Proteinrückgrat keine WasserstoffbrückenBindungen mit den Lipiden ausbilden →
die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen ausbilden,
sie müssen entweder helikale oder β-Faltblattkonformation annehmen.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
65
PSIPRED
Benutze Profil aus
PSIBLAST.
Skaliere Werte auf
Intervall [0.0;1.0].
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
66
Topologie von Membranproteinen
Im Inneren der Lipidschicht kann das Proteinrückgrat keine WasserstoffbrückenBindungen mit den Lipiden ausbilden →
die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen ausbilden,
sie müssen entweder helikale oder β-Faltblattkonformation annehmen.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
67
Topologie von Membranproteinen
Die hydrophobe Umgebung erzwingt, dass (zumindest die bisher bekannten)
Strukturen von Transmembranproteinen entweder reine β-Barrels (links)
oder reine α-helikale Bündel (rechts) sind.
http://www.biologie.uni-konstanz.de/folding/Structure%20gallery%201.html
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
68
Helikale Räder
Helikale Räder dienen
zur Darstellung von
Helices.
Man kann so leicht
erkennen, welche Seite
der Helix dem Solvens
zugewandt ist und
welche ins Proteininnere
zeigt.
http://cti.itc.Virginia.EDU/~cmg/Demo/wheel/wheelApp.html.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
69
Kyte-Doolittle Hydrophobizitätsskala (1982)
Jede Aminosäure erhält Hydrophobizitäts-wert
zugeordnet.
Um TM-Helices zu finden, addiere alle Werte
in einem Sequenzfenster der
Länge w.
Alle Fenster oberhalb einer Schranke T
werden als TM-Helix vorhergesagt.
Beobachtung:
Gute Parameter sind w = 19 und T > 1.6.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
70
DALI (Distance-matrix Alignment)
L. Holm & C. Sander
Während der Evolution eines Proteins verändert sich seine Struktur.
Was häufig erhalten bleibt, ist die Verteilung der Kontakte zwischen den Aminosäuren.
→ Konstruiere Kontaktmatrizen für beide Proteine (leicht)
→ finde maximal übereinstimmende Untermatrizen der Kontaktmatrizen (schwierig)
http://www.ebi.ac.uk/dali
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
71
Bedeutung von struktureller Äquivalenz
Beim Strukturvergleich sollen äquivalente
Strukturblöcke zweier Proteine einander
zugeordnet werden.
Darstellung
- in 3D als Überlagerung (superimposition)
starrer Körper
- in 2D als ähnliche Muster in DistanzMatrizen
- in 1D als Sequenzalignment
Rechts: Strukturvergleich von zwei
Zinkfinger-Proteinen, tramtrack und
MBP-1 [1bbo].
3D-Überlagerung: finde
Translation und Rotation eines
Moleküls (rot: 1bbo), so dass
es optimal auf das andere
Molekül passt (blau: 2drpA).
Das Problem ist hier, dass die
Holm, Sander Science 273, 5275 (1996)
zwei Domänen der beiden
Software-Werkzeuge der Bioinformatik
13. Vorlesung WS 2011/12
Proteine unterschiedlich 72
gegeneinander verdreht sind
Distanzmatrix bzw. Kontaktmatrix
(B) Distanzmatrix: schwarze Punkte
markieren Paare von Residuen in
1bbo (unten) und 2drpA (oben) mit
Abstand unter 12 Å.
Links: ohne Alignierung, schlechte
Übereinstimmung der Kontakte.
Rechts: nach Alignierung, wenn nur
die Spalten und Reihen für sich
strukturell entsprechende Residuen
behalten werden.
(C) 1D Sequenzalignment.
Die die Zinkatome koordinierenden
Histidin-Residuen werden aligniert.
Unterstrichen: Sekundärstrukturelemente.
Holm, Sander Science 273, 5275 (1996)
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
73
Zusammenfassung
- Proteinstrukturen sind hierarchisch aufgebaut
- Die Kenntnis der 3D-Struktur erlaubt es, die Proteinfunktion mechanistisch zu
verstehen, z.B. von Enzymen katalysierte chemische Umwandlungsschritte.
- die strukturelle Bioinformatik beschäftigt sich u.a. mit der Vorhersage von
2D- und 3D-Struktur aus der 1D-Struktur (Sequenz)
- Vorhersagen von 2D-Strukturelementen sind ca. 80% genau
- Die Aminosäurezusammensetzung der Membranregionen von Membranproteinen ist sehr verschieden von der löslicher Proteine.
- Dadurch kann man Transmembranregionen recht zuverlässig identifizieren
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
74
V6 Homologie-basierte Proteinmodellierung
• Idee: Sequenzähnlichkeit führt oft zur Ähnlichkeit der 3D-Struktur
Twighlight-Zone
• Lernziele:
(1) verstehe, wie Threading- und Homologiemodelle konstruiert werden
(2) wie gut (genau) sind Homologiemodelle?.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
75
1 Twilight Zone
Die schwarzen Diamant-Symbole
kennzeich-nen eine Kurve, die als
„Twilight Zone“ bezeichnet wird.
Paare von Proteinsequenzen mit
größerer Identität als die Kurve haben mit
Sicherheit eine ähnliche Struktur.
A „true positives“: Proteinpaare mit
ähnlicher Struktur liegen sowohl oberhalb
und unterhalb der Kurve, können also
hohe oder niedrige Sequenzidentität
haben.
B: „false positives“: Strukturen, die keine
bzw. wenig Übereinstimmung aufweisen,
liegen
stets unter der Kurve.
Software-Werkzeuge der Bioinformatik
13. Vorlesung WS 2011/12
Rost, Prot. Eng. 12, 85 (1999)
76
Methode zur Fold-Erkennung: Threading
• Gegeben:
– Sequenz:
IVACIVSTEYDVMKAAR…
– Ein Datenbank von möglichen
Proteinarchitekturen (“folds”)
• Naive Idee: Bilde die Sequenz auf
jeden fold ab
• Starte dabei bei jeder möglichen
Position
• Bestimme anhand einer
energetischen
Bewertungsfunktion,
welcher
Software-Werkzeuge der Bioinformatik
13. Vorlesung WS 2011/12
Fold am besten zu dieser Sequenz
77
2 Profil
Profil: Sequenzpositionsspezifische Bewertungsmatrix M(p,a) mit 21 Spalten
und N Reihen.
- Reihe p entspricht einer Position in den NR Inputsequenzen.
- Die ersten 20 Spalten enthalten die Bewertung dafür, an dieser Position
eine der 20 Aminosäuren zu finden.
Eine Extraspalte enthält einen Bestrafungsterm für Insertionen oder
Deletionen.
Berechne M(p,a) aus einer Austauschmatrix Y(a,b) (PAM/BLOSUM) und
dem Gewicht W(p,b) für das Auftreten der Aminosäure b an Position p.
W(p,b) = c log ( n(b,p) / NR ) oder n(b,p) / NR
n(b,p) : beobachtete Häufigkeit der Aminosäure b an Position p in den NR Inputsequenzen;
setze außerdem n(b,p) = 1 für jede Aminosäure, die nie in p auftritt.
13. Vorlesung WS 2011/12
Gribskov, PNAS 84, 4355
(1987)
78
Software-Werkzeuge der Bioinformatik
Gribskov, PNAS 84, 4355 (1987
Berücksichtige, dass aus den beobachteten Sequenzen durch Mutation alle 20 AS entstehen könnten.
Die Häufigkeit davon wird durch die Austausch-Matrix ausgedrückt.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
79
4 Methode zur Fold-Erkennung: Phyre2 webserver
• Webserver verwendet repräsentative Bibliothek für bekannte folds
• Lese Eingabesequenz mit unbekannter Struktur
• 5 Iterationen mit PsiBlast; finde nah und fern verwandte Sequenzen
(richtiges MSA zu aufwändig)
• Berechne “Profil” aus den Sequenzen
• Sekundärstrukturvorhersage mit
Psi-Pred, SSPro, Jnet, bilde Konsensus
+ Vorhersage ungeordneter Regionen
13. Vorlesung WS 2011/12
Kelley, Nature Protocols
4, 363 (2009
80
Software-Werkzeuge der Bioinformatik
Methode zur Fold-Erkennung: Phyre2 webserver
• Profile-Profile Alignment zwischen
Profil für Eingabesequenz und
Profilen für Strukturfolds
• Berücksichtige auch, wie gut die
vorhergesagte Sekundärstruktur zu
jeder 3D-Strukturvorlage passt
• Berechne Scores für Passung zu
allen 3D-Strukturen in der “fold
library”
• Konstruiere komplette
Strukturen für die
10 besten Scores
• Ergibt manchmal sehr
gute Strukturmodelle
bei 15-25% SequenzIdentität.
13. Vorlesung WS 2011/12
Bennet-Lovsey, Proteins
70, 611 (200
81
Software-Werkzeuge der Bioinformatik
4 Homologie-basierte Proteinmodellierung (SwissModel)
• Methode: Ebenfalls wissensbasierter Ansatz.
• Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins,
• Prozedur:
• finde Proteine bekannter Struktur, die zu Inputsequenz verwandt sind.
• Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz.
• Generierung eines Frameworks für die neue Sequenz.
• Konstruiere fehlende Loops.
• Vervollständige und korrigiere das Proteinrückgrat.
• Korrigiere die Seitenketten.
• Überprüfe die Qualität der modellierten Struktur und deren Packung.
• Strukturverfeinerung durch Energieminimierung und Moleküldynamik.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
82
Konstruktion fehlender Loops
Konformationen für strukturell abweichende Loops zu konstruieren, ist ein ernstes
Problem bei der vergleichende Modellierung. Seine Lösung ist (noch) offen.
Dies gilt nicht nur für lange Loops, in denen zahlreiche Mutationen auftraten,
sondern auch für kurze Loops im Fall von Insertionen und Deletionen.
Sobald das Alignment von Zielsequenz und der Vorlagesequenz vorliegt,
sollte man überprüfen, ob die eingefügten Gaps außerhalb von
Sekundärstrukturelementen in der 3D-Struktur der Vorlage liegen.
Ein paar Regeln:
- bei sehr kurzen Loops können wir Daten über beta-turns verwenden
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
83
Konstruktion fehlender Loops
Ein paar Regeln:
- falls mittellange Loops kompakte
Substrukturen bilden, spielt die
Ausbildung von Wasserstoffbrückenbindungen mit den Atomen des
Rückgrats die wichtigste Rolle für die
Konformation
- falls mittellange Loops ausgedehnte
Konformationen haben, ist für ihre
Stabilisierung meistens eine
hydrophobe Seitenkette
verantwortlich, die ins Proteininnere
zeigt und zwischen die
Sekundärstrukturelemente gepackt ist,
zwischen denen der Loop liegt.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
Fig 4.16
[Tramontano book]
84
Konstruktion fehlender Loops
Basierend auf den Verankerungen der Loops
(a) wird entweder eine Datenbank bekannter Loopfragmente in der PDBDatenbank durchsucht.
Für den neuen Loop verwendet man dann entweder das am besten
passende Fragment oder ein Framework aus den 5 besten Fragmenten.
(b) oder es wird der Torsionsraum der Loopresiduen durchsucht
- 7 erlaubte Kombinationen der Φ-Ψ Winkel
- benötigter Raum für den gesamten Loop
www.expasy.org/swissmodel/
SWISS-MODEL.html
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
85
Rekonstruktion von fehlendem Proteinrückgrat
Das Rückgrat wird auf der Grundlage von
Cα -Positionen konstruiert.
- 7 Kombinationen der Φ-Ψ Winkel sind
erlaubt.
- Durchsuche Datenbank für BackboneFragmente mit Fenster aus 5 Residuen,
Verwende die Koordinaten der 3 zentralen
Residuen des am besten passenden
Fragments.
www.expasy.org/swissmodel/SWISS-MODEL.html
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
86
Konstruktion unvollständiger/fehlender Seitenketten
Ponder & Richards (1987): einige Aminosäuren bevorzugen bestimmte Winkelbereiche für ihre Seitenkettenwinkel → Rotamerbibliotheken.
Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der
Häufigkeit des Auftretens in der PDB-Datenbank.
- Erst werden verdrehte (aber komplette) Seitenketten korrigiert.
- fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt.
Teste dabei, ob van-der-Waals Überlapps auftreten und ob die
Torsisonswinkel in erlaubten Bereichen liegen.
www.expasy.org/swissmodel/
SWISS-MODEL.html
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
87
Rotamer-Bibliotheken: günstige Diederwinkel
Günstige χ1-Drehwinkel der Valin-Seitenkette:
beobachtete Häufigkeit der Rotamere
gauche+ (χ1~ +60°)
gauche– (χ1 ~ –60°)
trans (χ1 ~ 180°)
in verschiedenen Sekundärstrukturen
als Funktion des Rückgratsdiederwinkels Ψ.
R. Dunbrack (2002) Curr.Opin.Struct.Biol. 12, 431
http://swissmodel.expasy.org/course/text/chapter3.htm
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
88
Typische Fehler bei Homologie-Modellierung (I)
(1) Fehlerhafte Packung der
Seitenketten.
In rot gezeigt ist die Kristallstruktur des
cellular retinoic acid binding protein I
(CRAB1) aus Maus.
Die modellierte Struktur der Tryptophan
Residue 109 (Mitte) ist in grün gezeigt.
13. Vorlesung WS 2011/12
Eswar, Curr. Protocols89in Bioinf. (200
Software-Werkzeuge der Bioinformatik
Typische Fehler bei Homologie-Modellierung (II)
(B) Verschiebungen in korrekt
alignierten Regionen.
Hier ergeben sich leichte
Abweichungen des Modells des
CRAB1 Proteins (grün)
von der Kristallstruktur des CRAB1
(rot) entsprechend der Kristallstruktur
des fatty acid binding protein (blau),
das als Vorlage benutzt wurde.
13. Vorlesung WS 2011/12
Eswar, Curr. Protocols90in Bioinf. (200
Software-Werkzeuge der Bioinformatik
Typische Fehler bei Homologie-Modellierung (III)
(C) Fehler in Regionen ohne
Vorlage.
Gezeigt ist die Verbindung zwischen
den Cα-Atomen der Schleife 112–117
für
- die Kristallstruktur des menschlichen
eosinophil neurotoxin (rot),
- dessen Modell (grün),und
- die Vorlagestruktur Ribonuclease A
(blau).
13. Vorlesung WS 2011/12
Eswar, Curr. Protocols91in Bioinf. (200
Software-Werkzeuge der Bioinformatik
Typische Fehler bei Homologie-Modellierung (IV)
(D) Fehler durch Misalignment.
N-terminale Region der Kristallstruktur
von menschlichem eosinophil
neurotoxin (rot) im Vergleich mit dem
Modell (grün).
Der Fehler resultiert aus dem
ungünstigen Alignment mit der
Vorlage Ribonuclease A (unten).
13. Vorlesung WS 2011/12
Eswar, Curr. Protocols92in Bioinf. (200
Software-Werkzeuge der Bioinformatik
Typische Fehler bei Homologie-Modellierung (V)
(E) Fehler durch inkorrekte Vorlage.
Vergleich der Kristallstruktur für
α-trichosanthin (rot) mit dem Modell
(grün), das mit Indol-3Glycerophosphat- Synthase als
Vorlage erzeugt wurde..
13. Vorlesung WS 2011/12
Eswar, Curr. Protocols93in Bioinf. (200
Software-Werkzeuge der Bioinformatik
Bewertung von Strukturmodellen (Modeller)
Modeller verwendet das DOPE-Potential (Discrete Optimized Protein Energy)
zru Bewertung von Strukturmodellen.
Niedrigere Energien sind besser.
DOPE ist ein statistisches Potential für die Wahrscheinlichkeiten, wie häufig
bei einem bestimmten Abstand das Atompaar i – j in den bekannten
Proteinstrukturen auftritt.
13. Vorlesung WS 2011/12
Eswar, Curr. Protocols94in Bioinf. (200
Software-Werkzeuge der Bioinformatik
Homologie/Komperative Modellierung
Qualität der Modellierung hängt
von Sequenzidentität mit Vorlage
ab.
Man sollte stets beachten,
dass die Vorlage nicht aus
der Twilight Zone stammt.
Protein structure modeling for structural
genomics.
R. Sánchez et al. Nat. Struct. Biol.
7, 986 - 990 (2000)
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
95
Vergleich zweier Strukturen: RMSD
Root mean square deviation:
Man vergleicht zwei Proteinstrukturen 1 und 2 durch die Berechnung des mittleren
quadratischen Abstands der Koordinaten der n sich entsprechenden Atome.
Dann nimmt man noch die Wurzel daraus.
Werte unterhalb von 0.2 nm oder 2 Å kennzeichnen eine hohe strukturelle
Ähnlichkeit.
Zum Vergleich: die Länge einer C-C Bindung beträgt 0.15 nm.
Die Distanzen aller Atome weichen also höchstens etwa um eine Bindungslänge
voneinander ab.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
96
Test für die Zuverlässigkeit von SwissModell
3DCrunch-Projekt von Expasy zusammen mit SGI.
Idee: Generiere „Homologie-Modelle“ für Proteine mit bekannter 3DStruktur um zu überprüfen, wie genau die mit Homologie-Modellierung
erzeugten Strukturmodelle sind.
Die Vorlagen besaßen 25 – 95 % Sequenzidentität mit dem Zielprotein.
1200 Kontrolle-Modelle wurden erstellt.
Grad der Identität [%]
Modell innerhalb von x Å RMSD zur Vorlage
25-29
30-39
40-49
50-59
60-69
70-79
80-89
90-95
<1
0
0
9
18
38
42
45
59
<2
10
18
44
55
72
71
79
78
<3
30
45
63
79
85
82
86
83
<4
46
66
78
86
91
85
94
86
<5
>5
67
33
77
23
91
9
91
9
92
8
88
12
95
5
91
9
www.expasy.org/swissmodel
/SWISS-MODEL.html
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
97
Ligandendocking in Homologiemodelle ??
• Homologiemodelle können zwar recht gut sein, aber nicht immer für
Ligandendocking geeignet sein
• Grund: falsche Seitenkettenrotamere in Bindungstasche
• Ansatz1: verwende flexibles Docking, wo auch Teile des Proteins
flexibel sind
• Ansatz2: verwende zusätzliches experimentelles Wissen, verlangt
manuelles Vorgehen
• Ansatz3: erstelle Homologiemodell in Anwesenheit eines modellierten
Liganden, dessen Position z.B. aus Modell-Vorlage stammt
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
98
Zusammenfassung – Homologiemodellierung
• Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität
besitzt ca. 1 Å RMSD
• Dies gilt sogar für absolut identische Sequenzen.
• Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt,
den es mit der Vorlage gemeinsam hat. Die größten Abweichungen
liegen in den konstruierten Schleifen.
• Die Wahl der Modellvorlage ist entscheidend!
Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten
oder Substraten kann Proteinkonformation sehr beeinflussen und somit
alle Modelle, die von ihnen abgeleitet werden.
• Jeder Fehler im Alignment produziert falsche Modelle!
Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
99
V7 Genexpression - Microarrays
• Idee: analysiere Ko-Expression von mehreren Genen um auf funktionelle
Ähnlichkeiten zu schließen
• wichtige Fragen:
(1) wie wird Genexpression reguliert?
(2) was wird mit MicroArray-Chips gemessen?
(3) wie analysiert man Daten aus MicroArray-Experimenten?
(4) was bedeutet Ko-Expression funktionell?
• Inhalt V7:
(1) Hintergrund zu Transkription und Genregulationsnetzwerken
(2) Micro-Arrays
(3) Übung: analysiere selbst Daten aus einem MicroArray-Experiment
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
100
veränderte Genregulation bei Krankheiten etc.
Ausgangspunkt: bestimmte Krankheiten (Krebs ?) entstehen anscheinend durch
die veränderte Expression einer Anzahl von Genen, nicht eines einzelnen Gens.
Wie kann man alle Gene identifizieren, die für diese Veränderung des Phänotyps
verantwortlich sind?
Am besten müsste man z.B. die Expression aller Gene in den Zellen von
gesunden Menschen und von Krebspatienten bestimmen.
Dann möchte man herausfinden, worin die Unterschiede bestehen.
Genau dies ermöglicht die Methode der Microarrays.
Microarrays messen die Expression „aller“ Gene zu einem bestimmten Moment im
Zellzyklus unter bestimmten Umgebungsbedingungen.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
101
Was mißt man mit Microarrays?
Häufig verwendet werden ZweifarbenMicroAssays:
Sample A: rot
Sample B: grün
Ziel: bestimme das Verhältnis rot/grün
dunkel: Gen weder in A noch B exprimiert
rot: Gen nur in A exprimiert (bzw. viel stärker)
grün: Gen nur in B exprimiert
gelb: Gen in A und in B exprimiert.
Das Licht wird von zwei Farbstoffen (roter Cy5
und grüner Cy3) erzeugt, die an die cDNA
angeheftet wurden (die cDNA wurde „gelabelt“)
und die unter Laserlicht fluoreszieren.
13. Vorlesung WS 2011/12
pgrc.ipk-gatersleben.de
Software-Werkzeuge der Bioinformatik
102
Experimentelles Vorgehen
Isolierung einer Zelle im Zustand X
Extraktion aller RNA
Umwandlung in cDNA
Markierung mit Farbstoff (rot oder grün)
Pipette enthält markiert cDNA aller in der Zelle
exprimierten Gene.
Man bringt nacheinander die cDNA aus zwei
verschiedenen Zellpräparationen auf, die
unterschiedlich (rot/grün) gelabelt wurden.
13. Vorlesung WS 2011/12
pgrc.ipk-gatersleben.de
Software-Werkzeuge der Bioinformatik
103
Experimentelles Vorgehen
Aufbringen des zellulären cDNA-Gemischs
auf die einzelnen Zellen des Arrays.
Jede Zelle enthält an die Oberfläche
funktionalisiert einen cDNA-Klon aus einer
cDNA-Bibliothek.
Jede Zelle misst daher die Expression eines
einzelnen Gens.
13. Vorlesung WS 2011/12
pgrc.ipk-gatersleben.de
Software-Werkzeuge der Bioinformatik
104
Auslesen der Probe: Laserlicht
Man stimuliert sowohl
die Fluoreszenz bei der
roten als auch bei der
grünen Wellenlänge.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
105
Normalisierung von Arrays
Wie alle anderen biologischen Experimente zeigen auch Microarrays zufällige und
systematische Abweichungen.
Zufällige Schwankungen treten auf
- in der absoluten Menge an mRNA, die eingesetzt wird,
- in der Hybridisierungs-Technik und
- in Waschschritten.
Systematische Unterschiede gibt es z.B. bei den physikalischen Fluoreszenzeigenschaften der beiden Farbstoffmoleküle.
Um diese systematischen Abweichungen der Genexpressionslevel zwischen zwei
Proben zu unterdrücken, verwendet man Normalisierungsmethoden.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
106
Expressionsverhältnis
Der relative Expressions-Wert eines Gens kann als Menge an rotem oder grünen Licht
gemessen werden, die nach Anregung ausgestrahlt wird.
Man drückt diese Information meist als Expressionsverhältnis Tk aus:
Für jedes Gen k auf dem Array ist hier Rk der Wert für die Spot-Intensität für die TestProbe und Gk ist die Spot-Intensität für die Referenz-Probe.
Man kann entweder absolute Intensitätswerte verwenden, oder solche, die um den
mittleren Hintergrund (Median) korrigiert wurden.
In letzterem Fall lautet das Expressionsverhältnis für einen Spot:
M. Madan Babu, An Introduction
to Microarray Data Analysis
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
107
Transformation des Expressionsverhältnisses
Das Expressionsverhältnis stellt auf intuitive Art die Änderung von
Expressions-Werten dar. Gene, für die sich nichts ändert, erhalten den Wert 1.
Allerdings ist die Darstellung von Hoch- und Runterregulation nicht balanciert.
Wenn ein Gen um den Faktor 4 hochreguliert ist, ergibt sich ein Verhältnis von 4.
R/G = 4G/G = 4
Wenn ein Gen jedoch um den Faktor 4 runterreguliert ist, ist das Verhältnis 0.25.
R/G = R/4R = 1/4.
D.h. Hochregulation wird aufgebläht und nimmt Werte zwischen 1 und Unendlich an,
während Runterregulation komprimiert wird und lediglich Werte zwischen
0 und 1 annimmt.
M. Madan Babu, An Introduction
to Microarray Data Analysis
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
108
Logarithmische Transformation
Eine bessere Methode zur Transformation ist, den Logarithmus zur Basis 2 zu verwenden.
d.h. log2(Expressionsverhältnis)
Dies hat den großen Vorteil, dass Hochregulation und Runterregulation gleich behandelt
werden und auf ein kontinuierliches Intervall abgebildet werden.
Für ein Expressionsverhältnis von 1 ist log2(1) = 0, das keine Änderung bedeutet.
Für ein Expressionsverhältnis von 4 ist log2(4) = 2,
für ein Expressionsverhältnis von 1/4 ist log2(1/4) = -2.
Für die logarithmierten Daten ähneln die
Expressionsraten dann oft einer
Normalverteilung (Glockenkurve).
M. Madan Babu, An Introduction
to Microarray Data Analysis
13. Vorlesung WS 2011/12
Orengo-Buch
Software-Werkzeuge der Bioinformatik
109
Daten-Interpretation von Expressionsdaten
Annahme:
Funktionell zusammenhängende Gene sind oft ko-exprimiert.
Z.B. sind in den 3 Situationen
X Y
Y X
Z  X, Y
(Transkriptionsfaktor X aktiviert Gen Y)
(Transkriptionsfaktor Y aktiviert Gen X)
(Transkriptionsfaktor Z aktiviert Gene X und Y)
die Gene X und Y ko-exprimiert.
Durch Analyse der Ko-Expression (beide Gene an bzw. beide Gene aus) kann man also
funktionelle Zusammenhänge im zellulären Netzwerk entschlüsseln.
Allerdings nicht die kausalen Zusammenhänge, welches Gen das andere reguliert.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
110
Hierarchisches Clustering zur Analyse von Ko-Expression
Man unterscheidet beim Clustering zwischen anhäufenden Verfahren (agglomerative
clustering) und teilenden Verfahren (divisive clustering).
Bei den anhäufenden Verfahren, die in der Praxis häufiger eingesetzt werden, werden
schrittweise einzelne Objekte zu Clustern und diese zu größeren Gruppen
zusammengefasst, während bei den teilenden Verfahren größere Gruppen schrittweise
immer feiner unterteilt werden.
Beim Anhäufen der Cluster wird zunächst jedes Objekt als ein eigener Cluster mit einem
Element aufgefasst.
Nun werden in jedem Schritt die jeweils einander nächsten Cluster zu einem Cluster
zusammengefasst.
Das Verfahren kann beendet werden, wenn alle Cluster eine bestimmte Distanz zueinander
überschreiten oder wenn eine genügend kleine Zahl von Clustern ermittelt worden ist.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
111
k-means Clustern
Ein Durchlauf der k-means Clustering Methode erzeugt eine Auftrennung der Datenpunkte in
k Cluster. Gewöhnlich wird der Wert von k vorgegeben.
Zu Beginn wählt der Algorithmus k Datenpunkte als Centroide der k Cluster. Anschließend
wird jeder weitere Datenpunkt dem nächsten Cluster zugeordnet.
Nachdem alle Datenpunkte eingeteilt wurden, wird für jedes Cluster das Centroid als
Schwerpunkt der in ihm enthaltenen Punkte neu berechnet.
Diese Prozedur (Auswahl der Centroide - Datenpunkte zuordnen) wird so lange wiederholt
bis die Mitgliedschaft aller Cluster stabil bleibt.
Dann stoppt der Algorithmus.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
112
Zusammenfassung
Die Methode der Microarrays erlaubt es, die Expression aller möglichen kodierenden
DNA-Abschnitte eines Genoms experimentell zu testen.
Die Zwei-Farben-Methode ist weit verbreitet um differentielle Expression zu
untersuchen.
Aufgrund der natürlichen biologischen Schwankungen müssen die Rohdaten
prozessiert und normalisiert werden.
Durch Clustering von Experimenten unter verschiedenen Bedingungen erhält man
Gruppen von ko-exprimierten Genen.
Diese haben vermutlich funktionell miteinander zu tun.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
113
V8 funktionelle Annotation
• Analyse von Gen-Expression
• Funktionelle Annotation: Gene Ontology (GO)
• Signifikanz der Annotation: Hypergeometrischer Test
• Annotationsanalysen z.B. mit NIH-Tool DAVID
• Ähnlichkeit von GO-Termen automatisch bestimmen
• OMIM-Datenbank
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
114
Die Gene Ontology (GO)
Ontologien sind strukturierte Vokabulare.
Die Gene Ontology hat 3 Bereiche:
- biologischer Prozess (BP)
- molekulare Funktion (MF)
- zelluläre Komponente (Lokalisation).
Hier ist ein Teil des BP-Baums gezeigt.
Oben ist der allgemeinste Ausdruck (root).
Rot: Blätter des Baums (sehr spezifische
GO-Terme)
Grün: gemeinsame Vorläufer
Blau: andere Knoten.
Linien: „Y ist in X enthalten“-Beziehungen
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
Dissertation Andreas Schlicker (UdS, 2010)
115
Signifkanz von GO-Annotationen
Sehr allgemeine Termen wie z.B. “cellular metabolic process“ werden
vielen Genen zugeordnet.
Sehr spezielle Terme gehören jeweils nur zu wenigen Genen.
Man muss also vergleichen, wie signifikant das Auftreten jedes GO-Terms
in einer Testmenge an Genen im Vergleich zu einer zufällig ausgewählten
Menge an Genen derselben Größe ist.
Dazu verwendet man meist den hypergeometrischen Test.
Dissertation Andreas Schlicker (UdS, 2010)
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
116
Hypergeometrischer Test
p-Wert =
Der hypergeometrische Test ist ein statistischer Test, der z.B. überprüft, ob in einer
vorgegebenen Testmenge an Genen eine biologische Annotation π gegenüber dem
gesamten Genom statistisch signifikant angereichert ist.
▪
Sei N die Anzahl an Genen im Genom.
▪
Sei n die Anzahl an Genen in der Testmenge.
▪
Sie Kπ die Anzahl an Genen im Genom mit der Annotation π.
▪
Sei kπ die Anzahl an Genen in der Testmenge mit der Annotation π.
Der hypergeometrische p-Wert entspricht der Wahrscheinlichkeit, dass kπ oder mehr Gene
zufällig aus dem Genom ausgewählte Gene die Annotation π haben.
http://great.stanford.edu/
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
117
Hypergeometrischer Test
Wähle i = kπ Gene mit
Annotation π aus dem Genom.
Davon gibt es genau Kπ.
Die anderen n – i Gene in der
Testmenge haben dann nicht die
Annotation π. Davon gibt es im Genom
genau N - Kπ.
p-Wert =
Wähle n Elemente aus einer
Die Summe läuft von mindestens
kπ Elementen bis zur maximal
möglichen Anzahl an Elementen.
Menge mit N Elementen aus.
Eine Obergrenze ist durch die
Anzahl an Genen mit Annotation π
im Genom gegeben (Kπ).
Die andere Obergrenze ist die
Zahl der Gene in der Testmenge
(n).
http://great.stanford.edu/
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
http://www.schule-bw.de/
118
Beispiel
p-Wert =
Frage: ist Annotation π in der
Testmenge signifikant angereichert?
Ja! p = 0.05 ist signifikant.
http://great.stanford.edu/
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
119
Messe funktionelle Ähnlichkeit von GO-Termen
Die Wahrscheinlichkeit eines Knoten t kann man auf 2 Arten ausdrücken:
Wieviele Gene besitzen die
Anzahl an GO-Termen im bei t
Annotation t relativ zur Häufigkeit
startenden Unterbaum relativ zu der
der Wurzel?
Anzahl an GO-Termen im Gesamtbaum.
Die Wahrscheinlichkeit hat Werte zwischen 0 und 1 und nimmt zwischen den
Blättern bis zur Wurzel monoton zu.
Aus der Wahrscheinlichkeit p berechnet man den Informationsgehalt jedes
Knotens:
Je seltener ein Knoten ist, desto höher sein Informationsgehalt.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
Schlicker PhD dissertation (2010)
120
Messe funktionelle Ähnlichkeit von GO-Termen
Die Menge an gemeinsamen Vorgängern (common ancestors (CA) ) zweier
Knoten t1 und t2 enthält alle Knoten, die auf einem Pfad von t1 zum WurzelKnoten und auf einem Pfad von t2 zum Wurzelknoten liegen.
Der most informative
common ancestor (MICA) der
Terme t1 und t2 ist der Term mit
dem höchsten
Informationsgehalt in CA.
Normalerweise ist das der
gemäß dem Abstand nächste
gemeinsame Vorgänger.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
Schlicker PhD dissertation (2010)
121
Messe funktionelle Ähnlichkeit von GO-Termen
Schlicker et al. definierten aus dem Abstand zum most informative common ancestor
die Ähnlichkeit der Terme t1 und t2
der hintere Faktor gewichtet
die Ähnlichkeit mit der
Häufigkeit p(MICA). Dies ergab
Vorteile in der Praxis.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
Schlicker PhD dissertation (2010)
122
Zusammenfassung
Daten aus Microarray-Analyse wurden ursprünglich als sehr „verrauscht“
angesehen.
Mittlerweile wurden jedoch sowohl die experimentellen Schritte wie auch die
Datenauswertung gründlich verfeinert.
Microarray-Analyse ist daher heute eine (zwar teure, aber zuverlässige) RoutineMethode, die in allen großen Firmen verwendet wird.
Die Datenaufbereitung kann folgende Schritte enthalten:
Normalisierung, Logarithmierung, Clustering, evtl. Ko-Expressionsanalyse,
Annotation der Genfunktion
Sehr wichtig ist es, die Signifikanz der Ergebnisse zu bewerten.
Gentleman et al. Genome Biology 5, R80 (2004)
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
123
V9 Systembiologie
• Idee: Methoden der Systembiologie ermöglichen die integrierte, simultane
Betrachtung möglichst vieler zellulärer Prozesse.
• wichtige Fragen:
(1) wie soll man die Gesamtheit der metabolischen Reaktionen beschreiben?
(2) weshalb interagieren mehrere Protein zu großen Komplexen?
• Inhalt V9:
(1) stöchiometrische Matrix
(2) Flux Balance Analysis - Methode
(3) Beispiele für permanente Proteinkomplexe
(4) Proteininteraktionsnetzwerke
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
124
Beispiel: Stoffwechsel von E. coli
Die 744 Reaktionen enthalten
791 verschiedene Substrate.
Im Mittel enthält jede Reaktion
4 Substrate.
Ouzonis, Karp, Genome Research 10, 568 (2000)
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
125
Beschreibung vernetzter metabolischer Pfade
Papin et al. TIBS 28, 250 (2003)
(a) aus genomischen, biochemischen, physiologischen Daten wird ein Reaktionsnetzwerk
aufgestellt. Es gibt interne Flüsse innerhalb der Systemgrenzen und externe Flüsse zum
Austausch mit der Umgebung.
(b) Dieses Netzwerk wird durch eine m × n stöchiometrische Matrix dargestellt, in der m
Metabolite durch n Reaktionen miteinander verbunden werden.
(c) Mögliche Zustände der Zelle aufgrund dieser Matrix werden mit Techniken wie
„elementary modes“ oder „extreme pathways“ identifiziert. Die möglichen Zustände liegen
innerhalb eines Konus im durch die verschiedenen Flüsse aufgespannten
Koordinatensystem.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
126
Analyse der stöchiometrischen Matrix
stöchiometrische
Darstellung des Reaktionsnetzwerks mit stöchiometrischer Koeffizienten der
einzelnen
Matrix S.
Reaktionen.
Metabolite
Analyse der Matrix S →
Pathway-Darstellung P.
Deren Zeilen enthalten
den Reaktionen
entsprechende Flüsse
und die Spalten die sich
ergebenden Pfade.
Darstellung der
Pfade ist möglich
für einfache
Netzwerke.
Papin et al. TIBS 28, 250 (2003)
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
127
Flux Balance Analyse
Jede chemische Reaktion erfüllt die Erhaltung der Massen.
Mit dieser grundlegenden Bedingung können metabolische Systeme untersucht werden.
Man muss lediglich die Stöchiometrie aller metabolischen Pfade und die metabolischen
Anforderungen kennen. Für jeden Metabolit gilt:
Im Gleichgewicht kann man die Massenerhaltung in einem metabolischen Netzwerk
mathematisch durch eine Matrixgleichung darstellen:
S·v=0
Hierbei ist die Matrix S wiederum die m × n stöchiometrische Matrix,
m = Anzahl der Metabolite, n = Anzahl der Reaktionen im Netzwerk.
Der Vektor v beinhaltet alle Flüsse des metabolischen Netzwerks,
nämlich die internen Flüsse, die Transportflüsse, und das Zellwachstum.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
128
Lösungsraum der metabolischen Flüsse
Da die Zahl an Metaboliten gewöhnlich kleiner ist als die Zahl an Reaktionen (m < n) ist die
Flussgleichung üblicherweise unterbestimmt.
Daher gibt es im Allgemeinen eine Vielzahl an erlaubten Flussverteilungen, die die
Massenerhaltung erfüllen. Dieser Satz von Lösungen entspricht dem Nullraum der Matrix S.
Um den „wahren“ biologischen Fluss zu finden (→ e.g. Heinzle/UdS) benötigt man zusätzliche
Informationen, z.B. aus Experimenten mit C13-Markierung.
Alternativ kann man Grenzwerte
für den Minimal- und Maximalbetrag jedes einzelnen metabolischen Flusses vorschreiben.
Der Durchschnitt des Nullraums und des durch diese linearen Ungleichungen eingeschränkten
Raums definiert dann ein Volumen im hochdimensionalen Flussraum, das alle möglichen
Flussverteilungen enthält.
13. Vorlesung WS 2011/12
Software-Werkzeuge der Bioinformatik
129
Herunterladen