Klausur zur Vorlesung „Softwarewerkzeuge der Bioinformatik“ WS07

Klausur zur Vorlesung „Softwarewerkzeuge der
Bioinformatik“ WS07/08
Freitag 22.02.2008
Dauer: 08:15 bis 10.15 Uhr = 120 Minuten
Erlaubte Hilfsmittel: keine
Maximale Punktzahl: 100. Ab 50 Punkte gilt die Klausur als bestanden
Vor- und Rückseite jedes Blattes können verwendet werden.
Kennzeichen Sie jedes abgegebene Blatt mit ihrem Namen und Vornamen
(auch Ihr Schmierpapier)
Name:
Vorname:
MatrikelNr:
Bitte kreuzen in der Tabelle die von Ihnen bearbeiteten Aufgaben an:
Nr.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Σ
bearbeitet
mögliche
4 8
4
5
4
10 10 6
9
4
10 7
7
6
6
100
Punkte
Ihre Punkte
Bereich I Sequenzanalyse
Aufgabe 1
Definieren Sie die Begriffe identity, similarity und homology und erklären Sie ihre
Zusammenhänge. (4 Punkte)
Aufgabe 3 Nennen Sie je eine Stärke und Schwäche von dynamischen AlignmentAlgorithmen gegenüber heuristischen und die daraus resultierenden Anwendungsbereiche der beiden Klassen von Algorithmen. (4 Punkte)
Aufgabe 4
Nennen Sie die wesentlichen Schritte des Programms BLAST zur Erstellung eines
paarweisen Sequenzalignments.
(5 Punkte)
Aufgabe 5
Wie wirkt sich eine kürzere Wortlänge der w-mers (2 statt 3) auf BLASTP aus und
wann wäre das zu erwägen? (4 Punkte)
1
Aufgabe 2 Die PAM250 Matrix lautet:
(a) Welche vier Aminosäuren (außer dem Spezialfall Histidin) sind bei
physiologischem pH=7 geladen? (4 Punkte)
(b) Markieren Sie in der Matrix die Einträge für die Austausche dieser vier Residuen
untereinander und diskutieren Sie die Werte (der Wert für den Austausch X → Y ist
positiv weil ...) (4 Punkte)
Aufgabe 6
(a) Erklären Sie die Funktionsweise des PSI-BLAST Algorithmus?
(5 Punkte)
(b) Warum erwarten wir signifikantere Ergebnisse von PSI-BLAST als von BLAST?
(3 Punkte)
(c) Was ist eine PSSM?
(2 Punkte)
Aufgabe 7
(a) Erklären Sie die Bedeutung des Begriffs Twilight-Zone für die Verknüpfung von
Proteinsequenz und Proteinstruktur anhand des üblichen Schaubilds (d.h. zeichnen Sie
dieses und erklären Sie seine Bedeutung).
(4 Punkte)
In Vorlesung V8 über Protein-Protein-Interaktionen wurde eine ähnliche Beziehung
für den interface RMSD (iRMSD) als Funktion der Sequenzidentität vorgestellt.
(b) Was drückt der interface RMSD aus? (3 Punkte)
(c) Zeichnen Sie den Plot für den iRMSD (beschriften Sie beide Achsen!).
(3 Punkte)
2
Aufgabe 8
Der Sankoff-Algorithmus für die Erstellung von Phylogenien verwendet folgende
Formel zur Berechnung der Kostenfunktion im Vorfahren (ancestor) a:
Benutzen Sie diese Formel und die symmetrische Kostenmatrix
A
C
G
T
A
0
2.5
1
2.5
C
2.5
0
2.5
1
G
1
2.5
0
2.5
T
2.5
1
2.5
0
um die fehlenden Werte in dem Baum (unten) zu ergänzen.
(6 Punkte)
{A}
{C}
{C}
{A}
3
{G}
Bereich II Proteinstruktur
Aufgabe 9 Das Bild zeigt einen Ausschnitt des Komplexes von Galanthamin, einem
Inhibitormolekül (hellgrün gezeichnet) mit dem Protein Acetylcholinesterase, wobei
der Inhibitor in der Bindungstasche des Proteins gebunden ist.
(a) Welche chemischen Symbole
kennzeichnen die rot und blau
markierten Proteinatome?
(2 Punkte)
(b) Was sind die roten Kugeln?
(1 Punkt)
(c) Was könnte die Konturoberfläche
in der Mitte des Proteins andeuten?
(2 Punkte)
(d) Markieren Sie je eine Tryptophan- und
eine Histidin-Residue des Proteins
Acetylcholinesterase durch einen Kreis.
(4 Punkte)
Aufgabe 10
Zur Vorhersage der Sekundärstruktur von Aminosäuresträngen entwickelten Chou
und Fasman folgendes Bewertungsschema:
Diskutieren Sie die beiden Einträge
für Prolin anhand der Strukturformel
dieser Aminosäure etwa in folgender
Weise (4 Punkte)
"Prolin hat eine ..................... Tendenz,
alpha-Helices auszubilden, da seine
Seitenkette ................................................
...................................................................."
"Prolin hat eine ..................... Tendenz,
beta-Faltblätter auszubilden, da seine
Seitenkette ................................................
...................................................................."
4
Aufgabe 11 Homologie-Modellierung
In der Vorlesung V6 wurden die Ergebnisse des 3DCrunch-Projekt vorgestellt.
Grad der Identität [%]
25-29
30-39
40-49
50-59
60-69
70-79
80-89
90-95
<1
0
0
9
18
38
42
45
59
Modell innerhalb von x Å RMSD zur Vorlage
<2
<3
<4
<5
>5
10
30
46
67
33
18
45
66
77
23
44
63
78
91
9
55
79
86
91
9
72
85
91
92
8
71
82
85
88
12
79
86
94
95
5
78
83
86
91
9
(a) Beurteilen Sie aufgrund dieser Tabelle und des unten angegebenen Alignments,
welche Genauigkeit für ein Homologiemodell der "Query" Sequenz aufgrund der
bekannten 3D-Struktur der "Sbjct" Sequenz zu erwarten ist und geben Sie die
Zuverlässigkeit dieser Aussage an.
(4 Punkte)
5
(b) Für die "Query"-Sequenz wurde nun mit einer Reihe an verwandten Sequenzen
mit dem Programm ClustalW ein multiples Sequenzalignment erstellt (siehe unten).
Geben Sie an, was die in der untersten Reihe angebenen Symbole *, :, und . bedeuten.
(3 Punkte)
(c) In V6 wurde argumentiert, dass es meist vorteilhaft ist, ein Homologie-Modell für
die "Query"-Sequenz aufgrund einer einzigen Proteinstruktur target.pdb erstellen,
deren Sequenz target.fasta die größte Ähnlichkeit zur Query-Sequenz hat.
Welchen Sinn macht es für die Zuverlässigkeit der Positionierung der Sekundärstrukturelemente im Homologiemodell, zusätzlich ein multiples Sequenzalignment für
die weiter entfernt verwandten Sequenzen zu erstellen? (3 Punkte)
Aufgabe 12 (Transferaufgabe für den Bereich Homologie-Modellierung)
Das Verfahren der Homologie-Modellierung ist mittlerweile recht standardisiert.
So funktionieren die beiden führenden Programme Swissmodel und Modeller
sehr ähnlich. Die Entwickler des Modeller-Programms für HomologieModellierung (die Gruppe von Andrei Sali an der UC San Francisco) stellten kürzlich
eine Variante zur Homologie-Modellierung vor, die Vorteile bei der Strukturmodellierung von Proteinen verspricht, für die nur Vorlagen mit geringer
Sequenzidentität von 10 % ≤ x ≤ 30 % vorhanden sind.
Diese Methode kann eingesetzt werden, wenn für die gesuchte atomare Proteinstruktur bereits eine Struktur mit niedriger Auflösung, zum Beispiel aus Elektronenmikroskopie bei sehr tiefen Temperaturen (cryo-EM), existiert. Zur Erinnerung: mit
EM ermittelt man durch Beschuß einer Probe mit einem Elektronenstrahl die Dichte
der Elektronen in der Probe um die Positionen der Atomkerne herum.
Üblicherweise bewertet man Strukturmodelle durch ein statistisches Potential Zs, das
die statistische Präferenz für die Paarung zwischen Aminosäuren in verschiedenen
Abständen ausdrückt, wie sie in einer großen Anzahl von Proteinen mit bekannter
Struktur gefunden wird. Die beobachteten Verteilungen werden folgendermaßen
normiert:
Zs : (statistischer Potentialwert – Mittelwert µ ) / Standardabweichung σ.
6
In dem neuen Ansatz wird Zs nun mit einer Bewertung Zc für die Übereinstimmung
der experimentellen cryoEM-Elektronendichte und der für das erzeugte
Strukturmodell berechneten Elektronendichte kombiniert:
w1 und w2 sind geeignete Gewichtungsfaktoren.
Es zeigte sich, dass die Genauigkeit der erzeugten Homologiemodelle deutlich
anstieg. Und zwar ergaben sich folgende Ergebnisse
Hierbei bezeichnet "Native overlap" auf der y-Achse den Grad an Übereinstimmung
zwischen Modell und korrekter Lösung). Um die Methode zu testen sind hier die
Ergebnisse für die Homologie- Modellierung von drei Proteinen gezeigt, deren
atomare Kristallstrukturen bereits bekannt sind.
(a) Erklären Sie, weshalb die Generierung atomarer Homologiemodelle von der
zusätzlichen Information durch die niedrig aufgelöste EM-Struktur profitieren kann.
(2 Punkte)
(b) Entwerfen Sie - als Pseudocode - einen Algorithmus für die
Homologiemodellierung unter Zuhilfenahme der zusätzlichen Information.
(3 Punkte)
(c) Wie erklären Sie, dass es für manche Modelle wie 2omf anscheinend besser ist,
eine geringer aufgelöste Struktur (15 Å Auflösung) zu verwenden und für andere wie
1et0a besser ist, eine möglichst gut aufgelöste Struktur (5 Å) zu verwenden?
(2 Punkte)
Bereich III Zellsimulationen
Aufgabe 13
(a) Was ist der Unterschied zwischen gewöhnlichen und partiellen
Differentialgleichungen? (2 Punkte)
(b) Können Modelle, die lediglich gewöhnliche und partielle Differentialgleichungen
enhalten, stochastische Schwankungen der Systemvariablen beschreiben? Begründen
Sie Ihre Aussage. (3 Punkte)
7
(c) Wodurch wird der Integrationszeitschritt zur Lösung eines Systems von
chemischen Ratengleichungen bestimmt? (2 Punkte)
Aufgabe 14
In Vorlesung V10 wurde das Programmpaket Vesiweb zur Simulation einiger
kinetischer Prozesse bei der Photosynthese vorgestellt.
Dabei wurde auf die Betrachtung einzelner ultraschneller Transferprozesse im Inneren
der Membranproteine verzichtet (z.B. den Transfer von Lichtanregungen sowie
Elektronentransport).
(a) Heißt dies, dass das resultierende Modell ungenau ist oder ist diese Annahme unter
Umständen gerechtfertigt? (3 Punkte)
(b) Argumentieren Sie, wann die Trennung von Systemvariablen zulässig ist.
(3 Punkte)
Aufgabe 15
Erklären Sie anhand eines Beispiels, wie der k-means Clustering-Algorithmus
funktioniert. (6 Punkte)
8