Klausur zur Vorlesung „Softwarewerkzeuge der Bioinformatik“ WS07/08 Freitag 22.02.2008 Dauer: 08:15 bis 10.15 Uhr = 120 Minuten Erlaubte Hilfsmittel: keine Maximale Punktzahl: 100. Ab 50 Punkte gilt die Klausur als bestanden Vor- und Rückseite jedes Blattes können verwendet werden. Kennzeichen Sie jedes abgegebene Blatt mit ihrem Namen und Vornamen (auch Ihr Schmierpapier) Name: Vorname: MatrikelNr: Bitte kreuzen in der Tabelle die von Ihnen bearbeiteten Aufgaben an: Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Σ bearbeitet mögliche 4 8 4 5 4 10 10 6 9 4 10 7 7 6 6 100 Punkte Ihre Punkte Bereich I Sequenzanalyse Aufgabe 1 Definieren Sie die Begriffe identity, similarity und homology und erklären Sie ihre Zusammenhänge. (4 Punkte) Aufgabe 3 Nennen Sie je eine Stärke und Schwäche von dynamischen AlignmentAlgorithmen gegenüber heuristischen und die daraus resultierenden Anwendungsbereiche der beiden Klassen von Algorithmen. (4 Punkte) Aufgabe 4 Nennen Sie die wesentlichen Schritte des Programms BLAST zur Erstellung eines paarweisen Sequenzalignments. (5 Punkte) Aufgabe 5 Wie wirkt sich eine kürzere Wortlänge der w-mers (2 statt 3) auf BLASTP aus und wann wäre das zu erwägen? (4 Punkte) 1 Aufgabe 2 Die PAM250 Matrix lautet: (a) Welche vier Aminosäuren (außer dem Spezialfall Histidin) sind bei physiologischem pH=7 geladen? (4 Punkte) (b) Markieren Sie in der Matrix die Einträge für die Austausche dieser vier Residuen untereinander und diskutieren Sie die Werte (der Wert für den Austausch X → Y ist positiv weil ...) (4 Punkte) Aufgabe 6 (a) Erklären Sie die Funktionsweise des PSI-BLAST Algorithmus? (5 Punkte) (b) Warum erwarten wir signifikantere Ergebnisse von PSI-BLAST als von BLAST? (3 Punkte) (c) Was ist eine PSSM? (2 Punkte) Aufgabe 7 (a) Erklären Sie die Bedeutung des Begriffs Twilight-Zone für die Verknüpfung von Proteinsequenz und Proteinstruktur anhand des üblichen Schaubilds (d.h. zeichnen Sie dieses und erklären Sie seine Bedeutung). (4 Punkte) In Vorlesung V8 über Protein-Protein-Interaktionen wurde eine ähnliche Beziehung für den interface RMSD (iRMSD) als Funktion der Sequenzidentität vorgestellt. (b) Was drückt der interface RMSD aus? (3 Punkte) (c) Zeichnen Sie den Plot für den iRMSD (beschriften Sie beide Achsen!). (3 Punkte) 2 Aufgabe 8 Der Sankoff-Algorithmus für die Erstellung von Phylogenien verwendet folgende Formel zur Berechnung der Kostenfunktion im Vorfahren (ancestor) a: Benutzen Sie diese Formel und die symmetrische Kostenmatrix A C G T A 0 2.5 1 2.5 C 2.5 0 2.5 1 G 1 2.5 0 2.5 T 2.5 1 2.5 0 um die fehlenden Werte in dem Baum (unten) zu ergänzen. (6 Punkte) {A} {C} {C} {A} 3 {G} Bereich II Proteinstruktur Aufgabe 9 Das Bild zeigt einen Ausschnitt des Komplexes von Galanthamin, einem Inhibitormolekül (hellgrün gezeichnet) mit dem Protein Acetylcholinesterase, wobei der Inhibitor in der Bindungstasche des Proteins gebunden ist. (a) Welche chemischen Symbole kennzeichnen die rot und blau markierten Proteinatome? (2 Punkte) (b) Was sind die roten Kugeln? (1 Punkt) (c) Was könnte die Konturoberfläche in der Mitte des Proteins andeuten? (2 Punkte) (d) Markieren Sie je eine Tryptophan- und eine Histidin-Residue des Proteins Acetylcholinesterase durch einen Kreis. (4 Punkte) Aufgabe 10 Zur Vorhersage der Sekundärstruktur von Aminosäuresträngen entwickelten Chou und Fasman folgendes Bewertungsschema: Diskutieren Sie die beiden Einträge für Prolin anhand der Strukturformel dieser Aminosäure etwa in folgender Weise (4 Punkte) "Prolin hat eine ..................... Tendenz, alpha-Helices auszubilden, da seine Seitenkette ................................................ ...................................................................." "Prolin hat eine ..................... Tendenz, beta-Faltblätter auszubilden, da seine Seitenkette ................................................ ...................................................................." 4 Aufgabe 11 Homologie-Modellierung In der Vorlesung V6 wurden die Ergebnisse des 3DCrunch-Projekt vorgestellt. Grad der Identität [%] 25-29 30-39 40-49 50-59 60-69 70-79 80-89 90-95 <1 0 0 9 18 38 42 45 59 Modell innerhalb von x Å RMSD zur Vorlage <2 <3 <4 <5 >5 10 30 46 67 33 18 45 66 77 23 44 63 78 91 9 55 79 86 91 9 72 85 91 92 8 71 82 85 88 12 79 86 94 95 5 78 83 86 91 9 (a) Beurteilen Sie aufgrund dieser Tabelle und des unten angegebenen Alignments, welche Genauigkeit für ein Homologiemodell der "Query" Sequenz aufgrund der bekannten 3D-Struktur der "Sbjct" Sequenz zu erwarten ist und geben Sie die Zuverlässigkeit dieser Aussage an. (4 Punkte) 5 (b) Für die "Query"-Sequenz wurde nun mit einer Reihe an verwandten Sequenzen mit dem Programm ClustalW ein multiples Sequenzalignment erstellt (siehe unten). Geben Sie an, was die in der untersten Reihe angebenen Symbole *, :, und . bedeuten. (3 Punkte) (c) In V6 wurde argumentiert, dass es meist vorteilhaft ist, ein Homologie-Modell für die "Query"-Sequenz aufgrund einer einzigen Proteinstruktur target.pdb erstellen, deren Sequenz target.fasta die größte Ähnlichkeit zur Query-Sequenz hat. Welchen Sinn macht es für die Zuverlässigkeit der Positionierung der Sekundärstrukturelemente im Homologiemodell, zusätzlich ein multiples Sequenzalignment für die weiter entfernt verwandten Sequenzen zu erstellen? (3 Punkte) Aufgabe 12 (Transferaufgabe für den Bereich Homologie-Modellierung) Das Verfahren der Homologie-Modellierung ist mittlerweile recht standardisiert. So funktionieren die beiden führenden Programme Swissmodel und Modeller sehr ähnlich. Die Entwickler des Modeller-Programms für HomologieModellierung (die Gruppe von Andrei Sali an der UC San Francisco) stellten kürzlich eine Variante zur Homologie-Modellierung vor, die Vorteile bei der Strukturmodellierung von Proteinen verspricht, für die nur Vorlagen mit geringer Sequenzidentität von 10 % ≤ x ≤ 30 % vorhanden sind. Diese Methode kann eingesetzt werden, wenn für die gesuchte atomare Proteinstruktur bereits eine Struktur mit niedriger Auflösung, zum Beispiel aus Elektronenmikroskopie bei sehr tiefen Temperaturen (cryo-EM), existiert. Zur Erinnerung: mit EM ermittelt man durch Beschuß einer Probe mit einem Elektronenstrahl die Dichte der Elektronen in der Probe um die Positionen der Atomkerne herum. Üblicherweise bewertet man Strukturmodelle durch ein statistisches Potential Zs, das die statistische Präferenz für die Paarung zwischen Aminosäuren in verschiedenen Abständen ausdrückt, wie sie in einer großen Anzahl von Proteinen mit bekannter Struktur gefunden wird. Die beobachteten Verteilungen werden folgendermaßen normiert: Zs : (statistischer Potentialwert – Mittelwert µ ) / Standardabweichung σ. 6 In dem neuen Ansatz wird Zs nun mit einer Bewertung Zc für die Übereinstimmung der experimentellen cryoEM-Elektronendichte und der für das erzeugte Strukturmodell berechneten Elektronendichte kombiniert: w1 und w2 sind geeignete Gewichtungsfaktoren. Es zeigte sich, dass die Genauigkeit der erzeugten Homologiemodelle deutlich anstieg. Und zwar ergaben sich folgende Ergebnisse Hierbei bezeichnet "Native overlap" auf der y-Achse den Grad an Übereinstimmung zwischen Modell und korrekter Lösung). Um die Methode zu testen sind hier die Ergebnisse für die Homologie- Modellierung von drei Proteinen gezeigt, deren atomare Kristallstrukturen bereits bekannt sind. (a) Erklären Sie, weshalb die Generierung atomarer Homologiemodelle von der zusätzlichen Information durch die niedrig aufgelöste EM-Struktur profitieren kann. (2 Punkte) (b) Entwerfen Sie - als Pseudocode - einen Algorithmus für die Homologiemodellierung unter Zuhilfenahme der zusätzlichen Information. (3 Punkte) (c) Wie erklären Sie, dass es für manche Modelle wie 2omf anscheinend besser ist, eine geringer aufgelöste Struktur (15 Å Auflösung) zu verwenden und für andere wie 1et0a besser ist, eine möglichst gut aufgelöste Struktur (5 Å) zu verwenden? (2 Punkte) Bereich III Zellsimulationen Aufgabe 13 (a) Was ist der Unterschied zwischen gewöhnlichen und partiellen Differentialgleichungen? (2 Punkte) (b) Können Modelle, die lediglich gewöhnliche und partielle Differentialgleichungen enhalten, stochastische Schwankungen der Systemvariablen beschreiben? Begründen Sie Ihre Aussage. (3 Punkte) 7 (c) Wodurch wird der Integrationszeitschritt zur Lösung eines Systems von chemischen Ratengleichungen bestimmt? (2 Punkte) Aufgabe 14 In Vorlesung V10 wurde das Programmpaket Vesiweb zur Simulation einiger kinetischer Prozesse bei der Photosynthese vorgestellt. Dabei wurde auf die Betrachtung einzelner ultraschneller Transferprozesse im Inneren der Membranproteine verzichtet (z.B. den Transfer von Lichtanregungen sowie Elektronentransport). (a) Heißt dies, dass das resultierende Modell ungenau ist oder ist diese Annahme unter Umständen gerechtfertigt? (3 Punkte) (b) Argumentieren Sie, wann die Trennung von Systemvariablen zulässig ist. (3 Punkte) Aufgabe 15 Erklären Sie anhand eines Beispiels, wie der k-means Clustering-Algorithmus funktioniert. (6 Punkte) 8