Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für I Sequenzanalyse II Analyse von Proteinstruktur und Ligandenbindung III Zell- bzw. Netzwerksimulationen www.cellzome.com www.accelrys.com 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 1 Eigenschaften der Aminosäuren Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften. Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen? 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 2 Buchstaben-Code der Aminosäuren • Ein- und Drei-Buchstaben-Codes der Aminosäuren G A L M F W K Q E S Glycin Alanin Leucin Methionin Phenylalanin Tryptophan Lysin Glutamin Glutaminsäure Serin Gly Ala Leu Met Phe Trp Lys Gln Glu Ser Zusätzliche Codes B Asn/Asp Z Gln/Glu P V I C Y H R N D T Prolin Pro Valin Val Isoleucin Ile Cystein Cys Tyrosin Tyr Histidin His Arginin Arg Asparagin Asn Asparaginsäure Threonin Thr Asp X Irgendeine Aminosäure Die Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments und für Proteinstrukturanalyse! 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 3 V2 Paarweises Sequenzalignment • Methoden des Sequenzalignments • Austauschmatrizen • Bedeutsamkeit von Alignments • BLAST, Algorithmus – Parameter – Ausgabe http://www.ncbi.nih.gov • Diese Vorlesung lehnt sich eng an das BLAST Tutorial- • Buch (links) an, Kapitel 3-9 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 4 Sequenz-Alignment • Wenn man 2 oder mehr Sequenzen vorliegen hat, möchte man zunächst einmal - ihre Ähnlichkeiten quantitativ erfassen • Die ähnlichen Regionen können hierbei die ganze Sequenz, oder Teile von ihr • umfassen! Lokales Alignment ↔ globales Alignment - Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen erfassen - Gesetzmässigkeiten der Konservierung und Variabilität beobachten - Rückschlüsse auf entwicklungsgeschichtliche Verwandschaftsverhältnisse ziehen • Wichtiges Ziel: Annotation, d.h. Zuordnung von strukturellen und funktionellen Merkmalen zu Gensequenzen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 5 Ähnlichkeit von Aminosäuren Margaret Dayhoff stellte die Ähnlichkeit (beobachtete Austauschhäufigkeiten zwischen verwandten Sequenzen) zwischen Aminosäuren als log2 odds Verhältnis, oder lod score dar. Lod score einer Aminosäure: nehme den Logarithmus zur Basis 2 (log2) von dem Verhältnis der beobachteten Margaret Dayhoff http://www.nlm.nih.gov/ changingthefaceofmedicine/ gallery/photo_76_7.html Häufigkeit für ein Paar durch die zufällig für das Paar erwartete Häufigkeit. Lod score = 0 → beobachtete und erwartete Häufigkeiten sind gleich > 0 → ein Austauschpaar tritt häufiger auf als zufällig erwartet < 0 → unwahrscheinlicher Austausch Allgemeine Formel für die Bewertung sij zweier Aminosäuren i und j. mit den individuellen Häufigkeiten pi und pj, und der Paarungsfrequenz qjj, 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 6 6 Ähnlichkeit der Aminosäuren • Beispiel: die relative Häufigkeiten von Methionin und Leucin seien 0.01 und 0.1. • Durch zufällige Paarung erwartet man 1/1000 Austauschpaare Met – Leu. • Wenn die beobachtete Paarungshäufigkeit 1/500 ist, ist das Verhältnis der • Häufigkeiten 2/1. • Im Logarithmus zur Basis 2 ergibt sich ein lod score von +1 or 1 bit. • Wenn die Häufigkeit von Arginin 0.1 und die Paarung mit Leu die Häufigkeit 1/500 hat, dann ergibt sich ein lod score für ein Arg – Leu Paar von -2.322 bits. • Gewöhnlich berechnet man nats, multipliziert die Werte mit einem Skalierungsfaktur und rundet sie dann auf Integer Werte • → Austauschmatrizen PAM und BLOSUM. • Diese ganzzahligen Werte (Integers) nennt man raw scores. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 7 Bewertungs- oder Austausch-Matrizen – dienen um die Qualität eines Alignments zu bewerten – Für Protein/Protein Vergleiche: eine 20 x 20 Matrix für die Wahrscheinlichkeit, mit der eine bestimmte Aminosäure gegen eine andere durch zufällige Mutationen ausgetauscht werden kann. – Der Austausch von Aminosäuren ähnlichen Charakters (Ile, Leu) ist wahrscheinlicher (hat eine höhere Bewertung) als der von Aminosäuren unterschiedlichen Charakters (e.g. Ile, Asp). – Matrizen werden als symmetrisch angenommen, besitzen also Form einer Dreiecksmatrix. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 8 Substitutions-Matrizen • Nicht alle Aminosäuren sind gleich – Einige werden leichter ausgetauscht als andere – Bestimmte Mutationen geschehen leichter als andere – Einige Austausche bleiben länger erhalten als andere • Mutationen bevorzugen bestimmte Austausche – Einige Aminosäuren besitzen ähnliche Codons (siehe Codon-Sonne) – Diese werden eher durch Mutation der DNA mutiert • Selektion bevorzugt bestimmte Austausche – Einige Aminosäuren besitzen ähnliche Eigenschaften und Struktur 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 9 PAM250 Matrix 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 10 Beispiel für eine Bewertung • Wenn sich zwei Sequenzen in zwei (oder mehreren) Positionen unterscheiden, möchte man die Wahrscheinlichkeit berechnen, daß Änderung A an Position 1 auftritt UND Änderung B an Position 2 (usw). • Man braucht also Verknüpfung steht. log (A × B), wobei das Malzeichen für die UND- • Es gilt allgemein log (A × B) = log A + log B • → die Bewertung (Score) eines Alignments ist daher einfach die Summe aller • Bewertungen für die Paare an Aminosäuren (Nukleinsäuren) des Alignments: • Sequenz 1: TCCPSIVARSN • Sequenz 2: SCCPSISARNT • 13. Vorlesung WS 12011/12 12 12 => Alignment Bewertung = 46 6 2 5 -1 2 6 1 0 Software-Werkzeuge der Bioinformatik 11 Dayhoff Matrix (1) – wurde von Margaret.O. Dayhoff aufgestellt, die statistische Daten über die Austauschhäufigkeit von Aminosäuren in paarweisen Sequenzalignments sammelte – Datensatz enthält eng verwandte Paare von Proteinsequenzen (> 85% Identität). Diese können nämlich zweifelsfrei aligniert werden. – Aus der Frequenz, mit der Austausche auftreten, stellte sie die 20 x 20 Matrix für die Wahrscheinlichkeiten auf, mit der Mutationen eintreten. – Diese Matrize heisst PAM 1. Ein evolutionärer Abstand von 1 PAM (point accepted mutation) bedeutet, dass es 1 Punktmutation pro 100 Residuen gibt, bzw. dass die beiden Sequenzen zu 99% identisch sind. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 12 Dayhoff Matrix (2) • Aus PAM 1 kann man Matrizen für größere evolutionäre Entfernungen herstellen indem man die Matrix mehrfach mit sich selbst multipliziert. • PAM250: – 2,5 Mutationen pro Residue – entspricht 20% Treffern zwischen zwei Sequenzen, – d.h. man beobachtet Änderungen in 80% der Aminosäurepositionen. – Dies ist die Default-Matrize in vielen Sequenzanalysepaketen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 13 BLOSUM Matrix • Einschränkung der Dayhoff-Matrix: • Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren, sind von eingeschränktem Wert, da ihre Substitionsraten von Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind. • Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff • eingeschlagen, welche lokale multiple Alignments von • entfernter verwandten Sequenzen verwendeten. • Vorteile dieses Ansatzes: - größere Datenmengen (es gibt mehr Sequenzen, Steven Henikoff • die entfernt miteinander verwandt sind als nah verwandte) - multiple Alignments sind robuster 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 14 BLOSUM Matrix (2) • Die BLOSUM Matrizen (BLOcks SUbstitution Matrix) basieren auf der BLOCKS Datenbank. • Die BLOCKS Datenbank verwendet das Konzept von Blöcken (lückenlose Aminosäure-Signaturen), die charakteristisch für eine Proteinfamilie sind. • Aus den beobachteten Mutationen innerhalb dieser Blöcke wurden Austauschwahrscheinlichkeiten für alle Aminosäurepaare berechnet • und als Einträge für eine log odds BLOSUM matrix benutzt. • Man erhält unterschiedliche Matrizen indem man die untere Schranke des verlangten Grads an Identität variiert. • z.B. wurde die BLOSUM80 Matrix aus Blöcken mit > 80% Identität abgeleitet. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 15 Welche Matrix soll man benutzen? • Enge Verwandtschaft (Niedrige PAM, hohe Blosum) Entfernte Verwandtschaft (Hohe PAM, niedrige Blosum) • Vernünftige Default-Werte: PAM250, BLOSUM62 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 16 Gewichtung von Lücken (Gaps) • Neben der Substitutionsmatrix braucht man auch eine Methode zur Bewertung von Lücken. • Welche Bedeutung haben Insertionen und Deletionen im Verhältnis zu Substitutionen? • Unterscheide Einführung von Lücken: • aaagaaa • aaa-aaa • von der Erweiterung von Lücken: • aaaggggaaa • aaa----aaa • Verschiedene Programme (CLUSTAL-W, BLAST, FASTA) empfehlen unterschiedliche Default-Werte, die man wohl erst einmal verwenden sollte. Software-Werkzeuge der Bioinformatik 17 13. Vorlesung WS 2011/12 Needleman-Wunsch Algorithmus • - allgemeiner Algorithmus für Sequenzvergleiche • - maximiert eine Bewertung der Ähnlichkeit • - bester Match = größte Anzahl an Residuen einer Sequenz, die zu denen einer anderen Sequenz passen, wobei Deletionen erlaubt sind. • - Der Algorithmus findet durch dynamische Programmierung das bestmögliche GLOBALE Alignment zweier beliebiger Sequenzen • - NW beinhaltet eine iterative Matrizendarstellung • alle möglichen Residuenpaare (Basen oder Aminosäuren) – je eine von jeder Sequenz – werden in einem zwei-dimensionalen Gitter dargestellt. • alle möglichen Alignments werden durch Pfade durch dieses Gitter dargestellt. • - Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 18 Needleman-Wunsch Algorithm: Initialisierung • Aufgabe: aligniere die Wörter “COELACANTH” und “PELICAN” der Länge m =10 und n =7. Konstruiere (m+1) × (n+1) Matrix. • Ordne den Elementen der ersten Zeile und Reihe die Werte – m × gap und – n × gap zu. • Die Pointer dieser Felder zeigen zurück zum Ursprung. 13. Vorlesung WS 2011/12 C O E L A C A N T H 0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 P -1 E -2 L -3 I -4 C -5 A -6 N -7 Software-Werkzeuge der Bioinformatik 19 Needleman-Wunsch Algorithm: Auffüllen • Fülle alle Matrizenfelder mit Werten und Zeigern mittels simpler Operationen, die die Werte der diagonalen, vertikalen, und horizontalen Nachbarzellen einschließen. Berechne • match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1) • horizontal gap score: Wert der linken Zelle + gap score (-1) • vertical gap score: Wert der oberen Zelle + gap score (-1). • Ordne der Zelle das Maximum dieser drei Werte zu. Der Pointer zeigt in Richtung des maximalen Werts. C O E L A C A N T H 0 -1 • max(-1, -2, -2) = -1 P -1 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -2 • max(-2, -2, -3) = -2 • (Lege Konvention fest, damit Pointer bei gleichen Werten immer in eine bestimmte Richtung zeigen soll, z.B. entlang der Diagonalen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 20 Needleman-Wunsch Algorithmus: Trace-back • Trace-back ergibt das Alignment aus der Matrix. • Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben. C • COELACANTH E L A C A N T H 0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 P -1 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 E -2 -2 -2 -1 -2 -3 -4 -5 -6 -7 -8 L -3 -3 -3 -2 0 -1 -2 -3 -4 -5 -6 I -4 -4 -4 -3 -1 -1 -2 -3 -4 -5 -6 C -5 -3 -4 -4 -2 -2 0 -1 -2 -3 -4 A -6 -4 -4 -5 -3 -1 -1 1 0 -1 -2 N -7 -5 -5 -5 -4 -2 -2 0 2 1 0 • -PELICAN-- 13. Vorlesung WS 2011/12 O Software-Werkzeuge der Bioinformatik 21 Smith-Waterman-Algorithmus • Smith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr einfache Modifikation von Needleman-Wunsch. Es gibt lediglich 3 Änderungen: • - die Matrixränder werden auf 0 statt auf ansteigende Gap-Penalties gesetzt. • - der maximale Wert sinkt nie unter 0. Pointer werden nur für Werte größer als 0 eingezeichnet. • - Trace-back beginnt am größten Wert der Matrix und endet bei dem Wert 0. • ELACAN C • ELICAN 13. Vorlesung WS 2011/12 O E L A C A N T H 0 0 0 0 0 0 0 0 0 0 0 P 0 0 0 0 0 0 0 0 0 0 0 E 0 0 0 1 0 0 0 0 0 0 0 L 0 0 0 0 2 1 0 0 0 0 0 I 0 0 0 0 1 1 0 0 0 0 0 C 0 1 0 0 0 0 2 0 0 0 0 A 0 0 0 0 0 1 0 3 2 1 0 N 0 0 0 0 0 0 0 1 4 3 2 Software-Werkzeuge der Bioinformatik 22 BLAST – Basic Local Alignment Search Tool • Findet das am besten bewertete lokale optimale Alignment einer Testsequenz mit allen Sequenzen einer Datenbank. • Sehr schneller Algorithmus, 50 mal schneller als dynamische Programmierung. • Kann verwendet werden um sehr große Datenbanken zu durchsuchen, da BLAST eine vor-indizierte Datenbank benutzt • Ist ausreichend sensititv und selektiv für die meisten Zwecke • Ist robust – man kann üblicherweise die Default-Parameter verwenden 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 23 BLAST Algorithmus, Schritt 1 • Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) und eine gegebene Bewertungs-Matrix • erzeuge eine Liste aller Worte (w-mers), die eine Bewertung > T erhalten, wenn man sie mit dem w-mer der Eingabe vergleicht Test Sequenz LNKCKTPQGQRLVNQ P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P M G 13 unterhalb Schranke (T=13) 13. Vorlesung WS 2011/12 Wort benachbarte Wörter P Q A 12 P Q N 12 etc. Software-Werkzeuge der Bioinformatik 24 BLAST Algorithmus, Schritt 2 • jedes benachbarte Wort ergibt alle Positionen in der Datenbank, • in denen es gefunden wird (hit list). P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P M G 13 13. Vorlesung WS 2011/12 PMG Database Software-Werkzeuge der Bioinformatik 25 Traditionelle BLAST Programme Sequence 2 Search Space Alignments Gapped alignments Sequence 1 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 26 Sequence 2 Seeding Word hits Sequence 1 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 27 Sequence 2 Seeding Sequence 1 Isolated words 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik Word clusters 28 BLAST Algorithmus: Erweiterungsschritt • das Programm versucht, den Seed in beide Richtungen auszudehnen indem solange Residuenpaare hinzugefügt werden bis die zusätzliche Bewertung kleiner als ein Schrankenwert ist. • Nachdem die Ausdehnung beendet wurde, wird das Alignment so “zurückbeschnitten” dass es die maximale Bewertung erhält. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 29 PSI-BLAST • “Position-Specific Iterated BLAST” – Entfernte Verwandtschaften lassen sich besser durch Motiv- oder ProfilSuchen entdecken als durch paarweise Vergleiche – PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch. – Das PSI-BLAST Programm verwendet die Information jedes signifikanten Alignments um eine positionsspezifische Substitionsmatrix zu konstruieren, die an Stelle der Eingabesequenz in der nächsten Runde der DatenbankSuche verwendet wird. – PSI-BLAST kann iterativ verwendet werden bis keine neuen signifikanten Alignments mehr gefunden werden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 30 30 Karlin-Altschul Statistik: E-value • Karlin und Altschul leiteten die Bewertung der Signifikanz eines Alignments ab (hier ohne Herleitung): Die Anzahl an Alignments (E), die man während einer Suche in einer Sequenzdatenbank mit n Sequenzen mit einer m Buchstaben langen Suchsequenz zufällig erhält, ist eine Funktion der Größe des Suchraums (m × n), der normalisierten Austauschbewertungen (λS), und einer Konstanten (k). 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 31 Grobe Anhaltspunkte • E-Wert (Erwartungswert) • E ≤ 0,0001 genaue Übereinstimmung • 0,0001 ≤ E ≤ 0,02 Sequenzen vermutlich homolog • 0,02 ≤ E ≤ 1 Homologie ist nicht auszuschließen • E ≥ 1 man muss damit rechnen, dass diese gute • Übereinstimmung Zufall ist. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 32 Zusammenfassung Paarweises Sequenzalignment ist heute Routine, aber nicht trivial. Mit dynamischer Programmierung (z.B. Smith-Waterman) findet man garantiert das Alignment mit optimaler Bewertung. Vorsicht: die Bewertungsfunktion ist nur ein Modell der biologischen Evolution. Die schnellste Alignmentmethode ist BLAST und seine Derivate. Es ergibt sehr robuste und brauchbare Ergebnisse für Proteinsequenzen. Multiple Sequenzalignments sind in der Lage, entferntere Ähnlichkeiten aufzuspüren und bieten ein besseres funktionelles Verständnis von Sequenzen und ihren Beziehungen Kommt nächste Woche dran. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 33 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 34 Leitfragen für V3 Frage1: Können wir aus dem Vergleich von Protein- (bzw. DNA-) Sequenzen etwas über evolutionäre Prozesse lernen? Ansatz 1: vergleiche die Aminosäuresequenzen von homologen Proteinen aus verschiedenen Organismen und leite daraus phylogenetische Stammbäume ab (zweiter Teil der Vorlesung heute). Methode: (1) suche homologe Proteine in verschiedenen Organismen(BLAST bzw. Psiblast) (2) führe multiples Sequenzalignment durch (erster Teil) Ansatz 2: vergleiche die kompletten Genomsequenzen verschiedener Organismen (Breakpoint-Analyse) und leite daraus phylogenetische Stammbäume ab (wird hier nicht behandelt). 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 35 Protein-Alignment kann durch tertiäre Strukturinformationen geführt werden Gaps eines Alignments sollten vorwiegend in Loops liegen, nicht in Sekundärstrukturelementen. Escherichia coli DjlA protein Homo sapiens DjlA protein nur so kann man letztlich bewerten, ob ein Sequenzalignment korrekt ist. Beweisen im strikten Sinne kann man dies nie. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 36 Farbe gelb grün violett rot blau Aminosäuretyp Aminosäuren klein, wenig polar Gly, Ala, Ser, Thr hydrophob Cys, Val, Ile, Leu Pro, Phe, Tyr, Met, Trp polar Asn, Gln, His negativ geladen Asp, Glu positiv geladen Lys, Arg 13. Vorlesung WS 2011/12 MSA für Thioredoxin-Familie Software-Werkzeuge der Bioinformatik 37 Progressives Alignment • wurde von Feng & Doolittle 1987 vorgestellt • ist eine heuristische Methode. Daher ist nicht garantiert, das “optimale” Alignment zu finden. • benötigt (n-1) + (n-2) + (n-3) ... (n-n+1) paarweise Sequenzalignments als Ausgangspunkt. • weitverbreitete Implementation in Clustal (Des Higgins) • ClustalW ist eine neuere Version, in der den Parameter für Sequenzen und Programm Gewichte (weights) zugeteilt werden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 38 ClustalW- Paarweise Alignments • Berechne alle möglichen paarweisen Alignments von Sequenzpaaren. Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten. • Berechne aus diesen isolierten paarweisen Alignments den “Abstand” zwischen jedem Sequenzpaar. • Erstelle eine Abstandsmatrix. • aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt • Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment ausgeführt werden wird. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 39 Überblick der ClustalW Prozedur Hbb_Human Hbb_Horse Hba_Human Hba_Horse Myg_Whale 1 2 3 4 5 .17 .59 .59 .77 .60 .59 .77 CLUSTAL W .13 .75 Hbb_Human .75 2 - 3 Schnelle paarweise Alignments: berechne Matrix der Abstände 4 Hbb_Horse Hba_Human 1 Nachbar-VerbindungsBaumdiagramm Hba_Horse Myg_Whale alpha-helices 1 2 3 4 5 PEEKSAVTALWGKVN--VDEVGG GEEKAAVLALWDKVN--EEEVGG PADKTNVKAAWGKVGAHAGEYGA AADKTNVKAAWSKVGGHAGEYGA EHEWQLVLHVWAKVEADVAGHGQ 13. Vorlesung WS 2011/12 2 3 4 1 Software-Werkzeuge der Bioinformatik progressive Alignments entsprechend dem Baumdiagramm 40 ClustalW- Vor- und Nachteile Vorteil: – Geschwindigkeit. Nachteile: – keine objektive Funktion. – Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist (vgl. E-value für BLAST) – Keine Möglichkeit festzustellen, ob das Alignment “korrekt” ist Mögliche Probleme: – Prozedur kann in ein lokales Minimum geraten. D.h. falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut wird, kann dieser später nicht mehr korrigiert werden, da die bereits alignierten Sequenzen fest bleiben. – Zufälliges Alignment. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 41 ClustalW- Besonderheiten • Sollen all Sequenzen gleich behandelt werden? Obwohl manche Sequenzen eng verwandt und andere entfernt verwandt sind? Sequenzgewichtung • Variable Substitutionsmatrizen • Residuen-spezifische Gap-Penalties und verringerte Penalties in hydrophilen Regionen (externe Regionen von Proteinsequenzen), bevorzugt Gaps in Loops anstatt im Proteinkern. • Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den gleichen Stellen zu bevorzugen 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 42 ClustalW- vom Benutzer festzulegende Parameter • Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte sich bewusst sein, dass diese abgeändert werden können): • Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in einem Alignment zu erzeugen. Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs erstellt für jede Position der beiden Sequenzen. Die GOP werden positions-spezifisch behandelt und können über die Sequenzlänge variieren. • Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um eine Position zu verlängern. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 43 MSA mit MAFFT-Programm Ziel: entdecke lokale Verwandtschaft zwischen zwei Sequenzen (homologe Segmente) durch Analyse der Korrelation. Dies geht mit der Fast Fourier Transformation sehr schnell. Allerdings braucht man dazu eine numerische Darstellung der beiden Sequenzen. Annahme: evolutionär besonders wichtig sind das Volumen und die Polarität jeder Aminosäure. Bilde daher zwei Vektoren der Länge n, die die Volumina und Polaritäten aller n Aminosäuren k enthalten. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 44 MSA mit MAFFT-Programm Berechne die Korrelation der beiden Vektoren v1 , v2 mit den Aminosäure-Volumina für jede mögliche Verschiebung k: und analog die Korrelation der Vektoren mit den Aminosäure-Polaritäten. Bilde dann die Summe der beiden Korrelationen: Schritt 1: Finde passende (d.h. möglicherweise homologe) Segmente mit maximaler Korrelation 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 45 MSA mit MAFFT-Programm Schritt 2: Bilde paarweise Alignments mit eingeschränkter globaler dynamischer Programmierung: Schritt 3: erstelle progressiv multiples Alignment: o Schnelle Berechnung einer Distanzmatrix: gruppiere 20 Aminosäuren in 6 physikochemische Gruppen zähle 6-Tuples, die beide Sequenzen gemeinsam haben (vgl. Blast) o o konstruiere Baum mit UPGMA-Methode Baue multiples Alignment analog auf Schritt 4: verfeinere MSA interativ durch Aufteilen des MSAs in 2 Bereiche und Re-Alignierung 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 46 Sankoff Algorithmus Gesucht: Modell für Evolution einer Nukleotid-Position. Konstruiere einen evolutionären Baum und wähle im unteren Endknoten (der zum Ur-Vorläufer gehört) den minimalen Wert, der die minimalen „evolutionären Kosten“ für diesen Buchstaben ausdrückt. Bekannt ist, welche Nukleotidbasen in den heutigen Sequenzen an dieser Position gefunden wird. Daher ordnen wir an der Spitze des Baums jeder Sequenz die Kosten „0“ für die heute beobachtete Base zu und setzen die Kosten für die anderen 3 Basen auf Unendlich. ACGT Nun brauchen wir einen Algorithmus, der die evolutionären Kosten S(i) für den jeweiligen Vorläufer zweier Knoten berechnet. 13. Vorlesung WS 2011/12 Softwarewerkzeuge der Bioinformatik Software-Werkzeuge der Bioinformatik 47 47 Sankoff-Algorithmus Nenne die beiden Kind-Knoten l und r (für „links“ und „rechts“). Die evolutionären Kosten für den direkten Vorgänger a (für „ancestor“) seien D.h. die geringst mögliche Kosten dafür, dass Knoten a den Zustand i hat, sind die Kosten cij um in der linken Vorgängerlinie vom Zustand i zum Zustand j zu gelangen plus die bis dahin bereits angefallenen Kosten Sl(j). Wähle den Wert j, der diese Summe minimiert. Entsprechende Berechnung für die rechte Vorgängerlinie, bilde Summe. Wende diese Gleichung sukzessiv auf den ganzen Baum von oben nach unten an. Berechne S0(i) und die minimalen Kosten für den Baum: 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 48 Sankoff-Algorithmus Der Vektor (6,6,7,8) an den Blättern besitzt ein Minimum von 6 = dies sind die minimalen Gesamtkosten dieses Baums für diesen Buchstaben. Die Ur-Vorgängersequenz enthielt an dieser Position vermutlich „A“ oder „C“. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 49 Konstruiere einen guten Baum: neighbor-joining Methode durch Saitou und Nei (1987) eingeführt – der Algorithmus verwendet Clustering – eine molekulare Uhr wird nicht angenommen, aber das Modell minimaler Evolution. „Modell minimaler Evolution“ wähle unter den möglichen Baumtopologien die mit minimaler Gesamtlänge der Äste. Wenn die Distanzmatrix den Baum exakt abbildet, garantiert die Neighbor-joining Methode, als Methode der geringsten Quadrate, den optimalen Baum zu finden. 13. Vorlesung WS 2011/12 Softwarewerkzeuge der Bioinformatik Software-Werkzeuge der Bioinformatik 50 50 neighbor-joining Methode (1) Berechne für jedes Blatt (2) Wähle i und j sodass Dij – ui – uj minimal ist. (3) Verbinde i und j. Berechne die Astlängen von i zum neuen Knoten (vi) und vom j zum neuen Knoten (vj) als (4) Berechne den Abstand zwischen dem neuen Knoten (ij) und den übrigen Blättern als (5) Lösche die Blätter i und j aus den Listen und ersetze sie durch den neuen Knoten, (ij), der nun als neues Blatt behandelt wird. (6) Falls mehr als 2 Knoten übrig bleiben, gehe nach Schritt (1) zurück. Andernfalls verbinde die zwei verbleibenden Knoten (z.B. l und m) durch einen Ast der Länge Dlm. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 51 Zusammenfassung Multiple Sequenzalignments geben sehr wertvolle Einblicke in Strukutr unv Funktion von Proteinfamilien. Globale dynamische Programmierung ist viel zu aufwändig. Man benötigt heuristische Verfahren. ClustalW: geleitet durch biologische Intuition; langsame Laufzeit. Es gibt nun viel schnelle Verfahren z.B. MAFFT. Die Rekonstruktion von phylogenetische Bäumen beruht auf multiplen Sequenzalignments. Die abgeleitete Phylogenie beruht stets auf Annahmen darüber, wie Evolution abläuft (z.B. minimale Parsimonie). 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 52 V4 – Analyse von Genomsequenzen - Gene identifizieren Intrinsische und Extrinsische Verfahren: Homologie bzw. Hidden Markov Modelle - Transkriptionsfaktorbindestellen identifizieren Position Specific Scoring Matrices (PSSM) - Ganz kurz: finde Repeat-Sequenzen Suche nach bekannten Repeat-Motiven - Alignment zweier Genom-Sequenzen Suffix Bäume 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 53 Hidden Markov Modell (HMM) Ein Hidden Markov Modell ist ein Graph, der verschiedene Zustände verbindet. Im Modell rechts gibt es 3 „verborgene“ Zustände: X1, X2, X3. Zwischen den Zuständen X1 und X2 und zurück und von X2 nach X3 sind hier Übergänge erlaubt. Die Übergangswahrscheinlichkeiten hierfür sind a12, a21 und 23. y1 bis y4 sind die möglichen Output-Zustände, die aus den verborgenen Zuständen mit den Wahrscheinlichkeiten b11 bis b34 erzeugt werden. Die Topologie des Graphen gibt an, zwischen welchen Zuständen Übergänge erlaubt sind. Diese gibt man bei der Spezifikation des HMM vor. Jeder Übergang hängt nur von den beiden Zuständen i und j ab, nicht von früheren Zuständen. Die Übergangswahrscheinlichkeiten aij und bij müssen in der Trainingsphase des HMM hergeleitet werden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 54 Wettervorhersage mit Hidden Markov Modell Ein Gefangener im Kerkerverlies möchte das aktuelle Wetter herausfinden. Er weiß, dass auf einen sonnigen Tag zu 70 % ein Regentag folgt und dass auf einen Regentag zu 50 % ein Sonnentag folgt. Verborgener Zustand Weiß er zusätzlich, dass die Schuhe der Wärter bei Regen zu 90 % dreckig, bei sonnigem Wetter aber nur zu 60 % dreckig sind, so kann er durch Beobachtung der Wärterschuhe Rückschlüsse über das Wetter ziehen. Beobachtung www.wikipedia.de 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 55 Positions-spezifische Gewichtsmatrix Populäres Verfahren wenn es eine Liste von Genen gibt, die ein TF-Bindungsmotiv gemeinsam haben. Bedingung: gute MSAs müssen vorhanden sein. Alignment-Matrix: wie häufig treten die verschiedenen Buchstaben an jeder Position im Alignment auf? Hertz, Stormo (1999) Bioinformatics 15, 563 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 56 V5: Proteinstruktur: Sekundärstruktur INHALT - Hierarchischer Aufbau der Proteinstruktur - Ramachandran-Plot - Vorhersage von Sekundärstrukturelementen aus der Sequenz - Membranproteine LERNZIEL - lerne Prinzipien der Proteinstruktur kennen - stelle Proteinstrukturen graphisch dar (Übung) WOZU IST DAS GUT? - Verständnis der dreidimensionalen Proteinstruktur macht erst deutlich, was die Funktion vieler Proteine ist. - viele interessante Strukturmotive können bereits aus der Sequenz mit Bioinformatik-Methoden vorhergesagt werden 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 57 Hierarchischer Aufbau Welche „Kräfte“ sind für die Ausbildung der verschiedenen „Strukturen“ wichtig? Lösliche Proteine: wichtigstes Prinzip ist der hydrophobe Effekt. Der Beitrag hydrophober WW zur Freien Enthalpie bei der Proteinfaltung und der Protein-Liganden-Wechselwirkung kann als proportional zur Grösse der während dieser Prozesse vergrabenen hydrophoben Oberfläche angesehen werden. Membranproteine: sind im Transmembranbereich außen hydrophober als innen. Die wasserlöslichen Bereiche von Membranproteinen ähneln in ihrer Zusammensetzung den löslichen Proteinen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 58 Anwendungen der Hydrophobizität Lesk-Buch 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 59 Stabilität und Faltung von Proteinen Die gefaltete Struktur eines Proteins ist die Konformation, die die günstigste freie Enthalpie ΔG für diese Aminosäuresequenz besitzt. β-Faltblatt-Region Der Ramachandran-Plot charakterisiert die energetisch günstigen Bereiche des Aminosäurerückgrats. Die einzige Residue, die außerhalb der erlaubten Bereich liegt, also alle möglichen Torsionswinkel annehmen kann, ist Glycin. αr-Helix-Region (rechtsgängige Helix) Grund: es hat keine Seitenkette. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 60 Klassifikation von Proteinen Die Klassifikation von Proteinstrukturen nimmt in der Bioinformatik eine Schlüsselposition ein, weil sie das Bindeglied zwischen Sequenz und Funktion darstellt. Lesk-Buch 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 61 Sekundärstruktur-Auftreten in löslichen Proteinen Längenverteilung von Sekundärstrukturelementen. Statistische Daten für eine große Menge an Proteinen mit bekannter Strukt 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 62 Rückgratwinkel in Sekundärstrukturelementen 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 63 Chou & Fasman Propensities F : starke Tendenz f : schwache Tendenz B : starker (Unter-) Brecher b : schwacher (Unter-) Brecher I : indifferent Prolin: stärkster Helixbrecher sowie für Betastränge 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 64 Topologie von Membranproteinen Im Inneren der Lipidschicht kann das Proteinrückgrat keine WasserstoffbrückenBindungen mit den Lipiden ausbilden → die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen ausbilden, sie müssen entweder helikale oder β-Faltblattkonformation annehmen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 65 PSIPRED Benutze Profil aus PSIBLAST. Skaliere Werte auf Intervall [0.0;1.0]. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 66 Topologie von Membranproteinen Im Inneren der Lipidschicht kann das Proteinrückgrat keine WasserstoffbrückenBindungen mit den Lipiden ausbilden → die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen ausbilden, sie müssen entweder helikale oder β-Faltblattkonformation annehmen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 67 Topologie von Membranproteinen Die hydrophobe Umgebung erzwingt, dass (zumindest die bisher bekannten) Strukturen von Transmembranproteinen entweder reine β-Barrels (links) oder reine α-helikale Bündel (rechts) sind. http://www.biologie.uni-konstanz.de/folding/Structure%20gallery%201.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 68 Helikale Räder Helikale Räder dienen zur Darstellung von Helices. Man kann so leicht erkennen, welche Seite der Helix dem Solvens zugewandt ist und welche ins Proteininnere zeigt. http://cti.itc.Virginia.EDU/~cmg/Demo/wheel/wheelApp.html. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 69 Kyte-Doolittle Hydrophobizitätsskala (1982) Jede Aminosäure erhält Hydrophobizitäts-wert zugeordnet. Um TM-Helices zu finden, addiere alle Werte in einem Sequenzfenster der Länge w. Alle Fenster oberhalb einer Schranke T werden als TM-Helix vorhergesagt. Beobachtung: Gute Parameter sind w = 19 und T > 1.6. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 70 DALI (Distance-matrix Alignment) L. Holm & C. Sander Während der Evolution eines Proteins verändert sich seine Struktur. Was häufig erhalten bleibt, ist die Verteilung der Kontakte zwischen den Aminosäuren. → Konstruiere Kontaktmatrizen für beide Proteine (leicht) → finde maximal übereinstimmende Untermatrizen der Kontaktmatrizen (schwierig) http://www.ebi.ac.uk/dali 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 71 Bedeutung von struktureller Äquivalenz Beim Strukturvergleich sollen äquivalente Strukturblöcke zweier Proteine einander zugeordnet werden. Darstellung - in 3D als Überlagerung (superimposition) starrer Körper - in 2D als ähnliche Muster in DistanzMatrizen - in 1D als Sequenzalignment Rechts: Strukturvergleich von zwei Zinkfinger-Proteinen, tramtrack und MBP-1 [1bbo]. 3D-Überlagerung: finde Translation und Rotation eines Moleküls (rot: 1bbo), so dass es optimal auf das andere Molekül passt (blau: 2drpA). Das Problem ist hier, dass die Holm, Sander Science 273, 5275 (1996) zwei Domänen der beiden Software-Werkzeuge der Bioinformatik 13. Vorlesung WS 2011/12 Proteine unterschiedlich 72 gegeneinander verdreht sind Distanzmatrix bzw. Kontaktmatrix (B) Distanzmatrix: schwarze Punkte markieren Paare von Residuen in 1bbo (unten) und 2drpA (oben) mit Abstand unter 12 Å. Links: ohne Alignierung, schlechte Übereinstimmung der Kontakte. Rechts: nach Alignierung, wenn nur die Spalten und Reihen für sich strukturell entsprechende Residuen behalten werden. (C) 1D Sequenzalignment. Die die Zinkatome koordinierenden Histidin-Residuen werden aligniert. Unterstrichen: Sekundärstrukturelemente. Holm, Sander Science 273, 5275 (1996) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 73 Zusammenfassung - Proteinstrukturen sind hierarchisch aufgebaut - Die Kenntnis der 3D-Struktur erlaubt es, die Proteinfunktion mechanistisch zu verstehen, z.B. von Enzymen katalysierte chemische Umwandlungsschritte. - die strukturelle Bioinformatik beschäftigt sich u.a. mit der Vorhersage von 2D- und 3D-Struktur aus der 1D-Struktur (Sequenz) - Vorhersagen von 2D-Strukturelementen sind ca. 80% genau - Die Aminosäurezusammensetzung der Membranregionen von Membranproteinen ist sehr verschieden von der löslicher Proteine. - Dadurch kann man Transmembranregionen recht zuverlässig identifizieren 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 74 V6 Homologie-basierte Proteinmodellierung • Idee: Sequenzähnlichkeit führt oft zur Ähnlichkeit der 3D-Struktur Twighlight-Zone • Lernziele: (1) verstehe, wie Threading- und Homologiemodelle konstruiert werden (2) wie gut (genau) sind Homologiemodelle?. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 75 1 Twilight Zone Die schwarzen Diamant-Symbole kennzeich-nen eine Kurve, die als „Twilight Zone“ bezeichnet wird. Paare von Proteinsequenzen mit größerer Identität als die Kurve haben mit Sicherheit eine ähnliche Struktur. A „true positives“: Proteinpaare mit ähnlicher Struktur liegen sowohl oberhalb und unterhalb der Kurve, können also hohe oder niedrige Sequenzidentität haben. B: „false positives“: Strukturen, die keine bzw. wenig Übereinstimmung aufweisen, liegen stets unter der Kurve. Software-Werkzeuge der Bioinformatik 13. Vorlesung WS 2011/12 Rost, Prot. Eng. 12, 85 (1999) 76 Methode zur Fold-Erkennung: Threading • Gegeben: – Sequenz: IVACIVSTEYDVMKAAR… – Ein Datenbank von möglichen Proteinarchitekturen (“folds”) • Naive Idee: Bilde die Sequenz auf jeden fold ab • Starte dabei bei jeder möglichen Position • Bestimme anhand einer energetischen Bewertungsfunktion, welcher Software-Werkzeuge der Bioinformatik 13. Vorlesung WS 2011/12 Fold am besten zu dieser Sequenz 77 2 Profil Profil: Sequenzpositionsspezifische Bewertungsmatrix M(p,a) mit 21 Spalten und N Reihen. - Reihe p entspricht einer Position in den NR Inputsequenzen. - Die ersten 20 Spalten enthalten die Bewertung dafür, an dieser Position eine der 20 Aminosäuren zu finden. Eine Extraspalte enthält einen Bestrafungsterm für Insertionen oder Deletionen. Berechne M(p,a) aus einer Austauschmatrix Y(a,b) (PAM/BLOSUM) und dem Gewicht W(p,b) für das Auftreten der Aminosäure b an Position p. W(p,b) = c log ( n(b,p) / NR ) oder n(b,p) / NR n(b,p) : beobachtete Häufigkeit der Aminosäure b an Position p in den NR Inputsequenzen; setze außerdem n(b,p) = 1 für jede Aminosäure, die nie in p auftritt. 13. Vorlesung WS 2011/12 Gribskov, PNAS 84, 4355 (1987) 78 Software-Werkzeuge der Bioinformatik Gribskov, PNAS 84, 4355 (1987 Berücksichtige, dass aus den beobachteten Sequenzen durch Mutation alle 20 AS entstehen könnten. Die Häufigkeit davon wird durch die Austausch-Matrix ausgedrückt. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 79 4 Methode zur Fold-Erkennung: Phyre2 webserver • Webserver verwendet repräsentative Bibliothek für bekannte folds • Lese Eingabesequenz mit unbekannter Struktur • 5 Iterationen mit PsiBlast; finde nah und fern verwandte Sequenzen (richtiges MSA zu aufwändig) • Berechne “Profil” aus den Sequenzen • Sekundärstrukturvorhersage mit Psi-Pred, SSPro, Jnet, bilde Konsensus + Vorhersage ungeordneter Regionen 13. Vorlesung WS 2011/12 Kelley, Nature Protocols 4, 363 (2009 80 Software-Werkzeuge der Bioinformatik Methode zur Fold-Erkennung: Phyre2 webserver • Profile-Profile Alignment zwischen Profil für Eingabesequenz und Profilen für Strukturfolds • Berücksichtige auch, wie gut die vorhergesagte Sekundärstruktur zu jeder 3D-Strukturvorlage passt • Berechne Scores für Passung zu allen 3D-Strukturen in der “fold library” • Konstruiere komplette Strukturen für die 10 besten Scores • Ergibt manchmal sehr gute Strukturmodelle bei 15-25% SequenzIdentität. 13. Vorlesung WS 2011/12 Bennet-Lovsey, Proteins 70, 611 (200 81 Software-Werkzeuge der Bioinformatik 4 Homologie-basierte Proteinmodellierung (SwissModel) • Methode: Ebenfalls wissensbasierter Ansatz. • Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins, • Prozedur: • finde Proteine bekannter Struktur, die zu Inputsequenz verwandt sind. • Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz. • Generierung eines Frameworks für die neue Sequenz. • Konstruiere fehlende Loops. • Vervollständige und korrigiere das Proteinrückgrat. • Korrigiere die Seitenketten. • Überprüfe die Qualität der modellierten Struktur und deren Packung. • Strukturverfeinerung durch Energieminimierung und Moleküldynamik. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 82 Konstruktion fehlender Loops Konformationen für strukturell abweichende Loops zu konstruieren, ist ein ernstes Problem bei der vergleichende Modellierung. Seine Lösung ist (noch) offen. Dies gilt nicht nur für lange Loops, in denen zahlreiche Mutationen auftraten, sondern auch für kurze Loops im Fall von Insertionen und Deletionen. Sobald das Alignment von Zielsequenz und der Vorlagesequenz vorliegt, sollte man überprüfen, ob die eingefügten Gaps außerhalb von Sekundärstrukturelementen in der 3D-Struktur der Vorlage liegen. Ein paar Regeln: - bei sehr kurzen Loops können wir Daten über beta-turns verwenden 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 83 Konstruktion fehlender Loops Ein paar Regeln: - falls mittellange Loops kompakte Substrukturen bilden, spielt die Ausbildung von Wasserstoffbrückenbindungen mit den Atomen des Rückgrats die wichtigste Rolle für die Konformation - falls mittellange Loops ausgedehnte Konformationen haben, ist für ihre Stabilisierung meistens eine hydrophobe Seitenkette verantwortlich, die ins Proteininnere zeigt und zwischen die Sekundärstrukturelemente gepackt ist, zwischen denen der Loop liegt. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik Fig 4.16 [Tramontano book] 84 Konstruktion fehlender Loops Basierend auf den Verankerungen der Loops (a) wird entweder eine Datenbank bekannter Loopfragmente in der PDBDatenbank durchsucht. Für den neuen Loop verwendet man dann entweder das am besten passende Fragment oder ein Framework aus den 5 besten Fragmenten. (b) oder es wird der Torsionsraum der Loopresiduen durchsucht - 7 erlaubte Kombinationen der Φ-Ψ Winkel - benötigter Raum für den gesamten Loop www.expasy.org/swissmodel/ SWISS-MODEL.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 85 Rekonstruktion von fehlendem Proteinrückgrat Das Rückgrat wird auf der Grundlage von Cα -Positionen konstruiert. - 7 Kombinationen der Φ-Ψ Winkel sind erlaubt. - Durchsuche Datenbank für BackboneFragmente mit Fenster aus 5 Residuen, Verwende die Koordinaten der 3 zentralen Residuen des am besten passenden Fragments. www.expasy.org/swissmodel/SWISS-MODEL.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 86 Konstruktion unvollständiger/fehlender Seitenketten Ponder & Richards (1987): einige Aminosäuren bevorzugen bestimmte Winkelbereiche für ihre Seitenkettenwinkel → Rotamerbibliotheken. Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der Häufigkeit des Auftretens in der PDB-Datenbank. - Erst werden verdrehte (aber komplette) Seitenketten korrigiert. - fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt. Teste dabei, ob van-der-Waals Überlapps auftreten und ob die Torsisonswinkel in erlaubten Bereichen liegen. www.expasy.org/swissmodel/ SWISS-MODEL.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 87 Rotamer-Bibliotheken: günstige Diederwinkel Günstige χ1-Drehwinkel der Valin-Seitenkette: beobachtete Häufigkeit der Rotamere gauche+ (χ1~ +60°) gauche– (χ1 ~ –60°) trans (χ1 ~ 180°) in verschiedenen Sekundärstrukturen als Funktion des Rückgratsdiederwinkels Ψ. R. Dunbrack (2002) Curr.Opin.Struct.Biol. 12, 431 http://swissmodel.expasy.org/course/text/chapter3.htm 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 88 Typische Fehler bei Homologie-Modellierung (I) (1) Fehlerhafte Packung der Seitenketten. In rot gezeigt ist die Kristallstruktur des cellular retinoic acid binding protein I (CRAB1) aus Maus. Die modellierte Struktur der Tryptophan Residue 109 (Mitte) ist in grün gezeigt. 13. Vorlesung WS 2011/12 Eswar, Curr. Protocols89in Bioinf. (200 Software-Werkzeuge der Bioinformatik Typische Fehler bei Homologie-Modellierung (II) (B) Verschiebungen in korrekt alignierten Regionen. Hier ergeben sich leichte Abweichungen des Modells des CRAB1 Proteins (grün) von der Kristallstruktur des CRAB1 (rot) entsprechend der Kristallstruktur des fatty acid binding protein (blau), das als Vorlage benutzt wurde. 13. Vorlesung WS 2011/12 Eswar, Curr. Protocols90in Bioinf. (200 Software-Werkzeuge der Bioinformatik Typische Fehler bei Homologie-Modellierung (III) (C) Fehler in Regionen ohne Vorlage. Gezeigt ist die Verbindung zwischen den Cα-Atomen der Schleife 112–117 für - die Kristallstruktur des menschlichen eosinophil neurotoxin (rot), - dessen Modell (grün),und - die Vorlagestruktur Ribonuclease A (blau). 13. Vorlesung WS 2011/12 Eswar, Curr. Protocols91in Bioinf. (200 Software-Werkzeuge der Bioinformatik Typische Fehler bei Homologie-Modellierung (IV) (D) Fehler durch Misalignment. N-terminale Region der Kristallstruktur von menschlichem eosinophil neurotoxin (rot) im Vergleich mit dem Modell (grün). Der Fehler resultiert aus dem ungünstigen Alignment mit der Vorlage Ribonuclease A (unten). 13. Vorlesung WS 2011/12 Eswar, Curr. Protocols92in Bioinf. (200 Software-Werkzeuge der Bioinformatik Typische Fehler bei Homologie-Modellierung (V) (E) Fehler durch inkorrekte Vorlage. Vergleich der Kristallstruktur für α-trichosanthin (rot) mit dem Modell (grün), das mit Indol-3Glycerophosphat- Synthase als Vorlage erzeugt wurde.. 13. Vorlesung WS 2011/12 Eswar, Curr. Protocols93in Bioinf. (200 Software-Werkzeuge der Bioinformatik Bewertung von Strukturmodellen (Modeller) Modeller verwendet das DOPE-Potential (Discrete Optimized Protein Energy) zru Bewertung von Strukturmodellen. Niedrigere Energien sind besser. DOPE ist ein statistisches Potential für die Wahrscheinlichkeiten, wie häufig bei einem bestimmten Abstand das Atompaar i – j in den bekannten Proteinstrukturen auftritt. 13. Vorlesung WS 2011/12 Eswar, Curr. Protocols94in Bioinf. (200 Software-Werkzeuge der Bioinformatik Homologie/Komperative Modellierung Qualität der Modellierung hängt von Sequenzidentität mit Vorlage ab. Man sollte stets beachten, dass die Vorlage nicht aus der Twilight Zone stammt. Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 95 Vergleich zweier Strukturen: RMSD Root mean square deviation: Man vergleicht zwei Proteinstrukturen 1 und 2 durch die Berechnung des mittleren quadratischen Abstands der Koordinaten der n sich entsprechenden Atome. Dann nimmt man noch die Wurzel daraus. Werte unterhalb von 0.2 nm oder 2 Å kennzeichnen eine hohe strukturelle Ähnlichkeit. Zum Vergleich: die Länge einer C-C Bindung beträgt 0.15 nm. Die Distanzen aller Atome weichen also höchstens etwa um eine Bindungslänge voneinander ab. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 96 Test für die Zuverlässigkeit von SwissModell 3DCrunch-Projekt von Expasy zusammen mit SGI. Idee: Generiere „Homologie-Modelle“ für Proteine mit bekannter 3DStruktur um zu überprüfen, wie genau die mit Homologie-Modellierung erzeugten Strukturmodelle sind. Die Vorlagen besaßen 25 – 95 % Sequenzidentität mit dem Zielprotein. 1200 Kontrolle-Modelle wurden erstellt. Grad der Identität [%] Modell innerhalb von x Å RMSD zur Vorlage 25-29 30-39 40-49 50-59 60-69 70-79 80-89 90-95 <1 0 0 9 18 38 42 45 59 <2 10 18 44 55 72 71 79 78 <3 30 45 63 79 85 82 86 83 <4 46 66 78 86 91 85 94 86 <5 >5 67 33 77 23 91 9 91 9 92 8 88 12 95 5 91 9 www.expasy.org/swissmodel /SWISS-MODEL.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 97 Ligandendocking in Homologiemodelle ?? • Homologiemodelle können zwar recht gut sein, aber nicht immer für Ligandendocking geeignet sein • Grund: falsche Seitenkettenrotamere in Bindungstasche • Ansatz1: verwende flexibles Docking, wo auch Teile des Proteins flexibel sind • Ansatz2: verwende zusätzliches experimentelles Wissen, verlangt manuelles Vorgehen • Ansatz3: erstelle Homologiemodell in Anwesenheit eines modellierten Liganden, dessen Position z.B. aus Modell-Vorlage stammt 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 98 Zusammenfassung – Homologiemodellierung • Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität besitzt ca. 1 Å RMSD • Dies gilt sogar für absolut identische Sequenzen. • Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt, den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in den konstruierten Schleifen. • Die Wahl der Modellvorlage ist entscheidend! Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle, die von ihnen abgeleitet werden. • Jeder Fehler im Alignment produziert falsche Modelle! Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 99 V7 Genexpression - Microarrays • Idee: analysiere Ko-Expression von mehreren Genen um auf funktionelle Ähnlichkeiten zu schließen • wichtige Fragen: (1) wie wird Genexpression reguliert? (2) was wird mit MicroArray-Chips gemessen? (3) wie analysiert man Daten aus MicroArray-Experimenten? (4) was bedeutet Ko-Expression funktionell? • Inhalt V7: (1) Hintergrund zu Transkription und Genregulationsnetzwerken (2) Micro-Arrays (3) Übung: analysiere selbst Daten aus einem MicroArray-Experiment 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 100 veränderte Genregulation bei Krankheiten etc. Ausgangspunkt: bestimmte Krankheiten (Krebs ?) entstehen anscheinend durch die veränderte Expression einer Anzahl von Genen, nicht eines einzelnen Gens. Wie kann man alle Gene identifizieren, die für diese Veränderung des Phänotyps verantwortlich sind? Am besten müsste man z.B. die Expression aller Gene in den Zellen von gesunden Menschen und von Krebspatienten bestimmen. Dann möchte man herausfinden, worin die Unterschiede bestehen. Genau dies ermöglicht die Methode der Microarrays. Microarrays messen die Expression „aller“ Gene zu einem bestimmten Moment im Zellzyklus unter bestimmten Umgebungsbedingungen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 101 Was mißt man mit Microarrays? Häufig verwendet werden ZweifarbenMicroAssays: Sample A: rot Sample B: grün Ziel: bestimme das Verhältnis rot/grün dunkel: Gen weder in A noch B exprimiert rot: Gen nur in A exprimiert (bzw. viel stärker) grün: Gen nur in B exprimiert gelb: Gen in A und in B exprimiert. Das Licht wird von zwei Farbstoffen (roter Cy5 und grüner Cy3) erzeugt, die an die cDNA angeheftet wurden (die cDNA wurde „gelabelt“) und die unter Laserlicht fluoreszieren. 13. Vorlesung WS 2011/12 pgrc.ipk-gatersleben.de Software-Werkzeuge der Bioinformatik 102 Experimentelles Vorgehen Isolierung einer Zelle im Zustand X Extraktion aller RNA Umwandlung in cDNA Markierung mit Farbstoff (rot oder grün) Pipette enthält markiert cDNA aller in der Zelle exprimierten Gene. Man bringt nacheinander die cDNA aus zwei verschiedenen Zellpräparationen auf, die unterschiedlich (rot/grün) gelabelt wurden. 13. Vorlesung WS 2011/12 pgrc.ipk-gatersleben.de Software-Werkzeuge der Bioinformatik 103 Experimentelles Vorgehen Aufbringen des zellulären cDNA-Gemischs auf die einzelnen Zellen des Arrays. Jede Zelle enthält an die Oberfläche funktionalisiert einen cDNA-Klon aus einer cDNA-Bibliothek. Jede Zelle misst daher die Expression eines einzelnen Gens. 13. Vorlesung WS 2011/12 pgrc.ipk-gatersleben.de Software-Werkzeuge der Bioinformatik 104 Auslesen der Probe: Laserlicht Man stimuliert sowohl die Fluoreszenz bei der roten als auch bei der grünen Wellenlänge. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 105 Normalisierung von Arrays Wie alle anderen biologischen Experimente zeigen auch Microarrays zufällige und systematische Abweichungen. Zufällige Schwankungen treten auf - in der absoluten Menge an mRNA, die eingesetzt wird, - in der Hybridisierungs-Technik und - in Waschschritten. Systematische Unterschiede gibt es z.B. bei den physikalischen Fluoreszenzeigenschaften der beiden Farbstoffmoleküle. Um diese systematischen Abweichungen der Genexpressionslevel zwischen zwei Proben zu unterdrücken, verwendet man Normalisierungsmethoden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 106 Expressionsverhältnis Der relative Expressions-Wert eines Gens kann als Menge an rotem oder grünen Licht gemessen werden, die nach Anregung ausgestrahlt wird. Man drückt diese Information meist als Expressionsverhältnis Tk aus: Für jedes Gen k auf dem Array ist hier Rk der Wert für die Spot-Intensität für die TestProbe und Gk ist die Spot-Intensität für die Referenz-Probe. Man kann entweder absolute Intensitätswerte verwenden, oder solche, die um den mittleren Hintergrund (Median) korrigiert wurden. In letzterem Fall lautet das Expressionsverhältnis für einen Spot: M. Madan Babu, An Introduction to Microarray Data Analysis 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 107 Transformation des Expressionsverhältnisses Das Expressionsverhältnis stellt auf intuitive Art die Änderung von Expressions-Werten dar. Gene, für die sich nichts ändert, erhalten den Wert 1. Allerdings ist die Darstellung von Hoch- und Runterregulation nicht balanciert. Wenn ein Gen um den Faktor 4 hochreguliert ist, ergibt sich ein Verhältnis von 4. R/G = 4G/G = 4 Wenn ein Gen jedoch um den Faktor 4 runterreguliert ist, ist das Verhältnis 0.25. R/G = R/4R = 1/4. D.h. Hochregulation wird aufgebläht und nimmt Werte zwischen 1 und Unendlich an, während Runterregulation komprimiert wird und lediglich Werte zwischen 0 und 1 annimmt. M. Madan Babu, An Introduction to Microarray Data Analysis 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 108 Logarithmische Transformation Eine bessere Methode zur Transformation ist, den Logarithmus zur Basis 2 zu verwenden. d.h. log2(Expressionsverhältnis) Dies hat den großen Vorteil, dass Hochregulation und Runterregulation gleich behandelt werden und auf ein kontinuierliches Intervall abgebildet werden. Für ein Expressionsverhältnis von 1 ist log2(1) = 0, das keine Änderung bedeutet. Für ein Expressionsverhältnis von 4 ist log2(4) = 2, für ein Expressionsverhältnis von 1/4 ist log2(1/4) = -2. Für die logarithmierten Daten ähneln die Expressionsraten dann oft einer Normalverteilung (Glockenkurve). M. Madan Babu, An Introduction to Microarray Data Analysis 13. Vorlesung WS 2011/12 Orengo-Buch Software-Werkzeuge der Bioinformatik 109 Daten-Interpretation von Expressionsdaten Annahme: Funktionell zusammenhängende Gene sind oft ko-exprimiert. Z.B. sind in den 3 Situationen X Y Y X Z X, Y (Transkriptionsfaktor X aktiviert Gen Y) (Transkriptionsfaktor Y aktiviert Gen X) (Transkriptionsfaktor Z aktiviert Gene X und Y) die Gene X und Y ko-exprimiert. Durch Analyse der Ko-Expression (beide Gene an bzw. beide Gene aus) kann man also funktionelle Zusammenhänge im zellulären Netzwerk entschlüsseln. Allerdings nicht die kausalen Zusammenhänge, welches Gen das andere reguliert. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 110 Hierarchisches Clustering zur Analyse von Ko-Expression Man unterscheidet beim Clustering zwischen anhäufenden Verfahren (agglomerative clustering) und teilenden Verfahren (divisive clustering). Bei den anhäufenden Verfahren, die in der Praxis häufiger eingesetzt werden, werden schrittweise einzelne Objekte zu Clustern und diese zu größeren Gruppen zusammengefasst, während bei den teilenden Verfahren größere Gruppen schrittweise immer feiner unterteilt werden. Beim Anhäufen der Cluster wird zunächst jedes Objekt als ein eigener Cluster mit einem Element aufgefasst. Nun werden in jedem Schritt die jeweils einander nächsten Cluster zu einem Cluster zusammengefasst. Das Verfahren kann beendet werden, wenn alle Cluster eine bestimmte Distanz zueinander überschreiten oder wenn eine genügend kleine Zahl von Clustern ermittelt worden ist. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 111 k-means Clustern Ein Durchlauf der k-means Clustering Methode erzeugt eine Auftrennung der Datenpunkte in k Cluster. Gewöhnlich wird der Wert von k vorgegeben. Zu Beginn wählt der Algorithmus k Datenpunkte als Centroide der k Cluster. Anschließend wird jeder weitere Datenpunkt dem nächsten Cluster zugeordnet. Nachdem alle Datenpunkte eingeteilt wurden, wird für jedes Cluster das Centroid als Schwerpunkt der in ihm enthaltenen Punkte neu berechnet. Diese Prozedur (Auswahl der Centroide - Datenpunkte zuordnen) wird so lange wiederholt bis die Mitgliedschaft aller Cluster stabil bleibt. Dann stoppt der Algorithmus. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 112 Zusammenfassung Die Methode der Microarrays erlaubt es, die Expression aller möglichen kodierenden DNA-Abschnitte eines Genoms experimentell zu testen. Die Zwei-Farben-Methode ist weit verbreitet um differentielle Expression zu untersuchen. Aufgrund der natürlichen biologischen Schwankungen müssen die Rohdaten prozessiert und normalisiert werden. Durch Clustering von Experimenten unter verschiedenen Bedingungen erhält man Gruppen von ko-exprimierten Genen. Diese haben vermutlich funktionell miteinander zu tun. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 113 V8 funktionelle Annotation • Analyse von Gen-Expression • Funktionelle Annotation: Gene Ontology (GO) • Signifikanz der Annotation: Hypergeometrischer Test • Annotationsanalysen z.B. mit NIH-Tool DAVID • Ähnlichkeit von GO-Termen automatisch bestimmen • OMIM-Datenbank 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 114 Die Gene Ontology (GO) Ontologien sind strukturierte Vokabulare. Die Gene Ontology hat 3 Bereiche: - biologischer Prozess (BP) - molekulare Funktion (MF) - zelluläre Komponente (Lokalisation). Hier ist ein Teil des BP-Baums gezeigt. Oben ist der allgemeinste Ausdruck (root). Rot: Blätter des Baums (sehr spezifische GO-Terme) Grün: gemeinsame Vorläufer Blau: andere Knoten. Linien: „Y ist in X enthalten“-Beziehungen 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik Dissertation Andreas Schlicker (UdS, 2010) 115 Signifkanz von GO-Annotationen Sehr allgemeine Termen wie z.B. “cellular metabolic process“ werden vielen Genen zugeordnet. Sehr spezielle Terme gehören jeweils nur zu wenigen Genen. Man muss also vergleichen, wie signifikant das Auftreten jedes GO-Terms in einer Testmenge an Genen im Vergleich zu einer zufällig ausgewählten Menge an Genen derselben Größe ist. Dazu verwendet man meist den hypergeometrischen Test. Dissertation Andreas Schlicker (UdS, 2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 116 Hypergeometrischer Test p-Wert = Der hypergeometrische Test ist ein statistischer Test, der z.B. überprüft, ob in einer vorgegebenen Testmenge an Genen eine biologische Annotation π gegenüber dem gesamten Genom statistisch signifikant angereichert ist. ▪ Sei N die Anzahl an Genen im Genom. ▪ Sei n die Anzahl an Genen in der Testmenge. ▪ Sie Kπ die Anzahl an Genen im Genom mit der Annotation π. ▪ Sei kπ die Anzahl an Genen in der Testmenge mit der Annotation π. Der hypergeometrische p-Wert entspricht der Wahrscheinlichkeit, dass kπ oder mehr Gene zufällig aus dem Genom ausgewählte Gene die Annotation π haben. http://great.stanford.edu/ 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 117 Hypergeometrischer Test Wähle i = kπ Gene mit Annotation π aus dem Genom. Davon gibt es genau Kπ. Die anderen n – i Gene in der Testmenge haben dann nicht die Annotation π. Davon gibt es im Genom genau N - Kπ. p-Wert = Wähle n Elemente aus einer Die Summe läuft von mindestens kπ Elementen bis zur maximal möglichen Anzahl an Elementen. Menge mit N Elementen aus. Eine Obergrenze ist durch die Anzahl an Genen mit Annotation π im Genom gegeben (Kπ). Die andere Obergrenze ist die Zahl der Gene in der Testmenge (n). http://great.stanford.edu/ 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik http://www.schule-bw.de/ 118 Beispiel p-Wert = Frage: ist Annotation π in der Testmenge signifikant angereichert? Ja! p = 0.05 ist signifikant. http://great.stanford.edu/ 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 119 Messe funktionelle Ähnlichkeit von GO-Termen Die Wahrscheinlichkeit eines Knoten t kann man auf 2 Arten ausdrücken: Wieviele Gene besitzen die Anzahl an GO-Termen im bei t Annotation t relativ zur Häufigkeit startenden Unterbaum relativ zu der der Wurzel? Anzahl an GO-Termen im Gesamtbaum. Die Wahrscheinlichkeit hat Werte zwischen 0 und 1 und nimmt zwischen den Blättern bis zur Wurzel monoton zu. Aus der Wahrscheinlichkeit p berechnet man den Informationsgehalt jedes Knotens: Je seltener ein Knoten ist, desto höher sein Informationsgehalt. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik Schlicker PhD dissertation (2010) 120 Messe funktionelle Ähnlichkeit von GO-Termen Die Menge an gemeinsamen Vorgängern (common ancestors (CA) ) zweier Knoten t1 und t2 enthält alle Knoten, die auf einem Pfad von t1 zum WurzelKnoten und auf einem Pfad von t2 zum Wurzelknoten liegen. Der most informative common ancestor (MICA) der Terme t1 und t2 ist der Term mit dem höchsten Informationsgehalt in CA. Normalerweise ist das der gemäß dem Abstand nächste gemeinsame Vorgänger. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik Schlicker PhD dissertation (2010) 121 Messe funktionelle Ähnlichkeit von GO-Termen Schlicker et al. definierten aus dem Abstand zum most informative common ancestor die Ähnlichkeit der Terme t1 und t2 der hintere Faktor gewichtet die Ähnlichkeit mit der Häufigkeit p(MICA). Dies ergab Vorteile in der Praxis. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik Schlicker PhD dissertation (2010) 122 Zusammenfassung Daten aus Microarray-Analyse wurden ursprünglich als sehr „verrauscht“ angesehen. Mittlerweile wurden jedoch sowohl die experimentellen Schritte wie auch die Datenauswertung gründlich verfeinert. Microarray-Analyse ist daher heute eine (zwar teure, aber zuverlässige) RoutineMethode, die in allen großen Firmen verwendet wird. Die Datenaufbereitung kann folgende Schritte enthalten: Normalisierung, Logarithmierung, Clustering, evtl. Ko-Expressionsanalyse, Annotation der Genfunktion Sehr wichtig ist es, die Signifikanz der Ergebnisse zu bewerten. Gentleman et al. Genome Biology 5, R80 (2004) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 123 V9 Systembiologie • Idee: Methoden der Systembiologie ermöglichen die integrierte, simultane Betrachtung möglichst vieler zellulärer Prozesse. • wichtige Fragen: (1) wie soll man die Gesamtheit der metabolischen Reaktionen beschreiben? (2) weshalb interagieren mehrere Protein zu großen Komplexen? • Inhalt V9: (1) stöchiometrische Matrix (2) Flux Balance Analysis - Methode (3) Beispiele für permanente Proteinkomplexe (4) Proteininteraktionsnetzwerke 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 124 Beispiel: Stoffwechsel von E. coli Die 744 Reaktionen enthalten 791 verschiedene Substrate. Im Mittel enthält jede Reaktion 4 Substrate. Ouzonis, Karp, Genome Research 10, 568 (2000) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 125 Beschreibung vernetzter metabolischer Pfade Papin et al. TIBS 28, 250 (2003) (a) aus genomischen, biochemischen, physiologischen Daten wird ein Reaktionsnetzwerk aufgestellt. Es gibt interne Flüsse innerhalb der Systemgrenzen und externe Flüsse zum Austausch mit der Umgebung. (b) Dieses Netzwerk wird durch eine m × n stöchiometrische Matrix dargestellt, in der m Metabolite durch n Reaktionen miteinander verbunden werden. (c) Mögliche Zustände der Zelle aufgrund dieser Matrix werden mit Techniken wie „elementary modes“ oder „extreme pathways“ identifiziert. Die möglichen Zustände liegen innerhalb eines Konus im durch die verschiedenen Flüsse aufgespannten Koordinatensystem. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 126 Analyse der stöchiometrischen Matrix stöchiometrische Darstellung des Reaktionsnetzwerks mit stöchiometrischer Koeffizienten der einzelnen Matrix S. Reaktionen. Metabolite Analyse der Matrix S → Pathway-Darstellung P. Deren Zeilen enthalten den Reaktionen entsprechende Flüsse und die Spalten die sich ergebenden Pfade. Darstellung der Pfade ist möglich für einfache Netzwerke. Papin et al. TIBS 28, 250 (2003) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 127 Flux Balance Analyse Jede chemische Reaktion erfüllt die Erhaltung der Massen. Mit dieser grundlegenden Bedingung können metabolische Systeme untersucht werden. Man muss lediglich die Stöchiometrie aller metabolischen Pfade und die metabolischen Anforderungen kennen. Für jeden Metabolit gilt: Im Gleichgewicht kann man die Massenerhaltung in einem metabolischen Netzwerk mathematisch durch eine Matrixgleichung darstellen: S·v=0 Hierbei ist die Matrix S wiederum die m × n stöchiometrische Matrix, m = Anzahl der Metabolite, n = Anzahl der Reaktionen im Netzwerk. Der Vektor v beinhaltet alle Flüsse des metabolischen Netzwerks, nämlich die internen Flüsse, die Transportflüsse, und das Zellwachstum. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 128 Lösungsraum der metabolischen Flüsse Da die Zahl an Metaboliten gewöhnlich kleiner ist als die Zahl an Reaktionen (m < n) ist die Flussgleichung üblicherweise unterbestimmt. Daher gibt es im Allgemeinen eine Vielzahl an erlaubten Flussverteilungen, die die Massenerhaltung erfüllen. Dieser Satz von Lösungen entspricht dem Nullraum der Matrix S. Um den „wahren“ biologischen Fluss zu finden (→ e.g. Heinzle/UdS) benötigt man zusätzliche Informationen, z.B. aus Experimenten mit C13-Markierung. Alternativ kann man Grenzwerte für den Minimal- und Maximalbetrag jedes einzelnen metabolischen Flusses vorschreiben. Der Durchschnitt des Nullraums und des durch diese linearen Ungleichungen eingeschränkten Raums definiert dann ein Volumen im hochdimensionalen Flussraum, das alle möglichen Flussverteilungen enthält. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 129