Free Energy Estimates of All-Atom Protein Structures Using Generalized Belief Propagation K AMISETTY, H., X ING , E. P., AND L ANGMEAD, C. J. Thomas Mair Ludwig-Maximilians-Universität 26.11.2007 university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 1 / 38 Motivation university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 2 / 38 Energiefunktionen Energiefunktionen werden verwendet bei Strukturvorhersage, Faltungsklassifizierung, Proteindesign, Quality Checks, Homologieuntersuchungen, Threading,. . . Energiefunktionen können zur Erkennung der nativen Struktur (native state, native structure) in einer Menge von Decoys benutzt werden. Berechnungen von ∆∆G bei Mutationen in Proteinen. university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 3 / 38 Decoy Definition Decoy Menge von Proteinstrukturen mit ähnlicher innerer Energie und häufig ähnlicher Faltung. university-logo Quelle: Marco Berrera et al. Thomas Mair (LMU) Energiefunktionen 26.11.2007 4 / 38 Freie Energie Freie Energie = Energie in einem System welche in Arbeit umgesetzt werden kann Gibbs Energie = Thermodynamische Energie welche bei konstanter Temperatur und konstantem Druck in Arbeit umgesetzt werden kann Enthalpie = “Wärmeinhalt” eines Systems Entropie = Maß für die Unordnung eines Systems university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 5 / 38 Freie Energie Freie Energie = Energie in einem System welche in Arbeit umgesetzt werden kann Gibbs Energie = Thermodynamische Energie welche bei konstanter Temperatur und konstantem Druck in Arbeit umgesetzt werden kann Enthalpie = “Wärmeinhalt” eines Systems Entropie = Maß für die Unordnung eines Systems G = H − TS = (E + PV ) − TS G = Gibbs Energie H = Enthalpie T = Temperatur S = Entropie Thomas Mair (LMU) E = innere Energie P = Druck V = Volumen university-logo Energiefunktionen 26.11.2007 5 / 38 Gibbs Energie G Thermodynamik: Änderungen von Freier Energie, Enthalpie . . . ∆G = (∆E + P∆V ) − T ∆S Bei fast allen biochemischen Reaktionen ist ∆V klein ⇒ vernachlässigbar Also gilt: ∆G ≈ ∆E − T ∆S je stabiler der Zustand eines Systems, desto geringer ist die Energie des Zustandes university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 6 / 38 Energiefunktionen G = E − TS Innere Energiefunktionen E: Modellieren inter- und intramolekulare Interaktionen (z.B. elektrostatische I., van der Waals I., . . . ) Entropiefunktionen S: Schwierigere Berechnung, enthalten Summen über exponentiell viele Terme S=− N X p(si ) ln(p(si )) i=1 university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 7 / 38 Der Entropieteil S Ansätze zur Berechnung: Vernachlässigen einfach verfälscht die Lösung aus Datenbanken(PDB) abschätzen (Potentials of Mean Force) Potential enthält innere Energie E und Entropie S Modellierung der Proteinstruktur als probabilistisches Graphisches Modell mit Inferenzbasiertem Ansatz university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 8 / 38 Potentials of Mean Force Grundlagen Grundlagen: Sippl 1990 Ableitung der Energie aus einer repräsentativen Menge von Strukturen (Trainingsdatensatz) Bestimmung der Häufigkeiten von Ereignissen (events) in der Proteinstruktur Bestimmung von Pseudoenergien ∆E für Ereignisse basierend auf dem inversen Boltzmanngesetz Summe über die entsprechenden Energien aller Ereignisse ⇒ “Gesamtenergie” university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 9 / 38 Boltzmanngesetz Definition Boltzmann Gesetz Ein bestimmter Zustand x eines physikalischen Systems wird mit der Wahrscheinlichkeit 1 E(x) p(x) = exp − Z kB T eingenommen. Bolzmannkonstante: kB = 1.3806504 · 10−23 E(x) Energie des Zustandes x Temperatur: T P − E(x) Z = x e kB T Inverses Boltzmanngesetz: E(x) = −kB T ln(p(x)) − kB T ln(Z ) university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 10 / 38 Ereignisse und Bestimmung der Häufigkeiten Ereignisse Λ: meist Paare von Aminosäuren, welche in der Proteinstruktur “Interagieren” z.B. Paare von Aminosäuren in bestimmten sequentiellen und räumlichen Abständen Approximation der Wahrscheinlichkeit für ein bestimmtes Ereignis e ∈ Λ für zwei bestimmte Aminosäuren a und b: gab (e) 0 e0 ∈Λ gab (e ) pab (e) = P gab Anzahl der Ereignisse e zwischen Aminosäuren a und b Boltzmann Gesetz ⇒ Eab (e) = −kB T ln(pab (e)) − kB T ln(Zab ) university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 11 / 38 Pseudoenergien Pseudoenergie für ein Ereignis e: ∆Eab (e) = Eab (e) − Ê(e) = −kB T ln Annahme: Zab ≈ Z ⇒ −kB T ln Zab Z pab (e) p̂(e) − kB T ln Zab Z ≈0 Präferenz für Ereignis e: XX g(e) , mit g(e) = gab (e) 0 e0 ∈Λ g(e ) a p̂(e) = P b Bestimmung der Gesamtenergie einer Sequenz S gegeben eine Konformation C: ∆E(S, C) = X ∆Eab (e) e∈Λ,a,b∈S Thomas Mair (LMU) Energiefunktionen university-logo 26.11.2007 12 / 38 Beispiel Potentials of Mean Force university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 13 / 38 Probabilistische Graphische Modelle Vorteile: Einfache Darstellung der Struktur eines probabilistischen Modells. Struktur des Graphen ermöglicht es Eigenschaften des Modells zu erkennen. Komplexe Berechnungen können als Graphenoperationen durchgeführt werden. Variablen meist als Knoten/Kreise dargestellt, Abhängigkeiten als Kanten university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 14 / 38 Probabilistische Graphische Modelle Vorteile: Einfache Darstellung der Struktur eines probabilistischen Modells. Struktur des Graphen ermöglicht es Eigenschaften des Modells zu erkennen. Komplexe Berechnungen können als Graphenoperationen durchgeführt werden. Variablen meist als Knoten/Kreise dargestellt, Abhängigkeiten als Kanten Modelle: Bayessches Netz Paarweise Markov Random Field(MRF) Faktor Graph university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 14 / 38 Bayessches Netz Gerichteter Graph Knoten V : Zufallsvariablen Kanten E: bedingten Abhängigkeiten der ZV Bedingte Wahrscheinlichkeit eines Knoten i: p(xi |Par (xi )) gemeinsame Wahrscheinlichkeitsfunktion: p(x) = |V Q| p(xi |Par (xi )) i=1 Verwendung: Expertensysteme in Bioinformatik, Medizin, Musteranalyse und Ingenieurswesen Par (xi ) = Eltern eines Knoten university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 15 / 38 Beispiel Bayessches Netz p(x) = |V | Y p(xi |Par (xi )) i=1 p(x) = p(x1 )p(x2 )p(x3 )p(x4 |x1 , x2 , x3 )p(x5 |x1 , x3 )p(x6 |x4 )p(x7 |x4 , x5 ) university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 16 / 38 Markov Random Field Ungerichteter Graph Knoten: Zufallsvariablen Kanten: Abhängigkeiten der ZV Potentialfunktionen ψk für jede maximale Clique C gemeinsame Wahrscheinlichkeitsfunktion: p(x) = 1 Z Q ψC (xC ) C university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 17 / 38 Beispiel MRF p(x) = = 1 Z Q ψC (xC ) C 1 Z ψ1 (x1 , x2 , x3 )ψ2 (x3 , x4 )ψ3 (x1 , x4 ) Z = X ψ1 (x1 , x2 , x3 )ψ2 (x3 , x4 )ψ3 (x1 , x4 ) x1 ,x2 ,x3 ,x4 university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 18 / 38 Faktor Graph X , F -Bipartiter Graph Verschiedene Arten von Knoten: Variablen X , Faktoren F Jeder Faktor f ist eine Funktion der mit dem Faktor verbunden Variablen X Q gemeinsame Wahrscheinlichkeitsfunktion: p(x) = Z1 fa (xa ) a university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 19 / 38 Beispiel Faktor Graph Wahrscheinlichkeitsfunktion: p(X ) = Z1 fA (x1 , x2 )fB (x2 , x3 , x4 )fC (x4 ) Z = X fA (x1 , x2 )fB (x2 , x3 , x4 )fC (x4 ) x1 ,x2 ,x3 ,x4 university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 20 / 38 Belief Propagation (BP) Berechnungen von Randwahrscheinlichkeiten ist algorithmisch schwierig (Summe exponentiell vieler Terme). Inferenzberechnungen werden in vielen verschiedenen Situationen benötigt (Fehlerkorrigierende Codes, Bilderkennung,. . . ) university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 21 / 38 Belief Propagation (BP) Berechnungen von Randwahrscheinlichkeiten ist algorithmisch schwierig (Summe exponentiell vieler Terme). Inferenzberechnungen werden in vielen verschiedenen Situationen benötigt (Fehlerkorrigierende Codes, Bilderkennung,. . . ) BP-Algorithmus berechnet die Randwahrscheinlichkeiten in probabilistischen graphischen Modellen BP ist ein sogenannter message passing Algorithmus. Ergebnisse sind exakt, wenn der Graph keine Zyklen besitzt. BP hat eine lineare Laufzeit in der Anzahl der Kanten, wenn der Graph keine Zyklen besitzt. university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 21 / 38 Belief Propagation im Faktor Graphen: Definition Definition Nachrichten zwischen Knoten ma→i (xi ) von Faktor a zu Variable i: Vektor der die Wahrscheinlichkeiten für die verschiedenen Zustände von xi enthält. Interpretation: Nachricht vom Faktor a zur Variable i über die relativen Wahrscheinlichkeiten, dass i in den verschiedenen Zuständen ist, gegeben fa . ni→a (xi ) von Variable i zu Faktor a: Interpretation: Nachricht über die relative Wahrscheinlichkeit, dass i in den verschiedenen Zuständen ist, gegeben alle Informationen die i besitzt, außer jene von fa . university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 22 / 38 Belief Propagation: Message Update Rules ma→i (xi ) := X fa (xa ) xa \xi Y nj→a (xj ) ni→a (xi ) := j∈N(a)\i Y mc→i (xi ) c∈N(i)\a N(i) \ a = Alle Nachbarknoten von i ausgenommen a P xa \xi = Summe über alle Variablen xa ausgenommen xi university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 23 / 38 Belief Definition Belief bi (xi ) ∝ Y ma→i (xi ) a∈N(i) Belief ist die Bezeichnung für eine approximativ berechnete Wahrscheinlichkeit. university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 24 / 38 BP: Beispiel Y bi (xi ) ∝ ma→i (xi ) a∈N(i) ma→i (xi ) := X Y fa (xa ) xa \xi nj→a (xj ) j∈N(a)\i Y ni→a (xi ) := mc→i (xi ) c∈N(i)\a b1 (x1 ) ∝ ∝ mA→1 (x1 ) X fA (x1 , x2 )n2→A (x2 ) x2 ∝ X fA (x1 , x2 )mB→2 (x2 ) x2 X ∝ fA (x1 , x2 )fB (x2 , x3 , x4 )n3→B (x3 )n4→B (x4 ) x2 ,x3 ,x4 X ∝ fA (x1 , x2 )fB (x2 , x3 , x4 )mC→4 (x4 ) x2 ,x3 ,x4 X ∝ fA (x1 , x2 )fB (x2 , x3 , x4 )fC (x4 ) x2 ,x3 ,x4 university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 25 / 38 Generalized Belief Propagation (GBP) Berechnung der Gibbs Energie G enthält Summen über exponentiell viele Terme Annäherungen: Mean Field Approximation Bethe Method Regionen Basierte Approximationen university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 26 / 38 GBP: Funktionsprinzip Konstruktion eines Regionengraphen W = (V , E, L) und sei I die Menge aller Indizes eines Faktorgraphen. Knoten v ∈ V entspricht einer Region und ist gelabelt. Jeder Knoten besitzt das Label l(v ). Eine gerichtete Kante e ∈ E kann zwischen zwei Knoten vp und vc existieren, wenn l(vc ) ⊂ l(vp ). Berechnung der Energie für eine Region. Summierung der Energie der einzelnen Regionen. university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 27 / 38 Beispiel Regionengraph university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 28 / 38 Regionengraphen: Eigenschaften Probleme/Einschränkungen: Knoten, welche in mehreren Regionen vorkommen, dürfen nur ein Mal gezählt werden → Gewichtung (counting number). Die Konstruktion des Regionengraphen ist nicht eindeutig. Verschiedene Ergebnisse, mit verschiedenen Regionengraphen Durch geschickte Konstruktion, Einflussmöglichkeiten auf die Laufzeit und Genauigkeit der Approximation Weitere Forschungsergebnisse nötig, um genauere Aussagen über die Konstruktion von Regionengraphen machen zu können university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 29 / 38 GBP: Anwendung Kamisetty et al.: Free Energy Estimates of All-Atom Protein Structures Using Generalized Belief Propagation Modellierung von Proteinen mit probabilistischem Modell(MRF, Faktor Graph) Identifizierung von nativen Strukturen aus einer Menge von Decoys Berechnung von Energiedifferenzen(∆∆G) bei Mutationen im Protein university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 30 / 38 GBP Anwendung: Modellierung Modellierung der Proteine in einem paarweisen MRF: Sichtbare Variablen: Backbone Xb (stetig) Versteckte Variablen: Seitenketten Xs eingeteilt in Rotamere (diskret) Kanten zwischen Variablen deren Distanz kleiner als Threshold T ist. Potentialfunktionen: i j i j ψ(Xsq , Xsp ) = exp(−E(xsq , xsp )/kB T ) i i ψ(Xsp , Xbj ) = exp(−E(xsp , xbj )/kB T ) ψ(Xbi , Xbj ) = 1 university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 31 / 38 GBP Anwendung: Beispiel university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 32 / 38 GBP Anwendung: Beispiel university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 33 / 38 GBP Anwendung: Beispiel university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 34 / 38 Ergebnisse: Decoy Set 48 Datensätze (“Decoys R Us”) native Struktur war in 84% jene mit der höchsten Entropie S. university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 35 / 38 Ergebnisse: ∆∆G Approximation Energiedifferenz der nativen Struktur und verschiedenen in einer Aminosäure mutierten Strukturen keine Mutationen an Proteinoberfläche 1BNI R = 0.70 p = 1.5 ∗ 10−5 university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 36 / 38 Bemerkungen Kritikpunkte: kein flexibles Backbone spärliche Erklärung der verwendeten Energiefunktionen Ausblick: mit flexiblem Backbone, auch in de novo Strukturvorhersage einsetzbar (z.B. Side Chain Placing) university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 37 / 38 Referenzen K AMISETTY, H., X ING , E. P., AND L ANGMEAD, C. J. Free energy estimates of all-atom protein structures using generalized belief propagation. In Research in Computational Molecular Biology (2007), T. Speed and H. Huang, Eds., vol. 4453 of LNBI, Springer, pp. 366–380. S KOLNICK , J. In quest of an empirical potential for protein structure prediction. Curr Opin Struct Biol (March 2006). Z IMMER , R., W OHLER , M., AND T HIELE , R. New scoring schemes for protein fold recognition based on Voronoi contacts. Bioinformatics 14, 3 (1998), 295–308. university-logo Thomas Mair (LMU) Energiefunktionen 26.11.2007 38 / 38