Folien

Werbung
Free Energy Estimates of All-Atom Protein
Structures Using Generalized Belief Propagation
K AMISETTY, H., X ING , E. P., AND L ANGMEAD, C. J.
Thomas Mair
Ludwig-Maximilians-Universität
26.11.2007
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
1 / 38
Motivation
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
2 / 38
Energiefunktionen
Energiefunktionen werden verwendet bei Strukturvorhersage,
Faltungsklassifizierung, Proteindesign, Quality Checks,
Homologieuntersuchungen, Threading,. . .
Energiefunktionen können zur Erkennung der nativen Struktur
(native state, native structure) in einer Menge von Decoys benutzt
werden.
Berechnungen von ∆∆G bei Mutationen in Proteinen.
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
3 / 38
Decoy
Definition Decoy
Menge von Proteinstrukturen mit ähnlicher innerer Energie und häufig
ähnlicher Faltung.
university-logo
Quelle: Marco Berrera et al.
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
4 / 38
Freie Energie
Freie Energie = Energie in einem System welche in Arbeit
umgesetzt werden kann
Gibbs Energie = Thermodynamische Energie welche bei
konstanter Temperatur und konstantem Druck in Arbeit umgesetzt
werden kann
Enthalpie = “Wärmeinhalt” eines Systems
Entropie = Maß für die Unordnung eines Systems
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
5 / 38
Freie Energie
Freie Energie = Energie in einem System welche in Arbeit
umgesetzt werden kann
Gibbs Energie = Thermodynamische Energie welche bei
konstanter Temperatur und konstantem Druck in Arbeit umgesetzt
werden kann
Enthalpie = “Wärmeinhalt” eines Systems
Entropie = Maß für die Unordnung eines Systems
G = H − TS = (E + PV ) − TS
G = Gibbs Energie
H = Enthalpie
T = Temperatur
S = Entropie
Thomas Mair (LMU)
E = innere Energie
P = Druck
V = Volumen
university-logo
Energiefunktionen
26.11.2007
5 / 38
Gibbs Energie G
Thermodynamik: Änderungen von Freier Energie, Enthalpie . . .
∆G = (∆E + P∆V ) − T ∆S
Bei fast allen biochemischen Reaktionen ist ∆V klein ⇒
vernachlässigbar
Also gilt:
∆G ≈ ∆E − T ∆S
je stabiler der Zustand eines Systems, desto geringer ist die
Energie des Zustandes
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
6 / 38
Energiefunktionen G = E − TS
Innere Energiefunktionen E:
Modellieren inter- und intramolekulare Interaktionen (z.B.
elektrostatische I., van der Waals I., . . . )
Entropiefunktionen S:
Schwierigere Berechnung, enthalten Summen über exponentiell
viele Terme
S=−
N
X
p(si ) ln(p(si ))
i=1
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
7 / 38
Der Entropieteil S
Ansätze zur Berechnung:
Vernachlässigen
einfach
verfälscht die Lösung
aus Datenbanken(PDB) abschätzen (Potentials of Mean Force)
Potential enthält innere Energie E und Entropie S
Modellierung der Proteinstruktur als probabilistisches
Graphisches Modell mit Inferenzbasiertem Ansatz
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
8 / 38
Potentials of Mean Force Grundlagen
Grundlagen: Sippl 1990
Ableitung der Energie aus einer repräsentativen Menge von
Strukturen (Trainingsdatensatz)
Bestimmung der Häufigkeiten von Ereignissen (events) in der
Proteinstruktur
Bestimmung von Pseudoenergien ∆E für Ereignisse basierend
auf dem inversen Boltzmanngesetz
Summe über die entsprechenden Energien aller Ereignisse ⇒
“Gesamtenergie”
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
9 / 38
Boltzmanngesetz
Definition Boltzmann Gesetz
Ein bestimmter Zustand x eines physikalischen Systems wird mit der
Wahrscheinlichkeit
1
E(x)
p(x) = exp −
Z
kB T
eingenommen.
Bolzmannkonstante: kB = 1.3806504 · 10−23
E(x) Energie des Zustandes x
Temperatur: T
P − E(x)
Z = x e kB T
Inverses Boltzmanngesetz:
E(x) = −kB T ln(p(x)) − kB T ln(Z )
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
10 / 38
Ereignisse und Bestimmung der Häufigkeiten
Ereignisse Λ: meist Paare von Aminosäuren, welche in der
Proteinstruktur “Interagieren”
z.B. Paare von Aminosäuren in bestimmten sequentiellen und
räumlichen Abständen
Approximation der Wahrscheinlichkeit für ein bestimmtes Ereignis
e ∈ Λ für zwei bestimmte Aminosäuren a und b:
gab (e)
0
e0 ∈Λ gab (e )
pab (e) = P
gab Anzahl der Ereignisse e zwischen Aminosäuren a und b
Boltzmann Gesetz ⇒ Eab (e) = −kB T ln(pab (e)) − kB T ln(Zab )
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
11 / 38
Pseudoenergien
Pseudoenergie für ein Ereignis e:
∆Eab (e) = Eab (e) − Ê(e) = −kB T ln
Annahme: Zab ≈ Z ⇒ −kB T ln
Zab
Z
pab (e)
p̂(e)
− kB T ln
Zab
Z
≈0
Präferenz für Ereignis e:
XX
g(e)
,
mit
g(e)
=
gab (e)
0
e0 ∈Λ g(e )
a
p̂(e) = P
b
Bestimmung der Gesamtenergie einer Sequenz S gegeben eine
Konformation C:
∆E(S, C) =
X
∆Eab (e)
e∈Λ,a,b∈S
Thomas Mair (LMU)
Energiefunktionen
university-logo
26.11.2007
12 / 38
Beispiel Potentials of Mean Force
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
13 / 38
Probabilistische Graphische Modelle
Vorteile:
Einfache Darstellung der Struktur eines probabilistischen Modells.
Struktur des Graphen ermöglicht es Eigenschaften des Modells
zu erkennen.
Komplexe Berechnungen können als Graphenoperationen
durchgeführt werden.
Variablen meist als Knoten/Kreise dargestellt, Abhängigkeiten als
Kanten
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
14 / 38
Probabilistische Graphische Modelle
Vorteile:
Einfache Darstellung der Struktur eines probabilistischen Modells.
Struktur des Graphen ermöglicht es Eigenschaften des Modells
zu erkennen.
Komplexe Berechnungen können als Graphenoperationen
durchgeführt werden.
Variablen meist als Knoten/Kreise dargestellt, Abhängigkeiten als
Kanten
Modelle:
Bayessches Netz
Paarweise Markov Random Field(MRF)
Faktor Graph
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
14 / 38
Bayessches Netz
Gerichteter Graph
Knoten V : Zufallsvariablen
Kanten E: bedingten Abhängigkeiten der ZV
Bedingte Wahrscheinlichkeit eines Knoten i: p(xi |Par (xi ))
gemeinsame Wahrscheinlichkeitsfunktion: p(x) =
|V
Q|
p(xi |Par (xi ))
i=1
Verwendung: Expertensysteme in Bioinformatik, Medizin,
Musteranalyse und Ingenieurswesen
Par (xi ) = Eltern eines Knoten
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
15 / 38
Beispiel Bayessches Netz
p(x) =
|V |
Y
p(xi |Par (xi ))
i=1
p(x) = p(x1 )p(x2 )p(x3 )p(x4 |x1 , x2 , x3 )p(x5 |x1 , x3 )p(x6 |x4 )p(x7 |x4 , x5 )
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
16 / 38
Markov Random Field
Ungerichteter Graph
Knoten: Zufallsvariablen
Kanten: Abhängigkeiten der ZV
Potentialfunktionen ψk für jede maximale Clique C
gemeinsame Wahrscheinlichkeitsfunktion: p(x) =
1
Z
Q
ψC (xC )
C
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
17 / 38
Beispiel MRF
p(x) =
=
1
Z
Q
ψC (xC )
C
1
Z ψ1 (x1 , x2 , x3 )ψ2 (x3 , x4 )ψ3 (x1 , x4 )
Z =
X
ψ1 (x1 , x2 , x3 )ψ2 (x3 , x4 )ψ3 (x1 , x4 )
x1 ,x2 ,x3 ,x4
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
18 / 38
Faktor Graph
X , F -Bipartiter Graph
Verschiedene Arten von Knoten: Variablen X , Faktoren F
Jeder Faktor f ist eine Funktion der mit dem Faktor verbunden
Variablen X
Q
gemeinsame Wahrscheinlichkeitsfunktion: p(x) = Z1 fa (xa )
a
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
19 / 38
Beispiel Faktor Graph
Wahrscheinlichkeitsfunktion:
p(X ) = Z1 fA (x1 , x2 )fB (x2 , x3 , x4 )fC (x4 )
Z =
X
fA (x1 , x2 )fB (x2 , x3 , x4 )fC (x4 )
x1 ,x2 ,x3 ,x4
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
20 / 38
Belief Propagation (BP)
Berechnungen von Randwahrscheinlichkeiten ist algorithmisch
schwierig (Summe exponentiell vieler Terme).
Inferenzberechnungen werden in vielen verschiedenen
Situationen benötigt (Fehlerkorrigierende Codes,
Bilderkennung,. . . )
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
21 / 38
Belief Propagation (BP)
Berechnungen von Randwahrscheinlichkeiten ist algorithmisch
schwierig (Summe exponentiell vieler Terme).
Inferenzberechnungen werden in vielen verschiedenen
Situationen benötigt (Fehlerkorrigierende Codes,
Bilderkennung,. . . )
BP-Algorithmus berechnet die Randwahrscheinlichkeiten in
probabilistischen graphischen Modellen
BP ist ein sogenannter message passing Algorithmus.
Ergebnisse sind exakt, wenn der Graph keine Zyklen besitzt.
BP hat eine lineare Laufzeit in der Anzahl der Kanten, wenn der
Graph keine Zyklen besitzt.
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
21 / 38
Belief Propagation im Faktor Graphen: Definition
Definition Nachrichten zwischen Knoten
ma→i (xi ) von Faktor a zu Variable i:
Vektor der die Wahrscheinlichkeiten für die verschiedenen
Zustände von xi enthält.
Interpretation: Nachricht vom Faktor a zur Variable i über die
relativen Wahrscheinlichkeiten, dass i in den verschiedenen
Zuständen ist, gegeben fa .
ni→a (xi ) von Variable i zu Faktor a:
Interpretation: Nachricht über die relative Wahrscheinlichkeit, dass i
in den verschiedenen Zuständen ist, gegeben alle Informationen
die i besitzt, außer jene von fa .
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
22 / 38
Belief Propagation: Message Update Rules
ma→i (xi ) :=
X
fa (xa )
xa \xi
Y
nj→a (xj )
ni→a (xi ) :=
j∈N(a)\i
Y
mc→i (xi )
c∈N(i)\a
N(i) \ a = Alle Nachbarknoten von i ausgenommen a
P
xa \xi = Summe über alle Variablen xa ausgenommen xi
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
23 / 38
Belief
Definition Belief
bi (xi ) ∝
Y
ma→i (xi )
a∈N(i)
Belief ist die Bezeichnung für eine approximativ berechnete
Wahrscheinlichkeit.
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
24 / 38
BP: Beispiel
Y
bi (xi ) ∝
ma→i (xi )
a∈N(i)
ma→i (xi ) :=
X
Y
fa (xa )
xa \xi
nj→a (xj )
j∈N(a)\i
Y
ni→a (xi ) :=
mc→i (xi )
c∈N(i)\a
b1 (x1 ) ∝
∝
mA→1 (x1 )
X
fA (x1 , x2 )n2→A (x2 )
x2
∝
X
fA (x1 , x2 )mB→2 (x2 )
x2
X
∝
fA (x1 , x2 )fB (x2 , x3 , x4 )n3→B (x3 )n4→B (x4 )
x2 ,x3 ,x4
X
∝
fA (x1 , x2 )fB (x2 , x3 , x4 )mC→4 (x4 )
x2 ,x3 ,x4
X
∝
fA (x1 , x2 )fB (x2 , x3 , x4 )fC (x4 )
x2 ,x3 ,x4
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
25 / 38
Generalized Belief Propagation (GBP)
Berechnung der Gibbs Energie G enthält Summen über exponentiell
viele Terme
Annäherungen:
Mean Field Approximation
Bethe Method
Regionen Basierte Approximationen
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
26 / 38
GBP: Funktionsprinzip
Konstruktion eines Regionengraphen
W = (V , E, L) und sei I die Menge aller Indizes eines
Faktorgraphen.
Knoten v ∈ V entspricht einer Region und ist gelabelt.
Jeder Knoten besitzt das Label l(v ).
Eine gerichtete Kante e ∈ E kann zwischen zwei Knoten vp und vc
existieren, wenn l(vc ) ⊂ l(vp ).
Berechnung der Energie für eine Region.
Summierung der Energie der einzelnen Regionen.
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
27 / 38
Beispiel Regionengraph
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
28 / 38
Regionengraphen: Eigenschaften
Probleme/Einschränkungen:
Knoten, welche in mehreren Regionen vorkommen, dürfen nur ein
Mal gezählt werden → Gewichtung (counting number).
Die Konstruktion des Regionengraphen ist nicht eindeutig.
Verschiedene Ergebnisse, mit verschiedenen Regionengraphen
Durch geschickte Konstruktion, Einflussmöglichkeiten auf die
Laufzeit und Genauigkeit der Approximation
Weitere Forschungsergebnisse nötig, um genauere Aussagen
über die Konstruktion von Regionengraphen machen zu können
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
29 / 38
GBP: Anwendung
Kamisetty et al.: Free Energy Estimates of All-Atom Protein Structures
Using Generalized Belief Propagation
Modellierung von Proteinen mit probabilistischem Modell(MRF,
Faktor Graph)
Identifizierung von nativen Strukturen aus einer Menge von
Decoys
Berechnung von Energiedifferenzen(∆∆G) bei Mutationen im
Protein
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
30 / 38
GBP Anwendung: Modellierung
Modellierung der Proteine in einem paarweisen MRF:
Sichtbare Variablen: Backbone Xb (stetig)
Versteckte Variablen: Seitenketten Xs eingeteilt in Rotamere
(diskret)
Kanten zwischen Variablen deren Distanz kleiner als Threshold T
ist.
Potentialfunktionen:
i
j
i
j
ψ(Xsq , Xsp ) = exp(−E(xsq , xsp )/kB T )
i
i
ψ(Xsp , Xbj ) = exp(−E(xsp , xbj )/kB T )
ψ(Xbi , Xbj ) = 1
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
31 / 38
GBP Anwendung: Beispiel
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
32 / 38
GBP Anwendung: Beispiel
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
33 / 38
GBP Anwendung: Beispiel
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
34 / 38
Ergebnisse: Decoy Set
48 Datensätze (“Decoys R Us”)
native Struktur war in 84% jene mit
der höchsten Entropie S.
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
35 / 38
Ergebnisse: ∆∆G Approximation
Energiedifferenz der nativen
Struktur und verschiedenen in einer
Aminosäure mutierten Strukturen
keine Mutationen an
Proteinoberfläche
1BNI
R = 0.70 p = 1.5 ∗ 10−5
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
36 / 38
Bemerkungen
Kritikpunkte:
kein flexibles Backbone
spärliche Erklärung der verwendeten Energiefunktionen
Ausblick:
mit flexiblem Backbone, auch in de novo Strukturvorhersage
einsetzbar (z.B. Side Chain Placing)
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
37 / 38
Referenzen
K AMISETTY, H., X ING , E. P., AND L ANGMEAD, C. J.
Free energy estimates of all-atom protein structures using
generalized belief propagation.
In Research in Computational Molecular Biology (2007), T. Speed
and H. Huang, Eds., vol. 4453 of LNBI, Springer, pp. 366–380.
S KOLNICK , J.
In quest of an empirical potential for protein structure prediction.
Curr Opin Struct Biol (March 2006).
Z IMMER , R., W OHLER , M., AND T HIELE , R.
New scoring schemes for protein fold recognition based on
Voronoi contacts.
Bioinformatics 14, 3 (1998), 295–308.
university-logo
Thomas Mair (LMU)
Energiefunktionen
26.11.2007
38 / 38
Herunterladen