Chapter 5: Modeling of Protein Structures Strukturvorhersage

Werbung
Chapter 5: Modeling of Protein
Structures
01/2011
Structure Modeling
1
Strukturvorhersage
Sekundärstruktur
Tertiärstruktur
Quartärstruktur
φ
Anfinsen:
1) Struktur ist durch Sequenz
eindeutig bestimmt.
2) Native Konformation eines Proteins
entspricht dem globalen Minimum
der freien Energie.
ω
O
R
O
H
H
N
N
H
N
H
O
ψ
H
R
~7 Konformationen/AS
N AS ->
01/2011
7N
Konformationen
Levinthal-Paradoxon: Eine Polypepdtidkette
hat nicht die Zeit, alle möglichen
Konformationen durchzuprobieren.
Structure Modeling
2
Vorhersage der Sekundärstruktur
3 Zustände: Helix (H)
Extended (E, β-Strang)
Coil (C)
01/2011
Structure Modeling
3
Künstliche Neuronale Netze
01/2011
Structure Modeling
Eingang: Sequenz
Ausgang: H, E, C
4
Künstliche Neuronale Netze
Bestimmung der Gewichte wi
“Lernen” an bekannten
Strukturen
01/2011
1 /(1 + e − x )
Structure Modeling
5
Künstliche Neuronale Netze
(Vorhersage der Sekundärstruktur)
01/2011
Structure Modeling
6
Bestimmung der Sekundärstruktur
aus 3D-Koordinaten
• visuell
• Hauptkettentorsionswinkel
• Wasserstoffbrücken
• Vergleich mit ‚idealen‘
Struktur-Motiven
• Länge der Strukturelemente
• Programme:
DSSP
STRIDE
DEFINE
01/2011
Structure Modeling
7
Sekundärstrukturvorhersage
PSIpred: http://www.psipred.net
PHDpsi: http://cubic.bioc.columbia.edu/predictprotein/
PROFsec: http://cubic.bioc.columbia.edu/predictprotein/
EVA-Resultate
Nprot
Q3
PSIpred
1098 77.7
PHDpsi
1284 74.5
PROFsec
1239 76.7
01/2011
Structure Modeling
8
Tertiärstrukturvorhersage (Rosetta)
• Aufbau einer Struktur aus kurzen Fragmenten (9 AS-Reste)
• Konformationssuche (Monte Carlo)
• Lösungsmittel-Zugänglichkeit hydrophober Reste wird geprüft
• momentan die beste ‚ab initio‘ Methode
rms =
01/2011
Structure Modeling
∑d
2
i
n
9
Fold Recognition (Threading)
http://scop.mrc-lmb.cam.ac.uk/scop/)
34494 PDB-Einträge (Nov. 2007)
97178 Domänen
1086 Faltungstypen
Struktur stärker konserviert
als Sequenz
Suche nach Faltungstyp, der
mit der Sequenz kompatibel ist.
GenThreader: http://bioinf.cs.ucl.ac.uk/psipred/
01/2011
Structure Modeling
10
Energiekomponenten:
Paarwechselwirkungen
Aminosäuretyp
Sequenzabstand (k)
Solvatisierung
• “Energie” aus
Abstandsverteilung
• Mittelwert über alle Arten
der Wechselwirkung
(potential of mean force)
• Vorteil: weitgehend
Modell-unabhängig
• Nachteil: Größe der
Stichprobe
01/2011
Structure Modeling
11
Comparative Modeling
(Homology Modeling)
• erfordert hohe Sequenzidentität (mindestens 30%)
• liefert die besten Ergebnisse
• extrem abhängig von der Güte des Sequenz-Alignments
• Kernbereich oft gut definiert, Loops problematisch
SwissModel: http://www.expasy.ch/swissmod/SWISS-MODEL.html
Modeller:
http://www.salilab.org/modeller/
Yasara-Model
01/2011
Structure Modeling
12
Modeller
Sequenz-Struktur-Alignment
geometrische Restraints
(Abstände, Torsionswinkel,...)
Moleküldynamik-Simulation
(Simulated Annealing)
01/2011
Structure Modeling
The SWISS-MODEL Repository is a database of
annotated three-dimensional comparative protein
structure models generated by the fully
automated homology-modelling pipeline SWISSMODEL. The repository is developed at the
Biozentrum Basel within the Swiss Institute of
Bioinformatics.
http://swissmodel.expasy.
org/repository/
http://salilab.org/modbase
01/2011
13
MODBASE is a queryable database of annotated
protein structure models. The models are derived by
ModPipe, an automated modeling pipeline relying on
the programs PSI-BLAST and MODELLER.
Structure Modeling
14
01/2011
Structure Modeling
15
Protein-Ligand Wechselwirkungen
ΔGbind = RT ⋅ ln K d
01/2011
Structure Modeling
16
Docking
• Bestimmung des Bindungsmodus eines Liganden
• Reihung verschiedener Liganden nach der Bindungsstärke
• „virtual screening“
Anforderungen (Probleme):
• Beweglichkeit des Liganden
• Beweglichkeit des Rezeptors
• Bewertungsfunktion:
Solvations- / Desolvationseffekte (Entropie)
Geometrie bzw. Stärke von H-Brücken
• effizienter Such- bzw. Optimierungsalgorithmus
01/2011
Structure Modeling
17
• Rezeptor starr
• Ligand flexibel (6+N Freiheitsgrade)
• Bewertungsfunktion:
vdW-Interaktionen (intra- und
intermolekular)
H-Brücken
elektrostatische WW
Skalierung Æfreie Energie
• “Energie” für jeden Atomtyp (C,N,O,…)
wird an Gitterpunkten berechnet,
Gesamtenergie = Summe der
Atombeiträge
• Monte-Carlo Simulated Annealing
• Genetischer Algorithmus
01/2011
Structure Modeling
18
⎛ Aij Bij ⎞
ΔG = ΔGvdW ⋅ ∑ ⎜ 12 − 6 ⎟
⎜
rij ⎟⎠
i , j ⎝ rij
⎛ Cij Dij
⎞
⎜
+ ΔGhbond ⋅ ∑ E (θ ) ⋅ 12 − 10 + Ehbond ⎟
⎜r
⎟
rij
i, j
⎝ ij
⎠
qi q j
+ ΔGelec ⋅ ∑
i , j ε ( rij ) ⋅ rij
+ ΔGtor ⋅ N tor
+ ΔGsol ⋅ ∑ SiV j ⋅ e
van-der-Waals Term
Wasserstoffbrücken
elektrostatische WW
Entropie (frei drehbare Bindungen)
(−
rij2
2σ 2
)
Desolvatisierung
iC , j
Anpassung der Parameter an 30 Komplexstrukturen mit
bekannter Bindungsenergie.
01/2011
Structure Modeling
19
01/2011
Structure Modeling
20
Monte-Carlo-Simulated-Annealing
• stochastische Methode
• Startzustand: bestimmte Position, Orientierung und Konformation
des Liganden
• zufällige Auswahl und Veränderung eines Strukturparameters
• Eneu < Ealt: neuer Zustand wird akzeptiert
• Eneu > Ealt: Zufallszahl zwischen 0 und 1 wird generiert, neuer
Zustand wird akzeptiert, wenn
rand (0,1) < e − ( Eneu − Ealt ) / kT
01/2011
Structure Modeling
21
Monte-Carlo-Simulated-Annealing
• Schritte in Richtung höherer Energie sind möglich, Überwindung
von Energiebarrieren
• Annealing: Start der Optimierung bei hoher “Temperatur”,
langsames Abkühlen
ΔE
1
hohe Temp.
niedrige Temp.
e − ( Eneu − Ealt ) / kT
0
0
01/2011
30
Energie
Structure Modeling
22
01/2011
Structure Modeling
23
Genetische Algorithmen
• Population aus N Individuen
• Reihung nach “Fitness”
• neue Generation:
einfache Weitergabe der
“Erbinformation”
Punktmutationen
Cross-over
Optimierung
• Abbruch nach einer bestimmten
Anzahl von Generationen
01/2011
Structure Modeling
24
Genetischer Algorithmus (Beispiel)
3 Translationsfreiheitsgrade
3 Rotationsfreiheitsgrade
2 Torsionswinkel
TX TY TZ RX RY RZ τ1 τ2
TX
TY
TZ
Anfangspopulation: 7
Individuen (Chromosomen)
mit zufällig gewählten
Parametern
RXo RYo RZo τ1o
τ2o
C1
-3.2 -1.6 4.5
C2
2.8
C3
-8.7 2.9
C4
-2.2 -2.9 -3.6 27
280 141 312 216
C5
5.8
4.1
4.9
19
25
26
341 18
C6
0.3
-2.7 5.6
14
81
27
155 75
C7
4.4
-0.3 -0.2 12
46
22
26
1.3
01/2011
130 126 228 131 114
-4.6 97
3.1
231 149 126 144
143 261 12
83
29
98
Structure Modeling
4-25
Genetischer Algorithmus (Beispiel)
Jedes Individuum der Population wird bewertet
Crossover: 2 Individuen werden zufällig ausgewählt
01/2011
τ2o
TY
TZ
RX o
RYo RZo
τ1o
C1 -3.2
-1.6
4.5
130
126 228
131 114
0.42
C2 2.8
1.3
-4.6 97
231 149
126 144
0.65
C3 -8.7
2.9
3.1
261 12
83
C4 -2.2
-2.9
-3.6 27
280 141
312 216
0.04
C5 5.8
4.1
4.9
19
25
26
341 18
0.32
C6 0.3
-2.7
5.6
14
81
27
155 75
0.78
C7 4.4
-0.3
-0.2 12
46
22
26
98
0.61
TX
143
Structure Modeling
29
Score
0.77
4-26
Genetischer Algorithmus (Beispiel)
Crossover
C2 2.8
1.3
-4.6 97
231 149
126 144
0.65
C3 -8.7
2.9
3.1
261 12
83
29
0.77
C8 -8.7
1.3
-4.6 97
261 12
83
144
01/2011
143
Structure Modeling
4-27
Genetischer Algorithmus (Beispiel)
Mutation
01/2011
C2 2.8
0.3
-4.6 107
221 149
126 134
C9 2.8
0.9
-4.6 120
32
126 62
149
Structure Modeling
0.65
4-28
Genetischer Algorithmus (Beispiel)
Bewertung der neuen Individuen
„Tod“ der Individuen mit der geringsten Fitness
τ2o
TY
TZ
RX o
RYo RZo
τ1o
C1 -3.2
-1.6
4.5
130
126 228
131 114
0.42
C2 2.8
1.3
-4.6 97
231 149
126 144
0.65
C3 -8.7
2.9
3.1
261 12
83
C4 -2.2
-2.9
-3.6 27
280 141
312 216
0.04
C5 5.8
4.1
4.9
19
25
26
341 18
0.32
C6 0.3
-2.7
5.6
14
81
27
155 75
0.78
C7 4.4
-0.3
-0.2 12
46
22
26
98
0.61
C8 -8.7
1.3
-4.6 97
261 12
83
144
0.83
C9 2.8
0.9
-4.6 120
32
126 62
TX
01/2011
143
149
Structure Modeling
29
Score
0.77
0.56
4-29
Modifizierter Genetischer Algorithmus
Klassisch:
Genotyp Æ Phenotyp
J.-P. Lamarck:
Phenotyp Æ Genotyp
(lokale Suche,
Optimierung des
Phenotyps)
Lamarckian genetic
algorithm (LGA)
01/2011
Structure Modeling
30
de novo Design
Protein
Aufbau
Molekül-Fragmente
verbinden
Vorteile:
neue Moleküle
schnell
Nachteile:
kombinatorische Explosion
Reihung der Liganden
Synthese der Liganden
01/2011
Structure Modeling
31
Ludi
• Ligand wird in der Bindungstasche aus kleinen, sinnvoll ausgewählten
Untereinheiten aufgebaut
• Energiefunktion ähnlich FlexX
• Versuche, alle WW abzusättigen
01/2011
Structure Modeling
32
Koordinatensysteme
(numerische Darstellung der
geometrischen Struktur)
• Kristallkoordinaten: a, b, c, α, β, γ
(fractional coordinates)
• Kartesische Koordinaten: a=b=c=Einheitsvektor;
α=β=γ=90° (x1,y1,z1,...,xN,yN,zN)
• Interne Koordinaten: Bindungslängen, -winkel,
Torsions- oder Diederwinkel (r, α, τ): Z-Matrix
• Abstände (Distanzgeometrie)
• spezielle Koordinatensysteme (Ringpuckering)
01/2011
Structure Modeling
33
Geometrieoptimierung - Auffinden
einer energetisch günstigen
Struktur
∂E
=0
∂qi
• Suche nach dem Minimum der
Energie als Funktion der
Koordinaten
(Energiehyperfläche)
∂2E
>0
2
∂qi
• Art der Energiefunktion
(Zielfunktion)
• unterschiedliche Methoden der
Optimierung
01/2011
Structure Modeling
34
Bestimmung der Suchrichtung
• Suchmethoden (nur f(x)):
• Gradientenmethoden (f(x), g(x) = f´(x)):
– steepest descent: sehr robust, in der Nähe von Minima
ineffizient
– Methode der konjugierten Gradienten: Information aus
vorangegangenem Schritt mitverarbeitet
• Newton-Raphson Methoden (f(x), g(x), h(x) = f´´(x)):
in Nähe des Minimums sehr effizient, sehr rechenaufwändig
• Quasi-Newton-Methoden (f(x), g(x))
Hesse-Matrix (h(x)) wird graduell im Verlauf der Optimierung
aufgebaut, am häufigsten verwendet
01/2011
Structure Modeling
35
Art der Energiefunktion
• Kraftfeld (molecular mechanics, empirical
force fields)
klassische Mechanik
• quantenchemische Verfahren
– ab initio (HF)
– semiempirische (AM1, PM3)
– Dichtefunktionaltheorie
01/2011
Structure Modeling
36
Kraftfeldmethoden
• Moleküle aus Atomen aufgebaut
• Atome = harte Kugeln
• zwischen gewissen Atomen bestehen „Bindungen“, die „natürliche“
Längen und Winkeln besitzen (Gleichgewichtslagen)
Das Vorhandensein eines solchen „Bindungsnetzwerkes“ ist
integraler Bestandteil der Kraftfeldverfahren. Bei quantenchemischen Rechnungen muss dieses in das Ergebnis
hineininterpretiert werden!
• Auslenkung aus der Gleichgewichtslage bewirkt rücktreibende
Kräfte, die mit Hilfe der klassischen Mechanik (Hooke‘sches
Gesetz) beschrieben werden können
01/2011
Structure Modeling
37
Kraftfeldmethoden
• Molekül nimmt eine geometrische Anordnung der Atome an,
sodass diese „Spannungsenergie“ minimal wird
• Kraftfeld: Satz von Gleichungen, die die potentielle Energie des
Moleküls als Funktion der Geometrie (Atompositionen)
beschreiben
• Reihe von Atomtypen zur Beschreibung der charakteristischen
Eigenschaften eines Elements in einer bestimmten chemischen
Umgebung
• Satz von Parametern
01/2011
Structure Modeling
38
Allgemeine Form
eines Kraftfeldes
U=
Torsionswinkel
(4 Atome)
Non-bonded
(Paar-WW)
1
2
K b (b − b0 )
∑
all bonds 2
+
1
2
Kθ (θ − θ 0 )
all angles 2
+
∑ Kφ [1 − cos(nφ )]
∑
all torsions
Winkel
(3 Atome)
6
⎡⎛ R ⎞12
⎤
⎛
⎞
R
ij
ij
+ ∑ ε ij ⎢⎜ ⎟ − 2⎜ ⎟ ⎥
⎜r ⎟ ⎥
⎢⎜⎝ rij ⎟⎠
i , j nonbonded
⎝ ij ⎠ ⎦
⎣
Bindungen
(2 Atome)
∑
+
i , j nonbonded
01/2011
qi q j
4πε 0εrij
Structure Modeling
39
Atomtypen – das Periodensystem
der Kraftfelder
ν~ ∝
f
μ
CH3-OH : ν~ = 1070 -1150 cm-1, r0 ~ 1.43 Å: C(sp3) - O(sp3)
C=C-OH: ν~ = 1275-1200 cm-1, r0 ~ 1.36 Å: C(sp2) - O(sp3)
C=O:
ν~ = 1710 cm-1, r0 ~ 1.22 Å:
C(sp2) - O(sp2)
Quantenmechanik: Ordnungszahl
Kraftfeld: nicht nur chemisches Element sondern
auch chemische Umgebung
01/2011
Structure Modeling
40
Tripos-Kraftfeld (Sybyl)
C.3 carbon sp3
C.2 carbon sp2
C.1 carbon sp C.ar carbon aromatic
P.3 phosphorous sp3
H hydrogen
N.3 nitrogen sp3
N.2 nitrogen sp2
N.1 nitrogen sp
N.ar nitrogen aromatic
N.am nitrogen amide
N.pl3 nitrogen trigonal planar
N.4 positively charged nitrogen sp3 Si
F
Cl
fluorine
O.3 oxygen sp3
H.spc hydrogen in Single Point Charge
silicon
Br
chlorine
O.2 oxygen sp2
LP
lone pair
bromine I
iodine
O.co2 oxygen in carboxylate (phosphate)
O.spc
oxygen in Single Point Charge (SPC)
O.t3p
oxygen in Transferable Intermolecular Potential (TIP3P) water model
Li
lithium
S.3 sulfur sp3
01/2011
Na sodium
K
potassium Ca
calcium Al
S.O2 sulfone sulfur S.2 sulfur sp2
aluminum
S.O sulfoxide sulfur
Structure Modeling
41
Parametrisierung
• Bestimmung der Parameter eines Kraftfeldes
(Bindungslängen,- winkel, Bindungsstärke,
Kraftkonstanten,…)
• als regelmäßige BenutzerIn ist eine zusätzliche
Parametrisierung kaum vermeidbar (z.B. Liganden)
• Anpassung an Gasphasenstrukturen: gute ab initio
Rechnungen
• Anpassung an Kristallstrukturen, v. a. geeignet für
Bindungslängen und -winkel (Deformation durch
Gitterkräfte < 0.003 Å bzw 10), Torsionswinkel
können u. U. erheblich deformiert sein
• Anpassung an IR-Spektren (Kraftkonstanten)
01/2011
Structure Modeling
42
Gängige Kraftfelder
• Tripos (Sybyl): organische Moleküle (pharmazeutische
Wirkstoffe)
• MM3 (MM4): organische Moleküle, sehr genau
• AMBER: Proteine, Nucleinsäuren
• GROMOS (GROMACS): Proteine
• Biosym (CVFF, CFFxx): organische Moleküle, Biopolymere
• UFF (universal force field): gesamtes Periodensystem
• CHARMM: Proteine, Nucleinsäuren
• OPLS: Simulation von Flüssigkeiten
• MMFF94: Merck (Protein - Ligand Wechselwirkungen)
01/2011
Structure Modeling
43
Moleküldynamik
01/2011
Structure Modeling
44
Moleküldynamik
• Zeitliche Entwicklung eines Systems von Teilchen (Atome),
auf die bestimmte Kräfte wirken
z.B.: klassisches Kraftfeld (Bindungs- und
Winkeldeformation, vdW-Wechselwirkung, Elektrostatik)
• Newton’sche Bewegungsgleichungen:
F = m ⋅a
d2 r
dt2
dV (r )
−
dr
• Differentialgleichungen: im allgemeinen Fall nicht exakt lösbar
• Näherung: Differentialgleichung -> Differenzengleichung
(Reihenentwicklung)
01/2011
Structure Modeling
45
Moleküldynamik
• Verlet-Algorithmus: Taylor-Reihe, Abbruch nach 3. Glied
1
1
r (t + Δt ) = r (t ) + v (t ) ⋅ Δt + a(t ) ⋅ (Δt ) 2 + b(t ) ⋅ (Δt ) 3
2
6
1
1
r (t − Δt ) = r (t ) − v (t ) ⋅ Δt + a(t ) ⋅ (Δt ) 2 − b(t ) ⋅ (Δt ) 3
2
6
r (t + Δt ) + r (t − Δt ) = 2r (t )
+ a(t ) ⋅ (Δt ) 2
r (t + Δt ) = [2r (t ) − r (t − Δt )] + a(t ) ⋅ (Δt ) 2
-
+
• einfach zu implementieren
• Speicherbedarf:
benötigt nur r(t-Δt), r(t) und a(t)
01/2011
• numerische Probleme
• keine expliziten Geschwindigkeiten
(kinetische Energie, T-Kontrolle)
• Anfangsbedingungen
Structure Modeling
46
Moleküldynamik
• Anfangsbedingungen: t=0
r (Δt ) = [2r (0) − r (t − Δt )] + a(0) ⋅ (Δt ) 2
r (t − Δt ) = r (0) − v (0) ⋅ (Δt )
• Wahl der Anfangsgeschwindigkeiten v(0):
mv 2
Maxwell-Boltzmann
Verteilung
niedrige Temp.
p(v)
− x
m
p (v x ) =
⋅ e 2 kT
2πkT
hohe Temp.
v
01/2011
Structure Modeling
47
Moleküldynamik
•Zeitschritt Δt:
so groß, wie möglich (Länge der Simulation)
so klein, wie nötig (stabile und realistische
Simulation)
01/2011
Structure Modeling
48
Beispiele für Anwendungen
Konformationsanalyse
Simulated Annealing
• Geometrieoptimierung
• Kristallographie
• NMR
01/2011
Structure Modeling
49
Berechnung thermodynamischer
Größen
• Phasenraum: N Teilchen -> 6N-dimensionaler Raum
Ortskoordinaten
ri=(xi,yi,zi)
Impulse
pi=mi*(vxi,vyi,vzi)
• MD-Simulation generiert “Stichproben”
-> Berechnung des Erwartungswertes thermodynamischer Größen
• mechanische Größen:
innere Energie (U), Wärmekapazität, Druck
• thermische (entropische) Größen:
freie Energie, Entropie
• thermische Größen sind nur schlecht berechenbar
01/2011
Structure Modeling
50
Herunterladen