Chapter 5: Modeling of Protein Structures 01/2011 Structure Modeling 1 Strukturvorhersage Sekundärstruktur Tertiärstruktur Quartärstruktur φ Anfinsen: 1) Struktur ist durch Sequenz eindeutig bestimmt. 2) Native Konformation eines Proteins entspricht dem globalen Minimum der freien Energie. ω O R O H H N N H N H O ψ H R ~7 Konformationen/AS N AS -> 01/2011 7N Konformationen Levinthal-Paradoxon: Eine Polypepdtidkette hat nicht die Zeit, alle möglichen Konformationen durchzuprobieren. Structure Modeling 2 Vorhersage der Sekundärstruktur 3 Zustände: Helix (H) Extended (E, β-Strang) Coil (C) 01/2011 Structure Modeling 3 Künstliche Neuronale Netze 01/2011 Structure Modeling Eingang: Sequenz Ausgang: H, E, C 4 Künstliche Neuronale Netze Bestimmung der Gewichte wi “Lernen” an bekannten Strukturen 01/2011 1 /(1 + e − x ) Structure Modeling 5 Künstliche Neuronale Netze (Vorhersage der Sekundärstruktur) 01/2011 Structure Modeling 6 Bestimmung der Sekundärstruktur aus 3D-Koordinaten • visuell • Hauptkettentorsionswinkel • Wasserstoffbrücken • Vergleich mit ‚idealen‘ Struktur-Motiven • Länge der Strukturelemente • Programme: DSSP STRIDE DEFINE 01/2011 Structure Modeling 7 Sekundärstrukturvorhersage PSIpred: http://www.psipred.net PHDpsi: http://cubic.bioc.columbia.edu/predictprotein/ PROFsec: http://cubic.bioc.columbia.edu/predictprotein/ EVA-Resultate Nprot Q3 PSIpred 1098 77.7 PHDpsi 1284 74.5 PROFsec 1239 76.7 01/2011 Structure Modeling 8 Tertiärstrukturvorhersage (Rosetta) • Aufbau einer Struktur aus kurzen Fragmenten (9 AS-Reste) • Konformationssuche (Monte Carlo) • Lösungsmittel-Zugänglichkeit hydrophober Reste wird geprüft • momentan die beste ‚ab initio‘ Methode rms = 01/2011 Structure Modeling ∑d 2 i n 9 Fold Recognition (Threading) http://scop.mrc-lmb.cam.ac.uk/scop/) 34494 PDB-Einträge (Nov. 2007) 97178 Domänen 1086 Faltungstypen Struktur stärker konserviert als Sequenz Suche nach Faltungstyp, der mit der Sequenz kompatibel ist. GenThreader: http://bioinf.cs.ucl.ac.uk/psipred/ 01/2011 Structure Modeling 10 Energiekomponenten: Paarwechselwirkungen Aminosäuretyp Sequenzabstand (k) Solvatisierung • “Energie” aus Abstandsverteilung • Mittelwert über alle Arten der Wechselwirkung (potential of mean force) • Vorteil: weitgehend Modell-unabhängig • Nachteil: Größe der Stichprobe 01/2011 Structure Modeling 11 Comparative Modeling (Homology Modeling) • erfordert hohe Sequenzidentität (mindestens 30%) • liefert die besten Ergebnisse • extrem abhängig von der Güte des Sequenz-Alignments • Kernbereich oft gut definiert, Loops problematisch SwissModel: http://www.expasy.ch/swissmod/SWISS-MODEL.html Modeller: http://www.salilab.org/modeller/ Yasara-Model 01/2011 Structure Modeling 12 Modeller Sequenz-Struktur-Alignment geometrische Restraints (Abstände, Torsionswinkel,...) Moleküldynamik-Simulation (Simulated Annealing) 01/2011 Structure Modeling The SWISS-MODEL Repository is a database of annotated three-dimensional comparative protein structure models generated by the fully automated homology-modelling pipeline SWISSMODEL. The repository is developed at the Biozentrum Basel within the Swiss Institute of Bioinformatics. http://swissmodel.expasy. org/repository/ http://salilab.org/modbase 01/2011 13 MODBASE is a queryable database of annotated protein structure models. The models are derived by ModPipe, an automated modeling pipeline relying on the programs PSI-BLAST and MODELLER. Structure Modeling 14 01/2011 Structure Modeling 15 Protein-Ligand Wechselwirkungen ΔGbind = RT ⋅ ln K d 01/2011 Structure Modeling 16 Docking • Bestimmung des Bindungsmodus eines Liganden • Reihung verschiedener Liganden nach der Bindungsstärke • „virtual screening“ Anforderungen (Probleme): • Beweglichkeit des Liganden • Beweglichkeit des Rezeptors • Bewertungsfunktion: Solvations- / Desolvationseffekte (Entropie) Geometrie bzw. Stärke von H-Brücken • effizienter Such- bzw. Optimierungsalgorithmus 01/2011 Structure Modeling 17 • Rezeptor starr • Ligand flexibel (6+N Freiheitsgrade) • Bewertungsfunktion: vdW-Interaktionen (intra- und intermolekular) H-Brücken elektrostatische WW Skalierung Æfreie Energie • “Energie” für jeden Atomtyp (C,N,O,…) wird an Gitterpunkten berechnet, Gesamtenergie = Summe der Atombeiträge • Monte-Carlo Simulated Annealing • Genetischer Algorithmus 01/2011 Structure Modeling 18 ⎛ Aij Bij ⎞ ΔG = ΔGvdW ⋅ ∑ ⎜ 12 − 6 ⎟ ⎜ rij ⎟⎠ i , j ⎝ rij ⎛ Cij Dij ⎞ ⎜ + ΔGhbond ⋅ ∑ E (θ ) ⋅ 12 − 10 + Ehbond ⎟ ⎜r ⎟ rij i, j ⎝ ij ⎠ qi q j + ΔGelec ⋅ ∑ i , j ε ( rij ) ⋅ rij + ΔGtor ⋅ N tor + ΔGsol ⋅ ∑ SiV j ⋅ e van-der-Waals Term Wasserstoffbrücken elektrostatische WW Entropie (frei drehbare Bindungen) (− rij2 2σ 2 ) Desolvatisierung iC , j Anpassung der Parameter an 30 Komplexstrukturen mit bekannter Bindungsenergie. 01/2011 Structure Modeling 19 01/2011 Structure Modeling 20 Monte-Carlo-Simulated-Annealing • stochastische Methode • Startzustand: bestimmte Position, Orientierung und Konformation des Liganden • zufällige Auswahl und Veränderung eines Strukturparameters • Eneu < Ealt: neuer Zustand wird akzeptiert • Eneu > Ealt: Zufallszahl zwischen 0 und 1 wird generiert, neuer Zustand wird akzeptiert, wenn rand (0,1) < e − ( Eneu − Ealt ) / kT 01/2011 Structure Modeling 21 Monte-Carlo-Simulated-Annealing • Schritte in Richtung höherer Energie sind möglich, Überwindung von Energiebarrieren • Annealing: Start der Optimierung bei hoher “Temperatur”, langsames Abkühlen ΔE 1 hohe Temp. niedrige Temp. e − ( Eneu − Ealt ) / kT 0 0 01/2011 30 Energie Structure Modeling 22 01/2011 Structure Modeling 23 Genetische Algorithmen • Population aus N Individuen • Reihung nach “Fitness” • neue Generation: einfache Weitergabe der “Erbinformation” Punktmutationen Cross-over Optimierung • Abbruch nach einer bestimmten Anzahl von Generationen 01/2011 Structure Modeling 24 Genetischer Algorithmus (Beispiel) 3 Translationsfreiheitsgrade 3 Rotationsfreiheitsgrade 2 Torsionswinkel TX TY TZ RX RY RZ τ1 τ2 TX TY TZ Anfangspopulation: 7 Individuen (Chromosomen) mit zufällig gewählten Parametern RXo RYo RZo τ1o τ2o C1 -3.2 -1.6 4.5 C2 2.8 C3 -8.7 2.9 C4 -2.2 -2.9 -3.6 27 280 141 312 216 C5 5.8 4.1 4.9 19 25 26 341 18 C6 0.3 -2.7 5.6 14 81 27 155 75 C7 4.4 -0.3 -0.2 12 46 22 26 1.3 01/2011 130 126 228 131 114 -4.6 97 3.1 231 149 126 144 143 261 12 83 29 98 Structure Modeling 4-25 Genetischer Algorithmus (Beispiel) Jedes Individuum der Population wird bewertet Crossover: 2 Individuen werden zufällig ausgewählt 01/2011 τ2o TY TZ RX o RYo RZo τ1o C1 -3.2 -1.6 4.5 130 126 228 131 114 0.42 C2 2.8 1.3 -4.6 97 231 149 126 144 0.65 C3 -8.7 2.9 3.1 261 12 83 C4 -2.2 -2.9 -3.6 27 280 141 312 216 0.04 C5 5.8 4.1 4.9 19 25 26 341 18 0.32 C6 0.3 -2.7 5.6 14 81 27 155 75 0.78 C7 4.4 -0.3 -0.2 12 46 22 26 98 0.61 TX 143 Structure Modeling 29 Score 0.77 4-26 Genetischer Algorithmus (Beispiel) Crossover C2 2.8 1.3 -4.6 97 231 149 126 144 0.65 C3 -8.7 2.9 3.1 261 12 83 29 0.77 C8 -8.7 1.3 -4.6 97 261 12 83 144 01/2011 143 Structure Modeling 4-27 Genetischer Algorithmus (Beispiel) Mutation 01/2011 C2 2.8 0.3 -4.6 107 221 149 126 134 C9 2.8 0.9 -4.6 120 32 126 62 149 Structure Modeling 0.65 4-28 Genetischer Algorithmus (Beispiel) Bewertung der neuen Individuen „Tod“ der Individuen mit der geringsten Fitness τ2o TY TZ RX o RYo RZo τ1o C1 -3.2 -1.6 4.5 130 126 228 131 114 0.42 C2 2.8 1.3 -4.6 97 231 149 126 144 0.65 C3 -8.7 2.9 3.1 261 12 83 C4 -2.2 -2.9 -3.6 27 280 141 312 216 0.04 C5 5.8 4.1 4.9 19 25 26 341 18 0.32 C6 0.3 -2.7 5.6 14 81 27 155 75 0.78 C7 4.4 -0.3 -0.2 12 46 22 26 98 0.61 C8 -8.7 1.3 -4.6 97 261 12 83 144 0.83 C9 2.8 0.9 -4.6 120 32 126 62 TX 01/2011 143 149 Structure Modeling 29 Score 0.77 0.56 4-29 Modifizierter Genetischer Algorithmus Klassisch: Genotyp Æ Phenotyp J.-P. Lamarck: Phenotyp Æ Genotyp (lokale Suche, Optimierung des Phenotyps) Lamarckian genetic algorithm (LGA) 01/2011 Structure Modeling 30 de novo Design Protein Aufbau Molekül-Fragmente verbinden Vorteile: neue Moleküle schnell Nachteile: kombinatorische Explosion Reihung der Liganden Synthese der Liganden 01/2011 Structure Modeling 31 Ludi • Ligand wird in der Bindungstasche aus kleinen, sinnvoll ausgewählten Untereinheiten aufgebaut • Energiefunktion ähnlich FlexX • Versuche, alle WW abzusättigen 01/2011 Structure Modeling 32 Koordinatensysteme (numerische Darstellung der geometrischen Struktur) • Kristallkoordinaten: a, b, c, α, β, γ (fractional coordinates) • Kartesische Koordinaten: a=b=c=Einheitsvektor; α=β=γ=90° (x1,y1,z1,...,xN,yN,zN) • Interne Koordinaten: Bindungslängen, -winkel, Torsions- oder Diederwinkel (r, α, τ): Z-Matrix • Abstände (Distanzgeometrie) • spezielle Koordinatensysteme (Ringpuckering) 01/2011 Structure Modeling 33 Geometrieoptimierung - Auffinden einer energetisch günstigen Struktur ∂E =0 ∂qi • Suche nach dem Minimum der Energie als Funktion der Koordinaten (Energiehyperfläche) ∂2E >0 2 ∂qi • Art der Energiefunktion (Zielfunktion) • unterschiedliche Methoden der Optimierung 01/2011 Structure Modeling 34 Bestimmung der Suchrichtung • Suchmethoden (nur f(x)): • Gradientenmethoden (f(x), g(x) = f´(x)): – steepest descent: sehr robust, in der Nähe von Minima ineffizient – Methode der konjugierten Gradienten: Information aus vorangegangenem Schritt mitverarbeitet • Newton-Raphson Methoden (f(x), g(x), h(x) = f´´(x)): in Nähe des Minimums sehr effizient, sehr rechenaufwändig • Quasi-Newton-Methoden (f(x), g(x)) Hesse-Matrix (h(x)) wird graduell im Verlauf der Optimierung aufgebaut, am häufigsten verwendet 01/2011 Structure Modeling 35 Art der Energiefunktion • Kraftfeld (molecular mechanics, empirical force fields) klassische Mechanik • quantenchemische Verfahren – ab initio (HF) – semiempirische (AM1, PM3) – Dichtefunktionaltheorie 01/2011 Structure Modeling 36 Kraftfeldmethoden • Moleküle aus Atomen aufgebaut • Atome = harte Kugeln • zwischen gewissen Atomen bestehen „Bindungen“, die „natürliche“ Längen und Winkeln besitzen (Gleichgewichtslagen) Das Vorhandensein eines solchen „Bindungsnetzwerkes“ ist integraler Bestandteil der Kraftfeldverfahren. Bei quantenchemischen Rechnungen muss dieses in das Ergebnis hineininterpretiert werden! • Auslenkung aus der Gleichgewichtslage bewirkt rücktreibende Kräfte, die mit Hilfe der klassischen Mechanik (Hooke‘sches Gesetz) beschrieben werden können 01/2011 Structure Modeling 37 Kraftfeldmethoden • Molekül nimmt eine geometrische Anordnung der Atome an, sodass diese „Spannungsenergie“ minimal wird • Kraftfeld: Satz von Gleichungen, die die potentielle Energie des Moleküls als Funktion der Geometrie (Atompositionen) beschreiben • Reihe von Atomtypen zur Beschreibung der charakteristischen Eigenschaften eines Elements in einer bestimmten chemischen Umgebung • Satz von Parametern 01/2011 Structure Modeling 38 Allgemeine Form eines Kraftfeldes U= Torsionswinkel (4 Atome) Non-bonded (Paar-WW) 1 2 K b (b − b0 ) ∑ all bonds 2 + 1 2 Kθ (θ − θ 0 ) all angles 2 + ∑ Kφ [1 − cos(nφ )] ∑ all torsions Winkel (3 Atome) 6 ⎡⎛ R ⎞12 ⎤ ⎛ ⎞ R ij ij + ∑ ε ij ⎢⎜ ⎟ − 2⎜ ⎟ ⎥ ⎜r ⎟ ⎥ ⎢⎜⎝ rij ⎟⎠ i , j nonbonded ⎝ ij ⎠ ⎦ ⎣ Bindungen (2 Atome) ∑ + i , j nonbonded 01/2011 qi q j 4πε 0εrij Structure Modeling 39 Atomtypen – das Periodensystem der Kraftfelder ν~ ∝ f μ CH3-OH : ν~ = 1070 -1150 cm-1, r0 ~ 1.43 Å: C(sp3) - O(sp3) C=C-OH: ν~ = 1275-1200 cm-1, r0 ~ 1.36 Å: C(sp2) - O(sp3) C=O: ν~ = 1710 cm-1, r0 ~ 1.22 Å: C(sp2) - O(sp2) Quantenmechanik: Ordnungszahl Kraftfeld: nicht nur chemisches Element sondern auch chemische Umgebung 01/2011 Structure Modeling 40 Tripos-Kraftfeld (Sybyl) C.3 carbon sp3 C.2 carbon sp2 C.1 carbon sp C.ar carbon aromatic P.3 phosphorous sp3 H hydrogen N.3 nitrogen sp3 N.2 nitrogen sp2 N.1 nitrogen sp N.ar nitrogen aromatic N.am nitrogen amide N.pl3 nitrogen trigonal planar N.4 positively charged nitrogen sp3 Si F Cl fluorine O.3 oxygen sp3 H.spc hydrogen in Single Point Charge silicon Br chlorine O.2 oxygen sp2 LP lone pair bromine I iodine O.co2 oxygen in carboxylate (phosphate) O.spc oxygen in Single Point Charge (SPC) O.t3p oxygen in Transferable Intermolecular Potential (TIP3P) water model Li lithium S.3 sulfur sp3 01/2011 Na sodium K potassium Ca calcium Al S.O2 sulfone sulfur S.2 sulfur sp2 aluminum S.O sulfoxide sulfur Structure Modeling 41 Parametrisierung • Bestimmung der Parameter eines Kraftfeldes (Bindungslängen,- winkel, Bindungsstärke, Kraftkonstanten,…) • als regelmäßige BenutzerIn ist eine zusätzliche Parametrisierung kaum vermeidbar (z.B. Liganden) • Anpassung an Gasphasenstrukturen: gute ab initio Rechnungen • Anpassung an Kristallstrukturen, v. a. geeignet für Bindungslängen und -winkel (Deformation durch Gitterkräfte < 0.003 Å bzw 10), Torsionswinkel können u. U. erheblich deformiert sein • Anpassung an IR-Spektren (Kraftkonstanten) 01/2011 Structure Modeling 42 Gängige Kraftfelder • Tripos (Sybyl): organische Moleküle (pharmazeutische Wirkstoffe) • MM3 (MM4): organische Moleküle, sehr genau • AMBER: Proteine, Nucleinsäuren • GROMOS (GROMACS): Proteine • Biosym (CVFF, CFFxx): organische Moleküle, Biopolymere • UFF (universal force field): gesamtes Periodensystem • CHARMM: Proteine, Nucleinsäuren • OPLS: Simulation von Flüssigkeiten • MMFF94: Merck (Protein - Ligand Wechselwirkungen) 01/2011 Structure Modeling 43 Moleküldynamik 01/2011 Structure Modeling 44 Moleküldynamik • Zeitliche Entwicklung eines Systems von Teilchen (Atome), auf die bestimmte Kräfte wirken z.B.: klassisches Kraftfeld (Bindungs- und Winkeldeformation, vdW-Wechselwirkung, Elektrostatik) • Newton’sche Bewegungsgleichungen: F = m ⋅a d2 r dt2 dV (r ) − dr • Differentialgleichungen: im allgemeinen Fall nicht exakt lösbar • Näherung: Differentialgleichung -> Differenzengleichung (Reihenentwicklung) 01/2011 Structure Modeling 45 Moleküldynamik • Verlet-Algorithmus: Taylor-Reihe, Abbruch nach 3. Glied 1 1 r (t + Δt ) = r (t ) + v (t ) ⋅ Δt + a(t ) ⋅ (Δt ) 2 + b(t ) ⋅ (Δt ) 3 2 6 1 1 r (t − Δt ) = r (t ) − v (t ) ⋅ Δt + a(t ) ⋅ (Δt ) 2 − b(t ) ⋅ (Δt ) 3 2 6 r (t + Δt ) + r (t − Δt ) = 2r (t ) + a(t ) ⋅ (Δt ) 2 r (t + Δt ) = [2r (t ) − r (t − Δt )] + a(t ) ⋅ (Δt ) 2 - + • einfach zu implementieren • Speicherbedarf: benötigt nur r(t-Δt), r(t) und a(t) 01/2011 • numerische Probleme • keine expliziten Geschwindigkeiten (kinetische Energie, T-Kontrolle) • Anfangsbedingungen Structure Modeling 46 Moleküldynamik • Anfangsbedingungen: t=0 r (Δt ) = [2r (0) − r (t − Δt )] + a(0) ⋅ (Δt ) 2 r (t − Δt ) = r (0) − v (0) ⋅ (Δt ) • Wahl der Anfangsgeschwindigkeiten v(0): mv 2 Maxwell-Boltzmann Verteilung niedrige Temp. p(v) − x m p (v x ) = ⋅ e 2 kT 2πkT hohe Temp. v 01/2011 Structure Modeling 47 Moleküldynamik •Zeitschritt Δt: so groß, wie möglich (Länge der Simulation) so klein, wie nötig (stabile und realistische Simulation) 01/2011 Structure Modeling 48 Beispiele für Anwendungen Konformationsanalyse Simulated Annealing • Geometrieoptimierung • Kristallographie • NMR 01/2011 Structure Modeling 49 Berechnung thermodynamischer Größen • Phasenraum: N Teilchen -> 6N-dimensionaler Raum Ortskoordinaten ri=(xi,yi,zi) Impulse pi=mi*(vxi,vyi,vzi) • MD-Simulation generiert “Stichproben” -> Berechnung des Erwartungswertes thermodynamischer Größen • mechanische Größen: innere Energie (U), Wärmekapazität, Druck • thermische (entropische) Größen: freie Energie, Entropie • thermische Größen sind nur schlecht berechenbar 01/2011 Structure Modeling 50