Modellierung der freien Solvatisierungsenthalpie und Anwendung als Scoringfunktion Diplomarbeit an der Humboldt Universität zu Berlin Institut für Biophysik und am Konrad Zuse Institut Berlin Abteilung für Numerik Timm Baumeister geboren 15.1.1977 in Arnsberg (Westf.) 27. April 2004 Betreuer ZIB: Dr. Frank Cordes Betreuer HUB: Prof. Reinhart Heinrich Zusammenfassung Als zusätzliche Komponente zur Berechnung der intermolekularen Wechselwirkungsenergie mit dem MMFF94 Kraftfeld wurde eine neue und zeiteffiziente Methode zur Quantifizierung von Solvatisierungseffekten entwickelt. Das Modell wurde mittels experimenteller Daten von über 200 kleinen und überwiegend organischen Molekülen entwickelt und parametrisiert. Durch Anwendung des Modells auf Protein-Ligand Komplexe mit bekannten Bindungsaffinitäten wurde gezeigt, dass sich die so berechnete Wechselwirkungsenergie als Scoringfunktion für Dockingalgorithmen eignet. Modellierung der freien Solvatisierungsenthalpie Inhaltsverzeichnis 1 Einleitung 3 2 Grundlegende Konzepte 2.1 Molekulares Docking . . . . . . . . . . . . . . . . . 2.2 Globale Suche . . . . . . . . . . . . . . . . . . . . . 2.3 Scoring . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Thermodynamik der Bindung . . . . . . . . 2.3.2 Anteile . . . . . . . . . . . . . . . . . . . . . 2.3.3 Ansätze des Scorings . . . . . . . . . . . . . 2.3.4 Rough Scoring . . . . . . . . . . . . . . . . . 2.3.5 Wissensbasierte Scoringfunktion . . . . . . . 2.3.6 Methoden mit additiven freien Enthalpien . 2.4 Merck Molecular Force Field (MMFF94) . . . . . . 2.5 Berechnung der freien Bindungsenthalpie in Lösung 2.6 Molekulare Oberfläche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Freie Solvatisierungsenthalpie - Physikalischer Hintergrund 3.1 Strukturelle Eigenschaften von Wasser . . . . . . . . . . . . . . 3.2 Komponenten der freien Solvatisierungsenthalpie . . . . . . . . . 3.2.1 Elektrostatische Komponente . . . . . . . . . . . . . . . 3.2.2 Entropische Komponente . . . . . . . . . . . . . . . . . . 3.2.3 Van der Waals Komponente . . . . . . . . . . . . . . . . 3.2.4 Wasserstoff Brücken . . . . . . . . . . . . . . . . . . . . 3.2.5 Andere Beiträge . . . . . . . . . . . . . . . . . . . . . . . 3.3 Experimentelle Bestimmung von freien Solvatisierungsenthalpien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 7 7 8 8 9 10 11 13 15 16 . . . . . . . . 17 17 18 19 19 21 21 22 23 4 Freie Solvatisierungsenthalpie - Eine Einführung in die Modellierung 24 4.1 Explizite und implizite Modelle . . . . . . . . . . . . . . . . . . . . 24 4.2 Statistische Grundlagen für die Parametrisierung impliziter Modelle 25 5 Modelle für FSS Beiträge 28 5.1 Oberflächenspannungen und Hydrophobizitätsparameter . . . . . . 28 5.2 Atomic Solvation Parameters (ASP) . . . . . . . . . . . . . . . . . . 30 5.3 Van der Waals und H-Brücken Wechselwirkungen . . . . . . . . . . 31 6 Modelle für die elektrostatische Komponente 6.1 Born und Onsager Modell . . . . . . . . . . . 6.2 Generalisiertes Born Modell . . . . . . . . . . 6.3 Lösung der Poisson Gleichung . . . . . . . . . 6.4 Elektrostatik an der molekularen Grenzfläche 6.4.1 Feld auf der Grenzfläche . . . . . . . . 6.4.2 Bestimmung der Sigma . . . . . . . . . INHALTSVERZEICHNIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 33 34 35 36 36 36 1 Modellierung der freien Solvatisierungsenthalpie 6.5 6.6 6.4.3 Energie des Reaktionsfeldes . . . . . . . . . . . . 6.4.4 Summe der Oberflächenladungen . . . . . . . . . 6.4.5 Spezialfall Kugel . . . . . . . . . . . . . . . . . . Boundary Element Methode . . . . . . . . . . . . . . . . 6.5.1 Herleitung . . . . . . . . . . . . . . . . . . . . . . 6.5.2 Lösung des Gleichungssystems . . . . . . . . . . . 6.5.3 Vergleich mit theoretischen Ergebnissen . . . . . . 6.5.4 Triangulierung, Genauigkeit und Zeitabhängigkeit 6.5.5 Zusammenfassung von Dreiecken zu Patches . . . 6.5.6 Molekülparametrisierung . . . . . . . . . . . . . . ZIB Polarization Charge Modell . . . . . . . . . . . . . . 7 Anwendung auf kleine Moleküle 7.1 Ergebnisse mit ASP . . . . . . . . . . . . . . . . . . . . . 7.1.1 Oons . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Neue Parametrisierung . . . . . . . . . . . . . . . 7.2 Ergebnisse der BE Methode . . . . . . . . . . . . . . . . 7.3 Ergebnisse mit ZIBPCM . . . . . . . . . . . . . . . . . . 7.4 Entwicklung eines kombinierten Modells . . . . . . . . . 7.4.1 Modellierung des elektrostatischen Anteils . . . . 7.4.2 Modellierung des entropischen und vdW-Anteils 7.4.3 Modellierung der H-Brücken Wechselwirkung . . 7.4.4 Optimierung der Radien . . . . . . . . . . . . . . 7.4.5 Reduktion der Atomtypenzahl . . . . . . . . . . . 7.4.6 Parametrisierung des Modells . . . . . . . . . . . 7.4.7 Cholesterol als Anwendungsbeispiel . . . . . . . . 7.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . 8 Solvatisierungsmodell als Scoringfunktion 8.1 Berechnung der MMFF Wechselwirkung . 8.1.1 Konzepte . . . . . . . . . . . . . . 8.1.2 Energieminimierung der Komplexe 8.1.3 Ergebnisse der Minimierung . . . . 8.2 Weitere Nichtsolvatisierungsbeiträge . . . . 8.3 Einbeziehung des Solvatisierungsmodells . 8.3.1 Konzept . . . . . . . . . . . . . . . 8.3.2 Ergebnisse . . . . . . . . . . . . . . 8.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 39 39 40 40 41 42 44 45 47 48 . . . . . . . . . . . . . . 50 50 50 51 53 55 57 57 57 59 60 62 63 64 66 . . . . . . . . . 67 67 67 68 72 74 75 75 75 77 9 Ausblick 78 A Berechnete Daten der kleinen Moleküle 79 B Berechnete Daten der Protein-Ligand Komplexe 86 INHALTSVERZEICHNIS 2 Modellierung der freien Solvatisierungsenthalpie 1 Einleitung Solvatisierung und Desolvatisierung von Biomolekülen spielen eine Schlüsselrolle bei vielen biologischen Prozessen. Lipid-Doppelschichten sowie Protein-Protein und Protein-Ligand Komplexe werden wesentlich dadurch stabilisiert, dass Bereiche der Grenzflächen der Moleküle von dem sie umgebenen Wasser befreit werden. Bei der Proteinfaltung ist die Umorientierung von hydrophoben Gruppen in das Innere des Proteins die treibende thermodynamische Kraft [1],[2]. Das Problem der effizienten Modellierung von Solvatisierungseffekten hat insbesondere im Zuge der Disease zunehmenden Anwendung algorithmischer Methoden in der pharmazeutischen Forschung an BedeuTarget tung gewonnen. Abbildung 1 zeigt die Teilschritte Identification des Wirkstoffdesigns. Zunächst muss zu einer Krankheit eine damit in Beziehung stehende TargetstrukProtein tur identifiziert werden. Im klassischen Wirkstoffdesign wird dieses Protein synthetisiert und die InhiNMR/ bition durch verschiedene Liganden in experimentel- Crystalography Rational len biochemischen (in vitro) Studien ermittelt. ObDrug Design 3Dwohl diese Methode in den vergangenen JahrzehnStructure ten mit dem sogenannten High Throughput ScreeMolecular ning [3] einen hohen Automatisierungsgrad erreicht Lead Search Docking hat, bleibt insbesondere die Führung von umfangreichen Ligandendatenbanken mit hunderttausenden Lead Refinement Structure von chemischen Komponenten kostspielig. Das moderne Wirkstoffdesign beinhaltet deshalb einen weiteren Teilschritt, das sogenannte “Rational Drug De- In Vitro Testing sign”. Hierfür muss zunächst eine 3D-Struktur des Targetproteins vorliegen. Die Strukturaufklärung erDrugCandidate folgt experimentell mit Hilfe der Röntgenstrukturananlyse oder NMR-Spektroskopie oder durch theore- In Vivo Testing/ tische Verfahren, die Proteinstrukturen anhand der Clinical Studies Aminosäuresequenz vorhersagen [4]. Durch die MoDrug dellierung der Bindung von Targetmolekül und Ligand (Docking) lässt sich nun eine erste Auswahl möglicher Inhibitoren (Lead Structures) finden um Abbildung 1: Teilschritte die teuren in vitro Studien auf aussichtsreiche Wirkdes Drug Designs stoffmoleküle zu beschränken. Die überprüften Inhibitoren können entweder aus einer Liganddatenbank stammen (Virtual Screening) oder aus Fragmenten neu zusammengesetzt werden (de novo drug design). Ist eine Lead Struktur gefunden erfolgt ein Refinement der Struktur mit der Zielsetzung die Bindungsaffinitäten zu erhöhen und pharmacokinetische Eigenschaften (wie die Halbwertszeit oder die Qualität der Absorption) zu verbessern. Zentraler Teil der Suche nach einer Lead Struktur sind Docking AlgoEinleitung 3 Modellierung der freien Solvatisierungsenthalpie rithmen. Docking Algorithmen erzeugen eine große Zahl von Konformationen des Komplexes um die minimale freie Bindungsenthalpie auf der hochdimensionalen Energiehyperfläche zu finden. Das entscheidende Problem hierbei ist die Beurteilung der Wechselwirkung zwischen Protein und Ligand für eine einzelne Konformation (Scoring). Eine Vielzahl von empirischen Methoden wurde zu diesem Zwecke entwickelt [5]. Diese reichen von sehr einfachen und schnellen Methoden, die Rankings erstellen bis hin zu detaillierten und aufwendigen Berechnungen der freien Bindungsenthalpie. In der molekularen Modellierung ist es üblich die Bindungsenergien in physikalisch sinnvolle Komponenten aufzuteilen, welche sich dann getrennt voneinander berechnen lassen: ∆Gbinding = ∆Ginter−molecular + ∆Gsolvation + ∆Gcomplexation Kraftfelder [6] können dazu verwendet werden um intermolekulare Wechselwirkungen wie Coulomb, van der Waals und Wasserstoffbrücken Interaktionen zu berechnen. Kraftfelder beinhalten einfache physikalische Interaktionsmodelle die anhand von experimentellen Daten oder quantenchemischen Rechnungen parametrisiert werden. Diese Parametrisierungen sind allerdings nur für die Berechnung der Wechselwirkungen im Vakuum geeignet und berücksichtigen nicht zusätzliche Solvatisierungsbeiträge. Als Teil eines am ZIB entwickelten Dockingalgorithmus benutzen wir das MMFF94 Kraftfeld [7] um intermolekulare Protein-Ligand Wechselwirkungen zu berechnen. Diese Studie beschreibt die Entwicklung eines Modells das zusätzlich die Solvatisierungskomponente berücksichtigt, wobei hierfür die Partialladungen der Kraftfeldparametrisierung benutzt werden. In Kapitel 2 werden wir einige, zum Verständnis der Studie benötigte, grundlegende Konzepte wie Docking, Scoring und molekulare Oberflächen genauer einführen. Kapitel 3 beschreibt die einzelnen physikalischen Prozesse, die an der Solvatisierung beteiligt sind. Die folgenden Kapitel 4-6 geben einen Überblick über einige häufig verwendete Methoden zur Modellierung der freien Solvatisierungsenthalpie In Kapitel 7 werden wir einige dieser Methoden auf einen Testdatensatz von kleinen und größtenteils organischen Molekülen anwenden und durch Analyse der Ergebnisse ein neues kombiniertes Modell entwickeln. Dieses Modell wird in Kapitel 8 als Teil einer Scoringfunktion auf einige Protein-Ligand Komplexe angewendet. Einleitung 4 Modellierung der freien Solvatisierungsenthalpie 2 2.1 Grundlegende Konzepte Molekulares Docking Molekulares Docking kann als der Prozess definiert werden zwei Moleküle so zusammenzufügen, dass die freie Bindungsenthalpie minimiert wird. In Abhängigkeit von den beteiligten Molekültypen kann sich diese Idee stark in ihren Implementationen unterscheiden. Die kritischen Parameter sind hierbei der beabsichtigte Datendurchsatz, die Größe der betrachteten Moleküle und die erlaubte Flexibilität. Protein-Ligand Docking ist ein geometrisches Kombinationsproblem wenn keine Flexibilität der beteiligten Moleküle erlaubt ist. Es bleiben 6 Freiheitsgrade der Translation und Rotation um den Liganden im aktiven Zentrum zu positionieren. Diese Methode wird vorwiegend von Dockingalgorithmen benutzt, die das Hauptaugenmerk auf einen hohen Durchsatz legen (fast virtual screening). Proteinflexibilität wird meist nur in Form von einer Modellierung der Rotation der Aminosäureseitenketten erlaubt, was Interaktionen wie Induced Fit, bei denen beide Bindungspartner signifikante Konformationsänderungen vornehmen, ausschließt. Docking eines einzelnen Liganden an ein starres Protein kann als eine Kombination von drei Teilalgorithmen betrachtet werden (siehe Abbildung 2): Der erste Schritt umfasst die Umwandlung der üblicherweise in Atomkoordinaten dargeMolecule Data stellten molekularen Geometrie in eine Representation die besser für Dockingalgorithmen geeignet ist. Initiale Berechnungen müssen durch- Initial Calculations geführt werden wie die Bestimmung der Boun- (Labelling atoms / creating grids...) ding Box um die Bindungsstelle, die Zuweisung von Partialladungen an die Atome, die Berechnung von Interaktionsgittern und die BestimGlobal search Scoring mung von flexiblen und starren Torsionswinkeln des Liganden. Im zweitem Schritt wird nach der LigandpoBest ligand sition und Konformation gesucht, die optimal conformation and in die Bindungstasche passt. Diese Suchpro- its Binding Energy zedur muss fortwährend neue Konformationen des Liganden generieren bis die Suche konver- Abbildung 2: Teilschritte des mogiert und ein Maximum der Bindungsaffinität lekularen Dockings bzw. ein Minimum der freien Bindungsenthalpie gefunden ist. Ein Maß für die Bindungsaffinität wird durch eine Scoringfunktion gegeben. Die Suchprozedur ruft für jede generierte Konformation die Scoringfunktion auf, um so ein Maß für die aktuelle Affinität zu berechnen und so die Konformation zu verwerfen oder die Suche von dieser Konformation aus fortzusetzen. Das Ergebnis dieser Prozeduren ist eine Liste der Geometrien der LigandkonforGrundlegende Konzepte 5 Modellierung der freien Solvatisierungsenthalpie mationen mit den höchsten Bindungsaffinitäten. Beispiele für Algorithmen, die Ligandflexibilität während der globalen Suche berücksichtigen sind FlexX [8] und Autodock [9]. FlexX zerlegt den Liganden in starre Fragmente und konstruiert aus ihnen iterativ den kompletten Liganden im aktiven Zentrum. Autodock sucht nach flexiblen Torsionswinkeln des Liganden und startet dann eine globale Konformationssuche bei der diese Dihedrale variiert werden. Im Unterschied dazu ist es das Ziel der am ZIB entwickelten Dockingmethode vorgenerierte Konformationen des Liganden zu docken. Dazu wird ein Ensemble sinnvoller Konformationen des Liganden durch eine auf Hybrid Monte Carlo Rechnungen basierenden Konformationsanalyse [10] vor dem Docking generiert. Die Idee dieser Methode ist, dass der Ligand in der Bindungstasche eine Konformation annehmen wird, die ähnlich zu einer seiner metastabilen Konformationen außerhalb des Proteins ist. Die zeitaufwendige Konformationssuche für jedes Target kann bei diesem Verfahren also durch eine Konformationsanalyse ersetzt werden, die für jeden Liganden einer Virtual Screening Datenbank nur einmal durchlaufen werden muss. 2.2 Globale Suche Die Suche nach einer optimalen Konformation des Liganden in der Bindungstasche ist eine globales Minimierungsproblem. Benötigt werden Algorithmen die in der Lage sind den hochdimensionalen Zustandsraum der Ligandposition und Konformation effektiv abzusuchen. Aufgrund der komplexen Topologie der Energiehyperfläche sind lokale Minimierungsprozeduren nur dann anwendbar, wenn der Bereich des globalen Minimums bereits eingegrenzt wurde. Eine Reihe von heuristischen Verfahren lässt sich auf dieses Problem anwenden. Das ihnen gemeine Muster ist in Abbildung 3 gezeigt. Initial Solutions Perturbation/ Recombination Scoring Acceptance of a definite number of solutions Solutions sufficiently good? Maximum number of runs? Final Solutions Abbildung 3: Ablauf der globalen Suche Der Algorithmus beginnt mit einer Menge von initialen Lösungen (wobei der Begriff Lösung einen bestimmten Wertevektor für die Zustandsvariablen des Dockings bezeichnet). Anfangslösungen können hierbei beliebige stereochemisch sinnvolle Ligandkonformationen in der Nähe des aktiven Zentrums sein. Die Lösungen werden Grundlegende Konzepte 6 Modellierung der freien Solvatisierungsenthalpie gestört oder miteinander rekombiniert. Die neu generierten Lösungen werden mit der Scoringfunktion bewertet und akzeptiert oder abgelehnt in Abhängigkeit eines der Suchmethoden eigenen Akzeptanzschemas. Die akzeptierten Lösungen werden zu den initialen Lösungen des nächsten Durchlaufs. Dieser Prozess wird wiederholt bis ein Abbruchskriterium erfüllt wird. Suchalgorithmen können demnach anhand ihres Störungs- und Akzeptanzschemas unterschieden werden. Ein Beispiel für einen globalen Optimierungsalgorithmus ist der Genetic Algorithm [11], der auf den Prinzipien von Rekombination, Mutation und Selektion beruht. Ein Gen bezeichnet eine Zustandsvariable. Ein Chromosom bzw. ein Individuum ist ein Vektor im Zustandsraum (Lösung). Eine Population ist eine Menge solcher Lösungen. Die initialen Lösungen werden durch Crossing Over miteinander rekombiniert. Hierfür werden, zwischen jeweils 2 Lösungen der Population, Bereiche des Zustandsvektors ausgetauscht und auf diese Weise mehrere neue Lösungen erzeugt. Die so erhaltenen Lösungen werden durch zufällige Mutationen einzelner Zustandsvariablen erneut verändert. Das Akzeptanzschema verwirft nun die Lösungen mit den schlechtesten Scorings um so wieder auf eine Populationsgröße zu kommen, die der Zahl der initialen Lösungen entspricht. Diese neue Population wird zur Ausgangspopulation der nächsten Iteration. Beschreibungen und Vergleiche von weiteren auf das Dockingproblem angewendeten Suchstrategien finden sich bei Westhead [12] und Rosin [13]. 2.3 2.3.1 Scoring Thermodynamik der Bindung Die Bindung eines Proteins P mit einem Liganden L zu einem Komplex geschieht überwiegend nichtkovalent wobei die beiden Bindungspartner während der Bindung ihre Konformation ändern können ka P + L P L Die Assoziationskonstante ka bzw. die dazu reziproke Dissoziationskonstante kd oder Inhibitionskonstante ki ergibt sich aus den Konzentrationen von Protein, Ligand und Komplex im thermodynamischen Gleichgewicht: ka = ki−1 = kd−1 = [P’L’] [P] [L] (2.1) Die freie Bindungsenthalpie lässt sich daraus über die Beziehung ∆Gbind = −RT · ln ka (2.2) berechnen. Anstelle der freien Bindungsenthalpie verwendet man auch den Begriff der Bindungsaffinität A, wobei A = −∆G ist. Die Änderung der freien Enthalpie hat einen enthalpischen und einen entropischen Anteil: (2.3) ∆Gbind = ∆H − T ∆S Grundlegende Konzepte 7 Modellierung der freien Solvatisierungsenthalpie Treibende Kraft der Bindung kann also eine Enthalpieabnahme, eine Entropiezunahme oder beides sein. 2.3.2 Anteile Als molekulare Ursachen von Entropie und Enthalpieveränderung bei der Bindung betrachtet man vier verschiedene Prozesse: 1. Intermolekulare Wechselwirkungen: Enthalpiezunahme durch Elektrostatische (Coulomb) und dispersive (van der Waals) Wechselwirkungen zwischen den Molekülen 2. Intramolekulare Energien: Enthalpieabnahme durch Änderungen in den internen Konformationsenergien von Ligand und Protein bei der Bindung 3. Solvatisierungsanteil: Entropiezunahme von Wasser durch Desolvatisierung der Bindungsflächen der Moleküle, sowie eine Enthalpieabnahme durch den Wegfall von Teilen der elektrostatischen und dispersiven Interaktionen zwischen den beteiligten Molekülen und dem Lösungsmittel. 4. Verringerung von Konformationsfreiheitsgraden: Entropieverlust durch die Komplexbildung und der Verminderung von Freiheitsgraden der Translation, Rotation und Vibration, sowie dem Einfrieren von Torsionswinkeln. Nach diesem Modell der Bindung setzt sich ∆Gbinding also wie folgt zusammen: ∆Gbinding = ∆Ginteraction + ∆Gconf ormation + ∆Gsolvent + ∆Gentropy 2.3.3 (2.4) Ansätze des Scorings Scoringfunktionen sind der zentrale Teil eines Dockingalgorithmus. Sie sind gleichzeitig entscheidend für die Qualität der Ergebnisse und der zeitbestimmende Anteil. Der Konflikt zwischen einer detaillierten Modellierung und einer hohen Geschwindigkeit ist der Grund dafür, dass eine Vielzahl von Methoden entwickelt wurden, die sich in der Gewichtung dieser beiden Faktoren unterscheiden. Sehr einfache Methoden (rough scoring) sind häufig eine Ansammlung von heuristischen Kriterien der Bindung wie z.B. einem Kontakt der Molekülgrenzflächen. Wissensbasierte Scoringfunktionen beschreiben radiale Verteilungen von Atompaaren. Die zeitaufwendigsten Methoden benutzen Energiefunktionen in Form von empirischen oder semiempirischen Kraftfeldern bis hin zu quantenchemischen Ansätzen. In vielen Dockingalgorithmen werden mehrere Methoden miteinander kombiniert. Dies kann auf mehreren Wegen implementiert werden: Im fast virtual Screening werden häufig sehr schnelle Methoden wie QSAR benutzt um eine Vorauswahl von Liganden zu finden. Nur diese Liganden werden dann mit Hilfe einer globalen Konformationssuche gedockt. Ein anderer Weg ist die hierarchische Abfolge Grundlegende Konzepte 8 Modellierung der freien Solvatisierungsenthalpie von zunehmend detaillierteren Scoringmethoden innerhalb der Konformationssuche. Beim Consensus-Scoring [14],[15],[16] wird eine Konformation mit mehreren Methoden zugleich bewertet. Hierfür wird für jede Funktion ein Schwellenwert des Scoringwertes definiert und für jeden Liganden gezählt bei wie vielen Funktionen der Schwellenwert überschritten wird. Diese Vorgehen ist sinnvoll, da einzelne Scoringfunktionen oft nur bei bestimmten Molekülklassen besonders erfolgreich sind, insbesondere bei denen, die Ähnlichkeiten zum Parametrisierungsdatensatz aufweisen. 2.3.4 Rough Scoring Unter Rough Scoring fassen wir eine heterogene Gruppe von heuristischen Methoden zusammen. Ihnen gemeinsam ist ihre hohe Geschwindigkeit, die sie besonders für die Anwendung im Fast Virtual Screening qualifizieren. Zu diesem Zweck abstrahieren sie stark von den detaillierten molekularen Wechselwirkungen. QSAR Die einfachste Gruppe sind QSAR (Quantitative Structure Activi3.61 ty Relationship) Modelle [17],[18]. Über QSAR versucht man aus molekularen Deskriptoren von Protein und Ligand 2.23 die Qualität der Bindung zu bewerten. 3.79 Als Deskriptoren können hierbei strukturelle Eigenschaften wie zum Beispiel die Moleküloberfläche, Zahl der Wasserstoffbrücken-Donoren und Akzeptoren und Summen von Ladungen der Oberflächenatome verwendet werden oder auch physikochemische Eigenschaften wie Abbildung 4: 3-Zentren Pharmacophor der Octanol-Wasser Verteilungskoeffizifür Flavon ent. Das Standard-QSAR Modell stellt eine lineare Beziehung zwischen den Deskriptoren di und der Inhibitionskonstante k her, so dass gilt k= pi · di i Die Parameter pi werden durch lineare Regression mit experimentell bekannten Inhibitionskonstanten gewonnen. Alternativ zu linearen Modellen werden auch Neuronale Netzwerke benutzt. QSAR kann in Abhängigkeit von den verwendeten Deskriptoren auch ohne bekannte Rezeptorstruktur benutzt werden. Der Ansatz beschränkt sich dann darauf passende Parameter für ein Target zu finden, also Grundlegende Konzepte 9 Modellierung der freien Solvatisierungsenthalpie durch eine Gruppe von Inhibitoren mit bekannter Affinität die Affinität anderer Liganden für dasselbe Target vorherzusagen. Pharmacophore Bei Pharmacophor Modellen [19] werden die charakteristischen chemischen Gruppen von Ligand und dem aktiven Zentrum des Proteins bestimmt. Das einfachste Pharmacophor-Modell beschreibt den Liganden durch drei funktionelle Gruppen und deren Abstände untereinander. Abbildung 4 zeigt als Beispiel eine mögliche Wahl eines drei Zentren-Pharmacophors für Flavon. Durch Matching der Abständen zwischen den Gruppen des Proteins mit denen des LigandPharmacophors wird eine Korrespondenz zwischen Proteingruppen und Ligandgruppen hergestellt. Die Bewertung erfolgt durch eine Liste von möglichen Wechselwirkungen (bspw. Amin-N mit Carboxy-O). Die Zahl der gematchten Gruppen mit möglichen Wechselwirkungen ist ein Maß für die Qualität der Bindung. Alternativ können zur Bewertung Wechselwirkungspotentiale für jedes gemachte Paar verwendet werden. Kontakt-Scoring Eine geometrische Methode ist das Contact-Scoring bzw. Bump-Checking. Es werden die Kontakte und Überlappungen von erweiterten van der Waals Radien von schweren Atomen zwischen Ligand und Protein gezählt. Der Bewertung ergibt sich nun nach score = p1 · #contacts − p2 · #overlaps Abbildung 5: Volumenba- wobei p1 und p2 Konstanten sind für die gilt p2 p1 . siertes Contact Scorings Abbildung 5 zeigt eine mögliche Implementierung des Contact-Scorings. Die Moleküle werden in Blöcke eingeteilt und es erfolgt eine Zuordnung der Blöcke in Grenzflächenregion und Molekülkern der beiden Moleküle. Als Kontakte werden diejenigen Blöcke gezählt die in der Grenzflächenregion beider Moleküle liegen (grün). Als Überlappungen werden alle Blöcke gezählt die zur Grenzfläche oder Kern des einen Moleküls und gleichzeitig zum Kern des anderen Moleküls gehören (gelb). Kontakt Scoring beruht auf der Annahme, dass die Wechselwirkungen zwischen Protein und Ligand proportional zur Kontaktfläche ist und beschreiben somit enthalpische Komponenten wie die vdW-Wechselwirkung als auch entropische Komponenten wie den hydrophoben Effekt. Diese Methode wird häufig benutzt um den Liganden zunächst in der Bindungstasche zu platzieren um dann, von dieser Konformation ausgehend, mit einer komplexeren Scoringmethode eine weitere Suche im Konformationsraum vorzunehmen. 2.3.5 Wissensbasierte Scoringfunktion Grundlegende Konzepte 10 Modellierung der freien Solvatisierungsenthalpie Wissensbasierte Scoringfunktionen [21] basieren auf radialen Verteilungsfunktionen von Atompaaren. Hierzu wertet man die 3DStrukturen von Komplexen aus und zählt für jedes Paar von Atomtypen i,j die Anzahl der Paare deren Abstand in einem bestimmten Intervall liegen und erhält so eine Verteilung Nij (r). Die normalisierte radiale Verteilungsfunktion ist dann ge- Abbildung 6: Bleep2 Paarpotential für die HC Wechselwirkung. Entnommen aus [20] geben durch Nij (r) gij (r) = r Nij (r) Als Referenz wird die normalisierte mittlere radiale Verteilungsfunktion aller Atompaare verwendet: i j gij (r) g(r) = i·j Das Paarpotential als Differenz zwischen Referenzenergie und Paarenergie ergibt sich dann nach gij (r) ∆Wij (r) = −kT · ln g(r) Die Gesamtenergie einer Wechselwirkung ergibt sich als Summe aller Paarpotentiale des Komplexes. Wij (rij ) ∆Gbind = ij Ein Vorteil dieser Methode ist, dass keine experimentellen Bindungsenthalpien der Komplexe zur Parametrisierung benötigt werden, sondern die Parametrisierung allein auf einer Boltzmannstatistik der Atomabstände beruht. Abbildung 6 zeigt als Beispiel das Paarpotential zwischen Wasserstoff und Kohlenstoff nach der wissensbasierten Scoringfunktion BLEEP [20]. 2.3.6 Methoden mit additiven freien Enthalpien Die in diesem Abschnitt beschriebenen Methoden setzen voraus, dass sich die freie Bindungsenthalpie in physikalisch sinnvolle und voneinander unabhängige enthalpische und entropische Teilkomponenten aufteilen lässt: ∆Gi ∆G = i Die freien Enthalpien werden meist in die im Abschnitt 2.3.2 beschriebenen Anteile aufgeteilt. Für jeden dieser Anteile wird ein geeignetes Modell gesucht und Grundlegende Konzepte 11 Modellierung der freien Solvatisierungsenthalpie die Parameter des Gesamtmodells werden durch multiple lineare Regression mit experimentellen Affinitäten gefittet. Eine Alternative zu diesem Verfahren ist es die Verwendung von anderweitig parametrisierten Modellen für einzelne Anteile. Zur Berechnung der Anteile ∆Ginter und ∆Gintra eignen sich Kraftfelder. Molekulare Kraftfelder abstrahieren von quantenmechanischen Modellen, indem die Energie allein als Funktion der Koordinaten der Atomkerne angeben und die elektronischen Verteilungen innerhalb des Moleküls nicht mehr berücksichtigen. Hierfür werden die Wechselwirkungen in voneinander unabhängige Anteile separiert. Die Wechselwirkungsenergie lässt sich nun als Summe dieser Anteile berechnen und durch Gradientenbildung erhält man die Kraft. Ein Kraftfeld wird durch die funktionelle Form seines Wechselwirkungsmodells und die Parametrisierung bestimmt. Funktionelle Formen sind in der Regel für alle Kraftfelder ähnlich und beinhalten Modelle die meist aus Analoga der klassischen Mechanik entliehen wurden. Elektrostatische Wechselwirkungen werden über ein Coulomb-Potential beschrieben, die Energie von Bindungslängen meist über das Hooksche Gesetz. Die Parametrisierung kann anhand von experimentellen Daten oder anhand von aus quantenmechanischen Berechnungen abgeleiteten Größen erfolgen. Grundlegende Konzepte 12 Modellierung der freien Solvatisierungsenthalpie 2.4 Merck Molecular Force Field (MMFF94) Halgren beschreibt in einer Serie von Artikeln [7] eine neue Kraftfeldparametrisierung MMFF94. Das Kraftfeld wurde mit etwa 2900 ab-initio Daten parametrisiert wobei der Fokus auf der Modellierung von kleinen biochemischen Molekülen lag. Es reproduziert die Konformationsenergien der Daten, die für die Parametrisierung benutzt wurden, mit einem rmsd von 0.38 kcal/mol. Konformations und Interaktionsenergien wurden in sieben Terme aufgeteilt (siehe Abbildung 7): Bond Stretching, Angle bending, stretch-bend, outof-plane bending, torsion, van der Waals und elektrostatische Wechselwirkungen. Für unsere Scoringfunktion sind die letzten beiden Terme von besonderem Interesse, da sie die Wechselwirkungen zwischen Target und Ligand beschreiben. Die elektrostatische Wechselwirkungsenergie wird durch ein Coulomb-Potential zwischen jedem Atompaar i-j dargestellt: EQij = 332.0716 qi qj D(rij + δ)n (2.5) Abbildung 7: Energiekomponenten des Merck Kraftfeldes wobei qi und qj die atomaren Partialladungen sind, rij der Abstand zwischen den beiden Atomen und n eine Konstante ist die auf 1 (standard) oder 2 (für eine abstandsabhängige Dielektrizitätskonstante) gesetzt wird. Eine abstandsabhängige Dielektrizitätskonstante verringert im Vergleich zu einer konstanten Dielektrizitätskonstanten weitreichende elektrostatische Wechselwirkungen und ist daher geeignet die durch die Polarisation von Wassermolekülen verursachte elektrostatische Abschirmung besser zu modellieren. Die Konstante δ = 0.05Å verhindert, dass es bei kleinen Abständen zu unendlich großen Wechselwirkungen kommt. Die van der Waals Wechselwirkungen werden durch ein gepuffertes 14-7 LennardJones Potential beschrieben: 7 1.07RIJ 1.12RIJ 7 −2 (2.6) EvdW = εIJ rij + 0.07RIJ rij 7 + 0.12RIJ 7 wobei rij der Abstand zwischen den Atomen ist, εIJ das Potentialminimum und RIJ der Abstand ist, bei dem das Minimum erreicht wird. Grundlegende Konzepte 13 Modellierung der freien Solvatisierungsenthalpie Die für jedes Atomtyppaar IJ spezifischen Parameter εIJ und RIJ werden wie folgt aus Parametern der einzelnen Atomtypen berechnet: 2 ))) RIJ = 0.5(RII + RJJ )(1 + B(1 − exp(−βγIJ (2.7) wobei B = 0.2, β = 12 und γIJ sich aus atomspezifischen Radien ergibt γIJ = RII − RJJ RII + RJJ (2.8) und diese wiederum aus den Polarisierbarkeiten αI der Atome RII = AI αI0.25 (2.9) Die Potentialtiefe berechnet sich wie folgt: εIJ = 1 181.16GI GJ αI αJ 0.5 0.5 (αI /NI ) + (αJ /NJ ) RIJ (2.10) wobei G atomspezifische Skalierungsparameter sind. Wenn polare Wasserstoffe an der Bindung beteiligt sind, wir B in Gleichung 2.7 auf Null gesetzt, so dass sich RIJ als arithmetisches Mittel der beiden atomspezifischen Radien ergibt. Handelt es sich um eine Donor Akzeptor Wechselwirkung wird nach Durchführung der obigen Berechnungen RIJ mit dem Faktor 0.8 und εIJ mit dem Faktor 0.5 reskaliert. Tabelle 1 zeigt diejenigen MMFF Atomtypen und Definitionen, die im Ergebnisteil dieser Studie verwendet werden. Unsere Implementierung des Kraftfeldes wurde mit Referenzstrukturen verglichen und reproduzierte die Referenzenergien mit einem rmsd von 0.4kcal/mol. Grundlegende Konzepte 14 Modellierung der freien Solvatisierungsenthalpie Typ Beschreibung CR C=O HC O=C NC=O CL I CR4R CR3R HOCO HOCC CB NC=C NO2 HS Alkyl C Carbonyl C H an C O=C, Generisch Amid N Typ C=C CSP OR NR F BR S C in Cyclobutyl HOR C in Cyclopropyl HNR Acid H HNCO Enol/Phenol H O2CM Armoat C NPYD N-C=C NSP Nitro N OH2 H an S Beschreibung Vinyl C Acetylen C Ether O Amin N Thiol, Sulfid Alcohol H Amine H Amid H O in Carboxylate Anion N in Pyridine N 3-fach gebunden O in Wasser Tabelle 1: MMFF Atomtypen 2.5 Berechnung der freien Bindungsenthalpie in Lösung Wie in Kapitel 2.3.6 beschrieben, kann man die freie Bindungsenthalpie von ProteinLigand Komplexen im Vakuum ∆GVbind durch Kraftfeldberechnungen erhalten. Ziel der Modellierung soll es sein aus diesem Wert die freie Bindungsenthalpie in Lösung ∆GSbind zu berechnen. Abbildung 8 zeigt die Abhängigkeit von ∆GSbind von den direkt bere- In vacuo ÄGVbind V V V V S V chenbaren Anteilen. L , L , P und P + L PL PS bezeichnen den Liganden bzw. P L ÄGPL ÄGsolv ÄGsolv solv das Protein im Vakuum und in solS V S ÄGbind vatisierter Form. LP und LP beS S S L P + PL zeichnen die Komplexe in den bei- In solvation den Umgebungen. Abbildung 8: Berechnung von ∆GSbind Kann man nun die freien Solvatisierungsenthalpien für Protein ∆GPsolv , für den Liganden ∆GLsolv und für den Komplex ∆GLP solv berechnen so sind alle Größen bekannt um schließlich das gesuchte ∆GSbind zu erhalten: P L ∆GSbind = ∆GVbind + ∆GLP solv − ∆Gsolv − ∆Gsolv Grundlegende Konzepte (2.11) 15 Modellierung der freien Solvatisierungsenthalpie 2.6 Molekulare Oberfläche Da Solvatisierung ein Prozess ist, der sich an der molekularen Grenzfläche abspielt, ist deren Berechnung die Grundlage für die meisten Methoden zu Approximation der freien Solvatisierungsenthalpie. Hierfür gibt es drei unterschiedliche Ansätze. Die van der Waals (vdW) Oberfläche eines Moleküls ist die äußere Fläche der vdW surface sich schneidenden vdW Kugeln (Kugeln SolventSA surface mit dem jeweiligen vdW Radius) um die Molecule SE surface Atome. Diese Definition der Grenzfläche ist zwar einfach, nimmt allerdings infinitesimal kleine Lösungsmittelmoleküle an, At 2 die in jede Lücke zwischen den van der Waals Radien der Atome des gelösten Moleküls passen. In Abbildung 9 ist die At 3 At 1 Grenze der van der Waals Fläche gepunktet dargestellt. Zwischen den Atomen 1 und 2 auf der einen Seite und dem Atom 3 auf der anderen Seite liegt ein Bereich der zwar nicht mehr zum vdW-Molekülvolumen gehört, in den aber auch keine Abbildung 9: Schematische Darstellung Lösungsmittelmoleküle passen. von vdW, SA und SE Molekülflächen Die beiden anderen Oberflächendefinitionen überkommen das Problem künstlicher Spalten, indem sie die Größe des Lösungsmittelmoleküls berücksichtigen, wobei der Einfachheit halber vorausgesetzt wird, dass diese Moleküle Kugelform haben (bei Wasser ist dies eine akzeptable Näherung und man setzt r=1.4). Bei der Solvent-Accessible-Surface [22] (SAS) wird der vdW Radius jedes Atoms um den Radius des Lösungsmittelmoleküls erweitert und mit diesen neuen vdW Radien die äußere Fläche der sich schneidenen Kugeln berechnet. Die sich so ergebende Oberfläche beschreibt das Zentrum der ersten Solvathülle. (die durchgezogene Linie in Abb. 9). Die Solvent-Excluded-Surface [23] (SES häufig auch mit Connolly Surface oder einfach mit ‘molecular surface’ bezeichnet) ergibt sich aus der Kontaktfläche, wenn man die Lösungsmittelkugel über die vdW Fläche des gelösten Moleküls ‘rollt’. Sie grenzt also die Molekülvolumina ab, in welche die Volumina der Lösungsmittelmoleküle nicht vordringen können. In Abb. 9 ist diese Fläche durch die gestrichelte Linie gekennzeichnet, wobei alle Bereiche die identisch zur vdW-Fläche sind nicht gezeichnet wurden. Grundlegende Konzepte 16 Modellierung der freien Solvatisierungsenthalpie 3 3.1 Freie Solvatisierungsenthalpie - Physikalischer Hintergrund Strukturelle Eigenschaften von Wasser Im gasförmigen Sauerstoffatom befinden sich sechs Elektronen in der zweiten Schale, davon zwei Elektronen im 2s Orbital und vier in den drei 2p Orbitalen. Bei der Bindung mit den 1s Orbitalen der beiden Wasserstoffe zu Wasser kommt es zu einer Vermischung der Eigenschaften der vier Orbitale und es entstehen vier nahezu gleichförmige sp3 Hybridorbitale. Diese sind in Form eines Tetraeders angeordnet, wobei aufgrund des größeren ‘Platzbedarfs’ der beiden freien Elektronenpaare die beiden bindenden Orbitale nur in einem Winkel von etwa 105◦ zueinander stehen statt des exakten Tetraederwinkels von 109◦ . H + + 105° H O + - - Abbildung 10: Stereochemische Strukturen bei der Bildung von Wasser (links) und resultierendes Dipolmoment (rechts) Aufgrund der höheren Elektronegativität des Sauerstoffes sind in die bindenden Orbitale zum Sauerstoff hin verschoben, was in einer negativen Partialladung von −2δ für den Sauerstoff und von +1δ für jeden der beiden Wasserstoffe resultiert. Da die Struktur nicht linear ist, fallen die Schwerpunkte der negativen und positiven Partialladungen nicht zusammen, so dass jedes Wassermolekül ein permanentes Dipolmoment besitzt, dessen Achse zwischen dem Sauerstoffatom und dem Mittelpunkt zwischen den beiden Wasserstoffatomen liegt (siehe Abb. 10). Aufgrund dieses Dipolcharackters besitzt Wasser bei Raumtemperatur eine im Vergleich zu organischen Molekülen hohe Dielektrizitätskonstante von etwa 80. Die beiden Orbitale mit freien Elektronenpaaren machen das Sauerstoff-Atom zu einem starken Wasserstoffbrücken-Akzeptor. Im Wasser kann hierbei jedes Sauerstoffatom zwei H-Brücken mit Wasserstoffatomen anderer Wassermoleküle eingehen. Die Gesamtkoordinationszahl eines Wassermoleküls beträgt also vier (siehe Abbildung 11). Im Eiskristall ist diese Koordination besonders regelmäßig und die Wassermoleküle sind in einem Gitter angeordnet bei dem jede Lage eine hexagonale Struktur hat. In flüssigem Wasser ist diese Struktur teilweise gebrochen. Es bestehen dynamische hexagonale Cluster deren Grenzen sich ständig verschieben. Mit Freie Solvatisierungsenthalpie - Physikalischer Hintergrund 17 Modellierung der freien Solvatisierungsenthalpie Abbildung 11: Links: Koordination eines Wassermoleküls im Eisgitter, Rechts: Zwei übereinanderliegende hexagonale Strukturen steigender Temperatur fällt die Dielektrizitätskonstante und die Gitterstrukturen werden zunehmend gebrochen. 3.2 Komponenten der freien Solvatisierungsenthalpie Substanzen verschiedener Eigenschaften können sich bei Vermengung mit Wasser vollkommen unterschiedlich verhalten. Kohlenwasserstoffe vermischen sich nicht mit Wasser sondern aggregieren, während die Ionen eines Salzes sich gut hydrieren lassen. Lipide hingegen aggregieren in Mizellen oder Doppelschichten wobei sie ihren polaren Teil zum Wasser und den apolaren Teil entgegengesetzt ausrichten. Diese Vielzahl von Solvatisierungseffekten hat ihre Ursache darin, dass mehrere verschiedene physikalische Effekte der Solvatisierung zugrunde liegen, die in ihrer Größe und ihrem Vorzeichen variieren. Die Ursache für das komplexe Solvatisierungsverhalten von wässrigen Lösungen kann in den Eigenschaften von flüssigen Wasser gefunden werden. Als permanente Dipole wirken die Wassermoleküle als dielektrisches Medium wenn ein äußeres elektrisches Feld angelegt wird. Auf der anderen Seite ist Wasser bei Raumtemperatur auch eine hochstrukturierte Flüssigkeit in Form eines Wasserstoffbrückennetzwerkes. Es wurde anhand von molekulardynamischen Simulationen gezeigt, dass Wassermoleküle, die in direktem Kontakt mit dem gelösten Molekül stehen, andere Eigenschaften zeigen, als Wasser das weiter von den Grenzflächen entfernt ist [24]. Entfernte Wassermoleküle stellen ein konstantes Dielektrikum dar, das linear auf das Feld des gelösten Moleküls reagiert. Für Wassermoleküle in direktem Kontakt Freie Solvatisierungsenthalpie - Physikalischer Hintergrund 18 Modellierung der freien Solvatisierungsenthalpie mit der Grenzfläche spielen Wasserstoffbrücken und dispersive Interaktionen die wichtigste Rolle. Die freie Solvatisierungsenergie ∆Gsolv kann daher in einen elektrostatischen Kontinuumsbeitrag ∆Gelec und einen Beitrag der ersten Solvathülle (First-Solvation-Shell FSS) aufgeteilt werden [25]. Die First-Solvation-Shell Effekte können weiter in drei Komponenten aufgeteilt werden: einem Anteil ∆Gvdw der die van der Waals Wechselwirkungen beschreibt, einem Anteil ∆Gh−bond der die Ausbildung von Wasserstoffbrücken zwischen gelösten Molekül und Lösungsmittel beschreibt und einer Kavitätskomponente ∆Gcav die auf einem entropischen Beitrag beruht der durch die Umordnung des Wasserstoffbrückennetzwerkes in der Nähe der Grenzfläche zustande kommt. ∆Gsolv = ∆Gelec + ∆Gvdw + ∆Gh−bond + ∆Gcav 3.2.1 (3.1) Elektrostatische Komponente Wie aus der Kontinuumselektrostatik bekannt führt die Einführung eines geladenen Körpers in ein nichtleitendes Dielektrikum zu eine Polarisation des Dielektrikums. Im Fall der molekularen Solvatisierung richten sich Wassermoleküle in der Nähe der Grenzfläche entgegen dem durch das gelöste Molekül verursachte äußere elektrische Feld aus. Diese Verschiebung der Dipolmomente verursacht ein Reaktionsfeld das selbst wieder zu einer Umordnung von flexiblen Dipolen innerhalb des gelösten Moleküls führt. Dieser Prozess der gegenseitigen Beeinflussung setzt sich fort bis ein Gleichgewichtszustand erreicht ist mit dem sogenannten selbst-konsistenten Reaktionsfeld. Das Reaktionsfeld führt zu einer Abnahme des Gesamtfeldes, so dass die potentielle Energie des Systems kleiner wird. Die elektrostatische Komponente der freien Bindungsenthalpie ist daher grundsätzlich negativ. Die Größe des Effektes hängt von der Ladungsverteilung innerhalb des Moleküls ab. Für nahezu ungeladenen Moleküle wie acyclische Kohlenwasserstoffe kann der Effekt vernachlässigt werden. Für Ionen hingegen erreicht er eine Größenordnung von −100kcal/mol und ist damit der mit Abstand wichtigste Beitrag. 3.2.2 Entropische Komponente Die entropische Komponente der freien Solvatisierungsenthalpie kann in reinster Form beim hydrophoben Effekt apolarer Kohlenwasserstoffe beobachtet werden. Historisch wurde der hydrophobe Effekt als mikroskpisches Analogon der Oberflächenspannung des Lösungsmittels betrachtet. Die Wassermoleküle die über ein Wasserstoffbrückennetzwerk miteinander in Verbindung stehen finden diese Struktur an der Wasser-Luft Grenzfläche gestört. Die Vergrößerung der Oberfläche führt daher zu einer Abnahme an möglichen energetisch günstigen Interaktionen zwischen den Wassermolekülen. Dies bedeutet eine Zunahme der inneren Energie, so dass der Zustand des thermodynamischen Gleichgewichts dann erreicht wird, wenn die Grenzfläche minimiert wird. Daher aggregieren die gelösten Moleküle und es kommt zum beobachteten Effekt. Freie Solvatisierungsenthalpie - Physikalischer Hintergrund 19 Modellierung der freien Solvatisierungsenthalpie Im physikalischen Detail ist die Beziehung zwischen Aggregation und Änderung der freien Enthalpie komplexer. Experimente zeigen, dass für Wasser bei Raumtemperatur dieser Effekt nicht enthalpischer, sondern fast ausschließlich entropischer Natur ist [24]. Abbildung 12 zeigt die enthalpische und entropische Komponente der freien Enthalpie des Transfers eines Hydrocarbons in Wasser und in seine eigene Flüssigphase. Für den Übergang aus der Gasphase in die Flüssigphase ist ∆G negativ. Der Lösungprozess wird enthalpisch dominiert und die entropische Komponente ist negativ, aber klein. Alle Anteile sind weitgehend temperaturunabhängig. Beim Übergang aus der Flüssigphase in Wasser ist ∆G positiv. Bei Raumtemperatur ist die Ursache für die mangelnde Löslichkeit fast ausschließlich eine starke Entropieabnahme. Enthalpische Prozesse spielen keine Rolle. Bei Temperaturzunahme erreicht man einen kritischen Punkt TS bei dem sich das Bild umgekehrt hat. Das positive freie Enthalpie ist nun ausschließlich durch eine starke Enthalpiezunahme verursacht. Dies bedeutet, dass die anschauliche Annahme eines Bruchs von H-Brücken unter den Wassermolekülen bei Raumtemperatur nicht zutrifft, da sich dies in einer Enthalpiezunahme bemerkbar machen würde. Stattdessen orientieren sich die Wassermoleküle in eine neue Gitterstruktur um, in der die Zahl der Wasserstoffbrücken maximal gehalten werden kann. Bei einer planaren Oberfläche werden so etwa 3/4 der Wasserstoffbrücken Abbildung 12: Chemisches Potentierhalten im Gegensatz zum Wert 1/2 der al, Entropie und Enthalpie bei der für den Fall zu erwarten wäre, dass die Überführung von Neopentan in Wasser Oberfläche keinerlei strukturelle Auswir(A) und in seine eigene Phase (B). Entkungen auf das Wasser hat [26]. Bei kleinommen von [24] nen Molekülen mit stärkerer Oberflächenkurvatur kann dieses Wert 1/1 erreichen. Die Wassermoleküle richten ihre OH-Bindungen dafür tangential zur Oberfläche aus. Diese Optimierung des H-Brückennetzwerks führt zu einer Abnahme der Zahl der Mikrozustände in der sich die Wassermoleküle orientieren können und somit zu einer Abnahme der Entropie. Die durch die Entropieabnahme verursachte ZunahFreie Solvatisierungsenthalpie - Physikalischer Hintergrund 20 Modellierung der freien Solvatisierungsenthalpie me der freien Enthalpie ist hierbei geringer als bei einer Enthalpiezunahme durch Bruch von Wasserstoffbrücken mit hoher Bindungsenthalpie. Es handelt sich bei diesem Effekt also um eine Enthalpie-Entropie Kompensation. Die entropische Komponente an der freien Solvatisierungsenergie wird auch häufig Cavitätsenergie gennant, da er der Energie entspricht die nötig ist, um die Cavität des gelösten Moleküls im Lösungsmittel auszubilden. 3.2.3 Van der Waals Komponente Van der Waals Wechselwirkungen entstehen durch Dipol-Dipol Wechselwirkungen zwischen Elektron-Ladungsverteilungen verschiedener Atome. Sie sind ungerichtet und werden auch als dispersive Wechselwirkung bezeichnet. Ihr Beitrag zu freien Solvatisierungsenthalpie ist negativ aber klein. Ihre Größe skaliert in grober Approximation mit der Molekülgrenzfläche, da die Fläche in etwa proportional zu der Zahl der Wassermoleküle ist, die nah genug liegen, um derartige Wechselwirkungen mit den Atomen des gelösten Moleküls einzugehen. Aufgrund dieser Eigenschaft kann man dispersive Wechselwirkungen als eine Gegenkraft zu den hydrophoben Wechselwirkungen betrachten. Dispersive Wechselwirkungen sind allerdings betragsmäßig kleiner, so dass als Summe dieser beiden Effekte ein positiver flächenabhängiger Beitrag zur freien Solvatisierungsenthalpie bleibt. 3.2.4 Wasserstoff Brücken Wasserstoff Brücken entstehen durch die Anziehung eines an ein elektronegatives Atom gebundenen Wasserstoffs an ein weiteres elektronegatives Atom. Der Wasserstoff wird bei dieser Bindung zwischen den beiden elektronegativen Atomen ‘geteilt’. Das elektronegative Atom, an dem der Wasserstoff kovalent gebunden ist, wird als Donor bezeichnet, das andere elektronegative Atom als Akzeptor. Die Bindungslänge D − H · · · A. beträgt hierbei zwischen 2.5 und 3.2 Å, der Bindungswinkel 130−180◦ [27]. Wasserstoffbrücken sind also im Unterschied zu den anderen Wechselwirkungen gerichtet. Die Enthalpie einer einzelnen Brücke hängt von einer Reihe von Faktoren wie Atomtypen der beteiligten Akzeptoren, Bindungswinkel und lokaler Dielektrizitätskonstante ab. Im allgemeinen liegt sie in der Größenordnung von −10 bis −40kJ/mol. Diese Enthalpie darf allerdings nicht verwechselt werden mit dem Beitrag einer Wasserstoffbrücke zwischen Solvent und gelöstem Molekül zur freien Solvatisierungsenthalpie. In der Regel werden durch derartige Wechselwirkungen keine neuen Brücken geknüpft, sondern vielmehr bestehende Brücken zwischen Wassermolekülen, die nun durch die Grenzfläche unterbrochen sind, ersetzt. Trotzdem sind H-Brücken zwischen Solute und Solvent nicht thermodynamisch neutral und Abschätzungen gehen von einem Beitrag zu ∆G von −2.5 bis −7.5kJ/mol aus [28]. Freie Solvatisierungsenthalpie - Physikalischer Hintergrund 21 Modellierung der freien Solvatisierungsenthalpie 3.2.5 Andere Beiträge Neben den oben beschriebenen Effekten sind auch speziellere Wechselwirkungen möglich. Lösungsmittelmoleküle können mit dem gelösten Stoff reagieren, zur Hydrolyse führen, oder anderweitig kovalente Verbindungen eingehen. Eine wichtige Rolle können insb. Protonentransferreaktionen spielen. Solche Effekte können zwar die thermodynamische Löslichkeit beeinflussen, sind aber eigentlich Sekundäreffekte, die auf Reaktionsenthalpien zurückzuführen sind und sollen in dieser Studie nicht weiter berücksichtigt werden. Freie Solvatisierungsenthalpie - Physikalischer Hintergrund 22 Modellierung der freien Solvatisierungsenthalpie 3.3 Experimentelle Bestimmung von freien Solvatisierungsenthalpien Experimentelle freie Solvatisierungsenthalpien werden durch Partitionierungsexperimente zwischen einem apolaren organischen Medium bzw. Vakuum und Wasser erhalten. Das gelöste Molekül ist in der Lage wischen Medium 1 und Medium 2 zu diffundieren und sein chemisches Potential in jeder Phase kann man schreiben als: µ1 = µ◦1 + RT ln (f c1 ) (3.2) wobei µ◦1 das chemische Potential im Standardzustand ist, das die Affinität des gelösten Moleküls für Medium 1 beschreibt, T die absolute Temperatur, R die Gaskonstante und f die Aktivitätskonstante ist, die nichtideales Verhalten aufgrund von Wechselwirkungen zwischen den gelösten Molekülen beschreibt. Extrapoliert man auf unendliche Verdünnung, verhält sich die Lösung ideal und f=1. Das gelöste Molekül tendiert dazu in der Phase zu akkumulieren, in der sein chemisches Potential µ◦1 geringer ist während der zweite Term die translationale Entropie beschreibt, die als eine entgegengesetzte Kraft dazu wirkt. Im thermodynamischen Gleichgewicht ist µ1 = µ2 und damit c2 ◦ (3.3) ∆µ = − RT ln c1 oder, mit Molenbrüchen ausgedrückt = − RT ln X2 X1 + RT ln V1 V2 (3.4) (3.5) wobei Xi der Molenbruch der gelösten Molekül im Medium i und Vi das molare Volumen ist i. Die in dieser Studie verwendeten experimentellen Werte wurden aus [29] entnommen und beziehen sich auf ein molare ideale Lösungen im Standardzustand bei 298K. Freie Solvatisierungsenthalpie - Physikalischer Hintergrund 23 Modellierung der freien Solvatisierungsenthalpie 4 4.1 Freie Solvatisierungsenthalpie - Eine Einführung in die Modellierung Explizite und implizite Modelle Kosten und Qualität Bei der Modellierung der freien Solvatisierungsenthalpie besteht, wie allgemein bei der Modellierung von komplexen Prozessen, ein Widerspruch zwischen Kosten und Zuverlässigkeit. Insbesondere im Hinblick auf den Anwendungsbereich von Protein-Ligand Komplexen, der mit unserem Modell behandelt werden soll, ist die Reduzierung des Kostenfaktors ein wichtiges Kriterium eines sinnvollen Modells. Die Berechnung der Scoringfunktion für eine einzelne Konformation darf weder Tage noch Stunden dauern, da für einen einzelnen Komplex in der Regel viele tausend Konformationen bewertet werden müssen. Für die Modellierung der Solvatisierung gibt es zwei unterschiedliche Ansätze: Explizite Modelle Explizite Modelle berücksichtigen die einzelnen Wassermoleküle in der Umgebung des Solutes. Für dieses supermolekulare System aus vielen hunderttausend Molekülen wird mit Hilfe von QM-oder MM-Algorithmen ein kanonisches Ensemble generiert aus dem sich im Prinzip die thermodynamischen Daten des Prozess ableiten lassen [30]. Konvergenz für die beteiligten Entropien ist allerdings schwierig zu erreichen und erfordert ein Sampling aller zugänglichen Konformationen [6]. Dieser Ansatz liegt am oberen Ende der Kostenskala und eignet sich insbesondere für die Analyse der Vorgänge im molekularen Detail. Größen wie Wahrscheinlichkeitsdichten für Wasserstoffbrücken oder die Stabilität von bestimmten Bereichen der FSS können aus den erhaltenen Daten abgeleitet werden. Implizite Modelle Im Unterschied dazu berücksichtigen implizite Modelle die Solventmoleküle nur in Form von globalen strukturellen Eigenschaften. Implizite Modelle müssen FSS und elektrostatische Anteile dafür separieren. Der elektrostatische Anteil kann in Form eines Kontinuummodells, bei dem das Wasser als Dielektrikum beschrieben wird, mit Hilfe der klassischen Elektrostatik berechnet werden [31]. FSS-Beiträge werden über Eigenschaften der Oberfläche des Solutes beschrieben. Eine Vielzahl solcher Modelle finden sich in den Zusammenfassungen von Tomasi [32] und Cramer [33],[25]. Wir werden in den folgenden Kapiteln nur auf die am häufigsten benutzen Modelle eingehen und die von uns verwendeten Modelle näher beschreiben. Freie Solvatisierungsenthalpie - Eine Einführung in die Modellierung 24 Modellierung der freien Solvatisierungsenthalpie 4.2 Statistische Grundlagen für die Parametrisierung impliziter Modelle Problemstellung Da die Separierung der Anteile bei impliziten Solvatisierungsmodellen ein technischer ‘Kunstgriff’ ist und die Modelle starke Vereinfachungen enthalten, ist es nicht möglich absolute Beiträge zu berechnen. Stattdessen berechnet man Deskriptoren, für die man eine lineare Beziehung mit dem tatsächlichen Absolutwert erwarten kann. Die so berechneten Anteile müssen durch konstante Vorfaktoren reskaliert werden. Das Ziel der Modellierung ist es also geeignete Deskriptoren di und Parameter pi zu finden, so dass ∆Gsolv = pi di i Für einen geeigneten Satz von Deskriptoren erhält man die zugehörigen Parameter durch lineare Regression mit ∆Gexp als abhängiger Variable und den Deskriptoren als unabhängigen Variablen. Lineare Regression Eine eindimensionale lineare Regression berechnet m und c, so dass für Funktion ypred = mx + c die Summe der Fehlerquadrate zwischen berechneten Wert ypred und beobachteten Wert y minimal wird. Bedingung für die Minimierung der Summe der Fehlerquadrate ES = N (yi − ypred,i )2 i=1 ist es, dass die partiellen Ableitungen nach den Parametern a und b null sind: ∂ES xi (yi − c − mxi ) = −2 0= ∂m i=1 N (4.1) ∂ES 0= yi − c − mxi = −2 ∂c i=1 N N N 2 Führt man die Abkürzungen Sx = x i , Sy = yi , Sxx = i=1 i=1 i=1 xi und N Sxy = i=1 xi yi ein, erhält man nach Umformungen das in m und c lineare Gleichungssystem N mSxx + cSx = Sxy mSx + c = Sy (4.2) das die Lösung Sxx Sy − Sx Syx Sxx − (Sx )2 Sxy − Sx Sy m= Sxx − (Sx )2 c= Freie Solvatisierungsenthalpie - Eine Einführung in die Modellierung (4.3) 25 Modellierung der freien Solvatisierungsenthalpie besitzt. Für eine multiple lineare Regression mit n unabhängigen Variablen x ergibt sich statt Gleichung 4.2 eine Gleichungssystem der Dimension n + 1. Analog zur obigen Herleitung lässt sich auch in diesem Fall eine analytische Lösung angeben [34]. Statistische Interpretationsgrößen Ein Maß für die Güte des Fits ist der mittlere quadratische Fehler N RM S = (ypred,i − yexp,i )2 /N i=1 der auch mit ‘root mean square distance’ (rmsd) bezeichnet wird. Ein Maß, das nicht von der Skala der abhängigen Variable abhängt ist der Korrelationskoeffizient r, der im Intervall [-1,1] liegt und Stärke sowie Vorzeichen der Beziehung zwischen vorhergesagtem Wert und experimentellem Wert angibt. Sein Quadrat r2 lässt sich schreiben als der Anteil der durch das Modell erklärten Vari2 des vorhergesagten Wertes anz an der experimentellen Varianz. Die Varianz σpred ist definiert als (ypred,i − y)2 /N σ2 = so dass sich r2 folgendermaßen ergibt σpred (ypred,i − y)2 r = = σexp (yexp,i − y)2 2 (4.4) Eine Wert von eins für r2 bedeutet demnach, dass die gesamte Varianz der experimentellen Größe durch die Varianz der unabhängigen Variable des Modells erklärt wird (yexp und ypred heißen dann vollständig korreliert). Kreuzvalidierung beschreibt die Technik nur Teile der Datenmenge zur Parametrisierung des Modells zu verwenden und mit dem Rest die Vorhersagequalität zu testen. Automatisiert man dieses Verfahren, indem man jeweils einen Wert bei der Parametrisierung wegläßt, um dann den für ihn vorhergesagten Wert zu bestimmen und wendet Gleichung 4.4 auf alle so erhaltenen Werte an erhält man einen sogenannten kreuzvalidierten Korrelationskoeffizienten rcv . Während r2 die 2 ein Maß für die Güte der Vorhersage und somit Güte des Fits beschreibt, gibt rcv 2 ist grundsätzlich kleiner als r2 , für die Qualität des Modells an. Der Wert von rcv bzw. gleich, wenn die Vorhersagequalität optimal ist. Im Unterschied zu r2 kann 2 mit steigender Zahl der Regressionsvariablen abnehmen. Dies ist ein Zeichen rcv von Overfitting. Die T-Statistik erlaubt Aussagen über die Signifikanz einer beobachteten Korrelation. Als T-Wert wird der Quotient von Regressionsparameter und seiner Standardabweichung verwendet. Ist T gross, bedeutet dies, dass der zugehörige Regressionsparameter mit hoher Wahrscheinlichkeit ungleich Null ist, also die entsprechende Regressionsvariable mit dem experimentellen Wert korreliert ist. Zum Test Freie Solvatisierungsenthalpie - Eine Einführung in die Modellierung 26 Modellierung der freien Solvatisierungsenthalpie dieser Hypothese wird der t-Wert mit der t-Verteilung verglichen die in Abhängigkeit der Zahl der beobachteten Werte und des Konfidenzintervalls (meist 0.05) eine Signifikanz s ergibt. Der Wert von 100 · s% gibt die Wahrscheinlichkeit an, dass keine Korrelation zwischen Regressionsvariable und beobachteter Variable besteht. Freie Solvatisierungsenthalpie - Eine Einführung in die Modellierung 27 Modellierung der freien Solvatisierungsenthalpie 5 5.1 Modelle für FSS Beiträge Oberflächenspannungen und Hydrophobizitätsparameter Makroskopische Oberflächenspannungen sind definiert als die Energie W, die benötigt wird, um die Oberfläche einer Lösung um die Fläche A zu vergrößern. σ= W A (5.1) Es gibt offensichtliche Parallelen zwischen der makroskopischen Oberflächenspannung und dem mikroskopischen hydrophoben Effekt. Beide beschreiben die Tendenz der Oberflächenminimierung aufgrund von intermolekularen Wechselwirkungen des Mediums. Diese Analogie hat dazu geführt, dass das selbe Konzept zur Beschreibung der First-Solvation-Shell Komponente der freien Solvatisierungsenthalpie benutzt wird: (5.2) ∆GF SS = σ · A wobei σ ein Hydrophobizitätsparameter ist, der spezifisch für die betrachtete Molekülklasse ist und A die solvent accessible surface. Die SAS wird aufgrund ihrer Proportionalität zur Zahl der Wassermoleküle in der ersten Solvathülle benutzt. Es macht Sinn die Hydrophobizitätsparameter direkt aus makroskopischen Oberflächenspannungen und der Grenzfläche zwischen Lösungsmittelphase und Phase des gelösten Moleküls zu berechnen. Sharp [35] zeigte mit einer geometrischen Argumentation in der die Oberflächenkrümmung des gelösten Moleküls berücksichtigt wird, dass die mikroskopische Oberflächenspannung von et2 was 0.2kJ/molÅ der makroskopischen Oberflächenspannung einer Hydrocarbon-Wasser Grenz2 fläche von etwa 0.3kJ/molÅ ent- Abbildung 13: Abhängigkeit der freien Solvatisierungsenthalpie von der SAS spricht. Einen Überblick über verschiedene Oberflächenspannungen die aus experimentellen Daten berechnet wurden findet man bei Williams [36]. Diese Parameter liegen im Bereich von of 0.1 − 2 0.2kJ/molÅ . Es ist offensichtlich, dass ein einzelner Hydrophobizitätsparameter nicht die komplette Vielfalt der First-Solvation-Shell Effekte beschreiben kann. Dies liegt Modelle für FSS Beiträge 28 Modellierung der freien Solvatisierungsenthalpie insbesondere an der Bedeutung von Wasserstoffbrücken für die Organisation der ersten Solvathülle. Selbst für Moleküle mit sehr ähnlichen Eigenschaften, wie Alkane und Cycloalkane, für die beide Wasserstoffbrücken und und elektrostatische Effekte eine untergeordnete Rolle spielen, versagt das obige Modell. Wie Abbildung 13 zeigt ist weder die Steigung (die der Oberflächenspannung entspricht) noch der Schnittpunkt mit der y-Achse der beiden Molekülklassen ähnlich. Aus diesem Grunde wurden globale Oberflächenspannungen ersetzt durch Oberflächenspannungen die spezifischer für bestimmte Gruppen des Moleküls sind. Modelle für FSS Beiträge 29 Modellierung der freien Solvatisierungsenthalpie 5.2 Atomic Solvation Parameters (ASP) Eine konsequente Weiterentwicklung von globalen Oberflächenspannungen die sich für jede Molekülklasse unterscheiden, war es das Molekül in Fragmente zu zerlegen und jedem dieser Fragmente eine eigene Oberflächenspannung zuzuweisen. Die gesamte freie Solvatisierungsenthalpie lässt sich dann durch Summation über die Fragmente berechnen: σtype(i) · ∆Ai (5.3) ∆Gsolv = i wobei σtype(i) die Oberflächenspannung des Fragments vom Type i ist und Ai die dazugehörende Solvent Accessible Surface. Die Summe läuft hierbei über alle Fragmente des Moleküls. Dieses Model basiert auf der Annahme, das die Fragmente die selben hydrophoben Eigenschaften in jeder chemischen Umgebung in der sie erscheinen zeigen. Frühe Modelle segmentierten das Protein in Aminosäuren. Die Ergebnisse waren jedoch von geringer Qualität, da Aminosäuren polare und apolare Teile aufweisen können. Ihre Hydrophobizität hängt daher davon ab welche Teile dem Lösungsmittel zugewandt sind. Eisenberg und McLachlan [37] segmentierten als erste das Molekül in atomare Fragmente. Sie benutzten 5 verschiedene Atomtypen: Kohlenstoffe, neutrale Sauerstoffe und Stickstoffe, geladene Sauerstoffe und Stickstoffe sowie Schwefel. Sie nannten die dazugehörenden Oberflächenspannungen Atomic Solvation Parameters (ASP) und parameterisierten ihr Model durch lineare Regression mit experimentellen Daten von freien Solvatisierungsenthalpien von Aminosäuren. Tabelle 2 zeigt die erhaltene Parametrisierung. Aufgrund der Einfachheit der Berechnung ist dieses Mo dell äußerst populär geworden und eine Reihe anderer Pacal Atomtyp rametrisierungen für Proteine und andere organische MomolÅ2 leküle wurden entwickelt. Juffer et al [38] verglich in einer C 16 umfassenden Studie neun verschiedene ASP Parametersätze N/O -6 für einen Testsatz von siebzehn Proteinen. Er kam zum Er- O− -24 gebnis, dass die so berechneten freien Solvatisierungsent- N− -50 halpien nicht nur signifikant in der Größe sondern auch im S 21 Vorzeichen variieren. Wir denken, dass die Hauptursache für das Versagen von ASP Sätzen a) ihre Anwendung auf die Tabelle 2: ASP von komplette Solvatisierungsenthalpie ist anstatt das Modell Eisenberg et al. als Ergänzung zur Berechnung des elektrostatischen Anteils mit einer anderen Methode zu benutzen und b) die Wahl einer Menge von Atomtypen die nicht unter Berücksichtigung von Wasserstoffbrückenbildern unter den Atomen getroffen wurde. Wir werden auf diese Punkte später zurückkommen wenn wir die Verfeinerung unseres Modells diskutieren. Modelle für FSS Beiträge 30 Modellierung der freien Solvatisierungsenthalpie 5.3 Van der Waals und H-Brücken Wechselwirkungen Da die van der Waals Wechselwirkung sehr kurzreichend ist, kann ihre Größe durch die Zahl der Wassermoleküle in der FSS approximiert werden. Diese ist proportional zur SASA. Eine genauere Modellierung muss berücksichtigen, dass die Stärke der Wechselwirkungen von den Polarisierbarkeiten der beteiligten Atome abhängen (siehe hierzu auch Kapitel 2.4). Für Wasser sind diese konstant, d.h. die Größe der vdW-Wechselwirkung eines Oberflächenatoms mit dem Wasser hängt allein vom Atomtyp dieses Atoms ab. Somit kann die van der Waals Wechselwirkung approximiert werden als: ∆Gvdw = nAtoms k(atomtypei ) · A (5.4) i Dies entspricht Gleichung 5.3, so dass der entropische Anteil gemeinsam mit dem vdW-Anteil in einem Modell berücksichtigt werden kann, indem eine neue Oberflächenspannung σ(atomtypei ) = σ(atomtypei ) · k(atomtypei ) definiert wird. Die Wasserstoffbrücken Wechselwirkungen sind atomspezifisch und ihre Stärke hängt wie in Kapitel 3.2.4 beschrieben von einigen lokalen geometrischen und physikalischen Faktoren ab. Es ist nicht zu erwarten, dass sie mit der Grenzfläche skalieren, sondern eine Proportionalität ist nur mit der Zahl der Donoren und Akzeptoren unter den Oberflächenatomen zu erwarten. Modelle für FSS Beiträge 31 Modellierung der freien Solvatisierungsenthalpie 6 Modelle für die elektrostatische Komponente Für die Berechnung der elektrostatischen Komponente hat das Lösungsmittel homogene Eigenschaften und kann indem es als isotropes Dielektrikum beschrieben wird, durch die Kontinuumselektrostatik behandelt werden. Dies ist nicht für das Solute-Molekül möglich. Die Beschreibung als Dielektrikum ist auf atomarer Ebene schwierig und selbst wenn man den etwas zweifelhaften Begriff einer atomaren ortsabhängigen Dielektrizitätskonstante einführt und es einem gelingt diese für das gesamte Volumen des Solutes vorherzusagen, bleibt das Problem, dass sich die Konformation des Solutes durch die Einflüsse des Reaktionsfeldes ändern kann. In der quantenmechanischen Formulierung der elektrostatischen Wechselwirkung zwischen Solute und Solvent-Molekül muss der Hamilton Operator des Solutes durch eine durch das Reaktionsfeld des Solvents verursachte Störung ergänzt werden. rf =H 0 + H H Die diesbezügliche Schrödingergleichung kann nur iterativ gelöst werden. Für das über die Schrödingergleichung berechnete Feld des Solutes wird (über die Kontinuumselektrostatik) das Reaktionsfeld des Lösungsmittel berechnet. Dieses geht rf wieder in die Schrödingergleichung ein, über die wieder in Form einer Störung H ein neues Feld des Solutes berechnet wird usw. Diese Iteration setzt sich fort bis Konvergenz erreicht ist. rf so gering In einer ersten Approximation nehmen wir an, dass die Störung H ist, dass sich die Eigenschaften des Solutes nicht merklich ändern. Das durch das Solute-Molekül hervorgerufene Feld wird also als konstant angenommen. Damit vernachlässigen wir die möglichen durch das Reaktionsfeld hervorgerufenen Verschiebung von Dipolen im Solute-Molekül. Es ist möglich die Polarisation von Gruppen des Solutes implizit durch eine gemittelte Dielektrizitätskonstante zu berücksichtigen. Diese wird in der Regel im Intervall von 2 (für anorganische Moleküle) bis zu 4 für Proteine gewählt [39]. Modelle für die elektrostatische Komponente 32 Modellierung der freien Solvatisierungsenthalpie 6.1 Born und Onsager Modell Das Born Modell berechnet die elektrostatische Energie die benötigt wird um ein Ion in einem Medium mit konstanter Dielektrizitätskonstante ε aufzuladen. Born nahm an, dass die Ladung innerhalb einer Kugel mit dem Radius a und einer Dielektrizitätskonstante von 1 liegt. Die Energie, die benötigt wird, um das Ion zu laden ist dann a 2 q2 q dr = (6.1) W = 2 2εa ∞ εar wobei ε die Dielektrizitätskonstante der Mediums außerhalb des Ions ist. Die Ionisationsenergie im Vakuum ist q 2 /2a und somit ist die Änderung der Solvatisierungsenthalpie die Differenz 1 q2 (6.2) ∆G = − 1 − ε 2a Abbildung 14: Vergleich von experimentelDieses Modell ist für alle ku- len Solvatisierungsenergien einiger Ionen mit gelförmigen Moleküle mit einer ein- theoretischen Werten (Radien und experizelnen Ladung im Zentrum gültig. mentelle Werte aus [40]) In praktischer Hinsicht ist dieses Modell hingegen von geringen Nutzen, da die meisten Moleküle eine Ladungsverteilung besitzen, deren Summe Null ist, was nach Gleichung 6.2 zu einer verschwindenden Solvatisierungsenthalpie führt. Selbst für den einfachen Fall eines Ions stellt sich die Frage nach geeigneten Ionenradien. Abbildung 14 zeigt die experimentellen Werte von ∆G für einige Ionen zusammen mit den nach dem Born Modell berechneten Werten (schwarze Linie). Einige Autoren schlagen vor zu den Radien von Anionen und Kationen jeweils eine spezifische empirische Konstante zu addieren um die Übereinstimmung zu verbessern [40]. Für Moleküle mit einem Dipolmoment µ innerhalb eines kugelförmigen Hohlraums leitete Onsager folgende Gleichung ab [41]: (ε − 1)µ2 ∆G = − (2ε + 1)a3 (6.3) Diese Modelle lassen sich durch Berücksichtigung von Multipolmomenten höherer Ordnung weiter verallgemeinern. Modelle für die elektrostatische Komponente 33 Modellierung der freien Solvatisierungsenthalpie 6.2 Generalisiertes Born Modell Das generalisierte Born Modell benutzt Gleichung 6.2 für jede Einzelladung einer beliebigen Ladungsverteilung [6]: G= atoms atoms i=1 1 qi qj − εrij 2 j=i+1 atoms 1 qi2 1− ε i=1 ai (6.4) Der erste Term, der die Interaktionsenergien der Ladungen beschreibt, kann in einen Vakuumsanteil und einen Term der von ε abhängt aufgeteilt werden. G= atoms atoms atoms 1 qi2 qi qj 1 qi qj 1 1− + 1− − εrij ε i=1 j=i+1 rij 2 ε i=1 ai j=i+1 atoms atoms i=1 (6.5) Für die Änderung der Solvatisierungsenthalpie verschwindet der in Vacuo Term und man erhält die generalisierte Born Gleichung: ∆G = 1 1− ε atoms atoms i=1 qi qj 1 − r 2 j=i+1 ij 1 1− ε atoms i=1 qi2 ai (6.6) In der Formulierung nach Still [42] werden die beiden Ausdrücke aus Gleichung 6.6 in einem neuen Term vereinigt: 1 ∆G = − 8π 1 1− ε atoms i,j=1 qi qj f (rij , aij ) wobei f ein Coulombintegral der Form 2 2 f (rij , aij ) = rij + ai aj e−rij /2ai aj ist. Diese funktionelle Form garantiert die Erfüllung von drei Randbedingungen: Für i=j wird die Gleichung zur Born-Gleichung, für zwei nahe Ladungen liegen die Ergebnisse nahe den der Onsager-Gleichung und für zwei entfernte Ladungen liegen die Ergebnisse nahe an den Ergebnissen der Born Gleichung für die Einzelladungen und einem Coulomb Term. Die Berechnung der effektiven Born Radien ai werden durch numerische Integration bestimmt, so dass das zugehörige ∆G dem Wert entspricht, der im monoatomaren Fall über die Born Gleichung berechnet würde. Dieser Prozess beinhaltet die iterative Berechnung von Kugeloberflächen verschiedener Radien um jedes Atom und die Summations des Anteils der Kugeloberflächen, der nicht in der van der Waals Oberfläche des Gesamtmoleküls enthalten ist [33]. Modelle für die elektrostatische Komponente 34 Modellierung der freien Solvatisierungsenthalpie 6.3 Lösung der Poisson Gleichung In der klassischen Elektrostatik in Lösung kann das Potentialfeld in Abhängigkeit einer Ladungsverteilung ρ(r), einer Dielektrizitätskonstanten ε(r) und der Ionenstärke der Lösung über die Poisson-Boltzmann Gleichung berechnet werden [43]: ∇ [ε(r)∇φ(r)] − κ(r)2 sinh [φ(r)] = −4πρ(r) (6.7) wobei κ das Inverse der Debye Länge λ ist: κ2 = 1 8πq 2 I = λ2 ekB T und I die Ionenstärke I = 1/2 ci zi2 (6.8) (6.9) i mit ci als Konzentration des Ions i und zi als seiner Ladung. Der Sinus Hyperbolicus der Gleichung (6.7) kann in einer Taylor-Reihe entwickelt werden. Berücksichtigt man nur das erste Glied erhält man die linearisierte Form der Poisson-Boltzmann Gleichung. ∇ [ε(r)∇φ(r)] − κ2 φ(r) = −4πρ(r) (6.10) Diese kann durch eine finite Differenzen Methode numerisch nach φ(r) gelöst werden [44]. Vernachlässigt man alle ionische Effekte geht Gleichung (6.7) in die Poisson-Gleichung über: ∇ [ε(r)∇φ(r)] = −4πρ(r) (6.11) Für ε(r) werden nur zwei diskrete Werte berücksichtigt: Einer für das Innere der Molekül und einer für das Medium außerhalb. Somit ist es möglich das Problem auf der Grenzfläche zwischen den beiden Dielektrizitätskonstanten zu reformulieren und man kann die Gleichung mit einer Boundary Element (BE) Methode lösen. Wir werden die Herleitung dieser Methode in den nächsten Abschnitten im Detail erklären. Ein Vorteil dieser Methode gegenüber einem Finite-Differenzen Löser ist, dass die bei der BE Methode diskretisierte Oberfläche des Moleküls langsamer mit dem Radius wächst als das bei der Finite Differenzen Methode diskretisierte Volumen. Man vermeidet ebenfalls das Problem geeignete Randbedingungen für die Grenzen des betrachteten Volumens finden zu müssen. Modelle für die elektrostatische Komponente 35 Modellierung der freien Solvatisierungsenthalpie 6.4 Elektrostatik an der molekularen Grenzfläche Zum Zwecke eines besseren Verständnisses der folgenden Abschnitte geben wir hier einen kurzen Überblick über einige Beziehungen der klassischen Elektrostatik an einer Grenzfläche zwischen Gebieten verschiedener Dielektrika. Der Effekt eines externen elektrischen Feldes in einem Material mit einer konstanten Dielektrizitätskonstante kann durch eine Oberflächenladungsdichte an der Grenzfläche, die das Volumen des Dielektrikums abtrennt, beschrieben werden. Abbildung 16 zeigt die Oberflächenladungsdichte für das Beispiel Ethanol. Die Oberflächenladung erzeugt ein Feld (welches identisch mit dem Reaktionsfeld des Wassers ist) und verändert so das Gesamtfeld (siehe Abbildung 17). 6.4.1 Feld auf der Grenzfläche Das an einer geladenen Oberfläche S entstehende Feld E lässt sich leicht über das Gausssche Gesetz berechnen: E · n = 4π 8dV S V wobei 8 die Ladungsverteilung im von der Oberfläche S eingeschlossenen Volumen V ist. Setzt man als geschlossene Oberfläche einen infinitesimalen parallel zu n orientierten Zylinder mit der Grundfläche A an (siehe Abb. 15), ergibt sich: 2EA = 4πσA E = 2πσ (6.13) A E• n Berücksichtigt man die Oberflächenladungen der gesamten Oberfläche und zusätzliche Ladungen im von der Oberfläche eingeschlossenen Volumen ergibt sich: rv − r rv − r Abbildung 15: ρ σ Eout (r) = 3 dV + 3 ds + 2πσn (6.14) V |rv − r| S |rv − r| Berechnung des Feldes an ei6.4.2 Bestimmung der Sigma ner geladenen Wir wollen nun die an der Grenzfläche induzierte Flächenla- Oberfläche dungsdichte in Abhängigkeit vom äußeren elektrischen Feld berechnen. Ausgangspunkt der Überlegungen ist das Gausssche Gesetz der Elektrostatik (Eout − Ein ) · n = 4πσ (6.15) und die Kontinuitätsbedingung an der Grenzfläche Din · n = Dout · n Modelle für die elektrostatische Komponente 36 Modellierung der freien Solvatisierungsenthalpie Abbildung 16: Rechts: Berechnete Oberflächenladungsdichte von Ethanol. Links: Das Molekül in der selben Orientierung zum Vergleich die sich unter Verwendung von D = εE auch schreiben läßt als Ein · n = εout Eout · n εin (6.16) Einsetzen in Gleichung (6.15) liefert eine Bestimmungsgleichung für σ: σ= 6.4.3 εin − εout Eout · n 4πεin (6.17) Energie des Reaktionsfeldes Die potentielle Energie einer Ladungsverteilung ρ(r) ist, wie man leicht über die Summation der Arbeiten herleiten kann [45]: 1 ρφdV (6.18) W = 2 wobei φ das Gesamtpotential darstellt, also das Potential das durch äußere Felder und die Ladungsverteilung selbst verursacht wird. Die Änderung der freien Solvatisierungsenthalpie ist somit nAtoms 1 qi (φH − φV )dV ∆G = 2 i=1 Modelle für die elektrostatische Komponente (6.19) 37 Modellierung der freien Solvatisierungsenthalpie Abbildung 17: Elektrisches Feld um Ethanol. Links: Feld im Vakuum, Mitte: Reaktionsfeld des Wassers, rechts: Gesamtfeld im Wasser. Der Schnitt durch das Molekül erfolgte in der OCH Ebene. Die rote Linie kennzeichnet die vdW Grenzfläche in der Schnittebene φH ist hierbei das Poteintial in Lösung und φV das Potential in Vakuum, qi sind die atomaren Partialladungen. Wenn man die Potentiale in ihre durch die Punktladungen und die Polarisationsladungen erzeugten Anteile (φq und φσ ) aufteilt, erhält man: nAtoms 1 qi (φqH + φσH − φqV − φσV )dV = 2 i=1 (6.20) und da φqH = φqV nAtoms 1 = qi (φσH − φσV )dV 2 i=1 Unter Einsetzen des Potentials der Polarisationsladungen folgt somit: nAtoms 1 σH − σV ∆G = qi 2 i=1 S ri − rs ds (6.21) Für den Spezialfall, dass die Dielektrizitätskonstante im Innern des Moleküls eins ist gilt φσV = 0 (denn nach Gleichung (6.17) müssen in diesem Fall alle σ Null sein) uns somit nAtoms σH 1 (6.22) qi ∆G = 2 i=1 S ri − rs ds Modelle für die elektrostatische Komponente 38 Modellierung der freien Solvatisierungsenthalpie 6.4.4 Summe der Oberflächenladungen Aus dem Gaussschen Gesetz folgt für das Feld an der Innenseite der Grenzfläche atoms Ein · n = 4π qi S i und unter Einsetzen von Gleichung (6.16) atoms εin Eout · n = 4π qi εout S i (6.23) Durch Integration von Gleichung (6.17) über der Grenzfläche und Einsetzen von (6.23) erhält man die Summe der Oberflächenladungen εin − εout σ · ds = Eout dn 4πεin εout S S atoms 1 1 = − qi (6.24) εout εin i Die Summe der Oberflächenladungen lässt sich also direkt über die Summe der atomaren Ladungen berechnen. 6.4.5 Spezialfall Kugel Für die einfache Geometrie eines Ions mit der Ladung q und dem Radius r lässt sich anhand Gleichung (6.24) leicht ein analytischer Ausdruck für σ angeben. Da aus Symmetriegründen σ an der Kugeloberfläche konstant sein muss, ist das Flächenintegral gleich 4πr2 σ, so dass folgt: q 1 1 1 − (6.25) σ= 4π εout εin r2 Eingesetzt in Gleichung (6.21) erhält man so die freie Solvatisierungsenthalpie eines Ions mit εin = 1 nach Born, die wir in Abschnitt 6.1 bereits auf andere Weise hergeleitet hatten: 2 q 1 1 1− (6.26) ∆G = − 2 εout r Liegt die Ladung nicht im Zentrum der Kugel sondern, hat den Abstand c, lässt sich zeigen, dass die Energie folgendermaßen berechnet wird [46]: ∆G = − ∞ q 2 (n + 1)(εout − εin ) c 2n 2rεin n=0 (n + 1)εout + nεin r (6.27) Ähnliche Beziehungen lassen sich für einige weitere Spezialfälle angeben. Für allgemeine Geometrien muss allerdings die Poissongleichung gelöst werden. Modelle für die elektrostatische Komponente 39 Modellierung der freien Solvatisierungsenthalpie 6.5 6.5.1 Boundary Element Methode Herleitung Das durch die Partialladungen der Atome und Oberflächenladungen erzeugte Feld kann nach Gleichung 6.14 folgendermaßen geschrieben werden: Eout = atoms i q i · r − ri + εin (r − ri )3 s σs · r − rs ds + 2πσn (r − rs )3 (6.28) Nach Einsetzen in Gleichung (6.17) und Umformungen erhält man: σ−f s atoms qi · (r − ri )n σs · (r − rs )n ds = f (r − rs )3 εin (r − ri )3 i (6.29) wobei f eine Abkürzung ist für die Konstante f= εin − εout 2π(εin + εout ) Das Problem der Lösung der Poisson-Gleichung ist somit überführt in eine Integralgleichung zur Bestimmung von σ. Mit bekanntem σ lässt sich mit Gleichung (6.14) das Feld und mit einer analogen Beziehung das Potential berechnen. Um Gleichung (6.29) numerisch nach σ zu lösen, muss die Grenzfläche diskretisiert werden. Man teilt die Oberfläche auf in Patches mit den Oberflächenladungen σk den Normalen nk und den Flächen Ak . Aus Gleichung (6.29) wird dann: BE atoms qi · (rk − ri )nk σj · (rk − rj )nk A = f σk − f j (rk − rj )3 εin (rk − ri )3 j i (6.31) Ist NBE die Zahl der boundary elements (patches) so erhält man mit Gleichung (6.31) ein System aus NBE linearen Gleichungen für die σk . (I − f K) σ = e (6.32) mit I als Einheitsmatrix, σ als Vektor der Oberflächenladungen, e als Vektor des Feldes der atomaren Partialladungen und K als Koeffizientenmatrix. Die Elemente von e sind nach Gleichung (6.29): ek = f atoms i qi · (rk − ri )nk εin (rk − ri )3 (6.33) Die Koeffizienten von K sind: Kkj = f (rk − rj )nk Aj (rk − rj )3 Modelle für die elektrostatische Komponente (6.34) 40 Modellierung der freien Solvatisierungsenthalpie Diese Gleichung ist offensichtlich nicht gültig für die diagonalen Elemente (i = j). Zauhar [47] setzte bei der Einführung der Methode die Diagonalelemente gleich Null was bedeutet, dass der Eigenbeitrag des Feldes eines Elements nur aus 2πσ besteht und zusätzliche Beiträge durch die Krümmung der Fläche unberücksichtigt bleiben. Diese Darstellung kann allerdings zu Matrizen führen deren iterative Lösung nicht robust ist. Purisima [46] leitete einen semianalytischen Ansatz her, mit dem sich die Diagonalelemente als Linearkombination der Nichtdiagonalelemente darstellen lassen, was eine zeitlich effiziente Berechnung ermöglicht und gleichzeitig die Robustheit der Methode erhöht: Kkk = 2π − Kjk j=i Aj Ak (6.35) In Gleichungen (6.33)-(6.35) sind alle Größen bekannt und das Gleichungssystem (6.32) kann somit nach σ gelöst werden. 6.5.2 Lösung des Gleichungssystems Die Lösung des Gleichungssystems 6.32 über Gauss-Elimination ist aufgrund der möglichen Dimension des Systems ineffizient. Da K diagonal dominant ist, eignen sich hingegen Jacobi und Gauss Seidel Iteration für diese Aufgabe. Löst man jede Zeile i eines Gleichungssystem Ax = b nach xi auf, erhält man x1 = (b1 − a12 x2 − . . . − a1n xn )/a11 .. . xn = (bn − an1 x1 − . . . − ann−1 xn−1 )/ann (6.36) Beginnend von einer geratenen Ausgangslösung x0 , lässt sich die Lösung des (k+1)ten Iterationsschrittes xk+1 jeweils berechnen, indem man die Lösung des k-ten Schrittes xk auf der rechten Seite einsetzt. Dies ist die Jacobi Iteration und die Iterationsformel lautet: xk+1 i = bi − j<i aij xkj − j=1 n aij xkj (6.37) j=i+1 bereits für die BerechWenn die im aktuellen Iterationsschritt berechneten xk+1 i k+1 nung der folgenden xj (mit j > i) verwendet werden, erhält man die Gauss-Seidel Iteration: j<i n k+1 k+1 aij xj − aij xkj (6.38) x i = bi − j=1 j=i+1 Eine Variante der Gauss-Seidel Iteration ist die ‘Successive Overrelaxation’, bei der ein gewichtetes Mittel zwischen dem Wert der aktuellen Gauss Seidel Iteration Modelle für die elektrostatische Komponente 41 Modellierung der freien Solvatisierungsenthalpie und dem letzten Iterationsschritt berechnet wird: j<i n xk+1 = ω bi − aij xk+1 − aij xkj + (1 − ω)xki i j j=1 (6.39) j=i+1 wobei ω ein Wichtungsfaktor ist, für den gilt 1 ≤ ω ≤ 2. Die Bestimmung eines ω für das die Methode am schnellsten konvergiert ist hierbei nichttrivial und lässt sich nur für einige Fälle analytisch angeben. Unsere Implementierung des Boundary Element Lösers beruht auf der Formulierung nach Purisima [46]. Um Speicher sowie Rechenaufwand zu beschränken wählten wir für alle Variablen einfache Fließkommagenauigkeit. Zur Lösung des linearen Gleichungssystems wurden iterative Jacobi und Gauss-Seidel Löser implementiert. Der Gauss-Seidel-Löser konvergiert um eine Größenordnung schneller, ist allerdings im Gegensatz zur Jacobi-Iteration bei der jede Zeile des Gleichungssystems unabhängig voneinander bearbeitet werden kann, schlechter parallelisierbar. Bei der Verwendung von ‘Successive Overrelaxation’ konnten wir kein ω finden dass konstant eine bessere Konvergenz als die Gauss-Seidel Iteration ermöglicht. Alternativ lässt sich das Gleichungssystem auch durch Verwendung der LAPACKBibliothek lösen. Die von LAPACK benutze Matrix Inversion ist erheblich langsamer als die iterativen Methoden, eignet sich aber gut um zu vergleichen, ob die Iteration in einfacher Fließkommagenauigkeit zu numerischen Fehlern führt. Als Grenzfläche benutzte Purisima die vdW Fläche. In unserer Implementierung lässt sich alternativ die SES wählen. 6.5.3 Vergleich mit theoretischen Ergebnissen Born Um die Korrektheit der Implementierung und Exaktheit der Ergebnisse zu überprüfen haben wir die BE-Methode auf Geometrien angewendet für deren Reaktionsfeldenergien analytische Ausdrücke existieren. Es wurde zunächst eine zentral in einer Kugeloberfläche gelegene Ladung untersucht, für die sich ∆Gelektr mit Gleichung (6.26) berechnen lässt. Die Ladung wurde gleich 1 gesetzt, die Dreieckskantenlänge auf 0.2Å, εout = 78.5 und εin = 1. Der Radius wurde nun von 1.0Å bis 2.0Å in 0.1Å Schritten variiert. Die iterative Lösung des Gleichungssystems wurde jeweils nach 10 Iterationsschritten abgebrochen. Die Summe der Oberflächenladungen ergibt sich nach Gleichung (6.24) zu σtheoretical = −.9873. Die Tabelle 3 zeigt die theoretisch berechneten Reaktionsfeldenergien (∆Gtheor ), die per BE berechneten Energien (∆G) und Oberflächenladungssummen ( σ) und die absoluten Fehler für beide. Zusätzlich haben wir als Vergleich den Finite Differenzen Poisson Löser APBS [48] benutzt in der Parametrisierung die als Beispiel dem Programm beiliegt. Die so berechneten Energien befinden sich in der Spalte ∆GAP BS . Für die Energie ergab sich ein mittlerer relativer Fehler von 0.66% und für die Summe der Polarisationsladungen von 0.28%. Um zu sehen welchen Einfluss Modelle für die elektrostatische Komponente 42 Modellierung der freien Solvatisierungsenthalpie r ∆Gtheor ∆GAP BS ∆G 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 -163.9129 -149.0117 -136.5941 -126.0868 -117.0806 -109.2752 -102.4455 -96.4193 -91.0627 -86.2699 -81.9564 -163.7600 -158.5703 -141.0583 -130.0520 -116.7373 -113.4457 -104.8637 -96.8167 -94.1739 -88.2046 -83.3930 -166.0156 -150.6490 -137.8327 -127.0505 -117.8428 -109.8888 -102.9477 -96.8477 -91.4206 -86.5727 -82.2140 σ ∆Gerror -.9927 -.9919 -.9911 -.9905 -.9900 -.9896 -.9893 -.9891 -.9889 -.9887 -.9886 -2.1027 -1.6373 -1.2387 -.9637 -.7622 -.6136 -.5022 -.4283 -.3579 -.3027 -.2575 σerror -.0054 -.0046 -.0038 -.0032 -.0028 -.0024 -.0021 -.0019 -.0017 -.0015 -.0013 Tabelle 3: Berechnete Energien und Polarisationsladungen für eine Ladung im Zentrum einer Kugel die iterative Lösung des Gleichungssystems hat, haben wir alternativ das System mit dem Lineare-Algebra-System LAPACK gelöst und erhielten geringfügig bessere Ergebnisse von 0.56% mittleren relativen Fehler für ∆G und 0.19% für die Oberflächenladungssumme. Der finite Differenzen Löser APBS lieferte Reaktionsfeldenergien mit einem mittleren relativen Fehler von 2.40%. Ladung in einer Kugel Als Test einer nicht kugelsymσcalc c Ecalc ∆E ∆ σ metrischen Geometrie benutzten wir analog zu Purisima [46] eine Ladung 0.0 -18.2996 -.9893 -.0870 -.0020 die in einem Abstand c vom Zen- 1.0 -18.5281 -.9893 -.0893 -.0020 trum einer Kugeloberfläche entfernt 2.0 -19.2496 -.9893 -.0970 -.0020 ist. Die Reaktionsfeldenergie dieses 3.0 -20.5861 -.9892 -.1119 -.0020 Problems lässt sich mit Gleichung 4.0 -22.8037 -.9892 -.1385 -.0019 (6.27) berechnen. Ladung und Di- 5.0 -26.4735 -.9891 -.1880 -.0019 elektrizitätskonstanten wurden wie 6.0 -32.9666 -.9890 -.2939 -.0018 oben verwendet. Die Dreieckskan- 7.0 -46.4618 -.9889 -.5904 -.0016 tenlänge wurde auf 1.1Å und der Ra- 8.0 -88.4503 -.9890 -2.3136 -.0017 dius der Kugel auf 9.0Å gesetzt. Die Parametrisierung ist somit vergleich- Tabelle 4: Berechnete Energien und Polarisationsladungen für eine Ladung in einer Kugel bar mit dem von Purisima durchgeführten Test. Die Tabelle 4 zeigt die Ergebnisse. Der mittlere relative Fehler für ∆G für diesen Test war 0.91% und für die Summe der Polarisationsladungen 0.19%. Modelle für die elektrostatische Komponente 43 Modellierung der freien Solvatisierungsenthalpie Die Abweichungen vom theoretischen Wert sind etwas größer als die von Purisima erhaltenen, was insbesondere bei kleinen c auffällt, für die Purisima eine Genauigkeit von 5 Nachkommastellen erreichte. Dies ist darauf zurückzuführen, dass unsere Methode lediglich in einfacher Fließkomma Präzision rechnet. Die durch solche technischen Vereinfachungen eingeführten Fehler sind allerdings noch immer so klein, dass sie gegenüber Fehlern die durch Unsicherheiten der Parametrisierung des Moleküls verursacht werden, vernachlässigt werden können. Wir werden hierauf im Abschnitt 6.5.6 näher eingehen. 6.5.4 Triangulierung, Genauigkeit und Zeitabhängigkeit Die obigen Ausführungen haben gezeigt, dass die Methode äußerst exakte Ergebnisse liefern kann. Wir wollen im folgenden die Frage klären wie fein die Triangulierung der Grenzfläche sein muss um akzeptable Genauigkeit zu erreichen und wie sich der Zeitaufwand der Rechnung zu dieser Feinheit und zur Molekülgröße verhält. Die Komplexität der Berechnung in Abhängigkeit von der Zahl der Boundary Elements NBE lässt sich leicht angeben: Die Berechnung der Matrixelemente Kij 2 erfolgt mit der Komplexität O(NBE ). Die Gauss-Seidel Iteration besitzt die gleiche Komplexität. Der Speicherbedarf, der notwendig ist, um die Matrix K im Speicher 2 Bytes (bei Verwendung von floats). Für ein globulares Molekül zu halten, ist 4∗NBE mit dem Radius r nimmt die Oberfläche und somit auch NBE mit r2 zu. Sowohl Zeitaufwand als auch Speicherbedarf nehmen also mit r4 zu was die Notwendigkeit einer möglichst groben Triangulierung verdeutlicht. Wie kritisch sich die Triangulierungsgenauigkeit auf die Qualität der Ergebnisse auswirkt, hängt im wesentlichen davon ab, wie nahe die Ladungen an der Oberfläche liegen. Moleküle mit vielen Ladungen nahe der Oberfläche (insb. Atome mit kleinen van der Waals Radien) reagieren besonders sensibel. Um eine möglichst allgemeine Aussage treffen zu können, haben wir die per BE Methode gewonnen Reaktionsfeldenergie von insgesamt 61 kleinen Moleküle in Abhängigkeit der Dreieckskantenlängen untersucht. Als Abbruchskriterium der Gauss-Seidel Iteration wurde eine Abweichung der Reaktionsfeldenergie von weniger als 0.1% vom letzten Iterationsschritt verlangt oder eine Iterationszahl von mehr als fünfzig. Als genaueste Triangulierung wählten wir eine Kantenlänge von 0.2Å. Die Kantenlänge wurde in 0.1Å vergrößert und der mittlere relative Fehler der Reaktionsfeldenergie vom Referenzwert bei 0.2Å berechnet. Die Tabelle in Abbildung 18 zeigt die Ergebnisse. Die Abweichungen vom Referenzwert waren hierbei grundsätzlich negativ (man vergleiche dazu auch die Ergebnisse aus Abschnitt 6.5.3). Allgemeiner formuliert liefert die BE Methode nur untere Grenzen der Reaktionsfeldenergie, die bei unendlich feiner Diskretisierung in den theoretischen Wert übergehen. Dies liegt daran, dass mit abnehmender Triangulierungsgenauigkeit die Flächen größer werden (man stelle sich zur Illustration vor, dass die Oberfläche bei feinster Triangulierung durch eine Kugel und bei gröbster durch einen Quader dargestellt wird). Mit zunehmenModelle für die elektrostatische Komponente 44 Modellierung der freien Solvatisierungsenthalpie l Zeit 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 56.40 12.02 3.72 1.56 0.83 0.52 0.32 0.25 0.21 0.17 0.15 0.14 0.13 0.10 Fehler r 0.00 1.000 1.18 1.000 3.08 1.000 6.00 0.999 9.54 0.998 13.47 0.996 20.12 0.991 27.27 0.988 37.50 0.969 44.49 0.970 55.99 0.932 65.42 0.930 73.00 0.873 102.37 0.867 Abbildung 18: Mittlere Rechenzeit t pro Molekül (in sec) und Korrelationskoeffizient r in Abh. der Dreieckskantenlänge l (in Å) für die BE Methode. Die Tabelle zeigt zusätzlich den mittleren relativen Fehler (in %) der Oberfläche erhält man bei ähnlicher Oberflächenladungsdichte ein artifiziell erhöhtes Reaktionsfeld. Da der Fehler also gerichtet ist, ist der mittlere relative Fehler zunächst noch kein aussagekräftiges Maß für die Ungenauigkeit der Berechnung. Für jede Kantenlänge ließe sich ein Skalierungsfaktor finden, um so den gerichteten Fehler auszugleichen. Entscheidendes Kriterium der Qualität ist hingegen wie gut die Ergebnisse einer bestimmten Kantenlänge mit den Referenzwerten korrelieren. Wir haben deshalb für alle Kantenlängen Korrelationskoeffizienten berechnet. Diese sind in Abbildung 18 zusammen mit den mittleren Rechenzeiten pro Molekül gegen die Dreieckskantenlängen aufgetragen. Bis zu einer Kantenlänge von 0.5Å korrelieren die Ergebnisse nahezu perfekt mit den Werten bei feinster Triangulierung. Starke Abweichungen ergeben sich ab einer Kantenlänge von 1Å. Ein vernünftiger Kompromiss zwischen Genauigkeit und Geschwindigkeit sollte also in diesem Intervall gewählt werden. 6.5.5 Zusammenfassung von Dreiecken zu Patches Bei hinreichend genauer Triangulierung ergibt sich schon bei Proteinen mittlerer Größe eine so große Zahl von BE, dass die oben beschriebene Methode nicht mehr praktikabel ist. Eine Reihe von Verbesserungen beschäftigen sich damit die Berechnung der Koeffizientenmatrix und die Lösung des Gleichungssystem zu vereinfachen um so die Methode zeitlich effizienter zu machen, beispielsweise durch Verwendung von Multipol-Approximationen [49]. Ein direkterer Ansatz, der zudem auch den Speicherbedarf der Matrix verringert ist es hingegen die Zahl der Modelle für die elektrostatische Komponente 45 Modellierung der freien Solvatisierungsenthalpie Abbildung 19: Adaptive Paritionierung der Oberfläche mit Metis, gezeigt sind Schritte 2-4 am Beispiel des Moleküls Ethanol BE zu verringern. Totrov [50] implementierte einen BE-Löser bei dem alle zu einem Atom gehörenden Dreiecken zu einem BE zusammengefasst werden. Somit wird die Zahl der BE stark reduziert während die Genauigkeit der Triangulierung beibehal ergeben sich ten wird. Der neue Feldvektor e und die neue Koeffizientenmatrix K dann einfach aus der Summation aller zu einem Patch gehörender Dreiecke: ij = K triangles of patch i triangles of patch i Kik k e i = ej (6.40) j Totrov testete das Verfahren an 200 verschiedenen Konformationen eines Peptids mit 23 Residuen und fand eine sehr gute Übereinstimmung mit den exakten Ergebnissen (rmsd 0.68kcal/mol). Wir haben das Verfahren an 213 kleinen Molekülen getestet fanden jedoch nur einen Korrelationskoeffizienten von 0.904 mit dem per vollständiger BE Methode berechneten Wert. Das von Totrov vorgeschlagene Verfahren lässt sich für beliebige Teilbereiche der Oberfläche verallgemeinern. Eine sinnvolle Verbesserung der Methode ist es für all die Patches, bei denen die Änderung der Oberflächenladung zu den benachbarten Patches gross ist, die Aufteilung der Oberfläche zu verfeinern und die Berechnung zu wiederholen. Wir erzeugten hierfür einen Graphen der die Nachbarschaftsbeziehung der Patches definiert. Die Änderungen der Oberflöchenladungsdichten wurde für alle Nachbarn untersucht. Ausgewählt wurden die Hälfte der Patches bei denen die Änderung am größten ist. Ausganspunkt ist das von Totrov beschriebene Patching per Atom. Dieser von uns entwickelte Algorithmus passt die Feinheit der Boundary Elements also adaptiv der Polarisationsstruktur auf der Oberfläche an. Hierfür müssen die jeweiligen Patches in etwa gleichförmige und gleichgroße Bereiche von Dreiecken aufgeteilt werden. Zu diesem Zweck benutzten wir das von Karypis an der Universität von Minnesota entwickelte Graphenpartitionierungssystem Metis [51]. Abbildung 19 zeigt 3 Verfeinerungsschitte am Beispiel Ethanol. Der stark geladene Teil des Moleküls befindet sich rechts oben. Durch die Verfeinerung werden Modelle für die elektrostatische Komponente 46 Modellierung der freien Solvatisierungsenthalpie die Patches successive aufgeteilt, aus denen starke Feldänderungen auftreten. Die Oberflächenpatches über den weitgehend ungeladenen Bereichen links unten verbleiben in relativ grober Aufteilung. Man beachte, dass die Farben der unveränderten Patches sich in den Abbildungen ändern können, da jede Oberfläche neu mit einem 4-Farben Algorithmus eingefärbt wurde. Wie wiederholten den Test mit den 213 Molekülen und mit einer Zahl von adaptiven Verfeinerungsschritten von 3. Die so erhaltene Korrelation liegt bei r = 0.996. 6.5.6 Molekülparametrisierung Die in Kapitel 6.5.3 gezeigte ausgezeichnete Übereinstimmung der per BE gewonnenen Reaktionsfeldenergien mit den theoretischen Werten, lässt sich leider nicht auf praktische Anwendungsfälle übertragen. Hierfür gibt es im wesentlichen zwei Gründe: • Uneindeutigkeit der Grenzfläche • Uneindeutigkeit einer Dielektrizitätskonstanten in molekularer Dimension Die bei der BE Methode verwendete Grenzfläche wird durch die vdW-Radien der Atome bestimmt. Da allerdings die mit unterschiedlichen experimentellen Methoden gewonnenen vdW-Radien zum Teil deutlich voneinander abweichen, ist durch diese Uneindeutigkeit auch die Genauigkeit der Methode beschränkt. Zudem ist das Konzept der Verwendung der vdW-Fläche als Grenzfläche zwischen den Dielektrika nicht zwingend. So können in der Oberfläche schmale Spalten oder Höhlungen auftreten in die keine Wassermoleküle passen. Die für diese Räume angenommene hohe Dielektrizitätskonstante ist somit nicht gerechtfertigt. Probleme dieser Art werden mit der Verwendung der Solvent-Accessible-Surface verhindert. Da bei dieser Grenzfläche die vdW-Radien um den Radius des Lösungsmittelmoleküls erweitert sind, findet man auf der Grenzfläche nur Punkte auf denen tatsächlich das Zentrum von Lösungsmittelmolekülen liegen kann. Die von uns durchgeführten Tests mit Verwendung von SAS Grenzflächen führten jedoch zu einem deutlich schlechteren Korrelationskoeffizienten zwischen Reaktionsfeldenergie und experimentell bestimmten Gesamtsolvatisierungsenergien. Gegenüber der SAS hat die Solvent-Excluded-Surface den Vorteil, dass sie nicht das Zentrum der ersten Solvathülle, sondern die Grenzfläche zwischen den Atomvolumina des Moleküls, erweitert durch dem Lösungsmittel nicht zugänglicher Volumina in Spalten, und dem Lösungsmittelvolumen berechnet. Tatsächlich findet man für kleine Moleküle eine geringfügig bessere Korrelation. Wir werden im folgenden für unsere BE Methode aus diesem Grunde die SES verwenden. Der zweite Problembereich bei der Parametrisierung des Moleküls ist die Angabe einer Dielektrizitätskonstanten im Inneren des Moleküls. Da die Dielektrizitätskonstante als makroskopische Eigenschaft von Materie definiert ist, ist die Angabe auf atomare Ebene nicht eindeutig. Man behilft sich hierbei, indem man für εin Modelle für die elektrostatische Komponente 47 Modellierung der freien Solvatisierungsenthalpie l Zeit Fehler r 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 3.89 1.05 0.51 0.30 0.21 0.16 0.14 0.12 0.11 0.11 0.09 0.09 0.08 0.08 0.08 0.00 0.78 2.09 4.18 7.26 10.95 15.11 21.75 28.63 43.16 50.07 71.06 82.37 108.21 143.12 1.000 1.000 1.000 1.000 0.999 0.998 0.997 0.993 0.990 0.974 0.976 0.947 0.942 0.898 0.896 Abbildung 20: Mittlere Rechenzeit t pro Molekül (in sec) und Korrelationskoeffizient r in Abh. der Dreieckskantenlänge l (in Å) für die ZIBPCM Methode. Die Tabelle zeigt zusätzlich den mittleren relativen Fehler (in %) einen Wert im Bereich von 1 − 2 für kleine organische Moleküle und von 2 − 4 für Proteine wählt. Eine Verdopplung von εin von 1 auf 2 führt aber bereits zu einer Halbierung der Reaktionsfeldenergie. Die durch diese Uneindeutigkeit entstehenden Fehler sind somit erheblich, können jedoch für einen bestimmten Molekültyp durch eine Skalierungskonstante behoben werden. Neben dem allgemeinen Wert der Dielektrizitätskonstanten ist auch die für die BE Methode notwendige Annahme ihrer Homogenität anzuzweifeln. Bereiche des Moleküls in denen bewegliche polare Gruppen ein verschiebbares Dipolmoment darstellen müssten mit höheren εin berücksichtigt werden als ungeladene oder aufgrund sterischer Zwänge vollkommen starre Molekülbereiche. Eine inhomogene Verteilung der Dielektrizitätskonstante ließe sich allerdings effektiv nur mit der Finite Differenzen Methode berücksichtigen. 6.6 ZIB Polarization Charge Modell Aufgrund der in Kapitel 6.5.4 beschriebenen Zeit- und Speicherprobleme und der in der Kapitel 6.5.6 beschriebenen Parametrisierungsunsicherheiten erscheint es angebracht die Anwendbarkeit einfacherer Methoden zu überprüfen. In dem von uns verwendeten Modell behalten wir die detaillierte Beschreibung der Geometrie der Grenzfläche bei, vernachlässigen aber die Kopplung zwischen den einzelnen Oberflächenladungen der Grenzfläche. Hierzu werden die Oberflächenladungen auf die Werte des Feldes gesetzt und Modelle für die elektrostatische Komponente 48 Modellierung der freien Solvatisierungsenthalpie die resultierende Reaktionsfeldenergie ist EZIBP CM nAtoms 1 = qi 2 i=1 S nAtoms j=1 qi ·r−rj ε(r−rj )3 ri − rs ds (6.41) Das Modell entspricht einer Boundary Element Methode mit null Iterationsschritten. Der so erhaltene Wert EZIBP CM ist in jedem Fall negativer als der exakte Wert, da die Abschwächung der Polarisationsladungen durch gegenseitige Beeinflussung unberücksichtigt bleibt. Unsere Tests zeigen aber, dass dieser Effekt sich durch einen konstanten Faktor ausgleichen lässt, die relative Veränderung von EP CM durch gegenseitige Beeinflussung der Polarisationsladungen also bei allen Molekülen in etwa gleich ist. Wir haben für diese Methode den selben Test für die Triangulierungsgenauigkeit und Zeitabhängigkeit wiederholt wie für die BE Methode (Abbildung 6.6) und vergleichbare Ergebnisse gefunden. Sowohl für die BE als auch für die PCM Methode werden wir im Folgenden eine Dreieckskantenlänge von 0.7Å verwenden. Modelle für die elektrostatische Komponente 49 Modellierung der freien Solvatisierungsenthalpie 7 Anwendung auf kleine Moleküle Die Zielsetzung unserer Modellierungsbemühungen soll die Beurteilung von Solvatisierungsenergien für Protein-Ligand Komplexe sein, allerdings sind für solche Systeme nur wenige experimentelle Werte erhältlich. Wir haben daher zunächst die Entwicklung unserer Modellierung an einer Testreihe kleiner Moleküle vollzogen, für die ∆Gsolv bekannt ist, um so die Modellierungsqualität optimal beurteilen zu können. Es handelt sich hierbei um einen Teil des Testsatzes, den Chambers zur Parametrisierung der SMX-Solvatisierungsmodelle verwendet hat [29]. Für alle 213 verwendeten Moleküle existieren experimentell bestimmte Überführungsenergien für den Octanol/Wasser Übergang. 7.1 Ergebnisse mit ASP In Kapitel 5.2 wurden Atomic Solvation Parameter als Methode zur Modellierung von entropischen und dispersiven First-Solvation-Shell Effekten eingeführt. Aufgrund der Einfachheit des Modells findet man in der Literatur eine Vielzahl von ASP Sätzen die anhand der Gesamtsolvatisierungsenergie parametrisiert wurden, also den Anspruch stellen auch elektrostatische Effekte modellieren zu können. Wir wollen im folgenden einen geeigneten ASP-Satz aus der Literatur anwenden und eine neue Parametrisierung berechnen um so die Qualität einer solch einfachen Modellierung diskutieren zu können. 7.1.1 Oons Für die zu untersuchenden kleinen Moleküle eignet sich besonders der von Ooi [52] entwickelte ASP Satz (im folgenden oons, siehe Tabelle 5). Ooi benutzt sieben Atomtypen und fittete mit experimentellen Solvatisierungsenergien kleiner organischer Moleküle. Da einige der in unserem Testsatz vorhandenen Moleküle von Ooi zum Fitting benutzt wurden, sollte sich eine gute Übereinstimmung ergeben. Cramer [33] benutzte in einer Vergleichs studie die von Ooi berechneten Werte für cal radius ∆Gsolv . Für diesen Satz aus 26 Molekülen Atomtyp molÅ2 berechnete er einen Korrelationskoeffizien- C (-nyl,-oxyl) 427 1.55 ten mit experimentellen Ergebnissen von C (aromatisch) -8 1.75 r=0.967 sowie Regressionskoeffizienten von C (andere) 8 2.00 0.98 als Steigung und 0.07 als Konstante. N -132 1.55 Wir haben für die selbe Testreihe die Werte O (-nyl,-oxyl) -38 1.40 mit unserer Implementierung der oons Ener- O (andere) -172 1.40 gieberechnung neu berechnet und vergleich- S -21 2.00 bare Ergebnisse gefunden: r=0.969, Steigung=1.03, Konstante=0.20. Zusätzlich ha- Tabelle 5: Parametrisierung des oons ben wir nun die Berechnung auf unseren ge- ASP Satzes samten Testsatz ausgedehnt, mit der AusAnwendung auf kleine Moleküle 50 Modellierung der freien Solvatisierungsenthalpie nahme aller Moleküle, die ein Halogen enthalten, da der oons ASP-Satz für Halogenatome keine Parameter enthält. Für diese 159 Moleküle erhielten wir: r=0.482, Steigung=0.29, Konstante=-2.54. Abbildung 21 zeigt die Korrelation als Scatterplot, die berechneten Werte für alle Moleküle finden sich in Tabelle 16 im Anhang. Bei der Analyse der Ergebnisse zeigt sich, dass sich insbesondere für Aldehyde sowie für einige weitere HCO Verbindungen starke positive Abweichungen ergeben. Untersucht man diese Moleküle genauer stellt man fest, dass bei ihnen die SASA von acylischen Kohlenstoffen besonders groß ist. Dass dies zu einer stark erhöhten Solvatisierungsenthalpie führt, liegt an dem ASP Wert von 427cal/molÅ2 für Kohlenstoffe in dieser Position. Berücksichtigt man, dass die Kohlenstoffe in acylischer Position eine hohe positive Partialladung tragen, wäre zu erwarten, dass ihre SAS Flächen aufgrund der damit einhergehenden großen Polarisationseffekte einen negativer Beitrag zu ∆G leisten. Dass der Wert hingegen positiv und zusätzlich um Größenordnungen höher ist als der für Kohlenstoffe in alkylischer Position macht aus physikalischer Sicht wenig Sinn. Besonders starke negative Abweichung ergeben sich für die anorganischen Moleküle sowie für die Nitrohydrocarbone. Grund hierfür sind offenbar zu negative Parameter für Sauerstoff und Stickstoffatome. Betrachtet man positive und negative Abweichungen gemeinsam, kommt Atomtyp r ASP Std. Err Sig. man zum Ergebnis, dass elektrostati1.55 -2.1 0.9 .016 sche Effekte von Sauerstoff und Stick- CH 1.75 21.4 34.5 .536 stoffatomen überbewertet werden und CYL 2.00 -9.9 1.9 .000 dieser Fehler in der Parametrisierung CA N 1.55 -86.2 7.8 .000 für den benachbarten Kohlenstoff teil1.4 -76.5 12.6 .000 weise kompensiert wird, was zu dem OYL 2 OH 1.4 -73.7 6.6 .000 unsinnigen Wert von 427cal/molÅ 2.00 -12.3 7.0 .080 führt. Dies ist ein Beispiel für die S 1.46 4.2 4.3 .334 Probleme, die beim Versuch entste- F CL 1.76 -3.2 3.1 .302 hen elektrostatische Effekte in einem 1.87 -7.0 4.8 .143 First-Solvation-Shell Modell implizit zu BR I 2.03 -5.7 6.4 .370 berücksichtigen. 7.1.2 Neue Parametrisierung Tabelle 6: Parametrisierung des ASP Satzes Die Parametrisierung des Oons ASPSatzes wurde an wenigen relativ einfachen Molekülen vollzogen. Die Moleküle, die in unserer Studie Berücksichtigung finden, beinhalten eine größere Vielfalt von funktionellen Gruppen. Um einen sinnvollen Vergleich des ASP Modells mit anderen Methoden zu ermöglichen, ist es erforderlich eine neue Parametrisierung unter Verwendung des gesamten Testdatensatzes vorzunehmen. Wir benutzten dafür die sieben Atomtypen des Oons ASP-Satzes und zusätzlich 4 Atomtypen für die Halogenatome und berechneten die SAS-Flächen für jeden Anwendung auf kleine Moleküle 51 Modellierung der freien Solvatisierungsenthalpie Aldehydes Nitrohydrocarbons Abbildung 21: Korrelation zwischen per oons ASP Satz und experimentell bestimmter Solvatisierungsenergie. dieser Typen. Wir fitteten nun mit den experimentellen Daten (lineare Regression durch den Ursprung). Als Korrelationskoeffizienten zwischen berechneten und experimentellen ∆G erhielten wir wir 0.746. Tabelle 6 zeigt die Ergebnisse für die Regressionskoeffizienten. Die Korrelation dieser Parametrisierung, die wir im Folgenden mit ZIBASP1 bezeichnen werden, ist für unseren Datensatz also deutlich besser als die der OonsParametrisierung. Der hohe Parameter für Acyl-Kohlenstoffe wurde um eine Größenordnung kleiner, so dass nun die Ergebnisse für Aldehyde akzeptabel sind. Überraschend ist hingegen, dass nur die Parameter für Acyl-C und Fluor positiv sind. Aus physikalischer Sicht sollte der Alkyl-Wert der positivste sein. Gerade bei diesen beiden Parametern ist auch die Signifikanz der Regression besonders schlecht. Bei genauerer Untersuchung der Ergebnisse findet man, dass erneut für die anorganischen Moleküle und Nitroverbindungen zu negative Werte berechnet werden. Offenbar tritt in dieser Parametrisierung ein ähnliches Problem wie beim oons-Satz auf und die mangelhafte Anwendbarkeit der Modellierung auf die elektrostatische Effekte führt zu einer physikalisch unsinnigen Verzerrung der Parametrisierung. Aufgrund der erhaltenen Ergebnisse muss angezweifelt werden, dass eine ASP Anwendung auf kleine Moleküle 52 Modellierung der freien Solvatisierungsenthalpie Parametrisierung alleine geeignet ist die Solvatisierungsenthalpie für eine größere Gruppe von Molekülen zu berechnen. Gute Übereinstimmung ergibt sich im Fall der untersuchten oons-Satzes nur für Molekültypen, die auch für die Parametrisierung verwendet wurden, Übertragbarkeit der Parameter auf neue Molekülklassen ist nicht gewährleistet. Selbst bei Parametrisierung mit einer großen und repräsentativen Menge von Molekülen kommt es zu Parametrisierungen, die aus physikalischer Sicht zweifelhaft sind. Die wesentliche Schwachstelle der vorhandenen ASP Sätze ist die fehlende (bzw. nur implizite) Berücksichtigung elektrostatischer Effekte. Wir werden in den folgenden Kapiteln überprüfen ob nach Abtrennung dieser Effekte, der Restanteil von ∆G zuverlässig per ASP berechnet werden kann. alkanes nitrohydrocarbons Abbildung 22: Korrelation zwischen per ZIBASP1 Satz und experimentell bestimmter Solvatisierungsenergie. 7.2 Ergebnisse der BE Methode Zunächst muss darauf hingewiesen, dass die experimentellen Daten die Gesamtsolvatisierungsenergien darstellen, während die BE Methode lediglich den elektrostatischen Anteil der Reaktionsfeldenergie berechnet. Die absoluten Werte sind also nicht vergleichbar. Trotzdem sollte eine deutliche Korrelation der beiden Wertereihen erkennbar sein. Anwendung auf kleine Moleküle 53 Modellierung der freien Solvatisierungsenthalpie acyclic alkanes aliphatic amines alcohols aliphatic amines amides 1-chloro-2,2,2-trifluoroethyldifluoromethyl-ether Abbildung 23: Korrelation zwischen experimentell und per BE bestimmter Solvatisierungsenergie. Die rote Linie zeigt die Regressionsgerade, die schwarze Linie zeigt eine ideale Übereinstimmung. Die Berechnungen wurden mit einer Dreieckskantenlänge von 0.3Å O 1.58 durchgeführt, der Wert von εin wurde auf 2, εout auf 78.3 gesetzt. H 1.10 Abbruchskriterium der iterativen Lösung des Gleichungssystems war C 1.77 eine Abweichung von ∆G von weniger als 5cal/mol vom Wert des N 1.64 letzten Iterationsschrittes. N 1.55 Die Berechnung wurde unter Verwendung der vdW-Fläche und P 1.90 der SES durchgeführt. Für die Wertereihe mit vdW-Fläche erhält S 1.81 man einen Korrelationskoeffizienten von r=0.775, für die SES-Fläche F 1.46 r=0.812. Cl 1.76 Abbildung 23 zeigt die Wertepaare der experimentellen Solvati- Br 1.87 sierungsenthalpie unter Verwendung der SES und der berechneten I 2.03 Reaktionsfeldenergie als Scatterplot. Die Regressionsgerade hat die Form ∆Gexp = 1.186∆GBE + 1.137. Tabelle 7: Die Reaktionsfeldenergie ist grundsätzlich negativ und der Wert für vdWalle ungeladenen Moleküle ist Null. Daher befinden sich die ungela- Radien denen Kohlenwasserstoffverbindungen mit positiver experimenteller Anwendung auf kleine Moleküle 54 Modellierung der freien Solvatisierungsenthalpie Solvatisierungsenthalpie alle auf der Nulllinie der berechneten Reaktionsfeldenergie. Idealerweise wäre zu erwarten, dass die Reaktionsfeldenergie etwas negativer als die experimentelle Solvatisierungsenergie ist, da der bei der Berechnung unberücksichtigte entropische Effekt ein positiver Anteil ist. Dies ist allerdings nicht durchgehend der Fall, positive sowie negative Abweichungen halten sich die Waage. Besonders starke negative Abweichungen ergeben sich für die Moleküle mit Halogenatomen was vermutlich an den Vakuumpartialladungen der MMFF Parametrisierung und an den oben beschriebenen Parametrisierungsproblemen der Atomradien liegt. Positive Abweichungen ergeben sich insb. für aliphatische Amine, Amide und Alkohole. Diese Molekülklassen sind starke H-Brückenbilder und es liegt die Vermutung nahe, dass die Ursache in diesem unberücksichtigten Anteil zu finden ist. Um diese Zusammenhänge zu überprüfen haben wir die Zahl der gebildeten HBrücken durch die Zahl der sich an der Oberfläche befindlichen Donoren und Akzeptoren approximiert. Tabelle 16 im Anhang zeigt die erhaltenen Werte. Wir führten nun Regressionen mit unterschiedlichen unabhängigen Variablen und ∆Gexp als abhängiger Variable durch. Die folgende Tabelle enthält die sich so ergebenen Korrelationskoeffizienten r und Regressionskoeffizienten: Unabhängige Var. BE BE + HBond BE + SAS BE + HBond + SAS r BE 0.849 0.906 0.864 0.907 1.24 0.85 1.25 0.87 h-num SAS Const 8.8E-3 2.1E-3 1.28 1.57 -0.73 1.08 -1.07 -1.02 Die erste Zeile enthält die Korrelation für die per BE Methode gewonnen Ergebnisse, wie bereits oben angegeben. Die Einbeziehung der Solvent Accessible Surface Area (in der Tabelle SAS) führt nur zu geringfügigen Verbesserungen, während die Zahl der H-Brücken bildenden Atome (in der Tabelle h-num) eine deutliche Verbesserung der Korrelation ergibt. Hierbei zeigt sich, dass jedes solche Atom etwa −1kcal/mol zur freien Solvatisierungsenthalpie beiträgt. 7.3 Ergebnisse mit ZIBPCM Die Berechnung des elektrostatischen Anteils an der freien Solvatisierungsenthalpie wurde mit der in Abschnitt 6.6 vorgestellten Methode wiederholt. Als Regression erhält man r = 0.801 also einen nur geringfügig schlechteren Wert als bei der BE-Methode. Um den Effekt der gegenseitigen Beeinflussung der Polarisationsladungen zu bewerten haben wir eine lineare Regression wurde durch den Nullpunkt durchgeführt. Korrelationskoeffizient ist r=0.996 Über die Regression erhält man die Beziehung ∆G(BE) = 0.736 · ∆G(P CM ). Der Anteil des durch die gegenseitige Beeinflussung der Oberflächenladungen verursachten Abschwächung an der Gesamtenergie ist also 1 − 0.739 ≈ 1/4. Wir haben die per PCM gewonnen Werte Anwendung auf kleine Moleküle 55 Modellierung der freien Solvatisierungsenthalpie über diese Gleichung umgerechnet und in einem Scatterplot (Abb. 24) mit den per BE gefundenen Werten aufgetragen. Die berechneten Werte finden sich in Tabelle 16 im Anhang. Abbildung 24: Korrelation zwischen per FSP und per BE bestimmter Solvatisierungsenergie. Anwendung auf kleine Moleküle 56 Modellierung der freien Solvatisierungsenthalpie 7.4 Entwicklung eines kombinierten Modells Die vorigen Kapitel haben gezeigt, dass reine elektrostatische Modelle wie die Lösung der Poisson Gleichung und reine FSS-Modelle wie Atomic-Solvation-Parameter, nur bei denjenigen Molekülklassen gute Übereinstimmung mit experimentellen Ergebnissen zeigen, bei denen der jeweilige Effekt überwiegt. Aufgrund der impliziten Berücksichtigung der anderen Anteile kommt es in der Parametrisierung der Modelle zu Artefakten, die aus physikalischer Sicht unsinnig sind. Eine einfache Lösung dieses Problems ist die Kombination der Berechnungen der einzelnen Anteile zu einem Modell. Wir separieren also die freie Solvatisierungsenthalpie in die Anteile nach Gleichung 3.1 und berechnen jeden Anteil getrennt mit einer für ihn geeigneten Methode. Eine Bedingung hierbei soll sein, dass sich das Modell nicht nur für den verwendeten Testdatensatz von kleinen Molekülen, sondern auch für Protein-LigandKomplexe anwenden lässt. 7.4.1 Modellierung des elektrostatischen Anteils Zur Berechnung des elektrostatischen Anteils ist die Lösung der Poissongleichung für größere Moleküle ineffizient. Wir benutzen daher die BE-Methode mit Reskalierung und ohne Iteration wie in Kapitel 6.6 vorgestellt. Als Molekülgrenzfläche wird hierbei die Solvent-Excluded-Surface benutzt. Die Parameter der Berechnung sind hierbei: εin = 2,εout = 78.3 und eine Triangulierungskantenlänge von r = 0.7Å. 7.4.2 Modellierung des entropischen und vdW-Anteils Der entropische und vdW-Anteil wird durch Atomic-Solvation-Parameter modelliert. Als Atomtypdefinition haben wir zunächst alle Atomtypen des Merck Kraftfeldes benutzt. Dies garantiert eine Aufschlüsselung in die verschiedenen funktionellen Gruppen. Wir werden später eine Reduktion der Parameter vornehmen. Bei der Verwendung eines ASP Modells muss zunächst festgelegt werden ob ein Unified Atom Modell benutzt wird. Beim Unified Atom Modell werden alle Wasserstoff-Atome weggelassen und finden nur noch implizit in den schweren Atomen an die sie gebunden sind Berücksichtigung. Für das elektrostatische Modell ist eine derartige Vereinfachung nicht möglich, da das von uns verwendete Merck Kraftfeld nicht auf einem Unified Atom Modell basiert und somit die Partialladungen auch auf die Wasserstoffe verteilt werden. Auch unabhängig davon ist eine möglichst realistische Darstellung der Molekülgrenzfläche zur Anwendbarkeit der Poisson-Gleichung notwendig. Für das ASP Modell ist diese Frage jedoch schwieriger zu beantworten. Durch die Einbeziehung der Wasserstoffe sollte eine bessere Modellierung von H-Brücken Wechselwirkungen möglich sein. Wir haben zunächst eine lineare Regression durch den Nullpunkt unter Beibehaltung der Wasserstoffe im ASP Modell durchgeführt. Als Regressionsvariablen wurden also die Flächen der 29 Atomtypen und der BE Wert des Moleküls verwendet. Wir erhielten hierfür einen Korrelationskoeffizienten von r=0.977. Bei Anwendung auf kleine Moleküle 57 Modellierung der freien Solvatisierungsenthalpie Verwendung eines Unified Atom Modells reduziert sich die Zahl der Atomtypen auf 22. Die lineare Regression durch den Nullpunkt ergibt einen Korrelationskoeffizienten von r=0.943. Die bessere Korrelation für das Full Atom Modell erklärt sich insb. durch die Berücksichtigung von Wasserstoffen die Teil einer H-Brückenbindung sind. Für die Parameter dieser Atomtypen ergeben sich stark negative Werte (z.B. -877 cal/molÅ2 für HNCO). Als neues Problem treten jedoch sehr hohe Parameter für einige der Atomtypen auf an denen Wasserstoffe gebunden sind. So erhält man 1902 cal/molÅ2 für NC=O und 1005 cal/molÅ2 für NC=C. Der Grund sind die über diesen Atomtypen sehr kleinen Flächen, da große Teile der SESA durch die Wasserstoffe abgedeckt werden. Hiermit wird unsere Bedingung der Übertragbarkeit auf Protein Ligand Komplexe verletzt, da bei diesen aufgrund der Wechselwirkungen als auch der geringen Auflösung von Röntgenspektroskopie und insb. NMR-Daten eine starke Konformationsunsicherheit vorliegt. Aufgrund der sehr hohen Parameter kommt es aber bereits bei geringen Abweichungen von der Minimumkonformation zu erheblichen Änderungen der per ASP berechneten freien Enthalpie. Aus diesem Grunde werden wir im Folgenden ein Unified Atom Modell für die Parametrisierung unserer Atomic-Solvation-Parameter verwenden. Anwendung auf kleine Moleküle 58 Modellierung der freien Solvatisierungsenthalpie 7.4.3 Modellierung der H-Brücken Wechselwirkung Da die Berücksichtigung von H-Brücken durch einen ASP Satz, der auf einem Unified Atom Modell basiert, nur teilweise möglich ist, stellt sich die Frage nach einer expliziten Modellierung der Wasserstoffbrückenwechselwirkung. Als ersten Ansatz hierfür verwenden wir ein lineares Modell, bei dem die Zahl der Donoren und Akzeptoren deren SESA größer als Null ist zur daraus resultierenden Interaktionsenthalpie in Beziehung gesetzt wird. Die H-Brücken Donoren und Akzeptoren werden hierbei über die Definition des Merck Kraftfeldes identifiziert. Für eine lineare Regression durch den Nullpunkt erhält man einen Korrelationskoeffizienten von r=0.976, trotz der Reduzierung der Parameterzahl also eine ähnlich gute Korrelation wie bei Verwendung eines Full-Atom-Modells. Jedes Donor oder Akzeptoratom trägt -2.017 kcal/mol zur Enthalpie bei. Bei Verwendung der Zahl der HBrücken Donoren und Akzeptoren unter den Oberflächenatomen werden alle HBrücken gleichbehandelt und die individuelle Stärke der Bindung bleibt unberücksichtigt. Eine Alternative dazu ist die Berechnung der Potentialtiefe des vdW Anteils des Merck Kraftfelds. Wie im Kapitel 2.4 erläutert sind Wasserstoffbrücken im Merck Kraftfeld nicht explizi beschrieben, sondern werden durch elektrostatische Kräfte und Reskalierungen der vdW-Wechselwirkung beschrieben. Wir untersuchten zunächst die Abhängigkeit der Bindungsstärke vom vdW-Potential. Hierfür wurde für einen polaren Wasserstoff (bspw. NH2) die Potentialtiefe einer H-O Bindung und für den betreffenden Stickstoff die Potentialtiefe einer N-H Bindung eingesetzt. Die Potentialtiefen εij Anwendung auf kleine Moleküle Koeffizient CAM UAM UAM PCM h-num CR C=C C=O CSP HC OR O=C NR NC=O F CL BR I S CR4R HOR CR3R HNR HOCO HNCO HOCC O2CM CB NPYD NC=C NSP NO2 OH2 HS 0.725 0.982 0.011 0.017 0.081 0.004 0.002 -0.039 -0.014 -0.341 1.913 0.024 0.005 -0.002 -0.005 -0.015 0.023 -0.050 0.011 0.188 0.050 -0.874 -0.049 0.014 0.001 -0.019 0.994 0.008 0.050 -0.001 0.031 0.004 0.013 0.038 0.007 0.855 -2.017 0.006 0.011 0.025 0.005 -0.019 0.026 -0.021 -0.085 0.029 0.010 0.002 -0.002 0.004 -0.010 0.046 0.059 0.064 0.025 0.081 0.037 0.025 0.017 0.047 -0.008 0.007 0.007 0.034 0.005 0.031 0.006 0.034 0.015 0.019 0.059 0.004 0.091 0.100 0.053 0.166 0.064 0.964 0.976 r 0.976 Tabelle 8: Erhaltene Parametrisierungen, links: Complete-Atom-Modell, mitte: Unified-Atom-Modell, rechts: Unified-Atom-Modell mit Zahl der Donoren Akzeptoren 59 Modellierung der freien Solvatisierungsenthalpie werden nach dem in Kapitel 2.4 beschriebenen Verfahren berechneten und dann alle so gefundenen Werte aufsummiert. Ersetzt man im Modell die Zahl der Donoren und Akzeptoren durch den so erhaltenen Wert und führt eine lineare Regression durch den Ursprung durch, erhält man einen Korrelationskoeffizienten von r=0.974, also keine Verbesserung gegenüber der Verwendung der Akzeptoren und Donorenzahl. Der Grund hierfür liegt in der Parametrisierung des Merck Kraftfeldes. Die Parametrisierung des Lennard Jones Potentials ist nicht unabhängig von der Parametrisierung der Partialladungen. Dies bedeutet dass H-Brücken nicht nur über das Lennard Jones Potential sondern ebenfalls teilweise über die elektrostatische Wechselwirkung beschrieben werden. Ein Beispiel hierfür ist die Wechselwirkungsenergie zwischen Wassermolekülen. Die Lennard Jones Potentialtiefe eines der Wasserstoffe mit einem Sauerstoff ist 0.018, zwischen zwei Sauerstoffen hingegen 0.076 und zwischen zwei Wasserstoffen 0.011. Die Energie für die Wechselwirkung zwischen den Sauerstoffen ist also deutlich größer als die für die Wasserstoffbrückenbindung zwischen Wasserstoff und Sauerstoff. Erst bei zusätzlicher Berücksichtigung der elektrostatischen Wechselwirkung ergibt sich korrekterweise, dass die O-H Wechselwirkung stärker ist, als die O-O Wechselwirkung. Um dieses Problem zu umgehen, kann man zur Potentialtiefe die elektrostatische Wechselwirkung für den Abstand der Potentialminimums des Lennard-Jones Potentials addieren. Genauso wie für die vdW Wechselwirkung berechnet man also für Akzeptoren die elektrostatische Wechselwirkung mit eine H2O-Wasserstoff und für Donoren die Wechselwirkung mit einem H2O-Sauerstoff, jeweils nach Gleichung 2.5. Durch diesen Deskriptor ergibt sich jedoch keine deutliche Verbesserung: r=0.975. Offenbar ist die separate Berechnung einer Wasserstoffbrücken-Bindungsenergie durch das Merck Kraftfeld nicht möglich da sie als Teilbetrag von zwei anderen Energien modelliert ist. Die zusätzliche Berücksichtigung des elektrostatischen Terms führt genauso zu Fehlern wie seine Vernachlässigung. Aus diesem Grunde werden wir für unser Modell im weiteren die Zahl der Akzeptoren und Donoren als Parameter verwenden, die sich als bester Deskriptor dieses Energieanteils erwiesen hat. 7.4.4 Optimierung der Radien Sowohl für die bei der PCM Methode verwendete Molekülgrenzfläche als auch für die im ASP Modell verwendete Solvent Accessible Surface gibt es keine eindeutigen van der Waals Radien. Radien in der Literatur unterscheiden sich erheblich je nachdem welche Methode zu ihrer Bestimmung angewendet wurde. Für das ASP Modell ist dies weitgehend unerheblich, da Flächenfehler durch falsche van der Waals Radien durch eine Reskalierung der Parameter pro Atomtyp ausgeglichen werden können. Beim PCM Modell ist dies nicht möglich, da es nur einen globalen Parameter gibt, der für alle Atomtypen gilt. Aus diesem Grunde haben wir die Radien für unser Modell optimiert. Hierbei wurden die Radien in einem Intervall von 0.4Å in 0.05Å Schritten variiert um so den Radius zu finden bei dem das Modell am besten die experimentellen Daten fittet. Die Radien wurden nacheinander minimiert, beginnend mit dem Element mit niedrigster Ordnungszahl. Anwendung auf kleine Moleküle 60 Modellierung der freien Solvatisierungsenthalpie H C N 0.9 0.9 0.9 0.875 0.875 0.875 0.85 0.85 0.85 0.825 0.825 0.825 0.8 1 1.05 1.1 1.15 1.2 1.25 1.3 1.35 1.4 0.8 0.8 1.6 1.65 1.7 O 1.75 1.8 1.85 1.9 1.95 2 1.3 0.9 0.875 0.875 0.875 0.85 0.85 0.85 0.825 0.825 0.825 0.8 1.4 1.45 1.5 1.55 1.6 1.65 1.7 0.8 1.4 1.45 1.5 1.55 1.6 1.65 1.7 1.75 1.8 1.4 0.9 0.9 0.875 0.875 0.85 0.85 0.85 0.825 0.825 0.825 0.8 1.5 1.55 1.6 1.65 1.7 1.75 1.8 1.5 1.55 1.6 1.65 1.55 1.6 1.65 1.7 1.45 1.5 1.55 1.6 1.65 1.7 1.75 1.8 1.9 1.95 2 I 0.9 0.8 1.5 0.8 0.875 1.45 1.45 Br Cl 1.4 1.4 S 0.9 1.35 1.35 F 0.9 1.3 Element 1.7 1.75 1.8 1.85 1.9 H C N O F S Cl Br I r 1.30 1.90 1.50 1.50 1.75 1.60 1.60 1.75 1.95 0.8 1.7 1.75 1.8 1.85 2.05 2.1 Abbildung 25: Links: RMSD des Modells in Abhängigkeit von van der Waals Radien der Atomtypen, Rechts: Optimale vdW-Radien Abbildung 25 zeigt für alle parametrisierten Elemente den erhaltenen RMSD des Modells in kcal/mol in Abhängigkeit vom van der Waals Radius. Als van der Waals Radien unseres Modells werden nun diejenigen Radien verwendet, bei denen der RMSD minimal wird. Anwendung auf kleine Moleküle 61 Modellierung der freien Solvatisierungsenthalpie 7.4.5 Reduktion der Atomtypenzahl Benutzt man das in den vorigen Abschnitten beschriebene Modell erhält man durch linearen Regression die in Tabelle 9 angegebene Parametrisierung. Für einige Regressionsparameter des ASP Teilmodells ist die Signifikanz schlecht. Mit Ausnahme des Wertes für CB liegt dies an den geringen Datenmengen die für die jeweiligen Atomtypen vorhanden sind. In unserem Datensatz befinden sich beispielsweise nur zwei Amide und dementsprechend ist der NC=O Atomtyp nur in diesen Molekülen enthalten. Andere Atomtypen wie CR4R als C in Cyclobutyl sind definitionsgemäß nur ein einem einzigen Molekül vorhanden. Derartige Parameter führen zwar zu besseren Regressionsergebnissen, allerdings verringern sie die Allgemeingültigkeit des Modells. Es ist sinnvoll solche Parameter mit anderen ähnlichen Parametern zu vereinigen um so für vorhandene Datenmenge pro Parameter zu erhöhen. Zu diesem Zwecke wurden alle Atomtypen zusammengefasst, die a) das selbe Element beschreiben und ähnliche Parameter in Tabelle 9 aufweisen sowie b) Parameter für die Datenmenge so klein ist, dass die Zuverlässigkeit der berechneten Parameter gering ist. Tabelle 10 zeigt die so reduzierten Atomtypen. Weiterhin in Subtypen aufgeschlüsselt bleibt lediglich Kohlenstoff mit den Typen: Aromatische Kohlenstoffe (CB), Carbonyl Kohlenstoffe (C=O) und allen restlichen MMFF-Subtypen (C). Koef. PCM 0.789 h-num -2.760 CR 0.012 C=C 0.020 C=O 0.113 CSP 0.005 OR 0.221 O=C 0.163 NR 0.349 NC=O 0.202 F 0.166 CL 0.145 BR 0.095 I 0.081 S 0.219 CR4R -0.012 CR3R 0.013 O2CM 0.156 CB 0.001 NPYD 0.437 NC=C 0.463 NSP 0.306 NO2 1.330 OH2 0.316 σ Sig. 0.0598 0.000 0.2560 0.000 0.0011 0.000 0.0042 0.000 0.0255 0.000 0.0072 0.480 0.0330 0.000 0.0299 0.000 0.0444 0.000 0.0694 0.004 0.0126 0.000 0.0118 0.000 0.0103 0.000 0.0118 0.000 0.0224 0.000 0.0119 0.333 0.0111 0.227 0.0508 0.002 0.0020 0.708 0.0609 0.000 0.0679 0.000 0.0433 0.000 0.9813 0.177 0.0416 0.000 Tabelle 9: Für jeden der Parameter ist die Standardabweichung und die Signifikanz für die lineare Regression angegeben Neuer Typ MMFF Typen Neuer Typ MMFF Typen C=O CB C O N C=O CB alle restl. C-Typen alle O-Typen alle N-Typen F Cl Br I S F Cl Br I alle S-Typen Tabelle 10: Neue Definition der Atomtypen Anwendung auf kleine Moleküle 62 Modellierung der freien Solvatisierungsenthalpie 7.4.6 Parametrisierung des Modells Die Parametrisierung der in den Abschnitten 7.4.1 bis 7.4.3 beschriebenen Anteile ist in Tabelle 11 angegeben. Die vorhergesagten Werte zusammen mit RMSD Werten aufgeschlüsselt nach Molekültypen finden sich in Tabelle 16 im Anhang. Abbildung 27 zeigt die Korrelation zwischen vorhergesagtem und experimentellem Wert als Scatterplot. Ein lineares Modell, das über Regression gefittet wird, ist nur dann brauchbar, wenn die Residuen der Regression normalverteilt sind. Um dies zu beurteilen sind in Abbildung 26 Histogramm der Residuen und P-P Plot für eine Normalverteilung angegeben. Im P-P Plot müssen bei einer Übereinstimmung der beobachteten Verteilung mit der erwarteten Verteilung die Punkte auf der Winkelhalbierenden des ersten Quadranten liegen. In beiden Abbildungen ist zu erkennen, dass die Residuen normalverteilt sind. Koef. PCM 0.721 h-num -2.511 C 0.010 C=O 0.054 CB 0.001 N 0.286 O 0.177 F 0.153 S 0.194 Cl 0.132 Br 0.082 I 0.071 σ Sig. 0.0505 0.000 0.1340 0.000 0.0011 0.000 0.0152 0.001 0.0021 0.523 0.0273 0.000 0.0168 0.000 0.0077 0.000 0.0165 0.000 0.0076 0.000 0.0078 0.000 0.0104 0.000 Tabelle 11: ZIBSM1 Parametrisierung. Für jeden der Parameter ist die Standardabweichung und die Signifikanz für die lineare Regression angegeben 50 1.00 40 .75 30 .50 10 0 -2.00 -1.50 -1.75 -1.00 -1.25 -.75 -.50 0.00 -.25 .50 .25 1.00 .75 1.50 1.25 2.00 1.75 Regression Standardized Residual 2.50 2.25 2.75 Expected Cum Prob Frequency 20 .25 0.00 0.00 .25 .50 .75 1.00 Observed Cum Prob Abbildung 26: links: Histogramm der Residuen der linearen Regression, rechts: P-P Plot Anwendung auf kleine Moleküle 63 Modellierung der freien Solvatisierungsenthalpie Abbildung 27: Vorhergesagte Werte der freien Solvatisierungsenthalpie nach der ZIBSM1 Parametrisierung aufgetragen gegen den experimentellen Wert 7.4.7 spiel Cholesterol als Anwendungsbei- Das ZIBSM1 Modell berechnet die einzelnen Anteile der freien Solvatisierungsenthalpie und ist in der von uns implementierten Form in der Lage die Anteile pro Atom zu berechnen. Diese Aufschlüsselung ermöglicht es die lokalen Ursachen von Solvatisierungsprozessen wie Aggregation genauer zu untersuchen. Cholesterol ist das am häufigsten im menschlichen Körper vorkommende Steroid. Es ist gleichzeitig Ausgangs- Anteil kcal/mol punkt für die Synthese anderer wichtiger Steoride wie SteroPCM -2.75 idhormone und der Gallensalze. HNum -5.02 Eine wichtige Funktion des Cholesterol ist die Beeinflus6.45 sung der Liquidität von Lipidmembranen. Cholesterol hat ASP -1.32 einen leicht polaren Kopf in Form einer Hydroxyl-Gruppe Total und einen weitgehend apolaren durch das Ringsystem in seiner Konformation fixierten Rest. Der amphiphile Charackter Tabelle 12: Ergebermöglicht die Anordnung innerhalb einer Lipidschicht, wo- nisse für Cholesterol bei der polare Teil solvatisiert bleibt. Die Anwendung unseres Modells ergibt eine leicht negative Gesamtenergie (sieAnwendung auf kleine Moleküle 64 Modellierung der freien Solvatisierungsenthalpie A B C D Abbildung 28: A: Cholesterolmolekül, B: totale freie Solvatisierungenthalpie pro Atom, C: elektrostatischer Anteil und D: entropischer Anteil he Tabelle 12. Der durch die Polarität der Kopfgruppe verursachte negative elektrostatische und H-Brückenanteil wird weitgehend durch den entropischen Anteil kompensiert. Abbildung 28 zeigt die Anteile von ∆Gsolv für jedes einzelne Atom. Für den Kopf dominiert die elektrostatische Komponente zusammen mit dem nicht angezeigten H-Brückenanteil. Für die Restgruppe dominieren entropische Effekte. Durch Aggregation und gegenseitige Abdeckung des hydrophoben Ringsystems kann also der entropische Anteil minimiert werden, während durch die Beibehaltung der Solvatisierung der Kopfgruppe die negative Beiträge erhalten bleiben. Anwendung auf kleine Moleküle 65 Modellierung der freien Solvatisierungsenthalpie 7.5 Zusammenfassung Bei der Entwicklung einer Methode zur Berechnung der freien Solvatisierungsenthalpie wurden für den Testsatz von 213 Molekülen ein ASP-Modell aus der Literatur angewendet (Oons) und drei weitere neue Modelle entwickelt. Tabelle 13 zeigt die Korrelationen der vorhergesagten Werte. Das Oons Modell zeigt eine sehr schwache Korrelation mit den experimentellen Daten. Das von uns neu entwickelte ASP Modell (ZIBasp1) bestätigt, dass reine ASP Modelle durch ihre fehlende explizite Berücksichtigung des elektrostatischen und H-Brücken Anteils nicht ausreichen, um ∆G für eine heterogene Mischung von Molekülen vorherzusagen. Ein reiner elektrostatischer Anteil (ZIBpcm1) zeigt bereits deutlich bessere Übereinstimmung, liefert jedoch für alle ungeladenen Moleküle wie Kohlenwasserstoffe eine Energie von Null. Erst durch die Kombination des PCM Modells mit dem ASP Modell und einer zusätzlichen Berücksichtigung von Wasserstoffbrücken erhält man eine gute Übereinstimmung mit experimentellen Daten (ZIBsm1). Exp Exp Oons ZIBasp1 ZIBpcm1 ZIBsm1 1.000 0.509 0.746 0.812 0.951 Oons ZIBasp1 ZIBpcm1 0.509 1.000 0.679 0.488 0.553 0.746 0.679 1.000 0.763 0.796 0.812 0.488 0.763 1.000 0.839 ZIBsm1 0.951 0.553 0.796 0.839 1.000 Tabelle 13: Kreuzkorrelationstabelle zwischen experimenteller freier Solvatisierungsenthalpie (Exp) und den durch die 4 betrachteten Modelle vorhergesagten Werten. Die drei von uns entwickelten Modelle wurden als Teil der Visualisierungssoftware Amira [53] implementiert. In unserer Implementierung des ZIBsm1 Modells liegt die benötigte Rechenzeit unseres Testdatensatzes in der Größenordnung von einer Sekunde pro Molekül. Damit ist das Modell hinreichend effizient, um auch auf größere Moleküle angewendet zu werden. Die Vorhesagequalität dieses Modells liegt mit einem rmsd von etwa 0.8kcal/mol nah an den Werten der aufwendigeren SMX Modelle von Chambers [29] von 0.7kcal/mol. Das Modell sollte also hinreichend sein, um die Solvatisierungskomponente als Teil einer Scoringfunktion zu berechnen. Anwendung auf kleine Moleküle 66 Modellierung der freien Solvatisierungsenthalpie 8 Solvatisierungsmodell als Scoringfunktion Das im letzten Kapitel entwickelte Solvatisierungsmodell soll nun als Ergänzung zu den durch das Merck Kraftfeld berechneten Anteilen der freien Bindungsenthalpie angewendet werden. Als Parametrisierungsddatensatz wurden 66 Protein-Ligand Komplexe aus der Protein Database (PDB) [54] verwendet, deren experimentell bekannte Affinitäten aus der Protein Ligand Database (PLD) von Mitchell [55]-[56] entnommen wurden. Hierbei ist zu beachten, dass zum Zeitpunkt dieser Studie die PLD eine Reihe von Fehlern für die Affinitäten enthielt. Wir leiteten daher für alle 66 Komplexe ∆Gbind mit Hilfe von Gleichung 2.2 aus den angegeben Dissoziationskonstanten ab. 8.1 8.1.1 Berechnung der MMFF Wechselwirkung Konzepte E ÄG ÄG P Intra ÄG PL Intra + ÄG Binding L Intra PL ÄEintra t ÄEBind EPLInter ELintra EPintra Inter Abbildung 29: Intra und Intermolekulare Enthalpien während der Bindung Zunächst muss die Interaktionsenergie nach dem Merck Kraftfeld berechnet werden. Abbildung 29 zeigt die Anteile der Bindungsenthalpie. Vor der Bindung besitzen die beiden Moleküle eine intramolekulare Energie ∆GPintra und ∆GL intra . Während der Bindung ändern die Bindungspartner ihre Konformation, so dass die Wechselwirkung maximal wird. Das heißt, dass ein Teil der negativen intermolekularen Interaktionsenergie durch die Zunahme von intramolekularen Energien von Protein und Ligand aufgehoben wird. Nach der Bindung besitzt der Komplex die intramolekulare Energie ∆GC intra und die intermolekulare Energie ∆GC . Um die Bindungsenthalpie zu erhalten, muss die Ändeinter rung der intramolekularen Energien von der intermolekularen Wechselwirkungsenergie abgezogen werden, so dass gilt: C P L ∆Gbind = ∆GC inter + ∆Gintra − ∆Gintra − ∆Gintra (8.1) Wie können nun die vier Anteile berechnet werden? Von den drei betrachteten molekularen Strukturen ist lediglich der Komplex in Form des PDB-Eintrags vorhanden, allerdings nicht in der exakten Minimumkonformation. Zum einen enthält der PDB Eintrag keine Wasserstoffe, so dass diese nachträglich hinzugefügt werden müssen, was nicht ohne weiteres in energieminimierter Form möglich ist. Zum anderen ist die Auflösung Solvatisierungsmodell als Scoringfunktion 67 Modellierung der freien Solvatisierungsenthalpie der im PDB Eintrag enthaltenen Röntgenstuktur begrenzt. Auch kann es durch die Kristallisation zu leichten Verschiebungen in der Konformation kommen. Zuletzt entspricht die tatsächlich vorliegende Minimumstruktur nicht notwendigerweise dem Minimum nach dem Merck Kraftfeld da das Kraftfeld Vereinfachungen beinhaltet, die eine exakte Korrespondenz mit der Natur unmöglich machen. Zur Berechnung der Wechselwirkungsenergie mit dem Merck Kraftfeld ist es daher nötig die Energie des Komplexes zu minimieren. Das selbe gilt selbstverständlich auch für den allein vorliegenden Liganden und das Protein, deren Minimumstrukturen aus dem PDB Eintrag ohnehin nicht direkt zu entnehmen sind. Um die 3 Strukturen zu minimieren wäre optimalerweise eine globale Suche anzuwenden. Da eine solche Suche für die Größe der betrachteten Strukturen zu aufwendig ist, haben wir uns auf eine lokale Minimierung beschränkt. Da die Komplexstruktur aus der PDB nah an der Minimumstruktur liegen sollte, ist ein solches Verfahren gerechtfertigt. Für Protein und Ligand können die Minimumstrukturen hingegen stark von den im Komplex vorliegenden Strukturen abweichen. Führt man nun eine Minimierung ausgehend von der Struktur im Komplex aus, wird man häufig das globale Minimum verfehlen. Für kleine Liganden tritt dieses Problem weniger häufig auf als für die Proteine, da für sehr kleine Moleküle die Energiehyperfläche deutlich weniger zerklüftet ist. Unsere Test einer lokalen Minimierung des Proteins haben insofern auch wenig zuverlässige Resultate ergeben, mit Änderungen der intramolekularen Energie, die sich von Komplex zu Komplex in vielen Größenordnungen unterscheiden. Da nach diesen Ergebnissen die Einbeziehung der Konformationsflexibilität des Proteins zu größeren Ungenauigkeiten führt als deren Vernachlässigung haben wir das Protein als starr angenommen und lediglich die Änderung der intramolekularen Energie des Liganden berücksichtigt. Gleichung 8.1 vereinfacht sich demnach zu LC L ∆Gbind = ∆GC inter + ∆Gintra − ∆Gintra (8.2) wobei ∆GLC intra die intramolekulare Energie des Liganden in der Komplexstruktur ist. Durch die Vereinfachung sind nun also nur noch 2 Minimierungen durchzuführen: Eine des Liganden und eine des Liganden innerhalb des Komplexes. 8.1.2 Energieminimierung der Komplexe Gradientenverfahren Die Energiefunktion der Merck Kraftfeldes ist analytisch nach den Koordinaten differenzierbar. Zur lokalen Minimierung der Energiefunktion eignen sich daher insb. gradientenbasierte Verfahren. Das allgemeine Prinzip einer Gradientenminimierung einer Funktion f (x), ausgehend von einem Startwert p, ist im folgenden Algorithmus dargestellt [57]. 1. Berechne den Gradienten von an der Stelle p) g = ∇f (p) 2. Berechne anhand einer Regel eine neue Richtung v in Abhängigkeit von g 3. Führe eine eindimensionale Minimierung von f entlang v durch. Das Ergebnis ist ein neuer Zustandsvektor p 4. Falls f (p ) − f (p) größer ist als ein bestimmtes Abbruchkriterum setze p = p und beginne nächsten den Iterationsschritt bei 1 Solvatisierungsmodell als Scoringfunktion 68 Modellierung der freien Solvatisierungsenthalpie 5. Ergebnis ist der Zustandsvektor p Steepest Descent Das intuitivste Gradientenverfahren ist der ‘Steepest Descent’ Algorithmus. Im Schritt 2 wird bei diesem Verfahren v = ∇f (p) gesetzt, so dass die linearen Minimierungen grundsätzlich in Richtung des aktuellen steilsten Abstiegs erfolgen. Dies kann zu sehr langsamer Konvergenz führen. Der Grund dafür ist die Orthogonalität von aufeinanderfolgenden Gradienten: Bei einer linearen Minimierung im i-ten Iterationsschritt entlang des Gradienten gi gilt für den neuen Gradienten gi+1 im Minimum gi · gi+1 = 0 denn wäre der neue Gradient nicht orthogonal zum alten, gäbe es noch eine zu gi parallele Komponente des Gradienten, so dass die lineare Minimierung nicht beendet wäre. Am Beispiel eines langen, schmalen und in Richtung der Talachse abfallenden Tals lässt sich nun leicht zeigen warum das Steepest Descent Verfahren in vielen Fällen ineffizient ist. Liegt der Startpunkt nicht genau in der Mitte des Tals, hat der Gradient eine senkrecht zur Talachse gerichtete Komponente. Da jeder neue Gradient wieder orthogonal zum letzten ist, ist dies auch für alle folgenden Gradienten der Fall, so dass im ‘Zickzack’ minimiert wird während bei optimaler Wahl der Richtungen v nur zwei lineare Minimierungen benötigt werden (in Richtung der Talmitte und danach in Richtung der Talachse). Konjugierte Gradienten Das Konjugierte Gradienten Verfahren beruht auf dem Konzept von zueinander konjugierten Richtungen. Konjugiertheit zweier Vektoren u und v bedeutet, dass sie in Bezug auf eine symmetrische positiv definite Matrix A orthogonal sind: uAv = 0. Um zu verstehen, warum dies ein gutes Kriterium für sich einander nicht störende Minimierungsrichtungen ist, approximieren wir zunächst die zu minimierende Funktion der Nähe eines Punktes p mit einer Taylor Reihe: f (x) = f (p) + ∂f 1 ∂2f |p xi + |p xi xj + · · · ∂xi 2 ∂xi ∂xj i (8.3) i,j 1 ≈ c − bx + xAx 2 wobei c eine Abkürzung für den Funktionswert, b eine Abkürzung für den Gradienten und A eine Abkürzung für die Hesse Matrix im Punkt p ist. Der Gradient in der Nähe von p kann approximiert werden als ∇(p + x) = Ax − b (8.4) Nach einer Minimierung entlang einer Richtung u gilt ∇f u = 0. Bewegt man sich nun entlang einer neuen Richtung v ändert sich der Gradient nach Gleichung 8.4 folgendermaßen: δ(∇f ) = Aδx Damit die Minimierung entlang v nicht die Minimierung entlang u stört, verlangen wir, dass der Gradient senkrecht zu u bleibt und da der Gradient 0 war, muss dies also auch für seine Änderung gelten: 0 = uδ(∇f ) = uAv (8.5) Solvatisierungsmodell als Scoringfunktion 69 Modellierung der freien Solvatisierungsenthalpie Es lässt sich zeigen, dass für eine quadratische Funktion mit diesem Verfahren exakt zwei Minimierungen benötigt werden. Ist die Funktion nicht quadratisch muss das Verfahren in jedem Iterationsschritt wiederholt werden und man sucht einen Satz von Richtungen ui für die Gleichung 8.5 für beliebige i,j gilt. Eine Menge von Vektoren mit dieser Eigenschaft heißt konjugierte Menge. Das konjugierte Gradientenverfahren berechnet aus einem Gradienten gi+1 und einer Richtung hi eine neue Richtung durch die Beziehung hi+1 = gi+1 + gi+1 · gi+1 hi gi · gi Ein Beweis dafür, dass es sich bei den so generierten hi um eine konjugierte Menge handelt findet sich in [57]. Implementierung Das konjugierte Gradientenverfahren wurde analog zu dem in [57] angegeben Algorithmus implementiert. Als linearer Minimierer wurde Brent’s Methode benutzt. Es wurde folgendes Abbruchskriterien verwendet: intra | < .01kJ/mol |Eiintra − Ei−1 inter ∧|Eiinter − Ei−1 | < .01kJ/mol ∧ gi < 1kN/mol wobei Eiintra die im i-ten Iterationsschritt berechnete intramolekulare Energie ist, Eiinter die Energie der nichtkovalenten Wechselwirkungen zwischen Protein und Ligand und gi der Gradient im i-ten Iterationsschritt. Für die Minimierung der Liganden ohne das Protein wurde das Kriterium der nichtkovalenten Wechselwirkungen weggelassen. Die Berechnung der nichtkovalenten Wechselwirkungen sind bei der Minimierung der zeitkritischste Anteil, da sie zwischen allen Atompaaren berechnet werden müssen. Um den Rechenaufwand zu begrenzen wurde eine Cutoff für nichtkovalente Wechselwirkungen zwischen Atomen i und j von |9990 · qi · qj + 10| < ri − rj gewählt, wobei q die jeweiligen Partialladungen und r die Positionen der Atome sind. Für zwei ungeladene Atome wird also ein Cutoff von 10Å gewählt, für zwei einwertige Ionen ein Cutoff von 10000Å. Dieses Verfahren berücksichtigt, dass Coulombsche Wechselwirkungen weitreichender sind als reine vdW-Wechselwirkungen. Da das Protein jeweils starr gehalten wird, können alle Wechselwirkungen zwischen Atomen des Proteins aus der Berechnung herausgenommen werden. Solvatisierungsmodell als Scoringfunktion Abbildung 30: Bromobutan Molekül mit C-C-C-Br Torsionswinkels in Standardkonformation 70 Modellierung der freien Solvatisierungsenthalpie Abbildung 31: Die drei Minima des C-C-C-Br Torsionswinkels bei Bromobutan, θ von links nach rechts: −70◦ , 180◦ und +70◦ Validierung Unser Verfahren wurde an 10 Referenzstrukturen mit bekannter MMFFMinimumstruktur überprüft. Hierzu wurden kleine zufällige Störungen in der Größenordnung von 0.1Å an den Koordinaten der Referenzstruktur vorgenommen und die Ergebnisse der Minimierung dieser Stuktur mit der Referenzstruktur verglichen. Bei allen so untersuchten Molekülen wurde als Ergebnis der Minimierung wieder die Energie der Referenzstruktur erreicht. Trapping Das Problem der zerklüfteten Energiehyperfläche des Moleküls lässt sich besonders einfach an einem Torsionswinkel demonstrieren. Torsionswinkel werden als einziger Anteil des Merck-Kraftfeldes über eine Energiefunktion mit mehreren Minima beschrieben und bereiten daher bereits für sich allein genommen lokalen Energieminimierern ein Problem. Als Beispiel wählen wir den C-C-C-R Torsionswinkel von Bromobutane (siehe Abb. 30). Im globalen Minimum liegt der Winkel bei 180◦ (siehe Abbildung 31 mitte). Stört man den Winkel um weniger als 60◦ findet der Energieminimierer die Ausgangskonformation. Stört man um mehr als 60◦ ist dies nicht mehr der Fall und man landet je nach Vorzeichen der Störung in einem von zwei lokalen Minima bei +75◦ oder −75◦ (siehe Abbildung 31 links und rechts). Im globalen Minimum besitzt das Molekül eine intramolekulare Energie von −9.84kJ/mol, in den beiden lokalen Minima jeweils eine Energie von −8.05kJ/mol. Durch die Änderung der Ausgangskonformation eines Torsionwinkels verändert sich also das Ergebnis der Energieminimierung um 1.8kJ/mol. Ist eine Energieberechnung die auf einer lokalen Minimierung basiert also überhaupt sinnvoll? Zweifelsohne können sich durch ‘Trapping’ in lokalen Minima erhebliche Fehler ergeben. Die Beantwortung der Frage hängt daher davon ab, ob es sich beim Trapping eher um einen auf lokale Bereiche des Moleküls beschränkten Prozess handelt, oder das Trapping globale Konformationsänderungen gegenüber der Minimumstruktur zur folge hat. Im ersten Fall ist zu erwarten, dass sich Effekte der Trappings statistisch bei allen Molekülen gleich bemerkbar machen. Solvatisierungsmodell als Scoringfunktion 71 Modellierung der freien Solvatisierungsenthalpie 8.1.3 Ergebnisse der Minimierung Als Ergebnis der Minimierung erhält man die Änderung der intramolekulare Energie des Liganden, sowie die intermolekulare Energie zwischen Protein und Ligand. Tabelle (??) im Anhang zeigt die Werte. Einige der Komplexe besitzen demnach positive Bindungsenergien. Ursache dafür ist, dass die Zunahme der internen Energie des Liganden größer ist, als die intermolekulare Wechselwirkung. Dies liegt an einem Trapping der Optimierung des Komplexes in einem lokalen Minima. Da bei der Komplex Minimierung nicht die intermolekulare Energie, sondern die Gesamtenergie optimiert wird, sollte selbst für den (theoretischen) Fall einer nach dem Merck Kraftfeld abstoßenden Wechselwirkung zwischen Protein und Ligand, ein nicht positives Ergebnis (nämlich null) herauskommen. In diesem Fall würde der Ligand einfach aus dem aktiven Zentrum heraus bewegt und in unendlicher Entfernung für sich alleine optimiert, so dass die intermolekulare Wechselwirkungsenergie null wird und die Änderung der intramolekularen Energien der für sich alleine minimierten Liganden ebenfalls null ist. Positive Energien sind also nicht ein Zeichen für das Versagen des Merck Kraftfeldes, sondern allein für das Versagen der Minimierung des Komplexes. Tabelle 14 zeigt die Korrelationen zwischen den berechneten Anteilen und der experimentellen freien Bindungsenthalpie. Eine Anteil r signifikante Korrelation findet sich nur beim van der Waals Anteil. ∆Gintra -0.288 Vollständig unkorreliert ist der elektrostatische Anteil. Wie kommt ∆Gelec 0.055 es zu dem signifikanten Unterschied zwischen den Korrelationen? 0.649 Eine Antwort könnte sein, dass Protein-Ligand Interaktionen von ∆Gvdw ∆Gtotal -0.064 dispersiven Wechselwirkungen diktiert werden. Die Werte der elektrostatischen Wechselwirkungen sind allerdings um etwa eine bis Tabelle 14: zwei Größenordnungen höher als die der van der Waals Wechselwirkung. Wäre diese Theorie korrekt müsste also gelten: 1. Die elektrostatische Wechselwirkung in der MMFF-Modellierung wird um einen hohen Faktor überschätzt oder 2. Die elektrostatische Wechselwirkung wird durch einen bisher nicht berücksichtigten Anteil kompensiert Eine solcher Anteil könnte der elektrostatische Beitrag zur Änderung der freien Solvatisierungsenthalpie sein und wir werden darauf in Kapitel 8.3 zurückkommen. Ein Grund für die unter 1) genannte Überschätzung könnte die elektrostatische Abschirmung durch Polarisation sein. Das Kraftfeld berechnet die Coulmomb-Wechselwirkung im Vakuum mit einer Dielektrizitätskonstanten von ε = 1. Durch polarisierbare Gruppen der Moleküle (ε ≈ 2 − 4) und durch das umgebene Wasser ε ≈ 80 kann es zu einer starken Abschwächung der Wechselwirkung kommen. Wir können dies in unser Modell aufnehmen indem wir ∆Gelec durch eine gemittelte Dielektrizitätskonstante dividieren. Einfachste Möglichkeit hierzu ist die nichtkovalente Wechselwirkung in seiner separierten Form im Modell aufzunehmen, d.h. sowohl ∆Gelec als auch ∆Gvdw als Deskriptoren zu verwenden. Wir haben hierzu eine lineare Regression von ∆Gexp mit den drei unabhängigen Variablen ∆Gelec , ∆Gvdw und ∆Gintra durchgeführt. Die Verbesserung der Korrelation gegenüber der des reinen vdW-Modells ist allerdings nur gering: r = 0.669. Die Anteile ∆Gintra und ∆Gelec werden fast vollständig durch kleine Regressionsparameter aus Solvatisierungsmodell als Scoringfunktion 72 Modellierung der freien Solvatisierungsenthalpie der Vorhersage herausgenommen. Regressionsparameter für ∆Gelec ist 0.0018 für ∆Gvdw hingegen 0.1451. Der elektrostatische Anteil wird also um den Faktor 80 gegenüber dem van der Waals Anteil herunterskaliert. Es ist nicht anzunehmen dass dieser hohe Faktor allein durch eine mangelnde Berücksichtigung einer sinnvollen Dieelketizitätskonstante verursacht wird, da dies bedeuten würde, dass das gesamte beteiligte Volumen die dielektrischen Eigenschaften von Wasser hat. Solvatisierungsmodell als Scoringfunktion 73 Modellierung der freien Solvatisierungsenthalpie 8.2 Weitere Nichtsolvatisierungsbeiträge Neben der Interaktionsenthalpie und der Änderung der freien Solvatisierungsenthalpie müssen noch die restlichen entropischen Anteile berücksichtigt werden. Diese setzen sich, wie in Kapitel 2.3.6 beschrieben, aus Beiträgen des Verlusts von Freiheitsgraden der Translation, Rotation und Vibration der beteiligten Moleküle sowie des Einfrierens von Bindungstorsionswinkeln zusammen. Da diese Anteile in unserem Modell nicht explizit modelliert werden, möchten wir hier kurz auf die möglichen dadurch verursachten Fehler eingehen. Rotations- und Translationsentropien der Moleküle Yu [58] kommt in einer Studie die thermostatistische Überlegungen und experimentelle Daten berücksichtigt zu dem Ergebnis, dass der Beitrag der Translations und Rotationsentropie pro Untereinheit bei G◦tr = 0 ± 5RT liegt. Die Änderung ∆Gtr (n) für die Assoziation von n Untereinheiten beträgt demnach (n − 1)G◦tr , so dass für den Fall des Docking bei dem 2 Untereinheiten assoziieren ∆Gtr = 0 ± 5RT gilt. Der Anteil des Verlusts von Freiheitsgraden der Translation und Rotation ist demnach zum einen klein und zum anderen nicht von Moleküleigenschaften abhängig, so dass er auch in der Konstante der Regression Berücksichtigung findet und somit Teil des Modells ist. Konformationsflexibilität Schwieriger ist derjenige Anteil zu behandeln, der durch das Einfrieren von Torsionwinkel zustande kommt, da hierfür die Konformationsflexibilität von Protein und Ligand diesbezüglich analysiert werden muss. Einige an experimentellen Daten parametrisierte Scoringfunktionen geben den Beitrag der Fixierung eines Torsionswinkels mit etwa 1.4kJ/mol an [59],[11]. Durch die Einschränkung der Flexibiliät von zahlreichen Proteinseitenketten und flexiblen Dihdralen des Liganden bei größeren Inhibitoren, kann dieser Anteil unter Umständen grosse Werte Wert annehmen. Der hierdurch entstandene Fehler wird etwas abgeschwächt durch die Tatsache, dass dieser Anteil im restlichen Modell teilweise mitparametrisiert werden kann. Es ist zu erwarten, dass es eine (schwache) Korrelation zwischen der Zahl der eingefrorenen Torsionswinkel und der Größe der Kontaktfläche zwischen Ligand und Protein gibt, also zu den in unserem Solvatisierungsmodell berechneten Flächenänderungen. Bei der Parametrisierung der ASP Oberflächenspannungen findet dieser Anteil somit teilweise Berücksichtigung. Solvatisierungsmodell als Scoringfunktion 74 Modellierung der freien Solvatisierungsenthalpie 8.3 8.3.1 Einbeziehung des Solvatisierungsmodells Konzept In Kapitel 2.5 wurde die Berechnung der freien Bindungsenthalpie in Lösung auf die Berechnung der Solvatisierungsenthalpien von Protein, Ligand und Komplex zurückgeführt. Da wir mit das Solvatisierungmodell als Teil der Scoringfunktion neu parametrisieren möchten, um so auch Restanteile implizit mitberücksichtigen zu können, haben wir die Änderungen aller im ZIBsm1 Modelle enthaltenen Descriptoren berechnet indem wir die für das Komplex erhaltenen Werte von der Summe der Werte für den Liganden und das Protein subtrahiert haben. Wir möchten hier darauf hinweisen, dass sich bei der Bindung die Vorzeichen aller Deskriptoren und damit berechneten ∆Gsolv Anteile umkehren, da bei der Assoziation der gegenteilige Effekt der Solvatisierung, nämlich Desolvatisierung einsetzt. Die entropische Komponente steuert also einen negativen Beitrag bei, die enthalpischen Anteile der elektrostatik, vdW-Wechselwirkungen und H-Brücken machen sich nun als positive Anteile bemerkbar. 8.3.2 Ergebnisse Zum Vergleich mit den durch das Merck Kraftfeld gewonnenen Ergebnissen betrachten wir zunächst allein die Berechnung des Deskriptor r Solvatisierungsanteils. Tabele 15 zeigt die Korrelationen zwischen PCM -0.078 einzelnen Deskriptoren des Modells und dem experimentellen H-Num 0.441 ∆Gbind . Die Korrelation für den mit der ZIBSM1 ParametriC 0.591 sierung erhaltenen Wert ∆Gzibsm1 ist nahe 0. Wie beim Merck C=0 0.169 Kraftfeld ist es also notwendig die Anteile zu separieren. Von alCB 0.412 len Anteilen liefert die Flächenänderung über der KohlenstoffatoN 0.269 men und Sauerstoffatomen die beste Korrelation. Dieses ErgebO 0.545 nis wurde in etwas anderer Form ebenfalls beim Merck Kraftfeld F 0.112 erhalten. Hierbei war die van der Waals Wechselwirkung der einP -0.119 zige korrelierende Deskriptor. Um die Parallelen zwischen diesen S 0.044 beiden Ergebnissen zu überprüfen, haben wir, um eine besse-0.078 res Maß für die van der Waals Wechselwirkung zu erhalten, alle ∆Gzibsm1 ∆SES 0.626 Flächenänderungen summiert und erhalten eine Korrelation dieses Wertes mit ∆Gexp von 0.626 bzw mit dem vdW-Anteil des Tabelle 15: Merck Kraftfeldes von 0.797. Die sehr einfachen Deskriptoren der Flächenänderung spielen in diesem Modell also die Rolle des van der Waals Anteils der Merck Kraftfeldes. Der elektrostatische Anteil PCM weißt ebenfalls wie der elektrostatische Anteil des Merck Kraftfeldes keinerlei Korrelation auf. Wir wollen jetzt die Frage aus Kapitel 8.1.3 beantworten, ob es sein kann, dass elektrostatische Wechselwirkung der beiden Moleküle untereinander und die Änderung der elektrostatischen Wechselwirkung mit Wasser sich gegenseitig aufheben. Die Korrelation zwischen diesen beiden Werten liegt bei r = 0.837. In Anbetracht des durch die Trappingprobleme der Minimierung der MMFF Energiefunktion verursachten Rauschens ist dies ein hoher Wert, die beiden Beiträge skalieren also tatsächlich in etwa linear und heben sich zumindest in Teilbeträgen gegenseitig auf. Wir haben nun das Gesamtmodel mit seinen 13 Deskriptoren neu parametrisiert. Tabelle 32 zeigt die Ergebnisse. Der Solvatisierungsmodell als Scoringfunktion 75 Modellierung der freien Solvatisierungsenthalpie Deskriptor r σ sign. (Constant) -16.820 4.282 .006 .003 ∆Gelect .147 .048 ∆Gvdw ∆Gintra .001 .003 PCM .018 .011 H-NUM -.405 .357 C -.007 .016 C=O -.254 .106 CB .009 .028 N .082 .129 O .166 .059 Cl .333 .237 P -.644 2.106 S .974 .293 .000 .028 .003 .644 .125 .262 .653 .020 .761 .529 .007 .166 .761 .002 Abbildung 32: Ergebnisse und Parametrisierung der ZIBscore1 Scoringfunktion neue Skalierungsfaktor zwischen elektrostatischer MMFF-Wechselwirkungsenergie und vdW-Anteil ist 0.147/0.006 ≈ 20. Dies ist ein sinnvoller Wert für eine gemittelte Dielektrizizätskonstante. Nach Berücksichtigung der gegenseitigen Aufhebung von Teilbeträgen durch die Regression, läßt sich also die restliche notwendige Reskalierung der MMFFAnteile physikalisch erklären. Der RMSD des vorhergesagten Wertes zum experimentellen Wert liegt bei 9.41kJ/mol, 2 ist mit 0.543 die Korrelation ist r = 0.797. Der kreuzvalidierte Korrelationskoeffizienz rcv allerdings deutlich kleiner als r2 mit 0.634, was bedeutet, dass die Vorhersagequalität geringer ist, als die Qualität des Fits. Eine Parametrisierung des Modells sollte also an einer deutlich größeren Datenmenge wiederholt werden. Solvatisierungsmodell als Scoringfunktion 76 Modellierung der freien Solvatisierungsenthalpie 8.4 Zusammenfassung Die intermolekulare Wechselwirkung zwischen Protein und Ligand wurde mit dem Merck Kraftfeld berechnet. Zur Minimierung der Energie wurde das konjugierte Gradientenverfahren benutzt. Für eine Reihe von Strukturen mit positiver Bindungsenergie ist sicher, dass die Minimierung nicht das globale Minimum erreicht hat. Die Korrelation der so berechneten Energien ist schlecht. Charifson fand in einer Vergleichsstudie mit 13 getesteten Scoringfunktionen, dass das Scoring per MMFF-Energie zu den zwei Funktion mit den schlechtesten Hitrates zählt [14]. Die Komplexe minimierte er wie wir mit einem starren Protein über konjugierte Gradientenminimierung. Ebenfalls schlechte Ergebnisse erzielen wir mit den über das ursprüngliche Solvatisierungmodell berechneten Werte. Separiert man die MMFF Energie bzw. den Solvatiserunganteil in die Einzelkomponenten ergibt sich eine deutlich bessere Korrelation, wobei der dominierende Anteil die vdWWechselwirkung ist. Die Korellation zwischen elektrostatischer Wechselwirkungsenergie und elektrostatischem Solvatisierungsbeitrag ist hoch, was auf eine teilweise Aufhebung der Effekte hindeutet. Die Kombination des Solvatisierungsmodells mit dem MMFF Modell ergibt eine gute Korellation von r = 0.797 und einen rmsd von 9.41kJ/mol. Die wissensbasierte Scoringfunktion Bleep hat zum Vergleich eine Korrelation für unseren Parametrisierungsdatensatz von r = 0.624. Wir erreichen also alleine mit einem Parameter der die van der Waals Wechselwirkung beschreibt (MMFF van der Waals Wechselwirkung oder Solvatisierungs SES Änderung) eine vergleichbare Übereinstimmung. Die von Gohlke aufgelisteten rmsd für Scoringfunktionen mit einen Testdatensatz von mehr als 50 Molekülen liegen im Bereich von 6 bis 10kJ/mol [5]. Auch in diesem Vergleich bestätigt sich, dass das kombinierte Modell sich als Scoringfunktion eignet. Solvatisierungsmodell als Scoringfunktion 77 Modellierung der freien Solvatisierungsenthalpie 9 Ausblick Mit dem hier vorgestellten ZIBscore1 Verfahren wurde ein erster Schritt zu einer kombinierten Scoringfunktion als Teil des am Konrad Zuse Zentrum entwickelten Dockingalgorithmus getan. Ein kritisches Problem das hierbei auftrat, ist die Energieminimierung des Komplexes. Aufgrund der starken Konformationssensibilität des Kraffeldes führt ein Trapping der Energieminimierung in lokalen Minima leicht zu unbrauchbaren Ergebnissen. Ein starkes Rauschen dieses Anteils kann dazu führen, dass auch die ergänzenden Anteile nicht korrekt parametrisiert werden. Nächster Schritt der Entwicklung sollte daher die Implementierung globaler Suchstrategien für die Energieminimierung sein. Sobald das Merck-Kraftfeld zuverlässige Werte liefert, kann das Modell um Anteile, welche die Entropieänderungen durch Torsionsinflexibilität beschreiben, erweitert werden. Die zunehmende Zahl von Parametern erfordert gleichzeitig eine Erweiterung der zur Parametrisierung verwendeten Datenmenge. Hierzu sollte der Parametrisierungsdatensatz von den bisher 66 Molekülen auf die gesamten in der PDL aufgeführten 259 Komplexe erweitert werden. Ausblick 78 Modellierung der freien Solvatisierungsenthalpie A Berechnete Daten der kleinen Moleküle h-num Gexp 1 1 1 1 1 1 1 2 2 3 -0.41 -0.08 -0.56 -0.48 -1.46 -0.70 -0.82 -2.11 -2.30 -1.98 oons zibasp1 zibpcm1 zibsm1 brominated hydrocarbons 1-bromobutane 1-bromopentane 1-bromopropane 2-bromopropane bromobenzene bromoethane bromomethane dibromomethane p-dibromobenzene tribromomethane rmsd -0.94 -1.01 -0.88 -0.85 -2.31 -0.82 -0.79 -1.21 -2.45 -1.59 -0.85 -0.87 -0.86 -0.79 -1.85 -0.90 -0.99 -1.97 -1.39 -2.41 1.36 -0.23 -0.57 -0.52 -1.59 -0.79 -1.09 -2.33 -1.67 -2.80 0.56 0.48 0.66 -0.72 -0.74 -0.57 -0.55 -0.56 -1.99 -0.50 -0.50 -0.44 -0.57 -0.62 -1.87 -1.82 -0.72 -0.68 -0.60 -1.81 -3.33 -1.31 -1.22 -1.64 -1.97 -1.38 -1.06 -1.51 -2.77 -1.27 -1.97 -1.75 -1.45 -3.28 -2.21 -0.60 -2.06 -0.58 -0.48 -0.79 -1.25 -0.84 -0.21 -1.22 -2.12 -0.24 -1.37 -1.04 -0.18 -1.93 -1.38 0.55 1.12 0.41 0.07 -1.67 -0.07 -2.60 -1.85 -1.88 0.45 -0.19 -0.02 0.53 1.84 0.48 -0.92 -0.99 -0.60 -0.62 -0.36 -0.20 chlorinated hydrocarbons 1,1,1-trichloroethane 1,1,2-trichloroethane 1-chloropropane 2-chloropropane 3-chloropropene chlorobenzene chloroethane chloroethene chloromethane dichloromethane e-1,2-dichloroethene o-dichlorobenzene p-dichlorobenzene trichloroethene trichloromethane z-1,2-dichloroethene 3 3 1 1 1 1 1 1 1 2 2 2 2 3 3 2 -0.25 -1.95 -0.27 -0.25 -0.57 -1.12 -0.63 -0.59 -0.56 -1.36 -0.76 -1.36 -1.01 -0.39 -1.07 -1.17 rmsd fluorinated hydrocarbons 1,1-difluoroethane fluorobenzene fluoromethane 2 1 1 -0.11 -0.78 -0.22 rmsd iodinated hydrocarbons 1-iodobutane 1-iodopentane 1 1 Berechnete Daten der kleinen Moleküle -0.25 -0.12 79 Modellierung der freien Solvatisierungsenthalpie 1-iodopropane 2-iodopropane diiodomethane iodobenzene iodoethane iodomethane 1 1 2 1 1 1 -0.59 -0.46 -2.49 -1.73 -0.72 -0.89 -0.86 -0.83 -1.15 -2.26 -0.80 -0.76 -0.61 -0.56 -1.47 -1.84 -0.64 -0.70 -0.54 -0.50 -2.32 -1.72 -0.75 -1.03 0.66 0.44 0.10 -1.48 -2.15 -0.18 0.01 -0.30 -0.95 0.13 -0.09 -2.25 -0.22 -1.25 -0.09 0.03 -0.21 -5.19 -0.86 0.63 -5.09 -4.36 -2.26 -3.52 -3.50 -2.07 -3.33 -6.24 -4.88 -3.73 -3.49 -1.57 -3.41 -2.86 -4.35 -0.88 -1.59 -2.74 -3.51 1.39 0.37 -0.36 -1.85 0.32 -1.48 -3.76 -0.82 -2.53 1.77 0.00 -0.98 -6.20 1.33 2.96 1.55 3.12 0.76 1.86 2.32 2.09 1.86 1.91 1.39 1.64 1.82 2.09 -0.49 -0.62 -0.56 -0.50 -0.51 -0.37 -0.44 -0.48 -0.56 -0.76 -0.76 -0.76 -0.74 -0.84 -0.76 -0.75 -1.51 -0.62 0.47 0.80 0.64 0.50 0.45 0.08 0.29 -0.12 0.76 0.77 1.76 2.07 0.84 1.84 2.3 2.07 1.37 1.62 -0.49 -0.61 -0.55 -0.36 -0.43 -0.91 -0.88 -0.88 -0.91 -0.98 0.26 0.62 0.45 -0.11 -0.01 rmsd other halo 1,1,1,3,3,3-hexafluoropropan-2-ol 1,1,1-trifluoropropan-2-ol 1,1,2-trichloro-1,2,2-trifluoroethane 1-bromo-1,2,2,2-tetrafluoroethane 1-bromo-1-chloro-2,2,2-trifluoroethane 1-bromo-2-chloroethane 1-chloro-2,2,2-trifluoroethane 1-chloro-2,2,2-trifluoroethyl-difluoromethyl-ether 2,2,2-trifluoroethanol 2,2,2-trifluoroethyl-vinyl-ether bis(2-chloroethyl)sulfide bromotrifluoromethane chlorodifluoromethane chlororfluoromethane p-bromophenol tetrachloroethene tetrafluoromethane 8 5 6 5 5 2 4 7 5 4 3 4 3 2 3 4 4 -3.77 -4.16 1.77 0.52 -0.13 -1.95 0.06 0.11 -4.31 -0.12 -3.92 1.79 -0.50 -0.77 -7.13 0.05 3.11 rmsd alkene 1-butene 1-hexene 1-pentene 2-methylpropene cyclopentene ethene propene trans-1,3-butadiene trans-2-pentene 0 0 0 0 0 0 0 0 0 1.38 1.68 1.66 1.16 0.56 1.27 1.27 0.61 1.34 rmsd alkine 1-butyne 1-hexyne 1-pentyne ethyne propyne 0 0 0 0 0 Berechnete Daten der kleinen Moleküle -0.16 0.29 0.01 -0.01 -0.31 80 Modellierung der freien Solvatisierungsenthalpie rmsd 1.89 0.53 0.89 0.35 -2.75 -1.75 -0.33 0.41 -2.25 0.1 0.41 -0.67 -3.41 -2.17 -1.84 -1.53 -2.79 -1.64 -1.53 -1.86 -4.66 -2.49 -2.50 -2.52 -3.67 -2.54 -2.52 -2.52 -3.00 -1.57 -1.05 -0.95 -2.37 -1.00 -0.95 -1.27 0.95 0.87 1.52 0.53 2.6 2.04 2.49 2.31 1.86 -0.69 -0.54 -0.66 -0.61 -0.49 0.00 0.00 0.00 0.00 0.00 1.58 1.13 1.47 1.33 0.99 0.37 3.23 2.62 1.32 2.4 2.04 1.89 1.57 2.25 -0.64 -0.54 -0.50 -0.42 -0.60 0.00 0.00 0.00 -0.36 0.00 1.44 1.15 1.02 0.54 1.31 0.74 1.88 1.39 0.22 1.88 1.42 2.59 2.36 1.16 2.83 2.13 1.66 -0.50 -0.38 -0.69 -0.63 -0.31 -0.75 -0.56 -0.44 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.66 1.52 1.35 0.47 1.70 1.18 0.83 0.36 2.85 2.3 1.19 -1.66 -4.49 0.8 -2.42 -4.42 -1.33 -2.47 -2.62 -2.02 -3.92 -4.46 -3.40 arene anthracene benzene ethylbenzene m-xylene naphthalene o-xylene p-xylene toluene 0 0 0 0 0 0 0 0 -4.23 -0.87 -0.80 -0.84 -2.39 -0.90 -0.81 -0.89 rmsd branched alkane 2,2,4-trimethylpentane 2,2-dimethylpropane 2,4-dimethylpentane 2-methylpentane 2-methylpropane 0 0 0 0 0 2.85 2.50 2.88 2.52 2.32 rmsd cycloalkane cis-1,2-dimethylcyclohexane cyclohexane cyclopentane cyclopropane methylcyclohexane 0 0 0 0 0 1.58 1.23 1.20 0.75 1.71 rmsd unbranched alkane butane ethane heptane hexane methane octane pentane propane 0 0 0 0 0 0 0 0 2.08 1.83 2.62 2.49 2.00 2.89 2.33 1.96 rmsd aliphatic amines azetidine butylamine diethylamine 2 3 2 Berechnete Daten der kleinen Moleküle -5.56 -4.29 -4.07 81 Modellierung der freien Solvatisierungsenthalpie dimethylamine dipropylamine ethylamine methylamine n,n-dimethylpiperazine n-methylpiperazine pentylamine piperazine piperidine propylamine pyrrolidine trimethylamine 2 2 3 3 2 3 3 4 2 3 2 1 -4.29 -3.66 -4.50 -4.56 -7.58 -7.77 -4.10 -7.40 -5.11 -4.39 -5.48 -3.23 rmsd -0.77 1.29 -4.96 -5.77 1.77 -0.36 -4.26 -2.69 -0.27 -4.73 -0.66 1.62 -1.84 -1.44 -4.30 -4.56 -1.01 -2.09 -4.49 -3.28 -1.88 -4.37 -1.97 -0.61 -2.47 -2.35 -2.75 -2.81 -5.25 -4.65 -2.62 -3.97 -2.20 -2.61 -2.46 -1.83 -4.35 -3.29 -5.14 -5.33 -6.31 -7.45 -4.29 -7.98 -3.63 -4.61 -4.15 -2.50 4.56 3.17 2.3 0.85 -6.99 -0.5 -8.07 -3.94 -5.34 -4.86 -7.88 -7.28 6.99 4.44 4.77 2.32 -1.48 -1.49 -0.81 -4.65 -5.23 -2.57 -3.3 -3.24 -8.44 -4.46 -2.70 -2.71 -2.30 -4.50 -4.64 -3.02 -3.46 -3.42 -6.37 -3.82 -4.43 -4.34 -4.27 -6.46 -6.63 -4.40 -4.51 -4.57 -5.34 -4.92 -4.18 -4.09 -3.82 -7.00 -7.64 -4.45 -4.73 -4.76 -7.20 -5.31 2.35 1.55 0.53 1.06 -6.5 -3.95 -4.5 -4.15 -5.41 -4.05 -3.99 -3.97 -4.13 -4.15 -4.48 -4.16 -3.08 -3.01 -3.83 -3.27 1.26 0.69 0.42 0.67 -13.19 -13.42 -14.48 -12.45 -16.82 -6.77 -6.71 -7.67 -6.28 -8.50 -4.80 -4.80 -5.68 -4.33 -5.41 -2.92 -3.12 -4.07 -2.71 -3.96 amide ethanamide n-methylacetamide 4 3 -9.71 -10.00 rmsd aromatic amines 2,4-dimethylpyridine 2,5-dimethylpyridine 2,6-dimethylpyridine 2-ethylpyrazine 2-methylpyrazine 2-methylpyridine 3-methylpyridine 4-methylpyridine aniline pyridine 1 1 1 2 2 1 1 1 3 1 -4.86 -4.72 -4.60 -5.51 -5.57 -4.63 -4.77 -4.94 -5.49 -4.70 rmsd nitrile benzonitrile butanonitrile ethanonitrile propanonitrile 1 1 1 1 -4.10 -3.64 -3.89 -3.85 rmsd nitrohydrocarbons 1-nitrobutane 1-nitropropane 2-methyl-1-nitrobenzene 2-nitropropane nitrobenzene 2 2 2 2 2 Berechnete Daten der kleinen Moleküle -3.08 -3.34 -3.59 -3.14 -4.12 82 Modellierung der freien Solvatisierungsenthalpie nitroethane 2 -3.71 rmsd -14.2 -6.89 -6.00 -4.40 10.65 3.67 1.72 0.41 -5.89 -2.06 0.2 -4.93 -2.56 -1.41 -4.23 -3.76 -3.66 -7.35 -6.53 -5.19 4.81 4.01 2.84 0.89 -11.55 -4.46 -3.76 -4 -3.53 -4.23 -4.81 -3.65 -4.27 -4.25 -5.05 -7.9 -5.78 -6.59 -7.9 -8.92 -5.63 -3.07 -3.25 -3.19 -3.31 -3.13 -3.06 -2.73 -2.83 -2.98 -3.00 -4.75 -3.12 -4.23 -4.75 -5.05 -5.95 -2.98 -2.99 -2.99 -2.99 -2.99 -2.92 -2.63 -2.86 -2.78 -2.97 -4.98 -3.11 -4.87 -4.99 -4.89 -9.76 -4.26 -3.75 -3.92 -3.58 -4.09 -4.32 -3.81 -4.25 -4.02 -4.55 -5.87 -5.05 -5.82 -5.89 -6.15 1.21 1.82 1.82 0.57 8.22 8.81 9.93 9.73 9.02 8.59 -4.69 -3.38 -3.16 -3.64 -3.44 -3.32 -5.35 -3.87 -4.10 -3.89 -3.91 -3.87 -4.35 -2.71 -3.29 -2.08 -2.57 -2.91 12.3 0.66 1.01 0.39 -6.41 -7.15 -5.84 -6.52 -6.76 -6.42 -6.82 -6.68 -6.65 -6.68 -6.65 -4.82 -4.51 -6.91 -7.38 -7.78 -6.41 -5.24 -7.88 -8.46 0.33 0.32 1.26 1.41 other hcno 2-methoxyethanamine morpholine N-methylmorpholine 4 3 2 -6.55 -7.17 -6.34 rmsd alcohol 1,2-ethanediol 1-butanol 1-heptanol 1-hexanol 1-octanol 1-pentanol 1-propanol 2-methyl-2-propanol 2-propanol cyclopentanol ethanol m-crescol methanol o-crescol p-crescol phenol 4 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 -9.30 -4.72 -4.24 -4.36 -4.09 -4.47 -4.83 -4.51 -4.76 -5.49 -5.01 -5.49 -5.11 -5.87 -6.14 -6.62 rmsd aldehydes benzaldehyde butanal ethanal octanal pentanal propanal 1 1 1 1 1 1 -4.02 -3.18 -3.50 -2.29 -3.03 -3.44 rmsd acids butanoic acid ethanoic acid hexanoic acid pentanoic acid propanoic acid 3 3 3 3 3 rmsd Berechnete Daten der kleinen Moleküle -6.36 -6.70 -6.21 -6.16 -6.47 83 Modellierung der freien Solvatisierungsenthalpie ester butyl ethanoate ethyl ethanoate ethyl methanoate methyl butanoate methyl ethanoate methyl hexanoate methyl methanoate methyl octanoate methyl pentanoate methyl propanoate pentyl ethanoate propyl ethanoate 2 2 2 2 2 2 2 2 2 2 2 2 -2.55 -3.10 -2.65 -2.83 -3.32 -2.49 -2.78 -2.04 -2.57 -2.93 -2.45 -2.86 rmsd -0.11 0.2 8.77 0.95 -1.42 1.08 7.41 1.12 0.86 -1.64 1.2 0.39 -4.57 -3.19 -4.33 -3.02 -4.23 -3.14 -4.57 -3.61 -3.08 -3.99 -3.47 -3.22 -4.29 -2.62 -4.79 -2.72 -3.87 -2.75 -5.12 -2.81 -2.75 -3.95 -2.80 -2.54 -4.61 -3.02 -4.69 -3.08 -4.47 -2.54 -5.41 -2.26 -2.68 -4.27 -2.64 -2.76 5.24 1.17 1.14 1.24 -0.44 -1.45 -2.68 1.55 -0.04 1.05 0.99 1.33 0.02 -1.65 -1.83 -2.74 -0.76 -1.05 -0.93 -0.97 -0.90 -1.19 -3.22 -3.57 -3.06 -1.93 -2.16 -1.88 -2.01 -1.75 -2.11 -4.54 -4.97 -3.20 -1.86 -2.73 -2.02 -2.08 -1.67 -2.47 3.17 1.94 1.11 0.88 -1.41 1.39 1.21 1.55 0.98 0.94 1.28 1.06 2.03 0.26 0.3 0.14 -4.64 -2.93 -2.87 -3.50 -2.81 -2.73 -2.25 -3.21 -2.80 -3.29 -3.51 -3.24 -5.24 -3.43 -3.43 -3.58 -3.43 -3.08 -3.32 -3.22 -3.44 -3.38 -3.60 -3.61 -4.65 -2.13 -2.30 -1.97 -2.49 -2.11 -2.29 -1.94 -1.61 -2.80 -2.93 -3.14 4.29 0.61 0.51 1.00 -5.93 -4.84 -3.61 -3.05 -4.15 -3.70 -6.85 -4.92 ether 1,2-dimethoxyethane 1,4-dioxane anisole diethylether dimethyl ether methylisopropylether methylpropylether t-butylmethylether tetrahydrofuran 2 2 1 1 1 1 1 1 1 -4.84 -5.05 -1.04 -1.76 -1.92 -2.01 -1.66 -2.21 -3.47 rmsd ketone 1-phenylethanone 2-heptanone 2-hexanone 2-octanone 2-pentanone 3,3-dimethybutanone 3-pentanone 4-heptanone 5-nonanone butanone cyclopentanone propanone 1 1 1 1 1 1 1 1 1 1 1 1 -4.58 -3.04 -3.29 -2.88 -3.53 -2.89 -3.41 -2.93 -2.67 -3.64 -4.68 -3.85 rmsd other hco 2-methoxyethanol 2-propen-1-ol 3 2 Berechnete Daten der kleinen Moleküle -6.77 -5.08 84 Modellierung der freien Solvatisierungsenthalpie butenyne m-hydroxybenzaldehyde p-hydroxybenzaldehyde 0 3 3 0.04 -9.51 -10.48 1.83 1.64 1.71 -0.48 -7.47 -7.45 -1.20 -8.12 -8.05 0.02 -9.23 -9.16 7.44 2.35 1.9 0.61 0.12 1.06 -0.8 0.21 1.5 -3.05 -1.69 -1.50 -0.99 -1.52 -1.00 -1.12 -1.79 -2.38 -1.75 -1.83 -1.81 -1.90 -1.78 -1.17 -2.71 -0.17 -0.92 -0.70 -1.56 -0.50 -2.75 -2.01 1.99 0.53 0.33 1.14 -0.53 -0.76 -1.19 -3.23 -1.39 -1.32 -1.32 -2.79 -1.50 -1.53 -1.41 -2.32 -1.86 -2.08 -2.18 -2.68 0.51 0.2 0.3 0.73 -14.44 -18.11 -16.95 -9.42 -11.82 -7.26 -3.71 -5.37 -5.65 -6.23 -8.69 -8.88 rmsd 9.9 3.35 2.32 1.89 total rmsd 4.1 1.87 1.75 0.87 rmsd sulfide diethyl disulfide diethyl sulfide dimethyl disulfide dimethyl sulfide dipropyl sulfide hydrogen sulfide thioanisole 2 1 2 1 1 3 1 -1.63 -1.43 -1.83 -1.54 -1.27 -0.70 -2.73 rmsd thiols 1-propanethiol ethanethiol methanethiol thiophenol 2 2 2 2 -1.05 -1.30 -1.24 -2.55 rmsd other amonia hydrazine water 4 6 3 -4.29 -9.30 -6.31 Tabelle 16: Zahl der H-Brücken Donoren und Akzeptoren (hNum) experimentelle freie Solvatisierungsenthalpie (Gexp) und berechnete Werte mit den 4 betrachteten Modellen (alle Werte in kcal/mol). Für jeden Molekültyp ist der RMSD des Modells in der Zeile nach den Daten angegeben. Berechnete Daten der kleinen Moleküle 85 Modellierung der freien Solvatisierungsenthalpie B Berechnete Daten der Protein-Ligand Komplexe PDB ∆Gexp ∆Ginta ∆Gelec ∆GvdW ∆GZIBscore1 1a07 1aaq 1abe 1abf 1anf 1apb 1apt 1apu 1apv 1apw 1ba8 1bap 1c83 1cbs 1cho 1ejn 1epo 1fkf 1fkg 1hbv 1hew 1hsb 1htf 1hvi 1hvj 1hvk 1hvl 1hvr 1jao 1jap 1mmp 1mmq 1nco 1nnb 1ppk 1ppl 1qbu 1rbp 1rgk 1stp 1thl -22.82 -47.98 -40.11 -30.97 -31.13 -33.26 -53.68 -43.98 -51.34 -45.64 -51.34 -39.19 -19.23 -41.07 -60.28 -32.51 -45.40 -55.37 -36.86 -36.34 -34.23 -51.67 -46.21 -57.50 -59.67 -57.73 -51.40 -54.25 -33.78 -26.95 -35.60 -51.34 -44.34 -22.83 -43.70 -45.03 -58.43 -38.33 -24.59 -71.47 -36.63 272.06 379.73 73.14 85.37 204.17 74.11 563.09 496.76 282.58 245.56 471.39 62.33 183.67 144.41 4397.74 263.02 662.36 384.60 316.55 508.86 656.74 386.17 184.50 209.08 190.75 271.30 245.66 180.56 236.43 291.00 152.51 266.11 1297.47 347.20 480.25 455.81 327.88 337.08 211.80 195.01 237.77 -1464.39 -400.24 -477.50 -419.67 -523.29 -382.66 -2523.12 -327.50 -455.47 -385.08 -846.10 -465.09 -2502.01 -316.35 -961.63 -120.74 -574.88 -167.33 -67.05 -280.58 -515.16 -1105.76 -255.71 -365.75 -260.70 -311.25 -284.93 -291.39 890.57 -1021.92 -365.23 -211.38 -113.08 -883.15 -432.14 -350.45 -283.89 -50.75 -449.56 -477.07 -246.19 -36.21 -123.72 -15.59 -19.04 -13.13 -36.24 -81.33 -122.21 -111.07 -118.95 -79.91 -24.31 31.01 -96.97 -185.50 -63.51 -97.90 -121.85 -109.09 -115.04 -56.73 -17.11 -110.27 -196.19 -210.81 -206.82 -204.03 -180.25 -12.11 -35.12 -74.82 -88.70 -140.93 -8.47 -99.71 -138.71 -156.20 -153.28 25.96 -34.05 -72.19 -31.24 -55.56 -35.53 -36.57 -37.72 -33.66 -45.32 -37.71 -47.41 -47.89 -36.95 -33.10 -35.47 -33.07 -59.65 -42.43 -46.75 -42.31 -35.09 -40.14 -32.96 -40.00 -46.17 -61.86 -61.57 -56.87 -60.46 -49.69 -29.20 -31.27 -35.48 -36.92 -51.82 -37.26 -37.71 -44.95 -55.29 -43.34 -22.92 -38.76 -37.71 Berechnete Daten der Protein-Ligand Komplexe 86 Modellierung der freien Solvatisierungsenthalpie 1tmn 1tng 1tnh 1tni 1tnj 1tnk 1tnl 1uvs 1uvt 2cmd 2er6 2gbp 2h4n 2ifb 3cpa 4er4 4hvp 4sga 5abp 6abp 6tmn 7dfr 7hvp 9abp 9hvp -41.67 -16.75 -19.22 -9.69 -6.15 -8.50 -10.70 -30.81 -43.60 -26.10 -41.22 -43.36 -49.65 -30.97 -22.13 -38.78 -34.85 -18.65 -37.94 -36.34 -28.82 -42.21 -54.94 -45.70 -47.64 944.27 49.99 34.52 101.12 61.22 114.80 80.87 500.84 259.71 305.06 1265.01 124.31 89.63 182.62 201.33 904.71 1444.33 278.18 100.06 147.01 425.45 494.92 1394.28 69.59 451.59 -721.96 295.30 221.71 247.10 271.81 248.29 299.94 -32.66 -54.83 -2129.85 -519.48 -511.34 -129.78 -277.02 -970.22 -7821.44 -711.19 -683.25 -494.97 -477.90 -397.44 -856.81 -544.64 -531.95 -349.26 -53.97 -26.71 -23.27 -15.11 -10.51 -13.70 7.26 -130.03 -116.39 35.01 -95.87 4.10 -49.39 -45.68 -29.63 -43.05 -49.39 -56.34 -27.33 -15.87 -86.13 -20.34 -130.49 -20.39 -162.02 -35.24 -17.84 -22.88 -21.76 -17.64 -18.08 -15.93 -36.28 -37.82 -24.75 -45.99 -31.05 -45.55 -35.35 -33.74 -40.29 -38.42 -24.33 -39.34 -33.52 -37.33 -22.62 -55.27 -39.16 -54.61 Tabelle 17: Experimentelle freie Bindungsenthalpie ∆Gexp , mit dem MMFF Kraftfeld berechnete Änderung der Konformationsenergie des Liganden ∆Gintra , elektrostatische Wechselwirkungsenergie ∆Gelec und van der Waals Wechselwirkungsenergie ∆Gvdw , sowie durch die durch das ZIBscore1 Modell vorhergesagten freien Bindungsenthalpien ∆GZIBScore1 (alle Werte in kJ/mol) Berechnete Daten der Protein-Ligand Komplexe 87 Modellierung der freien Solvatisierungsenthalpie Literatur [1] K. A. Dill. Dominant forces in protein folding. Biochemistry, 29:7133–7155, 1990. [2] F. Eisenhaber. Hydrophobic regions on protein surfaces. Perspectives in Drug Discovery and Design, 17:27–42, 1999. [3] R.P. Hertzberg and A.J. Pope. High-throughput screening: new technology for the 21st century. Curr Opin Chem Biol., 4:445–451, 1990. [4] David M. Webster. Protein Structure Prediction: Methods and Protocols. Humana Press, 2000. [5] Holger Gohlke and Gerhard Klebe. Anstze zur beschreibung und vorhersage der bindungsaffinitt niedermolekularer liganden an makromolekulare rezeptoren. Angew. Chem., 114:2764–2798, 2002. [6] Andrew R. Leach. Molecular Modelling. Prentice Hall, 2001. [7] Thomas A. Halgren. Merck Molecular Force Field I-V. J.Comp.Chem., 17:490–640, 1996. [8] M. Rarey, B. Kramer, T. Lengauer, and G. Klebe. A fast flexible docking method using an incremental construction algorithm. J. Mol. Biol., 261:470–489, 1996. [9] D.S. Goodsell, G.M. Morris, and A.J. Olson. Docking of flexible ligands: Applications of AutoDock. J. Mol. Recognition, 9:1–5, 1996. [10] Wilhelm Huisinga, Christoph Best, Frank Cordes, Rainer Roitzsch, and Christof Schütte. From simulation data to conformational ensembles: Structure and dynamics based methods. J. Comp. Chemistry, 20:1760–1774, 1999. [11] G.M. Morris, D.S. Goodsell, R.S. Halliday, R. Huey, W.E. Hart, R.K. Belew, and A.J. Olson. Automated docking using a lamarckian genetic algorithm and an empirical binding free energy function. J.Comp.Chem., 14:1639–1662, 1998. [12] D.R. Westhead, D.E. Clark, and C.W. Murray. A comparison of heuristic search algorithms for molecular docking. J.Comp.Aided Molec. Design, 11:209–228, 1997. [13] Christopher D. Rosin, R. Scott Halliday, William E. Hart, and Richard K. Belew. A comparison of global and local search methods in drug docking. In Thomas Bäck, editor, Proceedings of the Seventh International Conference on Genetic Algorithms (ICGA97), San Francisco, CA, 1997. Morgan Kaufmann. [14] Paul S. Charifson, Joseph J. Corkery, Mark A. Murcko, and Patrick Walters. Consensus scoring: A method for obtaining improved hit rates from docking databases of three-dimensional structures into proteins. J. Med. Chem., 42:5100–5109, 1999. [15] Martin Stahl and Matthias Rarey. Detailed analysis of scoring functions for virtual screening. J. Med. Chem., 44:1035–1042, 2001. LITERATUR 88 Modellierung der freien Solvatisierungsenthalpie [16] G.E. Terp, B.N. Johansen, I.T. Christensen, and F.S. Jorgensen. A new concept for multidimensional selection of ligand conformations (multiselect) and multidimensional scoring (multiscore) of protein-ligand binding affinities. J. Med. Chem., 44:2333–2343, 2001. [17] John G. Topliss. Quantitative Structure-Activity Relationships of Drugs. Academic Press, New York, 1983. [18] J.K. Seydel. QSAR and Strategies in the Design of Bioactive Compounds. VCH, Weinheim, 1985. [19] Osman F. Guner. Pharmacophore Perception, Development, and Use in Drug Design. International University Line, 2000. [20] John B. O. Mitchell, Roman A. Laskowski, Alexander Alex, and Janet M. Thornton. Bleep - ptential of mean force describing protein-ligand interactions: I. generating potential. J. Comp. Chem., 20:1165–1176, 1999. [21] Holger Gohlke, Manfred Hendlich, and Gerhard Klebe. Knowledge based scoring function to predict protein-ligand interactions. J. Molec. Biol., 295:337–356, 2000. [22] B. Lee and F. M. Richards. The interpretation of protein structures: Estimation of static accessibility. J. Mol. Biol., 55:379–400, 1971. [23] F.M. Richards. Areas, volumes, packing and protein structure. Ann. Rev. Biophys. Bioeng., 6:151–176, 1977. [24] N.T. Southall, K.A. Dill, and A.D.J. Haymet. A view of the hydrophobic effect. J. Phys. Chem. B, 106:521–533, 2002. [25] C.J. Cramer and D.G. Truhlar. Implicit solvation models: Equilibria, structure, spectra and dynamics. Chem. Rev., 99:2161–2200, 1999. [26] L.R. Pratt and A. Pohorille. Hydrophobic effects and modeling of biophysical aqueous solution interfaces. Chem Rev., 102:2671–2692, 2002. [27] G.A. Jeffrey and W. Sanger. Hydrogen Bonding in Biological Structures. Springer Verlag, 1991. [28] H.J. Boehm and G. Klebe. What can we learn from molecular recognition in proteinligand complexes for the design of new drugs? Angew. Chem. Int. Ed. Engl., 35:2588– 2614, 1996. [29] Candee C. Chambers, Gregory D. Hawkins, Christopher J. Cramer, and Donald G. Truhlar. Models for aeqeous solvation based on class iv atomic charges and first solvation shells effects. J. Phys. Chem., 100:16385–16398, 1996. [30] M.P. Allen and D.J. Tildesley. Computer Simulation of Liquids. Oxford University Press, 1987. [31] A. Nicholls B. Honig. Classical electrostatics in biology and chemistry. Science, 26:1144–1149, 1995. LITERATUR 89 Modellierung der freien Solvatisierungsenthalpie [32] Jacopo Tomasi and Maurizio Persico. Molecular interactions in solution: An overview of methods baed on continuous distributions of the solvent. Chem. Rev., 94:2027–2094, 1994. [33] C.J. Cramer and D.G. Truhlar. Continuum solvation models: Classical and quantum mechanical implementations. Rev. in Comp. Chemistry, VI, 1995. [34] R.B. Darlington. Regression and linear models. New York: McGraw-Hill, 1990. [35] K.A. Sharp, A. Nicholls, R. Fine, and B. Honig. Reconciling the magnidtude of microscopic and macroscopic hydrophobic effects. Science, 252:106–109, 1991. [36] Dudley H. Williams and Ben Bardsley. Estimating binding constants - the hydrophobic effect and cooperativity. Persp. in Drug Disc. and Design, 17:43–59, 1999. [37] D. Eisenberg and A.D. McLachlan. Solvation energy in protein folding and binding. Nature, 319:199– 203, 1986. [38] A.H. Juffer, F. Eisenhaber, S.J. Hubbard, D. Walther, and P. Argos. Comparison of atomic solvation parametric sets. Protein Science, 4:2499–2509, 1995. [39] S.C. Harvey. Treatment of electrostatic effects in macromolecular modelling. Proteins, 5:78, 1989. [40] J. O’M. Bockris and A. K. N Reddy. Modern Electrochemistry 1. Plenum Press New York, 1977. [41] L. Onsager. Electric moments of molecules in liquids. J. Am. Chem. Soc., 58:1486, 1936. [42] W.C. Still, A. Tempczyrk, R.C. Hawley, and T. Hendrickson. Semianalytical treatment of solvation for molecular mechanics and dynamics. J. Am. Chem. Soc., 112:6127–6129, 1990. [43] Hans Sonntag and Klaus Strenge. Coagulation Kinetics and Structure Formation. Plenum Press, 1987. [44] M. Holst, N. Baker, and F. Wang. Adaptive multilevel finite element solution of the poisson-boltzmann equation i: algorithms and examples. J. Comput. Chem., 21:1319–1342, 2000. [45] Walter Greiner. Classical Electrodynamics (Classical Theoretical Physics). SpringerVerlag, 1998. [46] Enrico O. Purisima and Shahul H. Nilar. A simple yet accurate boundary element method for continuum dielectic calculations. J. Comp. Chem., 16:681–689, 1995. [47] R.J. Zauhar and R.S. Morgan. A new method for computing the macromolecular electric potential. J. Mol. Biol., 186:815–820, 1985. [48] Nathan A. Baker, David Sept, Simpson Joseph, Michael J. Holst, and J. Andrew McCammon. Electrostatics of nanosystems: application to microtubules and the ribosom. Proc. Natl. Acad. Sci. USA, 98:10037–10041, 2001. LITERATUR 90 Modellierung der freien Solvatisierungsenthalpie [49] Enrico O. Purisima. Fast summation boundary element method for calculating solvation free energies of macromolecules. J. Comp. Chem., 19:1494–1504, 1998. [50] Maxim Totrov and Ruben Abagyan. Rapid boundary element solvation electrostatics calculations in folding simulations. Biopolymers, 60:124–133, 2001. [51] George Karypis and Vipin Kumar. Multilevel algorithms for multi-constraint graph partitioning. Technical report, 1997. available from http://wwwusers.cs.umn.edu/ karypis/publications/partitioning.html. [52] T. Ooi, M. Oobatake, G. Nemethy, and H.A. Scheraga. Accessible surface areas as a measure of of the thermodynamic parameters of hydration of peptides. Proc. Natl. Acad. Sci. USA, 84:3086–3090, 1987. [53] Detlev Stalling, Malte Westerhoff, and Hans-Christian Hege. Amira - a highly interactive system for visual data analysis. 2003. to appear in: Christopher R. Johnson and Charles D. Hansen (eds.), Visualization Handbook (2004), Academic Press, also available under http://www.zib.de/visual/publications/sources/amiraoverview.pdf. [54] http://www.rcsb.org/pdb/. [55] Dushyanthan Puvanendrampillai and John B. O. Mitchell. Protein ligand database (pld): additional understanding of the nature and specificity of proteinligand complexes. Bioinformatics, 19:1856–1857, 2003. [56] http://www-mitchell.ch.cam.ac.uk/pld. [57] William H. Press. Numerical Recipes in C. Camebridge University Press, 1988. [58] Y. Bruce Yu, Peter L. Privalov, and Robert S. Hodges. Contribution of translational and rotational motions to molecular association in aqueous solution. Bioph. J., 81:1632–1642, 2001. [59] H.J. Böhm. The development of a simple empirical scoring function to estimate the binding constant for a protein-ligand complex of known three-dimensional structure. J. Comp.-Aided Mol. Des., 8:243–256, 1994. LITERATUR 91