Tobias Voigt September 2002 Verfahren zu Strukturvorhersagen in vereinfachten Modellen 1. Einführung und Problemstellung Während die Sequenzierung neuer Polypeptide und Proteine heute durch die Verwendung von Polymerase-Kettenreaktion und Restriktionsenzymen (für DNA) bzw. Edmann-Abbau (für Proteine) eine Routineaufgabe darstellt, bereitet die Aufklärung der Struktur immer noch erhebliche Schwierigkeiten. Soll die Struktur eines Proteins bestimmt werden, so ist die wichtigste Technik die Röngtenstrukturanalyse. Hier wird das Beugungsbild eines ProteinEinkristalls im monochromatischen Röngtenlicht aufgenommen und daraus die Anordnung der Atome im Molekül erhalten. Die Röngtenstrukturanalyse hat zwar den großen Vorteil, ein dreidimensionales Bild des Moleküls mit einer Genauigkeit von besser als ein Picometer zu liefern, aber auch einige Nachteile: Man benötigt Protein-Einkristalle in der Größe von etwa einem Millimeter. Diese sind (wenn überhaupt) nur durch langwierige, aufwendige Kristallisation zu erhalten. Auch die Auswertung der Röntenbeugungsmuster ist nicht trivial und erfordert (besonders bei großen Proteinen) einen erheblichen Zeitaufwand. Eine andere Möglichkeit, die Struktur von Proteinen aufzuklären, bietet die Kernresonanzspektroskopie. Hier können Proteine in wässrigen Medium untersucht werden, allerdings sind die apparativen Kosten sehr hoch und Auswertung der Spektren sehr kompliziert. Trotz dieser Probleme wird erhebliche Mittel für die Strukturaufklärung von Proteinen verwendet, denn die Struktur ist der Schlüssel zum Verständnis der Funktionsweise eines Proteins. Gleichzeitig stellt sich natürlich die Frage, ob es nicht Methoden gibt, die Struktur eines Proteins allein anhand der Sequenz zu bestimmen. Dass allein die Sequenz für die Struktur bestimmend wird deutlich, wenn man ein synthetisch hergestelltes Protein in seine typische Umgebung (z.B. wässriges Medium, kein extremer pH-Wert, 37 °C) bringt: Es nimmt seine von selbst seine typische Struktur an. Diese spontane Faltung kann damit erklärt werden, dass das Protein nun ein lokales Minimum der freien Enthalpie besetzt. Der Einfachheit halber soll im weitern Verlauf bei diesem Begriff ganz einfach von der „Energie“ gesprochen werden. 2. Das HP-Modell Um die Struktur eines Proteins vorhersagen zu können, ist es sinnvoll, zunächst einige Vereinfachungen zu machen. 1. Nicht die Position jedes einzelnen Atoms, sondern nur die Anordnung (und nicht die Orientierung) der Aminosäuren im Protein soll betrachtet werden. 2. Die Aminosäuren können sich nicht an beliebigen Positionen, sondern nur auf genau definierten Gitterplätzen befinden, ein Gitterplatz dar maximal einfach besetzt sein. Die geringste euklidische Distanz von einem Gitterpunkt zum nächsten sei 1. 3. die Anzahl unterschiedlicher Aminosäuren wird von 20 auf 2 reduziert. Hierbei repräsentiert „H“ alle hydrophoben Aminosäuren, während „P“ für die polaren Aminosäuren steht. Welche strukturellen Eigenschaften zeichnet nun ein Protein in seiner natürlichen Struktur aus, d.h. was lässt es zu einem Energieminimum streben? Befinden sich ein polares Molekül oder ein polarer Molekülteil in Kontakt mit Wasser, so bilden sich zwischen ihm und dem Wasser so genannte „Wasserstoffbrückenbindungen“ aus. Diese sind zwar schwächer als kovalente („normale“ Bindungen) aber stark genug, um zwei Moleküle bei nicht zu hoher Temperatur zusammenzuhalten. Auch können zwei polare Moleküle, von denen zumindest eines ein Wasserstoffatom besitzt, das an ein Nichtmetall (wie Stickstoff, Sauerstoff oder Schwefel) gebunden ist, untereinander solche Bindungen eingehen. Kommt eine solche Bindung zustande, wird die potentielle (chemische) Energie in kinetische Energie (Wärme) umgewandelt und abgeführt. Das System befindet sich nun auf der Energieskala ein Stückchen weiter unten. Nun hat ein Protein das Bestreben, möglichst viele dieser Wasserstoffbrückenbindungen mit sich selbst und seiner wässrigen Umgebung einzugehen. Eigentlich müsste man jeder Waaerstoffbrückenbindung eine negative Energie zuweisen. Dass man jetzt aber auch noch die Wechselwirkungen mit dem umgebenden Wasser untersuchen muss, treibt der rechnerischen Aufwand unnötig in die Höhe. Nimmt man an, dass eine Aminosäure im Protein immer von gleich vielen Partnern (andere Aminosäuren oder Wasser) umgeben ist, ist diese Aussage in etwa gleichbedeutend mit: Das Protein hat das Bestreben, hydrophobe Aminosäuren in direkten Kontakt miteinander zu bringen. Diese treibende Kraft wird deshalb auch „hydrophober Kollaps“ genannt. Daraus folgt die nächste Voraussetzung: 4. Die Energie des Kontakts zwischen zwei H-Aminosäuren ist -1, bei allen anderen Kontakten ist sie 0. Zwei Aminosäuren befinden sich in Kontakt, wenn sie nicht über eine kovalente Bindung miteinander verbunden sind und ihre euklidische Distanz 1 ist. Diese Voraussetzungen bilden das „HP-Modell“ 3. Das kubische Gitter 3.1. Ein einfaches Beispiel einer Faltung im quadratischen Gitter Betrachten wir nun eine Faltung der Sequenz von Monomeren (im weitern Verlauf soll dieser Begriff „Aminosäuren“ ersetzen) PHPPHHPH in einem zweidimensionalen, quadratischen Gitter: Abb. 1: Konformation eines Octamers Die weißen Kugeln stellen P, die schwarzen H dar. Die beiden Kontakte sind mit gestrichelten Linen dargestellt, diese Faltung besitzt die Energie -2. Für die Untersuchung der allgemeinen Proteinfaltung benötigt man einen Algorithmus, der mit Sicherheit die Konformation mit der maximalen Anzahl der Konakte liefert. 3.2 Berechnung einer oberen Grenze für die HH-Kontakte Obwohl Approximations-Algorithmen für das HP-Modell sowohl im kubischen primitiven Gitter (was eine „Fortsetzung“ des quadratischen in die 3. Dimension darstellt) als auch im kubisch flächenzentrierten Gitter (Betrachtungen hierzu folgen später) existieren, schließt die Notwendigkeit, die wirklich beste Konformation zu finden, die Verwendung von Approximations-Algorithmen oder heuristischen Methoden aus. In der Literatur sind zwei Methoden bekannt, mit denen sich die Struktur mit der maximalen Anzahl an H-H-Kontakten, also der niedrigsten Energie, ermitteln lässt. Beide benutzen Varianten von „Abzeigen und Binden“, die im einzelnen wie folgt funktioniert: Eine Koordinate (z.B. x) wird für alle H-Aminosäuren festgesetzt. Eine obere Grenze wird für die Anzahl der Kontakte berechnet, bei festen Werten für die H-Monomeren. Im HP-Modell kann eine obere Grenze leicht bestimmt werden, wenn die Anzahl der H-Monomere für jede Ebene bekannt ist. Für diesen Zweck werden die Anzahl aller HH-Kontakte und HH-Bindungen gezählt. Da die Anzahl der HH-Bindungen bekannt ist, ist es irrelevant, in welcher Ebene sie sich tatsächlich befinden. Kontakte und Bindungen sollen verallgemeinert als Kontakte Bezeichnet werden. Nun muss zwischen (verallgemeinerten) Kontakten innerhalb einer Ebene und zwischen verschiedenen Ebenen unterschieden werden. Nimmt man an, dass die schwarzen Punkte in Abb. 2 die Positionen von H-Monomeren darstellen, dann existieren 5 H-Monomere in Ebene x = 1 und 4 H-Monomere in Ebene x = 2. Abb. 2 Kontakte in einem Modell mit zwei Ebenen Wie man erkennen kann, existieren 4 Kontakte zwischen den Ebenen (durchgezogene Linien), 4 Kontakte innerhalb von Ebene x = 1 und 5 Kontakte innerhalb Ebene x = 2 (gestrichelte Linien). Die Übereinstimmung mit der gegebenen Grenze für 5 Monomeren in x = 1 und 4 Monomeren in x = 2 errechnet sich wie folgt: Für die Anzahl der Kontakte zwischen den Ebenen wird für jeden Kontakt ein Monomer in jeder Ebene verbraucht. Daher ist die maximale Anzahl der Kontakte die minimale Anzahl der Monomere pro Ebene, min (5,4) = 4. Die Anzahl der Kontakte errechnet sich nach dem Konzept des Rahmens. Sei a = n und b = n a . (a,b) ist der minimale Rechteckrahmen um n H-Monomere. Die maximale Anzahl an Kontakten innerhalb dieser Ebene ist nu 2n – a – b. Im gewählten Beispiel nun erhält man für die erste Ebene n = 5, a = 3 und b = 2, die maximale Anzahl der Kontakte innerhalb der Ebene ist also 10 – 3 – 2 = 5. Für die zweite Ebene erhält man n = 5, a = 3 und b = 2, die maximale Anzahl der Kontakte innerhalb der Ebene ist also 8 – 2 – 2 = 4. Bevor das HP-Modell mit einem kubischen Gitter weiter betrachtet wird, soll jedoch die Auswahl des verwendeten Gitters diskutiert werden. Sicher hat das kubische Gitter den Vorteil, dass es sich leicht beschreiben lässt. r r r r Bei den gegeben Vektoren υ1 ,...,υn , ist das von υ1 ,...,υn dargestellte Gitter der minimale Satz r r r r r r von den Punkten L so dass ∀u ,υ ∈ L, sowohl u + υ ∈ L als auch u + υ ∈ L. Eine Ebene x in einem Gitter Gitter L ist eine Ebene orthogonal zu x-Achse, so dass die Schnittmenge der Ebene der Punkte und der Punkte von L eine nicht leere Menge ist. Das kubische Gitter ist nun definiert als: x C3 = y z x 3 y ∈Z z Der Satz N C '3 von Vektoren, die die Verbindungen zwischen benachbarten Punkten darstellt, ist denkbar einfach und wird gegeben durch: N C '3 ± 1 0 0 = 0 , ± 1 , 0 0 0 ± 1 3.3. Nachteile des kubischen Gitters Das kubische Gitter besitzt aber auch einige gravierende Nachteile: Angenommen ein Protein hätte die Struktur HPHPHPHPHP usw., dann könnte hier (weder im zwei- noch im dreidimensionalen Gitter) nie ein HH-Kontakt auftreten, denn nach 2n Schritten kann die Proteinkette nie im Abstand von 1 zum Ausgangspunkt sein. Daraus folgt, dass zwischen einzelnen H-Monomeren die Entfernung immer größer als 1 wäre – sicherlich ein absurdes Ergebnis. In einem Protein oder einem beliebigen andern Biomolekül ordnen sich die Monomere nicht an den Gitterpunkten des kubischen Gitters an. Eine solche Packung hat keine gute Raumerfüllung (sie liegt unter Annahme von kugelfömigen Monomeren bei ca. 56 %) Diese Argumente machen deutlich, dass es nötig, ist eine andere Packung zu wählen. Eine bessere Raumerfüllung hat z.B. die kubisch innenzentrierte Kugelpackung (BCC = body centered cubic) mit einem Raumerfüllungsgrad von 68 %. Noch besser sind allerdings die kubisch flächenzentrierte Kugelpackung (FCC = face centered cubic, gleichbedeutend mit CCP = cubic closed packed) und die hexagonal dichteste Packung (HCP = hexagonal closed packing) beide mit einem Raumerfüllungsgrad von 74 %. Es liegt nahe, sich beim weiteren vorgen für eine der dichtesten Packungen zu entscheiden. Da das Gitter, das der kubisch flächenzentrierten Kugelpackung zugrunde liegt, sich einfacher beschreiben lässt, wird dieses in der Praxis gewählt. Obwohl das HP-Modell ursprünglich für das kubisch primitive Gitter entwickelt wurde, lässt es sich auch auf das kubisch flächenzentrierte übertragen. Das dies allerdings keine triviale Aufgabe ist, sieht man schon daran, dass im kubischen Gitter ein Monomer 6, im kubisch flächenzentrierten Gitter allerdings 12 nächste Nachbarn haben kann. 4. Das HP-Modell im kubisch flächenzentrierten Gitter In der ersten Zeichnung von Abb. 3 sind in einem FCC-Gitter zwei x-Ebenen dargestellt, die schwarzen Kreise stellen hierbei die erste, die grauen Kugeln die zweite Ebene dar. Die schwarzen dünnen und die grau gestrichelten Linen stellen die kleinsten Abstände zwischen den Kugeln in der ersten bzw. zweiten Ebene dar, während die fetten schwarzen Linien die kürzesten Abstände zwischen Kugeln verschiedener Ebenen zeigen. Abb. 3: Zwei Darstellungsmöglichkeiten des kubisch flächenzentrierten Gitters. Das kubisch flächenzentrierte Gitter D3 ist folgendermaßen definiert: x D3 = y z x 3 ∈ + + Z y und x y z ist gerade . z Zur Vereinfachung bietet es sich aber an, eine Darstellung des von D3 zu benutzen, die um φ = 45° um die x-Achse rotiert ist. Da eine Distanz von 1 zwischen den Ebenen und zwischen den einzelnen Punkten einer Ebene zweckmäßig ist, wird das Gitter noch entlang der y- und z-Achse skaliert, um so das Gitter D3' zu erhalten. D3' besteht nun aus folgendem Satz von Punkten (Siehe auch zweite Zeichnung in Abb. 3): x D3 ' = y z x 3 ∈ Z y und x ist gerade â z x y + 0.5 z + 0.5 x 3 ∈ Z y und x ist ungerade . z Der Ausdruck in der ersten geschweiften Klammer stellt hierbei die Punkte in den geraden, der in der zweiten die Punkte in den ungeraden x-Ebenen dar. Der Satz N D '3 von Vektoren, die die Verbindungen zwischen benachbarten Punkten darstellt, wird gegeben durch: N D '3 0 0 = ±1 , 0 â 0 ±1 ±1 ±0,5 ±0,5 Hier bezeichnet die erste geschweifte Klammer die Vektoren innerhalb einer x-Ebene, die zweite die Vektoren zwischen den Ebenen. Zwei Punkte sind also benachbart, wenn ρ ρ p − p ∈ N D '3 ist. 5. Obere Schranke für HH-Kontakte Für eine maximale Anzahl von HH-Kontakten ist es wichtig, einen möglichst kompakten hydrophoben Kern zu finden. Zunächst wird also nur der Kern betrachtet, durch den dann die Sequenz gelegt wird. (Abb. 4) Abb 4. Reduzierung des gefalteten Proteins auf den hydrophoben Kern. Um sicherzugehen, dass man die Struktur mit möglichst vielen HH-Kontakten gefunden hat, muss die Anzahl der maximal auftretenden HH-Kontakte gefunden werden. Dies sei an den Kontakten zwischen zwei Ebenen dargestellt: Es wird die obere Schranke für die Anzahl der Punkte (also Aminosäuren-Monomere) berechnet, die zur nächsten Ebene jeweils vier, drei, zwei oder einen Kontakt haben. Sei λ die Anzahl der 3er-Punkte, dann gilt: Anzahl der 4er = ni + 1 – ai – bi Anzahl der 2er = 2ai + 2bi – 2λ – 4 Anzahl der 1er = λ + 4 Für λ lässt sich eine obere Schranke angeben! 6. Zusammenfassung In dieser Einführung wurden die Problemstellung, die Methoden und die Möglichkeiten der Bioinformatik hinsichtlich des Problems der Vorhersage(möglichkeiten) der Proteinfaltung angesprochen. Ausgehend von der Notwendigkeit, ein möglichst einfaches Modell zu finden, dass die Wirklichkeit aber dennoch ausreichend gut beschreibt, ist so ein Verfahren entwickelt worden, dass für Sequenzen einer Länge bis etwa 130 Aminosäuren die energieärmste Faltung in angemessener Rechenzeit liefert. Mittlerweile ist sogar die Berechnung via Internet möglich: http://www.bio.inf.uni-jena.de/Prediction/prediction 7. Literaturi [1] W. E. Hart, S. C. Istrail, Journal of Computational Biology 1996, 3, 53-96. Fast protein folding in the hydrophobic-hydrophilic model within three-eighths of optimal [2] R. Agarwala, S. Batzoglou, V. Dancik, S. E. Decatur, S. Hannenhalli, M. Farach, S. Muthukrishnan, S. Skiena, Journal of Computational Biology 1997, 3, 275-96. Local rules for protein folding on a triangular lattice and generalized hydrophobicity in the hp model [3] E. Bornberg-Bauer in Proc. of the Pacific Symposium on Biocomputing 1996 (PSB 1996), 1996, 97-108. Structure formation of biopolymers is complex, their evolution may be simple [4] R. Backofen An upper bound for number of contacts in the HP-model on the facecentered-cubic lattice (FCC) In Proc. of the 11th Annual Symposium on Combinatorial Pattern Matching (CPM2000), volume 1848 of Lecture Notes in Computer Science, (Hrsg.: R. Giancarlo, D. Sankoff), Springer-Verlag, Berlin, 2000, 277-292. [5] R. Backofen, S. Will Optimally compact finite sphere packings -- hydrophobic cores in the FCC. In Proc. of the 12th Annual Symposium on Combinatorial Pattern Matching (CPM2001), Lecture Notes in Computer Science, Springer-Verlag, Berlin, 2001. [6] S Will Constraint-based hydrophobic core construction for protein structure prediction in the face-centered-cubic lattice. Pacific Symposium on Biocomputing (PSB 2002) (Hrsg.: In Russ B. Altman, A. Keith Dunker, Lawrence Hunter, and Teri E. Klein) 2002, im Druck. [7] R. Backofen. J Discrete Algorithms, 2002, im Druck. A polynomial time upper bound for the number of contacts in the hp-model on the face-centered-cubic lattice (fcc)