Verfahren zu Strukturvorhersagen in vereinfachten Modellen

Tobias Voigt
September 2002
Verfahren zu Strukturvorhersagen in vereinfachten Modellen
1. Einführung und Problemstellung
Während die Sequenzierung neuer Polypeptide und Proteine heute durch die Verwendung von
Polymerase-Kettenreaktion und Restriktionsenzymen (für DNA) bzw. Edmann-Abbau (für
Proteine) eine Routineaufgabe darstellt, bereitet die Aufklärung der Struktur immer noch
erhebliche Schwierigkeiten. Soll die Struktur eines Proteins bestimmt werden, so ist die
wichtigste Technik die Röngtenstrukturanalyse. Hier wird das Beugungsbild eines ProteinEinkristalls im monochromatischen Röngtenlicht aufgenommen und daraus die Anordnung
der Atome im Molekül erhalten. Die Röngtenstrukturanalyse hat zwar den großen Vorteil, ein
dreidimensionales Bild des Moleküls mit einer Genauigkeit von besser als ein Picometer zu
liefern, aber auch einige Nachteile:
Man benötigt Protein-Einkristalle in der Größe von etwa einem Millimeter. Diese sind (wenn
überhaupt) nur durch langwierige, aufwendige Kristallisation zu erhalten.
Auch die Auswertung der Röntenbeugungsmuster ist nicht trivial und erfordert (besonders bei
großen Proteinen) einen erheblichen Zeitaufwand.
Eine
andere
Möglichkeit,
die
Struktur
von
Proteinen
aufzuklären,
bietet
die
Kernresonanzspektroskopie. Hier können Proteine in wässrigen Medium untersucht werden,
allerdings sind die apparativen Kosten sehr hoch und Auswertung der Spektren sehr
kompliziert.
Trotz dieser Probleme wird erhebliche Mittel für die Strukturaufklärung von Proteinen
verwendet, denn die Struktur ist der Schlüssel zum Verständnis der Funktionsweise eines
Proteins. Gleichzeitig stellt sich natürlich die Frage, ob es nicht Methoden gibt, die Struktur
eines Proteins allein anhand der Sequenz zu bestimmen. Dass allein die Sequenz für die
Struktur bestimmend wird deutlich, wenn man ein synthetisch hergestelltes Protein in seine
typische Umgebung (z.B. wässriges Medium, kein extremer pH-Wert, 37 °C) bringt: Es
nimmt seine von selbst seine typische Struktur an.
Diese spontane Faltung kann damit erklärt werden, dass das Protein nun ein lokales Minimum
der freien Enthalpie besetzt. Der Einfachheit halber soll im weitern Verlauf bei diesem
Begriff ganz einfach von der „Energie“ gesprochen werden.
2. Das HP-Modell
Um die Struktur eines Proteins vorhersagen zu können, ist es sinnvoll, zunächst einige
Vereinfachungen zu machen.
1. Nicht die Position jedes einzelnen Atoms, sondern nur die Anordnung (und nicht die
Orientierung) der Aminosäuren im Protein soll betrachtet werden.
2. Die Aminosäuren können sich nicht an beliebigen Positionen, sondern nur auf genau
definierten Gitterplätzen befinden, ein Gitterplatz dar maximal einfach besetzt sein.
Die geringste euklidische Distanz von einem Gitterpunkt zum nächsten sei 1.
3. die Anzahl unterschiedlicher Aminosäuren wird von 20 auf 2 reduziert. Hierbei
repräsentiert „H“ alle hydrophoben Aminosäuren, während „P“ für die polaren
Aminosäuren steht.
Welche strukturellen Eigenschaften zeichnet nun ein Protein in seiner natürlichen Struktur
aus, d.h. was lässt es zu einem Energieminimum streben? Befinden sich ein polares Molekül
oder ein polarer Molekülteil in Kontakt mit Wasser, so bilden sich zwischen ihm und dem
Wasser so genannte „Wasserstoffbrückenbindungen“ aus. Diese sind zwar schwächer als
kovalente („normale“ Bindungen) aber stark genug, um zwei Moleküle bei nicht zu hoher
Temperatur zusammenzuhalten. Auch können zwei polare Moleküle, von denen zumindest
eines ein Wasserstoffatom besitzt, das an ein Nichtmetall (wie Stickstoff, Sauerstoff oder
Schwefel) gebunden ist, untereinander solche Bindungen eingehen. Kommt eine solche
Bindung zustande, wird die potentielle (chemische) Energie in kinetische Energie (Wärme)
umgewandelt und abgeführt. Das System befindet sich nun auf der Energieskala ein
Stückchen weiter unten.
Nun hat ein Protein das Bestreben, möglichst viele dieser Wasserstoffbrückenbindungen mit
sich selbst und seiner wässrigen Umgebung einzugehen. Eigentlich müsste man jeder
Waaerstoffbrückenbindung eine negative Energie zuweisen. Dass man jetzt aber auch noch
die Wechselwirkungen mit dem umgebenden Wasser untersuchen muss, treibt der
rechnerischen Aufwand unnötig in die Höhe. Nimmt man an, dass eine Aminosäure im
Protein immer von gleich vielen Partnern (andere Aminosäuren oder Wasser) umgeben ist, ist
diese Aussage in etwa gleichbedeutend mit: Das Protein hat das Bestreben, hydrophobe
Aminosäuren in direkten Kontakt miteinander zu bringen. Diese treibende Kraft wird deshalb
auch „hydrophober Kollaps“ genannt.
Daraus folgt die nächste Voraussetzung:
4. Die Energie des Kontakts zwischen zwei H-Aminosäuren ist -1, bei allen anderen
Kontakten ist sie 0. Zwei Aminosäuren befinden sich in Kontakt, wenn sie nicht über
eine kovalente Bindung miteinander verbunden sind und ihre euklidische Distanz 1 ist.
Diese Voraussetzungen bilden das „HP-Modell“
3. Das kubische Gitter
3.1. Ein einfaches Beispiel einer Faltung im quadratischen Gitter
Betrachten wir nun eine Faltung der Sequenz von Monomeren (im weitern Verlauf soll dieser
Begriff „Aminosäuren“ ersetzen) PHPPHHPH in einem zweidimensionalen, quadratischen
Gitter:
Abb. 1: Konformation eines Octamers
Die weißen Kugeln stellen P, die schwarzen H dar. Die beiden Kontakte sind mit gestrichelten
Linen dargestellt, diese Faltung besitzt die Energie -2.
Für die Untersuchung der allgemeinen Proteinfaltung benötigt man einen Algorithmus, der
mit Sicherheit die Konformation mit der maximalen Anzahl der Konakte liefert.
3.2 Berechnung einer oberen Grenze für die HH-Kontakte
Obwohl Approximations-Algorithmen für das HP-Modell sowohl im kubischen primitiven
Gitter (was eine „Fortsetzung“ des quadratischen in die 3. Dimension darstellt) als auch im
kubisch flächenzentrierten Gitter (Betrachtungen hierzu folgen später) existieren, schließt die
Notwendigkeit, die wirklich beste Konformation zu finden, die Verwendung von
Approximations-Algorithmen oder heuristischen Methoden aus.
In der Literatur sind zwei Methoden bekannt, mit denen sich die Struktur mit der maximalen
Anzahl an H-H-Kontakten, also der niedrigsten Energie, ermitteln lässt. Beide benutzen
Varianten von „Abzeigen und Binden“, die im einzelnen wie folgt funktioniert:
Eine Koordinate (z.B. x) wird für alle H-Aminosäuren festgesetzt.
Eine obere Grenze wird für die Anzahl der Kontakte berechnet, bei festen Werten für die
H-Monomeren.
Im HP-Modell kann eine obere Grenze leicht bestimmt werden, wenn die Anzahl der
H-Monomere für jede Ebene bekannt ist.
Für diesen Zweck werden die Anzahl aller HH-Kontakte und HH-Bindungen gezählt. Da die
Anzahl der HH-Bindungen bekannt ist, ist es irrelevant, in welcher Ebene sie sich tatsächlich
befinden. Kontakte und Bindungen sollen verallgemeinert als Kontakte Bezeichnet werden.
Nun muss zwischen (verallgemeinerten) Kontakten innerhalb einer Ebene und zwischen
verschiedenen Ebenen unterschieden werden. Nimmt man an, dass die schwarzen Punkte in
Abb. 2 die Positionen von H-Monomeren darstellen, dann existieren 5 H-Monomere in Ebene
x = 1 und 4 H-Monomere in Ebene x = 2.
Abb. 2 Kontakte in einem Modell mit zwei Ebenen
Wie man erkennen kann, existieren 4 Kontakte zwischen den Ebenen (durchgezogene Linien),
4 Kontakte innerhalb von Ebene x = 1 und 5 Kontakte innerhalb Ebene x = 2 (gestrichelte
Linien). Die Übereinstimmung mit der gegebenen Grenze für 5 Monomeren in x = 1 und 4
Monomeren in x = 2 errechnet sich wie folgt: Für die Anzahl der Kontakte zwischen den
Ebenen wird für jeden Kontakt ein Monomer in jeder Ebene verbraucht. Daher ist die
maximale Anzahl der Kontakte die minimale Anzahl der Monomere pro Ebene, min (5,4) = 4.
Die Anzahl der Kontakte errechnet sich nach dem Konzept des Rahmens. Sei a =
 n  und
b =  n a  . (a,b) ist der minimale Rechteckrahmen um n H-Monomere. Die maximale Anzahl
an Kontakten innerhalb dieser Ebene ist nu 2n – a – b.
Im gewählten Beispiel nun erhält man für die erste Ebene n = 5, a = 3 und b = 2, die
maximale Anzahl der Kontakte innerhalb der Ebene ist also 10 – 3 – 2 = 5.
Für die zweite Ebene erhält man n = 5, a = 3 und b = 2, die maximale Anzahl der Kontakte
innerhalb der Ebene ist also 8 – 2 – 2 = 4.
Bevor das HP-Modell mit einem kubischen Gitter weiter betrachtet wird, soll jedoch die
Auswahl des verwendeten Gitters diskutiert werden. Sicher hat das kubische Gitter den
Vorteil, dass es sich leicht beschreiben lässt.
r
r
r
r
Bei den gegeben Vektoren υ1 ,...,υn , ist das von υ1 ,...,υn dargestellte Gitter der minimale Satz
r r
r r
r r
von den Punkten L so dass ∀u ,υ ∈ L, sowohl u + υ ∈ L als auch u + υ ∈ L. Eine Ebene x in
einem Gitter Gitter L ist eine Ebene orthogonal zu x-Achse, so dass die Schnittmenge der
Ebene der Punkte und der Punkte von L eine nicht leere Menge ist.
Das kubische Gitter ist nun definiert als:
 x 
 
C3 =  y 
 z 
 

x

 
3
 y  ∈Z 

z
 

Der Satz N C '3 von Vektoren, die die Verbindungen zwischen benachbarten Punkten darstellt,
ist denkbar einfach und wird gegeben durch:
N C '3
 ± 1  0   0 
     
=  0  ,  ± 1 ,  0 
 0   0   ± 1
     
3.3. Nachteile des kubischen Gitters
Das kubische Gitter besitzt aber auch einige gravierende Nachteile: Angenommen ein Protein
hätte die Struktur HPHPHPHPHP usw., dann könnte hier (weder im zwei- noch im
dreidimensionalen Gitter) nie ein HH-Kontakt auftreten, denn nach 2n Schritten kann die
Proteinkette nie im Abstand von 1 zum Ausgangspunkt sein. Daraus folgt, dass zwischen
einzelnen H-Monomeren die Entfernung immer größer als 1 wäre – sicherlich ein absurdes
Ergebnis.
In einem Protein oder einem beliebigen andern Biomolekül ordnen sich die Monomere nicht
an den Gitterpunkten des kubischen Gitters an. Eine solche Packung hat keine gute
Raumerfüllung (sie liegt unter Annahme von kugelfömigen Monomeren bei ca. 56 %)
Diese Argumente machen deutlich, dass es nötig, ist eine andere Packung zu wählen. Eine
bessere Raumerfüllung hat z.B. die kubisch innenzentrierte Kugelpackung (BCC = body
centered cubic) mit einem Raumerfüllungsgrad von 68 %. Noch besser sind allerdings die
kubisch flächenzentrierte Kugelpackung (FCC = face centered cubic, gleichbedeutend mit
CCP = cubic closed packed) und die hexagonal dichteste Packung (HCP = hexagonal closed
packing) beide mit einem Raumerfüllungsgrad von 74 %. Es liegt nahe, sich beim weiteren
vorgen für eine der dichtesten Packungen zu entscheiden. Da das Gitter, das der kubisch
flächenzentrierten Kugelpackung zugrunde liegt, sich einfacher beschreiben lässt, wird dieses
in der Praxis gewählt.
Obwohl das HP-Modell ursprünglich für das kubisch primitive Gitter entwickelt wurde, lässt
es sich auch auf das kubisch flächenzentrierte übertragen. Das dies allerdings keine triviale
Aufgabe ist, sieht man schon daran, dass im kubischen Gitter ein Monomer 6, im kubisch
flächenzentrierten Gitter allerdings 12 nächste Nachbarn haben kann.
4. Das HP-Modell im kubisch flächenzentrierten Gitter
In der ersten Zeichnung von Abb. 3 sind in einem FCC-Gitter zwei x-Ebenen dargestellt, die
schwarzen Kreise stellen hierbei die erste, die grauen Kugeln die zweite Ebene dar. Die
schwarzen dünnen und die grau gestrichelten Linen stellen die kleinsten Abstände zwischen
den Kugeln in der ersten bzw. zweiten Ebene dar, während die fetten schwarzen Linien die
kürzesten Abstände zwischen Kugeln verschiedener Ebenen zeigen.
Abb. 3: Zwei Darstellungsmöglichkeiten des kubisch flächenzentrierten Gitters.
Das kubisch flächenzentrierte Gitter D3 ist folgendermaßen definiert:
 x 
 
D3 =  y 
 z 
 

x

 
3
∈
+
+
Z
y
und
x
y
z
ist
gerade
.
 

z
 

Zur Vereinfachung bietet es sich aber an, eine Darstellung des von D3 zu benutzen, die um φ
= 45° um die x-Achse rotiert ist. Da eine Distanz von 1 zwischen den Ebenen und zwischen
den einzelnen Punkten einer Ebene zweckmäßig ist, wird das Gitter noch entlang der y- und
z-Achse skaliert, um so das Gitter D3' zu erhalten. D3' besteht nun aus folgendem Satz von
Punkten (Siehe auch zweite Zeichnung in Abb. 3):
 x 
 
D3 ' =  y 
 z 
 

x

 
3
∈
Z
y
und
x
ist
gerade
â
 

z
 

 x 


 y + 0.5 
 z + 0.5 



x

 
3
∈
Z
y
und
x
ist
ungerade
.
 

z
 

Der Ausdruck in der ersten geschweiften Klammer stellt hierbei die Punkte in den geraden,
der in der zweiten die Punkte in den ungeraden x-Ebenen dar.
Der Satz N D '3 von Vektoren, die die Verbindungen zwischen benachbarten Punkten darstellt,
wird gegeben durch:
N D '3
 0   0  
    
=  ±1 ,  0   â
 0   ±1 
    
 ±1  


 ±0,5  
 ±0,5  


Hier bezeichnet die erste geschweifte Klammer die Vektoren innerhalb einer x-Ebene, die
zweite die Vektoren zwischen den Ebenen. Zwei Punkte sind also benachbart, wenn
ρ ρ
p − p ∈ N D '3 ist.
5. Obere Schranke für HH-Kontakte
Für eine maximale Anzahl von HH-Kontakten ist es wichtig, einen möglichst kompakten
hydrophoben Kern zu finden. Zunächst wird also nur der Kern betrachtet, durch den dann die
Sequenz gelegt wird. (Abb. 4)
Abb 4. Reduzierung des gefalteten Proteins auf den hydrophoben Kern.
Um sicherzugehen, dass man die Struktur mit möglichst vielen HH-Kontakten gefunden hat,
muss die Anzahl der maximal auftretenden HH-Kontakte gefunden werden. Dies sei an den
Kontakten zwischen zwei Ebenen dargestellt:
Es wird die obere Schranke für die Anzahl der Punkte (also Aminosäuren-Monomere)
berechnet, die zur nächsten Ebene jeweils vier, drei, zwei oder einen Kontakt haben.
Sei λ die Anzahl der 3er-Punkte, dann gilt:
Anzahl der 4er = ni + 1 – ai – bi
Anzahl der 2er = 2ai + 2bi – 2λ – 4
Anzahl der 1er = λ + 4
Für λ lässt sich eine obere Schranke angeben!
6. Zusammenfassung
In dieser Einführung wurden die Problemstellung, die Methoden und die Möglichkeiten der
Bioinformatik hinsichtlich des Problems der Vorhersage(möglichkeiten) der Proteinfaltung
angesprochen. Ausgehend von der Notwendigkeit, ein möglichst einfaches Modell zu finden,
dass die Wirklichkeit aber dennoch ausreichend gut beschreibt, ist so ein Verfahren entwickelt
worden, dass für Sequenzen einer Länge bis etwa 130 Aminosäuren die energieärmste Faltung
in angemessener Rechenzeit liefert. Mittlerweile ist sogar die Berechnung via Internet
möglich: http://www.bio.inf.uni-jena.de/Prediction/prediction
7. Literaturi
[1]
W. E. Hart, S. C. Istrail, Journal of Computational Biology 1996, 3, 53-96. Fast
protein folding in the hydrophobic-hydrophilic model within three-eighths of optimal
[2]
R. Agarwala, S. Batzoglou, V. Dancik, S. E. Decatur, S. Hannenhalli, M. Farach,
S. Muthukrishnan, S. Skiena, Journal of Computational Biology 1997, 3, 275-96.
Local rules for protein folding on a triangular lattice and generalized hydrophobicity in
the hp model
[3]
E. Bornberg-Bauer in Proc. of the Pacific Symposium on Biocomputing 1996 (PSB
1996), 1996, 97-108. Structure formation of biopolymers is complex, their evolution
may be simple
[4]
R. Backofen An upper bound for number of contacts in the HP-model on the facecentered-cubic lattice (FCC) In Proc. of the 11th Annual Symposium on
Combinatorial Pattern Matching (CPM2000), volume 1848 of Lecture Notes in
Computer Science, (Hrsg.: R. Giancarlo, D. Sankoff), Springer-Verlag, Berlin, 2000,
277-292.
[5]
R. Backofen, S. Will Optimally compact finite sphere packings -- hydrophobic cores
in the FCC. In Proc. of the 12th Annual Symposium on Combinatorial Pattern
Matching (CPM2001), Lecture Notes in Computer Science, Springer-Verlag, Berlin,
2001.
[6]
S Will Constraint-based hydrophobic core construction for protein structure prediction
in the face-centered-cubic lattice. Pacific Symposium on Biocomputing (PSB 2002)
(Hrsg.: In Russ B. Altman, A. Keith Dunker, Lawrence Hunter, and Teri E. Klein)
2002, im Druck.
[7]
R. Backofen. J Discrete Algorithms, 2002, im Druck. A polynomial time upper bound
for the number of contacts in the hp-model on the face-centered-cubic lattice (fcc)