Proteinfaltung

Werbung
9RUKHUVDJHXQG9LVXDOLVLHUXQJYRQ3URWHLQIDOWXQJ
Alexander Garvin Klenner
Abb. 1: menschliches Insulin [ Grafik erstellt mit RasMol by Sayle ]
$EVWUDFW
Diese Arbeit befasst sich mit der Vorhersage und Visualisierung
von Proteinstrukturen durch Methoden der Informatik. Nach
einer kurzen Vorstellung und Motivation für das Thema im
Allgemeinen wird man zu Beginn in die biochemischen –
theoretischen Grundlagen der Proteine eingeführt. In diesem
Zusammenhang werden Aminosäuren als die chemischen
„Bausteine“ der Proteine vorgestellt, und an Hand ihrer, für die
Vorhersage der Sekundärstruktur relevanten, chemischen
Eigenschaften eingeteilt. Letztlich wird in der Einführung als
Zielsetzung vorgegeben, dass eine Software ein Protein nur und
ausschließlich auf Grund seiner Aminosäuresequenz bestimmen
sollen könnte.
Im weiteren Verlauf der Arbeit werden dann die 5 relevanten
Strukturen besprochen, die ein Programm behandeln muss, um
eine qualitativ hochwertige Vorhersage über die Struktur eines
Proteins zu machen. Im einzelnen sind es die Primärstruktur, die
Sekundärstruktur, die Supersekundärstruktur, die Tertiärstruktur
sowie letztendlich die Quartärstruktur die das Aussehen eines
Proteins bestimmen. Hierbei wird allerdings besonders viel Wert
auf die Primärstruktur sowie die Sekundärstruktur gelegt, da
diese beiden die wohl wichtigsten Stufen sind, die
Primärstruktur als das „Rückrat“ das Proteins sowie die
Sekundärstruktur als wichtigste Faltungsvorgabe für das fertige
Molekül.
Nach dieser Einführung in die Biologie der Proteine werden
dann verschiedene Algorithmen und Methoden vorgestellt, mit
deren Hilfe es möglich ist, Vorhersagen über die Struktur von
Proteinen zu treffen. Dabei werden auf der einen Seite primitive
Algorithmen wie der von Chou & Fassman erklärt, und auf der
anderen Seite solche Methoden, die die Problematik mit
hochkomplizierten neuronalen Netzen zu lösen versuchen.
Im letzten Teil des Artikels wird auf Programme zur Vorhersage
und Darstellung von Proteinen eingegangen. Gleichzeitig wird
auch
auf
die
unterschiedlichen
heute
genutzten
Visualisierungstechniken eingegangen, denn, einmal berechnet,
steht man vor dem nicht trivialen Problem das Protein, welches
ein komplexes Makromolekül darstellt, sinnvoll auf dem
Bildschirm abzubilden, so dass ein Betrachter immer genau die
Information zu sehen bekommt, die für ihn gerade relevant ist.
In der anschließenden Zusammenfassung wird über die Chancen
und Zukunft dieser Methoden gesprochen und auch über die
Genauigkeit der heutigen Vorhersagen. Ebenfalls diskutiert
wird, ob es überhaupt jemals möglich sein wird, ein Protein
jemals einzig und allein nur auf Grund seiner
Aminosäuresequenz zu bestimmen.
(LQIKUXQJ
Biochemische Daten zeichnen sich im Gegensatz zu Daten aus
anderen Wissenschaften durch ihre klar definierten und nicht
textorientierten Datenobjekte wie Strukturen, Reaktionen,
Spektren und Oberflächen sowie den damit verbundenen
Darstellungsformen aus. Der Visualisierung muss hierbei also
ein hoher Stellenwert zugerechnet werden, da man nur so die
gewonnenen Daten für andere sichtbar und zur weiteren
Bearbeitung zugänglich machen kann.
Sehr speziell die Proteine, die innerhalb der Biochemie eine
zentrale Rolle einnehmen, haben die Visualisierung
unumgänglich gemacht, da sich die biologische Aktivität und
die Funktion dieser Makromoleküle sehr viel effizienter und
simpler aus ihrem räumlichen Aufbau erkennen und ableiten
lässt als das andere Methoden ermöglichen.
Um ein Protein aber tatsächlich original getreu dreidimensional
durch Software darstellen zu lassen, muss man zunächst eine
Vorhersage über die gesuchte Struktur machen. Schon 1978
haben sich die beiden Chemiker Chou & Fasman Gedanken über
einen
Algorithmus
gemacht,
der
die
sogenannte
Sekundärstruktur eines Proteins aus seiner Aminosäuresequenz
ermittelt. Mit ihrem damaligen Algorithmus, der noch genauer
erläutert wird, erreicht man eine Vorhersagequalität von 50 – 55
Prozent Genauigkeit, bezogen auf die Sekundärstruktur des
Proteins.
Die moderne Bioinformatik heute sucht im Moment fieberhaft
nach Methoden, um eine Vorhersagegenauigkeit von 100 % zu
erreichen. Dabei werden verschiedenste Methoden und Ideen
verfolgt, die im weiteren Verlauf des Artikels vorgestellt
werden. Zunächst aber wird die biochemische Theorie, die hinter
der Vorhersage steht, erläutert, um einen Eindruck davon zu
vermitteln, wie komplex ein Protein tatsächlich ist, und wo die
Probleme liegen, wenn man eine Vorhersage über die Faltung
eines Proteins treffen will.
$XIEDXXQG6WUXNWXUYRQ3URWHLQHQ
$PLQRVlXUHQDOV%DXVWHLQHGHV3URWHLQV
Die Desoxyribonukleinsäure, der Träger der Erbinformation,
codiert alle Proteine unseres Körpers in Form von einer Abfolge
von Nucleotiden, welche, einmal durch Transkription abgelesen,
an den Ribosomen in eine Aminosäuresequenz übersetzt werden
( Translation), die dann, nach der eigenständigen Faltung das
fertige Protein repräsentiert. Hierbei findet eine faszinierende
und keineswegs triviale Umwandlung einer linearen Information
( der DNA) in eine dreidimensionale Sprache, nämlich die der
Proteine statt.
Anhand dieses Mechanismus kann man also sehen, dass
Aminosäuren die chemischen Bausteine der Proteine sind.
Insgesamt werden nur 20 verschiedene solcher Bausteine
verwendet. Es handelt sich um α– Aminocarbonsäuren. Vier
Substituenten sind mit dem Cα-Atom verbunden: Der αWasserstoff, die Seitenkette, die Carboxylgruppe und die
Aminogruppe.
Die Seitenkette ist die Ursache für die unterschiedlichen
chemischen Charakteristika der Aminosäuren. Sie bestimmt
deren Eigenschaften und über sie werden die Aminosäuren
üblicherweise auch in drei verschiedene Gruppen eingeteilt. Es
gibt solche, die unpolar sind, polare und geladene Seitenketten.
Natürlich sind auch noch spezifischere Einteilungen möglich,
die genauere Auskunft über die Chemie der einzelnen
Aminosäuren und deren Seitenketten gibt.
Bei dem Vorgang der Translation werden zwischen den
verschiedenen Aminosäuren Peptidbindungen geknüpft. Dabei
wird in einer Kondensationsreaktion unter Wasserabspaltung
immer die Aminogruppe der einen Aminosäure mit der
Carboxylgruppe der vorherigen verknüpft. Es entsteht die
Polypeptidkette, das Rückrat das Proteins und somit seine
Primärstruktur.
'LH3ULPlUVWUXNWXUGHV3URWHLQV
Proteine bestehen aus 5 Strukturen, der Primärstruktur, der
Sekundärstruktur, der Supersekundärstruktur, der Tertiärstruktur
und schließlich der Quartärstruktur [Campbell 2000]. Die
Primärstruktur ist als lineare Abfolge der Aminosäuren vom N –
terminalen zum C- terminalen Ende hin definiert, und sehr
einfach hervorzusagen, da sie direkt aus der Nucleotid Sequenz
abzuleiten ist. Allerdings muss man die entstehenden
Peptidbindungen bei der Bildung der Primärstruktur verstehen,
da sie direkt mit der Sekundärstruktur in Verbindung stehen.
Diese unterscheiden sich nämlich etwas von den normalen Cα-N
Bindungen. Sie sind mit einer Länge von 0,132 nm kürzer als
die 0,147 nm langen C’- N Bindungen.
Außerdem ist die C=O – Doppelbindung etwas länger als in
Ketonen oder Aldehyden, und gerade durch diese Faktoren
ergibt sich eine wichtige Resonanzstruktur mit partiellem
Doppelbindungscharakter der Peptidbindung.
Eine Drehung um diese wird also dadurch stark eingeschränkt.
Durch dieses Phänomen lässt sich die Peptidketten Konformation durch die zwei Drehwinkel um jedes Cα-Atom
beschreiben.
Diese beiden Winkel Psi und Phi werden in so genannten psi,
phi Karten dargestellt, und werden nach ihrem Erfinder auch
Ramachandran Plots genannt.
Für die Winkel Psi und Phi ist die sterische Hinderung zwischen
Atomen zweier benachbarter Peptidbindungen und deren
Seitenketten wichtig.
Aus den Stellungen der Winkel im Ramachandran Plot ergeben
sich dann schon bestimmte Bedingungen für die
Sekundärstruktur des Proteins.
'LH6HNXQGlUVWUXNWXU
Ausgehend von der Primärstruktur, die durch ihre Abfolge der
Aminosäuren und deren spezifische Drehwinkel das Gerüst des
Proteins bildet, sollen nun die verschiedenen Elemente der
Sekundärstruktur eines Proteins vorgestellt werden.
Allgemein bezeichnet die Sekundärstruktur regelmäßige
geometrische Anordnungen in der Polypeptidkette. Natürlich
handelt es sich bei den Elementen der Sekundärstruktur schon
um dreidimensionale Gebilde, und nicht etwa, wie der Name
irrtümlich vermuten lassen könnte um zweidimensionale
Strukturen.
Die wichtigsten Anordnungen ergeben sich hierbei aus den
günstigen Winkelkombinationen in den Psi, Phi Karten, und
bilden
dadurch
die
Grundlage
der
bekannten
Sekundärstrukturelemente von Peptidketten [Steger 2003]:
αR = rechtsgängige α- Helix mit ( φ,Ψ ) ≈ ( -60°, -60° )
αL = linksgängige α- Helix mit ( φ,Ψ ) ≈ ( +60°, +60° )
βP = paralleles β- Faltblatt mit ( φ,Ψ ) ≈ ( -130°, +120° )
βA = antiparalleles β- Faltblatt mit ( φ,Ψ ) ≈ ( -150°, +150° )
Dreidimensionale Sekundärstrukturelemente entstehen folglich
dadurch, dass aufeinander Folgende Peptideinheiten eine
identische relative Orientierung besitzen, also gleiche φ,Ψ
Winkel aufweisen.
Das häufigste auftretende Element der Sekundärstruktur ist die
rechtsgängige α - Helix mit 3,6 Peptideinheiten pro Windung.
Bei diesem Strukturelement ist die Anordnung der Atome
besonders günstig, da die Amidprotonen von weiter oben
liegenden Peptideinheiten besonders gut eine Wasserstoffbrücke
zu einem 3 oder 4 Peptideinheiten weiter unten liegenden
Carbonylsauerstoff bilden können. Insgesamt sind die radialen
Dimensionen einer α - Helix so klein, dass sie optimal für
stabilisierende van – der – Waals Kontakte geeignet sind. Die αHelix gibt es sowohl linksgängig als auch rechtsgängig, wobei
die rechtsgängige Helix häufiger auftritt. Neben der alpha Helix
gibt es auch noch die sogenannte π- Helix und die Collagen
Helix. Abbildung 2 zeigt die α - Helix und das β - Faltblatt.
Abb. 2: α - Helix und β - Faltblatt [Finn Drabløs 2004]
Ein zweites wichtiges Element der Sekundärstruktur sind die β Faltblätter. Das selten auftretende planare β - Faltblatt ergibt
sich aus der Anordnung der Dipole der Amide, die in einer Linie
aufgereiht
sind,
und
somit
eine
regelmäßige
Wasserstoffbrückenbindung ermöglichen. Die wesentlich
häufiger vorkommende Konformation der Faltblätter ist jedoch
das nicht planare Faltblatt, welches eine Drehung senkrecht zu
den Peptidketten besitzt. Hierbei ist jede der Ketten für sich eine
langgezogene Helix, und die Ketten bilden untereinander
wiederum Wasserstoffbrücken aus, die dann auf Grund der
Anordnung der Amin und Carbonlygruppen die Verdrehung
ermöglichen.
solche Strukturen bei einer angestrebten Voraussage nicht zu
übersehen. Allerdings ist dieses Gebilde schon sehr komplex. In
Abbildung 3 sieht man den Cro – Repressor dessen
Untereinheiten jeweils aus 3 antiparallelen β - Faltblättern und 3
α - Helices bestehen.
Die letzte wichtige Struktur innerhalb der Sekundärstrukturen ist
der „Reverse Turn“ der wie der Name schon sagt, ein
umklappen der Peptidkette ermöglicht, und somit überhaupt erst
die Grundlage für β - Faltblatt Konstruktionen bietet, in denen
die Peptidkette ja nebeneinander oder gegeneinander laufen
muss.
Auch diese Strukturen können wieder nicht für sich isoliert
betrachtet werden, sondern sie müssen in der ganzen
Komplexität des Moleküls gesehen werden. Als Folge dieser
Betrachtung erkennt man, dass auch diese Gebilde, welche die
Sekundärstruktur erzeugen, wieder untereinander aggregieren
und die sogenannte Supersekundärstruktur erzeugen.
Abb. 3: Cro-Repressor [ Grafik erstellt mit RasMol by Sayle ]
'LH6XSHUVHNXQGlUVWUXNWXU
Auch bei den Supersekundärstrukturen gibt es wieder ein paar
wichtige Vertreter, die vorgestellt werden sollen.
Zunächst einmal gibt es eine aus β - Strängen bestehende
Superhelix, bei der die Stränge β - Faltblätter bilden – die β Helix.
Der Kern dieser Helices wird durch nach innen gerichtete
hydrophobe Seitenkette gebildet. Dieses Beispiel zeigt, wie man
auch direkt über die Seitenketten bestimmte Vorhersagen treffen
kann, nicht nur indirekte über sterische Effekte aus dem
Ramachandran – Plot, die für die Sekundärstruktur wichtig sind,
müssen beachtet werden, sondern auch die Gesamtheit der
Seitenketten kann genutzt werden, um bestimmte Aussagen über
die Struktur zu treffen. In diesem Fall könnte man beispielsweise
hydrophobe Seitenketten als Indiz für β - Helices verwenden.
Eine weitere zu den Supersekundärstrukturen gehörende
Anordnung ist das β - Hairpin, das genau wie der „Reverse
Turn“ auch eine Umkehrung des Polypeptidstranges bewirkt,
aber im Gegensatz zu diesem, zwischen zwei eigenen Strukturen
ausgebildet wird und eine optimalere Verdrehung für eine
eventuelle Faltblatt Konformation bewirkt. Hier kann auf Grund
der starken Verdrehung auch eine gute Vorrausage getroffen
werden, da solche Strukturen fast nur dann auftreten, wenn eine
der beteiligten Aminosäuren, auf Grund der fehlenden
Seitenkette, Glycin ist.
Betrachtet man eine Sequenz, die unter Umständen eine βAFaltblatt Konformation einnehmen könnte, und man findet in
den vorhergesehenen Turn Regionen Glycin, spricht dies für
diese Vermutung.
Ein weiteres sehr wichtiges Gebilde sind die Helix – Turn –
Helix Motive, die sehr oft wichtige biologische Funktionen
haben. Häufig werden diese Strukturen genutzt um an
Desoxyribonukleinsäure zu binden. Daher ist es sehr wichtig,
Eine andere Struktur ist die Coiled – coil α - Helix, die aus zwei
links umeinander gewundenen, rechtsgängigen α Helices
besteht, deren hydrophobe Seiteketten wie ein Reißverschluss
ineinander passen.
Die letzten Supersekundärstrukturen auf die hier eingegangen
werden soll, sind die βεβ - Einheit und β - Mäander.
So nennt man die recht häufig vorkommenden Kombination von
verschiedenen β - Strängen durch eine sogenannten ε
Verbindung. Diese Verbindungen können entweder ungeordnete
Ketten, α - Helices oder ein weiterer β - Strang sein.
Bestimmte dieser Strukturen tauchen so häufig in Proteinen auf,
dass sie einen eigenen Namen erhalten haben, so heißen zwei
aufeinanderfolgende βαβ-Einheiten zum Beispiel RossmannFold.
All die bereits besprochenen Elemente der Sekundärstruktur und
der Supersekundärstruktur organisieren sich zu der sogenannten
Tertiärstruktur.
'LH7HUWLlU±XQG4XDUWlUVWUXNWXU
Die Anordnungen, die sich durch die Tertiärstruktur ergeben,
werden in der Regel als Domänen bezeichnet. Hierbei werden
weitreichende Wechselwirkungen zwischen den Atomen in der
gesamten Polypeptidkette eines Proteins betrachtet. Bekannte
Strukturen sind die β - Topologien, bei denen zwei β Faltblätter ein sogenanntes „Sandwich“ bilden.
Da sich die Tertiärstruktur eines Proteins aber bei bekannter
Proteinsekundärstruktur relativ leicht mathematisch berechnen
lässt, und die im weiteren Verlauf vorgestellten Programme und
Methoden sich auf eine Vorhersage der Sekundärstruktur
konzentrieren, wird hier nicht weiter auf sie eingegangen.
Die letzte Stufe der Proteinstrukturen bildet die Quartärstruktur,
die durch Wechselwirkung komplett unterschiedlicher und
individueller Polypeptidketten entsteht. Auch hier gilt, bevor
man sich an die Vorhersage der Quartärstruktur eines
sogenannten Mosaik Proteins wagt, ist es zunächst notwendig,
die Sekundärstruktur der beteiligten Moleküle genau zu kennen.
Arg
Cys
Asn
Tyr
Pro
Gly
0,79
0,77
0,73
0,61
0,59
0,53
bα
Bα
Lys
Ser
His
Asn
Pro
Glu
0,74
0,72
0,71
0,65
0,62
0,26
bβ
Bβ
Tab. 1
In diesem kleinen Exkurs in die Biologie über den Aufbau und
die Strukturen der komplexen Moleküle, die die Proteine
darstellen, ist sicherlich klar geworden, wie viele Faktoren bei
der Vorhersage der Proteinstruktur eine Rolle spielen, und wie
schwierig es ist diese mathematisch zu fassen und das Problem
algorithmisch zu einer Lösung zu führen.
Die den Aminosäuren zugewiesenen Parameter wurden auf der
Grundlage von nur 15 Röntgenstrukturanalysen bestimmt, und
daher sollten mit diesem Algorithmus keine großartigen
Ergebnisse zu erwarten sein.
'LH9RUKHUVDJHGHU6HNXQGlUVWUXNWXU
Begonnen wird bei diesem Algorithmus mit der Erkennung
helikaler Regionen, die an Hand des Folgenden Vorgehens
gefunden werden sollen:
Die Vorhersage der Sekundärstruktur ist ein wichtiger Schritt
auf dem Weg zu einem dreidimensionalen Modell eines
Proteins. Die Idee ist, die Lage der einzelnen geometrischen
Anordnungen wie α - Helices und β - Faltblätter, also Gebilden
der Sekundärstruktur, im Protein genau zu bestimmen. Dafür
werden teilweise sehr heterogene Methoden verwendet.
'HU&KRX)DVVPDQ$OJRULWKPXV
Schon 1978 haben Chou und Fassman einen Algorithmus
entwickelt ( damals wurde dieser noch per Hand ausgeführt), der
die Sekundärstruktur eines Proteins auf Grund der spezifischen
Eigenschaften der Aminosäuren in der Polypeptidkette ermitteln
sollte.
Auf Grund empirisch gewonnener Daten wurden jeder
Aminosäure spezielle Parameter zugeordnet, die in Tabelle 1 zu
sehen sind. Allerdings hat der original Algorithmus auch noch
auf β - Turns untersucht, da hier aber nur die Idee vorgestellt
werden soll, beschränkt sich die Tabelle auf die alpha - Helix
und die beta – Stränge.
Tabelle 1: Strukturbildungspotentiale von Aminosäuren.
Zuordnung von Aminosäuren als Bildner, Brecher oder
indifferent für für helikale oder β - Strang Regionen aufbauend
auf Helix – bzw. β - Strang Potentialen Pα bzw. Pβ.
Hα: starke Helix-Former; hα: Helix-Former;
Iα: schwache Helix- Former; iα: indifferent;
bα: Helix – Terminatoren; Bα: starke Helix – Terminatoren.
Diese Bezichnungen gelten analog für β - Strang.
α - Helix
Aminosäure
Pα
Glu
1,53
Ala
1,45
Leu
1,34
His
1,24
Met
1,20
Gln
1,17
Trp
1,14
Val
1,14
Phe
1,12
Lys
1,07
Ile
1,00
Asp
0,98
Thr
0,82
Ser
0,79
Hα
hα
Iα
iα
β - Strang
Aminosäure
Pβ
Met
1,67
Val
1,65
Ile
1,60
Cys
1,30
Tyr
1,29
Phe
1,28
Gln
1,23
Leu
1,22
Thr
1,20
Trp
1,19
Ala
0,97
Arg
0,90
Gly
0,81
Asp
0,80
Hβ
hβ
Iβ
iβ
1. Suche nach helikalen Regionen
a) +HOL[ ± 1XNOHDWLRQ: Suche nach Folgen von vier helikalen
Einheiten ( Hα oder hα ) innerhalb von sechs Einheiten entlang
der Peptidkette. Schwache helikale Einheiten (Iα ) zählen wie 0,5
* hα; Helix Nukleation ist ungünstig, wenn das Segment 1/3 oder
mehr Helix – Brecher (bα oder Bα ) oder weniger als die Hälfte
Helix – Bildner enthält.
b) +HOL[ ± 7HUPLQDWLRQ Dehne die Helix in beide Richtungen
aus, bis sie durch ein Tetrapeptid mit Pα < 1,00 terminiert wird.
Die folgenden Helix –Brecher beenden die Helix Verlängerung:
b4, b3i, b3h, b2,i2, b2ih, b2h2, bi3, b2h und i4; diese Tetrapeptid –
Zusammensetzungen gelten auch für solche mit I, B oder H
anstelle für i, b oder h. Nach der Definition der Helix können
einige Einheiten aus diesen Tetrapeptiden, insbesondere h- oder
i-Einheiten, an die Helix Enden angefügt werden. Benachbarte
β- Regionen können ebenfalls Helices terminieren.
c) $XVQDKPH: Prolin kann nicht im inneren einer Helix oder an
deren C- terminalen Ende auftreten.
d) +HOL[ *UHQ]HQ: Pro, Asp und Glu bevorzugen das Nterminale Ende einer Helix. His, Lys und Arg bevorzugen das Cterminale Ende einer Heli. Falls es notwendig ist, die Bedingung
( 1a ) zu erfüllen, dann erhalten Pro, Asp und Arg die Zuordnung
Iα , wenn Pro oder Asp am N- terminalen Helix-Ende auftreten
bzw. wenn Arg am C-terminalen Helix-Ende auftritt.
e) 9RUKHUVDJH: Jedes Segment aus sechs oder mehr Einheiten
mit Pα ≥ 1,03 und Pα > Pβ, das die Bedingungen 1a bis 1d erfüllt,
wird als helikale Region vorhergesagt.
Nach dem so die Lage der Helices in einem Protein bestimmt
worden ist, wird nach den β - Strang Regionen gesucht.
2. Suche nach β - Strang Regionen
a) β - Strang – Nukleation: Suche Folgen von drei Einheiten (Hβ
oder hβ ) innerhalb von fünf Einheiten entlang der Peptidkette.
β- Strang- Nukleation ist ungünstig, wenn das Segment 1/3 oder
mehr β- Strang- Brecher (bβ oder Bβ ) oder weniger als die Häflte
β- Strang- Bildner enthält.
b) β- Strang- Termination: Wende die Regel 1b an, wobei
natürlich alpha gegen beta und umgekehrt ausgetauscht werden
muss.
c) Ausnahme: Glu tritt selten in β- Strängen auf. Prolin tritt nur
selten im Inneren eines β- Strangs auf.
Damit ein neuronales Netz für eine bestimmte Problemstellung
sinnvolle Daten liefert, muss es trainiert werden. Das geschieht
über Eingaben, deren Ergebnis schon bekannt ist, also in dem
speziellen Fall hier über die Eingabe einer Aminosäuresequenz,
deren Sekundärstruktur bereits bekannt ist. Beiden
Informationen, also die Eingabe und die Gewünschte Ausgabe
werden dem Netz nun mitgeteilt. Ziel des Trainings ist eine
Generalisierung, das Netzt soll die übergreifenden Eigenschaften
der Testdaten lernen, um dann auch die richtigen Ausgaben für
Eingaben zu machen, deren Ergebnis es noch nicht kennt.
Ein einfaches solches Netz könnte folgendermaßen aufgebaut
sein:
d) β- Strang- Grenzen: Geladene Einheiten treten äußerst selten
am N-terminalen Ende eines β- Strangs und selten im Inneren
oder am C-terminalen Ende eines β- Strangs auf. Trp tritt
meistens am N-terminalen Ende eines β- Strangs und äußerst
selten am C-terminalen Ende eines β- Strangs auf.
e) Vorhersage: Jedes Segment aus fünf oder mehr Einheiten mit
Pβ ≥ 1,05 und Pβ > Pα , das die Bedingungen 2a bis 2d erfüllt,
wird als β- Strang Region vorhergesagt.
Diese original Methode zur Vorhersage der Sekundärstruktur
weist natürlich viele Lücken und Probleme auf. Das wird
spätesten dann klar, wenn man versucht diesen Algorithmus als
ein Computerprogramm zu schreiben, zu viele „schwammige“
Formulierungen machen eine detailgenaue Umwandlung in
Software nahezu unmöglich. So kann ein Compiler zum Beispiel
nichts mit den begriffen „äußerst selten“ oder „ungünstig“
anfangen, hier liegt die eine Schwäche des Algorithmus. Die
andere ist die schon erwähnte geringe Grundlage an
Informationen auf die er sich stützt, somit ist eine gute
Vorhersage kaum zu erwarten. Erstaunlicherweise liegt die
Vorhersagequalität bei diesem Algorithmus trotzdem bei 50 – 55
% [Steger 2004], allerdings reicht das bei weitem nicht aus, um
sich auf solch eine Vorhersage zu verlassen.
9RUKHUVDJHXQWHU9HUZHQGXQJQHXURQDOHU
1HW]ZHUNH
Eine andere Methode die Sekundärstruktur eines Proteins
vorherzusagen bedient sich sogenannter Neuronaler Netzwerke.
Da dies eine faszinierender, aber auch zugleich höchst
komplizierter Arbeitsbereich ist, soll hier nur ein kleiner
Einblick in dieses Verfahren gegeben werden. Der wichtigste
Bestandteil eines solchen Netzes ist das künstliche Neuron, das
genau wie sein Vorbild aus der Natur mindestens die beiden
Zustände „Erregung“ und „Ruhe“ einnehmen kann. Zwischen
diesen künstlichen Neuronen bestehen gerichtete Verbindungen.
Die verbundenen Neuronen bilden dann Schichten oder
„Layers“. Man unterscheidet die Eingangsneuronen, die
Ausgangsneuronen und die dazwischenliegenden Neuronen, die
man„hidden layers“ nennt, da sie nicht unmittelbar zu sehen
sind. Je nach dem, ob die Verbindungen nur in eine Richtung
gehen oder auch Schleifen bilden, spricht man von
„Feedforwad“- Netzen ( nur eine Richtung) oder von rekurrenten
Architekturen.
Wie aber ist nun ein neuronales Netz in der Lage die Struktur
eines Proteins vorherzusagen? Die simple Antwort lautet:
Zunächst überhaupt nicht.
Abb. 4: Schema eines neuronalen Netzwerks
Ein Ausschnitt einer Primärstruktur wird als Eingabe behandelt (
schwarze Pfeile ), und die wahrscheinliche Sekundärstruktur
dieser Eingabe wird von der Ausgabeschicht der Neuronen (
alpha, beta, coil ) ausgegeben, in dem für jede Aminosäure
genau eines der Neuronen der Ausgabeschicht in den Zustand
Erregung geht, der dann abgelesen oder gespeichert werden
kann. So wird über ein Eingabefenster von einer bestimmten
Zahl von Aminosäuren immer genau die sek. Struktur einer AS
berechnet und gespeichert. Nach dem man alle Aminosäuren
durchgegangen ist, endet der Algorithmus und man hat die
Struktur nach Möglichkeit bestimmt. Natürlich ist das eine sehr
vereinfachte Darstellung, die aber im Prinzip durchaus zeigt, wie
ein solches Netz funktioniert.
Das heute wohl populärste Programm, das die Struktur eines
Proteins unter Nutzung von neuronalen Netzen vorhersagt, ist
das PHD ( Profile Network from HeiDelberg ). Dieses System
wurde von Rost und Sander 1993 entwickelt. Die Neuerung, die
diesem System zu Grunde liegt, und die es so erfolgreich macht,
ist die Kombination von Neuronalem Netz und der
gleichzeitigen Suche nach Homologien zu der unbekannten
Struktur in Protein Datenbanken wie SwissProt. Wenn PHD eine
unbekannte Aminosäuresequenz analysieren soll, wird zunächst
in SwissProt nach Homologien gesucht, also nach ähnlichen
Sequenzen, die hilfreich bei der Vorhersage der zu
untersuchenden Sequenz sein könnten. Die so ermittelten Daten
werden zusätzlich zu der nackten Sequenz an zwei neuronale
Netze übergeben. Die Vorhersagegenauigkeit von PHD liegt im
Mittel bei 70,2 %[ Rost 1993].
+RPRORJHV0RGHOOLHUHQDQGHUH0HWKRGHQ
Die Letzte hier vorgestellte Methode, die dann auch direkt zur
Visualisierung der erkannten Struktur Elemente führt, ist die
Proteinfaltung per Homologie-Modellierung. Hierbei will man
direkt die dreidimensionale Struktur eines Proteins durch
bekannte andere 3D Strukturen ableiten. Die Idee die dahinter
steckt ist recht simpel. So gibt es zwar eine sehr große Anzahl
von Proteinen, die verschiedenen Elemente, die ihn ihnen
auftreten, sind aber, gemessen an der Zahl der Proteine, gering.
So ist die Chance, dass zu jedem denkbaren Fold schon eine
Röntgenstruktur beziehungsweise ein 3 dimensionales Bild
vorhanden ist, relativ groß und steigt mit jeder Neuentdeckung.
Das Verfahren arbeitet ebenfalls in verschiedenen Schritten:
Zunächst wird wieder in Datenbanken nach Proteinen mit
bekannter 3 D – Struktur gesucht, deren Primärstruktur
möglichst homolog zu der zu Untersuchenden ist. Hierbei ist es
wichtig möglichst viele verwandte Proteine zu finden, um die
Genauigkeit der Vorhersage zu erhöhen. Gibt es keine
Homologen Strukturen, muss das Verfahren an diesem Punkt (
im Gegensatz zu PHD ) beendet werden, da es sich einzig und
allein auf diese Daten stützt.
Wir betrachten das Protein Lysozym, das aus 129 Aminosäuren
besteht, insgesamt 1001 Atome besitzt und 1033 Bindungen hat.
Mit dieses erstaunlichen Zahlen gehört es aber immer noch zu
den kleineren Proteinen und war auch das dritte überhaupt,
dessen 3 D – Struktur aufgeklärt wurde. Es hat 4 α- Helices, 3 β
– Stränge und 15 Turns.
Abbildung 5 zeigt das Protein als Kugelwolkenmodell und man
erkennt sofort, dass man keines der bekannten Strukturelemente
zuordnen könnte. Die Struktur geht in diesem Modell völlig
unter und selbst bei diesem kleinen Proteinen ist die Darstellung
schon sehr unübersichtlich.
Hat man viele homologe Proteine gefunden, wird jetzt versucht
durch diese die Rückratgeometrie des gesuchten Proteins zu
finden. Ist das gelungen, müssen noch die Seitenketten in
Position gebracht werden. Dabei geht man sowohl von
sterischen Effekten, als auch wieder von bekannten Mustern aus.
Mit dieser Methode kann die Rückratgeometrie eines Proteins
mit 90% Sicherheit korrekt modelliert werden [Steger 2004].
Allerdings gibt es häufiger Fehler bei der Seitenketten Packung
und Verzerrungen in Regionen die keine äquivalente Region in
den Mustern besitzen.
Es gibt noch einige andere Methoden um die Struktur von
Proteinen zu ermitteln. Der Vollständigkeit halber sollen sie hier
erwähnt werden, sie alle detailliert zu erklären würde aber den
Rahmen dieses Artikels sprengen. Ab – initio Methoden zum
Beispiel gehen davon aus, das die Faltung eines Proteins ein rein
physikalisch – chemischer Vorgang ist [Anfinsen 1973], und
versuchen die korrekte Faltung mittels eines Kraftfeldes zu
berechnen. Die Qualität der Methoden ist nicht besonders
beieindruckend und der zusätzlich nötige hohe Rechenaufwand
machen sie insgesamt unattraktiv.
Die inverse Proteinfaltung hingegen ist eine vielversprechende
Methode, die teilweise bessere Vorhersagen erreicht als PHD.
Allerdings funktioniert auch sie, wie das homologe Modellieren,
mit bekannten Proteinstrukturen, der Witz an der Methode ist
jedoch, dass die Problematik der Proteinstrukur – Vorhersage
auf den Kopf gestellt wird: Versucht man normaler Weise aus
einer gegeben Sequenz eine Struktur zu finden, so arbeitet man
hier eben „invers“, man hat eine Struktur gegeben und schaut
welche Sequenz könnte zu genau zu dieser führen. Findet man
so eine Sequenz, die der zu untersuchenden AS-Sequenz
entspricht, hat man die Struktur selbiger aufgeklärt.
'9LVXDOLVLHUXQJVP|JOLFKNHLWHQIU3URWHLQH
Ist man soweit, dass man die Struktur eines Proteins ermittelt
hat, stellt sich die Frage nach der Visualisierung. Denn oft hat
man es bei Proteinen mit Makromolekülen von sehr großem
Ausmaß zu tun und eine Darstellung von allen Atomen wirkt
sehr unübersichtlich. Die unterschiedlichen heute gängigen
Darstellungsarten von Proteinen werden hier am Beispiel des
Programmes RasMol von Roger Sayle vorgestellt.
Abb. 5: Lysozym, Kugelwolkenmodell [ Grafik erstellt mit RasMol by
Sayle ]
Auch das in Abbildung 6 gezeigte „Ball & Stick“ Modell, dass
alle Aminosäuren im Detail zeigt, und einen guten Eindruck von
der Komplexität des Moleküls liefert, ermöglicht nicht den
einfachen Zugang zu den Strukturelementen, auf die ja hier
besonders viel Wert gelegt wird
Abb. 6: Lysozym, Balls&Stick Modell [ Grafik erstellt mit RasMol by
Sayle ]
Erst die schematische Darstellung der Atome als die jeweilige
Struktur, dass sie im Molekül erzeugen, ermöglicht ein gutes
Wiedererkennen mit der unter so großem Aufwand ermittelten
Sekundärstruktur des Proteins. In Abbildung 7 sieht man sehr
genau die 4 α - Helices, die drei β – Stränge und auch die Turns
sind gut zu erkennen. Natürlich sind alle drei Darstellung auch
in RasMol frei rotierbar, was gerade bei der letzten sehr schöne
Einblicke in das Molekül erlaubt. Die Faltung in die einzelnen
Elemente ist jetzt deutlich sichtbar und man kann nach dem
Prinzip der Proteine „Function follows form“ sehr viel leichter
herausfinden, welche Funktion dieses Molekül im Organismus
hat.
Name
Url des Programms
Babel
http://www.eyesopen.com/babel/
Chime
http://www.mdl.com/products/framework/chime/
DeepView
http://www.expasy.org/spdbv/
g open Mol http://www.csc.fi/gopenmol/
Jmol
http://jmol.sourceforge.net/
molden
http://www.cmbi.kun.nl/~schaft/molden/molden.html
RasMol
http://www.OpenrasMol.org/OpenRasMol.html
VMD
PovRay
http://www.ks.uiuc.edu/Research/vmd/
http://www.povray.org/
Tab. 2
&KDQFHQ3UREOHPH±HLQ$XVEOLFNLQGLH=XNXQIW
Abb. 7: Lysozym, schematische Darstellung der sek. Struktur Elemtente
[ Grafik erstellt mit RasMol by Sayle ]
Die in Abbildung 5 gewählte Ansicht ist die gängige
Darstellung, da bei ihr die wichtigen Strukturelemente
auszumachen sind, und man nur vom Betrachten einen Eindruck
davon bekommen kann, wie sich das Molekül biologisch
verhalten wird. Auch Merkmale der Tertiärstruktur sind in dieser
Abbildung gut zu erkennen.
Natürlich kann man dann auch noch wesentlich mehr
Information durch solch eine Grafik vermitteln. So kann zum
Beispiel wie in Abbildung 8 gezeigt noch die Laufrichtung der β
– Stränge angegeben werden, sowie eine farbliche
Unterscheidung der einzelnen Elemente geboten werden.
Abb. 8 Lysozym, schematische Darstellung der sek. Struktur, Elemente
farblich abgesetzt
Die heute vorhandene Hard- und Software ermöglicht durchaus
eine sehr genaue Darstellung solch komplexer Moleküle. Eine
Auswahl an Programmen, die zur Darstellung bekannter
Proteinstrukturen zur Verfügung stehen, findet man in Tabelle 2.
die Problematik liegt also eher auf der Seite der Vorhersage, die
sich weitaus schwieriger gestaltet.
Es ist heute noch nicht möglich die Struktur eines Moleküls
100% genau vorherzusagen. Selbst wenn man viele Methoden
vereint und mit findigen Algorithmen versucht, die Natur
vorherzusehen, liegen die Erfolgsaussichten unter bestimmten guten – Bedingungen bei nur 76 %. Seit über 50 Jahren arbeiten
Forscher an diesem Problem, und man hat einen Eindruck davon
bekommen, wie zäh die Fortschritte auf diesem Gebiet sind.
Selbst die neusten Techniken schaffen es nicht, eine sehr genau
Aussage zu treffen.
Wieso also überhaupt auf diesem wenig aussichtsreichen Sektor
weiter arbeiten, und nicht einfach die beiden Methoden zur
experimentellen Bestimmung von Proteinen weiter verfeinern?
Denn bisher schafft man es ja schließlich nur mit
Röntgenkristallographie oder NMR – Spektroskopie die korrekte
Struktur vorherzusagen. Die Antwort ist: Der Aufwand und die
Kosten dieser Methoden sind enorm, im Gegensatz zu einem
Computerprogramm, das in der Lage ist ( in ferner oder naher
Zukunft ) die Struktur ganz einfach zu berechnen. Es ist also
nicht nur der Forschergeist, der hier die treibende Kraft ist,
sondern auch die wirtschaftliche Komponente, die hier einen
nicht unwesentlichen Antrieb schafft.
Das Problem aller heutigen Methoden ist immer noch die
Vielzahl an Informationen, die eine Aminosäuresequenz mit sich
bringt. Man versucht sie auf bestimmte Merkmale zu reduzieren
oder mit ähnlichen Sequenzen in Verbindung zu bringen. Diese
Ansätze können nur sehr schlecht zu einer 100% Genauigkeit
der Vorhersage führen, da sie alle nur mit nicht sicheren
Wahrscheinlichkeiten arbeiten. Erst wenn man noch bessere
Computer zu Verfügung hat, die wesentlich schneller sind als
die heutigen, kann man auch immer mehr Daten berücksichtigen
und ist nicht gezwungen aus „Zeitgründen“ bestimmte Faktoren
außer acht zu lassen. Selbst dann ist es ungewiss, ob man jemals
eine 100% Genauigkeit der Vorhersage erreicht, denn man darf
bei all der Technik nicht vergessen, dass wir es hier mit
Proteinen zu tun haben, die letztlich nicht von von uns
geschrieben Algorithmen in Computern gefaltet werden, sondern
unter physiologischen Bedingungen in unserem Körper. Dieses
komplexe Gebilde „Leben“ komplett zu erfassen und zu
simulieren halte ich für nahezu unmöglich.
Aber auch auf dem Gebiet der Visualisierung hat man noch nicht
das Optimum erreicht. Die meisten Wissenschaftler müssen die
zwar schon dreidimensional dargestellten Proteine immer noch
auf zweidimensionalen Bildschirmen betrachten. Allerdings gibt
es auch hier schon vielversprechende Ansätze in Bereich der
Virtual Reality. Denn wir leben nun mal in einer 3
dimensionalen Welt, daher kann man ein Protein auch dann viel
besser verstehen, wenn man es tatsächlich 3 dimensional sieht.
Man kann abschließend sagen, es gibt auf dem gesamten
Forschungsgebiet der Visualisierung und Vorhersage von
Proteinstrukturen noch sehr viel zu tun und noch einige
Generationen von Forschern werden sich auf diesem Gebiet
profilieren können.
6FKOVVHOZ|UWHU
Proteinfaltung
Vorhersage von Proteinfaltung
Proteinstrukturen
Proteinvisualisierung
Theorie der Proteinfaltung
Bioinformatik
Proteinmodellierung
Algorithmen der Proteinfaltung
/LWHUDWXUYHU]HLFKQLV
http://wwwcs.upb.de/fachbereich/AG/rammig/DE/gruppe/cgei/Seminar/l
appe/chemie1.html (07.05.2004)
http://www.sfb363.uni-halle.de/kurs/3D.html (07.05.2004)
http://www.friedli.com/herbs/phytochem/proteins.html (09.05.2004 )
http://www.sfb363.uni-halle.de/kurs/3D.html (13.05.2004)
http://www.caesar.de/uploads/media/sekundaerstruktur.pdf (13.05.2004)
http://www2.ccc.unierlangen.de/people/Frank_Oellien/diss/kapitel1.html (15.05.2004)
http://employees.csbsju.edu/hjakubowski/classes/ch331/protstructure/olu
nderstandconfo.html (17.05.2004)
http://www.zib.de/steinke/WS2002/ws2002_II.pdf (17.05.2004 )
http://www.umass.edu/microbio/rasmol/ (22.05.2004)
http://pdb.ccdc.cam.ac.uk/oca-bin/pdblite (03.06.2004)
http://www.fz-juelich.de/zam/files/docs/vortraege/molviz2b.pdf
(04.06.2004)
http://www-ra.informatik.unituebingen.de/lehre/ss02/pro_wirkstoffdesign_ausarbeitung/christoph_ma
lisi.pdf ( 04.06.2004)
http://www.brc.dcs.gla.ac.uk/~drg/courses/bioinformatics_city/slides/Pro
tein_Structure_Prediction/sld017.htm ( 04.06.2004 )
Gerhard Steger, Bioinformatik Methoden zur Vorhersage von RNA- und
Proteinstrukturen 1. Auflage
Alberts/ Johnson/ Lewis/ Raff/ Roberts/ Walter, Molekularbiologie der
Zelle 4. Auflage
Herunterladen