9RUKHUVDJHXQG9LVXDOLVLHUXQJYRQ3URWHLQIDOWXQJ Alexander Garvin Klenner Abb. 1: menschliches Insulin [ Grafik erstellt mit RasMol by Sayle ] $EVWUDFW Diese Arbeit befasst sich mit der Vorhersage und Visualisierung von Proteinstrukturen durch Methoden der Informatik. Nach einer kurzen Vorstellung und Motivation für das Thema im Allgemeinen wird man zu Beginn in die biochemischen – theoretischen Grundlagen der Proteine eingeführt. In diesem Zusammenhang werden Aminosäuren als die chemischen „Bausteine“ der Proteine vorgestellt, und an Hand ihrer, für die Vorhersage der Sekundärstruktur relevanten, chemischen Eigenschaften eingeteilt. Letztlich wird in der Einführung als Zielsetzung vorgegeben, dass eine Software ein Protein nur und ausschließlich auf Grund seiner Aminosäuresequenz bestimmen sollen könnte. Im weiteren Verlauf der Arbeit werden dann die 5 relevanten Strukturen besprochen, die ein Programm behandeln muss, um eine qualitativ hochwertige Vorhersage über die Struktur eines Proteins zu machen. Im einzelnen sind es die Primärstruktur, die Sekundärstruktur, die Supersekundärstruktur, die Tertiärstruktur sowie letztendlich die Quartärstruktur die das Aussehen eines Proteins bestimmen. Hierbei wird allerdings besonders viel Wert auf die Primärstruktur sowie die Sekundärstruktur gelegt, da diese beiden die wohl wichtigsten Stufen sind, die Primärstruktur als das „Rückrat“ das Proteins sowie die Sekundärstruktur als wichtigste Faltungsvorgabe für das fertige Molekül. Nach dieser Einführung in die Biologie der Proteine werden dann verschiedene Algorithmen und Methoden vorgestellt, mit deren Hilfe es möglich ist, Vorhersagen über die Struktur von Proteinen zu treffen. Dabei werden auf der einen Seite primitive Algorithmen wie der von Chou & Fassman erklärt, und auf der anderen Seite solche Methoden, die die Problematik mit hochkomplizierten neuronalen Netzen zu lösen versuchen. Im letzten Teil des Artikels wird auf Programme zur Vorhersage und Darstellung von Proteinen eingegangen. Gleichzeitig wird auch auf die unterschiedlichen heute genutzten Visualisierungstechniken eingegangen, denn, einmal berechnet, steht man vor dem nicht trivialen Problem das Protein, welches ein komplexes Makromolekül darstellt, sinnvoll auf dem Bildschirm abzubilden, so dass ein Betrachter immer genau die Information zu sehen bekommt, die für ihn gerade relevant ist. In der anschließenden Zusammenfassung wird über die Chancen und Zukunft dieser Methoden gesprochen und auch über die Genauigkeit der heutigen Vorhersagen. Ebenfalls diskutiert wird, ob es überhaupt jemals möglich sein wird, ein Protein jemals einzig und allein nur auf Grund seiner Aminosäuresequenz zu bestimmen. (LQIKUXQJ Biochemische Daten zeichnen sich im Gegensatz zu Daten aus anderen Wissenschaften durch ihre klar definierten und nicht textorientierten Datenobjekte wie Strukturen, Reaktionen, Spektren und Oberflächen sowie den damit verbundenen Darstellungsformen aus. Der Visualisierung muss hierbei also ein hoher Stellenwert zugerechnet werden, da man nur so die gewonnenen Daten für andere sichtbar und zur weiteren Bearbeitung zugänglich machen kann. Sehr speziell die Proteine, die innerhalb der Biochemie eine zentrale Rolle einnehmen, haben die Visualisierung unumgänglich gemacht, da sich die biologische Aktivität und die Funktion dieser Makromoleküle sehr viel effizienter und simpler aus ihrem räumlichen Aufbau erkennen und ableiten lässt als das andere Methoden ermöglichen. Um ein Protein aber tatsächlich original getreu dreidimensional durch Software darstellen zu lassen, muss man zunächst eine Vorhersage über die gesuchte Struktur machen. Schon 1978 haben sich die beiden Chemiker Chou & Fasman Gedanken über einen Algorithmus gemacht, der die sogenannte Sekundärstruktur eines Proteins aus seiner Aminosäuresequenz ermittelt. Mit ihrem damaligen Algorithmus, der noch genauer erläutert wird, erreicht man eine Vorhersagequalität von 50 – 55 Prozent Genauigkeit, bezogen auf die Sekundärstruktur des Proteins. Die moderne Bioinformatik heute sucht im Moment fieberhaft nach Methoden, um eine Vorhersagegenauigkeit von 100 % zu erreichen. Dabei werden verschiedenste Methoden und Ideen verfolgt, die im weiteren Verlauf des Artikels vorgestellt werden. Zunächst aber wird die biochemische Theorie, die hinter der Vorhersage steht, erläutert, um einen Eindruck davon zu vermitteln, wie komplex ein Protein tatsächlich ist, und wo die Probleme liegen, wenn man eine Vorhersage über die Faltung eines Proteins treffen will. $XIEDXXQG6WUXNWXUYRQ3URWHLQHQ $PLQRVlXUHQDOV%DXVWHLQHGHV3URWHLQV Die Desoxyribonukleinsäure, der Träger der Erbinformation, codiert alle Proteine unseres Körpers in Form von einer Abfolge von Nucleotiden, welche, einmal durch Transkription abgelesen, an den Ribosomen in eine Aminosäuresequenz übersetzt werden ( Translation), die dann, nach der eigenständigen Faltung das fertige Protein repräsentiert. Hierbei findet eine faszinierende und keineswegs triviale Umwandlung einer linearen Information ( der DNA) in eine dreidimensionale Sprache, nämlich die der Proteine statt. Anhand dieses Mechanismus kann man also sehen, dass Aminosäuren die chemischen Bausteine der Proteine sind. Insgesamt werden nur 20 verschiedene solcher Bausteine verwendet. Es handelt sich um α– Aminocarbonsäuren. Vier Substituenten sind mit dem Cα-Atom verbunden: Der αWasserstoff, die Seitenkette, die Carboxylgruppe und die Aminogruppe. Die Seitenkette ist die Ursache für die unterschiedlichen chemischen Charakteristika der Aminosäuren. Sie bestimmt deren Eigenschaften und über sie werden die Aminosäuren üblicherweise auch in drei verschiedene Gruppen eingeteilt. Es gibt solche, die unpolar sind, polare und geladene Seitenketten. Natürlich sind auch noch spezifischere Einteilungen möglich, die genauere Auskunft über die Chemie der einzelnen Aminosäuren und deren Seitenketten gibt. Bei dem Vorgang der Translation werden zwischen den verschiedenen Aminosäuren Peptidbindungen geknüpft. Dabei wird in einer Kondensationsreaktion unter Wasserabspaltung immer die Aminogruppe der einen Aminosäure mit der Carboxylgruppe der vorherigen verknüpft. Es entsteht die Polypeptidkette, das Rückrat das Proteins und somit seine Primärstruktur. 'LH3ULPlUVWUXNWXUGHV3URWHLQV Proteine bestehen aus 5 Strukturen, der Primärstruktur, der Sekundärstruktur, der Supersekundärstruktur, der Tertiärstruktur und schließlich der Quartärstruktur [Campbell 2000]. Die Primärstruktur ist als lineare Abfolge der Aminosäuren vom N – terminalen zum C- terminalen Ende hin definiert, und sehr einfach hervorzusagen, da sie direkt aus der Nucleotid Sequenz abzuleiten ist. Allerdings muss man die entstehenden Peptidbindungen bei der Bildung der Primärstruktur verstehen, da sie direkt mit der Sekundärstruktur in Verbindung stehen. Diese unterscheiden sich nämlich etwas von den normalen Cα-N Bindungen. Sie sind mit einer Länge von 0,132 nm kürzer als die 0,147 nm langen C’- N Bindungen. Außerdem ist die C=O – Doppelbindung etwas länger als in Ketonen oder Aldehyden, und gerade durch diese Faktoren ergibt sich eine wichtige Resonanzstruktur mit partiellem Doppelbindungscharakter der Peptidbindung. Eine Drehung um diese wird also dadurch stark eingeschränkt. Durch dieses Phänomen lässt sich die Peptidketten Konformation durch die zwei Drehwinkel um jedes Cα-Atom beschreiben. Diese beiden Winkel Psi und Phi werden in so genannten psi, phi Karten dargestellt, und werden nach ihrem Erfinder auch Ramachandran Plots genannt. Für die Winkel Psi und Phi ist die sterische Hinderung zwischen Atomen zweier benachbarter Peptidbindungen und deren Seitenketten wichtig. Aus den Stellungen der Winkel im Ramachandran Plot ergeben sich dann schon bestimmte Bedingungen für die Sekundärstruktur des Proteins. 'LH6HNXQGlUVWUXNWXU Ausgehend von der Primärstruktur, die durch ihre Abfolge der Aminosäuren und deren spezifische Drehwinkel das Gerüst des Proteins bildet, sollen nun die verschiedenen Elemente der Sekundärstruktur eines Proteins vorgestellt werden. Allgemein bezeichnet die Sekundärstruktur regelmäßige geometrische Anordnungen in der Polypeptidkette. Natürlich handelt es sich bei den Elementen der Sekundärstruktur schon um dreidimensionale Gebilde, und nicht etwa, wie der Name irrtümlich vermuten lassen könnte um zweidimensionale Strukturen. Die wichtigsten Anordnungen ergeben sich hierbei aus den günstigen Winkelkombinationen in den Psi, Phi Karten, und bilden dadurch die Grundlage der bekannten Sekundärstrukturelemente von Peptidketten [Steger 2003]: αR = rechtsgängige α- Helix mit ( φ,Ψ ) ≈ ( -60°, -60° ) αL = linksgängige α- Helix mit ( φ,Ψ ) ≈ ( +60°, +60° ) βP = paralleles β- Faltblatt mit ( φ,Ψ ) ≈ ( -130°, +120° ) βA = antiparalleles β- Faltblatt mit ( φ,Ψ ) ≈ ( -150°, +150° ) Dreidimensionale Sekundärstrukturelemente entstehen folglich dadurch, dass aufeinander Folgende Peptideinheiten eine identische relative Orientierung besitzen, also gleiche φ,Ψ Winkel aufweisen. Das häufigste auftretende Element der Sekundärstruktur ist die rechtsgängige α - Helix mit 3,6 Peptideinheiten pro Windung. Bei diesem Strukturelement ist die Anordnung der Atome besonders günstig, da die Amidprotonen von weiter oben liegenden Peptideinheiten besonders gut eine Wasserstoffbrücke zu einem 3 oder 4 Peptideinheiten weiter unten liegenden Carbonylsauerstoff bilden können. Insgesamt sind die radialen Dimensionen einer α - Helix so klein, dass sie optimal für stabilisierende van – der – Waals Kontakte geeignet sind. Die αHelix gibt es sowohl linksgängig als auch rechtsgängig, wobei die rechtsgängige Helix häufiger auftritt. Neben der alpha Helix gibt es auch noch die sogenannte π- Helix und die Collagen Helix. Abbildung 2 zeigt die α - Helix und das β - Faltblatt. Abb. 2: α - Helix und β - Faltblatt [Finn Drabløs 2004] Ein zweites wichtiges Element der Sekundärstruktur sind die β Faltblätter. Das selten auftretende planare β - Faltblatt ergibt sich aus der Anordnung der Dipole der Amide, die in einer Linie aufgereiht sind, und somit eine regelmäßige Wasserstoffbrückenbindung ermöglichen. Die wesentlich häufiger vorkommende Konformation der Faltblätter ist jedoch das nicht planare Faltblatt, welches eine Drehung senkrecht zu den Peptidketten besitzt. Hierbei ist jede der Ketten für sich eine langgezogene Helix, und die Ketten bilden untereinander wiederum Wasserstoffbrücken aus, die dann auf Grund der Anordnung der Amin und Carbonlygruppen die Verdrehung ermöglichen. solche Strukturen bei einer angestrebten Voraussage nicht zu übersehen. Allerdings ist dieses Gebilde schon sehr komplex. In Abbildung 3 sieht man den Cro – Repressor dessen Untereinheiten jeweils aus 3 antiparallelen β - Faltblättern und 3 α - Helices bestehen. Die letzte wichtige Struktur innerhalb der Sekundärstrukturen ist der „Reverse Turn“ der wie der Name schon sagt, ein umklappen der Peptidkette ermöglicht, und somit überhaupt erst die Grundlage für β - Faltblatt Konstruktionen bietet, in denen die Peptidkette ja nebeneinander oder gegeneinander laufen muss. Auch diese Strukturen können wieder nicht für sich isoliert betrachtet werden, sondern sie müssen in der ganzen Komplexität des Moleküls gesehen werden. Als Folge dieser Betrachtung erkennt man, dass auch diese Gebilde, welche die Sekundärstruktur erzeugen, wieder untereinander aggregieren und die sogenannte Supersekundärstruktur erzeugen. Abb. 3: Cro-Repressor [ Grafik erstellt mit RasMol by Sayle ] 'LH6XSHUVHNXQGlUVWUXNWXU Auch bei den Supersekundärstrukturen gibt es wieder ein paar wichtige Vertreter, die vorgestellt werden sollen. Zunächst einmal gibt es eine aus β - Strängen bestehende Superhelix, bei der die Stränge β - Faltblätter bilden – die β Helix. Der Kern dieser Helices wird durch nach innen gerichtete hydrophobe Seitenkette gebildet. Dieses Beispiel zeigt, wie man auch direkt über die Seitenketten bestimmte Vorhersagen treffen kann, nicht nur indirekte über sterische Effekte aus dem Ramachandran – Plot, die für die Sekundärstruktur wichtig sind, müssen beachtet werden, sondern auch die Gesamtheit der Seitenketten kann genutzt werden, um bestimmte Aussagen über die Struktur zu treffen. In diesem Fall könnte man beispielsweise hydrophobe Seitenketten als Indiz für β - Helices verwenden. Eine weitere zu den Supersekundärstrukturen gehörende Anordnung ist das β - Hairpin, das genau wie der „Reverse Turn“ auch eine Umkehrung des Polypeptidstranges bewirkt, aber im Gegensatz zu diesem, zwischen zwei eigenen Strukturen ausgebildet wird und eine optimalere Verdrehung für eine eventuelle Faltblatt Konformation bewirkt. Hier kann auf Grund der starken Verdrehung auch eine gute Vorrausage getroffen werden, da solche Strukturen fast nur dann auftreten, wenn eine der beteiligten Aminosäuren, auf Grund der fehlenden Seitenkette, Glycin ist. Betrachtet man eine Sequenz, die unter Umständen eine βAFaltblatt Konformation einnehmen könnte, und man findet in den vorhergesehenen Turn Regionen Glycin, spricht dies für diese Vermutung. Ein weiteres sehr wichtiges Gebilde sind die Helix – Turn – Helix Motive, die sehr oft wichtige biologische Funktionen haben. Häufig werden diese Strukturen genutzt um an Desoxyribonukleinsäure zu binden. Daher ist es sehr wichtig, Eine andere Struktur ist die Coiled – coil α - Helix, die aus zwei links umeinander gewundenen, rechtsgängigen α Helices besteht, deren hydrophobe Seiteketten wie ein Reißverschluss ineinander passen. Die letzten Supersekundärstrukturen auf die hier eingegangen werden soll, sind die βεβ - Einheit und β - Mäander. So nennt man die recht häufig vorkommenden Kombination von verschiedenen β - Strängen durch eine sogenannten ε Verbindung. Diese Verbindungen können entweder ungeordnete Ketten, α - Helices oder ein weiterer β - Strang sein. Bestimmte dieser Strukturen tauchen so häufig in Proteinen auf, dass sie einen eigenen Namen erhalten haben, so heißen zwei aufeinanderfolgende βαβ-Einheiten zum Beispiel RossmannFold. All die bereits besprochenen Elemente der Sekundärstruktur und der Supersekundärstruktur organisieren sich zu der sogenannten Tertiärstruktur. 'LH7HUWLlU±XQG4XDUWlUVWUXNWXU Die Anordnungen, die sich durch die Tertiärstruktur ergeben, werden in der Regel als Domänen bezeichnet. Hierbei werden weitreichende Wechselwirkungen zwischen den Atomen in der gesamten Polypeptidkette eines Proteins betrachtet. Bekannte Strukturen sind die β - Topologien, bei denen zwei β Faltblätter ein sogenanntes „Sandwich“ bilden. Da sich die Tertiärstruktur eines Proteins aber bei bekannter Proteinsekundärstruktur relativ leicht mathematisch berechnen lässt, und die im weiteren Verlauf vorgestellten Programme und Methoden sich auf eine Vorhersage der Sekundärstruktur konzentrieren, wird hier nicht weiter auf sie eingegangen. Die letzte Stufe der Proteinstrukturen bildet die Quartärstruktur, die durch Wechselwirkung komplett unterschiedlicher und individueller Polypeptidketten entsteht. Auch hier gilt, bevor man sich an die Vorhersage der Quartärstruktur eines sogenannten Mosaik Proteins wagt, ist es zunächst notwendig, die Sekundärstruktur der beteiligten Moleküle genau zu kennen. Arg Cys Asn Tyr Pro Gly 0,79 0,77 0,73 0,61 0,59 0,53 bα Bα Lys Ser His Asn Pro Glu 0,74 0,72 0,71 0,65 0,62 0,26 bβ Bβ Tab. 1 In diesem kleinen Exkurs in die Biologie über den Aufbau und die Strukturen der komplexen Moleküle, die die Proteine darstellen, ist sicherlich klar geworden, wie viele Faktoren bei der Vorhersage der Proteinstruktur eine Rolle spielen, und wie schwierig es ist diese mathematisch zu fassen und das Problem algorithmisch zu einer Lösung zu führen. Die den Aminosäuren zugewiesenen Parameter wurden auf der Grundlage von nur 15 Röntgenstrukturanalysen bestimmt, und daher sollten mit diesem Algorithmus keine großartigen Ergebnisse zu erwarten sein. 'LH9RUKHUVDJHGHU6HNXQGlUVWUXNWXU Begonnen wird bei diesem Algorithmus mit der Erkennung helikaler Regionen, die an Hand des Folgenden Vorgehens gefunden werden sollen: Die Vorhersage der Sekundärstruktur ist ein wichtiger Schritt auf dem Weg zu einem dreidimensionalen Modell eines Proteins. Die Idee ist, die Lage der einzelnen geometrischen Anordnungen wie α - Helices und β - Faltblätter, also Gebilden der Sekundärstruktur, im Protein genau zu bestimmen. Dafür werden teilweise sehr heterogene Methoden verwendet. 'HU&KRX)DVVPDQ$OJRULWKPXV Schon 1978 haben Chou und Fassman einen Algorithmus entwickelt ( damals wurde dieser noch per Hand ausgeführt), der die Sekundärstruktur eines Proteins auf Grund der spezifischen Eigenschaften der Aminosäuren in der Polypeptidkette ermitteln sollte. Auf Grund empirisch gewonnener Daten wurden jeder Aminosäure spezielle Parameter zugeordnet, die in Tabelle 1 zu sehen sind. Allerdings hat der original Algorithmus auch noch auf β - Turns untersucht, da hier aber nur die Idee vorgestellt werden soll, beschränkt sich die Tabelle auf die alpha - Helix und die beta – Stränge. Tabelle 1: Strukturbildungspotentiale von Aminosäuren. Zuordnung von Aminosäuren als Bildner, Brecher oder indifferent für für helikale oder β - Strang Regionen aufbauend auf Helix – bzw. β - Strang Potentialen Pα bzw. Pβ. Hα: starke Helix-Former; hα: Helix-Former; Iα: schwache Helix- Former; iα: indifferent; bα: Helix – Terminatoren; Bα: starke Helix – Terminatoren. Diese Bezichnungen gelten analog für β - Strang. α - Helix Aminosäure Pα Glu 1,53 Ala 1,45 Leu 1,34 His 1,24 Met 1,20 Gln 1,17 Trp 1,14 Val 1,14 Phe 1,12 Lys 1,07 Ile 1,00 Asp 0,98 Thr 0,82 Ser 0,79 Hα hα Iα iα β - Strang Aminosäure Pβ Met 1,67 Val 1,65 Ile 1,60 Cys 1,30 Tyr 1,29 Phe 1,28 Gln 1,23 Leu 1,22 Thr 1,20 Trp 1,19 Ala 0,97 Arg 0,90 Gly 0,81 Asp 0,80 Hβ hβ Iβ iβ 1. Suche nach helikalen Regionen a) +HOL[ ± 1XNOHDWLRQ: Suche nach Folgen von vier helikalen Einheiten ( Hα oder hα ) innerhalb von sechs Einheiten entlang der Peptidkette. Schwache helikale Einheiten (Iα ) zählen wie 0,5 * hα; Helix Nukleation ist ungünstig, wenn das Segment 1/3 oder mehr Helix – Brecher (bα oder Bα ) oder weniger als die Hälfte Helix – Bildner enthält. b) +HOL[ ± 7HUPLQDWLRQ Dehne die Helix in beide Richtungen aus, bis sie durch ein Tetrapeptid mit Pα < 1,00 terminiert wird. Die folgenden Helix –Brecher beenden die Helix Verlängerung: b4, b3i, b3h, b2,i2, b2ih, b2h2, bi3, b2h und i4; diese Tetrapeptid – Zusammensetzungen gelten auch für solche mit I, B oder H anstelle für i, b oder h. Nach der Definition der Helix können einige Einheiten aus diesen Tetrapeptiden, insbesondere h- oder i-Einheiten, an die Helix Enden angefügt werden. Benachbarte β- Regionen können ebenfalls Helices terminieren. c) $XVQDKPH: Prolin kann nicht im inneren einer Helix oder an deren C- terminalen Ende auftreten. d) +HOL[ *UHQ]HQ: Pro, Asp und Glu bevorzugen das Nterminale Ende einer Helix. His, Lys und Arg bevorzugen das Cterminale Ende einer Heli. Falls es notwendig ist, die Bedingung ( 1a ) zu erfüllen, dann erhalten Pro, Asp und Arg die Zuordnung Iα , wenn Pro oder Asp am N- terminalen Helix-Ende auftreten bzw. wenn Arg am C-terminalen Helix-Ende auftritt. e) 9RUKHUVDJH: Jedes Segment aus sechs oder mehr Einheiten mit Pα ≥ 1,03 und Pα > Pβ, das die Bedingungen 1a bis 1d erfüllt, wird als helikale Region vorhergesagt. Nach dem so die Lage der Helices in einem Protein bestimmt worden ist, wird nach den β - Strang Regionen gesucht. 2. Suche nach β - Strang Regionen a) β - Strang – Nukleation: Suche Folgen von drei Einheiten (Hβ oder hβ ) innerhalb von fünf Einheiten entlang der Peptidkette. β- Strang- Nukleation ist ungünstig, wenn das Segment 1/3 oder mehr β- Strang- Brecher (bβ oder Bβ ) oder weniger als die Häflte β- Strang- Bildner enthält. b) β- Strang- Termination: Wende die Regel 1b an, wobei natürlich alpha gegen beta und umgekehrt ausgetauscht werden muss. c) Ausnahme: Glu tritt selten in β- Strängen auf. Prolin tritt nur selten im Inneren eines β- Strangs auf. Damit ein neuronales Netz für eine bestimmte Problemstellung sinnvolle Daten liefert, muss es trainiert werden. Das geschieht über Eingaben, deren Ergebnis schon bekannt ist, also in dem speziellen Fall hier über die Eingabe einer Aminosäuresequenz, deren Sekundärstruktur bereits bekannt ist. Beiden Informationen, also die Eingabe und die Gewünschte Ausgabe werden dem Netz nun mitgeteilt. Ziel des Trainings ist eine Generalisierung, das Netzt soll die übergreifenden Eigenschaften der Testdaten lernen, um dann auch die richtigen Ausgaben für Eingaben zu machen, deren Ergebnis es noch nicht kennt. Ein einfaches solches Netz könnte folgendermaßen aufgebaut sein: d) β- Strang- Grenzen: Geladene Einheiten treten äußerst selten am N-terminalen Ende eines β- Strangs und selten im Inneren oder am C-terminalen Ende eines β- Strangs auf. Trp tritt meistens am N-terminalen Ende eines β- Strangs und äußerst selten am C-terminalen Ende eines β- Strangs auf. e) Vorhersage: Jedes Segment aus fünf oder mehr Einheiten mit Pβ ≥ 1,05 und Pβ > Pα , das die Bedingungen 2a bis 2d erfüllt, wird als β- Strang Region vorhergesagt. Diese original Methode zur Vorhersage der Sekundärstruktur weist natürlich viele Lücken und Probleme auf. Das wird spätesten dann klar, wenn man versucht diesen Algorithmus als ein Computerprogramm zu schreiben, zu viele „schwammige“ Formulierungen machen eine detailgenaue Umwandlung in Software nahezu unmöglich. So kann ein Compiler zum Beispiel nichts mit den begriffen „äußerst selten“ oder „ungünstig“ anfangen, hier liegt die eine Schwäche des Algorithmus. Die andere ist die schon erwähnte geringe Grundlage an Informationen auf die er sich stützt, somit ist eine gute Vorhersage kaum zu erwarten. Erstaunlicherweise liegt die Vorhersagequalität bei diesem Algorithmus trotzdem bei 50 – 55 % [Steger 2004], allerdings reicht das bei weitem nicht aus, um sich auf solch eine Vorhersage zu verlassen. 9RUKHUVDJHXQWHU9HUZHQGXQJQHXURQDOHU 1HW]ZHUNH Eine andere Methode die Sekundärstruktur eines Proteins vorherzusagen bedient sich sogenannter Neuronaler Netzwerke. Da dies eine faszinierender, aber auch zugleich höchst komplizierter Arbeitsbereich ist, soll hier nur ein kleiner Einblick in dieses Verfahren gegeben werden. Der wichtigste Bestandteil eines solchen Netzes ist das künstliche Neuron, das genau wie sein Vorbild aus der Natur mindestens die beiden Zustände „Erregung“ und „Ruhe“ einnehmen kann. Zwischen diesen künstlichen Neuronen bestehen gerichtete Verbindungen. Die verbundenen Neuronen bilden dann Schichten oder „Layers“. Man unterscheidet die Eingangsneuronen, die Ausgangsneuronen und die dazwischenliegenden Neuronen, die man„hidden layers“ nennt, da sie nicht unmittelbar zu sehen sind. Je nach dem, ob die Verbindungen nur in eine Richtung gehen oder auch Schleifen bilden, spricht man von „Feedforwad“- Netzen ( nur eine Richtung) oder von rekurrenten Architekturen. Wie aber ist nun ein neuronales Netz in der Lage die Struktur eines Proteins vorherzusagen? Die simple Antwort lautet: Zunächst überhaupt nicht. Abb. 4: Schema eines neuronalen Netzwerks Ein Ausschnitt einer Primärstruktur wird als Eingabe behandelt ( schwarze Pfeile ), und die wahrscheinliche Sekundärstruktur dieser Eingabe wird von der Ausgabeschicht der Neuronen ( alpha, beta, coil ) ausgegeben, in dem für jede Aminosäure genau eines der Neuronen der Ausgabeschicht in den Zustand Erregung geht, der dann abgelesen oder gespeichert werden kann. So wird über ein Eingabefenster von einer bestimmten Zahl von Aminosäuren immer genau die sek. Struktur einer AS berechnet und gespeichert. Nach dem man alle Aminosäuren durchgegangen ist, endet der Algorithmus und man hat die Struktur nach Möglichkeit bestimmt. Natürlich ist das eine sehr vereinfachte Darstellung, die aber im Prinzip durchaus zeigt, wie ein solches Netz funktioniert. Das heute wohl populärste Programm, das die Struktur eines Proteins unter Nutzung von neuronalen Netzen vorhersagt, ist das PHD ( Profile Network from HeiDelberg ). Dieses System wurde von Rost und Sander 1993 entwickelt. Die Neuerung, die diesem System zu Grunde liegt, und die es so erfolgreich macht, ist die Kombination von Neuronalem Netz und der gleichzeitigen Suche nach Homologien zu der unbekannten Struktur in Protein Datenbanken wie SwissProt. Wenn PHD eine unbekannte Aminosäuresequenz analysieren soll, wird zunächst in SwissProt nach Homologien gesucht, also nach ähnlichen Sequenzen, die hilfreich bei der Vorhersage der zu untersuchenden Sequenz sein könnten. Die so ermittelten Daten werden zusätzlich zu der nackten Sequenz an zwei neuronale Netze übergeben. Die Vorhersagegenauigkeit von PHD liegt im Mittel bei 70,2 %[ Rost 1993]. +RPRORJHV0RGHOOLHUHQDQGHUH0HWKRGHQ Die Letzte hier vorgestellte Methode, die dann auch direkt zur Visualisierung der erkannten Struktur Elemente führt, ist die Proteinfaltung per Homologie-Modellierung. Hierbei will man direkt die dreidimensionale Struktur eines Proteins durch bekannte andere 3D Strukturen ableiten. Die Idee die dahinter steckt ist recht simpel. So gibt es zwar eine sehr große Anzahl von Proteinen, die verschiedenen Elemente, die ihn ihnen auftreten, sind aber, gemessen an der Zahl der Proteine, gering. So ist die Chance, dass zu jedem denkbaren Fold schon eine Röntgenstruktur beziehungsweise ein 3 dimensionales Bild vorhanden ist, relativ groß und steigt mit jeder Neuentdeckung. Das Verfahren arbeitet ebenfalls in verschiedenen Schritten: Zunächst wird wieder in Datenbanken nach Proteinen mit bekannter 3 D – Struktur gesucht, deren Primärstruktur möglichst homolog zu der zu Untersuchenden ist. Hierbei ist es wichtig möglichst viele verwandte Proteine zu finden, um die Genauigkeit der Vorhersage zu erhöhen. Gibt es keine Homologen Strukturen, muss das Verfahren an diesem Punkt ( im Gegensatz zu PHD ) beendet werden, da es sich einzig und allein auf diese Daten stützt. Wir betrachten das Protein Lysozym, das aus 129 Aminosäuren besteht, insgesamt 1001 Atome besitzt und 1033 Bindungen hat. Mit dieses erstaunlichen Zahlen gehört es aber immer noch zu den kleineren Proteinen und war auch das dritte überhaupt, dessen 3 D – Struktur aufgeklärt wurde. Es hat 4 α- Helices, 3 β – Stränge und 15 Turns. Abbildung 5 zeigt das Protein als Kugelwolkenmodell und man erkennt sofort, dass man keines der bekannten Strukturelemente zuordnen könnte. Die Struktur geht in diesem Modell völlig unter und selbst bei diesem kleinen Proteinen ist die Darstellung schon sehr unübersichtlich. Hat man viele homologe Proteine gefunden, wird jetzt versucht durch diese die Rückratgeometrie des gesuchten Proteins zu finden. Ist das gelungen, müssen noch die Seitenketten in Position gebracht werden. Dabei geht man sowohl von sterischen Effekten, als auch wieder von bekannten Mustern aus. Mit dieser Methode kann die Rückratgeometrie eines Proteins mit 90% Sicherheit korrekt modelliert werden [Steger 2004]. Allerdings gibt es häufiger Fehler bei der Seitenketten Packung und Verzerrungen in Regionen die keine äquivalente Region in den Mustern besitzen. Es gibt noch einige andere Methoden um die Struktur von Proteinen zu ermitteln. Der Vollständigkeit halber sollen sie hier erwähnt werden, sie alle detailliert zu erklären würde aber den Rahmen dieses Artikels sprengen. Ab – initio Methoden zum Beispiel gehen davon aus, das die Faltung eines Proteins ein rein physikalisch – chemischer Vorgang ist [Anfinsen 1973], und versuchen die korrekte Faltung mittels eines Kraftfeldes zu berechnen. Die Qualität der Methoden ist nicht besonders beieindruckend und der zusätzlich nötige hohe Rechenaufwand machen sie insgesamt unattraktiv. Die inverse Proteinfaltung hingegen ist eine vielversprechende Methode, die teilweise bessere Vorhersagen erreicht als PHD. Allerdings funktioniert auch sie, wie das homologe Modellieren, mit bekannten Proteinstrukturen, der Witz an der Methode ist jedoch, dass die Problematik der Proteinstrukur – Vorhersage auf den Kopf gestellt wird: Versucht man normaler Weise aus einer gegeben Sequenz eine Struktur zu finden, so arbeitet man hier eben „invers“, man hat eine Struktur gegeben und schaut welche Sequenz könnte zu genau zu dieser führen. Findet man so eine Sequenz, die der zu untersuchenden AS-Sequenz entspricht, hat man die Struktur selbiger aufgeklärt. '9LVXDOLVLHUXQJVP|JOLFKNHLWHQIU3URWHLQH Ist man soweit, dass man die Struktur eines Proteins ermittelt hat, stellt sich die Frage nach der Visualisierung. Denn oft hat man es bei Proteinen mit Makromolekülen von sehr großem Ausmaß zu tun und eine Darstellung von allen Atomen wirkt sehr unübersichtlich. Die unterschiedlichen heute gängigen Darstellungsarten von Proteinen werden hier am Beispiel des Programmes RasMol von Roger Sayle vorgestellt. Abb. 5: Lysozym, Kugelwolkenmodell [ Grafik erstellt mit RasMol by Sayle ] Auch das in Abbildung 6 gezeigte „Ball & Stick“ Modell, dass alle Aminosäuren im Detail zeigt, und einen guten Eindruck von der Komplexität des Moleküls liefert, ermöglicht nicht den einfachen Zugang zu den Strukturelementen, auf die ja hier besonders viel Wert gelegt wird Abb. 6: Lysozym, Balls&Stick Modell [ Grafik erstellt mit RasMol by Sayle ] Erst die schematische Darstellung der Atome als die jeweilige Struktur, dass sie im Molekül erzeugen, ermöglicht ein gutes Wiedererkennen mit der unter so großem Aufwand ermittelten Sekundärstruktur des Proteins. In Abbildung 7 sieht man sehr genau die 4 α - Helices, die drei β – Stränge und auch die Turns sind gut zu erkennen. Natürlich sind alle drei Darstellung auch in RasMol frei rotierbar, was gerade bei der letzten sehr schöne Einblicke in das Molekül erlaubt. Die Faltung in die einzelnen Elemente ist jetzt deutlich sichtbar und man kann nach dem Prinzip der Proteine „Function follows form“ sehr viel leichter herausfinden, welche Funktion dieses Molekül im Organismus hat. Name Url des Programms Babel http://www.eyesopen.com/babel/ Chime http://www.mdl.com/products/framework/chime/ DeepView http://www.expasy.org/spdbv/ g open Mol http://www.csc.fi/gopenmol/ Jmol http://jmol.sourceforge.net/ molden http://www.cmbi.kun.nl/~schaft/molden/molden.html RasMol http://www.OpenrasMol.org/OpenRasMol.html VMD PovRay http://www.ks.uiuc.edu/Research/vmd/ http://www.povray.org/ Tab. 2 &KDQFHQ3UREOHPH±HLQ$XVEOLFNLQGLH=XNXQIW Abb. 7: Lysozym, schematische Darstellung der sek. Struktur Elemtente [ Grafik erstellt mit RasMol by Sayle ] Die in Abbildung 5 gewählte Ansicht ist die gängige Darstellung, da bei ihr die wichtigen Strukturelemente auszumachen sind, und man nur vom Betrachten einen Eindruck davon bekommen kann, wie sich das Molekül biologisch verhalten wird. Auch Merkmale der Tertiärstruktur sind in dieser Abbildung gut zu erkennen. Natürlich kann man dann auch noch wesentlich mehr Information durch solch eine Grafik vermitteln. So kann zum Beispiel wie in Abbildung 8 gezeigt noch die Laufrichtung der β – Stränge angegeben werden, sowie eine farbliche Unterscheidung der einzelnen Elemente geboten werden. Abb. 8 Lysozym, schematische Darstellung der sek. Struktur, Elemente farblich abgesetzt Die heute vorhandene Hard- und Software ermöglicht durchaus eine sehr genaue Darstellung solch komplexer Moleküle. Eine Auswahl an Programmen, die zur Darstellung bekannter Proteinstrukturen zur Verfügung stehen, findet man in Tabelle 2. die Problematik liegt also eher auf der Seite der Vorhersage, die sich weitaus schwieriger gestaltet. Es ist heute noch nicht möglich die Struktur eines Moleküls 100% genau vorherzusagen. Selbst wenn man viele Methoden vereint und mit findigen Algorithmen versucht, die Natur vorherzusehen, liegen die Erfolgsaussichten unter bestimmten guten – Bedingungen bei nur 76 %. Seit über 50 Jahren arbeiten Forscher an diesem Problem, und man hat einen Eindruck davon bekommen, wie zäh die Fortschritte auf diesem Gebiet sind. Selbst die neusten Techniken schaffen es nicht, eine sehr genau Aussage zu treffen. Wieso also überhaupt auf diesem wenig aussichtsreichen Sektor weiter arbeiten, und nicht einfach die beiden Methoden zur experimentellen Bestimmung von Proteinen weiter verfeinern? Denn bisher schafft man es ja schließlich nur mit Röntgenkristallographie oder NMR – Spektroskopie die korrekte Struktur vorherzusagen. Die Antwort ist: Der Aufwand und die Kosten dieser Methoden sind enorm, im Gegensatz zu einem Computerprogramm, das in der Lage ist ( in ferner oder naher Zukunft ) die Struktur ganz einfach zu berechnen. Es ist also nicht nur der Forschergeist, der hier die treibende Kraft ist, sondern auch die wirtschaftliche Komponente, die hier einen nicht unwesentlichen Antrieb schafft. Das Problem aller heutigen Methoden ist immer noch die Vielzahl an Informationen, die eine Aminosäuresequenz mit sich bringt. Man versucht sie auf bestimmte Merkmale zu reduzieren oder mit ähnlichen Sequenzen in Verbindung zu bringen. Diese Ansätze können nur sehr schlecht zu einer 100% Genauigkeit der Vorhersage führen, da sie alle nur mit nicht sicheren Wahrscheinlichkeiten arbeiten. Erst wenn man noch bessere Computer zu Verfügung hat, die wesentlich schneller sind als die heutigen, kann man auch immer mehr Daten berücksichtigen und ist nicht gezwungen aus „Zeitgründen“ bestimmte Faktoren außer acht zu lassen. Selbst dann ist es ungewiss, ob man jemals eine 100% Genauigkeit der Vorhersage erreicht, denn man darf bei all der Technik nicht vergessen, dass wir es hier mit Proteinen zu tun haben, die letztlich nicht von von uns geschrieben Algorithmen in Computern gefaltet werden, sondern unter physiologischen Bedingungen in unserem Körper. Dieses komplexe Gebilde „Leben“ komplett zu erfassen und zu simulieren halte ich für nahezu unmöglich. Aber auch auf dem Gebiet der Visualisierung hat man noch nicht das Optimum erreicht. Die meisten Wissenschaftler müssen die zwar schon dreidimensional dargestellten Proteine immer noch auf zweidimensionalen Bildschirmen betrachten. Allerdings gibt es auch hier schon vielversprechende Ansätze in Bereich der Virtual Reality. Denn wir leben nun mal in einer 3 dimensionalen Welt, daher kann man ein Protein auch dann viel besser verstehen, wenn man es tatsächlich 3 dimensional sieht. Man kann abschließend sagen, es gibt auf dem gesamten Forschungsgebiet der Visualisierung und Vorhersage von Proteinstrukturen noch sehr viel zu tun und noch einige Generationen von Forschern werden sich auf diesem Gebiet profilieren können. 6FKOVVHOZ|UWHU Proteinfaltung Vorhersage von Proteinfaltung Proteinstrukturen Proteinvisualisierung Theorie der Proteinfaltung Bioinformatik Proteinmodellierung Algorithmen der Proteinfaltung /LWHUDWXUYHU]HLFKQLV http://wwwcs.upb.de/fachbereich/AG/rammig/DE/gruppe/cgei/Seminar/l appe/chemie1.html (07.05.2004) http://www.sfb363.uni-halle.de/kurs/3D.html (07.05.2004) http://www.friedli.com/herbs/phytochem/proteins.html (09.05.2004 ) http://www.sfb363.uni-halle.de/kurs/3D.html (13.05.2004) http://www.caesar.de/uploads/media/sekundaerstruktur.pdf (13.05.2004) http://www2.ccc.unierlangen.de/people/Frank_Oellien/diss/kapitel1.html (15.05.2004) http://employees.csbsju.edu/hjakubowski/classes/ch331/protstructure/olu nderstandconfo.html (17.05.2004) http://www.zib.de/steinke/WS2002/ws2002_II.pdf (17.05.2004 ) http://www.umass.edu/microbio/rasmol/ (22.05.2004) http://pdb.ccdc.cam.ac.uk/oca-bin/pdblite (03.06.2004) http://www.fz-juelich.de/zam/files/docs/vortraege/molviz2b.pdf (04.06.2004) http://www-ra.informatik.unituebingen.de/lehre/ss02/pro_wirkstoffdesign_ausarbeitung/christoph_ma lisi.pdf ( 04.06.2004) http://www.brc.dcs.gla.ac.uk/~drg/courses/bioinformatics_city/slides/Pro tein_Structure_Prediction/sld017.htm ( 04.06.2004 ) Gerhard Steger, Bioinformatik Methoden zur Vorhersage von RNA- und Proteinstrukturen 1. Auflage Alberts/ Johnson/ Lewis/ Raff/ Roberts/ Walter, Molekularbiologie der Zelle 4. Auflage