Online-Ergänzung zum Artikel Die dritte Dimension Räumliche Darstellung von Proteinstrukturen am Computer in PdN-ChiS 2/60 In dem folgenden Text werden einige Aspekte der dreidimensionalen Darstellung von Proteinstrukturen am Computer eingehender erläutert. Zunächst wird das Format der zu Grunde liegenden Dateien aus der Protein Data Bank [1, 2] sehr vereinfacht dargestellt und im Anschluss auf typische Probleme bei der Darstellung verschiedener Strukturen eingegangen. 1. Das Format der pdb-Dateien Alle pdb-Dateien sind in einem einheitlichen Textformat abgelegt und können mit jedem beliebigen Editor (Notepad, TextEdit oder auch Emacs und vi) bearbeitet werden. Eine vollständige Erläuterung des Formats findet sich unter http://www.wwpdb.org/docs.html [3]. Diese Beschreibung umfasst jedoch knapp 200 Seiten und ist schulische Zwecke bei weitem zu umfangreich. Pdb-Dateien lassen sich grob in zwei Abschnitte unterteilen: Im ersten Abschnitt werden allgemeine Angaben zu dem untersuchten Molekül aufgelistet, so z.B. Name, Herkunft und Expressionssystem. Auch Angaben zur Funktion des Moleküls können hinterlegt werden. Es folgen in der Regel Details zur Untersuchungsmethode, der mit der Struktur assoziierten Veröffentlichung und dem generellen Aufbau des Moleküls. Für die Untersuchung einer dreidimensionalen Struktur in der Schule werden diese Daten in der Regel nicht benötigt und können eher verwirrend als hilfreich sein. Abbildung 1 zeigt einen Ausschnitt aus diesem Teil einer pdb-Datei zu der Struktur von Lysozym (pdbCode: 3LZT [4]). Gut erkennbar ist der allgemeine Aufbau: Das Dokument ist zeilenweise aufgebaut und jede Zeile beginnt mit einem Schlüsselwort, dem jeweils die zugeordneten Informationen folgen. Diese grundlegende Struktur ist für das gesamte Dokument identisch. HEADER TITLE COMPND COMPND COMPND COMPND COMPND SOURCE SOURCE SOURCE SOURCE SOURCE SOURCE KEYWDS EXPDTA AUTHOR AUTHOR REVDAT REVDAT REVDAT HYDROLASE 23-MAR-97 3LZT REFINEMENT OF TRICLINIC LYSOZYME AT ATOMIC RESOLUTION MOL_ID: 1; 2 MOLECULE: LYSOZYME; 3 CHAIN: A; 4 EC: 3.2.1.17; 5 OTHER_DETAILS: NITRATE AND ACETATE IONS PRESENT MOL_ID: 1; 2 ORGANISM_SCIENTIFIC: GALLUS GALLUS; 3 ORGANISM_COMMON: CHICKEN; 4 ORGANISM_TAXID: 9031; 5 CELL: EGG; 6 CELLULAR_LOCATION: CYTOPLASM (WHITE) HYDROLASE, O-GLYCOSYL, GLYCOSIDASE X-RAY DIFFRACTION M.A.WALSH,T.SCHNEIDER,L.C.SIEKER,Z.DAUTER,V.LAMZIN, 2 K.S.WILSON 3 24-FEB-09 3LZT 1 VERSN 2 01-APR-03 3LZT 1 JRNL 1 25-MAR-98 3LZT 0 Abbildung 1: Ausschnitt aus der Datei 3LZT.pdb; dargestellt sind die ersten 20 Zeilen. Der zweite große Abschnitt enthält eine Liste aller Atome mit der jeweiligen Atomsorte, ihrer räumlichen Position und in den meisten Fällen einem Auslenkungsparameter. Zur Darstellung der Molekülstruktur mit Jmol [5] (oder ähnlichen Programmen) wird lediglich dieser Abschnitt benötigt. Um Schülern das Zusammenwirken von Darstellungsprogramm und Strukturdatei näher zu bringen, kann es eventuell sinnvoll sein, nur diesen Teil der Datei zu präsentieren. Abbildung 2 zeigt einen entsprechenden Ausschnitt, ebenfalls aus der Datei 3LZT.pdb (Lysozym). CRYST1 ORIGX1 ORIGX2 ORIGX3 SCALE1 SCALE2 SCALE3 ATOM ANISOU ATOM ANISOU ATOM ANISOU ATOM ANISOU ATOM ANISOU 26.650 30.800 33.630 88.30 107.40 112.20 P 1 1.000000 0.000000 0.000000 0.00000 0.000000 1.000000 0.000000 0.00000 0.000000 0.000000 1.000000 0.00000 0.037523 0.015313 0.013262 0.00000 0.000000 0.035067 0.003322 0.00000 0.000000 0.000000 0.031301 0.00000 1 N LYS A 1 2.448 4.998 13.787 1.00 1 N LYS A 1 1512 843 1190 86 2 CA LYS A 1 2.261 5.939 12.687 1.00 2 CA LYS A 1 1336 903 849 81 3 C LYS A 1 2.967 7.218 13.087 1.00 3 C LYS A 1 1246 869 823 29 4 O LYS A 1 2.907 7.569 14.252 1.00 4 O LYS A 1 1366 1129 801 -77 5 CB LYS A 1 0.751 6.170 12.464 1.00 5 CB LYS A 1 1271 1120 1025 -8 1 9.57 44 115 8.33 97 77 7.93 71 92 8.89 83 38 9.22 -3 -2 N N C C C C O O C C Abbildung 2: Ausschnitt aus der Datei 3LZT.pdb, dargestellt sind die Positions- und Auslenkungsparameter der fünf N-terminalen Atome des Lysozyms, diesen vorausgehend noch die Beschreibung der kristallographischen Elementarzelle sowie der Raumgruppe, die zur einfachen Darstellung aber beide nicht benötigt werden. Die Atomparameter werden jeweils in Zeilen abgelegt, die mit dem Eintrag „ATOM“ beginnen. Die darauf folgenden Werte beschreiben (in dieser Reihenfolge) die Nummer des Atoms im Molekül den Atomnamen (z.B. CA für C) die zugehörige Aminosäure die Proteinkette (A, B, C, ...) die Nummer der Aminosäure in dieser Kette / diesem Molekül die x-, y- und z-Koordinaten in einem rechtwinkligen System in Ångström den Besetzungsfaktor (in der Regel 1: ein Atom ist in 100% aller Zellen vorhanden) den Auslenkunsparameter (je größer, desto stärker bewegt sich das Atom) das Atomsymbol (dieses legt die Atomsorte fest, nicht der Atomname!) evtl. die Atomladung (z.B. 2+, 1-). Wird eine Datei von Hand bearbeitet, so ist darauf zu achten, dass die einzelnen Spalten nicht verschoben werden dürfen, also keine Spalten gelöscht oder eingefügt werden, da die pdb-Dateien einem starren Format unterliegen. Die in der obigen Datei folgenden Zeilen, beginnend mit dem Eintrag „ANISOU“, beziehen sich auf die jeweils vorausgegangene Zeile und ergänzen die Atomparameter um anisotrope Auslenkungsparameter. Diese Einträge finden sich nur in Dateien zu Strukturen, die mit atomarer Auflösung (meistens weniger als 1.2 Å) bestimmt worden sind und beschreiben die Schwingung eines Atoms in Form von Ellipsoiden anstatt Kugeln. Für die Verwendung der Strukturen in der Schule sind sie in der Regel unerheblich. Der Eintrag „HETATM“ beschreibt sogenannte Heteroatome, also solche, die nicht generell in den 20 Aminosäuren vorkommen. Dabei kann es sich beispielsweise um eine HämGruppe handeln, aber auch koordinierte Ionen und Wassermoleküle (von denen zumeist nur die Sauerstoffatompositionen bekannt sind) gehören dazu. Die Konnektivität dieser Atome bzw. Atomgruppen wird am Ende der Datei mit Hilfe des Eintrages „CONECT“ definiert. 2. Mögliche Probleme bei der Darstellung von Proteinstrukturen Bei der Arbeit mit Proteinstrukturen in der Schule treten - abhängig von der untersuchten Struktur - vor allem zwei Probleme auf, die unter den Schülern für Verwirrung sorgen können: In Jmol wird mehr als ein Molekülmodell angezeigt oder einige Aminosäuren scheinen auf mehreren Positionen nebeneinander vorzukommen. 2.1 Es werden zwei oder mehr Proteinmoleküle angezeigt Werden zwei oder mehr Proteinmoleküle angezeigt, so entsteht der Eindruck einer Quartärstruktur, die aber unter physiologischen Bedingungen nicht zwingend existiert und für die biologische Funktion des Moleküls folglich nicht relevant ist. Ein Beispiel zeigt Abbildung 3 für die -Amylase aus dem menschlichen Speichel (pdb-Code: 1XV8 [6]). Abbildung 3: Cartoon-Darstellung der menschlichen -Amylase aus Speichel (pdb-Code 1XV8); die beiden Moleküle sind zur besseren Unterscheidung farbig unterschiedlich dargestellt. Die biologisch aktive Form dieses Zucker spaltenden Enzyms ist (wahrscheinlich) das Monomer, dennoch zeigt die Röntgenstrukturanalyse zwei identische Moleküle, quasi ein Homodimer. Dieser Umstand ergibt sich durch die Kristallisation des Proteins mit zwei Molekülen in der unabhängigen Einheit des Kristalls und die Methodik der röntgenographischen Untersuchung. Eine ähnliche Situation ergibt sich bei der Betrachtung der Struktur menschlichen Insulins (pdb-Code: 3E7Y [7]), das zwar als Hexamer im Körper gespeichert wird, biologisch aktiv aber als Monomer auftritt. Zur Untersuchung der Proteine in der Schule erscheint in beiden Fällen die Arbeit mit dem Monomer sinnvoller, da entscheidende Strukturaspekte so leichter herausgearbeitet werden können (z.B. die Existenz von zwei Ketten im Insulin). Dazu ist es notwendig, die jeweilige pdb-Datei so aufzubereiten, dass sie nur noch ein Modell des entsprechenden Moleküls enthält. Dies geschieht durch einfaches Löschen der nicht benötigten Moleküle in der Datei. Die folgenden Schritte beschreiben dies am Beispiel der oben angesprochen -Amylase. Laden Sie die Datei aus der PDB auf den eigenen Rechner (pdb-Code 1XV8). Öffnen Sie die Datei mit einem beliebigen Text-Editor. Löschen Sie alle Zeilen, die mit „ATOM“ oder „HETATM“ beginnen und in denen nicht die Kettenbezeichnung „A“ angegeben ist. Siehe dazu Abbildung 4. Speichern Sie die Datei unter einem beliebigen Namen, z.B. 1XV8_monoA.pdb Öffnen Sie diese Datei mit Jmol. ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM TER HETATM HETATM HETATM HETATM HETATM HETATM HETATM HETATM 3938 3939 3940 3941 3942 3943 3944 3945 3946 3947 3948 3949 3950 3951 3952 3953 3954 N CA C O CB CG CD1 CD2 N CA CB CG CD OE C O LEU LEU LEU LEU LEU LEU LEU LEU LEU PCA PCA PCA PCA PCA PCA PCA PCA A A A A A A A A A B B B B B B B B 496 496 496 496 496 496 496 496 496 1 1 1 1 1 1 1 1 62.952 62.040 61.086 61.422 62.853 63.874 64.759 63.161 -31.645 -32.630 -33.256 -33.410 -33.725 -33.246 -34.403 -32.657 28.802 28.232 29.257 30.437 27.545 26.508 26.086 25.305 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 24.98 23.80 23.43 23.60 22.84 21.90 21.91 21.23 N C C O C C C C 108.559 108.215 107.389 106.728 107.650 107.620 107.357 107.113 19.702 18.667 17.574 18.230 19.392 19.981 19.258 18.611 40.299 39.261 39.917 41.114 41.398 42.487 38.144 37.122 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 29.87 29.64 30.84 30.89 30.47 32.65 27.36 23.41 N C C C C O C O Abbildung 4: Ausschnitt aus der Datei 1XV8.pdb. Der rote Pfeil deutet auf die Kennung der Kette. Die grau unterlegten Zeilen stellen somit den Beginn der Kette „B“ dar, also des zweiten Monomers. Da dieser nicht dargestellt werden soll, sind diese Zeilen zu löschen. Dies gilt auch für weiter unten in der Datei folgende Zeilen, in denen die Atomparameter für Chlorid-Ionen und Wassermoleküle aufgelistet sind, die an Kette „B“ koordiniert sind. Eine mögliche Darstellungsform des Monomers zeigt Abbildung 5. Mit diesem Monomer kann nun wie im Artikel beschrieben gearbeitet werden, jedoch lässt sich dafür nicht mehr die Online-Version von Jmol direkt auf der Seite der PDB verwenden. Abbildung 5: Darstellung des Monomers der menschlichen -Amylase aus dem Speichel, eingefärbt nach Sekundärstrukturelementen. Die Orientierung entspricht nicht der in Abbildung 3. 2.2 Eine Aminosäure scheint an einer Position doppelt vorzuliegen Betrachtet man beispielsweise das C-terminale Ende der Lysozym-Struktur mit dem pdbCode 3LZT, so fällt auf, dass die Seitenkette des Arginin128 scheinbar doppelt vorkommt (siehe Abbildung 6). Tatsächlich lässt sich für die dargestellten Atome (C bis N2) keine eindeutige Position angeben. Vielmehr liegt die Seitenkette in einigen asymmetrischen Einheiten des Kristalls in der einen Konformation und in den anderen asymmetrischen Einheiten in einer alternativen Konformation vor. Solche Fehlordnungen lassen sich jedoch nur bei einer sehr hohen Auflösung (d < 1.2 Å) in den Beugungsdaten erkennen und sind demzufolge auf relativ wenige Strukturen beschränkt. Abbildung 6: Carboxy-Terminus des Lysozyms, generiert aus der Datei 3LZT.pdb. Die Aminosäure Arginin128 zeigt zwei alternative Konformationen für die Seitenkette, eine so genannte Fehlordnung. Abbildung 7 zeigt einen Ausschnitt aus der zugehörigen Datei 3LZT.pdb. ATOM ANISOU ATOM ANISOU ATOM ANISOU ATOM ANISOU 1083 1083 1084 1084 1085 1085 1086 1086 CB CB CG CG CG CG CD CD BARG BARG AARG AARG BARG BARG AARG AARG A A A A A A A A 128 128 128 128 128 128 128 128 -6.974 21.129 4.383 0.45 15.42 1666 2236 1811 233 -604 -460 -6.159 21.212 3.157 0.55 17.99 2482 2361 1823 -198 -435 -523 -8.427 20.865 4.035 0.45 15.44 1715 2171 1837 230 -723 -291 -6.324 20.024 2.211 0.55 20.30 3032 2469 2020 -283 -458 -713 C C C C C C C C Abbildung 7: Ausschnitt aus der Datei 3LZT.pdb. Die grau unterlegten Zeilen zeigen beispielhaft die Fehlordnung des Atoms C. Gelb unterlegt ist jeweils der Indikator, der anzeigt, dass für das Atom alternative Positionen (grün unterlegt) existieren. Die orange markierten Besetzungsfaktoren ergänzen sich zu 1 und zeigen an, zu welchem Anteil welche Atomposition vorliegt. Um nur eine Konformation der fehlgeordneten Aminosäure darzustellen, müssen alle Zeilen, die mit „ATOM“, „HETATM“ oder „ANISOU“ beginnen und an der gelb unterlegten Position (Spalte 17) ein „B“ aufweisen gelöscht werden. Dies ist im Einzelfall sicher kein Problem, häufig treten in einer Struktur bei entsprechend hoher Auflösung der Beugungsdaten jedoch zahlreiche Fehlordnungen auf. In diesem Fall empfiehlt es sich, entweder eine homologe Struktur mit niedrigerer Auflösung in der Protein Data Bank zu suchen oder die Daten mit Hilfe eines automatisierten Skriptes zu bearbeiten. Unter Linux / MacOS X ist dies im Terminal mit dem folgenden Befehl möglich: grep -E '^(ATOM |HETATM)..........[A ]' 3LZT.pdb > konfA.pdb Dieser Befehl extrahiert aus einer Ursprungsdatei 3LZT.pdb alle Zeilen, die mit ATOM oder HETATM beginnen und in deren 17. Spalte entweder ein A oder ein Leerzeichen steht. Auf die dargestellte Weise werden gleichzeitig noch die anisotropen Auslenkungsparameter aussortiert. Die angelegte Datei konfA.pdb kann dann mit Jmol betrachtet werden, sie zeigt im Falle einer Fehlordnung nur noch die erste angegebene Konformation. 3. Fazit Einige Probleme und Unklarheiten, die bei der Arbeit mit dreidimensionalen Strukturdaten in der Schule auftreten, lassen sich auf relativ einfache Weise umgehen. Schülern kann so der Zugang zu aktuellen wissenschaftlichen Arbeitsgebieten der Biologie und der Chemie weiter erleichtert werden. Eine eventuelle, spätere Thematisierung der angesprochenen Schwierigkeiten bietet einen Ansatzpunkt für eine eingehendere Beschäftigung mit der Methodik der Röntgenstrukturanalyse und ermöglicht schließlich eine begründete Einschätzung der Qualität der untersuchten Strukturen. 4. Literatur [1] H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne, The Protein Data Bank. Nucleic Acids Research 28 235-242 (2000) [2] http://www.pdb.org (letzter Zugriff: 6.2.2011) [3] http://www.wwpdb.org/docs.html (letzter Zugriff 6.2.2011) [4] [5] [6] [7] M.A. Walsh, T.R. Schneider, L.C. Sieker, Z. Dauter, V.S. Lamzin, K.S. Wilson, Refinement of triclinic hen egg-white lysozyme at atomic resolution. Acta Crystallogr.,Sect.D 54: 522-546 (1998) Jmol: an open-source Java viewer for chemical structures in 3D. http://www.jmol.org/ (letzter Zugriff: 6.2.2011) S.Z. Fisher, L. Govindasamy, C.K. Tu, D.N. Silverman, H. Rajaniemi, R. McKenna, Crystal Structure of Human Salivary Alpha-Amylase Dimer, to be published (pdb-ID: 1XV8) V.I. Timofeev, A.N. Baidus, Y.A. Kislitsyn, I.P. Kuranova, Structure of human insulin, to be published (pdb-ID: 3E7Y)