Pape

Werbung
Online-Ergänzung zum Artikel
Die dritte Dimension
Räumliche Darstellung von Proteinstrukturen am Computer
in PdN-ChiS 2/60
In dem folgenden Text werden einige Aspekte der dreidimensionalen Darstellung von
Proteinstrukturen am Computer eingehender erläutert. Zunächst wird das Format der zu
Grunde liegenden Dateien aus der Protein Data Bank [1, 2] sehr vereinfacht dargestellt
und im Anschluss auf typische Probleme bei der Darstellung verschiedener Strukturen
eingegangen.
1. Das Format der pdb-Dateien
Alle pdb-Dateien sind in einem einheitlichen Textformat abgelegt und können mit jedem
beliebigen Editor (Notepad, TextEdit oder auch Emacs und vi) bearbeitet werden. Eine
vollständige Erläuterung des Formats findet sich unter http://www.wwpdb.org/docs.html
[3]. Diese Beschreibung umfasst jedoch knapp 200 Seiten und ist schulische Zwecke bei
weitem zu umfangreich.
Pdb-Dateien lassen sich grob in zwei Abschnitte unterteilen:
Im ersten Abschnitt werden allgemeine Angaben zu dem untersuchten Molekül aufgelistet,
so z.B. Name, Herkunft und Expressionssystem. Auch Angaben zur Funktion des Moleküls
können hinterlegt werden. Es folgen in der Regel Details zur Untersuchungsmethode, der
mit der Struktur assoziierten Veröffentlichung und dem generellen Aufbau des Moleküls.
Für die Untersuchung einer dreidimensionalen Struktur in der Schule werden diese Daten
in der Regel nicht benötigt und können eher verwirrend als hilfreich sein. Abbildung 1
zeigt einen Ausschnitt aus diesem Teil einer pdb-Datei zu der Struktur von Lysozym (pdbCode: 3LZT [4]). Gut erkennbar ist der allgemeine Aufbau: Das Dokument ist zeilenweise
aufgebaut und jede Zeile beginnt mit einem Schlüsselwort, dem jeweils die zugeordneten
Informationen folgen. Diese grundlegende Struktur ist für das gesamte Dokument
identisch.
HEADER
TITLE
COMPND
COMPND
COMPND
COMPND
COMPND
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
KEYWDS
EXPDTA
AUTHOR
AUTHOR
REVDAT
REVDAT
REVDAT
HYDROLASE
23-MAR-97
3LZT
REFINEMENT OF TRICLINIC LYSOZYME AT ATOMIC RESOLUTION
MOL_ID: 1;
2 MOLECULE: LYSOZYME;
3 CHAIN: A;
4 EC: 3.2.1.17;
5 OTHER_DETAILS: NITRATE AND ACETATE IONS PRESENT
MOL_ID: 1;
2 ORGANISM_SCIENTIFIC: GALLUS GALLUS;
3 ORGANISM_COMMON: CHICKEN;
4 ORGANISM_TAXID: 9031;
5 CELL: EGG;
6 CELLULAR_LOCATION: CYTOPLASM (WHITE)
HYDROLASE, O-GLYCOSYL, GLYCOSIDASE
X-RAY DIFFRACTION
M.A.WALSH,T.SCHNEIDER,L.C.SIEKER,Z.DAUTER,V.LAMZIN,
2 K.S.WILSON
3
24-FEB-09 3LZT
1
VERSN
2
01-APR-03 3LZT
1
JRNL
1
25-MAR-98 3LZT
0
Abbildung 1: Ausschnitt aus der Datei 3LZT.pdb; dargestellt sind die ersten 20 Zeilen.
Der zweite große Abschnitt enthält eine Liste aller Atome mit der jeweiligen Atomsorte,
ihrer räumlichen Position und in den meisten Fällen einem Auslenkungsparameter. Zur
Darstellung der Molekülstruktur mit Jmol [5] (oder ähnlichen Programmen) wird lediglich
dieser Abschnitt benötigt. Um Schülern das Zusammenwirken von Darstellungsprogramm
und Strukturdatei näher zu bringen, kann es eventuell sinnvoll sein, nur diesen Teil der
Datei zu präsentieren. Abbildung 2 zeigt einen entsprechenden Ausschnitt, ebenfalls aus
der Datei 3LZT.pdb (Lysozym).
CRYST1
ORIGX1
ORIGX2
ORIGX3
SCALE1
SCALE2
SCALE3
ATOM
ANISOU
ATOM
ANISOU
ATOM
ANISOU
ATOM
ANISOU
ATOM
ANISOU
26.650
30.800
33.630 88.30 107.40 112.20 P 1
1.000000 0.000000 0.000000
0.00000
0.000000 1.000000 0.000000
0.00000
0.000000 0.000000 1.000000
0.00000
0.037523 0.015313 0.013262
0.00000
0.000000 0.035067 0.003322
0.00000
0.000000 0.000000 0.031301
0.00000
1 N
LYS A
1
2.448
4.998 13.787 1.00
1 N
LYS A
1
1512
843
1190
86
2 CA LYS A
1
2.261
5.939 12.687 1.00
2 CA LYS A
1
1336
903
849
81
3 C
LYS A
1
2.967
7.218 13.087 1.00
3 C
LYS A
1
1246
869
823
29
4 O
LYS A
1
2.907
7.569 14.252 1.00
4 O
LYS A
1
1366
1129
801
-77
5 CB LYS A
1
0.751
6.170 12.464 1.00
5 CB LYS A
1
1271
1120
1025
-8
1
9.57
44
115
8.33
97
77
7.93
71
92
8.89
83
38
9.22
-3
-2
N
N
C
C
C
C
O
O
C
C
Abbildung 2: Ausschnitt aus der Datei 3LZT.pdb, dargestellt sind die Positions- und
Auslenkungsparameter der fünf N-terminalen Atome des Lysozyms, diesen vorausgehend
noch die Beschreibung der kristallographischen Elementarzelle sowie der Raumgruppe, die
zur einfachen Darstellung aber beide nicht benötigt werden.
Die Atomparameter werden jeweils in Zeilen abgelegt, die mit dem Eintrag „ATOM“
beginnen. Die darauf folgenden Werte beschreiben (in dieser Reihenfolge)










die Nummer des Atoms im Molekül
den Atomnamen (z.B. CA für C)
die zugehörige Aminosäure
die Proteinkette (A, B, C, ...)
die Nummer der Aminosäure in dieser Kette / diesem Molekül
die x-, y- und z-Koordinaten in einem rechtwinkligen System in Ångström
den Besetzungsfaktor (in der Regel 1: ein Atom ist in 100% aller Zellen vorhanden)
den Auslenkunsparameter (je größer, desto stärker bewegt sich das Atom)
das Atomsymbol (dieses legt die Atomsorte fest, nicht der Atomname!)
evtl. die Atomladung (z.B. 2+, 1-).
Wird eine Datei von Hand bearbeitet, so ist darauf zu achten, dass die einzelnen Spalten
nicht verschoben werden dürfen, also keine Spalten gelöscht oder eingefügt werden, da
die pdb-Dateien einem starren Format unterliegen.
Die in der obigen Datei folgenden Zeilen, beginnend mit dem Eintrag „ANISOU“, beziehen
sich auf die jeweils vorausgegangene Zeile und ergänzen die Atomparameter um
anisotrope Auslenkungsparameter. Diese Einträge finden sich nur in Dateien zu
Strukturen, die mit atomarer Auflösung (meistens weniger als 1.2 Å) bestimmt worden
sind und beschreiben die Schwingung eines Atoms in Form von Ellipsoiden anstatt Kugeln.
Für die Verwendung der Strukturen in der Schule sind sie in der Regel unerheblich.
Der Eintrag „HETATM“ beschreibt sogenannte Heteroatome, also solche, die nicht generell
in den 20 Aminosäuren vorkommen. Dabei kann es sich beispielsweise um eine HämGruppe handeln, aber auch koordinierte Ionen und Wassermoleküle (von denen zumeist
nur die Sauerstoffatompositionen bekannt sind) gehören dazu. Die Konnektivität dieser
Atome bzw. Atomgruppen wird am Ende der Datei mit Hilfe des Eintrages „CONECT“
definiert.
2.
Mögliche Probleme bei der Darstellung von Proteinstrukturen
Bei der Arbeit mit Proteinstrukturen in der Schule treten - abhängig von der untersuchten
Struktur - vor allem zwei Probleme auf, die unter den Schülern für Verwirrung sorgen
können: In Jmol wird mehr als ein Molekülmodell angezeigt oder einige Aminosäuren
scheinen auf mehreren Positionen nebeneinander vorzukommen.
2.1 Es werden zwei oder mehr Proteinmoleküle angezeigt
Werden zwei oder mehr Proteinmoleküle angezeigt, so entsteht der Eindruck einer
Quartärstruktur, die aber unter physiologischen Bedingungen nicht zwingend existiert und
für die biologische Funktion des Moleküls folglich nicht relevant ist. Ein Beispiel zeigt
Abbildung 3 für die -Amylase aus dem menschlichen Speichel (pdb-Code: 1XV8 [6]).
Abbildung 3: Cartoon-Darstellung der menschlichen -Amylase aus Speichel (pdb-Code
1XV8); die beiden Moleküle sind zur besseren Unterscheidung farbig unterschiedlich
dargestellt.
Die biologisch aktive Form dieses Zucker spaltenden Enzyms ist (wahrscheinlich) das
Monomer, dennoch zeigt die Röntgenstrukturanalyse zwei identische Moleküle, quasi ein
Homodimer. Dieser Umstand ergibt sich durch die Kristallisation des Proteins mit zwei
Molekülen in der unabhängigen Einheit des Kristalls und die Methodik der röntgenographischen Untersuchung. Eine ähnliche Situation ergibt sich bei der Betrachtung der
Struktur menschlichen Insulins (pdb-Code: 3E7Y [7]), das zwar als Hexamer im Körper
gespeichert wird, biologisch aktiv aber als Monomer auftritt.
Zur Untersuchung der Proteine in der Schule erscheint in beiden Fällen die Arbeit mit dem
Monomer sinnvoller, da entscheidende Strukturaspekte so leichter herausgearbeitet
werden können (z.B. die Existenz von zwei Ketten im Insulin). Dazu ist es notwendig, die
jeweilige pdb-Datei so aufzubereiten, dass sie nur noch ein Modell des entsprechenden
Moleküls enthält. Dies geschieht durch einfaches Löschen der nicht benötigten Moleküle in
der Datei. Die folgenden Schritte beschreiben dies am Beispiel der oben angesprochen
-Amylase.
 Laden Sie die Datei aus der PDB auf den eigenen Rechner (pdb-Code 1XV8).
 Öffnen Sie die Datei mit einem beliebigen Text-Editor.
 Löschen Sie alle Zeilen, die mit „ATOM“ oder „HETATM“ beginnen und in denen nicht
die Kettenbezeichnung „A“ angegeben ist. Siehe dazu Abbildung 4.
 Speichern Sie die Datei unter einem beliebigen Namen, z.B. 1XV8_monoA.pdb
 Öffnen Sie diese Datei mit Jmol.
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
TER
HETATM
HETATM
HETATM
HETATM
HETATM
HETATM
HETATM
HETATM
3938
3939
3940
3941
3942
3943
3944
3945
3946
3947
3948
3949
3950
3951
3952
3953
3954
N
CA
C
O
CB
CG
CD1
CD2
N
CA
CB
CG
CD
OE
C
O
LEU
LEU
LEU
LEU
LEU
LEU
LEU
LEU
LEU
PCA
PCA
PCA
PCA
PCA
PCA
PCA
PCA
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
496
496
496
496
496
496
496
496
496
1
1
1
1
1
1
1
1
62.952
62.040
61.086
61.422
62.853
63.874
64.759
63.161
-31.645
-32.630
-33.256
-33.410
-33.725
-33.246
-34.403
-32.657
28.802
28.232
29.257
30.437
27.545
26.508
26.086
25.305
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
24.98
23.80
23.43
23.60
22.84
21.90
21.91
21.23
N
C
C
O
C
C
C
C
108.559
108.215
107.389
106.728
107.650
107.620
107.357
107.113
19.702
18.667
17.574
18.230
19.392
19.981
19.258
18.611
40.299
39.261
39.917
41.114
41.398
42.487
38.144
37.122
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
29.87
29.64
30.84
30.89
30.47
32.65
27.36
23.41
N
C
C
C
C
O
C
O
Abbildung 4: Ausschnitt aus der Datei 1XV8.pdb. Der rote Pfeil deutet auf die Kennung
der Kette. Die grau unterlegten Zeilen stellen somit den Beginn der Kette „B“ dar, also des
zweiten Monomers. Da dieser nicht dargestellt werden soll, sind diese Zeilen zu löschen.
Dies gilt auch für weiter unten in der Datei folgende Zeilen, in denen die Atomparameter
für Chlorid-Ionen und Wassermoleküle aufgelistet sind, die an Kette „B“ koordiniert sind.
Eine mögliche Darstellungsform des Monomers zeigt Abbildung 5. Mit diesem Monomer
kann nun wie im Artikel beschrieben gearbeitet werden, jedoch lässt sich dafür nicht mehr
die Online-Version von Jmol direkt auf der Seite der PDB verwenden.
Abbildung 5: Darstellung des Monomers der menschlichen -Amylase aus dem Speichel,
eingefärbt nach Sekundärstrukturelementen. Die Orientierung entspricht nicht der in Abbildung 3.
2.2 Eine Aminosäure scheint an einer Position doppelt vorzuliegen
Betrachtet man beispielsweise das C-terminale Ende der Lysozym-Struktur mit dem pdbCode 3LZT, so fällt auf, dass die Seitenkette des Arginin128 scheinbar doppelt vorkommt
(siehe Abbildung 6). Tatsächlich lässt sich für die dargestellten Atome (C bis N2) keine
eindeutige Position angeben. Vielmehr liegt die Seitenkette in einigen asymmetrischen
Einheiten des Kristalls in der einen Konformation und in den anderen asymmetrischen
Einheiten in einer alternativen Konformation vor. Solche Fehlordnungen lassen sich jedoch
nur bei einer sehr hohen Auflösung (d < 1.2 Å) in den Beugungsdaten erkennen und sind
demzufolge auf relativ wenige Strukturen beschränkt.
Abbildung 6: Carboxy-Terminus des Lysozyms, generiert aus der Datei 3LZT.pdb. Die
Aminosäure Arginin128 zeigt zwei alternative Konformationen für die Seitenkette, eine so
genannte Fehlordnung.
Abbildung 7 zeigt einen Ausschnitt aus der zugehörigen Datei 3LZT.pdb.
ATOM
ANISOU
ATOM
ANISOU
ATOM
ANISOU
ATOM
ANISOU
1083
1083
1084
1084
1085
1085
1086
1086
CB
CB
CG
CG
CG
CG
CD
CD
BARG
BARG
AARG
AARG
BARG
BARG
AARG
AARG
A
A
A
A
A
A
A
A
128
128
128
128
128
128
128
128
-6.974 21.129
4.383 0.45 15.42
1666
2236
1811
233
-604
-460
-6.159 21.212
3.157 0.55 17.99
2482
2361
1823
-198
-435
-523
-8.427 20.865
4.035 0.45 15.44
1715
2171
1837
230
-723
-291
-6.324 20.024
2.211 0.55 20.30
3032
2469
2020
-283
-458
-713
C
C
C
C
C
C
C
C
Abbildung 7: Ausschnitt aus der Datei 3LZT.pdb. Die grau unterlegten Zeilen zeigen
beispielhaft die Fehlordnung des Atoms C. Gelb unterlegt ist jeweils der Indikator, der
anzeigt, dass für das Atom alternative Positionen (grün unterlegt) existieren. Die orange
markierten Besetzungsfaktoren ergänzen sich zu 1 und zeigen an, zu welchem Anteil
welche Atomposition vorliegt.
Um nur eine Konformation der fehlgeordneten Aminosäure darzustellen, müssen alle
Zeilen, die mit „ATOM“, „HETATM“ oder „ANISOU“ beginnen und an der gelb unterlegten
Position (Spalte 17) ein „B“ aufweisen gelöscht werden. Dies ist im Einzelfall sicher kein
Problem, häufig treten in einer Struktur bei entsprechend hoher Auflösung der Beugungsdaten jedoch zahlreiche Fehlordnungen auf. In diesem Fall empfiehlt es sich, entweder
eine homologe Struktur mit niedrigerer Auflösung in der Protein Data Bank zu suchen oder
die Daten mit Hilfe eines automatisierten Skriptes zu bearbeiten. Unter Linux / MacOS X
ist dies im Terminal mit dem folgenden Befehl möglich:
grep -E '^(ATOM
|HETATM)..........[A ]' 3LZT.pdb > konfA.pdb
Dieser Befehl extrahiert aus einer Ursprungsdatei 3LZT.pdb alle Zeilen, die mit ATOM oder
HETATM beginnen und in deren 17. Spalte entweder ein A oder ein Leerzeichen steht. Auf
die dargestellte Weise werden gleichzeitig noch die anisotropen Auslenkungsparameter
aussortiert. Die angelegte Datei konfA.pdb kann dann mit Jmol betrachtet werden, sie
zeigt im Falle einer Fehlordnung nur noch die erste angegebene Konformation.
3.
Fazit
Einige Probleme und Unklarheiten, die bei der Arbeit mit dreidimensionalen Strukturdaten
in der Schule auftreten, lassen sich auf relativ einfache Weise umgehen. Schülern kann so
der Zugang zu aktuellen wissenschaftlichen Arbeitsgebieten der Biologie und der Chemie
weiter erleichtert werden. Eine eventuelle, spätere Thematisierung der angesprochenen
Schwierigkeiten bietet einen Ansatzpunkt für eine eingehendere Beschäftigung mit der
Methodik der Röntgenstrukturanalyse und ermöglicht schließlich eine begründete Einschätzung der Qualität der untersuchten Strukturen.
4. Literatur
[1] H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N.
Shindyalov, P.E. Bourne, The Protein Data Bank. Nucleic Acids Research 28 235-242
(2000)
[2] http://www.pdb.org (letzter Zugriff: 6.2.2011)
[3] http://www.wwpdb.org/docs.html (letzter Zugriff 6.2.2011)
[4]
[5]
[6]
[7]
M.A. Walsh, T.R. Schneider, L.C. Sieker, Z. Dauter, V.S. Lamzin, K.S. Wilson,
Refinement of triclinic hen egg-white lysozyme at atomic resolution.
Acta Crystallogr.,Sect.D 54: 522-546 (1998)
Jmol: an open-source Java viewer for chemical structures in 3D.
http://www.jmol.org/ (letzter Zugriff: 6.2.2011)
S.Z. Fisher, L. Govindasamy, C.K. Tu, D.N. Silverman, H. Rajaniemi, R. McKenna,
Crystal Structure of Human Salivary Alpha-Amylase Dimer, to be published (pdb-ID:
1XV8)
V.I. Timofeev, A.N. Baidus, Y.A. Kislitsyn, I.P. Kuranova, Structure of human insulin,
to be published (pdb-ID: 3E7Y)
Herunterladen