Bioinformatik für Biochemiker - Oliver Kohlbacher

Werbung
Bioinformatik
für Biochemiker
Oliver Kohlbacher
WS 2009/2010
10. Proteinstruktur
Abt. Simulation biologischer Systeme
WSI/ZBIT, Eberhard-Karls-Universität Tübingen
Übersicht
•! Proteinstruktur – elementarste Grundlagen
–! Proteinstruktur
–! Strukturaufklärung
•! Visualisierung von Proteinstrukturen
–! Darstellungsarten
–! Werkzeuge: BALLView
•! Protein Data Bank (PDB)
–! Inhalte
–! PDB-Format
2
Aminosäuren I
•! Proteine bestehen aus !-Aminokarbonsäuren
•! Natürliche Aminosäuren (AS, aa)
–!
–!
–!
–!
Besitzen eine Karbonsäurefunktion –COOH
Besitzen eine primäre Aminofunktion –NH2
Liegen gewöhnlich als Zwitterionen vor (– NH3+, –COO-)
Meistens chiral: L-Aminosäuren (in S-Konfiguration)
•! 20 proteinogene Aminosäuren
•! Unterschiede liegen in den Seitenketten
3
1
Aminosäuren II
•!
•!
•!
•!
Rückgrat
Seitenkette
Atome des Rückgrats: C, O, N, H, C!, H!
Nummerierung der Seitenkettenatome
–! „Entfernung“ vom C!: ", #, $, %, &'
–! Atome auf gleicher Ebene mit arabischen Ziffern,
z.B. C$1
4
Aminosäuren
•! Die 20 proteinogenen AS unterscheiden sich in ihren Seitenketten
•! Benennnung üblicherweise mit Ein- oder Drei-Buchstaben-Kürzeln
(one letter code, 1LC, three letter code, 3LC)
Name
3LC
1LC
Name
3LC
1LC
Alanin
Ala
A
Methionin
Met
M
Cystein
Cys
C
Asparagin
Asn
N
Asparaginsäure
Asp
D
Prolin
Pro
P
Glutaminsäure
Glu
E
Glutamin
Gln
Q
Phenylalanin
Phe
F
Arginin
Arg
R
Glycin
Gly
G
Serin
Ser
S
Histidin
His
H
Threonin
Thr
T
Isoleucin
Ile
I
Valin
Val
V
Lysin
Lys
K
Tryptophan
Trp
W
Leucin
Leu
L
Tyrosin
Tyr
Y
5
Proteinstruktur – Überblick
Primärstruktur
Sequenz: ...LGFCYWS...
Sekundärstruktur
Tertiärstruktur
Quartärstruktur
2
Wie sehen Proteine aus?
John Kendrew und Max Perutz
klärten Ende der 50er Jahre
die ersten Proteinstukturen
auf (Myo- und Hämoglobin)
und konstruierten (von Hand)
Modelle dazu.
7
Wie sehen Proteine aus?
8
Wie sehen Proteine aus?
9
3
Wie sehen Proteine aus?
„Could the search for
ultimate truth really have
revealed so hideous and
visceral-looking an object?“
Max Perutz, 1964
10
Röntgen-Kristallografie (XRD)
Quelle
ProteinKristall
Detektor
11
Elektronendichte-Karte
12
4
Elektronendichte-Karte
13
NMR – Hardware
NMR-Überblick
•! Protein in Lösung (meist isotopenmarkiert) wird im NMRSpektrometer vermessen
•! Ergebnis sind verschiedene Arten von Spektren, die unterschiedliche
Information über Abstände, Torsionswinkel etc. enthalten
•! Zuordnung (assignment) von Peaks zu den jeweiligen Atomen der
Struktur weist dann Abstände zwischen Atomen zu
•! Modellierung und Verfeinerung führt zu einer Familie von
Strukturen, die zu diesen experimentellen Daten passen
5
Resultat: Strukturfamilie
•! Bei den Temperaturen die bei NMR verwendet werden, zeigen Proteine eine
ausgeprägte Dynamik (oft > 30°C – im Gegensatz zu XRD: -196°C!)
•! Zu den gemessenen geometrischen Daten passen daher meist ganze Ensembles
von Strukturen, die auch die Dynamik des Proteins wiedergeben
Vergleich XRD – NMR
XRD
NMR
•! Auch große Moleküle
•! meist < 30 kDa
•! Kristalle notwendig
•! Aus Lösung
•! Wasserstoffe nicht
sichtbar
•! Wasserstoffe essenziell
•! Unmarkiertes Protein
•! Isotopenmarkiertes
Protein
•! Höhere räumliche
Auflösung
•! Information über
Flexibilität
Torsionswinkel
•! Rotation um Bindungen werden durch Torsionswinkel
beschrieben
•! Flexibilität entlang des Protein-Rückgrats basiert auf Torsionen
•! Deformation bezüglich Bindungslängen und –winkel erfordert
höhere Energien als Änderung der Torsionswinkel
•! Torsionsbarrieren für Seitenketten liegen bei etwa 20 kJ/mol
18
6
Peptidbindung III – Torsionen
•! Drei Torsionswinkel pro AS'
! (entlang der Bindung zwischen N-C!'
! )entlang der Bindung zwischen C!-C
! *entlang der Peptidbindung
•! Am N-Terminus entfällt (, am C-Terminus )'
)1 *1 (2 )2 *2 (3
19
Torsionswinkel – Ramachandran-Plot
•! Im Ramachandran-Plot stellt 180°
man jeweils Paare ((, )) von
Torsionswinkeln einer AS dar
•! Bestimmte Torsionswinkelenergetisch bevorzugt,
)'
kombinationen sind
bestimmte sterisch
ausgeschlossen
•! Beispiel
der Ramachandran-Plot des
Proteinkomplexes Trypsin/
BPTI (2PTC)
-180°
-180°
('
180°
20
Sekundärstruktur – !-Helices
! !Helix: rechtsgängige
Helix
•! pro Windung
–! 3,6 AS
–! 5,4 Å
•! Stabilisiert durch
regelmäßige H-Brücken
(i ! i + 4)
•! Torsionswinkel
((, )) = (-60°, -50°)
21
7
Sekundärstruktur – "-Faltblätter
•! Faltblätter (sheets) bestehen
aus mehreren parallelen oder
antiparallelen Strängen
(strands)
•! Verbunden durch H-Brücken
des Rückgrats (C=O ! H-N)
•! Abstand zwischen Strängen
~3.5 Å
•! Torsionswinkel ((, ))
–! Parallel (-120°, 115°)
–! Antiparallel (-140°, 135°)
Berg, Tymoczko, Stryer, S. 59
22
Torsionswinkel – Bevorzugte Bereiche
180°
)'
! "Faltblätter
! !Helices
–! Linksgängig (selten)
–! Rechtsgängig
-180°
-180°
('
180°
23
Supersekundärstrukturen
•! Sekundärstrukturelemente formen häufig
einfache Motive (Supersekundärstrukturen)
•! Häufig wiederkehrende Motive sind z.B.
–! Haarnadel-Motiv (hairpin)
"!-"
"-Motiv
! "
Haarnadel
"!-"'
8
Faltungsklassen
! nur Helices
" nur Faltblätter
Faltungsklassen
!": Helices und Faltblätter in der Sequenz
getrennt, Faltblätter meist durch Turns verbunden
Ubichinon-konjugierendes Enzym (1UB9)
Staphylokokken-Nuklease (2SNS)
Faltungsklassen
!": Faltblatt mit verbindenden Helices
(basierend auf dem "-!-"-Motiv)
TIM barrel
"-!-"-Motiv
(TIM = Triosephosphatisomerase)
9
Faltungsklassen
•! Es gibt eine Hunderte von typischen Faltungsklassen (Folds)
•! Eine sehr bekanntes Fold ist z.B. das TIM-Barrel
(Triosephosphatisomerase)
•! Eine Reihe von Proteinen nimmt dieses Fold an, das aus "-!-"Motiven zusammengesetzt ist
PDB: 1TIM
Ferritin – ein !-helikales Protein
•! Eisenspeicherprotein
•! Vier lange !-Helices
L-Kette eines Antikörpers
•! Antikörper bestehen aus einer leichten und einer
schweren Kette
•! Leichte Kette besteht fast ausschließlich aus "Faltblättern
10
Visualisierung
•! Visualisierung von Protein-Strukturen ist Grundlage
aller Arbeiten in der Strukturbioinformatik
•! Erst seit Aufkommen der ersten Grafikrechner Mitte
der 70er Jahre kann man mit Proteinen interaktiv
arbeiten
•! Visualisierung beinhaltet die Darstellung der
dreidimensionalen Struktur, aber auch der Flexibilität
und Dynamik der Struktur
•! Es existieren viele mögliche Darstellungsarten und
eine Vielzahl möglicher Softwarewerkzeuge zur
Darstellung
Linien-Modell
Bindungen werden als
Linien dargestellt
32
Kalottenmodell
Atome werden als
Kugeln dargestellt
33
11
Kugel-Stab-Modell
Bindungen werden als Stäbe
dargestellt, Atome als Kugeln
34
Schlauch/Backbone
Rückgrat des Proteins wird durch glatten
„Schlauch“ durch die C!-Atome dargestellt
35
Cartoon
Wie Backbone, aber Faltblätter zusätzlich
als Pfeile und Helices als Zylinder
36
12
Oberfläche
Glatte Moleküloberflächen vermitteln
Eindruck von der Gesamtform.
37
Vergleich Modelle
Verschiedene Modelle vermitteln verschiedene Information:
–! Kalotten-, Linien-, Stab- und Kugel-Stab-Modelle (aka
Ball&Stick, CPK)
•! vermitteln atomare Details
•! Sehr unübersichtlich für größere Moleküle
–! Schlauch-, Band- + Cartoon-Modelle
•! Verdeutlichen Lage der Sekundärstrukturelemente
(Topologie der Faltung)
•! Geben kein Gefühl für die Raumfüllung der Struktur
–! Oberflächenmodelle
•! Verdeutlichen die Raumfüllung
•! Lassen keine Details des inneren Aufbaus erkennen
Färben nach Sekundärstruktur
Färben nach Sekundärstruktur hebt
die Sekundärstrukturen deutlich hervor und
erleichtert das Erkennen der Foldklasse.
39
13
Färbung nach Sequenzindex
Färben nach Index vermittelt
den Verlauf des Rückgrats im Raum,
das „vorne“ und „hinten“ in der Sequenz.
40
Kombinierte Modelle
41
Software zur Visualisierung
•! BALLView
•!Ein Werkzeug zur Visualisierung und Modellierung von
Proteinstrukturen
•!Download von Website www.ballview.org für Linux, Windows,
MacOS X
(Unsere Eigenentwicklung…)
•! VMD
•!Ein Werkzeug zur Proteinvisualisierung mit guten
Darstellungsmöglichkeiten, keine Modellierungsfunktionalität
•! RasMol
•!Eines der ersten Werkzeuge, ein wahrer Dinosaurier
www.ballview.org
www.ks.uiuc.edu/Research/vmd/
www.openrasmol.org
14
BALLView
Protein-Datenbanken
Sequenzdaten
•! Swiss-Prot – Protein-Sequenzen
http://www.ebi.ac.uk/swissprot/index.html
Strukturdaten
•! PDB – 3D-Strukturen
http://www.rcsb.org
•! BMRB – NMR-Daten
http://www.bmrb.wisc.edu
•! CATH – Domänenklassifizierung
http://www.cathdb.info
•! SCOP – Faltungsklassen
http://scop.mrc-lmb.cam.ac.uk/scop/
15
Datenbanken – PDB
PDB (Protein Data Bank) – http://www.rcsb.org
–! Strukturdaten von Biomolekülen
–! Geführt von RCSB (Research Collaboratory for
Structural Bioinformatics)
–! Ablegen von Strukturen in der PDB heute
Voraussetzung für strukturbiologische Publikation
–! Alle Strukturen werden mit eindeutiger ID
versehen
•! 4 Zeichen
•! 1. Zeichen – Version
•! 2. – 4. Zeichen – Struktur ID
•! Bsp.:
–! 2PTI, 3PTI, 4PTI sind drei Strukturen des Proteins BPTI
–! 2PTI: 1973, 3PTI: 1976, 4PTI: 1983
PDB – Wachstum
60000
Yearly Growth
Total
50000
40000
•!Anzahl der bekannten Strukturen in der PDB
wuchs lange Zeit exponentiell
•!Ablegen der Strukturinformation für
Publikation in allen wichtigen Zeitschriften
obligatorisch
30000
20000
10000
0
2009
2007
2005
2003
2001
1999
1997
1995
1993
1991
1989
1987
1985
1983
1981
1979
1977
1975
1973
Data from: http://www.rcsb.org/pdb/statistics/contentGrowthChart.do?content=total&seqid=100
PDB – Statistik
Proteine
Protein-NAKomplexe
Nukleinsäuren
Gesamt
XRD
50.197
2.308
1.179
53.701
NMR
7.137
151
885
8.180
Gesamt
57.648
2.534
2.086
62.306
http://www.rcsb.org
Stand: 22.12.2009
16
PDB – Der erste Eintrag!
PDB – Der erste Eintrag!
HEADER
OXYGEN STORAGE
05-APR-73
1MBN
COMPND
MYOGLOBIN (FERRIC IRON - METMYOGLOBIN)
SOURCE
SPERM WHALE (PHYSETER CATODON)
AUTHOR
H.C.WATSON,J.C.KENDREW
[…]
REVDAT 20
27-OCT-83 1MBNS
1
REMARK
JRNL
AUTH
H.C.WATSON
JRNL
TITL
THE STEREOCHEMISTRY OF THE PROTEIN MYOGLOBIN
JRNL
REF
PROG.STEREOCHEM.
V.
4
299 1969
JRNL
REFN
ASTM PRSTAP US ISSN 0079-6808
419
[…]
SEQRES
1
153 VAL LEU SER GLU GLY GLU TRP GLN LEU VAL LEU HIS VAL
[…]
HET
HEM
1
44
PROTOPORPHYRIN IX WITH FE(OH), FERRIC
FORMUL
2 HEM
C34 H32 N4 O4 FE1 +++ .
FORMUL
2 HEM
H1 O1
HELIX
1
A SER
3 GLU
18 1 N=3.63,PHI=1.73,H=1.50
[…]
TURN
1 CD1 PHE
43 PHE
46
BETW C/D HELICES IMM PREC CD2
[…]
ATOM
1 N
VAL
1
-2.900 17.600 15.500 1.00 0.00
2
ATOM
2 CA VAL
1
-3.600 16.400 15.300 1.00 0.00
2
ATOM
3 C
VAL
1
-3.000 15.300 16.200 1.00 0.00
2
ATOM
4 O
VAL
1
-3.700 14.700 17.000 1.00 0.00
2
ATOM
5 CB VAL
1
-3.500 16.000 13.800 1.00 0.00
2
ATOM
6 CG1 VAL
1
-2.100 15.700 13.300 1.00 0.00
2
ATOM
7 CG2 VAL
1
-4.600 14.900 13.400 1.00 0.00
2
ATOM
8 N
LEU
2
-1.700 15.100 16.000 1.00 0.00
1
ATOM
9 CA LEU
2
-.900 14.100 16.700 1.00 0.00
ATOM
10 C
LEU
2
-1.000 13.900 18.300 1.00 0.00
ATOM
11 O
LEU
2
-.900 14.900 19.000 1.00 0.00
ATOM
12 CB LEU
2
.600 14.200 16.500 1.00 0.00
ATOM
13 CG LEU
2
1.100 14.300 15.100 1.00 0.00
1
ATOM
14 CD1 LEU
2
.400 15.500 14.400 1.00 0.00
1
[…]
1MBNH
1MBN
1MBNM
1MBNG
1
4
1
1
1MBNS
1MBNG
1MBNG
1MBNG
1MBNG
1
2
3
4
5
1MBN
39
1MBND
1MBNG
1MBNG
1MBN
10
25
26
52
1MBN
60
1MBN
1MBN
1MBN
1MBN
1MBN
1MBNP
1MBNL
1MBN
1MBN
1MBN
1MBN
1MBN
1MBN
1MBNL
72
73
74
75
76
4
8
79
80
81
82
83
84
9
PDB – Dateiformat
•! Spaltenbasiertes Textformat
–! „Lochkarten“ (records, cards)
–! Jede Zeile ist ein Record und beginnt mit einem
Schlüsselwort
–! Die nachfolgenden Spalten enthalten die zugehörige
Information
–! Ein Record enthält z.B. Koordinaten eines Atoms oder
Information über eine Schwefelbrücke
–! Für jeden Recordtyp ist definiert, was in welcher Spalte
zu stehen hat
–! Kann (und muss auch oft!) mit einem Texteditor
geändert werden. Achtung: Spalten nicht verschieben!
–! Vollständige Dokumentation ist online erhältlich (siehe
unter Links)
17
PDB – Dateiformat
•! Hierarchischer Aufbau
–! Kette (Chain) enthält Reste (Residues)
–! Rest enthält Atome
•! Benennung
–! Reste und Atome haben Namen
–! Reste und Atome sind auch nummeriert
–! Ketten sind in der Regel mit einzelnen Buchstaben benannt
(z.B. E für Enzym, I für Inhibitor oder A, B, C, D in einem
Tetramer)
–! Atomnamen richten sich (grob) nach der IUPAC-Nomenklatur
–! In Textdateien können keine griechischen Buchstaben
vorkommen, daher werden diese durch ihre lateinischen
Äquivalente ersetzt:
C! ! CA
H! ! HA (das H-Atom an C!)
C" ! CB
H#12 ! 2HG1 (eines der H-Atome an C#1)
PDB-Format
Beispiel: ATOM-Records für VAL
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
1
2
3
4
5
6
7
8
9
10
11
12
13
14
N
CA
C
O
CB
CG1
CG2
N
CA
C
O
CB
CG
CD1
VAL
VAL
VAL
VAL
VAL
VAL
VAL
LEU
LEU
LEU
LEU
LEU
LEU
LEU
1
1
1
1
1
1
1
2
2
2
2
2
2
2
Record- Nummer + Name +
typ Name des Nummer
Atoms des Rests
-2.900
-3.600
-3.000
-3.700
-3.500
-2.100
-4.600
-1.700
-.900
-1.000
-.900
.600
1.100
.400
X
17.600
16.400
15.300
14.700
16.000
15.700
14.900
15.100
14.100
13.900
14.900
14.200
14.300
15.500
15.500
15.300
16.200
17.000
13.800
13.300
13.400
16.000
16.700
18.300
19.000
16.500
15.100
14.400
Röntgenstrukturen
1.00 0.00
2 1MBN 72
enthalten
nur Schweratome
1.00
0.00
2
1MBN
73
1.00 (VAL)
0.00enthält
2 1MBN
Valin
dann74
1.00 0.00
75
sieben
Atome: 22 1MBN
1.00 0.00
1MBN 76
0.00
2 1MBNP
N,1.00
CA, C,
O – Rückgrat
1.00
0.00
1.00
1.00
1.00
1.00
1.00
1.00
0.00
0.00
0.00
0.00
0.00
0.00
2
1MBNL
4
8
1
1
1MBN
1MBN
1MBN
1MBN
1MBN
1MBNL
80
81
82
83
84
9
1.00
0.00
1MBN 79
CB,
CG1,
CG2 –1Seitenkette
Z
Y
Koordinaten
Literatur + Links
•! Protein Databank (PDB)
http://www.rcsb.org
•! Dokumentation zum PDB-Format
http://www.rcsb.org/pdb/static.do?p=file_formats/pdb/index.html
•! Software zur Installation auf dem eigenen
Rechner
–! BALLView
http://www.ballview.org
–! RasMol
http://www.openrasmol.org
–! VMD
http://www.ks.uiuc.edu/Research/vmd/
18
Herunterladen