Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 10. Proteinstruktur Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard-Karls-Universität Tübingen Übersicht •! Proteinstruktur – elementarste Grundlagen –! Proteinstruktur –! Strukturaufklärung •! Visualisierung von Proteinstrukturen –! Darstellungsarten –! Werkzeuge: BALLView •! Protein Data Bank (PDB) –! Inhalte –! PDB-Format 2 Aminosäuren I •! Proteine bestehen aus !-Aminokarbonsäuren •! Natürliche Aminosäuren (AS, aa) –! –! –! –! Besitzen eine Karbonsäurefunktion –COOH Besitzen eine primäre Aminofunktion –NH2 Liegen gewöhnlich als Zwitterionen vor (– NH3+, –COO-) Meistens chiral: L-Aminosäuren (in S-Konfiguration) •! 20 proteinogene Aminosäuren •! Unterschiede liegen in den Seitenketten 3 1 Aminosäuren II •! •! •! •! Rückgrat Seitenkette Atome des Rückgrats: C, O, N, H, C!, H! Nummerierung der Seitenkettenatome –! „Entfernung“ vom C!: ", #, $, %, &' –! Atome auf gleicher Ebene mit arabischen Ziffern, z.B. C$1 4 Aminosäuren •! Die 20 proteinogenen AS unterscheiden sich in ihren Seitenketten •! Benennnung üblicherweise mit Ein- oder Drei-Buchstaben-Kürzeln (one letter code, 1LC, three letter code, 3LC) Name 3LC 1LC Name 3LC 1LC Alanin Ala A Methionin Met M Cystein Cys C Asparagin Asn N Asparaginsäure Asp D Prolin Pro P Glutaminsäure Glu E Glutamin Gln Q Phenylalanin Phe F Arginin Arg R Glycin Gly G Serin Ser S Histidin His H Threonin Thr T Isoleucin Ile I Valin Val V Lysin Lys K Tryptophan Trp W Leucin Leu L Tyrosin Tyr Y 5 Proteinstruktur – Überblick Primärstruktur Sequenz: ...LGFCYWS... Sekundärstruktur Tertiärstruktur Quartärstruktur 2 Wie sehen Proteine aus? John Kendrew und Max Perutz klärten Ende der 50er Jahre die ersten Proteinstukturen auf (Myo- und Hämoglobin) und konstruierten (von Hand) Modelle dazu. 7 Wie sehen Proteine aus? 8 Wie sehen Proteine aus? 9 3 Wie sehen Proteine aus? „Could the search for ultimate truth really have revealed so hideous and visceral-looking an object?“ Max Perutz, 1964 10 Röntgen-Kristallografie (XRD) Quelle ProteinKristall Detektor 11 Elektronendichte-Karte 12 4 Elektronendichte-Karte 13 NMR – Hardware NMR-Überblick •! Protein in Lösung (meist isotopenmarkiert) wird im NMRSpektrometer vermessen •! Ergebnis sind verschiedene Arten von Spektren, die unterschiedliche Information über Abstände, Torsionswinkel etc. enthalten •! Zuordnung (assignment) von Peaks zu den jeweiligen Atomen der Struktur weist dann Abstände zwischen Atomen zu •! Modellierung und Verfeinerung führt zu einer Familie von Strukturen, die zu diesen experimentellen Daten passen 5 Resultat: Strukturfamilie •! Bei den Temperaturen die bei NMR verwendet werden, zeigen Proteine eine ausgeprägte Dynamik (oft > 30°C – im Gegensatz zu XRD: -196°C!) •! Zu den gemessenen geometrischen Daten passen daher meist ganze Ensembles von Strukturen, die auch die Dynamik des Proteins wiedergeben Vergleich XRD – NMR XRD NMR •! Auch große Moleküle •! meist < 30 kDa •! Kristalle notwendig •! Aus Lösung •! Wasserstoffe nicht sichtbar •! Wasserstoffe essenziell •! Unmarkiertes Protein •! Isotopenmarkiertes Protein •! Höhere räumliche Auflösung •! Information über Flexibilität Torsionswinkel •! Rotation um Bindungen werden durch Torsionswinkel beschrieben •! Flexibilität entlang des Protein-Rückgrats basiert auf Torsionen •! Deformation bezüglich Bindungslängen und –winkel erfordert höhere Energien als Änderung der Torsionswinkel •! Torsionsbarrieren für Seitenketten liegen bei etwa 20 kJ/mol 18 6 Peptidbindung III – Torsionen •! Drei Torsionswinkel pro AS' ! (entlang der Bindung zwischen N-C!' ! )entlang der Bindung zwischen C!-C ! *entlang der Peptidbindung •! Am N-Terminus entfällt (, am C-Terminus )' )1 *1 (2 )2 *2 (3 19 Torsionswinkel – Ramachandran-Plot •! Im Ramachandran-Plot stellt 180° man jeweils Paare ((, )) von Torsionswinkeln einer AS dar •! Bestimmte Torsionswinkelenergetisch bevorzugt, )' kombinationen sind bestimmte sterisch ausgeschlossen •! Beispiel der Ramachandran-Plot des Proteinkomplexes Trypsin/ BPTI (2PTC) -180° -180° (' 180° 20 Sekundärstruktur – !-Helices ! !Helix: rechtsgängige Helix •! pro Windung –! 3,6 AS –! 5,4 Å •! Stabilisiert durch regelmäßige H-Brücken (i ! i + 4) •! Torsionswinkel ((, )) = (-60°, -50°) 21 7 Sekundärstruktur – "-Faltblätter •! Faltblätter (sheets) bestehen aus mehreren parallelen oder antiparallelen Strängen (strands) •! Verbunden durch H-Brücken des Rückgrats (C=O ! H-N) •! Abstand zwischen Strängen ~3.5 Å •! Torsionswinkel ((, )) –! Parallel (-120°, 115°) –! Antiparallel (-140°, 135°) Berg, Tymoczko, Stryer, S. 59 22 Torsionswinkel – Bevorzugte Bereiche 180° )' ! "Faltblätter ! !Helices –! Linksgängig (selten) –! Rechtsgängig -180° -180° (' 180° 23 Supersekundärstrukturen •! Sekundärstrukturelemente formen häufig einfache Motive (Supersekundärstrukturen) •! Häufig wiederkehrende Motive sind z.B. –! Haarnadel-Motiv (hairpin) "!-" "-Motiv ! " Haarnadel "!-"' 8 Faltungsklassen ! nur Helices " nur Faltblätter Faltungsklassen !": Helices und Faltblätter in der Sequenz getrennt, Faltblätter meist durch Turns verbunden Ubichinon-konjugierendes Enzym (1UB9) Staphylokokken-Nuklease (2SNS) Faltungsklassen !": Faltblatt mit verbindenden Helices (basierend auf dem "-!-"-Motiv) TIM barrel "-!-"-Motiv (TIM = Triosephosphatisomerase) 9 Faltungsklassen •! Es gibt eine Hunderte von typischen Faltungsklassen (Folds) •! Eine sehr bekanntes Fold ist z.B. das TIM-Barrel (Triosephosphatisomerase) •! Eine Reihe von Proteinen nimmt dieses Fold an, das aus "-!-"Motiven zusammengesetzt ist PDB: 1TIM Ferritin – ein !-helikales Protein •! Eisenspeicherprotein •! Vier lange !-Helices L-Kette eines Antikörpers •! Antikörper bestehen aus einer leichten und einer schweren Kette •! Leichte Kette besteht fast ausschließlich aus "Faltblättern 10 Visualisierung •! Visualisierung von Protein-Strukturen ist Grundlage aller Arbeiten in der Strukturbioinformatik •! Erst seit Aufkommen der ersten Grafikrechner Mitte der 70er Jahre kann man mit Proteinen interaktiv arbeiten •! Visualisierung beinhaltet die Darstellung der dreidimensionalen Struktur, aber auch der Flexibilität und Dynamik der Struktur •! Es existieren viele mögliche Darstellungsarten und eine Vielzahl möglicher Softwarewerkzeuge zur Darstellung Linien-Modell Bindungen werden als Linien dargestellt 32 Kalottenmodell Atome werden als Kugeln dargestellt 33 11 Kugel-Stab-Modell Bindungen werden als Stäbe dargestellt, Atome als Kugeln 34 Schlauch/Backbone Rückgrat des Proteins wird durch glatten „Schlauch“ durch die C!-Atome dargestellt 35 Cartoon Wie Backbone, aber Faltblätter zusätzlich als Pfeile und Helices als Zylinder 36 12 Oberfläche Glatte Moleküloberflächen vermitteln Eindruck von der Gesamtform. 37 Vergleich Modelle Verschiedene Modelle vermitteln verschiedene Information: –! Kalotten-, Linien-, Stab- und Kugel-Stab-Modelle (aka Ball&Stick, CPK) •! vermitteln atomare Details •! Sehr unübersichtlich für größere Moleküle –! Schlauch-, Band- + Cartoon-Modelle •! Verdeutlichen Lage der Sekundärstrukturelemente (Topologie der Faltung) •! Geben kein Gefühl für die Raumfüllung der Struktur –! Oberflächenmodelle •! Verdeutlichen die Raumfüllung •! Lassen keine Details des inneren Aufbaus erkennen Färben nach Sekundärstruktur Färben nach Sekundärstruktur hebt die Sekundärstrukturen deutlich hervor und erleichtert das Erkennen der Foldklasse. 39 13 Färbung nach Sequenzindex Färben nach Index vermittelt den Verlauf des Rückgrats im Raum, das „vorne“ und „hinten“ in der Sequenz. 40 Kombinierte Modelle 41 Software zur Visualisierung •! BALLView •!Ein Werkzeug zur Visualisierung und Modellierung von Proteinstrukturen •!Download von Website www.ballview.org für Linux, Windows, MacOS X (Unsere Eigenentwicklung…) •! VMD •!Ein Werkzeug zur Proteinvisualisierung mit guten Darstellungsmöglichkeiten, keine Modellierungsfunktionalität •! RasMol •!Eines der ersten Werkzeuge, ein wahrer Dinosaurier www.ballview.org www.ks.uiuc.edu/Research/vmd/ www.openrasmol.org 14 BALLView Protein-Datenbanken Sequenzdaten •! Swiss-Prot – Protein-Sequenzen http://www.ebi.ac.uk/swissprot/index.html Strukturdaten •! PDB – 3D-Strukturen http://www.rcsb.org •! BMRB – NMR-Daten http://www.bmrb.wisc.edu •! CATH – Domänenklassifizierung http://www.cathdb.info •! SCOP – Faltungsklassen http://scop.mrc-lmb.cam.ac.uk/scop/ 15 Datenbanken – PDB PDB (Protein Data Bank) – http://www.rcsb.org –! Strukturdaten von Biomolekülen –! Geführt von RCSB (Research Collaboratory for Structural Bioinformatics) –! Ablegen von Strukturen in der PDB heute Voraussetzung für strukturbiologische Publikation –! Alle Strukturen werden mit eindeutiger ID versehen •! 4 Zeichen •! 1. Zeichen – Version •! 2. – 4. Zeichen – Struktur ID •! Bsp.: –! 2PTI, 3PTI, 4PTI sind drei Strukturen des Proteins BPTI –! 2PTI: 1973, 3PTI: 1976, 4PTI: 1983 PDB – Wachstum 60000 Yearly Growth Total 50000 40000 •!Anzahl der bekannten Strukturen in der PDB wuchs lange Zeit exponentiell •!Ablegen der Strukturinformation für Publikation in allen wichtigen Zeitschriften obligatorisch 30000 20000 10000 0 2009 2007 2005 2003 2001 1999 1997 1995 1993 1991 1989 1987 1985 1983 1981 1979 1977 1975 1973 Data from: http://www.rcsb.org/pdb/statistics/contentGrowthChart.do?content=total&seqid=100 PDB – Statistik Proteine Protein-NAKomplexe Nukleinsäuren Gesamt XRD 50.197 2.308 1.179 53.701 NMR 7.137 151 885 8.180 Gesamt 57.648 2.534 2.086 62.306 http://www.rcsb.org Stand: 22.12.2009 16 PDB – Der erste Eintrag! PDB – Der erste Eintrag! HEADER OXYGEN STORAGE 05-APR-73 1MBN COMPND MYOGLOBIN (FERRIC IRON - METMYOGLOBIN) SOURCE SPERM WHALE (PHYSETER CATODON) AUTHOR H.C.WATSON,J.C.KENDREW […] REVDAT 20 27-OCT-83 1MBNS 1 REMARK JRNL AUTH H.C.WATSON JRNL TITL THE STEREOCHEMISTRY OF THE PROTEIN MYOGLOBIN JRNL REF PROG.STEREOCHEM. V. 4 299 1969 JRNL REFN ASTM PRSTAP US ISSN 0079-6808 419 […] SEQRES 1 153 VAL LEU SER GLU GLY GLU TRP GLN LEU VAL LEU HIS VAL […] HET HEM 1 44 PROTOPORPHYRIN IX WITH FE(OH), FERRIC FORMUL 2 HEM C34 H32 N4 O4 FE1 +++ . FORMUL 2 HEM H1 O1 HELIX 1 A SER 3 GLU 18 1 N=3.63,PHI=1.73,H=1.50 […] TURN 1 CD1 PHE 43 PHE 46 BETW C/D HELICES IMM PREC CD2 […] ATOM 1 N VAL 1 -2.900 17.600 15.500 1.00 0.00 2 ATOM 2 CA VAL 1 -3.600 16.400 15.300 1.00 0.00 2 ATOM 3 C VAL 1 -3.000 15.300 16.200 1.00 0.00 2 ATOM 4 O VAL 1 -3.700 14.700 17.000 1.00 0.00 2 ATOM 5 CB VAL 1 -3.500 16.000 13.800 1.00 0.00 2 ATOM 6 CG1 VAL 1 -2.100 15.700 13.300 1.00 0.00 2 ATOM 7 CG2 VAL 1 -4.600 14.900 13.400 1.00 0.00 2 ATOM 8 N LEU 2 -1.700 15.100 16.000 1.00 0.00 1 ATOM 9 CA LEU 2 -.900 14.100 16.700 1.00 0.00 ATOM 10 C LEU 2 -1.000 13.900 18.300 1.00 0.00 ATOM 11 O LEU 2 -.900 14.900 19.000 1.00 0.00 ATOM 12 CB LEU 2 .600 14.200 16.500 1.00 0.00 ATOM 13 CG LEU 2 1.100 14.300 15.100 1.00 0.00 1 ATOM 14 CD1 LEU 2 .400 15.500 14.400 1.00 0.00 1 […] 1MBNH 1MBN 1MBNM 1MBNG 1 4 1 1 1MBNS 1MBNG 1MBNG 1MBNG 1MBNG 1 2 3 4 5 1MBN 39 1MBND 1MBNG 1MBNG 1MBN 10 25 26 52 1MBN 60 1MBN 1MBN 1MBN 1MBN 1MBN 1MBNP 1MBNL 1MBN 1MBN 1MBN 1MBN 1MBN 1MBN 1MBNL 72 73 74 75 76 4 8 79 80 81 82 83 84 9 PDB – Dateiformat •! Spaltenbasiertes Textformat –! „Lochkarten“ (records, cards) –! Jede Zeile ist ein Record und beginnt mit einem Schlüsselwort –! Die nachfolgenden Spalten enthalten die zugehörige Information –! Ein Record enthält z.B. Koordinaten eines Atoms oder Information über eine Schwefelbrücke –! Für jeden Recordtyp ist definiert, was in welcher Spalte zu stehen hat –! Kann (und muss auch oft!) mit einem Texteditor geändert werden. Achtung: Spalten nicht verschieben! –! Vollständige Dokumentation ist online erhältlich (siehe unter Links) 17 PDB – Dateiformat •! Hierarchischer Aufbau –! Kette (Chain) enthält Reste (Residues) –! Rest enthält Atome •! Benennung –! Reste und Atome haben Namen –! Reste und Atome sind auch nummeriert –! Ketten sind in der Regel mit einzelnen Buchstaben benannt (z.B. E für Enzym, I für Inhibitor oder A, B, C, D in einem Tetramer) –! Atomnamen richten sich (grob) nach der IUPAC-Nomenklatur –! In Textdateien können keine griechischen Buchstaben vorkommen, daher werden diese durch ihre lateinischen Äquivalente ersetzt: C! ! CA H! ! HA (das H-Atom an C!) C" ! CB H#12 ! 2HG1 (eines der H-Atome an C#1) PDB-Format Beispiel: ATOM-Records für VAL ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 N CA C O CB CG1 CG2 N CA C O CB CG CD1 VAL VAL VAL VAL VAL VAL VAL LEU LEU LEU LEU LEU LEU LEU 1 1 1 1 1 1 1 2 2 2 2 2 2 2 Record- Nummer + Name + typ Name des Nummer Atoms des Rests -2.900 -3.600 -3.000 -3.700 -3.500 -2.100 -4.600 -1.700 -.900 -1.000 -.900 .600 1.100 .400 X 17.600 16.400 15.300 14.700 16.000 15.700 14.900 15.100 14.100 13.900 14.900 14.200 14.300 15.500 15.500 15.300 16.200 17.000 13.800 13.300 13.400 16.000 16.700 18.300 19.000 16.500 15.100 14.400 Röntgenstrukturen 1.00 0.00 2 1MBN 72 enthalten nur Schweratome 1.00 0.00 2 1MBN 73 1.00 (VAL) 0.00enthält 2 1MBN Valin dann74 1.00 0.00 75 sieben Atome: 22 1MBN 1.00 0.00 1MBN 76 0.00 2 1MBNP N,1.00 CA, C, O – Rückgrat 1.00 0.00 1.00 1.00 1.00 1.00 1.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 2 1MBNL 4 8 1 1 1MBN 1MBN 1MBN 1MBN 1MBN 1MBNL 80 81 82 83 84 9 1.00 0.00 1MBN 79 CB, CG1, CG2 –1Seitenkette Z Y Koordinaten Literatur + Links •! Protein Databank (PDB) http://www.rcsb.org •! Dokumentation zum PDB-Format http://www.rcsb.org/pdb/static.do?p=file_formats/pdb/index.html •! Software zur Installation auf dem eigenen Rechner –! BALLView http://www.ballview.org –! RasMol http://www.openrasmol.org –! VMD http://www.ks.uiuc.edu/Research/vmd/ 18