BIOINF 1910 Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Proteinstruktur, Sekundärstrukturvorhersage Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard-Karls-Universität Tübingen Übersicht • Proteinstruktur – elementarste Grundlagen – Proteinstruktur – Strukturaufklärung • Visualisierung von Proteinstrukturen • Strukturdatenbanken (PDB) • Proteinstrukturvorhersage – Problemdefinition – Ausprägungen • Sekundärstrukturvorhersage – – – – – Probleme Bestimmung der Güte Chou-Fasman-Algorithmus Künstliche neuronale Netze PHD 2 Aminosäuren I • Proteine bestehen aus α-Aminokarbonsäuren • Natürliche Aminosäuren (AS, aa) – – – – Besitzen eine Karbonsäurefunktion –COOH Besitzen eine primäre Aminofunktion –NH2 Liegen gewöhnlich als Zwitterionen vor (– NH3+, –COO-) Meistens chiral: L-Aminosäuren (in S-Konfiguration) • 20 proteinogene Aminosäuren • Unterschiede liegen in den Seitenketten 3 Aminosäuren II • • • • Rückgrat Seitenkette Atome des Rückgrats: C, O, N, H, Cα, Hα Nummerierung der Seitenkettenatome – „Entfernung“ vom Cα: β, γ, δ, ε, η – Atome auf gleicher Ebene mit arabischen Ziffern, z.B. Cδ1 4 Aminosäuren • Die 20 proteinogenen AS unterscheiden sich in ihren Seitenketten • Benennnung üblicherweise mit Ein- oder Drei-Buchstaben-Kürzeln (one letter code, 1LC, three letter code, 3LC) Name 3LC 1LC Name 3LC 1LC Alanin Ala A Methionin Met M Cystein Cys C Asparagin Asn N Asparaginsäure Asp D Prolin Pro P Glutaminsäure Glu E Glutamin Gln Q Phenylalanin Phe F Arginin Arg R Glycin Gly G Serin Ser S Histidin His H Threonin Thr T Isoleucin Ile I Valin Val V Lysin Lys K Tryptophan Trp W Leucin Leu L Tyrosin Tyr Y 5 Proteinstruktur – Überblick Primärstruktur Sekundärstruktur Tertiärstruktur Quartärstruktur Sequenz: ...LGFCYWS... Wie sehen Proteine aus? John Kendrew und Max Perutz klärten Ende der 50er Jahre die ersten Proteinstukturen auf (Myo- und Hämoglobin) und konstruierten (von Hand) Modelle dazu. 7 Wie sehen Proteine aus? 8 Wie sehen Proteine aus? 9 Wie sehen Proteine aus? „Could the search for ultimate truth really have revealed so hideous and visceral-looking an object?“ Max Perutz, 1964 10 Röntgen-Kristallografie (XRD) Quelle ProteinKristall Detektor 11 Elektronendichte-Karte 12 Elektronendichte-Karte 13 NMR – Hardware NMR-Überblick • Protein in Lösung (meist isotopenmarkiert) wird im NMRSpektrometer vermessen • Ergebnis sind verschiedene Arten von Spektren, die unterschiedliche Information über Abstände, Torsionswinkel etc. enthalten • Zuordnung (assignment) von Peaks zu den jeweiligen Atomen der Struktur weist dann Abstände zwischen Atomen zu • Modellierung und Verfeinerung führt zu einer Familie von Strukturen, die zu diesen experimentellen Daten passen Resultat: Strukturfamilie • Bei den Temperaturen die bei NMR verwendet werden, zeigen Proteine eine ausgeprägte Dynamik (oft > 30°C – im Gegensatz zu XRD: -196°C!) • Zu den gemessenen geometrischen Daten passen daher meist ganze Ensembles von Strukturen, die auch die Dynamik des Proteins wiedergeben Vergleich XRD – NMR XRD NMR • Auch große Moleküle • meist < 30 kDa • Kristalle notwendig • Aus Lösung • Wasserstoffe nicht sichtbar • Wasserstoffe essenziell • Unmarkiertes Protein • Isotopenmarkiertes Protein • Höhere räumliche Auflösung • Information über Flexibilität Torsionswinkel • Rotation um Bindungen werden durch Torsionswinkel beschrieben • Flexibilität entlang des Protein-Rückgrats basiert auf Torsionen • Deformation bezüglich Bindungslängen und –winkel erfordert höhere Energien als Änderung der Torsionswinkel • Torsionsbarrieren für Seitenketten liegen bei etwa 20 kJ/mol 18 Peptidbindung III – Torsionen • Drei Torsionswinkel pro AS ‒ φ entlang der Bindung zwischen N-Cα ‒ ψ entlang der Bindung zwischen Cα-C ‒ ω entlang der Peptidbindung • Am N-Terminus entfällt φ, am C-Terminus ψ ψ1 ω1 φ2 ψ2 ω2 φ3 19 Torsionswinkel – Ramachandran-Plot • Im Ramachandran-Plot stellt 180° man jeweils Paare (φ, ψ) von Torsionswinkeln einer AS dar • Bestimmte Torsionswinkelenergetisch bevorzugt, ψ kombinationen sind bestimmte sterisch ausgeschlossen • Beispiel der Ramachandran-Plot des Proteinkomplexes Trypsin/ BPTI (2PTC) -180° -180° φ 180° 20 Sekundärstruktur – α-Helices • α-Helix: rechtsgängige Helix • pro Windung – 3,6 AS – 5,4 Å • Stabilisiert durch regelmäßige H-Brücken (i → i + 4) • Torsionswinkel (φ, ψ) = (-60°, -50°) 21 Sekundärstruktur – β-Faltblätter • Faltblätter (sheets) bestehen aus mehreren parallelen oder antiparallelen Strängen (strands) • Verbunden durch H-Brücken des Rückgrats (C=O → H-N) • Abstand zwischen Strängen ~3.5 Å • Torsionswinkel (φ, ψ) – Parallel (-120°, 115°) – Antiparallel (-140°, 135°) Berg, Tymoczko, Stryer, S. 59 22 Torsionswinkel – Bevorzugte Bereiche 180° ψ • β-Faltblätter • α-Helices – Linksgängig (selten) – Rechtsgängig -180° -180° φ 180° 23 Supersekundärstrukturen • Sekundärstrukturelemente formen häufig einfache Motive (Supersekundärstrukturen) • Häufig wiederkehrende Motive sind z.B. – Haarnadel-Motiv (hairpin) ‒ β-α-β-Motiv Haarnadel β-α-β Faltungsklassen α: nur Helices β: nur Faltblätter Faltungsklassen α+β: Helices und Faltblätter in der Sequenz getrennt, Faltblätter meist durch Turns verbunden Ubichinon-konjugierendes Enzym (1UB9) Staphylokokken-Nuklease (2SNS) Faltungsklassen α/β: Faltblatt mit verbindenden Helices (basierend auf dem β-α-β-Motiv) TIM barrel (TIM = Triosephosphatisomerase) β-α-β-Motiv Faltungsklassen • Es gibt eine Hunderte von typischen Faltungsklassen (Folds) • Eine sehr bekanntes Fold ist z.B. das TIM-Barrel (Triosephosphatisomerase) • Eine Reihe von Proteinen nimmt dieses Fold an, das aus β-α-βMotiven zusammengesetzt ist PDB: 1TIM Ferritin – ein α-helikales Protein • Eisenspeicherprotein • Vier lange α-Helices L-Kette eines Antikörpers • Antikörper bestehen aus einer leichten und einer schweren Kette • Leichte Kette besteht fast ausschließlich aus βFaltblättern Visualisierung • Visualisierung von Protein-Strukturen ist Grundlage aller Arbeiten in der Strukturbioinformatik • Erst seit Aufkommen der ersten Grafikrechner Mitte der 70er Jahre kann man mit Proteinen interaktiv arbeiten • Visualisierung beinhaltet die Darstellung der dreidimensionalen Struktur, aber auch der Flexibilität und Dynamik der Struktur • Es existieren viele mögliche Darstellungsarten und eine Vielzahl möglicher Softwarewerkzeuge zur Darstellung Linien-Modell Bindungen werden als Linien dargestellt 32 Kalottenmodell Atome werden als Kugeln dargestellt 33 Kugel-Stab-Modell Bindungen werden als Stäbe dargestellt, Atome als Kugeln 34 Schlauch/Backbone Rückgrat des Proteins wird durch glatten „Schlauch“ durch die Cα-Atome dargestellt 35 Cartoon Wie Backbone, aber Faltblätter zusätzlich als Pfeile und Helices als Zylinder 36 Oberfläche Glatte Moleküloberflächen vermitteln Eindruck von der Gesamtform. 37 Vergleich Modelle Verschiedene Modelle vermitteln verschiedene Information: – Kalotten-, Linien-, Stab- und Kugel-Stab-Modelle (aka Ball&Stick, CPK) • vermitteln atomare Details • Sehr unübersichtlich für größere Moleküle – Schlauch-, Band- + Cartoon-Modelle • Verdeutlichen Lage der Sekundärstrukturelemente (Topologie der Faltung) • Geben kein Gefühl für die Raumfüllung der Struktur – Oberflächenmodelle • Verdeutlichen die Raumfüllung • Lassen keine Details des inneren Aufbaus erkennen Färben nach Sekundärstruktur Färben nach Sekundärstruktur hebt die Sekundärstrukturen deutlich hervor und erleichtert das Erkennen der Foldklasse. 39 Färbung nach Sequenzindex Färben nach Index vermittelt den Verlauf des Rückgrats im Raum, das „vorne“ und „hinten“ in der Sequenz. 40 Kombinierte Modelle 41 Software zur Visualisierung • BALLView • Ein Werkzeug zur Visualisierung und Modellierung von Proteinstrukturen • Download von Website www.ballview.org für Linux, Windows, MacOS X (Unsere Eigenentwicklung…) • VMD • Ein Werkzeug zur Proteinvisualisierung mit guten Darstellungsmöglichkeiten, keine Modellierungsfunktionalität • RasMol • Eines der ersten Werkzeuge, ein wahrer Dinosaurier www.ballview.org www.ks.uiuc.edu/Research/vmd/ www.openrasmol.org BALLView Protein-Datenbanken Sequenzdaten • Swiss-Prot – Protein-Sequenzen http://www.ebi.ac.uk/swissprot/index.html Strukturdaten • PDB – 3D-Strukturen http://www.rcsb.org • BMRB – NMR-Daten http://www.bmrb.wisc.edu • CATH – Domänenklassifizierung http://www.cathdb.info • SCOP – Faltungsklassen http://scop.mrc-lmb.cam.ac.uk/scop/ Datenbanken – PDB PDB (Protein Data Bank) – http://www.rcsb.org – Strukturdaten von Biomolekülen – Geführt von RCSB (Research Collaboratory for Structural Bioinformatics) – Ablegen von Strukturen in der PDB heute Voraussetzung für strukturbiologische Publikation – Alle Strukturen werden mit eindeutiger ID versehen • 4 Zeichen • 1. Zeichen – Version • 2. – 4. Zeichen – Struktur ID • Bsp.: – 2PTI, 3PTI, 4PTI sind drei Strukturen des Proteins BPTI – 2PTI: 1973, 3PTI: 1976, 4PTI: 1983 PDB – Wachstum 60000 Yearly Growth Total 50000 40000 • Anzahl der bekannten Strukturen in der PDB wuchs lange Zeit exponentiell • Ablegen der Strukturinformation für Publikation in allen wichtigen Zeitschriften obligatorisch 30000 20000 10000 0 2009 2007 2005 2003 2001 1999 1997 1995 1993 1991 1989 1987 1985 1983 1981 1979 1977 1975 1973 Data from: http://www.rcsb.org/pdb/statistics/contentGrowthChart.do?content=total&seqid=100 PDB – Statistik Proteine Protein-NAKomplexe Nukleinsäuren Gesamt XRD 50.197 2.308 1.179 53.701 NMR 7.137 151 885 8.180 Gesamt 57.648 2.534 2.086 62.306 http://www.rcsb.org Stand: 22.12.2009 PDB – Der erste Eintrag! PDB – Der erste Eintrag! HEADER OXYGEN STORAGE 05-APR-73 1MBN COMPND MYOGLOBIN (FERRIC IRON - METMYOGLOBIN) SOURCE SPERM WHALE (PHYSETER CATODON) AUTHOR H.C.WATSON,J.C.KENDREW […] REVDAT 20 27-OCT-83 1MBNS 1 REMARK JRNL AUTH H.C.WATSON JRNL TITL THE STEREOCHEMISTRY OF THE PROTEIN MYOGLOBIN JRNL REF PROG.STEREOCHEM. V. 4 299 1969 JRNL REFN ASTM PRSTAP US ISSN 0079-6808 419 […] SEQRES 1 153 VAL LEU SER GLU GLY GLU TRP GLN LEU VAL LEU HIS VAL […] HET HEM 1 44 PROTOPORPHYRIN IX WITH FE(OH), FERRIC FORMUL 2 HEM C34 H32 N4 O4 FE1 +++ . FORMUL 2 HEM H1 O1 HELIX 1 A SER 3 GLU 18 1 N=3.63,PHI=1.73,H=1.50 […] TURN 1 CD1 PHE 43 PHE 46 BETW C/D HELICES IMM PREC CD2 […] ATOM 1 N VAL 1 -2.900 17.600 15.500 1.00 0.00 2 ATOM 2 CA VAL 1 -3.600 16.400 15.300 1.00 0.00 2 ATOM 3 C VAL 1 -3.000 15.300 16.200 1.00 0.00 2 ATOM 4 O VAL 1 -3.700 14.700 17.000 1.00 0.00 2 ATOM 5 CB VAL 1 -3.500 16.000 13.800 1.00 0.00 2 ATOM 6 CG1 VAL 1 -2.100 15.700 13.300 1.00 0.00 2 ATOM 7 CG2 VAL 1 -4.600 14.900 13.400 1.00 0.00 2 ATOM 8 N LEU 2 -1.700 15.100 16.000 1.00 0.00 1 ATOM 9 CA LEU 2 -.900 14.100 16.700 1.00 0.00 ATOM 10 C LEU 2 -1.000 13.900 18.300 1.00 0.00 ATOM 11 O LEU 2 -.900 14.900 19.000 1.00 0.00 ATOM 12 CB LEU 2 .600 14.200 16.500 1.00 0.00 ATOM 13 CG LEU 2 1.100 14.300 15.100 1.00 0.00 1 ATOM 14 CD1 LEU 2 .400 15.500 14.400 1.00 0.00 1 […] 1MBNH 1MBN 1MBNM 1MBNG 1 4 1 1 1MBNS 1MBNG 1MBNG 1MBNG 1MBNG 1 2 3 4 5 1MBN 39 1MBND 1MBNG 1MBNG 1MBN 10 25 26 52 1MBN 60 1MBN 1MBN 1MBN 1MBN 1MBN 1MBNP 1MBNL 1MBN 1MBN 1MBN 1MBN 1MBN 1MBN 1MBNL 72 73 74 75 76 4 8 79 80 81 82 83 84 9 PDB – Dateiformat • Spaltenbasiertes Textformat – „Lochkarten“ (records, cards) – Jede Zeile ist ein Record und beginnt mit einem Schlüsselwort – Die nachfolgenden Spalten enthalten die zugehörige Information – Ein Record enthält z.B. Koordinaten eines Atoms oder Information über eine Schwefelbrücke – Für jeden Recordtyp ist definiert, was in welcher Spalte zu stehen hat – Kann (und muss auch oft!) mit einem Texteditor geändert werden. Achtung: Spalten nicht verschieben! – Vollständige Dokumentation ist online erhältlich (siehe unter Links) PDB – Dateiformat • Hierarchischer Aufbau – Kette (Chain) enthält Reste (Residues) – Rest enthält Atome • Benennung – Reste und Atome haben Namen – Reste und Atome sind auch nummeriert – Ketten sind in der Regel mit einzelnen Buchstaben benannt (z.B. E für Enzym, I für Inhibitor oder A, B, C, D in einem Tetramer) – Atomnamen richten sich (grob) nach der IUPAC-Nomenklatur – In Textdateien können keine griechischen Buchstaben vorkommen, daher werden diese durch ihre lateinischen Äquivalente ersetzt: Cα ! CA Hα ! HA (das H-Atom an Cα) Cβ ! CB Hγ12 ! 2HG1 (eines der H-Atome an Cγ1) PDB-Format Beispiel: ATOM-Records für VAL ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 N CA C O CB CG1 CG2 N CA C O CB CG CD1 VAL VAL VAL VAL VAL VAL VAL LEU LEU LEU LEU LEU LEU LEU 1 1 1 1 1 1 1 2 2 2 2 2 2 2 Record- Nummer + Name + typ Name des Nummer Atoms des Rests -2.900 -3.600 -3.000 -3.700 -3.500 -2.100 -4.600 -1.700 -.900 -1.000 -.900 .600 1.100 .400 X 17.600 16.400 15.300 14.700 16.000 15.700 14.900 15.100 14.100 13.900 14.900 14.200 14.300 15.500 15.500 15.300 16.200 17.000 13.800 13.300 13.400 16.000 16.700 18.300 19.000 16.500 15.100 14.400 Z Y Koordinaten Röntgenstrukturen 1.00 0.00 2 1MBN 72 enthalten nur Schweratome 1.00 0.00 2 1MBN 73 1.00 (VAL) 0.00enthält 2 1MBN Valin dann74 1.00 0.00 2 1MBN 75 sieben Atome: 1.00 0.00 2 1MBN 76 0.00 2 1MBNP 4 N,1.00 CA, C, O – Rückgrat 1.00 0.00 2 1MBNL 8 1.00 0.00 1MBN 79 CB, CG1, CG2 –1Seitenkette 1.00 0.00 1MBN 80 1.00 0.00 1MBN 81 1.00 0.00 1MBN 82 1.00 0.00 1MBN 83 1.00 0.00 1 1MBN 84 1.00 0.00 1 1MBNL 9 Protein-Strukturvorhersage Problemdefinition: Gegeben Sequenz, finde Struktur ...LGFCYWS... Methoden SequenzSuche Sek.-Strukt.Vorhersage SekundärStruktur Sequenz SequenzDB Homologe Mult. Alignment + Profile Ab-initioVorhersage FoldErkennung Modell Alignment/ Profilkonstr. Threading Modellierung/ Verfeinerung Verfeinertes Modell Nach: Zimmer, Lengauer: Bioinformatics – From Genomes to Drugs, Wiley VCH, 2001 Sekundärstruktur-Vorhersage Gegeben: Sequenz Gesucht: KVYGRCELAAAMKRLGLDNYRGYSLGNWVC AAKFESNFNTHATNRNTDGSTDYGILQINS RWWCNDGRTPGSKNLCNIPCSALLSSDITA SVNCAKKIASGGNGMNAWVAWRNRCKGTDV HAWIRGCRL Sekundärstruktur-Zuordnung mit den Klassen E (extended, Faltblatt), H (helikal), C (coil, Schleifen) zu jeder Aminosäure KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTD -----HHHHHHHHH-------------EEEEE---------------GSTDYGILQINSRWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAK ----EEEEEE--------------------------------HHHHHH KIASGGNGMNAWVAWRNRCKGTDVHAWIRGCRL HHH-------EEE-------------------- Sekundärstruktur-Vorhersage KVYGRCELAAAMKRLGLDNYRGYSLGNWVC AAKFESNFNTHATNRNTDGSTDYGILQINS RWWCNDGRTPGSKNLCNIPCSALLSSDITA SVNCAKKIASGGNGMNAWVAWRNRCKGTDV HAWIRGCRL • SekundärstrukturZuordnung definiert Topologie des Proteins • Packung der Sekundärstrukturen im Raum definiert Faltungsklasse • Wichtiger Anhaltspunkt für Tertiärstruktur H1 H2 ` 1 ` A ` A ` A ` ` 2 KVYGR C E L AAAMKR L G L DNYRGY S L GNWVCAAK F E S N F N T HA T NRN T DG S T DYG I L Q I N S 5 ` 10 15 ` ` ` 3 20 H3 4 25 ` 3 30 H4 35 40 ` 45 H5 50 H6 4 55 ` 60 a H7 2 RWWCNDGR T P G S KN L CN I P C S A L L S S D I T A S VNCAKK I A S GGNGMNAWVAWRNR CKG T DV 65 ` 70 75 80 1 HAW I RGC R L 125 Residue interactions:- with ligand 85 90 95 100 105 110 115 120 1lzy Das Maß aller Dinge • Qualität der Vorhersage ermittelt man üblicherweise durch Vergleich mit Kristallstrukturen, die automatisch mit DSSP annotiert wurden • DSSP ist ein Programm, das aus der Geometrie einer Struktur (HBrückenmuster, Winkel, Abstände) automatisch jedem Rest eine Sekundärstruktur zuordnet • Es sind zwei Einteilungen verbreitet – In drei Klassen Helix (H), Faltblatt (extended, E), ungeordnet (coil, C) – In acht Klassen • α-Helix (H), 3/10-Helix (G), π-Helix (I) • β-Faltblatt (E), β-Brücke (B) • Turn (T), Bend (S), ungeordnet (.) • DSSP weist jedem Rest der Eingabestruktur (z.B. PDB-File) entsprechend einen Buchstaben der drei oder acht Klassen zu Kabsch,W. and Sander,C. (1983) Biopolymers 22, 2577-2637. Qualitätsmaße • Drei-Zustands-Klassifikation (C/H/E) • Q3-Score: Prozentsatz an korrekt zugewiesenen AS in der Sequenz • Analog auch für Q8 (Falls die Acht-ZustandsKlassifikation von DSSP verwandt wird) vorhergesagt beobachtet Sekundärstruktur-Vorhersage Mehrere Generationen von Algorithmen 1. Generation Nur Eigenschaften einzelner AS (Q3 ¼ 50 – 60%) 2. Generation Einbeziehung lokaler Umgebung (Q3 ¼ 65%) 3. Generation Einbeziehung homologer Sequenzen (Q3 > 70%) 4. Generation Konsensus-Methoden, die Ergebnisse mehrerer Methoden der 2. + 3. Generation kombiniert (Q3 ¼ 75-80%) Chou-Fasman-Algorithmus • Idee: statistische Unterschiede in der „Neigung“ der AS zur Ausbildung von Sekundärstrukturen • Analyse von Strukturdatenbanken: wie oft welche AS in welcher Sekundärstruktur • nj sei die Anzahl der Vorkommen von AS j in allen Proteinen der Strukturdatenbank • Wahrscheinlichkeit pj die AS j in einem Protein zu finden ist dann pj = nj / ∑j nj • Analog definiert man die Wahrscheinlichkeit, dass eine Aminosäure in Sekundärstruktur k (mit k 2 {C, H, E}) vom Typ j ist als pj,k = nj,k / ∑j nj,k Chou, Fasman, Biochemistry (1974), 13, 211 Chou-Fasman-Algorithmus • Analog die Wahrscheinlichkeit fj,k mit der eine AS vom Typ j in Sekundärstruktur k angetroffen wird: fj,k = nj,k / n j • Die mittlere Häufigkeit eine beliebige der 20 AS in der Sekundärstruktur k zu finden kann man damit schreiben als <fk> = ∑j fj,k / 20 = ∑j nj,k / ∑j nj • Die relative Häufigkeit, dass für AS j in Sekundärstruktur k auftritt ist somit: Pj,k = fj,k / <fk> • Diese relativen Häufigkeiten sind beschreiben die Präferenzen einer jeden AS für eine gewisse Sekundärstruktur und bilden die Grundlage des Chou-Fasman-Algorithmus Chou, Fasman, Biochemistry (1974), 13, 211 Chou-Fasman-Algorithmus • Einteilung der 20 AS in Klassen nach Pαi – Starke Helixbildner Hα (Glu, Ala, Leu) – Helixbildner hα (His, Met, Gln, Trp, Val, Phe) – Schwache Helixbildner Iα (Lys, Ile) – Indifferente iα (Asp, Thr, Ser, Arg, Cys) – Schwache Helixbrecher bα (Asn, Tyr) – Starke Helixbrecher Bα (Pro, Gly) • Analog für β-Faltblätter – Hβ, hβ, iβ, bβ, Bβ Chou, Fasman, Biochemistry (1974), 13, 211 Chou-Fasman-Parameter AS Pα AS Pβ AS Pα Klasse AS Pβ Klasse Glu 1.53 Met 1.67 Ile 1.00 Iα Ala 0.93 Iβ Ala 1.45 Val 1.65 Asp 0.98 Arg 0.90 Leu 1.34 Ile 1.60 Thr 0.82 Gly 0.81 His 1.24 Cys 1.30 Ser 0.79 Asp 0.80 Met 1.20 Tyr 1.29 Arg 0.79 Lys 0.74 Gln 1.17 Phe 1.28 Cys 0.77 Ser 0.72 Trp 1.14 Gln 1.23 Asn 0.73 His 0.71 Val 1.14 Leu 1.22 Tyr 0.61 Asn 0.65 Phe 1.12 Thr 1.20 Pro 0.59 Pro 0.62 Lys 1.07 Trp 1.19 Gly 0.53 Glu 0.26 Klasse Hα hα Iα Klasse Hβ hβ iα bα Bα iβ bβ Bβ Chou, Fasman, Biochemistry (1974), 13, 222 Chou-Fasman-Algorithmus I Algorithmus (vereinfacht!) • Ordne jeder AS der Sequenz S = s1s2...sk α/β-Klassen zu A: HELICES • Weise jeder AS Gewicht wi zu mit w(Hα) = w(hα) = 1, w(Iα) = w(iα) = 0.5, w(bα) = w(Bα) = –1 • Finde Helix-Kerne – Fenster der Länge 6 mit ∑wi ¸ 4 • Erweitere Kerne nach links oder rechts – Fenster der Länge 4 – Links oder rechts schieben bis ∑Pαsi < 4 – Kompatible AS des abbrechenden Peptids sind Teil der Helix Chou, Fasman, Biochemistry (1974), 13, 222 Chou-Fasman-Algorithmus II Beispiel: .. T S P T A E L M R S T G .. iα iα Bα iα Hα Hα hα Hα iα iα iα Bα 0.5 0.5 0.5 0.5 -1 0.5 1 1 1 1 0.5 -1 Chou-Fasman-Algorithmus II Beispiel: .. T S P T A E L M R S T G .. iα 0.5 iα 0.5 B-1α 0.5 iα H1α H1α h1α H1α 0.5 iα 0.5 iα 0.5 iα B-1α ∑=5 Helixstart Chou-Fasman-Algorithmus II Beispiel: .. T S P T A E L M R S T G .. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 4.3 / 4 > 1.0 Ausdehnen nach links mit 4er-Fenster (auf den Pα-Werten!) Chou-Fasman-Algorithmus II Beispiel: .. T S P T A E L M R S T G .. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 3.6 / 4 < 1.0 Ausdehnen nach links mit 4er-Fenster (auf den Pα-Werten!) Chou-Fasman-Algorithmus II Beispiel: .. T S P T A E L M R S T G .. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 4.5 / 4 > 1.0 Ausdehnen nach rechts mit 4er-Fenster (auf den Pα-Werten!) Chou-Fasman-Algorithmus II Beispiel: .. T S P T A E L M R S T G .. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 4.1 / 4 > 1.0 Ausdehnen nach rechts mit 4er-Fenster (auf den Pα-Werten!) Chou-Fasman-Algorithmus II Beispiel: .. T S P T A E L M R S T G .. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 3.2 / 4 < 1.0 Ausdehnen nach rechts mit 4er-Fenster (auf den Pα-Werten!) Chou-Fasman-Algorithmus II Beispiel: .. T S P T A E L M R S T G .. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 Anschließend analog für Faltblätter Chou-Fasman-Algorithmus II Algorithmus (vereinfacht!) C: KONFLIKTE • Für Bereiche die α und β markiert sind: – Berechne Mittelwerte Pαavg und Pβavg – Helix, falls Pαavg > Pβavg – Faltblatt, falls Pαavg < Pβavg • Faltblätter werden analog zu Helices (leicht andere Parameter) erkannt • Vollständiger „Algorithmus“ enthält noch weitere zusätzliche Regeln zur Zuweisung von Enden und zur Beseitigung von Konflikten Chou, Fasman, Biochemistry (1974), 13, 222 Chou-Fasman-Algorithmus • Online Vorhersage: http://fasta.bioch.virginia.edu/fasta_www/ chofas.htm • Vorhersagegenauigkeit sehr gering (Q3 = 50-60%) • Es existieren eine Reihe verbesserter Varianten – Vorhersage von Turns – Bessere Statistiken (Chou-Fasman basiert auf der Analyse von 15 Proteinen!) – Eine Variante ist z.B. SSP (Solovyev, Salamov, 1991) Nichtlokalität Selbe Sequenz bildet unterschiedliche Sekundärstrukturen aus: Val-Asn-Thr-Phe-Val in 1ECN (80-84) und 9RSA (43-47) 1ECN 9RSA Nichtlokalität • Helices: WW zwischen benachbarten Windungen (max. 5 Reste entfernt) • Faltblätter zeigen stärkere Nichtlokalität als Helices: WW zwischen entfernten (> 10 AS) Sequenzbereichen notwendig um benachbarte Faltblätter zu stabilisieren Methoden der 2. Generation • Einbeziehung benachbarter Reste • Verbessert Vorhersage für Helices deutlich • Faltblätter immer noch schwierig • Vielzahl von Methoden basierend auf – Künstlichen neuronalen Netzen – LDFs (Linear Discriminant Function) – Nächster-Nachbar-Klassifizierer – Support-Vektor-Maschinen – Hidden-Markov-Modellen Methoden der dritten Generation • Nur etwa 65% der Information sind lokaler Natur ) Methoden der 1. + 2. Generation können nicht viel besser werden • Beobachtung: etwa 67% der Reste einer Sequenz kann man austauschen ohne die Sekundärstruktur zu ändern • Im Laufe der Evolution wurden viele dieser neutralen Mutationen durchprobiert ) evolutionär verwandte Sequenzen enthalten diese Information! PHD • PHD verwendet – Ein künstliches neuronales Netz (KNN) – Profile von homologen Sequenzen • Dreischichtiges künstliches neuronales Netz – 1. + 2. Schicht: Abbildung der Sequenz (bzw. des Profils) auf die Strukturklassen – 3. Schicht: Mehrheitsentscheid • Das Netzwerk klassifiziert dabei jeweils einen Ausschnitt von je 10 Aminosäuren links und rechts der aktuellen Aminosäure Rost, Sander, JMB (1993), 252, 584) Künstliche Neuronale Netze • Der Signalverarbeitung im ZNS nachempfunden • Meist als Graph dargestellt – Jeder Knoten (Neuron) verarbeitet Signale der vorhergehenden Schicht – Kanten sind Gewichte wi zugeordnet I1 w1 • Eingangssignale werden gewichtet summiert • (Nichtlineare) Aktivierungsfunktion f • Häufig verwendet: f = Logistikfunktion I2 w2 ∑/f I3 w3 Künstliche Neuronale Netze (KNNe) • Neuronale Netze kann man als trainierbare nichtlineare Funktionen auffassen • Es gibt Algorithmen, die die Gewichte eines vorgegebenen Netzes anhand eines Trainingsdatensatzes derart trainieren, dass das Netz für angelegte Testdaten eine gesuchte Eigenschaft vorhersagt • KNNe zählen zu den Methoden des maschinellen Lernens, eines Zweigs der Künstlichen-IntelligenzForschung (KI) • Sie finden vielfältige Anwendung in Ingenieur- und Naturwissenschaften – Mustererkennung – Spracherkennung – Wirkstoffentwurf Künstliche Neuronale Netze • Beliebige Daten lassen sich numerisch kodieren und dem Netz als Eingabe anbieten • Komplexe neuronale Netze können auf diese Daten trainiert werden und dann ähnliche Muster wieder erkennen und korrekt klassifizieren • In unserem Fall möchten wir erreichen, dass ein neuronales Netz die Merkmale der Sequenz erlernt, die deren Sekundärstruktur bestimmten A C G K R I T 0 1 0 . . 0 Helix (H) PHD – Struktur des ANN Query . . K E L N D L E K K Y N A H I G . . Alin. 1. Schicht Seq. .... Sequenz zu Struktur .... ... K-HK EDAE FFFF SAAS QKKQ LLLL EEEE ... KEKK KQEK FFYF DDND AAAA RKKR LLLL GGGG ... .... .... 2. Schicht 3. Schicht Struktur zu Struktur Jury-Entscheidung ... ∑ 2.46 Helix! ∑ 0.37 ∑ 1.26 ... Nach: Rost, Sander, JMB, 1993, 232, 584 PHD • Ergebnisse: – Verwendung von Profilen verbessert Q3 um etwa 6% gegenüber Einzelsequenz, Mehrheitsentscheid um ca. 2% – Verbesserte Version PHD3 steigert Q3 auf etwa 75% • Darüber hinaus gehende Methoden kombinieren die Vorhersagen mehrer Methoden zu so genannten Konsensusmethoden • Konsensusmethode erreichen teilweise Q3 = 80% • PHD und viele andere Methoden sind auch als OnlineServer verfügbar • Man gibt dem Server einfach die Sequenz und erhält als Rückgabe die vorhergesagte Sekundärstruktur Beispiel: Lysozym mit Chou-Fasman Ergebnis CHOFAS predicts protein secondary structure version 2.0u61 September 1998 Please cite: Chou and Fasman (1974) Biochem., 13:222-245 Chou-Fasman plot of @, 129 aa; 1LZY:_ LYSOZYME (E.C.3.2.1.17) - CHAIN _ . . . . . . KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTDGSTDYGILQINS helix <--------> <--------> <> sheet EEEEEEE EEEEEEEE turns T T T T T T . . . . . . RWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAKKIASGGNGMNAWVAWRNRCKGTDV helix <-------------> <----> <> sheet EEEE turns TT T T T T T T T HAWIRGCRL helix sheet turns Residue totals: H: 45 E: 19 T: 15 percent: H: 34.9 E: 14.7 T: 11.6 PDB-Struktur Aus der PDB: 1 KVYGRCELAA AMKRLGLDNY RGYSLGNWVC AAKFESNFNT HATNRNTDGS B HHHHHH HHHHTTTTTB TTBTHHHHHH HHHHHHTTBT T EEE TTS 51 TDYGILQINS RWWCNDGRTP GSKNLCNIPC SALLSSDITA SVNCAKKIAS EEETTTTEET TTT B SSST T TT SBG GGGSSS HH HHHHHHHHHT 101 GGNGMNAWVA WRNRCKGTDV HAWIRGCRL TTTGGGGSHH HHHHTTTTTG GGGGTT KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESN helix <--------> <--------> sheet EEEEEEE turns T T Zusammenfassung • Sekundärstrukturvorhersage ist ein erster Schritt in der Vorhersage der Tertiärstruktur • Einfachste Methoden suchen nach Sequenzabschnitten die vermehrt Helix oder Faltblatt bildende Aminosäuren enthalten • Gute Methoden betrachten große Sequenzabschnitte und beziehen evolutionäre Information mit ein • Man kann Vorhersagegenauigkeiten (Q3) von 75-80% erwarten Literatur + Links • Protein Databank (PDB) http://www.rcsb.org • Dokumentation zum PDB-Format http://www.rcsb.org/pdb/static.do?p=file_formats/pdb/index.html • Software zur Installation auf dem eigenen Rechner – BALLView http://www.ballview.org – RasMol http://www.openrasmol.org – VMD http://www.ks.uiuc.edu/Research/vmd/ Literatur + Links Literatur • Burkhard Rost: Prediction in 1D, In: Structural Bioinformatics (Hrsg.: P. E. Bourne, H. Weissig), Wiley, 2003 • Ralf Zimmer, Thomas Lengauer: Structure Prediction, Chapter 5 in T. Lengauer (Hrsg.): Bioinformatics: From Genomes to Drugs, Wiley, 2002 Sekundärstrukturvorhersage-Server • DSSP http://swift.cmbi.kun.nl/swift/servers/moddssp-submit.html • Chou-Fasman http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1 • PHD http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_phd.html