V5: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk - Hierarchischer Aufbau der Proteinstruktur - Klassifikation von Proteinstrukturen 5. Vorlesung WS 2006/07 Softwarewerkzeuge 1 Funktion von Proteinen Strukturproteine (Hüllenproteine von Viren, Cytoskelett) Enzyme, die chemische Reaktionen katalysieren Transport- und Speicherproteine (Hämoglobin) Regulatoren wie Hormone und Rezeptoren/Signalübertragungsproteine Proteine, die die Transkription kontrollieren oder an Erkennungsvorgängen beteiligt sind: Zelladhäsionsproteine, Antikörper 5. Vorlesung WS 2006/07 Softwarewerkzeuge 2 Warum sind Proteine so groß? Proteine sind große Moleküle. Ihre Funktion ist oft in einem kleinen Teil der Struktur, dem aktiven Zentrum, lokalisiert. Der Rest? - Korrekte Orientierung der Aminosäuren des aktiven Zentrums - Bindungsstellen für Interaktionspartner - Konformationelle Dynamik Evolution der Proteine: Veränderungen der Struktur, die durch Mutationen in ihrer Aminosäuresequenz hervorgerufen werden. 5. Vorlesung WS 2006/07 Softwarewerkzeuge 3 Hierarchischer Aufbau Primärstruktur – Sekundärstruktur – Tertiärstruktur – Quartärnere Struktur – Komplexe Welche „Kräfte“ sind für die Ausbildung der verschiedenen „Strukturen“ wichtig? Lösliche Proteine: wichtigstes Prinzip ist der hydrophobe Effekt. Membranproteine: sind im Transmembranbereich außen hydrophober als innen. 5. Vorlesung WS 2006/07 Softwarewerkzeuge 4 Hydrophober Effekt Beobachtung, dass die Überführung einer unpolaren Substanz/Oberflächenbereichs aus einem organischen bzw. Unpolaren Lösungsmittel nach Wasser (a) energetisch stark ungünstig ist (b) bei Raumtemperatur zu einer Abnahme der Entropie führt (c) zu einer Zunahme der Wärmekapazität führt. Eisberg-Modell Kauzman 1959 5. Vorlesung WS 2006/07 Softwarewerkzeuge 5 Hydrophober Effekt Der Beitrag hydrophober WW zur Freien Enthalpie bei der Proteinfaltung und der Protein-Liganden-Wechselwirkung kann als proportional zur Grösse der während dieser Prozesse vergrabenen hydrophoben Oberfläche angesehen werden. Löslichkeit von Kohlenwasserstoffen in Wasser: -0.10 bis -0.14 kJ mol-1 Å-2 . Typische Oberflächen : Methan CH4 Benzol CH6 Die Vergrabung einer zusätzlichen Methylgruppe (ca. 25 Å2 ) liefert -2.75 bis -6 kJ mol-1 , was eine Erhöhung der Assoziationskonstanten um einen Faktor 3-11 bewirkt. Hydrophobe Aminosäuren: aliphatisch : 5. Vorlesung WS 2006/07 Ile – Val – Leu aromatisch : Phe – Tyr – Trp sonstige : Ala – Pro – Cys Softwarewerkzeuge 6 Anwendungen der Hydrophobizität Lesk-Buch 5. Vorlesung WS 2006/07 Softwarewerkzeuge 7 Einleitung: Peptidbindung In Peptiden und Proteinen sind die Aminosäuren miteinander als lange Ketten verknüpft. Ein Paar ist jeweils über eine „Peptidbindung“ verknüpft. Die Aminosäuresequenz eines Proteins bestimmt seinen „genetischen code“. H + H3N R1 Die Kenntnis der Sequenz eines Proteins allein verrät noch nicht viel über seine Funktion. Entscheidend ist seine drei-dimensionale Struktur. O O + + G>0 H3N H N R1 H R2 H O + H3N O R2 O H3N H O + H H O + - H2O O O N R1 H R2 O peptide bond 5. Vorlesung WS 2006/07 Softwarewerkzeuge 8 Eigenschaften der Peptidbindung E.J. Corey und Linus Pauling studierten die Petidbindung in den 1940‘ern und 1950‘ern. Sie fanden: die C-N Länge ist 1.33 Å. Sie liegt damit zwischen 1.52 Å und 1.25 Å, was die Werte für eine Einfach- bzw. Doppelbindung sind. Linus Pauling Nobelpreise für Chemie 1954 und Frieden 1963 H + H3N R1 Die benachbarte C=O Bindung hat eine Länge Von 1.24 Å, was etwas länger als eine typische Carbonyl- C=O Doppelbindung ist (1.215 Å). + G>0 Softwarewerkzeuge - H3N + H O R2 O H3N H + H R2 H O H3N H O - O N R1 H R2 - O N R1 + 5. Vorlesung WS 2006/07 O + H O die Peptidbindung hat einen teilweise konjugierten Charakter und ist nicht frei drehbar. Es bleiben damit pro Residue 2 frei drehbare Diederwinkel des Proteinrückgrats übrig. O O peptide bond 9 H2O Sekundärstrukturelemente Wie seit den 1950‘er Jahren bekannt, können Aminosäure-Stränge Sekundärstrukturelemente bilden: (aus Stryer, Biochemistry) -Helices und -Stränge. In diesen Konformationen bilden sich jeweils Wasserstoffbrückenbindungen zwischen den C=O und N-H Atomen des Rückgrats. Daher sind diese Einheiten strukturell stabil. 5. Vorlesung WS 2006/07 Softwarewerkzeuge 10 Diederwinkel des Proteinrückgrats Die dreidimensionale Faltung des Proteins wird vor allem durch die Diederwinkel des Proteinrückgrats bestimmt. Pro Residue gibt es 2 frei drehbare Diederwinkel, die als und bezeichnet werden. Lesk-Buch 5. Vorlesung WS 2006/07 Softwarewerkzeuge 11 Stabilität und Faltung von Proteinen Die gefaltete Struktur eines Proteins ist die Konformation, die die günstigste freie Enthalpie G für diese Aminosäuresequenz besitzt. -Faltblatt-Region Der Ramachandran-Plot charakterisiert die energetisch günstigen Bereiche des Aminosäurerückgrats. Die einzige Residue, die außerhalb der erlaubten Bereich liegt, also alle möglichen Torsionswinkel annehmen kann, ist Glycin. r-Helix-Region (rechtsgängige Helix) Grund: es hat keine Seitenkette. 5. Vorlesung WS 2006/07 Softwarewerkzeuge 12 Domänen Kompakter Bereich im Faltungsmuster einer Molekülkette, der den Anschein hat, “er könnte auch unabhängig von den anderen stabil sein”. Lesk-Buch SERCA Calcium-Pumpe cAMP-abhängige Proteinkinase 5. Vorlesung WS 2006/07 Softwarewerkzeuge 13 Modular aufgebaute Proteine Modular aufgebaute Proteine bestehen aus mehreren Domänen. Anwendung von SMART (www.smart.embl-heidelberg.de) für die Src-Kinase HcK ergibt Sequenz: MGGRSSCEDP YVPDPTSTIK KGDQMVVLEE RKDAERQLLA RTLDNGGFYI EKDAWEIPRE AFLAEANVMK SKQPLPKLID GLARVIEDNE VTYGRIPYPG RPTFEYIQSV GCPRDEERAP PGPNSHNSNT SGEWWKARSL PGNMLGSFMI SPRSTFSTLQ SLKLEKKLGA TLQHDKLVKL FSAQIAEGMA YTAREGAKFP MSNPEVIRAL LDDFYTATES 5. Vorlesung WS 2006/07 RMGCMKSKFL PGIREAGSED ATRKEGYIPS RDSETTKGSY ELVDHYKKGN GQFGEVWMAT HAVVTKEPIY FIEQRNYIHR IKWTAPEAIN ERGYRMPRPE QYQQQP QVGGNTFSKT IIVVALYDYE NYVARVDSLE SLSVRDYDPR DGLCQKLSVP YNKHTKVAVK IITEFMAKGS DLRAANILVS FGSFTIKSDV NCPEELYNIM ETSASPHCPV AIHHEDLSFQ TEEWFFKGIS QGDTVKHYKI CMSSKPQKPW TMKPGSMSVE LLDFLKSDEG ASLVCKIADF WSFGILLMEI MRCWKNRPEE Softwarewerkzeuge 14 Beispiel: Src-Kinase HcK http://jkweb.berkeley.edu/ 5. Vorlesung WS 2006/07 Softwarewerkzeuge 15 Klassifikation von Proteinen Die Klassifikation von Proteinstrukturen nimmt in der Bioinformatik eine Schlüsselposition ein, weil sie das Bindeglied zwischen Sequenz und Funktion darstellt. Lesk-Buch 5. Vorlesung WS 2006/07 Softwarewerkzeuge 16 Topologie von Membranproteinen Im Inneren der Lipidschicht kann das Proteinrückgrat keine WasserstoffbrückenBindungen mit den Lipiden ausbilden die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen ausbilden, sie müssen entweder helikale oder -Faltblattkonformation annehmen. 5. Vorlesung WS 2006/07 Softwarewerkzeuge 17 Topologie von Membranproteinen Die hydrophobe Umgebung erzwingt, dass (zumindest die bisher bekannten) Strukturen von Transmembranproteinen entweder reine -Barrels (links) oder reine -helikale Bündel (rechts) sind. http://www.biologie.uni-konstanz.de/folding/Structure%20gallery%201.html 5. Vorlesung WS 2006/07 Softwarewerkzeuge 18 Superposition von Strukturen und Struktur-Alignment Vergleich von zwei Proteinstrukturen: Angabe des RMS-Werts, die Wurzel der mittleren quadratischen Abweichung, oder root-mean-square deviation RMS d 2 i n di : Abstand zwischen den Koordinaten des i-ten Atompaares n : Anzahl an Atompaaren Interessanterweise ist bei zwei verschiedenen Proteinen oft nicht klar, welche Atome überlagert werden sollen! 5. Vorlesung WS 2006/07 Softwarewerkzeuge 19 DALI (Distance-matrix Alignment) L. Holm & C. Sander Während der Evolution eines Proteins verändert sich seine Struktur. Was häufig erhalten bleibt, ist die Verteilung der Kontakte zwischen den Aminosäuren. Konstruiere Kontaktmatrix (distance matrix) für beide Proteine (leicht) finde maximal übereinstimmende Untermatrizen der Kontaktmatrizen (schwierig) http://www.ebi.ac.uk/dali 5. Vorlesung WS 2006/07 Softwarewerkzeuge 20 Wie kann man 2 Proteinstrukturen vergleichen? Paarweise Sequenzvergleiche Paarweise Strukturvergleiche? Erkläre Kontaktmatrix an der Tafel 5. Vorlesung WS 2006/07 Softwarewerkzeuge 21 Partitioning protein space into homologous families The tramtrack protein [2drp] is a small protein (525 heavy atoms, 63 residues, and 6 elements of secondary structure). Yet it exhibits typical modular protein architecture with two compact structural domains, the so-called zinc fingers. (A) The most detailed description of atomic positions is required to understand the function of the tramtrack protein (gray and black, running left to right), which involves binding to a specific base sequence of DNA (white). Holm, Sander Science 273, 5275 (1996) 5. Vorlesung WS 2006/07 Softwarewerkzeuge 22 Partitioning protein space into homologous families (B) When side chains are stripped off, the polypeptide backbone (thick) can be seen meandering from the bottom left to the upper right. Thin lines: hydrogen bonds between amide and carbonyl groups of the polypeptide backbone give rise to secondary structure. (C) shows secondary structure elements schematically as arrows for strands and cylinders for helices (with zinc atoms as spheres). Holm, Sander Science 273, 5275 (1996) 5. Vorlesung WS 2006/07 Softwarewerkzeuge 23 Meaning of structural equivalence Shape comparison aims at the 1:1 enumeration of equivalent polymer units in 2 protein molecules. The problem and solution can be represented - in 3D, as a rigid-body superimposition; - in 2D, as similar patterns in distance matrices; - in 1D, as an alignment of amino acid sequences. Here, the comparison of the tramtrack protein with another zinc finger protein, the human enhancer-binding protein MBP-1 [1bbo], is used as an example. (A) In the 3D comparison, the problem is to find a translation and rotation of one molecule (red: 1bbo) onto the other (blue: 2drpA). The 3D superimposition (residue centers only, green lines join equivalenced residue centers, zinc atoms as spheres) is not exact because of an internal rotation of the two zinc finger domains relative to one another. Holm, Sander Science 273, 5275 (1996) 5. Vorlesung WS 2006/07 Softwarewerkzeuge 24 Partitioning protein space into homologous families (B) The 2D distance matrices reveal the conserved structure of the zinc fingers (left: distance matrices of the whole structures; black dots are intramolecular distances less than 12 Å, 1bbo at bottom and 2drpA on top; right: distance matrices brought into register by keeping only rows or columns corresponding to structurally equivalent residues). (C) One-dimensional alignment of amino acid strings. Evolutionary comparison aligns the histidine (H) residues involved in zinc binding (bold; helices and strands of secondary structure are underlined). Holm, Sander Science 273, 5275 (1996) 5. Vorlesung WS 2006/07 Softwarewerkzeuge 25 Zusammenfassung Die Sekundärstrukturelemente -Helix und -Faltblatt werden durch energetisch günstige Wasserstoffbrücken zwischen Atomen des Peptidrückgrats gebildet. Sie sind sequenzunabhängig. Protein ”folds” ergeben sich durch die Assemblierung von Sekundärstrukturelementen. Der Ramachandran-Plot ist ein wichtiges Werkzeug um die Güte von Proteinstrukturen (bzw. –modellen) zu beurteilen. Proteine sind oft modular aus mehreren Domänen aufgebaut. Der Vergleich mehrerer Proteinstrukturen ist nicht-trivial. Eine weitverbreitete Methode (DALI) vergleicht die Kontaktmatrizen der beiden Proteine. 5. Vorlesung WS 2006/07 Softwarewerkzeuge 26