Proteinstrukturvorhersage Strukturelle Bioinformatik WS15/16 Dr. Stefan Simm, 02.12.2015 [email protected] Proteinstrukturvorhersage EINLEITUNG Strukturparameter • Lokale inter Rest Interaktionen (H-Brücken) • Alpha Helix & Beta Faltblatt (regulär) • Random coil (irregulär) im Falle des Fehlens einer regulären Struktur • M; A; L; E; K für Helices • G; P für (Turns) • T; F; Y; I; V; W für Faltblätter alpha-helix and beta-sheet alpha-helix •Alpha-Helices: •Distanz: 0.54 nm •Drehung:3.6 AA •Versetzung:0.15 nm •Beta-Faltblätter: beta-faltblatt •Parallel oder antiparallel •Versetzung zum Nachbarn: 0.35 nm Topologie • Topologie deer Proteine – Homology modeling – Vorhersage von secondary structures • Vorhersage von Modifikationsstellen – Methylation – Phosphorylation – Ubiquitination • Sortierung von Proteinen – Vorhersage von Signal Sequenzen Proteinstrukturvorhersage SEKUNDÄRSTRUKTURVORHERSAGE Sequenzanalyse • Vorhersage von TPR-like helical repeats – http://toolkit.tuebingen.mpg.de/tprpred • Sekundärstrukturvorhersage – http://bioinf.cs.ucl.ac.uk/psipred/ – http://www.compbio.dundee.ac.uk/www-jpred/ • Disorder Vorhersage – http://bioinf.cs.ucl.ac.uk/disopred/ • Domänenvorhersage – http://pfam.sanger.ac.uk/search Programme zur Strukturvorhersage – PsiPred • http://www.psipred.net/psiform.html – Jnet (Jpred 3) • http://www.compbio.dundee.ac.uk/www-jpred/ – Sspro (Sspro 4.0) • http://download.igb.uci.edu/sspro4.html – GeneSilico (Registrierung erforderlich) • https://genesilico.pl/meta2/ PsiPred • Höhe des Balkens korreliert mit Wahrscheinlichkeit • gelber Pfeil Beta Faltblatt • pinker Zylinder Alpha Helix • schwarze Linie unstrukturiert (Coil) Jpred/Jnet Symbol meaning Pale blue hydrophobic Pale conserved polar green Small • gelber Pfeil Beta Faltblatt small residues letters • pinker Zylinder Alpha Helix Red fully conserved Blue text Proline • B verdeckte AA in flüssiger Umgebung Red text Histidine Boxed Aliphatic (L, I or V) • Höhe der Nummer korreliert mit Wahrscheinlichkeit Yellow Cystine SSpro Short cut Secondary structure • Genauigkeit von ~76% H Alpha-helix G 3-10-helix I Pi-helix E Extended strand B Beta-bridge T Turn S Bend C Rest • Vorhersage beruht auf Zusammenschluss von 100 1D-RNN (recurrent neural networks) • pi-helix teilweise üblich in Membranproteinen und besitzt 4.4 reste pro Drehung • 3-10-helix besitzt 3 Reste pro Drehung und ist häufig in globulären Proteinen sowie am Ende von Helices Proteinstrukturvorhersage GENESILICO GeneSilico • Proteinstrukturvorhersage Meta-Server • Input (query sequence) • Verwendet werden: – – – – Fold recognition methods Comparative Modeling Novel Fold Secondary Structure Prediction • Konsensus Modell verringert die Wahrscheinlichkeit von Falsch-Positiven hmmpfam − Geeignet für multiple Sequenzalignments oder Einzelsequenzen − Suche nach annotierten Domänen in der Pfam Datenbank (Protein Familien sind dargestellt durch multiple Alignments/HMM‘s) − Der Score ist ähnlich dem E-Wert hhsearch_cdd −Tool zum Vergleich von Profilen gegeneinander −Query Sequenzprofil gegen Multiple Alignment Profile −Erstellung des Sequenzprofils erfolgt mittels hhsearch auf der CDD (Conserved Domains Database) Protein Domänen − scooby & globplot identifizieren globulare Regionen durch Hydrophobizität −domac, dompro, domssea nutzen evolutionäre Informationen, vorhergesagte Sekundärstrukturen & flüssige Zugänglichkeit Transmembrane Helices − memsat identifiziert transmembrane Helices durch eine Mutationsfrequenz-Matrix einer Proteinklasse −scampi etc. nutzen Positions-spezifische Aminosäure Einflüsse auf die freie Energie von Membran Proteinen Protein Ordnung − Gute Vorhersageergebnisse disopred −spritz sagt ungeordnete Regionen voraus und verwendet hierzu Support Vektor Maschinen (SVM) trainiert durch experimental nachgewiesene lange ungeordnete Fragmente (>=30 AA) Coiled Coils − coils vergleicht die Sequenz mit bekannten parallelen doppelsträngigen coiled-coils − marcoil benutzt ein HMM für die Vorhersage von coiled-coils (Hohe Genauigkeit für kurze coiled-coils) Sekundärstruktur − Die Vorhersageprogramme verwenden teils Eigenschaften der letzten Slides für die Vorhersage − ‘E’ beta-sheet; ‘H’ alpha-helix − Der Konsensus übernimmt die Struktur pro Spalte bei einem Überlapp von 6 der 10 Programme Proteinstrukturvorhersage TERTIÄRSTRUKTURVORHERSAGE Tertiärstrukturvorhersage • HHpred – fold recognition – http://toolkit.tuebingen.mpg.de/hhpred • Phyre 2 – homology recognition – http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index Structure databases • PDB (crystal & NMR structures) – http://www.pdb.org HHpred • Identifizierung von homologen Sequenzen •Bekannte Strukturen als Templat nutzen Phyre 2 Phyre 2 Output I • Registrierung auf Phyre 2 ermöglicht: – Submission von bis zu 50 Sequenzen auf einmal Phyre Output II PDB Übersicht • 3D Strukturen von: – Proteinen, Nukleinsäure, Komplex Assemblierung PDB Detail Ansicht Proteinstrukturvorhersage TRANSMEMBRANE REGIONEN VORHERSAGEN α-helicale Transmembranregionen • TMHMM – http://www.cbs.dtu.dk/services/TMHMM/ • TOPCONS – http://topcons.cbr.su.se/ • TMPRED – http://www.ch.embnet.org/software/TMPRED_fo rm.html TMHMM TOPCONS TMPRED β-barrel Transmembranregionen • BOMP – http://services.cbu.uib.no/tools/bomp • PRED-TMBB – http://biophysics.biol.uoa.gr/PREDTMBB/input.jsp • TBBpred – http://www.imtech.res.in/raghava/tbbpred/ BOMP PRED-TMBB TBBpred Proteinstrukturvorhersage DOCKING Definition von Docking Gegeben: Zwei biologische Moleküle Interaktionspartner aus einer Datenbank mit bekannter Struktur Ziel: Entscheidung ob die Moleküle interagieren Orientierung der Interaktion um die Energie des Komplexes zu minimieren Warum ist Docking interessant? Starke Relevanz in der zellulären Biologie da die Funktion beeinflusst wird durch: die Interaktion mit sich selbst Die Interaktion mit anderen molekularen Komponenten Docking als Schlüssel für Drug Design: Inhibitoren finden für Zielproteine Entwicklen von neuen Stoffen Worin besteht die Schwierigkeit? Beide Moleküle besitzen eine gewisse Flexibilität Interaktion miteinander kann die Struktur verändern: Hunderte / Tausende von Freiheitsgraden Summe aller möglichen Konfirmationen ist gigantisch Typen von Docking Studien Protein-Protein Docking Beide Moleküle werden als starr behandelt Nur 6 Freiheitsgrade vorhanden Sterische Einschränkungen limitieren den Suchraum und mögliche Bindekonformationen Protein-Ligand Docking Ligand flexibel; Rezeptor starr Suchraum und Freiheitsgrade um einiges größer Reduzierung der Flexibilität durch starre Fragmente Konformationsraum absuchen durch Molekulardynamische Studien oder Monte-Carlo Methoden Oberflächen Darstellung Jede atomische Sphere wird aus dem van der Waals Radius des Atoms gebildet Würde man eine Tastkugel über die van der Waals Oberfläche rollen, ergibt sich das Connolly surface Protein-protein docking • Docking Problem: – Vorhersage der Docking Konfiguration auf Grundlage der Struktur – Gebundenes versus ungebundenes Docking – Konformationsänderungen Bound vs. unbound Detailansicht Receptor Ligand Grobe Detailansicht Trypsin/APPI Proteins: Basics CASP CAPRI Sequence ADEFFGKLSTKK……. O O N ... N N O O Monomers N ... O O N Building Blocks: backbone & side chains Structure Rigid body degrees of freedom 3 translation 3 rotation Complex + Protein-Ligand Docking DOCK DOCK funktioniert in 5 Schritten: Schritt 1: Starte mit Kristallstruktur Koordinaten des Ziel Rezeptors Schritt 2: Generiere die molekulare Oberfläche des Rezeptors Schritt 3: Generiere Sphären in der aktiven Bindestelle für putative Liganden Atome Schritt 4: Sphären Zentren dienen als Ausgangspunkt für Liganden Orientierung des Liganden testen Schritt 5: Bestes Scoring für Ligand und Orientierung DOCK: Beispiel - HIV-1 protease ist der Rezeptor - Aspartyl Gruppen bilden die aktive Seite DOCK DOCK funktioniert in 5 Schritten: Schritt 1: Starte mit Kristallstruktur Koordinaten des Ziel Rezeptors Schritt 2: Generiere die molekulare Oberfläche des Rezeptors Schritt 3: Generiere Sphären in der aktiven Bindestelle für putative Liganden Atome Schritt 4: Sphären Zentren dienen als Ausgangspunkt für Liganden Orientierung des Liganden testen Schritt 5: Bestes Scoring für Ligand und Orientierung DOCK: Beispiel - HIV-1 protease ist der Rezeptor - Aspartyl Gruppen bilden die aktive Seite DOCK DOCK funktioniert in 5 Schritten: Schritt 1: Starte mit Kristallstruktur Koordinaten des Ziel Rezeptors Schritt 2: Generiere die molekulare Oberfläche des Rezeptors Schritt 3: Generiere Sphären in der aktiven Bindestelle für putative Liganden Atome Schritt 4: Sphären Zentren dienen als Ausgangspunkt für Liganden Orientierung des Liganden testen Schritt 5: Bestes Scoring für Ligand und Orientierung DOCK: Beispiel - HIV-1 protease ist der Rezeptor - Aspartyl Gruppen bilden die aktive Seite DOCK DOCK funktioniert in 5 Schritten: Schritt 1: Starte mit Kristallstruktur Koordinaten des Ziel Rezeptors Schritt 2: Generiere die molekulare Oberfläche des Rezeptors Schritt 3: Generiere Sphären in der aktiven Bindestelle für putative Liganden Atome Schritt 4: Sphären Zentren dienen als Ausgangspunkt für Liganden Orientierung des Liganden testen Schritt 5: Bestes Scoring für Ligand und Orientierung DOCK: Beispiel - HIV-1 protease ist der Rezeptor - Aspartyl Gruppen bilden die aktive Seite DOCK DOCK funktioniert in 5 Schritten: Schritt 1: Starte mit Kristallstruktur Koordinaten des Ziel Rezeptors Schritt 2: Generiere die molekulare Oberfläche des Rezeptors Schritt 3: Generiere Sphären in der aktiven Bindestelle für putative Liganden Atome Schritt 4: Sphären Zentren dienen als Ausgangspunkt für Liganden Orientierung des Liganden testen Schritt 5: Bestes Scoring für Ligand und Orientierung DOCK: Beispiel 3 Scoring Schemata: Shape scoring, Electrostatic scoring & Force-field scoring Top Scoring Orientierung von Ligand “thioketal” SwissDock Submission Form SwissDock Output