PTGL Ligandenintegration Protein Topology Graph Library Tim Schäfer MolBI Goethe Universität Frankfurt am Main Übersicht Proteine Struktur und Funktion Modellierung Protein Topology Graph Library (PTGL) Motivation und Ziele Proteinmodell und Methoden Aufbau und Funktionsweise Integration von Protein-Liganden-Interaktionen Ligandendarstellung Änderungen an der PTGL Proteinaufbau und Beschreibungsebenen Proteine Komplexe Makromoleküle 20 AS als Bausteine Strukturebenen Primärstruktur Sekundärstruktur, SSE α-Helix, β-Sheet Tertiärstruktur Quartärstruktur Proteinaufbau und Beschreibungsebenen (FS) Strukturmotive und Folds Konservierung oft höher als auf AS-Niveau Proteinfunktion ist abhängig von 3D-Struktur Strukturaufklärung => Datenbanken Analyse erfordert Methoden zum Proteinvergleich auf unterschiedlichen Strukturebenen TIM-barrel in Triosephosphat-Isomerase (7TIM) Vergleich von Proteinstrukturen Primärstruktur: Stringvergleiche DP: Needleman-Wunsch, Smith-Waterman Entfernte Ähnlichkeiten und untersch. Seq. Anordnung Unterschiedliche evolutionäre Konservierung auf Strukturebenen Tertiärstrukuturvergleich auf Ebene von Atomen/AS aufwändig Abstraktion: Strukturmuster können auf SSE-Ebene beschrieben werden => Nutzung der Sekundärstrukturebene Gleicher Fold => gleicher Kern von SSEs Datenmenge (80.000 Atome => 800 Reste => 70 SSEs) PTGL - Protein Topology Graph Library Funktionen Webinterface zur Suche nach Proteintopologien Graphische Darstellung von Proteintopologien (2D) Proteinmodellierung Ungericheteter, beschrifteter Graph für jede Chain eines Proteins Ähnlichkeitsmodell: gleiche Substrukturen (max. gem. Teilgraphen) Datenquellen und Vorverarbeitung Atomkoordinaten : RCSB Protein Data Bank (PDB) SSE-Zuordnung : DSSP-Algorithmus, mod. PTGL – Technischer Aufbau Frontend: Webinterface (Browser) Backend: PostgreSQL Datenbank, Apache Webserver Implementierung: Perl, C PTGL – Modellierung von Proteinen als Graphen Knoten: SSEs des Proteins mit Typ Kanten: räumliche Beziehung zwischen SSEs Kontaktberechnung zwischen SSEs nötig: Überlappung der vdWRadien (2Å), Typen: Rückgrat/Rückgrat (RG) Rückgrat/Seitenkette (SK) Seitenkette/Seitenkette Kante erfordert mindestens 2RG.RG | 2RG.SK | 3 SK.SK PTGL – Räumliche Ausrichtung von SSEs S := Menge der Summen aller Paare von AS-Nummern, die Kontakt bilden D := Menge der Differenzen aller dieser Paare Doppelte Differenz DD := (Smax - Smin) - (Dmax – Dmin) DD > 0: parallel, DD < 0: antiparallel, DD = 0: mixed PTGL – Räumliche Ausrichtung von SSEs (FS) S = { 100, 100, 100 } D = { 80, 60, 40 } DD = -40 => antiparallel S = { 80, 100, 120 } D = { 60, 60, 60 } DD = 40 => parallel PTGL – Graphtypen Berücksichtigung aller oder nur bestimmer SSE-Typen Alpha-, Beta- oder Alpha-Beta-Graph (=Proteingraph) Diese Graphen sind nicht zwangsläufig zusammenhängend! Zusammenhangskomponenten (ZHK) entsprechen oft Domänen Eine ZHK des Graphen wird als Faltungsgraph (FG) bezeichnet Proteingraph: ein oder mehrere FGs Finden aller ZHKs mit Breitensuche Darstellung: Reihenfolge der SSEs Sequentiell: Differenz in AS-Nummer (Primärsequenz) Räumlich: Länge des kürzesten Weges zwischen den Knoten im Proteingraphen PTGL – Notationen von Faltungsgraphen (FG) KEY: Schlüsselnotation Geordnet nach räumlicher Nähe (Start am N-Terminus) Differenzen der SSE-Nummern bei sequentieller Nummerierung (N=>C), 'x' bei parallelen SSEs; z.B. [5x, 1x, -2x, -1x, -1x, -1] ADJ: adjazente Notation Geordnet nach sequentiellem Auftreten der SSEs in Sequenz Differenzen der SSE-Nummern bei räumlicher Nummerierung, 'p': parallel, 'a': antiparallel, 'm': mixed RED: reduzierte Notation Wie ADJ, enthält aber nur SSEs des eigenen Faltungsgraphen SEQ: Sequenznotation Wie ADJ, aber sequentielle Nummerierung FS: PTGL – Notation von Faltungsgraphen (FG) PTGL - Substruktursuche Unverzweigte Faltungsgraphen (Grad aller Knoten <= 2) Die dargestellten eindeutigen linearen Notationen ermöglichen eine Suche nach Substrukturen über Stringvergleich Verzweigte Faltungsgraphen Besitzen SSEs, die Kontakte mit > 2 räumlichen Nachbarn haben Anpassungen der Notation für ADJ, RED, SEQ KEY-Notation ist hier nicht möglich, da es keine eindeutige räumliche Folge der SSEs gibt Finden von Teilstrukturen nicht mehr durch Stringsuche möglich, daher müssen graphtheoretische Methoden genutzt werden => Finden von maximalen gemeinsamen Teilgraphen PTGL – Finden maximaler Teilgraphen (MTG) MTG ist NP-hart Transformation des MTG-Problem in Alle-Cliquen-Problem Cliquen im Kompatibilitätsgraphen entsprechen MTGs in den Faltungsgraphen Erstellen des Kantenkompatibilitätsgraphen der beiden Faltungsgraphen Erstellen des Kompatibilitätsgraphen (1/2) Kanten sind kompatibel wenn Ihre Kantenmarkierungen übereinstimmen und Die Markierungen ihrer Endknoten überstimmen Erstellen des Kompatibilitätsgraphen (2/2) Kante setzen wenn u adjazent zu u' und v adjazent zu v' u nicht adjazent zu u' und v nicht adjazent zu v' oder PTGL – Finden maximaler Teilgraphen (MTG) MTG ist NP-hart Transformation des MTG-Problem in Alle-Cliquen-Problem Erstellen des Kantenkompatibilitätsgraphen der beiden Faltungsgraphen Cliquen im Kompatibilitätsgraphen entsprechen MTGs in den Faltungsgraphen Lösung mit bekannten Algorithmen (Bron-Kerbosch): Laufzeit für große Proteingraphen zu hoch Anpassung des Bron-Kerbosch-Algorithmus an Problem Suche statt aller MTG nur zusammenhängende MTG, denn von Interesse sind zusammenhängende Strukturen im Inneren des Proteins Protein-Liganden-Interaktionen (PLI) Viele Proteine benötigen Liganden oder Co-Faktoren (ATP, NAD+, …) für ihre Funktion besondere Bedeutung bei vielen Anwendungen bei der Suche nach Inhibitoren / Medikamentendesign > 4000 unterschiedliche Liganden sind in der PDB Hohe Konservierung der PLI in Evolution Ligandenintegration - Aufgaben Berechnen der Liganden-SSE-Interaktionen Anpassen des Graphmodells Abstraktionsniveau Anpassen der Dateiformate und Datenbank Ligandenknoten und Kanten Klassifizierung der Liganden nach Typen Aus 3D-Koordinaten in PDB-Dateien Dateien wie albe.dat, neue Tabellen für Liganden und Interaktionen Anpassen der Weboberfläche Eingabe-/Suchformulare, Ausgabe (Postscript) Zusammenfassung Proteine können auf unterschiedlichen Ebenen verglichen werden, das Finden entfernter Ähnlichkeiten erfordert eine Abstraktion von der Ebene der AS-Sequenz Die PTGL benutzt 3D-Daten der PDB um unterschiedliche Proteingraphen zu erstellen, bei denen Knoten SSEs darstellen und Kanten die räumliche Beziehung zwischen diesen modellieren Das Ähnlichkeitsmodell basiert auf dem Finden maximaler gemeinsamer Teilgraphen mit Varianten des BronKerbosch-Algorithmus Die Integration von Ligandeninformationen soll die Suchfähigkeiten der PTGL verbessern und erfordert Eingriffe auf unterschiedlichen Ebenen der PTGL PTGL - Ligandenintegration Vielen Dank für Ihre Aufmerksamkeit! Anhang - Quellen W. Kabsch& C. Sander J.Mol.Biol. 114:181 (1977) F.Kaden, I.Koch, J. Selbig J.Theor.Biol. 147:85 (1992) I.Koch, F.Kaden, J.Selbig PSFG 12:314 (1992) C.Bron & J. KerboschCommun.ACM 16:575 (1973)