PTGL - Airrocket.net

Werbung
PTGL Ligandenintegration
Protein Topology Graph Library
Tim Schäfer
MolBI
Goethe Universität
Frankfurt am Main
Übersicht



Proteine

Struktur und Funktion

Modellierung
Protein Topology Graph Library (PTGL)

Motivation und Ziele

Proteinmodell und Methoden

Aufbau und Funktionsweise
Integration von Protein-Liganden-Interaktionen

Ligandendarstellung

Änderungen an der PTGL
Proteinaufbau und Beschreibungsebenen


Proteine

Komplexe Makromoleküle

20 AS als Bausteine
Strukturebenen

Primärstruktur

Sekundärstruktur, SSE



α-Helix, β-Sheet
Tertiärstruktur
Quartärstruktur
Proteinaufbau und Beschreibungsebenen (FS)

Strukturmotive und Folds


Konservierung oft höher als
auf AS-Niveau
Proteinfunktion ist
abhängig von 3D-Struktur

Strukturaufklärung =>
Datenbanken

Analyse erfordert Methoden
zum Proteinvergleich auf
unterschiedlichen
Strukturebenen
TIM-barrel in Triosephosphat-Isomerase (7TIM)
Vergleich von Proteinstrukturen

Primärstruktur: Stringvergleiche



DP: Needleman-Wunsch, Smith-Waterman
Entfernte Ähnlichkeiten und untersch. Seq. Anordnung

Unterschiedliche evolutionäre Konservierung auf Strukturebenen

Tertiärstrukuturvergleich auf Ebene von Atomen/AS aufwändig

Abstraktion: Strukturmuster können auf SSE-Ebene beschrieben
werden
=> Nutzung der Sekundärstrukturebene

Gleicher Fold => gleicher Kern von SSEs

Datenmenge (80.000 Atome => 800 Reste => 70 SSEs)
PTGL - Protein Topology Graph Library



Funktionen

Webinterface zur Suche nach Proteintopologien

Graphische Darstellung von Proteintopologien (2D)
Proteinmodellierung

Ungericheteter, beschrifteter Graph für jede Chain eines Proteins

Ähnlichkeitsmodell: gleiche Substrukturen (max. gem. Teilgraphen)
Datenquellen und Vorverarbeitung

Atomkoordinaten :
RCSB Protein Data Bank (PDB)

SSE-Zuordnung
:
DSSP-Algorithmus, mod.
PTGL – Technischer Aufbau

Frontend: Webinterface (Browser)

Backend: PostgreSQL Datenbank, Apache Webserver

Implementierung: Perl, C
PTGL – Modellierung von Proteinen als Graphen


Knoten: SSEs des Proteins
mit Typ
Kanten: räumliche
Beziehung zwischen SSEs


Kontaktberechnung
zwischen SSEs nötig:
Überlappung der vdWRadien (2Å), Typen:

Rückgrat/Rückgrat (RG)

Rückgrat/Seitenkette (SK)

Seitenkette/Seitenkette
Kante erfordert mindestens
2RG.RG | 2RG.SK | 3
SK.SK
PTGL – Räumliche Ausrichtung von SSEs

S := Menge der Summen aller Paare von AS-Nummern, die
Kontakt bilden

D := Menge der Differenzen aller dieser Paare

Doppelte Differenz DD := (Smax - Smin) - (Dmax – Dmin)

DD > 0: parallel, DD < 0: antiparallel, DD = 0: mixed
PTGL – Räumliche Ausrichtung von SSEs (FS)
S = { 100, 100, 100 }
D = { 80, 60, 40 }
DD = -40
=> antiparallel
S = { 80, 100, 120 }
D = { 60, 60, 60 }
DD = 40
=> parallel
PTGL – Graphtypen

Berücksichtigung aller oder nur bestimmer SSE-Typen

Alpha-, Beta- oder Alpha-Beta-Graph (=Proteingraph)

Diese Graphen sind nicht zwangsläufig zusammenhängend!

Zusammenhangskomponenten (ZHK) entsprechen oft Domänen

Eine ZHK des Graphen wird als Faltungsgraph (FG) bezeichnet



Proteingraph: ein oder mehrere FGs
Finden aller ZHKs mit Breitensuche
Darstellung: Reihenfolge der SSEs

Sequentiell: Differenz in AS-Nummer (Primärsequenz)

Räumlich: Länge des kürzesten Weges zwischen den Knoten im
Proteingraphen
PTGL – Notationen von Faltungsgraphen (FG)



KEY: Schlüsselnotation

Geordnet nach räumlicher Nähe (Start am N-Terminus)

Differenzen der SSE-Nummern bei sequentieller Nummerierung
(N=>C), 'x' bei parallelen SSEs; z.B. [5x, 1x, -2x, -1x, -1x, -1]
ADJ: adjazente Notation

Geordnet nach sequentiellem Auftreten der SSEs in Sequenz

Differenzen der SSE-Nummern bei räumlicher Nummerierung, 'p':
parallel, 'a': antiparallel, 'm': mixed
RED: reduzierte Notation


Wie ADJ, enthält aber nur SSEs des eigenen Faltungsgraphen
SEQ: Sequenznotation

Wie ADJ, aber sequentielle Nummerierung
FS: PTGL – Notation von Faltungsgraphen (FG)
PTGL - Substruktursuche

Unverzweigte Faltungsgraphen (Grad aller Knoten <= 2)


Die dargestellten eindeutigen linearen Notationen ermöglichen eine
Suche nach Substrukturen über Stringvergleich
Verzweigte Faltungsgraphen

Besitzen SSEs, die Kontakte mit > 2 räumlichen Nachbarn haben

Anpassungen der Notation für ADJ, RED, SEQ

KEY-Notation ist hier nicht möglich, da es keine eindeutige
räumliche Folge der SSEs gibt

Finden von Teilstrukturen nicht mehr durch Stringsuche möglich,
daher müssen graphtheoretische Methoden genutzt werden
=> Finden von maximalen gemeinsamen Teilgraphen
PTGL – Finden maximaler Teilgraphen (MTG)

MTG ist NP-hart

Transformation des MTG-Problem in Alle-Cliquen-Problem

Cliquen im Kompatibilitätsgraphen entsprechen MTGs in den
Faltungsgraphen

Erstellen des Kantenkompatibilitätsgraphen der beiden
Faltungsgraphen
Erstellen des Kompatibilitätsgraphen (1/2)

Kanten sind kompatibel wenn

Ihre Kantenmarkierungen übereinstimmen und

Die Markierungen ihrer Endknoten überstimmen
Erstellen des Kompatibilitätsgraphen (2/2)

Kante setzen wenn

u adjazent zu u'
und
v adjazent zu v'

u nicht adjazent zu u'
und
v nicht adjazent zu v'
oder
PTGL – Finden maximaler Teilgraphen (MTG)

MTG ist NP-hart

Transformation des MTG-Problem in Alle-Cliquen-Problem


Erstellen des Kantenkompatibilitätsgraphen der beiden
Faltungsgraphen

Cliquen im Kompatibilitätsgraphen entsprechen MTGs in den
Faltungsgraphen

Lösung mit bekannten Algorithmen (Bron-Kerbosch): Laufzeit für
große Proteingraphen zu hoch
Anpassung des Bron-Kerbosch-Algorithmus an Problem

Suche statt aller MTG nur zusammenhängende MTG, denn von
Interesse sind zusammenhängende Strukturen im Inneren des
Proteins
Protein-Liganden-Interaktionen (PLI)


Viele Proteine benötigen Liganden oder Co-Faktoren (ATP,
NAD+, …) für ihre Funktion
besondere Bedeutung bei vielen Anwendungen bei der
Suche nach Inhibitoren / Medikamentendesign

> 4000 unterschiedliche Liganden sind in der PDB

Hohe Konservierung der PLI in Evolution
Ligandenintegration - Aufgaben

Berechnen der Liganden-SSE-Interaktionen


Anpassen des Graphmodells


Abstraktionsniveau
Anpassen der Dateiformate und Datenbank


Ligandenknoten und Kanten
Klassifizierung der Liganden nach Typen


Aus 3D-Koordinaten in PDB-Dateien
Dateien wie albe.dat, neue Tabellen für Liganden und Interaktionen
Anpassen der Weboberfläche

Eingabe-/Suchformulare, Ausgabe (Postscript)
Zusammenfassung




Proteine können auf unterschiedlichen Ebenen verglichen
werden, das Finden entfernter Ähnlichkeiten erfordert eine
Abstraktion von der Ebene der AS-Sequenz
Die PTGL benutzt 3D-Daten der PDB um unterschiedliche
Proteingraphen zu erstellen, bei denen Knoten SSEs
darstellen und Kanten die räumliche Beziehung zwischen
diesen modellieren
Das Ähnlichkeitsmodell basiert auf dem Finden maximaler
gemeinsamer Teilgraphen mit Varianten des BronKerbosch-Algorithmus
Die Integration von Ligandeninformationen soll die
Suchfähigkeiten der PTGL verbessern und erfordert
Eingriffe auf unterschiedlichen Ebenen der PTGL
PTGL - Ligandenintegration
Vielen Dank für Ihre Aufmerksamkeit!
Anhang - Quellen
W. Kabsch& C. Sander J.Mol.Biol. 114:181 (1977)
F.Kaden, I.Koch, J. Selbig J.Theor.Biol. 147:85 (1992)
I.Koch, F.Kaden, J.Selbig PSFG 12:314 (1992)
C.Bron & J. KerboschCommun.ACM 16:575 (1973)
Herunterladen