1 Einleitung - Goethe

Johann Wolfgang Goethe-Universität
Frankfurt am Main
Seminar: „Aktuelle Themen der Bioinformatik“
Sommersemester 2004
Leitung: Dr. Dirk Metzler
Screening von 3D-Proteindaten mittels
graphentheoretischer Ansätze
Florian Schwarte
(Matr.-Nr. 2346351)
[email protected]
Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte
Inhalt
1
EINLEITUNG ............................................................................................................................................. 3
2
DATENGEWINNUNG ............................................................................................................................... 4
3
METHODEN UND ALGORITHMEN...................................................................................................... 5
3.1
BERECHNUNG VON MSP-ÄHNLICHKEIT MIT EINER SCORE-FUNKTION ................................................. 5
3.2
ERSTELLEN EINES SCHWELLWERTGRAPHEN ......................................................................................... 5
3.3
SUCHOPTIMIERUNG ÜBER BALANCIERTE BINÄRE BÄUME ..................................................................... 6
3.4
SUCHOPTIMIERUNG ÜBER DOMINATING SETS ......................................................................................... 7
3.5
ERGEBNISSE .......................................................................................................................................... 8
4
DISKUSSION .............................................................................................................................................. 8
5
QUELLEN ................................................................................................................................................... 9
-2-
Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte
1 Einleitung
Strukturbasierte Suche in Proteindatenbanken, dem so genannten „in silico
screening“ (ISS), spielt eine große Rolle in der Bioinformatik, insbesondere in der
Wirkstoffentwicklung. Es besteht der generelle Bedarf, entsprechende Algorithmen
zu optimieren, um Suchzeiten zu verkürzen.
Viele diesbezügliche Ansätze handeln von der Beschränkung des Suchraums. Im
Folgenden wird jedoch ein auf Ähnlichkeitssuche basierendes Verfahren von
Frömmel
et
al.
vorgestellt,
welches
die
Anzahl
von
Vergleichen
mittels
graphentheoretischer Ansatzes reduziert.
Das
Verfahren
arbeitet
auf
Daten
aus
der
DIP-Datenbank,
welche
3D-
Strukturinformationen über molekulare Oberflächenbereiche in Sekundärstrukturelementen von Proteinen (molecular surface elements, Abk. MSP) enthält (siehe
Kapitel 2).
In Kapitel 3.1 wird vorgestellt, wie Ähnlichkeit zwischen zwei MSPs mittels einer
Scorefunktion bewertet wird. Dann wird unter 3.2 beschrieben, wie für einen
gegebenen Schwellwert t ein Graph mit MSPs als Knoten gebildet wird, bei dem nur
solche Kanten zwischen zwei MSPs existieren, deren Score größer t ist.
Anschließend werden zwei Algorithmen vorgestellt, die auf den entsprechend
vorbereiteten Daten arbeiten. Der erste nutzt binäre Suchbäume und benötigt im
günstigsten Fall nur log 2 n Vergleiche (Kapitel 3.3). Im zweiten Ansatz geht es
darum, die Vergleiche hauptsächlich auf Knoten in einer eingeschränkten
Knotenmenge des Schwellwertgraphen, dem dominating set zu beschränken, deren
Knoten für eine Knotenüberdeckung im Graphen sorgen (Kapitel 3.4). Dann werden
die Ergebnisse beider Algorithmen unter 3.5 gegenübergestellt. Abschließend erfolgt
in Kapitel 4 eine Diskussion über die Arbeit von Frömmel et al.
-3-
Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte
2 Datengewinnung
Die Eingabedaten für die nachfolgend beschriebenen Algorithmen werden aus der
DIP-Datenbank (Dictionary of Interfaces in Proteins) von Preißner et al [5]
entnommen.
Preißner et al. definieren ein Protein-Interface als ein Paar von passenden molecular
surface patches (MSPs) zwischen benachbarten Sekundärstrukturelementen auf
einem Protein. Dabei wird strukturelle Ähnlichkeit ebenso in Betracht gezogen wie
die räumliche Nähe aller beteiligten Atom-Paare. Alle Interfaces von bekannten
Proteinstrukturen sind in der DIP gespeichert. Die entsprechenden zwei MSPs eines
Interfaces haben sehr ähnliche, wenn nicht sogar einen identischen strukturellen
Aufbau von Atomen und können deshalb miteinander in Wechselwirkung treten.
Als Motivation zur Untersuchung dieser Interfaces geben Preißner et al. vor, dass
Wechselwirkungen zwischen Proteinen und Liganden sehr ähnlich seien zu denen
innerhalb eines Interfaces von zwei MSPs. Somit soll die DIP Trainingsdaten
enthalten, die für weitere Untersuchungen in selektiven Bindungsprozessen
zwischen Ligand und Protein dienlich sein sollen.
Zur Entwicklung von Suchalgorithmen benutzen Frömmel et al. fünf Datensätze aus
DIP mit insgesamt 1000 MSPs, wobei sich die Datensätze in der Anzahl der Atome
der darin enthaltenen MSPs unterschieden. Die entsprechenden Größen sind 25-29,
40-49, 50-59, 60-69 und mehr als 100 Atome für die MSPs im entsprechenden
Datensatz.
-4-
Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte
3 Methoden und Algorithmen
3.1
Berechnung von MSP-Ähnlichkeit mit einer Score-Funktion
Die Ähnlichkeit eines Paares von MSPs, einer so genannten Superposition, wird mit
folgender 1D-Scoringfunktion berechnet:
S  nr exp( rmsd / Å) ,
wobei nr der relative Anteil an Atomen des kleineren Patches ist, der komplementär
mit Atomen des größeren Patches ist, und rmsd die root-mean-square-distance.
rmsd ist ein häufig gebrauchtes Maß für Strukturähnlichkeit. Der Wertebereich von S
liegt zwischen 0% und 100%.
Mit Hilfe eines Algorithmus’ werden zwei gegebene MSPs im dreidimensionalen
Raum so überlagert, dass ein bestmöglicher Score ermittelt wird. Für die weiter oben
beschriebenen Datensätze von MSPs ist jeweils ein Ähnlichkeitsgraph bzw. eine
Adjazenz-Matrix erstellt worden, welche die Ergebnisse von Vergleichen zwischen
allen gegebenen MSPs enthält.
3.2
Erstellen eines Schwellwertgraphen
Für einen gegebenen Schwellwert t bilden Frömmel et al. einen ungerichteten
Graphen, den so genannten Schwellwertgraphen. In diesem sind alle untersuchten
MSPs als Knoten repräsentiert. Zwischen zwei Knoten existiert eine Kante, wenn der
Score der beiden entsprechenden MSPs größer t ist. Das heißt, dass für minimales t
jeder Knoten mit jedem anderen durch eine Kante verbunden ist und bei maximalem
t entsprechend keine Knoten miteinander verbunden sind.
Für die weitere Betrachtung ist vor allem die größte Zusammenhangskomponente
des Graphen von Belang, also dem maximalen, zusammenhängenden Teilgraphen
von G.
-5-
Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte
3.3
Suchoptimierung über balancierte binäre Bäume
In diesem Ansatz wird ein binärer Suchbaum erstellt, indem zunächst ein MSP als
Wurzel genommen wird. Dann werden die restlichen MSPs gemäß InorderReihenfolge in diesen Baum einsortiert.
Dazu wird zunächst ein Score s berechnet, der diese MSPs in zwei Mengen
partitioniert. Alle MSPs kleiner diesem Score gehören zu Menge A und befinden sich
zum Schluss der Prozedur links von der Wurzel, alle anderen MSPs stellen Menge B
dar und befinden sich letzten Endes im rechten Teilbaum der Wurzel. Der Score s
wird so bestimmt, dass A und B möglichst gleichgroß sind, so dass der Baum
möglichst balanciert ist. Das zweite Kriterium für s ist, dass möglichst wenige
Verbindungen im Ähnlichkeitsgraphen zwischen zwei Knoten aus A und B existieren.
Dieses Verfahren wird rekursiv fortgesetzt, so dass A und B immer weiter zweigeteilt
werden, bis beide Partitionen die Größe 1 besitzen, also Blätter des Baumes
darstellen, oder bis kein Score s existiert, der eine halbwegs gleichmäßige Aufteilung
bewirkt. Der Score s wird jeweils in dem Elterknoten der im Baum eingegliederten
Mengen gespeichert.
Zusammenfassend geht der rekursive Algorithmus so vor, dass immer kleiner
werdende Mengen gemäß obiger Regeln in zwei Hälften partitioniert werden. Sobald
wir bei Mengen der Größe 1 angelangt sind, werden diese beim Rücklauf der
Rekursion sukzessive zu einem in Richtung Wurzel rückwärts wachsenden Baumes
verknüpft.
Die eigentliche Ähnlichkeitssuche für einen gegebenen MSP p geht dann so
vonstatten, dass die Scorefunktion auf p und anfangs dem Wurzelknoten r
angewendet wird. Ist der ermittelte Score kleiner dem, der in r gespeichert ist, wird
die Prozedur rekursiv im linken Teilbaum von r fortgesetzt. Andernfalls wird der
rechte Teilbaum weiterverfolgt. Sobald der ermittelte Score zwischen p und einem
Knoten q aus dem Baum den gegebenen Schwellwert übersteigt, wird q
ausgegeben. Die Anzahl der Vergleiche ist ausschließlich von der Tiefe des Baumes
abhängig, weshalb der Baum möglichst balanciert sein soll. Im besten Fall sind also
nur log 2 n Vergleiche für n MSPs nötig.
-6-
Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte
3.4
Suchoptimierung über dominating sets
Eine Knotenüberdeckung (dominating set oder vertex cover) eines ungerichteten
Graphen G  (V , E ) ist eine Knotenmenge V ´ V mit der Eigenschaft, dass für alle
Knoten u V  V´ ein v  V ´ existiert, für das gilt (u, v)  E [1]. Ein Knoten v  V ´
nennt man auch Repräsentanten von G .
Diese Knotenüberdeckung kann einfach mittels eines Greedy-Algorithmus’ berechnet
werden. Zunächst werden die Knoten des Schwellwertgraphs für gegebenes t nach
fallendem durchschnittlichem Gewicht im Ähnlichkeitsgraphen zu allen Nachbarn
sortiert. In dieser Reihenfolge werden anschließend Knoten v zum dominating set V´
hinzugefügt, bis alle Knoten aus V überdeckt sind.
Die Suche für einen gegebenen MSP geschieht folgendermaßen: Nach obiger
Reihenfolge wird der vorgegebene MSP mit einem Repräsentanten verglichen. Falls
der errechnete Score s größer dem Schwellwert t ist, wird der abgefragte MSP mit
allen
Nachbarn
des
Repräsentanten
verglichen,
ansonsten
werden
diese
übersprungen. Die Idee hinter diesem Algorithmus ist, dass nicht mehr mit allen
Knoten im Graphen verglichen werden muss.
Bei diesem Ansatz wird davon ausgegangen, dass der vorgegebene Patch zu
wenigstens einem Repräsentanten ähnlich ist, was jedoch nicht zwangsläufig der Fall
ist. Das bedeutet, dass dieser Algorithmus durchaus MSPs verpasst, die ähnlich
sind, wodurch sich eine falsch negative Klassifikation (false negatives) ergibt. Dies
kann dadurch geschehen, indem ein Nicht-Repräsentant ähnlich ist, jedoch keins
seiner benachbarten Repräsentanten.
-7-
Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte
3.5
Ergebnisse
Das Verfahren mit Entscheidungsbäumen ist laut Frömmel et al. nur für das Finden
sehr ähnlicher Patches geeignet, dann seien jedoch gerade mal 1/25 der Vergleiche
nötig, welche bei linearer Suche gebraucht würden.
Dagegen sei das Verfahren mit dominating sets generell besser. Eine 10-fache
Beschleunigung im Vergleich zur Brute-Force-Suche
ist erzielt worden für
Datenbanken mit mehr als 2000 MSPs, allerdings mit etwa 15% falsch negativen
Ergebnissen. Durch Herabsetzten des Schwellwerts t jedoch könne der relative
Anteil falsch Negativer herabgesetzt werden, jedoch bei gleichzeitiger Reduktion des
Beschleunigungsfaktors. So ist z.B. bei einem Beschleunigungsfaktor von nur 4 eine
Reduktion der Falsch Negativen auf etwa 5% gemessen worden.
Diese Effizienzverschiebung ist dadurch zu begründen, dass bei niedrigerem t sich
zum einen die Anzahl an Kanten im Graphen und somit auch die Anzahl an
Repräsentanten erhöht, mit denen ja das Eingabe-MSP p auf alle Fälle verglichen
wird. Zum anderen wird p mit den Nachbarn eines Repräsentanten q verglichen,
sobald der Score zwischen p und q größer t ist, weshalb auch hier bei kleinerem t
mehr Vergleiche zu erwarten sind. Eine erhöhte Anzahl von Vergleichen wirkt sich
negativ auf die Geschwindigkeit des Algorithmus’, jedoch positiv auf die
Klassifikationsakkuratheit aus, womit obige Ergebnisse zu erklären sind.
4 Diskussion
Wir
haben
zwei
Verfahren
kennen
gelernt,
die
zur
Optimierung
von
Ähnlichkeitssuche dienen. Beide Verfahren arbeiten auf längst bekannten Ansätzen
in der Graphentheorie, vor allem die binäre Suche hat sicherlich schon viele
Anwendungsfälle gefunden.
Kritisch ist hier, wie Ähnlichkeit definiert wird. Im gegebenen Ansatz wird
Strukturähnlichkeit durch quasi gegeneinander Anlegen zweier Atomgruppen im
-8-
Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte
Raum gemessen. Sind beide Atomgruppen bzw. MSPs zueinander deckungsgleich,
schlägt sich das in einem Score von 100% nieder. Dabei wird ausschließlich der
Abstand zwischen Atomen der beiden MSPs gemessen, keine chemischen
Eigenschaften, nicht einmal Atomtypen. Man muss sich grundsätzlich die Frage
stellen, ob die verwendeten Deskriptoren ausreichend sind, um das untersuchte
Objekt zu beschreiben. Hier wird ausschließlich die Position von Atomen im Raum
beschrieben, um Strukturähnlichkeit zu untersuchen.
Ansonsten ist der Bedarf nach verbesserten Suchmethoden natürlich glänzend
motiviert, wenn zuvor nur lineare Suche zur Verfügung stand. Die PerformanceSteigerung bei Frömmel et al. ist vor allem auf eine vorherige Datenaufbereitung des
Suchraumes zurückzuführen, welche allerdings nur einmal durchgeführt wird. Der
Suchraum
wurde
Schwelwertgraphen
vor
mit
der
Suche
in
einen
Knotenüberdeckung
Binär-Baum
transformiert.
bzw.
Nach
einem
diesem
Preprocessing konnten die optimierten Suchmethoden angewendet werden.
5 Quellen
[1]
Crescenzi P., Kann V., A Compendium of NP optimization problems,
http://www.nada.kth.se/~viggo/wwwcompendium/wwwcompendium.html,
Februar 2004 (lv 09.04.2004)
[2]
Frömmel C. et al., Accelerating Screening of 3D Protein Data with a Graph
Theoretical Approach, Bioinformatics Vol. 19 no. 18 2003, S. 2442-2447
[3]
Hagerup, T. Theoretische Informatik 2, Skript zur Vorlesung WS 2002 /
2003, Wolfgang Goethe-Universität Frankfurt/Main
[4]
Preißner R., Drug Redesign Homepage, http://www.drug-redesign.de, 2004
(lv 09.04.2004)
[5]
Preißner R., Goede A. und Frömmel C., Dictionary of interfaces in proteins
(DIP). Data Bank of Complementary Molecular Surface Patches, J. Mol.
Biol., 280, S. 535-550, 1998
-9-