Johann Wolfgang Goethe-Universität Frankfurt am Main Seminar: „Aktuelle Themen der Bioinformatik“ Sommersemester 2004 Leitung: Dr. Dirk Metzler Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze Florian Schwarte (Matr.-Nr. 2346351) [email protected] Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte Inhalt 1 EINLEITUNG ............................................................................................................................................. 3 2 DATENGEWINNUNG ............................................................................................................................... 4 3 METHODEN UND ALGORITHMEN...................................................................................................... 5 3.1 BERECHNUNG VON MSP-ÄHNLICHKEIT MIT EINER SCORE-FUNKTION ................................................. 5 3.2 ERSTELLEN EINES SCHWELLWERTGRAPHEN ......................................................................................... 5 3.3 SUCHOPTIMIERUNG ÜBER BALANCIERTE BINÄRE BÄUME ..................................................................... 6 3.4 SUCHOPTIMIERUNG ÜBER DOMINATING SETS ......................................................................................... 7 3.5 ERGEBNISSE .......................................................................................................................................... 8 4 DISKUSSION .............................................................................................................................................. 8 5 QUELLEN ................................................................................................................................................... 9 -2- Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte 1 Einleitung Strukturbasierte Suche in Proteindatenbanken, dem so genannten „in silico screening“ (ISS), spielt eine große Rolle in der Bioinformatik, insbesondere in der Wirkstoffentwicklung. Es besteht der generelle Bedarf, entsprechende Algorithmen zu optimieren, um Suchzeiten zu verkürzen. Viele diesbezügliche Ansätze handeln von der Beschränkung des Suchraums. Im Folgenden wird jedoch ein auf Ähnlichkeitssuche basierendes Verfahren von Frömmel et al. vorgestellt, welches die Anzahl von Vergleichen mittels graphentheoretischer Ansatzes reduziert. Das Verfahren arbeitet auf Daten aus der DIP-Datenbank, welche 3D- Strukturinformationen über molekulare Oberflächenbereiche in Sekundärstrukturelementen von Proteinen (molecular surface elements, Abk. MSP) enthält (siehe Kapitel 2). In Kapitel 3.1 wird vorgestellt, wie Ähnlichkeit zwischen zwei MSPs mittels einer Scorefunktion bewertet wird. Dann wird unter 3.2 beschrieben, wie für einen gegebenen Schwellwert t ein Graph mit MSPs als Knoten gebildet wird, bei dem nur solche Kanten zwischen zwei MSPs existieren, deren Score größer t ist. Anschließend werden zwei Algorithmen vorgestellt, die auf den entsprechend vorbereiteten Daten arbeiten. Der erste nutzt binäre Suchbäume und benötigt im günstigsten Fall nur log 2 n Vergleiche (Kapitel 3.3). Im zweiten Ansatz geht es darum, die Vergleiche hauptsächlich auf Knoten in einer eingeschränkten Knotenmenge des Schwellwertgraphen, dem dominating set zu beschränken, deren Knoten für eine Knotenüberdeckung im Graphen sorgen (Kapitel 3.4). Dann werden die Ergebnisse beider Algorithmen unter 3.5 gegenübergestellt. Abschließend erfolgt in Kapitel 4 eine Diskussion über die Arbeit von Frömmel et al. -3- Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte 2 Datengewinnung Die Eingabedaten für die nachfolgend beschriebenen Algorithmen werden aus der DIP-Datenbank (Dictionary of Interfaces in Proteins) von Preißner et al [5] entnommen. Preißner et al. definieren ein Protein-Interface als ein Paar von passenden molecular surface patches (MSPs) zwischen benachbarten Sekundärstrukturelementen auf einem Protein. Dabei wird strukturelle Ähnlichkeit ebenso in Betracht gezogen wie die räumliche Nähe aller beteiligten Atom-Paare. Alle Interfaces von bekannten Proteinstrukturen sind in der DIP gespeichert. Die entsprechenden zwei MSPs eines Interfaces haben sehr ähnliche, wenn nicht sogar einen identischen strukturellen Aufbau von Atomen und können deshalb miteinander in Wechselwirkung treten. Als Motivation zur Untersuchung dieser Interfaces geben Preißner et al. vor, dass Wechselwirkungen zwischen Proteinen und Liganden sehr ähnlich seien zu denen innerhalb eines Interfaces von zwei MSPs. Somit soll die DIP Trainingsdaten enthalten, die für weitere Untersuchungen in selektiven Bindungsprozessen zwischen Ligand und Protein dienlich sein sollen. Zur Entwicklung von Suchalgorithmen benutzen Frömmel et al. fünf Datensätze aus DIP mit insgesamt 1000 MSPs, wobei sich die Datensätze in der Anzahl der Atome der darin enthaltenen MSPs unterschieden. Die entsprechenden Größen sind 25-29, 40-49, 50-59, 60-69 und mehr als 100 Atome für die MSPs im entsprechenden Datensatz. -4- Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte 3 Methoden und Algorithmen 3.1 Berechnung von MSP-Ähnlichkeit mit einer Score-Funktion Die Ähnlichkeit eines Paares von MSPs, einer so genannten Superposition, wird mit folgender 1D-Scoringfunktion berechnet: S nr exp( rmsd / Å) , wobei nr der relative Anteil an Atomen des kleineren Patches ist, der komplementär mit Atomen des größeren Patches ist, und rmsd die root-mean-square-distance. rmsd ist ein häufig gebrauchtes Maß für Strukturähnlichkeit. Der Wertebereich von S liegt zwischen 0% und 100%. Mit Hilfe eines Algorithmus’ werden zwei gegebene MSPs im dreidimensionalen Raum so überlagert, dass ein bestmöglicher Score ermittelt wird. Für die weiter oben beschriebenen Datensätze von MSPs ist jeweils ein Ähnlichkeitsgraph bzw. eine Adjazenz-Matrix erstellt worden, welche die Ergebnisse von Vergleichen zwischen allen gegebenen MSPs enthält. 3.2 Erstellen eines Schwellwertgraphen Für einen gegebenen Schwellwert t bilden Frömmel et al. einen ungerichteten Graphen, den so genannten Schwellwertgraphen. In diesem sind alle untersuchten MSPs als Knoten repräsentiert. Zwischen zwei Knoten existiert eine Kante, wenn der Score der beiden entsprechenden MSPs größer t ist. Das heißt, dass für minimales t jeder Knoten mit jedem anderen durch eine Kante verbunden ist und bei maximalem t entsprechend keine Knoten miteinander verbunden sind. Für die weitere Betrachtung ist vor allem die größte Zusammenhangskomponente des Graphen von Belang, also dem maximalen, zusammenhängenden Teilgraphen von G. -5- Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte 3.3 Suchoptimierung über balancierte binäre Bäume In diesem Ansatz wird ein binärer Suchbaum erstellt, indem zunächst ein MSP als Wurzel genommen wird. Dann werden die restlichen MSPs gemäß InorderReihenfolge in diesen Baum einsortiert. Dazu wird zunächst ein Score s berechnet, der diese MSPs in zwei Mengen partitioniert. Alle MSPs kleiner diesem Score gehören zu Menge A und befinden sich zum Schluss der Prozedur links von der Wurzel, alle anderen MSPs stellen Menge B dar und befinden sich letzten Endes im rechten Teilbaum der Wurzel. Der Score s wird so bestimmt, dass A und B möglichst gleichgroß sind, so dass der Baum möglichst balanciert ist. Das zweite Kriterium für s ist, dass möglichst wenige Verbindungen im Ähnlichkeitsgraphen zwischen zwei Knoten aus A und B existieren. Dieses Verfahren wird rekursiv fortgesetzt, so dass A und B immer weiter zweigeteilt werden, bis beide Partitionen die Größe 1 besitzen, also Blätter des Baumes darstellen, oder bis kein Score s existiert, der eine halbwegs gleichmäßige Aufteilung bewirkt. Der Score s wird jeweils in dem Elterknoten der im Baum eingegliederten Mengen gespeichert. Zusammenfassend geht der rekursive Algorithmus so vor, dass immer kleiner werdende Mengen gemäß obiger Regeln in zwei Hälften partitioniert werden. Sobald wir bei Mengen der Größe 1 angelangt sind, werden diese beim Rücklauf der Rekursion sukzessive zu einem in Richtung Wurzel rückwärts wachsenden Baumes verknüpft. Die eigentliche Ähnlichkeitssuche für einen gegebenen MSP p geht dann so vonstatten, dass die Scorefunktion auf p und anfangs dem Wurzelknoten r angewendet wird. Ist der ermittelte Score kleiner dem, der in r gespeichert ist, wird die Prozedur rekursiv im linken Teilbaum von r fortgesetzt. Andernfalls wird der rechte Teilbaum weiterverfolgt. Sobald der ermittelte Score zwischen p und einem Knoten q aus dem Baum den gegebenen Schwellwert übersteigt, wird q ausgegeben. Die Anzahl der Vergleiche ist ausschließlich von der Tiefe des Baumes abhängig, weshalb der Baum möglichst balanciert sein soll. Im besten Fall sind also nur log 2 n Vergleiche für n MSPs nötig. -6- Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte 3.4 Suchoptimierung über dominating sets Eine Knotenüberdeckung (dominating set oder vertex cover) eines ungerichteten Graphen G (V , E ) ist eine Knotenmenge V ´ V mit der Eigenschaft, dass für alle Knoten u V V´ ein v V ´ existiert, für das gilt (u, v) E [1]. Ein Knoten v V ´ nennt man auch Repräsentanten von G . Diese Knotenüberdeckung kann einfach mittels eines Greedy-Algorithmus’ berechnet werden. Zunächst werden die Knoten des Schwellwertgraphs für gegebenes t nach fallendem durchschnittlichem Gewicht im Ähnlichkeitsgraphen zu allen Nachbarn sortiert. In dieser Reihenfolge werden anschließend Knoten v zum dominating set V´ hinzugefügt, bis alle Knoten aus V überdeckt sind. Die Suche für einen gegebenen MSP geschieht folgendermaßen: Nach obiger Reihenfolge wird der vorgegebene MSP mit einem Repräsentanten verglichen. Falls der errechnete Score s größer dem Schwellwert t ist, wird der abgefragte MSP mit allen Nachbarn des Repräsentanten verglichen, ansonsten werden diese übersprungen. Die Idee hinter diesem Algorithmus ist, dass nicht mehr mit allen Knoten im Graphen verglichen werden muss. Bei diesem Ansatz wird davon ausgegangen, dass der vorgegebene Patch zu wenigstens einem Repräsentanten ähnlich ist, was jedoch nicht zwangsläufig der Fall ist. Das bedeutet, dass dieser Algorithmus durchaus MSPs verpasst, die ähnlich sind, wodurch sich eine falsch negative Klassifikation (false negatives) ergibt. Dies kann dadurch geschehen, indem ein Nicht-Repräsentant ähnlich ist, jedoch keins seiner benachbarten Repräsentanten. -7- Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte 3.5 Ergebnisse Das Verfahren mit Entscheidungsbäumen ist laut Frömmel et al. nur für das Finden sehr ähnlicher Patches geeignet, dann seien jedoch gerade mal 1/25 der Vergleiche nötig, welche bei linearer Suche gebraucht würden. Dagegen sei das Verfahren mit dominating sets generell besser. Eine 10-fache Beschleunigung im Vergleich zur Brute-Force-Suche ist erzielt worden für Datenbanken mit mehr als 2000 MSPs, allerdings mit etwa 15% falsch negativen Ergebnissen. Durch Herabsetzten des Schwellwerts t jedoch könne der relative Anteil falsch Negativer herabgesetzt werden, jedoch bei gleichzeitiger Reduktion des Beschleunigungsfaktors. So ist z.B. bei einem Beschleunigungsfaktor von nur 4 eine Reduktion der Falsch Negativen auf etwa 5% gemessen worden. Diese Effizienzverschiebung ist dadurch zu begründen, dass bei niedrigerem t sich zum einen die Anzahl an Kanten im Graphen und somit auch die Anzahl an Repräsentanten erhöht, mit denen ja das Eingabe-MSP p auf alle Fälle verglichen wird. Zum anderen wird p mit den Nachbarn eines Repräsentanten q verglichen, sobald der Score zwischen p und q größer t ist, weshalb auch hier bei kleinerem t mehr Vergleiche zu erwarten sind. Eine erhöhte Anzahl von Vergleichen wirkt sich negativ auf die Geschwindigkeit des Algorithmus’, jedoch positiv auf die Klassifikationsakkuratheit aus, womit obige Ergebnisse zu erklären sind. 4 Diskussion Wir haben zwei Verfahren kennen gelernt, die zur Optimierung von Ähnlichkeitssuche dienen. Beide Verfahren arbeiten auf längst bekannten Ansätzen in der Graphentheorie, vor allem die binäre Suche hat sicherlich schon viele Anwendungsfälle gefunden. Kritisch ist hier, wie Ähnlichkeit definiert wird. Im gegebenen Ansatz wird Strukturähnlichkeit durch quasi gegeneinander Anlegen zweier Atomgruppen im -8- Screening von 3D-Proteindaten mittels graphentheoretischer Ansätze – Florian Schwarte Raum gemessen. Sind beide Atomgruppen bzw. MSPs zueinander deckungsgleich, schlägt sich das in einem Score von 100% nieder. Dabei wird ausschließlich der Abstand zwischen Atomen der beiden MSPs gemessen, keine chemischen Eigenschaften, nicht einmal Atomtypen. Man muss sich grundsätzlich die Frage stellen, ob die verwendeten Deskriptoren ausreichend sind, um das untersuchte Objekt zu beschreiben. Hier wird ausschließlich die Position von Atomen im Raum beschrieben, um Strukturähnlichkeit zu untersuchen. Ansonsten ist der Bedarf nach verbesserten Suchmethoden natürlich glänzend motiviert, wenn zuvor nur lineare Suche zur Verfügung stand. Die PerformanceSteigerung bei Frömmel et al. ist vor allem auf eine vorherige Datenaufbereitung des Suchraumes zurückzuführen, welche allerdings nur einmal durchgeführt wird. Der Suchraum wurde Schwelwertgraphen vor mit der Suche in einen Knotenüberdeckung Binär-Baum transformiert. bzw. Nach einem diesem Preprocessing konnten die optimierten Suchmethoden angewendet werden. 5 Quellen [1] Crescenzi P., Kann V., A Compendium of NP optimization problems, http://www.nada.kth.se/~viggo/wwwcompendium/wwwcompendium.html, Februar 2004 (lv 09.04.2004) [2] Frömmel C. et al., Accelerating Screening of 3D Protein Data with a Graph Theoretical Approach, Bioinformatics Vol. 19 no. 18 2003, S. 2442-2447 [3] Hagerup, T. Theoretische Informatik 2, Skript zur Vorlesung WS 2002 / 2003, Wolfgang Goethe-Universität Frankfurt/Main [4] Preißner R., Drug Redesign Homepage, http://www.drug-redesign.de, 2004 (lv 09.04.2004) [5] Preißner R., Goede A. und Frömmel C., Dictionary of interfaces in proteins (DIP). Data Bank of Complementary Molecular Surface Patches, J. Mol. Biol., 280, S. 535-550, 1998 -9-