Motif Search in Graphs Application to Metabolic Networks Sinan Öz Seminar: „Aktuelle Themen der Bioinformatik“ JunProf. Dr. Dirk Metzler Seminarbetreuer: Lin Himmelmann Übersicht / Präsentationsaufbau Thema und Ziele Einführung Formaler Rahmen Komplexitätsanalyse Exakter Algorithmus Applikation Thema und verfolgte Ziele Klassische Sicht auf Metabolismus § Kollektion metabolischer Pfade Neue Vorschläge / Ansätze § Netzwerke in Blöcke aufteilen - Module - Motive Vorgehensweise § § § § Einführung Formaler Rahmen Komplexitätsanalyse Algorithmus / Applikation Einführung – Netzwerk Biologie Netzwerk Biologie § Molecular-Interaction-Networks Ziele der Netzwerk Biologie Der Begriff „Metabolismus“ in diesem Paper Einführung – Organisation biochemischer Netzwerke Graph Formalismen Untersuchung der Topologie des Netzwerkes Module Motive § Biologischer Beitrag § Algorithmischer Beitrag Formaler Rahmen – Wo kommen die Daten her? KEGG Pathway-Database (KEGG: Kyoto Encyclopedia of Genes and Genomes) § Daten zu Metabolismen von 209 sequenzierten Organismen § SQL (postgreSQL) relationale Datenbank Formaler Rahmen – Wahl des Modells Wahl des Formalen Modells § Qualitativ / Quantitativ ? § Statisch / Dynamisch ? Differenzialgleichungen Klein / Dynamisch Unser Ziel § Geringst mögliches a-priori Graphmodelle Groß / Statisch Also: Graph Modell Aber: keine topologische Sicht Eigenes Graph Modell entwerfen Formaler Rahmen – Graphen Graph Bipartiter Graph Formaler Rahmen – bipartite Graphen Intuitivste Graphrepräsentation für metabolische Netzwerke § Zwei Arten von Knoten - Reaktionen - Chemische Verbindungen Verbindungsgraph Reaktionsgraph Wir benutzen den „Reaktionsgraph“ Formaler Rahmen – Motivdefinition Wir definieren ein „Motiv“ auf Grundlage der Eigenschaften seiner Komponenten Definition: A motif is a multiset of elements from the set C of colours Formaler Rahmen – exaktes Vorkommen von Motiven Vorkommen / Auftreten / engl. Occurrence Intuitiv: Verbundene Knoten, welche die Farben des Motivs tragen Präzise: (Info: G stammt aus der KEGG Datenbank) Definition: An exact occurrence of a motif M is a set R of vertices of G such that H(R,M) has a perfect matching and R induces a connected subgraph of G Formaler Rahmen – Flexibilität 1 (Farbähnlichkeit) Exaktes Auftreten § Gefahr groß, kein oder nur ein Vorkommen zu finden § Untersuchung der Evolution war eines unserer Hauptziele ... Deswegen: Einführung der Farbfunktion S, die jedem Paar (ci,cj)aus CxC einen „Ähnlichkeitswert“ zuordnet und einer Barriere s, die nicht unterschritten werden darf § Details später § Möglichkeit von unterschiedlichen Barrieren für verschiedene Elemente Formaler Rahmen – Flexibilität 2 (Gaps) Gaps § Lokale Gaps § Globale Gaps lb = 0 gb= 0 lb = 1 gb= 2 lb = 1 gb= 3 Motiv: Formaler Rahmen – approx. Vorkommen von Motiven Approximatives Vorkommen von Motiven § Flexibilität 1(Farbähnlichkeit) § Flexibilität 2 (globale und lokale Gaps) Approximate occurrence of a motif Formaler Rahmen – Farben und Ähnlichkeit 1/2 Wie soll die Menge C und die Funktion S gewählt werden ? Beobachtung: Es existiert keine systematische Klassifikation von Reaktionen § Es gibt Enzym-Klassifikationen aber: - Viele Enzyme können ein und die selbe Reaktion katalysieren - Ein Enzym kann mehrere Reaktionen katalysieren also Multilabeling in unserem Reaktionsgraphen notwendig Formaler Rahmen – Farben und Ähnlichkeit 2/2 Hierarchische Klassifikation von Enzymen § § Entwickelt von der <International Union of Biochemistry and Molecular Biology> Code bestehend aus 4 Nummern (Enzym Nummer) 1. 2. 3. 4. 5. 6. - § Die erste Nummer nimmt Werte aus [1..6] an Oxidoreductase Transferase Hydrolase Lyase Isomerase Ligase Die weiteren Nummer bedeuten zusätzliches Detaillevel Funktion S in diesem Zusammenhang: S(1.1.1.2 , 1.1.1.3) = 3 Ähnlichkeit verbunden mit Funktionalität ! Komplexitätsanalyse (Such-Problem in NP) Suchproblem: § Gegeben ist ein Motif M und ein bezeichneter, ungerichteter Graph G § Finde Alle Vorkommen von M in G § .. Alle Knoten in G seinen verbunden § .. Alle Knoten haben Farben, die in dem Motiv vorkommen § .. Keine Gabs sind erlaubt Natürliche Variante des Suchproblems: Entscheide ob das Motiv im Graph auftaucht oder nicht? Das Problem ist in NP Es ist zwar in polynomialer Zeit lösbar, aber nur mit einer nicht-det. Turing Maschine : das Problem ist nicht effizient lösbar Komplexitätsanalyse (NP-Vollständigkeit) Wir wollen nun zeigen, dass das Problem NP-Vollständig ist (selbst dann wenn G ein Baum ist), wir müssen also zeigen, dass unser Problem NP-hart ist. NP-Hart: Alle Probleme in der NP-Klasse können in polynomialer Zeit (mit einer det. Turing Maschine) auf dieses Suchproblem reduziert werden. X3C Allgemeine Komplexitätsergebnisse Motiv Eingabe Graph Baum Beliebig polynomial NP-vollst. allgemein polynomial NP-vollst. Feste Farben und keine Wiederholung polynomial polynomial NP-vollst. NP-vollst. Topologische Motive Farbige, topologische Motive Allg. farbige Motive (Paper) In der Praxis sind metabolische Netzwerke Graphen und keine Bäume, sie sind jedoch relativ klein (3184 Knoten und 17642 Kanten -> Netzwerk aus KEGG) Exakter Algorithmus (Version ohne Gaps) § M sei das gesuchte Motiv (k Knoten) § Alle k-elementigen Teilgraphen R von G werden nach unseren MotivKriterien durchsucht (perfect matching, ....) § Der Suchraum ist sehr groß (zu groß) - R sollte zwei Konditionen erfüllen müssen § Konnektivitätskondition - Breitensuche § Farbkondition (perfect matching oder nicht) - Ggf. Backtracking Exakter Algorithmus (Version mit Gaps) Lokale aber keine globale Gaps (lb > 0 , gb = unendlich) § Lb-transitiver-Abschluß auf G (ich kann mit dem no-gab-Algorithmus arbeiten) a y c b a y c b Praktische Rechenzeit Suche nach einem Motiv der Größe 4 (ohne Gaps) mit einer Barriere von 3 § 8 ms auf Pentium4, 1.7 GHz, 512mB RAM Applikation – Angesteuertes praktisches Ziel Globale Eigenschaften von Netzwerken analysieren Hypothesen über eventuelle evolutionäre Zusammenhänge generieren § Fallstudie hierzu wird präsentiert - Keine direkte Antwort auf „wie entwickeln sich metabolische Netzwerke“ - Sondern: Verwendungszwecke der vorgestellten Datenstruktur / Algorithmus Applikation – evolutionäre Zusammenhänge Metabolischer Pfad: valine biosynthesis § Letzte fünf Schritte dieses Pfades Applikation – Globale Eigenschaften 1/2 Ergebnisse basieren auf: § Suche nach Motiven der Größe k (k = 3 oder 4) § Fixe Barriere (s = 2 oder 3) Ähnliche Ergebnisse auch für k=4, s=2 und für k=3, s=3 Applikation – Globale Eigenschaften 2/2 Eine anderes interessantes Ergebnis: § Interpathway occurences § Ergeben biologisch keinen Sinn § Jedoch: wir würden viele Informationen verlieren / „verschenken“, wenn wir sie nicht betrachten Ende Vielen Dank für das Interesse !!! J