Motif Search in Graphs

Werbung
Motif Search in Graphs
Application to Metabolic Networks
Sinan Öz
Seminar: „Aktuelle Themen der Bioinformatik“
JunProf. Dr. Dirk Metzler
Seminarbetreuer: Lin Himmelmann
Übersicht / Präsentationsaufbau
Thema und Ziele
Einführung
Formaler Rahmen
Komplexitätsanalyse
Exakter Algorithmus
Applikation
Thema und verfolgte Ziele
Klassische Sicht auf Metabolismus
§ Kollektion metabolischer Pfade
Neue Vorschläge / Ansätze
§ Netzwerke in Blöcke aufteilen
- Module
- Motive
Vorgehensweise
§
§
§
§
Einführung
Formaler Rahmen
Komplexitätsanalyse
Algorithmus / Applikation
Einführung – Netzwerk Biologie
Netzwerk Biologie
§ Molecular-Interaction-Networks
Ziele der Netzwerk Biologie
Der Begriff „Metabolismus“ in diesem Paper
Einführung – Organisation biochemischer Netzwerke
Graph Formalismen
Untersuchung der Topologie des
Netzwerkes
Module
Motive
§ Biologischer Beitrag
§ Algorithmischer Beitrag
Formaler Rahmen – Wo kommen die Daten her?
KEGG Pathway-Database
(KEGG: Kyoto Encyclopedia of Genes and Genomes)
§ Daten zu Metabolismen von 209 sequenzierten Organismen
§ SQL (postgreSQL) relationale Datenbank
Formaler Rahmen – Wahl des Modells
Wahl des Formalen Modells
§ Qualitativ / Quantitativ ?
§ Statisch / Dynamisch ?
Differenzialgleichungen
Klein / Dynamisch
Unser Ziel
§ Geringst mögliches a-priori
Graphmodelle
Groß / Statisch
Also: Graph Modell
Aber: keine topologische Sicht
Eigenes Graph Modell entwerfen
Formaler Rahmen – Graphen
Graph
Bipartiter Graph
Formaler Rahmen – bipartite Graphen
Intuitivste Graphrepräsentation für metabolische Netzwerke
§ Zwei Arten von Knoten
- Reaktionen
- Chemische Verbindungen
Verbindungsgraph
Reaktionsgraph
Wir benutzen den „Reaktionsgraph“
Formaler Rahmen – Motivdefinition
Wir definieren ein „Motiv“ auf Grundlage der Eigenschaften
seiner Komponenten
Definition:
A motif is a multiset of elements from the set C of colours
Formaler Rahmen – exaktes Vorkommen von Motiven
Vorkommen / Auftreten / engl. Occurrence
Intuitiv: Verbundene Knoten, welche die Farben des Motivs
tragen
Präzise: (Info: G stammt aus der KEGG Datenbank)
Definition:
An exact occurrence of a motif M is a set R of vertices of
G such that H(R,M) has a perfect matching
and
R induces a connected subgraph of G
Formaler Rahmen – Flexibilität 1 (Farbähnlichkeit)
Exaktes Auftreten
§ Gefahr groß, kein oder nur ein Vorkommen zu finden
§ Untersuchung der Evolution war eines unserer Hauptziele
... Deswegen:
Einführung der Farbfunktion S, die jedem Paar (ci,cj)aus CxC
einen „Ähnlichkeitswert“ zuordnet und einer Barriere s, die nicht
unterschritten werden darf
§ Details später
§ Möglichkeit von unterschiedlichen Barrieren für verschiedene Elemente
Formaler Rahmen – Flexibilität 2 (Gaps)
Gaps
§ Lokale Gaps
§ Globale Gaps
lb = 0
gb= 0
lb = 1
gb= 2
lb = 1
gb= 3
Motiv:
Formaler Rahmen – approx. Vorkommen von Motiven
Approximatives Vorkommen von Motiven
§ Flexibilität 1(Farbähnlichkeit)
§ Flexibilität 2 (globale und lokale Gaps)
Approximate occurrence of a motif
Formaler Rahmen – Farben und Ähnlichkeit 1/2
Wie soll die Menge C und die Funktion S gewählt werden ?
Beobachtung: Es existiert keine systematische Klassifikation von
Reaktionen
§ Es gibt Enzym-Klassifikationen aber:
- Viele Enzyme können ein und die selbe Reaktion katalysieren
- Ein Enzym kann mehrere Reaktionen katalysieren
also
Multilabeling in unserem Reaktionsgraphen notwendig
Formaler Rahmen – Farben und Ähnlichkeit 2/2
Hierarchische Klassifikation von Enzymen
§
§
Entwickelt von der <International Union of Biochemistry and Molecular
Biology>
Code bestehend aus 4 Nummern (Enzym Nummer)
1.
2.
3.
4.
5.
6.
-
§
Die erste Nummer nimmt Werte aus [1..6] an
Oxidoreductase
Transferase
Hydrolase
Lyase
Isomerase
Ligase
Die weiteren Nummer bedeuten zusätzliches Detaillevel
Funktion S in diesem Zusammenhang: S(1.1.1.2 , 1.1.1.3) = 3
Ähnlichkeit verbunden mit Funktionalität !
Komplexitätsanalyse (Such-Problem in NP)
Suchproblem:
§ Gegeben ist ein Motif M und ein bezeichneter, ungerichteter Graph G
§ Finde Alle Vorkommen von M in G
§ .. Alle Knoten in G seinen verbunden
§ .. Alle Knoten haben Farben, die in dem Motiv vorkommen
§ .. Keine Gabs sind erlaubt
Natürliche Variante des Suchproblems: Entscheide ob das Motiv
im Graph auftaucht oder nicht?
Das Problem ist in NP
Es ist zwar in polynomialer Zeit lösbar, aber nur mit einer nicht-det. Turing
Maschine : das Problem ist nicht effizient lösbar
Komplexitätsanalyse (NP-Vollständigkeit)
Wir wollen nun zeigen, dass das Problem NP-Vollständig ist
(selbst dann wenn G ein Baum ist), wir müssen also zeigen, dass
unser Problem NP-hart ist.
NP-Hart: Alle Probleme in der NP-Klasse können in polynomialer Zeit (mit
einer det. Turing Maschine) auf dieses Suchproblem reduziert werden.
X3C
Allgemeine Komplexitätsergebnisse
Motiv
Eingabe Graph
Baum
Beliebig
polynomial
NP-vollst.
allgemein
polynomial
NP-vollst.
Feste Farben
und keine
Wiederholung
polynomial
polynomial
NP-vollst.
NP-vollst.
Topologische Motive
Farbige,
topologische
Motive
Allg. farbige Motive (Paper)
In der Praxis sind metabolische Netzwerke Graphen und keine Bäume, sie
sind jedoch relativ klein (3184 Knoten und 17642 Kanten -> Netzwerk aus
KEGG)
Exakter Algorithmus (Version ohne Gaps)
§ M sei das gesuchte Motiv (k Knoten)
§ Alle k-elementigen Teilgraphen R von G werden nach unseren MotivKriterien durchsucht (perfect matching, ....)
§ Der Suchraum ist sehr groß (zu groß)
- R sollte zwei Konditionen erfüllen müssen
§ Konnektivitätskondition
- Breitensuche
§ Farbkondition (perfect matching oder nicht)
- Ggf. Backtracking
Exakter Algorithmus (Version mit Gaps)
Lokale aber keine globale Gaps (lb > 0 , gb = unendlich)
§ Lb-transitiver-Abschluß auf G (ich kann mit dem no-gab-Algorithmus
arbeiten)
a
y
c
b
a
y
c
b
Praktische Rechenzeit
Suche nach einem Motiv der Größe 4 (ohne Gaps) mit einer
Barriere von 3
§ 8 ms auf Pentium4, 1.7 GHz, 512mB RAM
Applikation – Angesteuertes praktisches Ziel
Globale Eigenschaften von Netzwerken analysieren
Hypothesen über eventuelle evolutionäre Zusammenhänge
generieren
§ Fallstudie hierzu wird präsentiert
- Keine direkte Antwort auf „wie entwickeln sich metabolische Netzwerke“
- Sondern: Verwendungszwecke der vorgestellten Datenstruktur / Algorithmus
Applikation – evolutionäre Zusammenhänge
Metabolischer Pfad: valine biosynthesis
§ Letzte fünf Schritte dieses Pfades
Applikation – Globale Eigenschaften 1/2
Ergebnisse basieren auf:
§ Suche nach Motiven der Größe k (k = 3 oder 4)
§ Fixe Barriere (s = 2 oder 3)
Ähnliche Ergebnisse auch
für k=4, s=2
und
für k=3, s=3
Applikation – Globale Eigenschaften 2/2
Eine anderes interessantes Ergebnis:
§ Interpathway occurences
§ Ergeben biologisch keinen Sinn
§ Jedoch: wir würden viele Informationen verlieren / „verschenken“, wenn wir
sie nicht betrachten
Ende
Vielen Dank für das Interesse
!!!
J
Herunterladen