Visualisierung biochemischer Netzwerke

Werbung
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Visualisierung biochemischer Netzwerke
Seminararbeit im Rahmen des Seminars
Visualisierung abstrakter Daten
am Institut für Algorithmen und Datenstrukturen
der technischen Universität Wien
erstellt von Felix Schernhammer
unter der Betreuung von Dr. Andreas Kerren
Visualisierung biochemischer Netzwerke
Seite 1/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Inhaltsverzeichnis
Einleitung und Motivation ......................................................................................................... 3
1. Biochemische Grundlagen: .................................................................................................... 4
1.1. Die Proteinsynthese (Proteinbiosynthese)....................................................................... 4
1.1.1. Die DNA als Bauplan für Proteine........................................................................... 4
1.1.2 Produktion der Proteine............................................................................................. 5
1.1.3 Die Regulation der Proteinsynthese .......................................................................... 8
1.2 Andere biochemische Prozesse: ....................................................................................... 8
2. Visualisierung von Biomolekühlen:....................................................................................... 9
2.1 Visualisierung von Sequenzen: ........................................................................................ 9
2.2 2D Visualisierung von Molekülstrukturen..................................................................... 12
2.3 3D Visualisierung von Biomolekülen ............................................................................ 13
3. Molekülinteraktionen ........................................................................................................... 14
4. Metabolische Pfade .............................................................................................................. 18
5. Regulatorische Netzwerke ................................................................................................... 21
5.1 Bool’sche Netzwerke ..................................................................................................... 21
5.2 GeneVis.......................................................................................................................... 23
6. Zusammenfassung................................................................................................................ 25
Quellen: .................................................................................................................................... 26
Visualisierung biochemischer Netzwerke
Seite 2/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Einleitung und Motivation
Die Entschlüsselung des menschlichen Genoms darf als Meilenstein der zeitgeschichtlichen
Forschung angesehen werden. Allerdings ergeben sich aus den Ergebnissen dieser
Entschlüsselung keine direkt brauchbaren Ergebnisse. Denn auch wenn wir DNA Abschnitte
sichtbaren Merkmalen zuordnen können, so ist es bereits viel schwieriger zu erklären wie der
biochemische Weg von einer Abfolge von Basen zu einem bestimmten Merkmal ist. Diese
(und andere) Fragen sind derzeit Gegenstand der Forschung. Das Problem reduziert sich im
Wesentlichen darauf, zu erfassen was unsere körpereigenen Proteine tun und wie sie
interagieren. Leider sind solche Interaktionsnetzwerke riesig und somit nicht durchschaubar.
Die Lösung für dieses Problem sind geeignete Visualisierungsverfahren, die es den
Biochemikern ermöglichen relevante Eigenschaften aus unüberschaubaren Netzwerken
herauszufiltern. Aber auch andere Aufgaben können mit Visualisierungstechniken erfüllt
werden. Als Beispiel sei hier die Simulierung von dynamischen Netzwerken für längere
Zeiträume erwähnt.
Diese Arbeit setzt es sich zum Ziel einen Überblick über derzeit gängige
Visualisierungsstrategien im Bereich der Biochemie zu geben, und gegebenenfalls
konkurrierende Ansätze zu vergleichen. Es werden dabei statische wie z.B.
Molekülvisualisierung, und auch dynamische Visualisierungen betrachtet (z.B. regulatorische
Netzwerke).
Im ersten Kapitel erfolgt eine Einführung in die notwendigen biologischen Grundlagen. Ich
beschränke mich hierbei auf den Vorgang der Proteinsynthese, weil er im Mittelpunkt des
wissenschaftlichen Interesses steht. Es darf aber nicht vergessen werden, dass es viele andere
biochemische Prozesse gibt.
Die Nachfolgenden Kapitel stellen Visualisierungsmethoden für verschiedne Arten von
biochemischen Netzwerken vor.
Visualisierung biochemischer Netzwerke
Seite 3/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
1. Biochemische Grundlagen:
1.1. Die Proteinsynthese (Proteinbiosynthese)
1.1.1. Die DNA als Bauplan für Proteine
Bekanntlich wird die gesamte Erbinformation jedes Lebewesens in Chromosomen
gespeichert. In jeder Zelle (ein Mensch besteht aus ca. 60 Billionen Zellen) befindet sich eine
identische Kopie dieser Chromosomen. Die Anzahl der Chromosomen variiert jedoch
zwischen den Lebewesen (Mensch: 46). Nun sind alle Chromosomen Teile der DNA
(Desoxyribonukleinsäure) und bestehen aus Genen, welche wiederum kleinere Abschnitte der
DNA sind.
Die DNA selbst besteht aus vier verschiedenen Basen (Adenin, Thymin, Cytosin und
Guanin), deren Sequenz ausschlaggebend für die Erbinformation ist. Sie hat die Form einer
gegenläufig verdrillten Doppelhelix. Die „Sprossen“ dieser Leiterstruktur sind die genannten
Basen, die Holme bestehen aus Desoxyribose und Phosphatsäure, deren Hauptaufgabe darin
besteht die vertikale Bindung des DNA Stranges aufrechtzuerhalten.
Die Abbildung zeigt die Visualisierung eines DNAAbschnitts mit dem Tool „MDL sculpt“ der Firma
MDL (Molecular Design Limited). Das 3 dimensionale
Bild kann beim Betrachten auch gedreht bzw.
umformatiert werden. Dazu ist das frei erhältliche tool
„chime“ derselben Firma notwendig.
Die Farben stehen in diesem Bild für die Atome, die am
Aufbau der DNA beteiligt sind:
Orange: Phosphat
Rot: Sauerstoff
Grau: Kohlenstoff
Blau: Stickstoff
Wasserstoff würde aus Gründen der Übersichtlichkeit
weggelassen.
Die DNA besteht grob gesagt aus drei Bestandteilen:
− Phosphorsäure (PO4): Sie ist im Bild leicht
erkennbar an den orangen Stellen. Man sieht
auch sehr leicht, dass das Phosphoratom
Bindungen mit 4 Sauerstoffatomen eingeht. Die
Stelligkeiten der Bindungen sind in diesem Bild
nicht erkennbar.
− Zucker (Desoxyribose C5OH7): Dieser Zucker ist namensgebend für die DNA und ist
die Verbindung von Phosphatsäure und den organischen Basen (s.u.).
− Organische Basen (die oben genannten Adenin, Thymin, Cytosin, Guanin). In die
Sequenz dieser Basen ist der genetische Code des Lebewesens codiert. Es können sich
immer nur zwei Basen verbinden, nämlich Adenin und Thymin, und Cytosin und
Guanin. (diese werden durch Wasserstoffbrücken verbunden).
Doch was genau codiert diese Sequenz von organischen Basen eigentlich? Es sind Strukturen
von Proteinen. Proteine sind aus Aminosäuren aufgebaut, derer es 20 gibt. Die Sequenz dieser
Visualisierung biochemischer Netzwerke
Seite 4/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Aminosäuren sowie die Sekundärstruktur (räumliche Anordnung der Molekühle aufgrund
physikalischer und chemischer Eigenschaften) und Tertiärstruktur (räumliche Anordnung der
Moleküle um bestimmte Eigenschaften des Proteins zu erzielen) bestimmen welche
Eigenschaften das Protein hat.
Bevor wir nun auf die Synthese, also die Erzeugung von Proteinen eingehen, stelle ich einige
Funktionen vor, die Proteine in unserem Körper erfüllen, damit offensichtlich wird, wie
wichtig Proteine für den Menschen sind:
− Enzyme: Sie werden als Katalysator für chemische Reaktionen benötigt. Fast alle
biochemischen Vorgänge in unserem Körper benötigen bestimmte Enzyme um in
Gang zu kommen. Es gibt zum Beispiel 20 verschieden Enzyme, die die Bindung von
Aminosäuren an die verschiedenen t-RNAs (transfer RNA) katalysieren.
− Transportproteine: Sie binden bestimmte Stoffe an sich und können sie durch den
Körper transportieren. Ein Beispiel hierfür wäre das Hämoglobin, das Sauerstoff in der
Lunge an sich bindet und zu den peripheren Körperregionen transportiert.
− Nährstoff- und Speicherproteine: die Samen vieler Pflanzenzellen speichern
Nährstoffproteine, die für das spätere Wachstum essentiell sind. Ein weiteres Beispiel
ist das Ferritin, das Eisen speichern kann.
− Strukturproteine: Viele Proteine dienen als stützende Elemente um biologischen
Strukturen Stabilität und Schutz zu verleihen. In Sehnen und Knorpel ist
beispielsweise das Protein Collagen enthalten. Haare und Fingernägel bestehen u. a.
aus Keratin.
− Verteidigungsproteine: Sie schützen den Organismus vor dem Eindringen anderer
Spezies oder bewahren ihn vor Verletzungen. Die Thrombozyten (Blutplättchen)
beispielsweise verhindern Blutverlust bei Gefäßverletzungen. Leukozyten (weiße
Blutkörperchen) verteidigen den Körper gegen Bakterien.
− Regulatorische Proteine: Sie induzieren bzw. hemmen bestimmte Vorgänge im
Körper. Sie spielen eine wichtige Rolle bei der Genregulation, und der Visualisierung
derselben mit GeneVis. Als Vertreter wäre hier u.a. das Insulin zu nennen, das den
Zuckerstoffwechsel im Körper reguliert.
− Sonstige: Es gibt noch viele Proteine, deren Eigenschaften nicht in die oben genannten
Gruppe passen.
1.1.2 Produktion der Proteine
Um Proteine tatsächlich erzeugen zu können muss eine Kopie des betreffenden Gens erzeugt
werden. Diese Kopie liegt als RNA vor und wird als m-RNA(messenger RNA) bezeichnet.
(Der Vorgang des Kopierens wird als Transkription bezeichnet). Die m-RNA enthält also die
Abfolge der Aminosäuren, die das entsprechende Protein charakterisiert. Da es nur 4 Basen,
aber 20 Aminosäuren gibt, müssen pro Aminosäuren Codewörter verwendet werden, die
mindestens 3 Zeichen (=Base) lang sein müssen. (weil 42 < 20 <43) Ein solches Basentripel
wird Codon genannt. Nun kann eine Aminosäure nicht direkt mit einem Basentriplett in
Verbindung gebracht werden, deshalb wird ein Adapter benötigt. Dieser Adapter wird t-RNA
genannt, und er stellt die Verbindung zwischen der Basensequenz und der Aminosäure her.
Dies geschieht, indem am einen Ende der t-RNA eine Verbindung mit der Aminosäure
eingegangen wird. Am anderen Ende befindet sich das zugehörige Tripel in invertierter Form,
denn es muss ja mit dem ursprünglichen Codon eine Verbindung eingegangen werden. Dies
kann nur erreicht werden, wenn sich das Tripel der t-RNA mit dem Codon verbinden kann,
was aber nur möglich ist, wenn zu einer Base am Codon die Base in der t-RNA in dem Sinne
Visualisierung biochemischer Netzwerke
Seite 5/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
invers ist, dass die beiden eine Bindung eingehen können. Das Basentripel in der t-RNA wird
deshalb auch Anticodon genannt. Wenn sich die t-RNA an die m-RNA bindet werden die
Aminosäuren in räumliche Nähe gebracht und gehen Peptidbindungen ein, weshalb Proteine
Polypeptide sind.
Die Abbildung zeigt den gesamten Vorgang der Proteinsynthese. Die Peptidbindungen sind
hier grün dargestellt. Die DNA speichert Informationen redundant, weil aus einem Strang der
Andere eindeutig folgt. Die Bezeichnung codogener Strang bezieht sich nur darauf welcher
Strang für die Transkription verwendet wird.
Der eigentliche Vorgang der Proteinsynthese lässt sich nun in 5 Teile zerlegen:
1. Aktivierung der Aminosäuren
2. Initiation der Polypeptidkette
3. Elongation
4. Termination und Freisetzung
5. Faltung
Diese 5 Stufen werden unter
dem Begriff Translation
zusammengefasst.
ad 1: Zuerst müssen die
Aminosäuren an die
entsprechenden t-RNAs
gebunden werden. Das passiert
in dieser Stufe, die im
Gegensatz zu den anderen
Stufen, die in den Ribosomen
(Teil jeder Zelle) stattfinden,
im Cytosol (wässrige Lösung,
die sich im Zwischenraum der
Visualisierung biochemischer Netzwerke
Seite 6/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Zellorganellen befindet) stattfindet. Wie bereits erwähnt existiert bei diesem Vorgang für jede
der 20 Aminosäuren ein eigenes Enzym, das diesen Vorgang katalysiert.
Im Bild oben kann man die Struktur eines t-RNA Moleküls erkennen. Man sieht unten in
gestricheltem Rahmen das Codon mit dazugehörigem Anticodon der m-RNA. Am 3’ Ende
des Moleküls, oben im Bild, verbindet sich die RNA mit der entsprechenden Aminosäure. Die
beiden Arme links und rechts spielen bei der Proteinsynthese keine Rolle. Auffällig im Bild
ist noch, dass das Basentripel des Anticodons eine Säure mit dem Buchstaben I enthält. Diese
Base heißt Inosin. Inosin kann sich mit drei verschiedenen Basen binden, und zwar Adenin,
Cytosin und Uracil. (Uracil kommt ausschließlich in RNA vor, und ersetzt bei der
Transkription die Base Thymin der DNA, die in RNAs nicht mehr vorkommt). Der Vorteil
der sich ergibt wenn Inosin im Anticodon verwendet wird ist nun der Folgende:
Es gibt 20 verschiedene Aminosäuren aber 64 mögliche Basentripel um diese zu codieren.
Deshalb gibt es für eine Aminsäure mehrere gültige Basentripel. Und es ist dabei eine
Rangordnung von der „most significant“ zur „least significant“ Base zu erkennen. Einige
Aminosäuren sind nun allein durch die ersten beiden Basen bestimmt. An die dritte Stelle
kommt sozusagen eine Wildcard, das Inosin. Der Vorteil in dieser Vorgangsweise ist der, dass
die Verbindung von Inosin zu einer Base viel schwächer ist als die herkömmlichen
Verbindungen und somit schneller wieder gelöst werden kann. (denn natürlich müssen t-RNA
und m-RNA nach der Translation wieder getrennt werden). „Die biochemische Evolution hat
demnach für die meisten Codon-Anticodon-Wechselwirkungen das Optimum an Genauigkeit
und Geschwindigkeit gefunden“ ([Lehn] S. 985).
ad 2: Zunächst wird in dieser Phase die
m-RNA an das Ribosom gebunden.
Dann wird die erste (initiierende)
Aminosäure, die an der t-RNA „hängt“
dazugefügt. Es gibt zu diesem Zweck ein
Basentripel („Startcodon“), das den
Anfang einer Polypeptidkette
signalisiert.
ad3: Nun wird jede weitere Aminosäure
durch ihre t-RNA, die an das jeweilige
Codon der m-RNA andockt, in
räumliche Nähe zur vorangehenden
Aminosäure gebracht, worauf diese beiden dann eine Peptidbindung eingehen. Dieser
Vorgang wiederholt sich beliebig oft.
ad 4: Die Termination der Elongation wird durch so genannte Nonsense Tripletts
herbeigeführt. Der Name stammt aus den Anfängen der Erforschung der Proteinsynthese.
Man erkannte nämlich nicht gleich die Bedeutung als Terminationscodons, sondern wunderte
sich zunächst darüber, dass diese Sequenzen für keine Aminosäure kodieren. Es gibt drei
verschiedene Nonsense Tripletts (UAA, UAG, UGA). Wird ein nun ein solches Triplett
erreicht, löst sich die Polypeptidkette von der t-RNA und diese löst ihre Bindungen mit der mRNA.
ad 5: Nicht nur die Aminosäurensequenz ist für die Eigenschaften eines Proteins
entscheidend, sondern auch die räumliche Struktur (Tertiärstruktur). In der letzten Phase wird
durch Enzyme gewährleistet, dass das Protein die richtige räumliche Struktur erhält.
(Primärstruktur: Aminosäurensequenz, Sekundärstruktur: räumliche Anordnung, die allein
durch physikalische und chemische Eigenschaften der beteiligten Molekühle (z.B. Ladung)
zustande kommt.)
Visualisierung biochemischer Netzwerke
Seite 7/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
1.1.3 Die Regulation der Proteinsynthese
Bisher haben wir uns nur darüber Gedanken gemacht wie die Proteinsynthese funktioniert
nicht aber, wie der Vorgang induziert bzw. beendet wird. Um den Bedarf an bestimmten
Proteinen zu erfüllen muss die Produktion der Zellen kontrolliert werden. Diese Kontrolle der
Proteinkontrolle wird unter dem Begriff Genregulation zusammengefasst. Im Wesentlichen
ist die Produktion von Proteinen durch das Vorhandensein bzw. Nichtvorhandensein anderer
oder derselben Proteinen abhängig. Zunächst gibt es sog. Induzierbare Enzyme. Die
Konzentration solcher Enzyme in der Zelle kann variieren. Zum Beispiel können solche
Enzyme die Aufgabe haben bestimmte Stoffe in der Zelle abzubauen, oder umzuwandeln. Die
Anzahl der Enzyme hänge dann davon ab, wie viel von dem Ausgangsstoff (=Substrat)
vorhanden ist. Ist eine große Menge des Substrats in der Zelle, so wird die Produktion von
Enzymen, die den Stoff verarbeiten können induziert. Dieser Vorgang wird auch
Substratinduktion genannt.
Es gibt auch sog. Konstitutive Enzyme, deren Vorkommen in der Zelle konstant ist. Nur bei
prokaryotischen Zellen (Zellen mit Zellkern, alle „höheren“ Lebewesen sind Prokaryoten. Das
Gegenstück dazu sind Eukaryoten. Das sind einzellige Bakterien ohne Zellkern) ist auch eine
Repression der Proteinsynthese möglich. Dabei wird analog zur Substratinduktion durch
ausreichendes Vorhandenseins eines Produktes, das ein Enzym synthetisieren würde, die
Produktion des Enzyms gehemmt.
1.2 Andere biochemische Prozesse:
Natürlich gibt es neben der Proteinsynthese noch eine Reihe anderer biochemischer Prozesse.
Diese spielen in der Wissenschaft aber nur eine untergeordnete Rolle, weil Sie zumeist bereits
hinreichend erforscht sind (z.B. Muskelaktivität).
Das Hauptaugenmerk der biochemischen Forschung richtete sich in den letzten Jahren auf die
Entschlüsselung des genetischen Codes des Menschen. Das heißt man versuchte
herauszufinden welch Teile der DNA für Proteine codieren und welche nicht, (Teile, die für
Proteine kodieren werden Exons genannt, die anderen Introns.) und welche Exons für welche
Merkmale verantwortlich sind. Die Entschlüsselung der DNA Sequenz an sich, die ja für
jeden Menschen eindeutig ist, ist bereits früher gelungen. Mit dieser Kenntnis des
menschlichen Genoms wäre es nun möglich das menschliche Erbgut gezielt zu verändern
(also Genmanipulation zu betreiben), was aber ethisch (noch) umstritten ist. Ganz im
Gegensatz dazu steht die Genmanipulation von Bakterien. Sie kann dazu verwendet werden
um Bakterien, bestimmte, für den Menschen nützliche, Stoffe produzieren zu lassen.
Die derzeit ausgeübte Genmanipulation beschränkt sich darauf Gene, die in der Natur bereits
vorkommen in andere Lebewesen „einzupflanzen“. Ein ganz anderer Ansatz ist hingegen die
Proteine, die durch die DNA kodiert werden, an sich zu erforschen und zu versuchen für
bestimmte gewünschte Funktionalitäten die entsprechenden DNA Sequenzen zu finden. Auch
in diese Richtung wird zur Zeit mehr oder weniger intensiv geforscht.
Diese Arbeit wird sich in weiterer Folge mit der Visualisierung aller zur Erforschung der
Proteinsynthese wichtigen Vorgänge beschäftigen. Zuerst wird die Visualisierung von
Biomolekühlen behandelt. Darunter fallen die Visualisierung der DNA in den verschiedensten
Ausprägungen, von der Sequenzvisualisierung bis zur zur 3D animierten Visualisierung.
Visualisierung biochemischer Netzwerke
Seite 8/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
2. Visualisierung von Biomolekühlen:
Im Wesentlichen existieren 3 verschieden Arten der Visualisierung von Biomolekülen. Zuerst
die Eindimensionale, die vor allem zur Visualisierung von DNA und RNA verwendet wird
und das Molekül als Sequenz von anderen Molekülen im Textformat darstellt. Um zusätzlich
dazu die chemischen Verbindungen zwischen den Molekülen darzustellen, verwendet man 2dimensionale Grafiken. Und um die räumliche Struktur der Teilchen zu veranschaulichen,
verwendet man 3D Grafiken bzw. Animationen.
2.1 Visualisierung von Sequenzen:
Bei der Sequenzvisualisierung wird versucht die Sequenz eines Moleküls (sofern ein Molekül
gut durch eine Sequenz beschrieben werden kann, was bei der DNA auf jeden Fall der Fall
ist) durch eine Folge von Buchstaben zu visualisieren. Im Falle der DNA sind das nur 4
Buchstaben (nämlich die der vier Basen). Will man jedoch zum Beispiel die
Aminosäurensequenz eines Proteins visualisieren sind bereits mehrere Buchstaben nötig.
Eines der Standardtools zur Sequenzvisualisierung ist SeqLab (Accelry’s). Es bietet neben der
reinen Visualisierung der Sequenz die Möglichkeit Teilbereiche farblich hervorzuheben.
In dieser Abbildung sind die Sequenzen einiger Proteine abgebildet. Es ist hier zu beachten,
dass nicht jede der 20 Aminosäuren eine eigene Farbe hat, sondern die Aminosäuren nach
bestimmten Kriterien gruppiert werden.
Visualisierung biochemischer Netzwerke
Seite 9/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Der Grund warum die Sequenzvisualisierung aber von solch großer Bedeutung ist, ist nicht
die Tatsache, dass man aus dieser Buchstabenrepräsentation einen besonders guten Eindruck
über das Aussehen eines Proteins bekommt, sondern, dass aufgrund solcher Visualisierung
und mithilfe der Visualisierungstools Homologievergleiche angestellt werden können.
Es werden also verschieden Strukturen auf Ähnlichkeiten hin untersucht. Auf diese Weise ist
es möglich bestimmte Aminosäurensequenzen bestimmter Proteine mit einer ganz
spezifischen Funktion des Proteins in Verbindung zu bringen und dadurch ein noch
gezielteres Wissen darüber zu erhalten wofür DNA Teilabschnitte verantwortlich sind. Mit
diesem Wissen wäre es dann auch möglich eigene Gene zu kreieren, die ganz spezifische
Funktionen erfüllen.
Die Technik des Homolgievergleichs wird auch dazu verwendet die Funktion unbekannter
Sequenzen durch Findung homolger Teilsequenzen zu beschreiben.
SeqLab bietet u.a. die Möglichkeit einer Kodierung von einzelnen Elementen oder
Teilsequenzen durch graphische Objekte vorzunehmen. Dies kann dazu verwendet werden
auftretende Homologien für den Menschen leicht ersichtlich zu machen.
In dieser Grafik werden mehrere Proteine gezeigt, deren Merkmale graphisch kodiert wurden.
Auf diese Weise ist ihre Ähnlichkeit offensichtlich.
Ein anderer Zugang zur Sequenzvisualisierung, der von M.L. Lantin und M. S. T. Carpendale
beschrieben wird, ist die Sequenzvisualisierung mittels H-Kurven. Dieser Zugang ist nur zur
Visualisierung von DNA und RNA sinnvoll, da bei zu vielen verschiedenen
Sequenzelementen das Ergebnis unlesbar ist.
Die Visualisierung spielt sich in einem zur Visualisierung geeigneten 3-dimensionalen
Vektorraum ab. In diesem wählt man ein Erzeugendensystem, das so viele Vektoren
Visualisierung biochemischer Netzwerke
Seite 10/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
beinhaltet, wie es verschiedene Sequenzelemente gibt. Im Falle der DNA wären das die Basen
ACTG, also wird ein 4-elementiges Erzeugendensystem eines 3 dimensionalen Vektorraums
benötigt. Dieses könnte zum Beispiel so aussehen:
Die Sequenzvisualisierung wird nun durch einen Linienzug verwirklicht, der an dem Punkt
(0,n,0) beginnt. „n“ steht hierbei für die Anzahl der Basen, die man visualisieren möchte. Die
vertikale Änderung jedes der Basisvektoren beträgt 1. Zur Illustration betrachte man das
Beispiel der Sequenz ACT. Der Ausgangspunkt ist hier (0, 3, 0).
Der Vorteil bei dieser Art der Visualisierung besteht vor allem darin, statistische
Informationen visualisieren zu können. Aus diesem Grund besteht auch die Möglichkeit die
Kurve zu glätten, um globale Basenkonzentrationen besser sehen zu können, und Lokale zu
vernachlässigen. Es ist aber auch leicht möglich durch Projektionen auf eine der drei durch
die Koordinatenachsen aufgespannten Ebenen bestimmte Informationen abzulesen. Projiziert
man in unserem Beispiel auf die Ebene, die durch die Koordinatenachsen y und z aufgespannt
wird, so kann man die Konzentration von Purinbasen (Adenin und Guanin) und
Pyrimidinbasen (Cytosin und Thymin (und Uracil)) sehen.
Visualisierung der Sequenz ACT
Projektionen auf die Koordinatenebenen
Man kann im zweiten bild der rechten Grafik leicht erkennen, dass in unserem Beispiel die
Purinbasen überwiegen. Natürlich arbeitet man in der Praxis mit viel größeren Sequenzen.
Dabei ist es nützlich Farben zur besseren Übersichtlichkeit zu verwenden. Es gibt hier
unterschiedliche Möglichkeiten die Farbe als zusätzliche Dimension einzubinden. Die
einfachste Möglichkeit ist den Vektor jeder Base, in einer spezifischen Farbe darzustellen.
Eine zweite Möglichkeit ist Exons, das heißt Gene, farblich hervorzuheben. Dazu noch je ein
Beispiel:
Visualisierung biochemischer Netzwerke
Seite 11/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Im linken Bild kann man die farbliche Hervorhebung der einzelnen Basen erkennen. Im
rechten Bild werden die Gene hervorgehoben. Man erkennt hier auch noch die Möglichkeit
Bereiche herauszuzoomen, um Basensequenzen einzelner Gene genauer zu betrachten.
2.2 2D Visualisierung von Molekülstrukturen
In diesem nächsten Schritt der Molekülvisualisierung wird die Betrachtung um eine
Dimension erweitert. Diese Dimension ist die Verbindung zwischen den Atomen bzw.
Molekülen, die in Stufe 1 die Sequenz gebildet haben. Die räumliche Anordnung spielt
hierbei noch eine untergeordnete Rolle, vielmehr ist wichtig zwischen welchen funktionalen
Atomgruppen Bindungen auftreten.
Die Firma CambridgeSoft stellt ein Tool namens ChemDraw zur Verfügung mit dem solche
2-dimensionalen Strukturen visualisiert werden können.
Visualisierung biochemischer Netzwerke
Seite 12/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Das sind einige Visualisierungen, die mit
ChemDraw erstellt wurden.
Ein weiteres sehr ähnliches Tool ist ISIS
Draw von MDL (s.o.).
2.3 3D Visualisierung von Biomolekülen
Durch 3D Visualisierungen kann die tatsächliche räumliche Struktur von Molekülen
visualisiert werden. Zum einen ergibt sich diese Struktur durch Kräfte, die zwischen den
Molekülen bzw. Atomen wirken. Die Struktur, die durch diese Kräfte (z.B. Van der Waals
Kräfte) entsteht ist von minderem Interesse für die Wissenschaft, weil durch sie meist keine
neuen Eigenschaften des Moleküls gebildet werden. Zum anderen werden bestimmte
Moleküle so geformt, dass sie durch eben diese Form zusätzliche Eigenschaften erhalten. (vgl.
Tertiärstruktur von Proteinen (s.o.))
3D Visualisierungen können natürlich aus den oben genannten 2D Visualisierung mittels der
Plugins ADD/3D für ISIS Draw und Chem 3D für ChemDraw erzeugt werden. Das
Standardverfahren um Moleküle 3-dimensional zu visualisieren ist allerdings das erzeugen
eines .pdb Files. In diesen Files wird jedes Atom mit den dazugehörigen Koordinaten im 3dimensionalen Raum (und zusätzlichen Eigenschaften (u.a. Ladung)) gespeichert. Es gibt nun
mehrere Tools, die in der Lage sind aus solchen Dateien 3D Visualisierung zu erzeugen. Zwei
der bekanntesten sind Chime von MDL und das Freeware-Tool RasMol von Roger Sayle.
Visualisierung biochemischer Netzwerke
Seite 13/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Visualisierung eines Viagra Moleküls mit dem Tool Chime von MDL mit einem Ausschnitt
aus dem dazugehörigen pdb File.
3. Protein Protein Interaktionen
Natürlich ist die statische Visualisierung von Molekülen für viele Aufgabenstellung in der
Biochemie unzureichend. Wichtiger als die Struktur der Moleküle ist deren Interaktion. In der
Literatur ist der Begriff der Protein-Proteininteraktion gebräuchlich, da an fast allen
chemischen Prozessen, die innerhalb von Zellen ablaufen, Proteine beteiligt sind. Diese
Protein-Proteininteraktionen sind für das Verständnis der biochemischen Vorgänge in allen
Organismen essentiell. Deshalb steht auch ihre Visualisierung im Mittelpunkt des
wissenschaftlichen Interesses. Bei der Visualisierung solcher Netzwerke stehen vor allem die
physikalischen Interaktionen der Proteine im Vordergrund. Im Gegensatz dazu stehen bei der
Visualisierung von metoblischen Wegpfaden (seihe Kapitel 4), an denen ebenfalls fast immer
Proteine beteiligt sind, die chemischen Vorgänge und Zwischenprodukte im Vordergrund.
Die erste und intuitivste Art der Visualisierung ist die der Protein-Protein interaction
maps. Eine solche map ist ein Graph dessen Knoten die Proteine (bzw. andere Stoffe)
darstellen und dessen Kanten die Interaktionen sind. Für die Interaktionen gibt es
normalerweise Klassifizierungen. Diese werden aber oft aus verschiedenen Gründen
(Unübersichtlichkeit im Graph, Nichtkenntnis…) weggelassen. Für das Zeichnen des Graphen
werden üblicherweise Algorithmen für das force directed graph drawing verwendet. Das
heißt es wird angenommen, dass sich alle Knoten abstoßen und die Kanten Federn darstellen
(also je zwei verbundene Knoten aneinander ziehen). (daher ist auch der Name spring
algorithm (spring = engl. Feder) in der Literatur gebräuchlich). Es wird dann versucht einen
Zustand mit einem möglichst niedrigen Energieniveau zu finden. Auf diese Art und Weise
wird gewährleistet, dass Knoten die durch Kanten verbunden sind, auch räumlich nahe
beieinander liegen.
Visualisierung biochemischer Netzwerke
Seite 14/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
In dieser Abbildung sehen wir eine PPI map. Die Nachteile dieser Visualisierungsmethode
sind auf den ersten Blick offensichtlich. In dieser Ansicht sind weder die Proteinnamen noch
die Interaktionen nahe am Zentrum zu erkennen. Es gibt hier keine
Interaktionsklassifikationen. Würde man diese hinzufügen, so wäre die Grafik noch
unübersichtlicher.
Ein Versuch bestimmte Daten aus einem PPI Netzwerk herauszufiltern stammt von Carsten
Friedrich und Falk Schreiber (University of Sydney und Bioinformatics Centre Gatersleben
Deutschland). Sie versuchen alle Interaktionen eines bestimmten Typs zu visualisieren,
während alle Interaktionen anderer Typen in den Hintergrund treten. Dies geschieht, indem
ein virtueller Ring gezeichnet wird, in dessen Innerem alle Knoten sind, die an Interaktionen
des gewählten Typs beteiligt sind. Alle anderen Knoten liegen außerhalb. Natürlich sind die
Positionen der Knoten, wenn sie außerhalb des Kreises liegen bei einem Wechsel des
relevanten Interaktionstyps fix. Außerdem wird der Wechsel zwischen zwei Graphen, die
unterschiedliche Interaktionstypen fokussieren animiert vollzogen. Die beiden
Wissenschaftler behaupten, dass dadurch der Benutzer einen besseren Überblick über den
gesamten Graph erhält.
Visualisierung biochemischer Netzwerke
Seite 15/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Zwei PPI Netzwerke visualisiert mit dem Verfahren von Carsten Friedrich und Falk Schreiber
Einen sehr viel versprechenden Ansatz stellt Adam Wright von der Stanford University vor.
Er entwickelte eine Reihe von Programmen zur Extrahierung der relevanten Daten aus einem
metabolischen Netzwerk. Er geht dabei von der Idee aus, dass vor allem jene Knoten im
Netzwerk von großer Relevanz sind, die viele Verbindungen mit anderen Knoten aufweisen.
Die Extraktion läuft in diesem Modell in drei Phasen ab:
− Beschreibung der Daten im
Gesamtnetzwerk: Hier wird für jeden
Knoten im Graph der Hin- und
Weggrad gespeichert. Die Abbildung
zeigt am Beispiel des Netzwerkes
von der vorangehenden Seite
(Germbakterium), dass die Anzahl
der Knoten mit sehr großem Grad
verhältnismäßig klein ist. Die Kurve,
die den Interaktionsgrad beschreibt
ähnelt dem Funktionsgraf einer
exponentiellen Funktion. Diese Tatsache ist typisch für metabolische Netzwerke,
weswegen der hier beschriebene Visualisierungsansatz in der Praxis oft eingesetzt
werden kann.
− Im zweiten Schritt werden die Knoten ausgewählt, die visualisiert werden sollen. Das
kann auf zwei Arten passieren.
1. Es wird ein Wahrscheinlichkeitsmodell benutzt, um die höchstgradig verbundenen
Knoten auszuwählen. Dabei wird auch darauf geachtet, dass die Kantengewichte
zwischen den jetzt verbleibenden Knoten gering sind. z.B.: Ein Knoten, der zwar
hochgradig mit anderen Knoten verbunden ist, aber weit weg vom Zentrum liegt,
ist für de Visualisierung nicht so interessant wie ein Knoten, der zwar nicht so
stark verknüpft ist, dessen Nachbarn aber wieder hohe Grade besitzen.
2. Die zweite Möglichkeit ist, dass der Benutzer einen oder mehrere Knoten von
Interesse auswählt und dann ausgehend von den gewählten Knoten, alle Knoten,
die mit diesen in Verbindung stehen visualisiert werden. Diese Art der
Visualisierung biochemischer Netzwerke
Seite 16/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Knotenauswahl ist besonders hilfreich wenn Wissenschaftler die Funktion
bestimmter Proteine herausfinden möchten (was einen großen Teil der
biochemischen Forschung ausmacht), weil im entstehenden Graph einfach
abzulesen ist, mit welchen anderen Stoffen das Protein interagiert.
− Der dritte Schritt ist die Visualisierung der in Stufe 2 gewonnen Resultate. Hierbei
sind die üblichen Probleme bei der Graphenvisualisierung zu beachten (möglichst
kleine Visualisierungsfläche, wenig Kantenkreuzungen, Knoten sollen möglichst weit
entfernt sein, Kanten sollen Länge entsprechend ihrem Gewicht haben). Um diese
Kriterien zu erfüllen wird das schon besprochene force directed graph drawing
verwendet.
Die Abbildung gibt einen Überblick über die 3 Phasen im Modell von Adam Wright.
Fettgedruckt sind jeweils die Namen der Programme, die die entsprechenden Schritte
ausführen können. Der erste Visualisierungsschritt (el2dot) ist nur eine Konvertierung interner
Formate, und wurde daher in der Auflistung oben übergangen.
Hier ein Ergebnis der Reduktion durch Auswahl der höchstgradigen Knoten am Beispiel des
Germbakteriums (siehe 2 Seiten davor).
Visualisierung biochemischer Netzwerke
Seite 17/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
4. Metabolische Pfade
Wie bereits im vorigen Kapitel erwähnt beschreiben metabolische Pfade chemische
Reaktionsfolgen. Die dabei entstehenden Zwischenprodukte werden Metaboliten genannt.
Formal sind metabolische Pfade so definiert: Ein metabolischer Pfad (metabolic Pathway) ist
eine Abfolge chemischer Reaktionen mit folgenden Eigenschaften:
− Jedes Molekül, das auf dem Pfad liegt unterscheidet sich von allen anderen Molekülen
auf demselben Pfad
− Jedes Substrat wird in eine Substanz umgewandelt, die für die folgende Reaktion als
Ausgangsstoff dient. Dies gilt natürlich nicht für die letzte Reaktion, in der das
Endprodukt der Gesamtreaktion erzeugt wird
− Die Reaktionsfolge ist in eine Richtung gerichtet und in den meisten Fällen
irreversibel.
− Die Gesamtreaktion benötigt mehrere Enzyme, die verschiedene Funktionen erfüllen.
Man unterscheidet zwischen anabolischen und catabolischen Pfaden. Anabolische Pfade sind
Reaktionen, bei denen aus einfachen Molekülen komplex Strukturierte synthetisiert werden.
Dazu muss Energie zugeführt werden (ATP). Catabolische Pfade sind Reaktionen, bei denen
aus komplexen Molekülen Einfachere erzeugt werden. Dabei wird Energie in Form ATP frei.
Auf den ersten Blick könnte man nun sagen, dass man alle catabolischen Reaktionen
beschreiben kann, wenn man die inversen Reaktionen der Anabolischen betrachtet. Das ist
aber im Allgemeinen nicht richtig, weil in jedem metabolischen Pfad eine Reaktion
vorkommen muss, die irreversibel ist.
Die einfachste Weise einen solchen metabolischen Pfad zu visualisieren, ist durch eine
gerichteten Graphen bzw. Hypergraphen. (i.e. Graph bei dem die Bedingung, dass eine Kante
genau zwei Knoten verbinden muss nicht gilt. Eine Kante kann also auch mehrere Knoten
verbinden) Hierbei gibt es zwei Möglichkeiten. Einerseits kann man die Zwischenprodukte
durch die Knoten darstellen, andererseits kann man die Reaktionen an sich durch die Knoten
darstellen. Im ersteren Fall stellen die Kanten die Reaktionen dar im zweiten Fall die
Substanzen, die zum Triggern der Teilreaktionen benötigt bzw. produziert werden. Eine
Verbindung dieser zwei Möglichkeiten stellt eine Repräsentation der Pfade durch Petri-Netze
dar. Hier sind sowohl Reaktionen, als auch Substrate Knoten und die Kanten setzt diese in
Beziehung. Es ist hier erwähnenswert, dass in einem solchen Petri-Netz nur Substratknoten
mit Reaktionsknoten verbunden werden dürfen. Es darf also keine direkte Beziehung
zwischen zwei gleichartigen Knoten geben, was der Definition von metabolischen
Netzwerken sehr gut entspricht.
Ein Visualisierungsansatz, der in diese Richtung geht kommt von einem Forschungsteam der
Yamaguchi Universität Japan und der University of Tokio. Sie stellen hybrid funktionale Petri
Netze vor.
Hybride Petri Netze wurden schon von Hassane Alla und René David vom Laboratoire
d'Automatique de Grenoble vorgestellt. Dabei wird das herkömmliche Petri Netz um folgende
Aspekte erweitert:
− Den Substratknoten wird ein nichtnegativer reeller Zahlenwert zugewiesen. Auf diese
Weise ist es möglich nicht nur das bloße Vorhandensein oder Nicht-Vorhandensein
eines Stoffes darzustellen, sondern auch dessen Konzentration. Das ermöglicht auch
die Erweiterung der Darstellung um stochastische Elemente.
− Auch den Reaktionsknoten werden reelle Werte zugewiesen. Diese Werte geben die
Zeitintervalle an, nach denen die Reaktion feuert (d.h. den Abschluss ihrer
Ausführung an alle Nachfolger weiterleitet). Das Feuern ist hierbei unabhängig von
der Konzentration des Substrats für diese Reaktion.
Visualisierung biochemischer Netzwerke
Seite 18/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
− Weiters führt man 3 Arten von Pfeilen ein, die alle mit einem Gewicht w versehen
sind: Erstens gibt es ganz normale Pfeile, sie bewirken, dass w Einheiten eines
Substrats einem Vorgang zugeführt werden bzw. dass w Einheiten von einem Vorgang
zu einem Substratknoten hinzugefügt werden. Zweitens gibt es so genannte
Repressorpfeile (inhibitory arcs), die es Reaktionen ermöglichen nur dann zu feuern,
wenn im Substratknoten weniger als w oder w Einheiten des Substrats vorhanden sind.
Drittens gibt es Testpfeile. Sie überprüfen beispielsweise, ob Substrat in einem Knoten
vorhanden ist und veranlassen den nachfolgenden Reaktionsknoten zu feuern, ohne
Substrat des Ausgangsknoten zu konsumieren.
Das sind die graphischen Symbole für die oben
beschriebenen Bestandteile eines hybriden PetriNetzes. Diskrete Substrate (in diesem Bild allg.
places) und Reaktionen (transitions) sind
kontinuierlich mit Wert 1.
Die oben genannten japanischen Wissenschaftler erweitern diese hybriden Petri Netze noch
um die Möglichkeit die Feuergeschwindigkeit der Reaktionen als Funktion der
Substratkonzentration in den Quellsubstratknoten festzusetzen. Knoten mit dieser Eigenschaft
werden als “functional continious transitions“ bezeichnet.
Die Informationen, die nötig sind um einen solchen Graphen zu zeichnen, werden tabellarisch
angegeben. Genauer gesagt sind alle Informationen mit einer Liste der Substratknoten und
einer Liste der Reaktionsknoten hinreichend bestimmt. Dazu sind folgende Angaben für jede
Reaktion nötig:
− Name des Knotens
− Typ des Knotens (diskret oder kontinuierlich)
− Falls kontinuierlich. Zeitintervalle zwischen dem feuern.
− Quelle(n) der eintreffenden Pfeile
− Gewichte dieser Pfeile
− Typ der eintreffenden Pfeile (normal, Repressorpfeil, Testpfeil)
− Ziel der ausgehenden Pfeile
− Gewicht dieser ausgehenden Pfeile
Die obige Abbildung zeigt einen Ausschnitt aus einer Tabelle mit Beschreibungen der
Reaktionen
Für die Substratnoten sind folgende Angaben nötig:
Visualisierung biochemischer Netzwerke
Seite 19/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
− Name
− Variable (über diese können Substratknoten in der Reaktionstabelle referenziert
werden)
− Initialwert
Aus diesen Informationen kann ein entsprechendes Petri Netz gezeichnet werden. Zur
Visualisierung dieser Information kann ein Tool verwendet werden, dass ebenfalls von diesen
japanischen Wissenschaftlern entwickelt wurde. Sein Name ist GON (Genomic Object Net).
GON arbeitet mit den eben vorgestellten erweiterten Petri Netzen. Zusätzlich bietet es noch
die Möglichkeit jeden Knoten im Petri Netz durch entsprechende biologische Symbole zu
ersetzten, um die Lesbarkeit noch weiter zu erhöhen.
Screenshot von GON
Ausschnitt aus der Visualisierung eines metabolischen Pfades mit einem erweiterten Petri
Netz
Visualisierung biochemischer Netzwerke
Seite 20/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
5. Regulatorische Netzwerke
Ein Sonderfall der metabolischen Netzwerke sind die regulatorischen Netzwerke. Von diesen
sind vor allem die Netzwerke interessant, welche die Regulierung der Genaktivität
beschreiben. Bei der Genregulation (siehe Kap 1) wird die Eiweißproduktion dadurch
reguliert, dass das Vorhandensein bestimmter Proteine (sog. Regulatorproteine) darüber
entscheidet, ob ein Gen Proteine produziert oder nicht. (natürlich produziert ein Gene keine
Proteine. Die Proteinsynthese wird hier abstrahiert (siehe Kap 1)) Diese Proteine können dann
entweder wieder Regulatorproteine sein, oder entsprechende funktionale Proteine.
Der erste Visualisierungsansatz kann von der Pfadvisualisierung übernommen werden. Es
handelt sich um eine Visualisierung mittels Petri Netzen. Man benutzt Gene und Proteine für
die zwei Knotentypen und die Kanten stellen deren Beziehung dar. Auch die oben
beschriebenen Erweiterungen machen auch bei regulatorischen Netzwerken (oder teilweise
auch nur bei solchen) Sinn.
5.1 Bool’sche Netzwerke
Dieser Visualisierungsansatz bietet gute Erkenntnisse über das dynamische Verhalten eines
regulatorischen Netzwerkes. Zur Vereinfachung wird die Zeit nicht kontinuierlich behandelt,
sondern es werden immer synchrone Zustandsänderungen vollzogen. Das heißt zu bestimmten
Zeitpunkten ändern alle Gene ihr Expressionsverhalten gemäß der jeweiligen Konzentration
von Regulatorproteinen in ihrer Nähe.
Die Gene selbst sind Knoten, die nur die Werte 1 (Gen „produziert“ Protein) und 0 (Gen
„produziert“ kein Protein) annehmen können. Für jedes Gen ist weiters eine bestimmte
Funktion gegeben, die angibt wie sich das Expressionsverhalten im nächsten Timeslot ändert.
Diese Funktion hängt vom Expressionsverhalten bestimmter anderer Gene im aktuellen
Timeslot ab. Dadurch entstehen Zustände, die durch ein n-Tupel von 0en und 1en beschrieben
werden können, wenn die Anzahl der Gene n ist. Es gibt maximal 2n Zustände, die man leicht
in einen gerichteten Graphen zeichnen kann. Da aber der Prozess der Regulation theoretisch
endlos läuft muss es Kreise in diesem Graph geben. Knoten, die sich innerhalb solcher Kreise
befinden heißen Attraktoren.
Visualisierung biochemischer Netzwerke
Seite 21/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Die Abbildung zeigt ein solchen Zustandsgraphen. Attraktoren sind in dieser Abbildung die
Knoten „00000“, „00100“, „11110“, „11010“, „10011“ und „11111“. Es gibt in diesem
Beispiel also 5 Gene. Die entsprechenden Funktionen sind der Tabelle zu entnehmen.
fi ist hier die Funktion für den Knoten i. Im Allgemeinen sind
nicht alle Gene für das Expressionsverhalten eines Genes im
nächsten Timeslot relevant. Welch Gene hier Relevanz für den
jeweiligen Knoten besitzen zeigen die Werte bei ji an. Also die
Werte 5,2,4 bei der Funktion f1 geben an, dass Gen 1 von
diesen anderen Genen abhängig ist.
Da jedes Gen nur von 3 Variablen abhängig ist, reichen 8
Werte, die angeben wie sich das Gen bei allen Konstellationen
dieser Variablen verhalten. Der oberste Wert gehört also zur
Variablenbelegung 000 der nächste zu 001, 010, 011 usw. Die
erste Variable ist in diesem fall Gen 5, die Zweite Gen 2 und
die Dritte Gen 4. Auf diese Art und Weise ist das Netzwerk
hinreichend bestimmt.
Der einzige variable Faktor in dieser Simulation ist hier noch der Startzustand.
Der Nachteil dieser Art der Visualisierung ist, dass Zustandsänderungen deterministisch sind.
In der Realität reicht die Produktion eines Regulatorproteins noch nicht aus, um zu
gewährleisten, dass es die Regulatorfunktion auch sofort erfüllt. Dazu bedarf es noch anderer
Faktoren, wie örtlicher Affinität zu den Genen und Konzentration des Proteins.
Um auch diese Sachverhalte in bool’schen Netzwerken simulieren zu können, erweitert man
diese um die Möglichkeit pro Gen mehrere Funktionen anzugeben, die mit bestimmter
Wahrscheinlichkeit angewandt werden.
Die Abbildung zeigt ein stochastisches Bool’sches Netzwerk mit 3 Genen.
Visualisierung biochemischer Netzwerke
Seite 22/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
5.2 GeneVis
Ein anderer Ansatz zur Simulierung und Visualisierung von genetischen regulatorischen
Netzwerken kommt von einem Forscherteam der University of Calgary. Sie haben ein Tool
namens GeneVis entwickelt, mit dem regulatorische Netzwerke im genetischen Bereich
sowohl simuliert als auch visualisiert werden. Im Gegensatz zu den bool’schen Netzwerken
ermöglicht GeneVis, dass auch die örtliche Lage der Proteine und vor allem deren
Konzentration Einfluss auf das dynamische Verhalten des Netzwerks nimmt.
Dies wird erreicht, indem die Orte, an denen sich die Gene befinden fix sind und die Proteine
sich frei in einem abgegrenzten Raum bewegen. Diese Bewegung ist zufällig.
In diesem Screenshot von GeneVis
sehen wir einen großen Kreis, der ein
Chromosom darstellt und auf dem
Gene liegen. Die kleinen bunten
Punkte stellen die verschiedenartigen
Proteine dar. Bei der Simulation wird,
so wie bei den bool’schen Netzwerken
von diskreten Zeitpunkten
ausgegangen. In jedem Schritt
verändern sich die Positionen der
Proteine und Gene werden aktiviert
bzw. deaktiviert, je nach der
Konzentration der Regulatorproteine in
ihrer Umgebung. Diese Ansicht wird
in GeneVis die ProteinInteraktionsansicht genannt. Meistens
ist aber nicht die genaue Lage der
Proteine relevant sondern nur ihre
Konzentration in bestimmten
Regionen. Deshalb bietet GeneVis
auch eine Protein-Konzentrationsansicht, mit der nicht einzelne Protein, sondern nur
Konzentrationen angezeigt werden.
In diesem Bild sehen wir die
Konzentration aller Proteine im
Netzwerk. Es ist aber auch möglich die
Konzentration nur für ein bestimmtes
Protein anzuzeigen. Der Grad der
Abstrahierung der Konzentration kann
vom User eingestellt werden. Das heißt
der User kann angeben, in wie weit
GeneVis mehrere Proteine zu einer
„Fläche“ zusammenfassen soll. Ein Wert
von 50% würde hier bedeuten, dass 2
Proteine zusammengefasst werden, ein
Wert von 1,56%, dass 64 Proteine
zusammengefasst werden.
Die verschiedenen Ansichten können
aber auch lokal unterschiedlich sein. Das
heißt der User kann in bestimmten
Visualisierung biochemischer Netzwerke
Seite 23/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Bereichen des Netzwerkes die Konzentrationsansicht verwenden, in anderen die
Interaktionsansicht. Dies wird über das Konzept der Fuzzy Lenses in GeneVis realisiert.
Diese „Linsen“ dienen dazu einen bestimmten Bereich des Netzwerkes auszuwählen und dann
eine der drei Visualisierungsarten (Konzentrationsansicht, Interaktionsansicht oder beides
übereinander gelegt) auszuwählen. Auf diese Art und Weise ist es zum Beispiel möglich im
Netzwerk eine schematische Konzentrationsansicht anzuzeigen, aber für ein bestimmtes Gen
die genaue Interaktionsansicht herauszuzoomen.
Neben den Fuzzy Lenses gibt es GeneVis noch ein zweites Linsenkonzept, und zwar das der
Base Pair Lenses.
Die Gene werden in GeneVis an die Stelle auf dem Chromosomkreis gezeichnet, an der sie
sich auch in Wirklichkeit befinden. Das heißt Gene deren Basensequenzen nahe beieinander
liegen, liegen auch in GeneVis nahe beieinander. Das kann zur Folge haben, dass sich die
Kreise der Gene überlappen. Um das zu
verhindern wurden die Base Pair Lenses
eingeführt. Sie ermöglichen es bestimmte
Kreissektionen auf Kosten anderer zu
vergrößern. Das macht Sinn, weil es oft der
Fall ist, dass bestimmte Kreissektionen fast
keine Gene enthalten, während in anderen
Sektionen sich Gene sogar überlappen. Die
Abbildung zeigt wie die Kreissektion rechts oben gestreckt, und die Kreissektion links oben
geschrumpft wird.
Eine Schwäche der bisher präsentierten Konzepte ist, dass nicht klar ersichtlich ist, welche
Gene andere Gene beeinflussen. Diese wichtige Information kann durch eine andere Art der
Visualisierung, die ebenfalls in GeneVis inkludiert ist, veranschaulicht werden. Man geht
dabei von der Vorstellung aus, dass die Gene eine Hierarchie bilden. Das heißt, dass
bestimmte Gene gar nicht beeinflussbar sind, welche dann ganz oben in der Hierarchie stehen.
Andere Gene sind nur von diesen höchsten Genen beeinflussbar usw. Natürlich ist diese
Hierarchie nicht perfekt. Es können sowohl Interaktionen auf einer Hierarchieebene auftreten,
als auch Regulation, die von einer niedrigeren auf eine höhere Ebene gerichtet ist. Die
Entscheidung welche Gene sich auf welcher
Hierarchieebene befinden ist daher nicht immer
leicht und wird aufgrund von statistischen Daten
getroffen. Da auch Interaktionen innerhalb einer
Ebene möglich sind, ist die Visualisierung 3
dimensional. Die Punktierten Ringe sind die
Ebenen. Die bunten Linien stellen die
Interaktionen zwischen den Genen dar. Die
Farben haben folgende Bedeutungen: Eine
Regulierung von einer höheren auf eine niedere
Eben ist blau am Ausgangsort. Geht die
Regulierung von einer niederen auf eine höhere
Ebene, so ist die Linie am Ausgangsort
magentafarben. Spielt sich die Regulierung
innerhalb einer Ebene ab, dann ist sie am
Ausgangsort gelb.
Ist eine Linie am Ziel grün, dann induziert sie
Genproduktion, sonst ist sie rot und hemmt die Genproduktion.
Visualisierung biochemischer Netzwerke
Seite 24/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Um auch diese Ansicht noch übersichtlicher zu gestalten existiert das Konzept der Ring
Lenses. Mit ihnen ist es möglich bestimmte Hierarchieebenen zu vergrößern um Details
wahrnehmen zu können.
6. Zusammenfassung
Wir haben viele verschiedene Visualisierungsverfahren kennen gelernt. Allgemein kann man
sagen, dass jedes dieser Verfahren in bestimmten Anwendungsbereichen Sinn macht. Sicher
ist, dass die Informatik der Biochemie eine Fülle von Möglichkeiten zur Verfügung stellt, die
ohne computerisierte Unterstützung wohl undenkbar wären.
Der Einsatz von Technologien, die aus diesen Möglichkeiten folgen muss natürlich vor einem
ethischen Hintergrund diskutiert werden. Ich will zum Abschluss einige Beispiele angeben,
die zeigen, dass die biochemische Forschung auch Risiken mit sich bringt:
− Genpatentierung
− Prädikative Gentests (Die Gene ungeborener Kinder werden auf mögliche
Krankheiten untersucht. Werden defekte Gene gefunden werden die Kinder oft nicht
geboren. Ob die Krankheit jemals ausgebrochen wäre kann nie 100%ig eindeutig
gesagt werden.
− Recht auf Nichtwissen (Das Recht nicht wissen zu müssen, wie die eigenen Gene
beschaffen sind)
− Schutz von genetischen Daten
− Klonproblematik
− Stammzellenforschung
Das sind bei weitem nicht alle heiklen Themen die die Erforschung unseres eigenen Erbgutes
mit sich bringt. Man kann in diesem Zusammenhang nur hoffen, dass Zukunftsvisionen
mancher Buchautoren (Huxley, Orwell…) nicht Realität werden.
Visualisierung biochemischer Netzwerke
Seite 25/26
Visualisierung abstrakter Daten SS 2004
Felix Schernhammer TU Wien
Quellen:
− Albert Lehninger „Prinzipien der Biochemie“ SBW-02017465 Walter de Gruyter
Verlag 1987
− C. Stan Tsai „An introduction to computational biochemistry” Wiley-Liss Verlag 2002
− Visualisierungen wichtiger Biomoleküle http://www.biokurs.de/skripten/biomol1.htm
− Steffen Noe und Wolfgang Müller TU Darmstadt „Visualisierung von
molkularbiologischen und genetischen Daten“ http://eos.bio.tudarmstadt.de/steffen/report99.pdf.
− M.L. Lantin, M.S.T Carpendale Simon Frase University “Supporting Detail-inContext for the DNA Representation, H-Curves”
http://pages.cpsc.ucalgary.ca/~sheelagh/personal/pubs/hcurves.pdf
− Various articles on ChemDraw:
http://chemnews.cambridgesoft.com/products.cfm?language=&group=products&keyw
ord=2
− pdb Format Beschreibung http://www-lehre.inf.uos.de/~okrone/DIP/node27.html
− Chime Beschreibung und download
http://www.mdl.com/products/framework/chime/index.jsp
− Carsten Friedrich, Falk Schreiber „Visualisation and navigation methods for typed
protein-protein interaction networks“
http://bioconf.otago.ac.nz/papers/ABI-2-3-suppl-Friedrich.pdf
− Adam Wright „Visualization of biological networks by Selective Reduction and Force
Direction“ http://www.stanford.edu/~adamatw/graphs/bionets.pdf
− Ulrik Brandes, Tim Dwyer, Falk Schreiber “Visualizing Related Metabolic Pathways
in Two and a Half Dimensions”
http://www.wilmascope.org/brandes03metabolicpathways.pdf
− Atsushi Doi, Sachie Fujita, Hiroshi Matsuno, Masao Nagasaki, Satoru Miyano
“Constructing biological pathway models with hybrid functional Petri nets”
http://www.bioinfo.de/isb/2004/04/0023/
− Atsushi Doi, Hiroshi Matsuno, Masao Nagasaki, Satoru Miyano “Hybrid Petri net
representation of genetic regulatory network”
http://www.smi.stanford.edu/projects/helix/psb00/matsuno.pdf
− Alla H. und David R. “Continious and hybrid Petri nets“
http://www.worldscinet.com/jcsc/08/0801/S0218126698000079.html
− Ilya Shmulevich, Edward R. Dougherty, Wei Zhang “From Boolean to Probabilistic
Boolean Networks as Models of Genetic Regulatory Networks”
http://www2.mdanderson.org/app/ilya/Publications/ProcIEEEpbnsurvey.pdf
− Ilya Shmulevich, Edward R. Dougherty, Wei Zhang, Seungchan Kim “Probabilistic
Boolean networks: a rule based uncertainty model for genetic regulatory networks”
http://www2.mdanderson.org/app/ilya/Publications/pbn1Bioinformatics.pdf
− S.A. Kauffmann “Kaufmann’s NK Boolean networks”
http://pespmc1.vub.ac.be/BOOLNETW.html
− C.A.H Baker, M.S.T Carpendale, P. Prusinkiewicz, M.G Surette “GeneVis:
Visualization Tools for Genetic Regulatory Network Dynamics”
http://pages.cpsc.ucalgary.ca/~sheelagh/personal/pubs/2002/baker-carp-vis02.pdf
Visualisierung biochemischer Netzwerke
Seite 26/26
Herunterladen