Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Visualisierung biochemischer Netzwerke Seminararbeit im Rahmen des Seminars Visualisierung abstrakter Daten am Institut für Algorithmen und Datenstrukturen der technischen Universität Wien erstellt von Felix Schernhammer unter der Betreuung von Dr. Andreas Kerren Visualisierung biochemischer Netzwerke Seite 1/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Inhaltsverzeichnis Einleitung und Motivation ......................................................................................................... 3 1. Biochemische Grundlagen: .................................................................................................... 4 1.1. Die Proteinsynthese (Proteinbiosynthese)....................................................................... 4 1.1.1. Die DNA als Bauplan für Proteine........................................................................... 4 1.1.2 Produktion der Proteine............................................................................................. 5 1.1.3 Die Regulation der Proteinsynthese .......................................................................... 8 1.2 Andere biochemische Prozesse: ....................................................................................... 8 2. Visualisierung von Biomolekühlen:....................................................................................... 9 2.1 Visualisierung von Sequenzen: ........................................................................................ 9 2.2 2D Visualisierung von Molekülstrukturen..................................................................... 12 2.3 3D Visualisierung von Biomolekülen ............................................................................ 13 3. Molekülinteraktionen ........................................................................................................... 14 4. Metabolische Pfade .............................................................................................................. 18 5. Regulatorische Netzwerke ................................................................................................... 21 5.1 Bool’sche Netzwerke ..................................................................................................... 21 5.2 GeneVis.......................................................................................................................... 23 6. Zusammenfassung................................................................................................................ 25 Quellen: .................................................................................................................................... 26 Visualisierung biochemischer Netzwerke Seite 2/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Einleitung und Motivation Die Entschlüsselung des menschlichen Genoms darf als Meilenstein der zeitgeschichtlichen Forschung angesehen werden. Allerdings ergeben sich aus den Ergebnissen dieser Entschlüsselung keine direkt brauchbaren Ergebnisse. Denn auch wenn wir DNA Abschnitte sichtbaren Merkmalen zuordnen können, so ist es bereits viel schwieriger zu erklären wie der biochemische Weg von einer Abfolge von Basen zu einem bestimmten Merkmal ist. Diese (und andere) Fragen sind derzeit Gegenstand der Forschung. Das Problem reduziert sich im Wesentlichen darauf, zu erfassen was unsere körpereigenen Proteine tun und wie sie interagieren. Leider sind solche Interaktionsnetzwerke riesig und somit nicht durchschaubar. Die Lösung für dieses Problem sind geeignete Visualisierungsverfahren, die es den Biochemikern ermöglichen relevante Eigenschaften aus unüberschaubaren Netzwerken herauszufiltern. Aber auch andere Aufgaben können mit Visualisierungstechniken erfüllt werden. Als Beispiel sei hier die Simulierung von dynamischen Netzwerken für längere Zeiträume erwähnt. Diese Arbeit setzt es sich zum Ziel einen Überblick über derzeit gängige Visualisierungsstrategien im Bereich der Biochemie zu geben, und gegebenenfalls konkurrierende Ansätze zu vergleichen. Es werden dabei statische wie z.B. Molekülvisualisierung, und auch dynamische Visualisierungen betrachtet (z.B. regulatorische Netzwerke). Im ersten Kapitel erfolgt eine Einführung in die notwendigen biologischen Grundlagen. Ich beschränke mich hierbei auf den Vorgang der Proteinsynthese, weil er im Mittelpunkt des wissenschaftlichen Interesses steht. Es darf aber nicht vergessen werden, dass es viele andere biochemische Prozesse gibt. Die Nachfolgenden Kapitel stellen Visualisierungsmethoden für verschiedne Arten von biochemischen Netzwerken vor. Visualisierung biochemischer Netzwerke Seite 3/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien 1. Biochemische Grundlagen: 1.1. Die Proteinsynthese (Proteinbiosynthese) 1.1.1. Die DNA als Bauplan für Proteine Bekanntlich wird die gesamte Erbinformation jedes Lebewesens in Chromosomen gespeichert. In jeder Zelle (ein Mensch besteht aus ca. 60 Billionen Zellen) befindet sich eine identische Kopie dieser Chromosomen. Die Anzahl der Chromosomen variiert jedoch zwischen den Lebewesen (Mensch: 46). Nun sind alle Chromosomen Teile der DNA (Desoxyribonukleinsäure) und bestehen aus Genen, welche wiederum kleinere Abschnitte der DNA sind. Die DNA selbst besteht aus vier verschiedenen Basen (Adenin, Thymin, Cytosin und Guanin), deren Sequenz ausschlaggebend für die Erbinformation ist. Sie hat die Form einer gegenläufig verdrillten Doppelhelix. Die „Sprossen“ dieser Leiterstruktur sind die genannten Basen, die Holme bestehen aus Desoxyribose und Phosphatsäure, deren Hauptaufgabe darin besteht die vertikale Bindung des DNA Stranges aufrechtzuerhalten. Die Abbildung zeigt die Visualisierung eines DNAAbschnitts mit dem Tool „MDL sculpt“ der Firma MDL (Molecular Design Limited). Das 3 dimensionale Bild kann beim Betrachten auch gedreht bzw. umformatiert werden. Dazu ist das frei erhältliche tool „chime“ derselben Firma notwendig. Die Farben stehen in diesem Bild für die Atome, die am Aufbau der DNA beteiligt sind: Orange: Phosphat Rot: Sauerstoff Grau: Kohlenstoff Blau: Stickstoff Wasserstoff würde aus Gründen der Übersichtlichkeit weggelassen. Die DNA besteht grob gesagt aus drei Bestandteilen: − Phosphorsäure (PO4): Sie ist im Bild leicht erkennbar an den orangen Stellen. Man sieht auch sehr leicht, dass das Phosphoratom Bindungen mit 4 Sauerstoffatomen eingeht. Die Stelligkeiten der Bindungen sind in diesem Bild nicht erkennbar. − Zucker (Desoxyribose C5OH7): Dieser Zucker ist namensgebend für die DNA und ist die Verbindung von Phosphatsäure und den organischen Basen (s.u.). − Organische Basen (die oben genannten Adenin, Thymin, Cytosin, Guanin). In die Sequenz dieser Basen ist der genetische Code des Lebewesens codiert. Es können sich immer nur zwei Basen verbinden, nämlich Adenin und Thymin, und Cytosin und Guanin. (diese werden durch Wasserstoffbrücken verbunden). Doch was genau codiert diese Sequenz von organischen Basen eigentlich? Es sind Strukturen von Proteinen. Proteine sind aus Aminosäuren aufgebaut, derer es 20 gibt. Die Sequenz dieser Visualisierung biochemischer Netzwerke Seite 4/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Aminosäuren sowie die Sekundärstruktur (räumliche Anordnung der Molekühle aufgrund physikalischer und chemischer Eigenschaften) und Tertiärstruktur (räumliche Anordnung der Moleküle um bestimmte Eigenschaften des Proteins zu erzielen) bestimmen welche Eigenschaften das Protein hat. Bevor wir nun auf die Synthese, also die Erzeugung von Proteinen eingehen, stelle ich einige Funktionen vor, die Proteine in unserem Körper erfüllen, damit offensichtlich wird, wie wichtig Proteine für den Menschen sind: − Enzyme: Sie werden als Katalysator für chemische Reaktionen benötigt. Fast alle biochemischen Vorgänge in unserem Körper benötigen bestimmte Enzyme um in Gang zu kommen. Es gibt zum Beispiel 20 verschieden Enzyme, die die Bindung von Aminosäuren an die verschiedenen t-RNAs (transfer RNA) katalysieren. − Transportproteine: Sie binden bestimmte Stoffe an sich und können sie durch den Körper transportieren. Ein Beispiel hierfür wäre das Hämoglobin, das Sauerstoff in der Lunge an sich bindet und zu den peripheren Körperregionen transportiert. − Nährstoff- und Speicherproteine: die Samen vieler Pflanzenzellen speichern Nährstoffproteine, die für das spätere Wachstum essentiell sind. Ein weiteres Beispiel ist das Ferritin, das Eisen speichern kann. − Strukturproteine: Viele Proteine dienen als stützende Elemente um biologischen Strukturen Stabilität und Schutz zu verleihen. In Sehnen und Knorpel ist beispielsweise das Protein Collagen enthalten. Haare und Fingernägel bestehen u. a. aus Keratin. − Verteidigungsproteine: Sie schützen den Organismus vor dem Eindringen anderer Spezies oder bewahren ihn vor Verletzungen. Die Thrombozyten (Blutplättchen) beispielsweise verhindern Blutverlust bei Gefäßverletzungen. Leukozyten (weiße Blutkörperchen) verteidigen den Körper gegen Bakterien. − Regulatorische Proteine: Sie induzieren bzw. hemmen bestimmte Vorgänge im Körper. Sie spielen eine wichtige Rolle bei der Genregulation, und der Visualisierung derselben mit GeneVis. Als Vertreter wäre hier u.a. das Insulin zu nennen, das den Zuckerstoffwechsel im Körper reguliert. − Sonstige: Es gibt noch viele Proteine, deren Eigenschaften nicht in die oben genannten Gruppe passen. 1.1.2 Produktion der Proteine Um Proteine tatsächlich erzeugen zu können muss eine Kopie des betreffenden Gens erzeugt werden. Diese Kopie liegt als RNA vor und wird als m-RNA(messenger RNA) bezeichnet. (Der Vorgang des Kopierens wird als Transkription bezeichnet). Die m-RNA enthält also die Abfolge der Aminosäuren, die das entsprechende Protein charakterisiert. Da es nur 4 Basen, aber 20 Aminosäuren gibt, müssen pro Aminosäuren Codewörter verwendet werden, die mindestens 3 Zeichen (=Base) lang sein müssen. (weil 42 < 20 <43) Ein solches Basentripel wird Codon genannt. Nun kann eine Aminosäure nicht direkt mit einem Basentriplett in Verbindung gebracht werden, deshalb wird ein Adapter benötigt. Dieser Adapter wird t-RNA genannt, und er stellt die Verbindung zwischen der Basensequenz und der Aminosäure her. Dies geschieht, indem am einen Ende der t-RNA eine Verbindung mit der Aminosäure eingegangen wird. Am anderen Ende befindet sich das zugehörige Tripel in invertierter Form, denn es muss ja mit dem ursprünglichen Codon eine Verbindung eingegangen werden. Dies kann nur erreicht werden, wenn sich das Tripel der t-RNA mit dem Codon verbinden kann, was aber nur möglich ist, wenn zu einer Base am Codon die Base in der t-RNA in dem Sinne Visualisierung biochemischer Netzwerke Seite 5/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien invers ist, dass die beiden eine Bindung eingehen können. Das Basentripel in der t-RNA wird deshalb auch Anticodon genannt. Wenn sich die t-RNA an die m-RNA bindet werden die Aminosäuren in räumliche Nähe gebracht und gehen Peptidbindungen ein, weshalb Proteine Polypeptide sind. Die Abbildung zeigt den gesamten Vorgang der Proteinsynthese. Die Peptidbindungen sind hier grün dargestellt. Die DNA speichert Informationen redundant, weil aus einem Strang der Andere eindeutig folgt. Die Bezeichnung codogener Strang bezieht sich nur darauf welcher Strang für die Transkription verwendet wird. Der eigentliche Vorgang der Proteinsynthese lässt sich nun in 5 Teile zerlegen: 1. Aktivierung der Aminosäuren 2. Initiation der Polypeptidkette 3. Elongation 4. Termination und Freisetzung 5. Faltung Diese 5 Stufen werden unter dem Begriff Translation zusammengefasst. ad 1: Zuerst müssen die Aminosäuren an die entsprechenden t-RNAs gebunden werden. Das passiert in dieser Stufe, die im Gegensatz zu den anderen Stufen, die in den Ribosomen (Teil jeder Zelle) stattfinden, im Cytosol (wässrige Lösung, die sich im Zwischenraum der Visualisierung biochemischer Netzwerke Seite 6/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Zellorganellen befindet) stattfindet. Wie bereits erwähnt existiert bei diesem Vorgang für jede der 20 Aminosäuren ein eigenes Enzym, das diesen Vorgang katalysiert. Im Bild oben kann man die Struktur eines t-RNA Moleküls erkennen. Man sieht unten in gestricheltem Rahmen das Codon mit dazugehörigem Anticodon der m-RNA. Am 3’ Ende des Moleküls, oben im Bild, verbindet sich die RNA mit der entsprechenden Aminosäure. Die beiden Arme links und rechts spielen bei der Proteinsynthese keine Rolle. Auffällig im Bild ist noch, dass das Basentripel des Anticodons eine Säure mit dem Buchstaben I enthält. Diese Base heißt Inosin. Inosin kann sich mit drei verschiedenen Basen binden, und zwar Adenin, Cytosin und Uracil. (Uracil kommt ausschließlich in RNA vor, und ersetzt bei der Transkription die Base Thymin der DNA, die in RNAs nicht mehr vorkommt). Der Vorteil der sich ergibt wenn Inosin im Anticodon verwendet wird ist nun der Folgende: Es gibt 20 verschiedene Aminosäuren aber 64 mögliche Basentripel um diese zu codieren. Deshalb gibt es für eine Aminsäure mehrere gültige Basentripel. Und es ist dabei eine Rangordnung von der „most significant“ zur „least significant“ Base zu erkennen. Einige Aminosäuren sind nun allein durch die ersten beiden Basen bestimmt. An die dritte Stelle kommt sozusagen eine Wildcard, das Inosin. Der Vorteil in dieser Vorgangsweise ist der, dass die Verbindung von Inosin zu einer Base viel schwächer ist als die herkömmlichen Verbindungen und somit schneller wieder gelöst werden kann. (denn natürlich müssen t-RNA und m-RNA nach der Translation wieder getrennt werden). „Die biochemische Evolution hat demnach für die meisten Codon-Anticodon-Wechselwirkungen das Optimum an Genauigkeit und Geschwindigkeit gefunden“ ([Lehn] S. 985). ad 2: Zunächst wird in dieser Phase die m-RNA an das Ribosom gebunden. Dann wird die erste (initiierende) Aminosäure, die an der t-RNA „hängt“ dazugefügt. Es gibt zu diesem Zweck ein Basentripel („Startcodon“), das den Anfang einer Polypeptidkette signalisiert. ad3: Nun wird jede weitere Aminosäure durch ihre t-RNA, die an das jeweilige Codon der m-RNA andockt, in räumliche Nähe zur vorangehenden Aminosäure gebracht, worauf diese beiden dann eine Peptidbindung eingehen. Dieser Vorgang wiederholt sich beliebig oft. ad 4: Die Termination der Elongation wird durch so genannte Nonsense Tripletts herbeigeführt. Der Name stammt aus den Anfängen der Erforschung der Proteinsynthese. Man erkannte nämlich nicht gleich die Bedeutung als Terminationscodons, sondern wunderte sich zunächst darüber, dass diese Sequenzen für keine Aminosäure kodieren. Es gibt drei verschiedene Nonsense Tripletts (UAA, UAG, UGA). Wird ein nun ein solches Triplett erreicht, löst sich die Polypeptidkette von der t-RNA und diese löst ihre Bindungen mit der mRNA. ad 5: Nicht nur die Aminosäurensequenz ist für die Eigenschaften eines Proteins entscheidend, sondern auch die räumliche Struktur (Tertiärstruktur). In der letzten Phase wird durch Enzyme gewährleistet, dass das Protein die richtige räumliche Struktur erhält. (Primärstruktur: Aminosäurensequenz, Sekundärstruktur: räumliche Anordnung, die allein durch physikalische und chemische Eigenschaften der beteiligten Molekühle (z.B. Ladung) zustande kommt.) Visualisierung biochemischer Netzwerke Seite 7/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien 1.1.3 Die Regulation der Proteinsynthese Bisher haben wir uns nur darüber Gedanken gemacht wie die Proteinsynthese funktioniert nicht aber, wie der Vorgang induziert bzw. beendet wird. Um den Bedarf an bestimmten Proteinen zu erfüllen muss die Produktion der Zellen kontrolliert werden. Diese Kontrolle der Proteinkontrolle wird unter dem Begriff Genregulation zusammengefasst. Im Wesentlichen ist die Produktion von Proteinen durch das Vorhandensein bzw. Nichtvorhandensein anderer oder derselben Proteinen abhängig. Zunächst gibt es sog. Induzierbare Enzyme. Die Konzentration solcher Enzyme in der Zelle kann variieren. Zum Beispiel können solche Enzyme die Aufgabe haben bestimmte Stoffe in der Zelle abzubauen, oder umzuwandeln. Die Anzahl der Enzyme hänge dann davon ab, wie viel von dem Ausgangsstoff (=Substrat) vorhanden ist. Ist eine große Menge des Substrats in der Zelle, so wird die Produktion von Enzymen, die den Stoff verarbeiten können induziert. Dieser Vorgang wird auch Substratinduktion genannt. Es gibt auch sog. Konstitutive Enzyme, deren Vorkommen in der Zelle konstant ist. Nur bei prokaryotischen Zellen (Zellen mit Zellkern, alle „höheren“ Lebewesen sind Prokaryoten. Das Gegenstück dazu sind Eukaryoten. Das sind einzellige Bakterien ohne Zellkern) ist auch eine Repression der Proteinsynthese möglich. Dabei wird analog zur Substratinduktion durch ausreichendes Vorhandenseins eines Produktes, das ein Enzym synthetisieren würde, die Produktion des Enzyms gehemmt. 1.2 Andere biochemische Prozesse: Natürlich gibt es neben der Proteinsynthese noch eine Reihe anderer biochemischer Prozesse. Diese spielen in der Wissenschaft aber nur eine untergeordnete Rolle, weil Sie zumeist bereits hinreichend erforscht sind (z.B. Muskelaktivität). Das Hauptaugenmerk der biochemischen Forschung richtete sich in den letzten Jahren auf die Entschlüsselung des genetischen Codes des Menschen. Das heißt man versuchte herauszufinden welch Teile der DNA für Proteine codieren und welche nicht, (Teile, die für Proteine kodieren werden Exons genannt, die anderen Introns.) und welche Exons für welche Merkmale verantwortlich sind. Die Entschlüsselung der DNA Sequenz an sich, die ja für jeden Menschen eindeutig ist, ist bereits früher gelungen. Mit dieser Kenntnis des menschlichen Genoms wäre es nun möglich das menschliche Erbgut gezielt zu verändern (also Genmanipulation zu betreiben), was aber ethisch (noch) umstritten ist. Ganz im Gegensatz dazu steht die Genmanipulation von Bakterien. Sie kann dazu verwendet werden um Bakterien, bestimmte, für den Menschen nützliche, Stoffe produzieren zu lassen. Die derzeit ausgeübte Genmanipulation beschränkt sich darauf Gene, die in der Natur bereits vorkommen in andere Lebewesen „einzupflanzen“. Ein ganz anderer Ansatz ist hingegen die Proteine, die durch die DNA kodiert werden, an sich zu erforschen und zu versuchen für bestimmte gewünschte Funktionalitäten die entsprechenden DNA Sequenzen zu finden. Auch in diese Richtung wird zur Zeit mehr oder weniger intensiv geforscht. Diese Arbeit wird sich in weiterer Folge mit der Visualisierung aller zur Erforschung der Proteinsynthese wichtigen Vorgänge beschäftigen. Zuerst wird die Visualisierung von Biomolekühlen behandelt. Darunter fallen die Visualisierung der DNA in den verschiedensten Ausprägungen, von der Sequenzvisualisierung bis zur zur 3D animierten Visualisierung. Visualisierung biochemischer Netzwerke Seite 8/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien 2. Visualisierung von Biomolekühlen: Im Wesentlichen existieren 3 verschieden Arten der Visualisierung von Biomolekülen. Zuerst die Eindimensionale, die vor allem zur Visualisierung von DNA und RNA verwendet wird und das Molekül als Sequenz von anderen Molekülen im Textformat darstellt. Um zusätzlich dazu die chemischen Verbindungen zwischen den Molekülen darzustellen, verwendet man 2dimensionale Grafiken. Und um die räumliche Struktur der Teilchen zu veranschaulichen, verwendet man 3D Grafiken bzw. Animationen. 2.1 Visualisierung von Sequenzen: Bei der Sequenzvisualisierung wird versucht die Sequenz eines Moleküls (sofern ein Molekül gut durch eine Sequenz beschrieben werden kann, was bei der DNA auf jeden Fall der Fall ist) durch eine Folge von Buchstaben zu visualisieren. Im Falle der DNA sind das nur 4 Buchstaben (nämlich die der vier Basen). Will man jedoch zum Beispiel die Aminosäurensequenz eines Proteins visualisieren sind bereits mehrere Buchstaben nötig. Eines der Standardtools zur Sequenzvisualisierung ist SeqLab (Accelry’s). Es bietet neben der reinen Visualisierung der Sequenz die Möglichkeit Teilbereiche farblich hervorzuheben. In dieser Abbildung sind die Sequenzen einiger Proteine abgebildet. Es ist hier zu beachten, dass nicht jede der 20 Aminosäuren eine eigene Farbe hat, sondern die Aminosäuren nach bestimmten Kriterien gruppiert werden. Visualisierung biochemischer Netzwerke Seite 9/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Der Grund warum die Sequenzvisualisierung aber von solch großer Bedeutung ist, ist nicht die Tatsache, dass man aus dieser Buchstabenrepräsentation einen besonders guten Eindruck über das Aussehen eines Proteins bekommt, sondern, dass aufgrund solcher Visualisierung und mithilfe der Visualisierungstools Homologievergleiche angestellt werden können. Es werden also verschieden Strukturen auf Ähnlichkeiten hin untersucht. Auf diese Weise ist es möglich bestimmte Aminosäurensequenzen bestimmter Proteine mit einer ganz spezifischen Funktion des Proteins in Verbindung zu bringen und dadurch ein noch gezielteres Wissen darüber zu erhalten wofür DNA Teilabschnitte verantwortlich sind. Mit diesem Wissen wäre es dann auch möglich eigene Gene zu kreieren, die ganz spezifische Funktionen erfüllen. Die Technik des Homolgievergleichs wird auch dazu verwendet die Funktion unbekannter Sequenzen durch Findung homolger Teilsequenzen zu beschreiben. SeqLab bietet u.a. die Möglichkeit einer Kodierung von einzelnen Elementen oder Teilsequenzen durch graphische Objekte vorzunehmen. Dies kann dazu verwendet werden auftretende Homologien für den Menschen leicht ersichtlich zu machen. In dieser Grafik werden mehrere Proteine gezeigt, deren Merkmale graphisch kodiert wurden. Auf diese Weise ist ihre Ähnlichkeit offensichtlich. Ein anderer Zugang zur Sequenzvisualisierung, der von M.L. Lantin und M. S. T. Carpendale beschrieben wird, ist die Sequenzvisualisierung mittels H-Kurven. Dieser Zugang ist nur zur Visualisierung von DNA und RNA sinnvoll, da bei zu vielen verschiedenen Sequenzelementen das Ergebnis unlesbar ist. Die Visualisierung spielt sich in einem zur Visualisierung geeigneten 3-dimensionalen Vektorraum ab. In diesem wählt man ein Erzeugendensystem, das so viele Vektoren Visualisierung biochemischer Netzwerke Seite 10/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien beinhaltet, wie es verschiedene Sequenzelemente gibt. Im Falle der DNA wären das die Basen ACTG, also wird ein 4-elementiges Erzeugendensystem eines 3 dimensionalen Vektorraums benötigt. Dieses könnte zum Beispiel so aussehen: Die Sequenzvisualisierung wird nun durch einen Linienzug verwirklicht, der an dem Punkt (0,n,0) beginnt. „n“ steht hierbei für die Anzahl der Basen, die man visualisieren möchte. Die vertikale Änderung jedes der Basisvektoren beträgt 1. Zur Illustration betrachte man das Beispiel der Sequenz ACT. Der Ausgangspunkt ist hier (0, 3, 0). Der Vorteil bei dieser Art der Visualisierung besteht vor allem darin, statistische Informationen visualisieren zu können. Aus diesem Grund besteht auch die Möglichkeit die Kurve zu glätten, um globale Basenkonzentrationen besser sehen zu können, und Lokale zu vernachlässigen. Es ist aber auch leicht möglich durch Projektionen auf eine der drei durch die Koordinatenachsen aufgespannten Ebenen bestimmte Informationen abzulesen. Projiziert man in unserem Beispiel auf die Ebene, die durch die Koordinatenachsen y und z aufgespannt wird, so kann man die Konzentration von Purinbasen (Adenin und Guanin) und Pyrimidinbasen (Cytosin und Thymin (und Uracil)) sehen. Visualisierung der Sequenz ACT Projektionen auf die Koordinatenebenen Man kann im zweiten bild der rechten Grafik leicht erkennen, dass in unserem Beispiel die Purinbasen überwiegen. Natürlich arbeitet man in der Praxis mit viel größeren Sequenzen. Dabei ist es nützlich Farben zur besseren Übersichtlichkeit zu verwenden. Es gibt hier unterschiedliche Möglichkeiten die Farbe als zusätzliche Dimension einzubinden. Die einfachste Möglichkeit ist den Vektor jeder Base, in einer spezifischen Farbe darzustellen. Eine zweite Möglichkeit ist Exons, das heißt Gene, farblich hervorzuheben. Dazu noch je ein Beispiel: Visualisierung biochemischer Netzwerke Seite 11/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Im linken Bild kann man die farbliche Hervorhebung der einzelnen Basen erkennen. Im rechten Bild werden die Gene hervorgehoben. Man erkennt hier auch noch die Möglichkeit Bereiche herauszuzoomen, um Basensequenzen einzelner Gene genauer zu betrachten. 2.2 2D Visualisierung von Molekülstrukturen In diesem nächsten Schritt der Molekülvisualisierung wird die Betrachtung um eine Dimension erweitert. Diese Dimension ist die Verbindung zwischen den Atomen bzw. Molekülen, die in Stufe 1 die Sequenz gebildet haben. Die räumliche Anordnung spielt hierbei noch eine untergeordnete Rolle, vielmehr ist wichtig zwischen welchen funktionalen Atomgruppen Bindungen auftreten. Die Firma CambridgeSoft stellt ein Tool namens ChemDraw zur Verfügung mit dem solche 2-dimensionalen Strukturen visualisiert werden können. Visualisierung biochemischer Netzwerke Seite 12/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Das sind einige Visualisierungen, die mit ChemDraw erstellt wurden. Ein weiteres sehr ähnliches Tool ist ISIS Draw von MDL (s.o.). 2.3 3D Visualisierung von Biomolekülen Durch 3D Visualisierungen kann die tatsächliche räumliche Struktur von Molekülen visualisiert werden. Zum einen ergibt sich diese Struktur durch Kräfte, die zwischen den Molekülen bzw. Atomen wirken. Die Struktur, die durch diese Kräfte (z.B. Van der Waals Kräfte) entsteht ist von minderem Interesse für die Wissenschaft, weil durch sie meist keine neuen Eigenschaften des Moleküls gebildet werden. Zum anderen werden bestimmte Moleküle so geformt, dass sie durch eben diese Form zusätzliche Eigenschaften erhalten. (vgl. Tertiärstruktur von Proteinen (s.o.)) 3D Visualisierungen können natürlich aus den oben genannten 2D Visualisierung mittels der Plugins ADD/3D für ISIS Draw und Chem 3D für ChemDraw erzeugt werden. Das Standardverfahren um Moleküle 3-dimensional zu visualisieren ist allerdings das erzeugen eines .pdb Files. In diesen Files wird jedes Atom mit den dazugehörigen Koordinaten im 3dimensionalen Raum (und zusätzlichen Eigenschaften (u.a. Ladung)) gespeichert. Es gibt nun mehrere Tools, die in der Lage sind aus solchen Dateien 3D Visualisierung zu erzeugen. Zwei der bekanntesten sind Chime von MDL und das Freeware-Tool RasMol von Roger Sayle. Visualisierung biochemischer Netzwerke Seite 13/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Visualisierung eines Viagra Moleküls mit dem Tool Chime von MDL mit einem Ausschnitt aus dem dazugehörigen pdb File. 3. Protein Protein Interaktionen Natürlich ist die statische Visualisierung von Molekülen für viele Aufgabenstellung in der Biochemie unzureichend. Wichtiger als die Struktur der Moleküle ist deren Interaktion. In der Literatur ist der Begriff der Protein-Proteininteraktion gebräuchlich, da an fast allen chemischen Prozessen, die innerhalb von Zellen ablaufen, Proteine beteiligt sind. Diese Protein-Proteininteraktionen sind für das Verständnis der biochemischen Vorgänge in allen Organismen essentiell. Deshalb steht auch ihre Visualisierung im Mittelpunkt des wissenschaftlichen Interesses. Bei der Visualisierung solcher Netzwerke stehen vor allem die physikalischen Interaktionen der Proteine im Vordergrund. Im Gegensatz dazu stehen bei der Visualisierung von metoblischen Wegpfaden (seihe Kapitel 4), an denen ebenfalls fast immer Proteine beteiligt sind, die chemischen Vorgänge und Zwischenprodukte im Vordergrund. Die erste und intuitivste Art der Visualisierung ist die der Protein-Protein interaction maps. Eine solche map ist ein Graph dessen Knoten die Proteine (bzw. andere Stoffe) darstellen und dessen Kanten die Interaktionen sind. Für die Interaktionen gibt es normalerweise Klassifizierungen. Diese werden aber oft aus verschiedenen Gründen (Unübersichtlichkeit im Graph, Nichtkenntnis…) weggelassen. Für das Zeichnen des Graphen werden üblicherweise Algorithmen für das force directed graph drawing verwendet. Das heißt es wird angenommen, dass sich alle Knoten abstoßen und die Kanten Federn darstellen (also je zwei verbundene Knoten aneinander ziehen). (daher ist auch der Name spring algorithm (spring = engl. Feder) in der Literatur gebräuchlich). Es wird dann versucht einen Zustand mit einem möglichst niedrigen Energieniveau zu finden. Auf diese Art und Weise wird gewährleistet, dass Knoten die durch Kanten verbunden sind, auch räumlich nahe beieinander liegen. Visualisierung biochemischer Netzwerke Seite 14/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien In dieser Abbildung sehen wir eine PPI map. Die Nachteile dieser Visualisierungsmethode sind auf den ersten Blick offensichtlich. In dieser Ansicht sind weder die Proteinnamen noch die Interaktionen nahe am Zentrum zu erkennen. Es gibt hier keine Interaktionsklassifikationen. Würde man diese hinzufügen, so wäre die Grafik noch unübersichtlicher. Ein Versuch bestimmte Daten aus einem PPI Netzwerk herauszufiltern stammt von Carsten Friedrich und Falk Schreiber (University of Sydney und Bioinformatics Centre Gatersleben Deutschland). Sie versuchen alle Interaktionen eines bestimmten Typs zu visualisieren, während alle Interaktionen anderer Typen in den Hintergrund treten. Dies geschieht, indem ein virtueller Ring gezeichnet wird, in dessen Innerem alle Knoten sind, die an Interaktionen des gewählten Typs beteiligt sind. Alle anderen Knoten liegen außerhalb. Natürlich sind die Positionen der Knoten, wenn sie außerhalb des Kreises liegen bei einem Wechsel des relevanten Interaktionstyps fix. Außerdem wird der Wechsel zwischen zwei Graphen, die unterschiedliche Interaktionstypen fokussieren animiert vollzogen. Die beiden Wissenschaftler behaupten, dass dadurch der Benutzer einen besseren Überblick über den gesamten Graph erhält. Visualisierung biochemischer Netzwerke Seite 15/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Zwei PPI Netzwerke visualisiert mit dem Verfahren von Carsten Friedrich und Falk Schreiber Einen sehr viel versprechenden Ansatz stellt Adam Wright von der Stanford University vor. Er entwickelte eine Reihe von Programmen zur Extrahierung der relevanten Daten aus einem metabolischen Netzwerk. Er geht dabei von der Idee aus, dass vor allem jene Knoten im Netzwerk von großer Relevanz sind, die viele Verbindungen mit anderen Knoten aufweisen. Die Extraktion läuft in diesem Modell in drei Phasen ab: − Beschreibung der Daten im Gesamtnetzwerk: Hier wird für jeden Knoten im Graph der Hin- und Weggrad gespeichert. Die Abbildung zeigt am Beispiel des Netzwerkes von der vorangehenden Seite (Germbakterium), dass die Anzahl der Knoten mit sehr großem Grad verhältnismäßig klein ist. Die Kurve, die den Interaktionsgrad beschreibt ähnelt dem Funktionsgraf einer exponentiellen Funktion. Diese Tatsache ist typisch für metabolische Netzwerke, weswegen der hier beschriebene Visualisierungsansatz in der Praxis oft eingesetzt werden kann. − Im zweiten Schritt werden die Knoten ausgewählt, die visualisiert werden sollen. Das kann auf zwei Arten passieren. 1. Es wird ein Wahrscheinlichkeitsmodell benutzt, um die höchstgradig verbundenen Knoten auszuwählen. Dabei wird auch darauf geachtet, dass die Kantengewichte zwischen den jetzt verbleibenden Knoten gering sind. z.B.: Ein Knoten, der zwar hochgradig mit anderen Knoten verbunden ist, aber weit weg vom Zentrum liegt, ist für de Visualisierung nicht so interessant wie ein Knoten, der zwar nicht so stark verknüpft ist, dessen Nachbarn aber wieder hohe Grade besitzen. 2. Die zweite Möglichkeit ist, dass der Benutzer einen oder mehrere Knoten von Interesse auswählt und dann ausgehend von den gewählten Knoten, alle Knoten, die mit diesen in Verbindung stehen visualisiert werden. Diese Art der Visualisierung biochemischer Netzwerke Seite 16/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Knotenauswahl ist besonders hilfreich wenn Wissenschaftler die Funktion bestimmter Proteine herausfinden möchten (was einen großen Teil der biochemischen Forschung ausmacht), weil im entstehenden Graph einfach abzulesen ist, mit welchen anderen Stoffen das Protein interagiert. − Der dritte Schritt ist die Visualisierung der in Stufe 2 gewonnen Resultate. Hierbei sind die üblichen Probleme bei der Graphenvisualisierung zu beachten (möglichst kleine Visualisierungsfläche, wenig Kantenkreuzungen, Knoten sollen möglichst weit entfernt sein, Kanten sollen Länge entsprechend ihrem Gewicht haben). Um diese Kriterien zu erfüllen wird das schon besprochene force directed graph drawing verwendet. Die Abbildung gibt einen Überblick über die 3 Phasen im Modell von Adam Wright. Fettgedruckt sind jeweils die Namen der Programme, die die entsprechenden Schritte ausführen können. Der erste Visualisierungsschritt (el2dot) ist nur eine Konvertierung interner Formate, und wurde daher in der Auflistung oben übergangen. Hier ein Ergebnis der Reduktion durch Auswahl der höchstgradigen Knoten am Beispiel des Germbakteriums (siehe 2 Seiten davor). Visualisierung biochemischer Netzwerke Seite 17/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien 4. Metabolische Pfade Wie bereits im vorigen Kapitel erwähnt beschreiben metabolische Pfade chemische Reaktionsfolgen. Die dabei entstehenden Zwischenprodukte werden Metaboliten genannt. Formal sind metabolische Pfade so definiert: Ein metabolischer Pfad (metabolic Pathway) ist eine Abfolge chemischer Reaktionen mit folgenden Eigenschaften: − Jedes Molekül, das auf dem Pfad liegt unterscheidet sich von allen anderen Molekülen auf demselben Pfad − Jedes Substrat wird in eine Substanz umgewandelt, die für die folgende Reaktion als Ausgangsstoff dient. Dies gilt natürlich nicht für die letzte Reaktion, in der das Endprodukt der Gesamtreaktion erzeugt wird − Die Reaktionsfolge ist in eine Richtung gerichtet und in den meisten Fällen irreversibel. − Die Gesamtreaktion benötigt mehrere Enzyme, die verschiedene Funktionen erfüllen. Man unterscheidet zwischen anabolischen und catabolischen Pfaden. Anabolische Pfade sind Reaktionen, bei denen aus einfachen Molekülen komplex Strukturierte synthetisiert werden. Dazu muss Energie zugeführt werden (ATP). Catabolische Pfade sind Reaktionen, bei denen aus komplexen Molekülen Einfachere erzeugt werden. Dabei wird Energie in Form ATP frei. Auf den ersten Blick könnte man nun sagen, dass man alle catabolischen Reaktionen beschreiben kann, wenn man die inversen Reaktionen der Anabolischen betrachtet. Das ist aber im Allgemeinen nicht richtig, weil in jedem metabolischen Pfad eine Reaktion vorkommen muss, die irreversibel ist. Die einfachste Weise einen solchen metabolischen Pfad zu visualisieren, ist durch eine gerichteten Graphen bzw. Hypergraphen. (i.e. Graph bei dem die Bedingung, dass eine Kante genau zwei Knoten verbinden muss nicht gilt. Eine Kante kann also auch mehrere Knoten verbinden) Hierbei gibt es zwei Möglichkeiten. Einerseits kann man die Zwischenprodukte durch die Knoten darstellen, andererseits kann man die Reaktionen an sich durch die Knoten darstellen. Im ersteren Fall stellen die Kanten die Reaktionen dar im zweiten Fall die Substanzen, die zum Triggern der Teilreaktionen benötigt bzw. produziert werden. Eine Verbindung dieser zwei Möglichkeiten stellt eine Repräsentation der Pfade durch Petri-Netze dar. Hier sind sowohl Reaktionen, als auch Substrate Knoten und die Kanten setzt diese in Beziehung. Es ist hier erwähnenswert, dass in einem solchen Petri-Netz nur Substratknoten mit Reaktionsknoten verbunden werden dürfen. Es darf also keine direkte Beziehung zwischen zwei gleichartigen Knoten geben, was der Definition von metabolischen Netzwerken sehr gut entspricht. Ein Visualisierungsansatz, der in diese Richtung geht kommt von einem Forschungsteam der Yamaguchi Universität Japan und der University of Tokio. Sie stellen hybrid funktionale Petri Netze vor. Hybride Petri Netze wurden schon von Hassane Alla und René David vom Laboratoire d'Automatique de Grenoble vorgestellt. Dabei wird das herkömmliche Petri Netz um folgende Aspekte erweitert: − Den Substratknoten wird ein nichtnegativer reeller Zahlenwert zugewiesen. Auf diese Weise ist es möglich nicht nur das bloße Vorhandensein oder Nicht-Vorhandensein eines Stoffes darzustellen, sondern auch dessen Konzentration. Das ermöglicht auch die Erweiterung der Darstellung um stochastische Elemente. − Auch den Reaktionsknoten werden reelle Werte zugewiesen. Diese Werte geben die Zeitintervalle an, nach denen die Reaktion feuert (d.h. den Abschluss ihrer Ausführung an alle Nachfolger weiterleitet). Das Feuern ist hierbei unabhängig von der Konzentration des Substrats für diese Reaktion. Visualisierung biochemischer Netzwerke Seite 18/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien − Weiters führt man 3 Arten von Pfeilen ein, die alle mit einem Gewicht w versehen sind: Erstens gibt es ganz normale Pfeile, sie bewirken, dass w Einheiten eines Substrats einem Vorgang zugeführt werden bzw. dass w Einheiten von einem Vorgang zu einem Substratknoten hinzugefügt werden. Zweitens gibt es so genannte Repressorpfeile (inhibitory arcs), die es Reaktionen ermöglichen nur dann zu feuern, wenn im Substratknoten weniger als w oder w Einheiten des Substrats vorhanden sind. Drittens gibt es Testpfeile. Sie überprüfen beispielsweise, ob Substrat in einem Knoten vorhanden ist und veranlassen den nachfolgenden Reaktionsknoten zu feuern, ohne Substrat des Ausgangsknoten zu konsumieren. Das sind die graphischen Symbole für die oben beschriebenen Bestandteile eines hybriden PetriNetzes. Diskrete Substrate (in diesem Bild allg. places) und Reaktionen (transitions) sind kontinuierlich mit Wert 1. Die oben genannten japanischen Wissenschaftler erweitern diese hybriden Petri Netze noch um die Möglichkeit die Feuergeschwindigkeit der Reaktionen als Funktion der Substratkonzentration in den Quellsubstratknoten festzusetzen. Knoten mit dieser Eigenschaft werden als “functional continious transitions“ bezeichnet. Die Informationen, die nötig sind um einen solchen Graphen zu zeichnen, werden tabellarisch angegeben. Genauer gesagt sind alle Informationen mit einer Liste der Substratknoten und einer Liste der Reaktionsknoten hinreichend bestimmt. Dazu sind folgende Angaben für jede Reaktion nötig: − Name des Knotens − Typ des Knotens (diskret oder kontinuierlich) − Falls kontinuierlich. Zeitintervalle zwischen dem feuern. − Quelle(n) der eintreffenden Pfeile − Gewichte dieser Pfeile − Typ der eintreffenden Pfeile (normal, Repressorpfeil, Testpfeil) − Ziel der ausgehenden Pfeile − Gewicht dieser ausgehenden Pfeile Die obige Abbildung zeigt einen Ausschnitt aus einer Tabelle mit Beschreibungen der Reaktionen Für die Substratnoten sind folgende Angaben nötig: Visualisierung biochemischer Netzwerke Seite 19/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien − Name − Variable (über diese können Substratknoten in der Reaktionstabelle referenziert werden) − Initialwert Aus diesen Informationen kann ein entsprechendes Petri Netz gezeichnet werden. Zur Visualisierung dieser Information kann ein Tool verwendet werden, dass ebenfalls von diesen japanischen Wissenschaftlern entwickelt wurde. Sein Name ist GON (Genomic Object Net). GON arbeitet mit den eben vorgestellten erweiterten Petri Netzen. Zusätzlich bietet es noch die Möglichkeit jeden Knoten im Petri Netz durch entsprechende biologische Symbole zu ersetzten, um die Lesbarkeit noch weiter zu erhöhen. Screenshot von GON Ausschnitt aus der Visualisierung eines metabolischen Pfades mit einem erweiterten Petri Netz Visualisierung biochemischer Netzwerke Seite 20/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien 5. Regulatorische Netzwerke Ein Sonderfall der metabolischen Netzwerke sind die regulatorischen Netzwerke. Von diesen sind vor allem die Netzwerke interessant, welche die Regulierung der Genaktivität beschreiben. Bei der Genregulation (siehe Kap 1) wird die Eiweißproduktion dadurch reguliert, dass das Vorhandensein bestimmter Proteine (sog. Regulatorproteine) darüber entscheidet, ob ein Gen Proteine produziert oder nicht. (natürlich produziert ein Gene keine Proteine. Die Proteinsynthese wird hier abstrahiert (siehe Kap 1)) Diese Proteine können dann entweder wieder Regulatorproteine sein, oder entsprechende funktionale Proteine. Der erste Visualisierungsansatz kann von der Pfadvisualisierung übernommen werden. Es handelt sich um eine Visualisierung mittels Petri Netzen. Man benutzt Gene und Proteine für die zwei Knotentypen und die Kanten stellen deren Beziehung dar. Auch die oben beschriebenen Erweiterungen machen auch bei regulatorischen Netzwerken (oder teilweise auch nur bei solchen) Sinn. 5.1 Bool’sche Netzwerke Dieser Visualisierungsansatz bietet gute Erkenntnisse über das dynamische Verhalten eines regulatorischen Netzwerkes. Zur Vereinfachung wird die Zeit nicht kontinuierlich behandelt, sondern es werden immer synchrone Zustandsänderungen vollzogen. Das heißt zu bestimmten Zeitpunkten ändern alle Gene ihr Expressionsverhalten gemäß der jeweiligen Konzentration von Regulatorproteinen in ihrer Nähe. Die Gene selbst sind Knoten, die nur die Werte 1 (Gen „produziert“ Protein) und 0 (Gen „produziert“ kein Protein) annehmen können. Für jedes Gen ist weiters eine bestimmte Funktion gegeben, die angibt wie sich das Expressionsverhalten im nächsten Timeslot ändert. Diese Funktion hängt vom Expressionsverhalten bestimmter anderer Gene im aktuellen Timeslot ab. Dadurch entstehen Zustände, die durch ein n-Tupel von 0en und 1en beschrieben werden können, wenn die Anzahl der Gene n ist. Es gibt maximal 2n Zustände, die man leicht in einen gerichteten Graphen zeichnen kann. Da aber der Prozess der Regulation theoretisch endlos läuft muss es Kreise in diesem Graph geben. Knoten, die sich innerhalb solcher Kreise befinden heißen Attraktoren. Visualisierung biochemischer Netzwerke Seite 21/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Die Abbildung zeigt ein solchen Zustandsgraphen. Attraktoren sind in dieser Abbildung die Knoten „00000“, „00100“, „11110“, „11010“, „10011“ und „11111“. Es gibt in diesem Beispiel also 5 Gene. Die entsprechenden Funktionen sind der Tabelle zu entnehmen. fi ist hier die Funktion für den Knoten i. Im Allgemeinen sind nicht alle Gene für das Expressionsverhalten eines Genes im nächsten Timeslot relevant. Welch Gene hier Relevanz für den jeweiligen Knoten besitzen zeigen die Werte bei ji an. Also die Werte 5,2,4 bei der Funktion f1 geben an, dass Gen 1 von diesen anderen Genen abhängig ist. Da jedes Gen nur von 3 Variablen abhängig ist, reichen 8 Werte, die angeben wie sich das Gen bei allen Konstellationen dieser Variablen verhalten. Der oberste Wert gehört also zur Variablenbelegung 000 der nächste zu 001, 010, 011 usw. Die erste Variable ist in diesem fall Gen 5, die Zweite Gen 2 und die Dritte Gen 4. Auf diese Art und Weise ist das Netzwerk hinreichend bestimmt. Der einzige variable Faktor in dieser Simulation ist hier noch der Startzustand. Der Nachteil dieser Art der Visualisierung ist, dass Zustandsänderungen deterministisch sind. In der Realität reicht die Produktion eines Regulatorproteins noch nicht aus, um zu gewährleisten, dass es die Regulatorfunktion auch sofort erfüllt. Dazu bedarf es noch anderer Faktoren, wie örtlicher Affinität zu den Genen und Konzentration des Proteins. Um auch diese Sachverhalte in bool’schen Netzwerken simulieren zu können, erweitert man diese um die Möglichkeit pro Gen mehrere Funktionen anzugeben, die mit bestimmter Wahrscheinlichkeit angewandt werden. Die Abbildung zeigt ein stochastisches Bool’sches Netzwerk mit 3 Genen. Visualisierung biochemischer Netzwerke Seite 22/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien 5.2 GeneVis Ein anderer Ansatz zur Simulierung und Visualisierung von genetischen regulatorischen Netzwerken kommt von einem Forscherteam der University of Calgary. Sie haben ein Tool namens GeneVis entwickelt, mit dem regulatorische Netzwerke im genetischen Bereich sowohl simuliert als auch visualisiert werden. Im Gegensatz zu den bool’schen Netzwerken ermöglicht GeneVis, dass auch die örtliche Lage der Proteine und vor allem deren Konzentration Einfluss auf das dynamische Verhalten des Netzwerks nimmt. Dies wird erreicht, indem die Orte, an denen sich die Gene befinden fix sind und die Proteine sich frei in einem abgegrenzten Raum bewegen. Diese Bewegung ist zufällig. In diesem Screenshot von GeneVis sehen wir einen großen Kreis, der ein Chromosom darstellt und auf dem Gene liegen. Die kleinen bunten Punkte stellen die verschiedenartigen Proteine dar. Bei der Simulation wird, so wie bei den bool’schen Netzwerken von diskreten Zeitpunkten ausgegangen. In jedem Schritt verändern sich die Positionen der Proteine und Gene werden aktiviert bzw. deaktiviert, je nach der Konzentration der Regulatorproteine in ihrer Umgebung. Diese Ansicht wird in GeneVis die ProteinInteraktionsansicht genannt. Meistens ist aber nicht die genaue Lage der Proteine relevant sondern nur ihre Konzentration in bestimmten Regionen. Deshalb bietet GeneVis auch eine Protein-Konzentrationsansicht, mit der nicht einzelne Protein, sondern nur Konzentrationen angezeigt werden. In diesem Bild sehen wir die Konzentration aller Proteine im Netzwerk. Es ist aber auch möglich die Konzentration nur für ein bestimmtes Protein anzuzeigen. Der Grad der Abstrahierung der Konzentration kann vom User eingestellt werden. Das heißt der User kann angeben, in wie weit GeneVis mehrere Proteine zu einer „Fläche“ zusammenfassen soll. Ein Wert von 50% würde hier bedeuten, dass 2 Proteine zusammengefasst werden, ein Wert von 1,56%, dass 64 Proteine zusammengefasst werden. Die verschiedenen Ansichten können aber auch lokal unterschiedlich sein. Das heißt der User kann in bestimmten Visualisierung biochemischer Netzwerke Seite 23/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Bereichen des Netzwerkes die Konzentrationsansicht verwenden, in anderen die Interaktionsansicht. Dies wird über das Konzept der Fuzzy Lenses in GeneVis realisiert. Diese „Linsen“ dienen dazu einen bestimmten Bereich des Netzwerkes auszuwählen und dann eine der drei Visualisierungsarten (Konzentrationsansicht, Interaktionsansicht oder beides übereinander gelegt) auszuwählen. Auf diese Art und Weise ist es zum Beispiel möglich im Netzwerk eine schematische Konzentrationsansicht anzuzeigen, aber für ein bestimmtes Gen die genaue Interaktionsansicht herauszuzoomen. Neben den Fuzzy Lenses gibt es GeneVis noch ein zweites Linsenkonzept, und zwar das der Base Pair Lenses. Die Gene werden in GeneVis an die Stelle auf dem Chromosomkreis gezeichnet, an der sie sich auch in Wirklichkeit befinden. Das heißt Gene deren Basensequenzen nahe beieinander liegen, liegen auch in GeneVis nahe beieinander. Das kann zur Folge haben, dass sich die Kreise der Gene überlappen. Um das zu verhindern wurden die Base Pair Lenses eingeführt. Sie ermöglichen es bestimmte Kreissektionen auf Kosten anderer zu vergrößern. Das macht Sinn, weil es oft der Fall ist, dass bestimmte Kreissektionen fast keine Gene enthalten, während in anderen Sektionen sich Gene sogar überlappen. Die Abbildung zeigt wie die Kreissektion rechts oben gestreckt, und die Kreissektion links oben geschrumpft wird. Eine Schwäche der bisher präsentierten Konzepte ist, dass nicht klar ersichtlich ist, welche Gene andere Gene beeinflussen. Diese wichtige Information kann durch eine andere Art der Visualisierung, die ebenfalls in GeneVis inkludiert ist, veranschaulicht werden. Man geht dabei von der Vorstellung aus, dass die Gene eine Hierarchie bilden. Das heißt, dass bestimmte Gene gar nicht beeinflussbar sind, welche dann ganz oben in der Hierarchie stehen. Andere Gene sind nur von diesen höchsten Genen beeinflussbar usw. Natürlich ist diese Hierarchie nicht perfekt. Es können sowohl Interaktionen auf einer Hierarchieebene auftreten, als auch Regulation, die von einer niedrigeren auf eine höhere Ebene gerichtet ist. Die Entscheidung welche Gene sich auf welcher Hierarchieebene befinden ist daher nicht immer leicht und wird aufgrund von statistischen Daten getroffen. Da auch Interaktionen innerhalb einer Ebene möglich sind, ist die Visualisierung 3 dimensional. Die Punktierten Ringe sind die Ebenen. Die bunten Linien stellen die Interaktionen zwischen den Genen dar. Die Farben haben folgende Bedeutungen: Eine Regulierung von einer höheren auf eine niedere Eben ist blau am Ausgangsort. Geht die Regulierung von einer niederen auf eine höhere Ebene, so ist die Linie am Ausgangsort magentafarben. Spielt sich die Regulierung innerhalb einer Ebene ab, dann ist sie am Ausgangsort gelb. Ist eine Linie am Ziel grün, dann induziert sie Genproduktion, sonst ist sie rot und hemmt die Genproduktion. Visualisierung biochemischer Netzwerke Seite 24/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Um auch diese Ansicht noch übersichtlicher zu gestalten existiert das Konzept der Ring Lenses. Mit ihnen ist es möglich bestimmte Hierarchieebenen zu vergrößern um Details wahrnehmen zu können. 6. Zusammenfassung Wir haben viele verschiedene Visualisierungsverfahren kennen gelernt. Allgemein kann man sagen, dass jedes dieser Verfahren in bestimmten Anwendungsbereichen Sinn macht. Sicher ist, dass die Informatik der Biochemie eine Fülle von Möglichkeiten zur Verfügung stellt, die ohne computerisierte Unterstützung wohl undenkbar wären. Der Einsatz von Technologien, die aus diesen Möglichkeiten folgen muss natürlich vor einem ethischen Hintergrund diskutiert werden. Ich will zum Abschluss einige Beispiele angeben, die zeigen, dass die biochemische Forschung auch Risiken mit sich bringt: − Genpatentierung − Prädikative Gentests (Die Gene ungeborener Kinder werden auf mögliche Krankheiten untersucht. Werden defekte Gene gefunden werden die Kinder oft nicht geboren. Ob die Krankheit jemals ausgebrochen wäre kann nie 100%ig eindeutig gesagt werden. − Recht auf Nichtwissen (Das Recht nicht wissen zu müssen, wie die eigenen Gene beschaffen sind) − Schutz von genetischen Daten − Klonproblematik − Stammzellenforschung Das sind bei weitem nicht alle heiklen Themen die die Erforschung unseres eigenen Erbgutes mit sich bringt. Man kann in diesem Zusammenhang nur hoffen, dass Zukunftsvisionen mancher Buchautoren (Huxley, Orwell…) nicht Realität werden. Visualisierung biochemischer Netzwerke Seite 25/26 Visualisierung abstrakter Daten SS 2004 Felix Schernhammer TU Wien Quellen: − Albert Lehninger „Prinzipien der Biochemie“ SBW-02017465 Walter de Gruyter Verlag 1987 − C. Stan Tsai „An introduction to computational biochemistry” Wiley-Liss Verlag 2002 − Visualisierungen wichtiger Biomoleküle http://www.biokurs.de/skripten/biomol1.htm − Steffen Noe und Wolfgang Müller TU Darmstadt „Visualisierung von molkularbiologischen und genetischen Daten“ http://eos.bio.tudarmstadt.de/steffen/report99.pdf. − M.L. Lantin, M.S.T Carpendale Simon Frase University “Supporting Detail-inContext for the DNA Representation, H-Curves” http://pages.cpsc.ucalgary.ca/~sheelagh/personal/pubs/hcurves.pdf − Various articles on ChemDraw: http://chemnews.cambridgesoft.com/products.cfm?language=&group=products&keyw ord=2 − pdb Format Beschreibung http://www-lehre.inf.uos.de/~okrone/DIP/node27.html − Chime Beschreibung und download http://www.mdl.com/products/framework/chime/index.jsp − Carsten Friedrich, Falk Schreiber „Visualisation and navigation methods for typed protein-protein interaction networks“ http://bioconf.otago.ac.nz/papers/ABI-2-3-suppl-Friedrich.pdf − Adam Wright „Visualization of biological networks by Selective Reduction and Force Direction“ http://www.stanford.edu/~adamatw/graphs/bionets.pdf − Ulrik Brandes, Tim Dwyer, Falk Schreiber “Visualizing Related Metabolic Pathways in Two and a Half Dimensions” http://www.wilmascope.org/brandes03metabolicpathways.pdf − Atsushi Doi, Sachie Fujita, Hiroshi Matsuno, Masao Nagasaki, Satoru Miyano “Constructing biological pathway models with hybrid functional Petri nets” http://www.bioinfo.de/isb/2004/04/0023/ − Atsushi Doi, Hiroshi Matsuno, Masao Nagasaki, Satoru Miyano “Hybrid Petri net representation of genetic regulatory network” http://www.smi.stanford.edu/projects/helix/psb00/matsuno.pdf − Alla H. und David R. “Continious and hybrid Petri nets“ http://www.worldscinet.com/jcsc/08/0801/S0218126698000079.html − Ilya Shmulevich, Edward R. Dougherty, Wei Zhang “From Boolean to Probabilistic Boolean Networks as Models of Genetic Regulatory Networks” http://www2.mdanderson.org/app/ilya/Publications/ProcIEEEpbnsurvey.pdf − Ilya Shmulevich, Edward R. Dougherty, Wei Zhang, Seungchan Kim “Probabilistic Boolean networks: a rule based uncertainty model for genetic regulatory networks” http://www2.mdanderson.org/app/ilya/Publications/pbn1Bioinformatics.pdf − S.A. Kauffmann “Kaufmann’s NK Boolean networks” http://pespmc1.vub.ac.be/BOOLNETW.html − C.A.H Baker, M.S.T Carpendale, P. Prusinkiewicz, M.G Surette “GeneVis: Visualization Tools for Genetic Regulatory Network Dynamics” http://pages.cpsc.ucalgary.ca/~sheelagh/personal/pubs/2002/baker-carp-vis02.pdf Visualisierung biochemischer Netzwerke Seite 26/26