Hauptseminar Comparative Analysis of spatial patterns of gene expression in Drosophila melanogaster imaginal discs Henrik Failmezger Einführung: Zur Analyse der Expression von Genen werden typischerweise Microarray Experimente verwendet, sie erlauben die gleichzeitige Untersuchung von vielen tausend Genen. Mit Microarrys kann zwar untersucht werden ob ein Gen expremiert wird, sie liefern jedoch meist keine Informationen über die räumliche Ausprägung von Genen. Informationen, wo Gene im Organismus exprimiert werden sind jedoch für vielfältige biologische Fragestellungen von Bedeutung. Besonders in der Entwicklungsbiologie ist man an räumlichen Informationen interessiert. Bei der Untersuchung von Genen, welche die Entwicklung eines Flügels steuern möchte man beispielsweise gerne wissen, ob diese Gene auch an der Stelle exprimiert werden, an welcher der Flügel später entsteht. Herstellung von räumlichen Genexpressionsmustern: Räumliche Genexpressionsmuster werden durch in situ Hybridisierung hergestellt. Der nachzuweisende DNA Strang wird mit einem Antikörper, der an einen Farbstoff gekoppelt ist markiert. Im Gegensatz zum Microarry findet die Hybridisierung direkt im Gewebe statt. Bei der Hybridisierung wird ein Farbstoff freigesetzt, der im Gewebe gebunden bleibt. Anhand der Blaufärbung lässt sich nachweisen, wo das Gen exprimiert wurde. Abbildung 1 Durch ein Gen angefärbter Drosophila Embry (links). Ein DNA oder RNA Strang wurde mit Hilfe eines Antikörpers an ein Enzym, meist alkalische Phosphatase gekoppelt. Wenn der markierte Nukleinsäurestrang an den mRNA Strang hybridisiert wird der Farbstoff freigesetzt und die Zelle blau gefärbt. Ansatz der FlyEx Datenbank: Die FlyEx Datenbank speichert Bilder räumlicher Genexpressionsmustern von Drosophila melanogaster Embryos in verschiedenen Entwicklungsphasen. Dabei werden immer drei Gene in einem Bild gezeigt. Jedem Zellkern wird eine Identifikationsnummer, die Position im Organismus und der Expressionslevel des Gens zugeordnet. Abbildung 2 Beispielbild eines Eintrags der FlyEx Datenbank. Der Embryo wurde durch drei Gene angefärbt. Anhand der Färbung des Embryos lässt sich die Verbreitung der Expression der Gene in diesem Bild feststellen. Das Protein bicoid (blau) wurde nur in einem Teil des Embryos exprimiert, während das Protein caudal (grün) im ganzen Embryo exprimiert wurde. Netzwerke räumlicher Genexpressionsmustern: Räumliche Genexpressionsmuster müssen geeignet analysiert und visualisiert werden. Eine Möglichkeit dazu ist die Erstellung von Netzwerken aus räumlichen Genexpressionsmustern. Der Aufbau eines solchen Netzwerks muss die räumliche Komponente berücksichtigen. Eigenschaften, die zum Aufbau eines solchen Netzwerks herangezogen werden, sind die Position des Zellkerns im Embryo und die Stärke der Expression des Gens in diesem Zellkern. Aufbau des Netzwerks: Expressionselemente, Zellkerne oder Regionen im Organismus bilden die Knoten des Netzwerks. Eine Kante zwischen zwei Knoten wird genau dann gezogen, wenn die Genexpression der beiden Expressionselemente ähnlich stark ist und wenn die beiden Expressionselemente im Organismus nahe beieinander liegen. Durch die ähnliche Expressionsintensität lassen sich Expressionskorrelationen zwischen Nachbarzellen identifizieren. Die zweite Bedingung der räumlichen Nähe verhindert, dass Knoten verbunden werden, die im Organismus weit auseinander liegen So wird die Lokalität der Genexpression betont. Analyse des Netzwerks: Der Knotengrad und der Clusteringkoeffizient können zur Analyse des Netzwerks herangezogen werden. Der Knotengrad eines Knotens gibt die Anzahl seiner Kanten, also seiner Nachbarknoten an. Je höher der Knotengrad eines Knotens, desto mehr Nachbarknoten besitzt dieser Knoten. Ein hoher Knotengrad ist ein Hinweis, dass von diesem Knoten ein Signalwirkung auf seine Nachbarknoten ausgeht. Anhand des Knotengrads lässt sich also beispielsweise Zellkommunikation untersuchen. Der Clusteringkoeffizient gibt den Quotienten zwischen der tatsächlichen Anzahl der Kanten zwischen den Nachbarknoten und allen möglichen Kanten zwischen den Nachbarknoten. Ein hoher Clusteringkoeffizient gibt an, wie stark das Netzwerk an diesem Punkt vernetzt ist. Der Durchschnitt aller Clusteringkoeffizienten zeigt wie stark das Netzwerk allgemein verbunden ist. Anhand des Durchschnittsclusteringkoeffizienten kann man ablesen wie weit das Genexpressionsmuster über den ganzen Organismus verteilt ist. Alternative Netzwerke: Statt nur räumliche Nähe und Expressionskorrelation als Kriterium für das Ziehen einer Kante zu verwenden lassen sich auch andere Eigenschaften von Expressionselementen für den Aufbau eines Netzwerks heranziehen. Statt Korrelation der Expressionsintentsität kann Antikorrelation als Eigenschaft für das Ziehen einer Kante verwendet werden. Durch ein solches Netzwerk ließe sich beispielsweise Expressionshemmung zwischen Zellen untersuchen. Methode von Cyrus L. Harmon: Das Team um Cyrus L. Harmon von der Berkely Universität erstellte eine Methode die räumliche Expressionsmuster von Drosophila Melanogaster automatisch sucht bewertet und analysiert. Anders als bei der FlyEx Datenbank erstelle das Team um C. L. Harmon räumliche Expressionsmuster in Imaginal Discs von Drosophila Melanogaster. Imaginal Discs: Imaginal Discs sind undifferenzierte Strukturen in der Insektenlarve aus denen sich während der Verpuppung Körperteile wie Flügel, Antenne und Auge des fertigen Insekts bilden. Imaginal Discs bilden also gleichsam einen zweiten großen Differenzierungsschritt in der Entwicklung von Drosophila. Anders als bei der Entwicklung des Embryos zur Larve, finden die Differenzierungen diesmal im kleinen Maßstab nämlich innerhalb der Imaginal Discs statt. Abbildung 3 Lebenszyklus von Drosophila. Imaginal Discs beginnen sich während der Verpuppung in Abschnitt 3 zu differenzieren Abbildung 4 Imaginal Discs einer Drosophila Puppe. Während der Verpuppungsphase entwickeln sich Imaginal Discs zu Flügel, Geschlechtsorgane, Beine, Augen und Antenne der adulten Fliege. Ablauf der Methode: Das Gen, für welches man die Expressionskarte erstellen will, wird wie oben beschrieben durch in situ Hybridisierung angefärbt. Nun werden repräsentative Bilder für jede Imaginal Disc extrahiert. Mit diesen Bildern werden so genannte Shape Modelle erstellt mit denen sich Imaginal Discs dann später im Bildmaterial automatisch identifizieren lassen. Das restliche Bildmaterial wird durch Bildbearbeitungsmethoden aufgearbeitet, damit sich Imaginal Discs darin später leichter identifizieren lassen. Mit Hilfe eines Alignments lassen sich Imaginal Disc durch die Shape Modelle bestimmen, gleichzeitig werden sie an die Shape Models aligniert. Die Bewertung des Färbegrads eines Gens ermöglicht einen Schluss über die Menge von Expressionsprodukten in der jeweiligen Imaginal Discs. Weiterhin werden aus alignierten Imaginal Discs so genannte Genexpressionskarten erstellt, dabei wird der Mittelwert aller Genexpressionsbilder für ein Gen und eine Imaginal Disc gebildet. Die Genexpressionskarten lassen sich clustern um Informationen über die gemeinsame räumliche Expression und Funktion von Genen zu erlangen. Erstellung von Shape Modells: Für jede Imaginal Disc wird ein Shape Modell erstellt. Manuell werden repräsentative Bilder für eine Imaginal Disc aus dem Bildmaterial ausgewählt. Diese Bilder werden in Binärbilder umgewandelt. Binärbilder bestehen nur aus zwei Pixelwerten nämlich weiß für einen Vordergrundpixel und schwarz für einen Hintergrundpixel. Alle Binärbilder werden durch einen Prozess namens Congealing aneinander angeglichen, so dass man letztendlich ein so genanntes Consensus Shape Modell erhält, dass die Eigenschaften aller Bilder vereinigt. Mit diesem Consensus Shape Modell können Imaginal Discs im Bildmaterial später identifiziert werden. Weiterhin werden alle Imaginal Discs an dieses Modell aligniert. Extraktion von Vordergrundregionen: Um Imaginal Discs in den Bildern besser identifizieren zu können müssen Vordergrundregionen von Hintergrundregionen getrennt werden. Die Bilder enthalten außerdem Pixelvariabilitäten durch Absorption, Streuung von Licht die das Alignment stören könnten. Vor dem eigentlichen Alignment sind also Bildbearbeitungsschritte nötig. Einer dieser Bildbearbeitungsschritte ist die Anwendung des Laplace Filters. Mit Hilfe dieses Filters ist eine Kantenschärfung von Vordergrundregionen nötig, was im Alignment zu einer besseren Deduktion führt. Der Laplace Filter selber basiert auf der zweiten Ableitung der Bildfunktion. Das Bild wird als zweidimensionale Funktion betrachtet, die jeder Position einen bestimmten Farbwert zuordnet. Nach Durchführen der ersten Ableitung erhält man Hoch und Tiefpunkte dieser Bildfunktion. Die zweite Ableitung transformiert diese Hoch und Tiefpunkte in Wendepunkte. Zieht man von der ursprünglichen Bildfunktion nun die zweite Ableitung multipliziert mit einem Faktor ab, so erhält man eine geschärfte Funktion (siehe Abbildung 5). Abbildung 5 Funktionsweise des Laplace Filters. Die zweite Ableitung f ’’(u) der Ursprungsfunktion f(u) wird gebildet. Wenn man die zweite Ableitung von der Ursprungsfunktion abzieht, erhält man eine Funktion, die an den Kanten geschärft ist. Alignment: Ein Alignment zwischen Bildern lässt sich mit einem Alignment zwischen DNA - oder Proteinsequenzen vergleichen. Beim Sequenzalignment werden die Reste an einer bestimmten Position innerhalb der beiden Sequenzen verglichen. Beim Bildalignment werden Farbintensitäten an einer Position verglichen. Bei einem Sequenzalignment lassen sich Gaps einfügen um die Sequenzen besser aneinander anzugleichen. Beim Bildalignment werden affine Transformationen, wie Drehung, Skalierung und Spiegelung durchgeführt um eine optimale Übereinstimmung zu erhalten. Ähnlich wie Gaps im Sequenzalignment schlecht bewertet werden, weil mit ihnen ein Informationsverlust einhergeht, dürfen affine Transformationen nicht beliebig durchgeführt werden. Distanztransformation: Ein Problem bei Binärbildern ist, dass schon geringste Pixelabweichung zwischen den Bildern das Alignment stark beeinflusst. In einem Binärbild sind nur die Farbintensitäten 0 und 100 zu finden (weiß, schwarz). Ist ein Pixel in einem Bild nur um eine Position verschoben, so erkennt das Alignment dies nicht und der Informationsgehalt des Alignments leidet. Weichere Übergänge zwischen Vorder- und Hintergrundpixeln würden das Problem entschärfen. Aus diesem Grund wird eine so genannte Distanztransformation durchgeführt. Bei der Distanztransformation wird für jeden Hintergrundpixel bestimmt, wie weit man ihn verschieben müsste, um ihn mit dem nächsten Vordergrundpixel zum Überlappen zu bringen. Basierend auf diesem Wert wird jedem Hintergrundpixel ein Farbintensitätswert zugeordnet (Abbildung 6). Hintergrundpixel nahe eines Vordergrundpixels haben nun also einen dem Vordergrundpixel ähnlichen Intensitätswert. Bei geringen Verschiebungen sind die Intensitätswerte an diesen Stellen zwischen zwei Bildern also immer noch ähnlich. 000000000000 000000000000 000010000000 001000000000 000000000000 000000000000 000000011000 000000010000 000000000000 000000000000 543323456789 432212345678 321101234567 210112333456 321223322345 432333211234 543432100123 654432101234 765543212345 876654323456 Abbildung 6 Distanztransformation: Das Bild wird als Matrix dargestellt und zu jedem Hintergrundpixel wird die Distanz zum nächsten Vordergrundpixel berechnet. Aus der entstandenen Matrix wird ein neues Bild erzeugt, bei dem die Pixel nahe eines Vordergrundpixels ähnliche Farbwerte zu diesem haben. Distanzmatrix: Zielbild und Shape Modell muss ein Score zugeordnet werden, der angibt wie ähnlich sich die beiden Bilder sind. Der Score basiert auf der normalisierten Crosscorrelationsdistanz. Für zwei Bilder X,Y " R M #N berechnet sich die normalisierte Crosscorrelation folgendermaßen: NCC(X,Y ) = ! ! M N i=1 j=1 # # M N i=1 j=1 # # " " (X i, j " X )(Yi, j " Y ) " (X i, j " X ) 2 # M i=1 # N j=1 " (Yi, j " Y ) 2 Die normalisierte Crosscorrelation gibt einen Wert zwischen 0 und 1 zurück. Je größer der Wert, desto besser stimmen die Bilder überein. Allerdings ist die normalisierte Crosscorrelation inkonsistent gegenüber Drehungen und Größenänderungen. Ist die Imaginal Disc im Zielbild also leicht gedreht oder anders skaliert als das Shape Modell, so erkennt dies die normalisierte Crosscorrelation nicht und würde einen falschen Wert zurückliefern. Es muss daher eine affine Transformation gefunden werden, welche die normalisierte Crosscorrelation maximiert. Alignment - Algorithmus: Der Alignmentalgorithmus sucht eine affine Transformation, die die normalisierte Crosscorrelation maximiert. Es wird von einer Reihe von Startkonfigurationen, wie Drehung um 90°, Skalierung etc. ausgegangen. Jede Startkonfiguration wird in einer Iteration solange modifiziert, bis die Normalisierte Crosscorrelation maximal ist. Nach Abarbeitung aller Startkonfigurationen besitzt man ein Alignment zwischen Zielbild und Shape Modell. Bewertung des Färbegrads: Jedem Pixel im alignierten Bild wird ein Stain Score zugeordnet der angibt, wie stark die Expression des Gens in diesem Punkt ist. Der naive Stain Score berechnet sich indem man die Hälfte des Rot und Grünkanals an diesem Punkt vom Blaukanal abzieht. rij + gij sij = bij " 2 Diese Berechnung führt jedoch an den Punkten zu Problemen, an denen die Expression des Gens sehr stark ist und die dadurch eine dunkle Färbung bekommen. Aus diesem Grund verbessert man die Formel indem man einen Mindestblaukanal definiert und jeweils das Maximum aus Mindestblaukanal und dem Blaukanal in diesem Punkt nimmt. ! sij = max(bmin ,bij) " rij + gij 2 Expressionskarten und Clustering: Falls für ein Gen und eine Imaginal Disc mehrere Bilder vorkommen, so bestehen die ! Pixelwerte der Expressionskarten aus dem Mittelwert der Pixel dieser Bilder (Abbildung 8). Um gemeinsame Eigenschaften von Genexpressionskarten festzustellen, lassen sich diese nun vergleichen und clustern. Zwei Clusterarten wurden angewendet. Zum einen wurden Genexpressionskarten durch den K-means Algorithmus geclustert. Weiterhin wurden Pixel geclustert. Dafür wurde für jeden Pixel einer Imaginal Disc ein Vektor erstellt. Die Einträge des Vektors sind die Farbwerte die der Pixel durch Anfärben eines bestimmten Gens erlangt. Die Vektoren wurden daraufhin ebenfalls durch einen k-means Algorithmus geclustert (Abbildung 9). Abbildung 7 Genexpressionskarte des Gens dr1 einer Flügel Imaginal Disc. Die rote Umrandung ist das Shape Modell dieser Imaginal Disc, an die die Bilder der Gene aligniert wurden. Die grünen Pixel sind die Mittelwerte der Expressionswerte aller Pixel aus den Bildern für dieses Gen. B A N o t u m Abbildung 8 A: Pixelclustering für eine Flügel Imaginal Disc. Die Farben des Bildes zeigen, welche Pixel in der Imaginal Disc einander ähnlich sind, basierend auf Genexpressionsmustern für alle Gene, die in dieser Imaginal Disc gemessen wurden B: Differenzierungskarte einer Flügel Imaginal Disc Diskussion: Räumliche Genexpression ist ein Punkt der in der bisherigen Forschung wenig beachtet wurde. Räumliche Genexpressionsmuster wie sie in der FlyEx Datenbank zu finden sind und wie sie von der Methode von C.L. Harmon erstellt wurden bieten einen neuen Einblick in die Funktionsweise eines Gens, was besonders für die Entwicklungsbiologie interessant ist, wo räumliche Genexpression eine wichtige Rolle spielt. Nach den Angaben von C.L. Harmon erkennt die Methode die Imaginal Discs in 85% aller Fälle. Allerdings versagt sie falls sich im Bild mehrere Imaginal Disc befinden oder das Bild durch biologische Verunreinigungen enthält. Da aber wie aus Abbildung 4 ersichtlich, Imaginal Discs im Organismus oft eng nebeneinander liegen und biologische Störungen ebenfalls häufig auftreten, ist es fraglich ob die Methode in der Praxis anwendbar ist. Fraglich ist auch wie viel Information ein k-means Clustering von Expressionskarten liefert. Über die erreichte Qualität wurde keine Angabe gemacht. Um die Qualität des Pixelclusterings zu unterstreichen wies das Team um C.L. Harmon auf die Differenzierungskarte einer Flügel Imaginal Disc (Abbildung B) hin, die ähnliche Strukturen wie das Pixelcustering aufweist. Zwar ist richtig, dass beide Bilder ähnliche Strukturen aufweisen und das Pixelclustering gut funktioniert. Allerdings, lässt sich nur von der bekannten Differenzerungskarte auf das Pixelclustering schließen. Der entgegengesetzte Weg nämlich anhand des Pixelclusterings Regionen zu identifizieren, die später eine Differenzierung durchmachen funktioniert nur schwer. Gerade diese Richtung ist aber die einzig sinnvolle, wenn man die Methode in der Entwicklungsbiologie anwenden will. Quellen: [1] C. Harmon, P. Ahammad, A. Hammonds, R. Weiszmann, S. Celniker, S. Sastry, and G. Rubin, “Comparative analysis of spatial patterns of gene expression in Drosophila melanogaster imaginal discs”, Intern. Conf. Research in Computational Molecular Biology ( RECOMB), (to appear 2007). [2] L. Diambra and L. da F. Costa (2005) Complex networks approach to gene expression driven phenotype imaging Bioinformatics,21,3846–3851 [3] W.Burger, M. J. Burge, Digitale Bildverarbeitung (Springer - Verlag, Berlin, Heidelberg, 2005)