Comparative Analysis of spatial patterns of gene expression in

Hauptseminar
Comparative Analysis of spatial patterns of
gene expression in Drosophila melanogaster
imaginal discs
Henrik Failmezger
Einführung:
Zur Analyse der Expression von Genen werden typischerweise Microarray Experimente
verwendet, sie erlauben die gleichzeitige Untersuchung von vielen tausend Genen.
Mit Microarrys kann zwar untersucht werden ob ein Gen expremiert wird, sie liefern jedoch
meist keine Informationen über die räumliche Ausprägung von Genen. Informationen, wo
Gene im Organismus exprimiert werden sind jedoch für vielfältige biologische
Fragestellungen von Bedeutung. Besonders in der Entwicklungsbiologie ist man an
räumlichen Informationen interessiert. Bei der Untersuchung von Genen, welche die
Entwicklung eines Flügels steuern möchte man beispielsweise gerne wissen, ob diese Gene
auch an der Stelle exprimiert werden, an welcher der Flügel später entsteht.
Herstellung von räumlichen Genexpressionsmustern:
Räumliche Genexpressionsmuster werden durch in situ Hybridisierung hergestellt. Der
nachzuweisende DNA Strang wird mit einem Antikörper, der an einen Farbstoff gekoppelt ist
markiert. Im Gegensatz zum Microarry findet die Hybridisierung direkt im Gewebe statt. Bei
der Hybridisierung wird ein Farbstoff freigesetzt, der im Gewebe gebunden bleibt. Anhand
der Blaufärbung lässt sich nachweisen, wo das Gen exprimiert wurde.
Abbildung 1 Durch ein Gen angefärbter Drosophila Embry (links). Ein DNA oder
RNA Strang wurde mit Hilfe eines Antikörpers an ein Enzym, meist alkalische
Phosphatase gekoppelt. Wenn der markierte Nukleinsäurestrang an den mRNA Strang
hybridisiert wird der Farbstoff freigesetzt und die Zelle blau gefärbt.
Ansatz der FlyEx Datenbank:
Die FlyEx Datenbank speichert Bilder räumlicher Genexpressionsmustern von Drosophila
melanogaster Embryos in verschiedenen Entwicklungsphasen. Dabei werden immer drei
Gene in einem Bild gezeigt. Jedem Zellkern wird eine Identifikationsnummer, die Position im
Organismus und der Expressionslevel des Gens zugeordnet.
Abbildung 2 Beispielbild eines Eintrags der FlyEx Datenbank. Der Embryo wurde
durch drei Gene angefärbt. Anhand der Färbung des Embryos lässt sich die
Verbreitung der Expression der Gene in diesem Bild feststellen. Das Protein bicoid
(blau) wurde nur in einem Teil des Embryos exprimiert, während das Protein caudal
(grün) im ganzen Embryo exprimiert wurde.
Netzwerke räumlicher Genexpressionsmustern:
Räumliche Genexpressionsmuster müssen geeignet analysiert und visualisiert werden. Eine
Möglichkeit dazu ist die Erstellung von Netzwerken aus räumlichen Genexpressionsmustern.
Der Aufbau eines solchen Netzwerks muss die räumliche Komponente berücksichtigen.
Eigenschaften, die zum Aufbau eines solchen Netzwerks herangezogen werden, sind die
Position des Zellkerns im Embryo und die Stärke der Expression des Gens in diesem
Zellkern.
Aufbau des Netzwerks:
Expressionselemente, Zellkerne oder Regionen im Organismus bilden die Knoten des
Netzwerks. Eine Kante zwischen zwei Knoten wird genau dann gezogen, wenn die
Genexpression der beiden Expressionselemente ähnlich stark ist und wenn die beiden
Expressionselemente im Organismus nahe beieinander liegen. Durch die ähnliche
Expressionsintensität lassen sich Expressionskorrelationen zwischen Nachbarzellen
identifizieren. Die zweite Bedingung der räumlichen Nähe verhindert, dass Knoten verbunden
werden, die im Organismus weit auseinander liegen So wird die Lokalität der Genexpression
betont.
Analyse des Netzwerks:
Der Knotengrad und der Clusteringkoeffizient können zur Analyse des Netzwerks
herangezogen werden.
Der Knotengrad eines Knotens gibt die Anzahl seiner Kanten, also seiner Nachbarknoten an.
Je höher der Knotengrad eines Knotens, desto mehr Nachbarknoten besitzt dieser Knoten. Ein
hoher Knotengrad ist ein Hinweis, dass von diesem Knoten ein Signalwirkung auf seine
Nachbarknoten ausgeht. Anhand des Knotengrads lässt sich also beispielsweise
Zellkommunikation untersuchen.
Der Clusteringkoeffizient gibt den Quotienten zwischen der tatsächlichen Anzahl der Kanten
zwischen den Nachbarknoten und allen möglichen Kanten zwischen den Nachbarknoten. Ein
hoher Clusteringkoeffizient gibt an, wie stark das Netzwerk an diesem Punkt vernetzt ist. Der
Durchschnitt aller Clusteringkoeffizienten zeigt wie stark das Netzwerk allgemein verbunden
ist.
Anhand des Durchschnittsclusteringkoeffizienten kann man ablesen wie weit das
Genexpressionsmuster über den ganzen Organismus verteilt ist.
Alternative Netzwerke:
Statt nur räumliche Nähe und Expressionskorrelation als Kriterium für das Ziehen einer Kante
zu verwenden lassen sich auch andere Eigenschaften von Expressionselementen für den
Aufbau eines Netzwerks heranziehen. Statt Korrelation der Expressionsintentsität kann
Antikorrelation als Eigenschaft für das Ziehen einer Kante verwendet werden. Durch ein
solches Netzwerk ließe sich beispielsweise Expressionshemmung zwischen Zellen
untersuchen.
Methode von Cyrus L. Harmon:
Das Team um Cyrus L. Harmon von der Berkely Universität erstellte eine Methode die
räumliche Expressionsmuster von Drosophila Melanogaster automatisch sucht bewertet und
analysiert.
Anders als bei der FlyEx Datenbank erstelle das Team um C. L. Harmon räumliche
Expressionsmuster in Imaginal Discs von Drosophila Melanogaster.
Imaginal Discs:
Imaginal Discs sind undifferenzierte Strukturen in der Insektenlarve aus denen sich während
der Verpuppung Körperteile wie Flügel, Antenne und Auge des fertigen Insekts bilden.
Imaginal Discs bilden also gleichsam einen zweiten großen Differenzierungsschritt in der
Entwicklung von Drosophila. Anders als bei der Entwicklung des Embryos zur Larve, finden
die Differenzierungen diesmal im kleinen Maßstab nämlich innerhalb der Imaginal Discs
statt.
Abbildung 3 Lebenszyklus von Drosophila. Imaginal Discs beginnen sich
während der Verpuppung in Abschnitt 3 zu differenzieren
Abbildung 4 Imaginal Discs einer Drosophila Puppe. Während der Verpuppungsphase
entwickeln sich Imaginal Discs zu Flügel, Geschlechtsorgane, Beine, Augen und
Antenne der adulten Fliege.
Ablauf der Methode:
Das Gen, für welches man die Expressionskarte erstellen will, wird wie oben beschrieben
durch in situ Hybridisierung angefärbt. Nun werden repräsentative Bilder für jede Imaginal
Disc extrahiert. Mit diesen Bildern werden so genannte Shape Modelle erstellt mit denen sich
Imaginal Discs dann später im Bildmaterial automatisch identifizieren lassen.
Das restliche Bildmaterial wird durch Bildbearbeitungsmethoden aufgearbeitet, damit sich
Imaginal Discs darin später leichter identifizieren lassen. Mit Hilfe eines Alignments lassen
sich Imaginal Disc durch die Shape Modelle bestimmen, gleichzeitig werden sie an die Shape
Models aligniert. Die Bewertung des Färbegrads eines Gens ermöglicht einen Schluss über
die Menge von Expressionsprodukten in der jeweiligen Imaginal Discs. Weiterhin werden aus
alignierten Imaginal Discs so genannte Genexpressionskarten erstellt, dabei wird der
Mittelwert aller Genexpressionsbilder für ein Gen und eine Imaginal Disc gebildet. Die
Genexpressionskarten lassen sich clustern um Informationen über die gemeinsame
räumliche Expression und Funktion von Genen zu erlangen.
Erstellung von Shape Modells:
Für jede Imaginal Disc wird ein Shape Modell erstellt. Manuell werden repräsentative Bilder
für eine Imaginal Disc aus dem Bildmaterial ausgewählt. Diese Bilder werden in Binärbilder
umgewandelt. Binärbilder bestehen nur aus zwei Pixelwerten nämlich weiß für einen
Vordergrundpixel und schwarz für einen Hintergrundpixel. Alle Binärbilder werden durch
einen Prozess namens Congealing aneinander angeglichen, so dass man letztendlich ein so
genanntes Consensus Shape Modell erhält, dass die Eigenschaften aller Bilder vereinigt.
Mit diesem Consensus Shape Modell können Imaginal Discs im Bildmaterial später
identifiziert werden. Weiterhin werden alle Imaginal Discs an dieses Modell aligniert.
Extraktion von Vordergrundregionen:
Um Imaginal Discs in den Bildern besser identifizieren zu können müssen
Vordergrundregionen von Hintergrundregionen getrennt werden.
Die Bilder enthalten außerdem Pixelvariabilitäten durch Absorption, Streuung von Licht die
das Alignment stören könnten. Vor dem eigentlichen Alignment sind also
Bildbearbeitungsschritte nötig.
Einer dieser Bildbearbeitungsschritte ist die Anwendung des Laplace Filters. Mit Hilfe dieses
Filters ist eine Kantenschärfung von Vordergrundregionen nötig, was im Alignment zu einer
besseren Deduktion führt. Der Laplace Filter selber basiert auf der zweiten Ableitung der
Bildfunktion. Das Bild wird als zweidimensionale Funktion betrachtet, die jeder Position
einen bestimmten Farbwert zuordnet. Nach Durchführen der ersten Ableitung erhält man
Hoch und Tiefpunkte dieser Bildfunktion. Die zweite Ableitung transformiert diese Hoch und Tiefpunkte in Wendepunkte. Zieht man von der ursprünglichen Bildfunktion nun die
zweite Ableitung multipliziert mit einem Faktor ab, so erhält man eine geschärfte Funktion
(siehe Abbildung 5).
Abbildung 5 Funktionsweise des Laplace Filters. Die zweite Ableitung f ’’(u) der
Ursprungsfunktion f(u) wird gebildet. Wenn man die zweite Ableitung von der
Ursprungsfunktion abzieht, erhält man eine Funktion, die an den Kanten geschärft ist.
Alignment:
Ein Alignment zwischen Bildern lässt sich mit einem Alignment zwischen DNA - oder
Proteinsequenzen vergleichen. Beim Sequenzalignment werden die Reste an einer bestimmten
Position innerhalb der beiden Sequenzen verglichen. Beim Bildalignment werden
Farbintensitäten an einer Position verglichen. Bei einem Sequenzalignment lassen sich Gaps
einfügen um die Sequenzen besser aneinander anzugleichen. Beim Bildalignment werden
affine Transformationen, wie Drehung, Skalierung und Spiegelung durchgeführt um eine
optimale Übereinstimmung zu erhalten. Ähnlich wie Gaps im Sequenzalignment schlecht
bewertet werden, weil mit ihnen ein Informationsverlust einhergeht, dürfen affine
Transformationen nicht beliebig durchgeführt werden.
Distanztransformation:
Ein Problem bei Binärbildern ist, dass schon geringste Pixelabweichung zwischen den Bildern
das Alignment stark beeinflusst. In einem Binärbild sind nur die Farbintensitäten 0 und 100
zu finden (weiß, schwarz). Ist ein Pixel in einem Bild nur um eine Position verschoben, so
erkennt das Alignment dies nicht und der Informationsgehalt des Alignments leidet. Weichere
Übergänge zwischen Vorder- und Hintergrundpixeln würden das Problem entschärfen. Aus
diesem Grund wird eine so genannte Distanztransformation durchgeführt. Bei der
Distanztransformation wird für jeden Hintergrundpixel bestimmt, wie weit man ihn
verschieben müsste, um ihn mit dem nächsten Vordergrundpixel zum Überlappen zu bringen.
Basierend auf diesem Wert wird jedem Hintergrundpixel ein Farbintensitätswert zugeordnet
(Abbildung 6). Hintergrundpixel nahe eines Vordergrundpixels haben nun also einen dem
Vordergrundpixel ähnlichen Intensitätswert. Bei geringen Verschiebungen sind die
Intensitätswerte an diesen Stellen zwischen zwei Bildern also immer noch ähnlich.
000000000000
000000000000
000010000000
001000000000
000000000000
000000000000
000000011000
000000010000
000000000000
000000000000
543323456789
432212345678
321101234567
210112333456
321223322345
432333211234
543432100123
654432101234
765543212345
876654323456
Abbildung 6 Distanztransformation: Das Bild wird als Matrix dargestellt und zu jedem
Hintergrundpixel wird die Distanz zum nächsten Vordergrundpixel berechnet. Aus der
entstandenen Matrix wird ein neues Bild erzeugt, bei dem die Pixel nahe eines
Vordergrundpixels ähnliche Farbwerte zu diesem haben.
Distanzmatrix:
Zielbild und Shape Modell muss ein Score zugeordnet werden, der angibt wie ähnlich sich die
beiden Bilder sind. Der Score basiert auf der normalisierten Crosscorrelationsdistanz. Für
zwei Bilder X,Y " R M #N berechnet sich die normalisierte Crosscorrelation folgendermaßen:
NCC(X,Y ) =
!
!
M
N
i=1
j=1
# #
M
N
i=1
j=1
# #
"
"
(X i, j " X )(Yi, j " Y )
"
(X i, j " X ) 2 #
M
i=1
#
N
j=1
"
(Yi, j " Y ) 2
Die normalisierte Crosscorrelation gibt einen Wert zwischen 0 und 1 zurück. Je größer der
Wert, desto besser stimmen die Bilder überein. Allerdings ist die normalisierte
Crosscorrelation inkonsistent gegenüber Drehungen und Größenänderungen. Ist die Imaginal
Disc im Zielbild also leicht gedreht oder anders skaliert als das Shape Modell, so erkennt dies
die normalisierte Crosscorrelation nicht und würde einen falschen Wert zurückliefern. Es
muss daher eine affine Transformation gefunden werden, welche die normalisierte
Crosscorrelation maximiert.
Alignment - Algorithmus:
Der Alignmentalgorithmus sucht eine affine Transformation, die die normalisierte
Crosscorrelation maximiert. Es wird von einer Reihe von Startkonfigurationen, wie Drehung
um 90°, Skalierung etc. ausgegangen. Jede Startkonfiguration wird in einer Iteration solange
modifiziert, bis die Normalisierte Crosscorrelation maximal ist. Nach Abarbeitung aller
Startkonfigurationen besitzt man ein Alignment zwischen Zielbild und Shape Modell.
Bewertung des Färbegrads:
Jedem Pixel im alignierten Bild wird ein Stain Score zugeordnet der angibt, wie stark die
Expression des Gens in diesem Punkt ist. Der naive Stain Score berechnet sich indem man die
Hälfte des Rot und Grünkanals an diesem Punkt vom Blaukanal abzieht.
rij + gij
sij = bij "
2
Diese Berechnung führt jedoch an den Punkten zu Problemen, an denen die Expression des
Gens sehr stark ist und die dadurch eine dunkle Färbung bekommen. Aus diesem Grund
verbessert man die Formel indem man einen Mindestblaukanal definiert und jeweils das
Maximum aus Mindestblaukanal
und dem Blaukanal in diesem Punkt nimmt.
!
sij = max(bmin ,bij) "
rij + gij
2
Expressionskarten und Clustering:
Falls für ein Gen und eine Imaginal Disc mehrere Bilder vorkommen, so bestehen die
!
Pixelwerte der Expressionskarten aus dem Mittelwert der Pixel dieser Bilder (Abbildung 8).
Um gemeinsame Eigenschaften von Genexpressionskarten festzustellen, lassen sich diese nun
vergleichen und clustern.
Zwei Clusterarten wurden angewendet. Zum einen wurden Genexpressionskarten durch den
K-means Algorithmus geclustert. Weiterhin wurden Pixel geclustert. Dafür wurde für jeden
Pixel einer Imaginal Disc ein Vektor erstellt. Die Einträge des Vektors sind die Farbwerte die
der Pixel durch Anfärben eines bestimmten Gens erlangt. Die Vektoren wurden daraufhin
ebenfalls durch einen k-means Algorithmus geclustert (Abbildung 9).
Abbildung 7 Genexpressionskarte des Gens dr1 einer Flügel Imaginal Disc. Die rote
Umrandung ist das Shape Modell dieser Imaginal Disc, an die die Bilder der Gene
aligniert wurden. Die grünen Pixel sind die Mittelwerte der Expressionswerte aller
Pixel aus den Bildern für dieses Gen.
B
A
N
o
t
u
m
Abbildung 8
A: Pixelclustering für eine Flügel Imaginal Disc. Die Farben des Bildes zeigen, welche
Pixel in der Imaginal Disc einander ähnlich sind, basierend auf Genexpressionsmustern
für alle Gene, die in dieser Imaginal Disc gemessen wurden
B: Differenzierungskarte einer Flügel Imaginal Disc
Diskussion:
Räumliche Genexpression ist ein Punkt der in der bisherigen Forschung wenig beachtet
wurde. Räumliche Genexpressionsmuster wie sie in der FlyEx Datenbank zu finden sind und
wie sie von der Methode von C.L. Harmon erstellt wurden bieten einen neuen Einblick in die
Funktionsweise eines Gens, was besonders für die Entwicklungsbiologie interessant ist, wo
räumliche Genexpression eine wichtige Rolle spielt.
Nach den Angaben von C.L. Harmon erkennt die Methode die Imaginal Discs in 85% aller
Fälle. Allerdings versagt sie falls sich im Bild mehrere Imaginal Disc befinden oder das Bild
durch biologische Verunreinigungen enthält. Da aber wie aus Abbildung 4 ersichtlich,
Imaginal Discs im Organismus oft eng nebeneinander liegen und biologische Störungen
ebenfalls häufig auftreten, ist es fraglich ob die Methode in der Praxis anwendbar ist.
Fraglich ist auch wie viel Information ein k-means Clustering von Expressionskarten liefert.
Über die erreichte Qualität wurde keine Angabe gemacht. Um die Qualität des
Pixelclusterings zu unterstreichen wies das Team um C.L. Harmon auf die
Differenzierungskarte einer Flügel Imaginal Disc (Abbildung B) hin, die ähnliche Strukturen
wie das Pixelcustering aufweist. Zwar ist richtig, dass beide Bilder ähnliche Strukturen
aufweisen und das Pixelclustering gut funktioniert. Allerdings, lässt sich nur von der
bekannten Differenzerungskarte auf das Pixelclustering schließen. Der entgegengesetzte Weg
nämlich anhand des Pixelclusterings Regionen zu identifizieren, die später eine
Differenzierung durchmachen funktioniert nur schwer. Gerade diese Richtung ist aber die
einzig sinnvolle, wenn man die Methode in der Entwicklungsbiologie anwenden will.
Quellen:
[1] C. Harmon, P. Ahammad, A. Hammonds, R. Weiszmann, S. Celniker, S. Sastry, and G.
Rubin, “Comparative analysis of spatial patterns of gene expression in Drosophila
melanogaster imaginal discs”, Intern. Conf. Research in Computational Molecular Biology (
RECOMB), (to appear 2007).
[2] L. Diambra and L. da F. Costa (2005) Complex networks approach to gene expression
driven phenotype imaging Bioinformatics,21,3846–3851
[3] W.Burger, M. J. Burge, Digitale Bildverarbeitung (Springer - Verlag, Berlin, Heidelberg,
2005)