Comparative Analysis of Spatial Patterns of Gene Expression in

Hauptseminar
Comparative Analysis of
Spatial Patterns of Gene
Expression in Drosophila
melanogaster Imaginal Discs
Henrik Failmezger
Räumliche Genexpressionsmuster
Zur Untersuchung der Genexpression werden
typischerweise Microarray - Experimente
durchgeführt
Untersuchung der Expression von Genen
im großen Stil möglich
Bieten Informationen welche Gene zu einem gewissen
Zeitpunkt exprimiert werden
Aber: Liefern meist keine räumliche Information
2
Warum räumliche
Genexpressionsmuster ?
Man will wissen:
In welchen Geweben werden Gene exprimiert ?
Welche Gene werden zusammen exprimiert ?
Wie werden Gene räumlich reguliert ?
Welche Expressionsmuster ähneln sich ?
Beantwortung dieser Fragen wichtig - zum Beispiel für
die Entwicklungsbiologie
Herstellung:
• Zur Erstellung räumlicher Expressionsmuster
werden Gene in Situ hybridisiert
Ansatz der FlyEx-Datenbank
• Enthält Bilder von Drosophila Embryos in
verschiedenen Entwicklungsphasen
• jeder Zellkern des Embryos hat folgende
Eigenschaften:
Identifikationsnummer
Position des Zellkerns
Expressionslevel
Netzwerk räumlicher
Expressionsmuster
• Räumliche Genexpressionsmuster sollen
visualisiert und analysiert werden
Netzwerke können räumliche Interaktionen
messen und bewerten
Netzwerk muss auf die räumliche Komponente
der Expression Rücksicht nehmen
Eigenschaften räumlicher
Expressionsmuster
• Farbintensität eines Zellkerns
• Position des Zellkerns
• Position und Farbintensität der
Nachbarzellkerne
Informationen lassen sich zum Aufbau
eines Netzwerks verwenden
Aufbau des Netzwerks:
• Knoten stellen Expressionselemente dar
Zelle
Zwei Knoten {i,j} werden durch eine Kante
verbunden:
1.) Die Knoten haben ähnliche Expressionsintensität
Identifiziert Expressionskorrelationen zwischen
Nachbarzellen
2.) Knoten liegen nicht weiter als eine Maximaldistanz
auseinander
Betont die Lokalität der Genexpression
Mathematisch formuliert:
• Paar von Knoten {i,j} wird verbunden, wenn
die Bedingung gilt:
Position des Zellkerns

1
edgei, j  0




falls|Pi Pj |D und
sonst
Expressionslevel
| i  j |
max(  i , j )

Knotengrad: Anzahl der Kanten des
Knotens
• Knotengrad steigt mit der Korrelation
der Expressionsintensität
Induziert mögliche Kommunikation zwischen
den Zellen

Clusteringkoeffizient:
Anzahl der Kanten die zwischen den Nachbarn verlaufen
Anzahl aller möglichen Kanten zwischen den Nachbarschaftsknoten
•
•Je höher der Clusteringkoeffizient, desto ähnlicher die
Expressionsmuster
Der Clusteringkoeffizient
charakterisiert den Genexpressionskontext einer Zelle
Der Durchschnittsclusteringkoeffizient des ganzen Netzwerks
<C> kann als Maß für die allgemeine Verbundenheit des
Netzwerks verwendet werden
Alternative Netzwerke:
Zum Aufbau des Netzwerks können auch andere Kriterien
herangezogen werden:
• Antikorrelation: Wie unähnlich sind sich
Expressionsmuster ?
Zellhemmung kann untersucht werden
• Zeitliche Korrelation: Wo wird das Gen zur
gleichen Zeit exprimiert ?
• Mit räumlichen Genexpressionsmustern
lassen sich wichtige Aussagen über die Rolle
von Genen - besonders in der Entwicklung
von Organismen - treffen
• Aber:
• In Situ Hybridisierung ist ineffizient, höchsten
drei Gene können gleichzeitig in einem Embryo
hybridisieren
Automatische Methoden zur Erstellung und Analyse
von räumlichen Genexpressionsmustern sind nötig
Methode von C. L. Harmon
• Automatische Erstellung von räumlichen
Expressionsmustern in Imaginal Discs von
Drosophila Melanogaster
• Automatisierte Suche, Extrahierung und Bewertung
von Imaginal Discs im Bildmaterial
• Generierung von Genexpressionskarten für jedes
Gen
• Clustering der Genexpressionskarten
Imaginal Discs
• Undifferenzierte Strukturen in der
Insektenlarve, aus denen sich während der
Verpuppung Körperteile der erwachsenen
Insekten bilden
Flügel, Auge, Antenne, Kopf, Extremitäten
Lebenszyklus von Drosophila:
Puppe
Fliege
Puppe
Antenne + Auge
Fliege
Bein
Flügel
Haltere
Genitalien
Puppe
Antenne + Auge
Fliege
Bein
Flügel
Haltere
Genitalien
Die spätere Struktur von Imaginal Discs
ist determiniert
Ablauf:
Hybridisierung
Extraktion von
Vordergrundregionen
Aufnahme von
Photos
Manuelle
Segmentierung
von Imaginal Discs
Alignment
Generierung von
Shape Models
Bewertung des
Färbegrads
Erstellung von
Genexpressionskarten und
Clustering
Ablauf:
Hybridisierung
Extraktion von
Vordergrundregionen
Aufnahme von
Photos
Manuelle
Segmentierung
von Imaginal Discs
Alignment
Generierung von
Shape Models
Bewertung des
Färbegrads
Erstellung von
Genexpressionskarten und
Clustering
Erstellung von Shape Models:
Consensus Shape Model
Hybridisierung
Extraktion von
Vordergrundregionen
Aufnahme von
Photos
Manuelle
Segmentierung
von Imaginal Discs
Alignment
Generierung von
Shape Models
Bewertung des
Färbegrads
Erstellung von
Genexpressionskarten und
Clustering
Extraktion von Vordergrundregionen:
• Vordergrundregionen sollen aus dem Bildmaterial
extrahiert und mit den Shape Models verglichen
werden
• Das Bildmaterial enthält Pixelvariabilitäten
Streuung, Absorption von Licht durch das Material
Vor dem Alignment sind Bildbearbeitungsschritte
nötig
Laplace-Filter
• Mit dem Laplace-Filter ist eine Kantenschärfung
von Vordergrundregionen möglich
Führt beim Alignment zu einer
besseren Dedektion von Imaginal Discs
Nutzt die zweite Ableitung der Bildfunktion
• Anwendung:
Funktion:
ursprüngliches Bildprofil:
f (u)
erste Ableitung der Bildfunktion:

f '(u)
zweite Ableitung der Bildfunktion:

f ''(u)
geschärfte Funktion:

^
f (u)  f (u)  wf ''(u)
Hybridisierung
Extraktion von
Vordergrundregionen
Aufnahme von
Photos
Manuelle
Segmentierung
von Imaginal Discs
Alignment
Generierung von
Shape Models
Bewertung des
Färbegrads
Erstellung von
Genexpressionskarten und
Clustering
Alignment
Sequenzalignment
Alignment von Bildern
AATGGC
|| ||
AAGCGC
• Farbintensitäten an einer Position
• Buchstaben an einer
Position werden verglichen werden verglichen
Affine Transformation:
Gaps:
AAT-GGC
|| ||
AAGCGCDrehung
Skalierung Spiegelung
Problem bei Binärbildern:
Großer Unterschied in den Farbintensitäten schon bei
kleinsten Pixelverschiebungen
Distanztransformation
Distanztransformation
• Für jede Bildposition wird bestimmt, wie weit
sie geometrisch vom nächsten
Vordergrundpixel entfernt ist
• Auf Basis der Distanz wird den Hintergrundpixeln
ein Grauwert zugeordnet
000000000000
000000000000
000010000000
001000000000
000000000000
000000000000
000000011000
000000010000
000000000000
000000000000
Koordinaten: p = (r,s), p‘=(r‘,s‘)
Euklidische Distanz:
dE ( p, p') || p  p'|| (r  r')2  (s  s')2  R 

543323456789
432212345678
321101234567
210112333456
321223322345
432333211234
543432100123
654432101234
765543212345
876654323456
Distanzmatrix
• Zielbild und Shape Model soll ein Score
basierend auf einem Distanzmaß zugeordnet
werden
• Die normalisierte Crosskorrealtions -Distanz
wird verwendet um zwei Bilder zu vergleichen
M N
Seien
distanztransformierte
Bilder:
Normalisierte Crosskorrelation:
X,Y  R

NCC(X,Y ) 
 
 
M
N
i1
j1
M
N
i1
j1


(X i, j  X )(Yi, j  Y )

(X i, j  X )
2
 
M
N
i1
j1

(Yi, j  Y ) 2
NCC gibt einen Wert zwischen 0 und 1 zurück

Falls NCC = +1, so matchen die Bilder perfekt
• Die normalisierte Crosskorrelation ist inkonsistent
gegenüber Drehungen und Größenänderungen
Affine Transformation muss gesucht werden, welche
die normalisierte Crosskorrelation maximiert
for each config in initialConfigurationList
for iteration = 0 to maxIterations
origScore = NCC(target, model)
for x in config
xDown = x - stepSize
stepDownImage = AffineTransformImage(target, xDown, config)
stepDownScore = NCC(stepDownImage, model)
if stepDownScore > origScore
then x = xDown
xUp = x + stepSize
stepUpImage = AffineTransformImage(target, xUp, x)
stepUpScore = NCC(stepUpImage, model)
if stepUpScore > Max(origScore, stepDownScore)
then x = xUp
config = Update(x, config)
alignedTarget = AffineTransform(target, config)
Return(alignedTarget)
Zur Anzeige wird der QuickTime™
Dekompressor „Animation“
benötigt.
Ablauf:
Hybridisierung
Extraktion von
Vordergrundregionen
Aufnahme von
Photos
Manuelle
Segmentierung
von imaginal discs
Alignment
Generierung von
Shape Models
Bewertung des
Färbegrads
Erstellung von
Genexpressionskarten und
Clustering
Berechnung des Stain Scores:
Naiv:
Blaukanal
Rotkanal
Grünkanal
rij  gij
sij  bij 
2
Führt zu Problemen in Gebieten
starker Färbung

Verbessert:
rij  gij
sij  max( bmin ,bij) 
2
Ablauf:
Hybridisierung
Extraktion von
Vordergrundregionen
Aufnahme von
Photos
Manuelle
Segmentierung
von imaginal discs
Alignment
Generierung von
Shape Models
Bewertung des
Färbegrads
Erstellung von
Genexpressionskarten und
Clustering
Genexpressionskarten:
• Verschiedene Expressionsbilder eines Gens
in einer Imaginal Discs werden zu
Expressionskarten zusammengefasst
Pixelwert in der Expressionskarte
ist der Mittelwert von allen alignierten Bildern
Expressionskarte des Gens dr1
Anwendung von
Genexpressionskarten
• Neue Bilder können extrahiert, aligniert und
mit der Expressionskarte anderer Gene
verglichen werden
Doc1:
Transkriptionsfaktor
Cyp310a1:
Elektronencarrier
Doc2:
Transkriptionsfaktor
Pepck:
Phosphoenolpyruvat
Carboxykinase
Overlay Maps:
• Aus den Expressionsmustern
mehrer Gene können Overlay Maps
gebildet werden
Drm:
Bindung von Nucleinsäuren
TIMP:
metalloendopeptidase inhibitor activity
BG:DS00180-3:
Clustering
• Gemeinsame Eigenschaften verschiedener
Gene lassen sich durch Clustering feststellen
Clustering ähnlicher Expressionsmuster:
Clustering von Pixeln:
Pixel mit ähnlichen Expressionsprofilen
werden geclustert
Pixel Clustering
Notum
Zusammenfassung
• Genexpressionsmuster von 130 Genen wurden
untersucht
• Die Methode arbeitet in 85% der Fälle adäquat
Fehler bei mehreren Imaginal Discs in einem Bild
und starker biologischer Verschmutzung
• Für die Zukunft:
Mehrere Imaginal Discs in einem Bild
sollen erkannt werden
Die Methode soll robuster gegen biologische
Störungen werden
Hierarchisches Clustering soll verwedet werden