Hauptseminar Comparative Analysis of Spatial Patterns of Gene Expression in Drosophila melanogaster Imaginal Discs Henrik Failmezger Räumliche Genexpressionsmuster Zur Untersuchung der Genexpression werden typischerweise Microarray - Experimente durchgeführt Untersuchung der Expression von Genen im großen Stil möglich Bieten Informationen welche Gene zu einem gewissen Zeitpunkt exprimiert werden Aber: Liefern meist keine räumliche Information 2 Warum räumliche Genexpressionsmuster ? Man will wissen: In welchen Geweben werden Gene exprimiert ? Welche Gene werden zusammen exprimiert ? Wie werden Gene räumlich reguliert ? Welche Expressionsmuster ähneln sich ? Beantwortung dieser Fragen wichtig - zum Beispiel für die Entwicklungsbiologie Herstellung: • Zur Erstellung räumlicher Expressionsmuster werden Gene in Situ hybridisiert Ansatz der FlyEx-Datenbank • Enthält Bilder von Drosophila Embryos in verschiedenen Entwicklungsphasen • jeder Zellkern des Embryos hat folgende Eigenschaften: Identifikationsnummer Position des Zellkerns Expressionslevel Netzwerk räumlicher Expressionsmuster • Räumliche Genexpressionsmuster sollen visualisiert und analysiert werden Netzwerke können räumliche Interaktionen messen und bewerten Netzwerk muss auf die räumliche Komponente der Expression Rücksicht nehmen Eigenschaften räumlicher Expressionsmuster • Farbintensität eines Zellkerns • Position des Zellkerns • Position und Farbintensität der Nachbarzellkerne Informationen lassen sich zum Aufbau eines Netzwerks verwenden Aufbau des Netzwerks: • Knoten stellen Expressionselemente dar Zelle Zwei Knoten {i,j} werden durch eine Kante verbunden: 1.) Die Knoten haben ähnliche Expressionsintensität Identifiziert Expressionskorrelationen zwischen Nachbarzellen 2.) Knoten liegen nicht weiter als eine Maximaldistanz auseinander Betont die Lokalität der Genexpression Mathematisch formuliert: • Paar von Knoten {i,j} wird verbunden, wenn die Bedingung gilt: Position des Zellkerns 1 edgei, j 0 falls|Pi Pj |D und sonst Expressionslevel | i j | max( i , j ) Knotengrad: Anzahl der Kanten des Knotens • Knotengrad steigt mit der Korrelation der Expressionsintensität Induziert mögliche Kommunikation zwischen den Zellen Clusteringkoeffizient: Anzahl der Kanten die zwischen den Nachbarn verlaufen Anzahl aller möglichen Kanten zwischen den Nachbarschaftsknoten • •Je höher der Clusteringkoeffizient, desto ähnlicher die Expressionsmuster Der Clusteringkoeffizient charakterisiert den Genexpressionskontext einer Zelle Der Durchschnittsclusteringkoeffizient des ganzen Netzwerks <C> kann als Maß für die allgemeine Verbundenheit des Netzwerks verwendet werden Alternative Netzwerke: Zum Aufbau des Netzwerks können auch andere Kriterien herangezogen werden: • Antikorrelation: Wie unähnlich sind sich Expressionsmuster ? Zellhemmung kann untersucht werden • Zeitliche Korrelation: Wo wird das Gen zur gleichen Zeit exprimiert ? • Mit räumlichen Genexpressionsmustern lassen sich wichtige Aussagen über die Rolle von Genen - besonders in der Entwicklung von Organismen - treffen • Aber: • In Situ Hybridisierung ist ineffizient, höchsten drei Gene können gleichzeitig in einem Embryo hybridisieren Automatische Methoden zur Erstellung und Analyse von räumlichen Genexpressionsmustern sind nötig Methode von C. L. Harmon • Automatische Erstellung von räumlichen Expressionsmustern in Imaginal Discs von Drosophila Melanogaster • Automatisierte Suche, Extrahierung und Bewertung von Imaginal Discs im Bildmaterial • Generierung von Genexpressionskarten für jedes Gen • Clustering der Genexpressionskarten Imaginal Discs • Undifferenzierte Strukturen in der Insektenlarve, aus denen sich während der Verpuppung Körperteile der erwachsenen Insekten bilden Flügel, Auge, Antenne, Kopf, Extremitäten Lebenszyklus von Drosophila: Puppe Fliege Puppe Antenne + Auge Fliege Bein Flügel Haltere Genitalien Puppe Antenne + Auge Fliege Bein Flügel Haltere Genitalien Die spätere Struktur von Imaginal Discs ist determiniert Ablauf: Hybridisierung Extraktion von Vordergrundregionen Aufnahme von Photos Manuelle Segmentierung von Imaginal Discs Alignment Generierung von Shape Models Bewertung des Färbegrads Erstellung von Genexpressionskarten und Clustering Ablauf: Hybridisierung Extraktion von Vordergrundregionen Aufnahme von Photos Manuelle Segmentierung von Imaginal Discs Alignment Generierung von Shape Models Bewertung des Färbegrads Erstellung von Genexpressionskarten und Clustering Erstellung von Shape Models: Consensus Shape Model Hybridisierung Extraktion von Vordergrundregionen Aufnahme von Photos Manuelle Segmentierung von Imaginal Discs Alignment Generierung von Shape Models Bewertung des Färbegrads Erstellung von Genexpressionskarten und Clustering Extraktion von Vordergrundregionen: • Vordergrundregionen sollen aus dem Bildmaterial extrahiert und mit den Shape Models verglichen werden • Das Bildmaterial enthält Pixelvariabilitäten Streuung, Absorption von Licht durch das Material Vor dem Alignment sind Bildbearbeitungsschritte nötig Laplace-Filter • Mit dem Laplace-Filter ist eine Kantenschärfung von Vordergrundregionen möglich Führt beim Alignment zu einer besseren Dedektion von Imaginal Discs Nutzt die zweite Ableitung der Bildfunktion • Anwendung: Funktion: ursprüngliches Bildprofil: f (u) erste Ableitung der Bildfunktion: f '(u) zweite Ableitung der Bildfunktion: f ''(u) geschärfte Funktion: ^ f (u) f (u) wf ''(u) Hybridisierung Extraktion von Vordergrundregionen Aufnahme von Photos Manuelle Segmentierung von Imaginal Discs Alignment Generierung von Shape Models Bewertung des Färbegrads Erstellung von Genexpressionskarten und Clustering Alignment Sequenzalignment Alignment von Bildern AATGGC || || AAGCGC • Farbintensitäten an einer Position • Buchstaben an einer Position werden verglichen werden verglichen Affine Transformation: Gaps: AAT-GGC || || AAGCGCDrehung Skalierung Spiegelung Problem bei Binärbildern: Großer Unterschied in den Farbintensitäten schon bei kleinsten Pixelverschiebungen Distanztransformation Distanztransformation • Für jede Bildposition wird bestimmt, wie weit sie geometrisch vom nächsten Vordergrundpixel entfernt ist • Auf Basis der Distanz wird den Hintergrundpixeln ein Grauwert zugeordnet 000000000000 000000000000 000010000000 001000000000 000000000000 000000000000 000000011000 000000010000 000000000000 000000000000 Koordinaten: p = (r,s), p‘=(r‘,s‘) Euklidische Distanz: dE ( p, p') || p p'|| (r r')2 (s s')2 R 543323456789 432212345678 321101234567 210112333456 321223322345 432333211234 543432100123 654432101234 765543212345 876654323456 Distanzmatrix • Zielbild und Shape Model soll ein Score basierend auf einem Distanzmaß zugeordnet werden • Die normalisierte Crosskorrealtions -Distanz wird verwendet um zwei Bilder zu vergleichen M N Seien distanztransformierte Bilder: Normalisierte Crosskorrelation: X,Y R NCC(X,Y ) M N i1 j1 M N i1 j1 (X i, j X )(Yi, j Y ) (X i, j X ) 2 M N i1 j1 (Yi, j Y ) 2 NCC gibt einen Wert zwischen 0 und 1 zurück Falls NCC = +1, so matchen die Bilder perfekt • Die normalisierte Crosskorrelation ist inkonsistent gegenüber Drehungen und Größenänderungen Affine Transformation muss gesucht werden, welche die normalisierte Crosskorrelation maximiert for each config in initialConfigurationList for iteration = 0 to maxIterations origScore = NCC(target, model) for x in config xDown = x - stepSize stepDownImage = AffineTransformImage(target, xDown, config) stepDownScore = NCC(stepDownImage, model) if stepDownScore > origScore then x = xDown xUp = x + stepSize stepUpImage = AffineTransformImage(target, xUp, x) stepUpScore = NCC(stepUpImage, model) if stepUpScore > Max(origScore, stepDownScore) then x = xUp config = Update(x, config) alignedTarget = AffineTransform(target, config) Return(alignedTarget) Zur Anzeige wird der QuickTime™ Dekompressor „Animation“ benötigt. Ablauf: Hybridisierung Extraktion von Vordergrundregionen Aufnahme von Photos Manuelle Segmentierung von imaginal discs Alignment Generierung von Shape Models Bewertung des Färbegrads Erstellung von Genexpressionskarten und Clustering Berechnung des Stain Scores: Naiv: Blaukanal Rotkanal Grünkanal rij gij sij bij 2 Führt zu Problemen in Gebieten starker Färbung Verbessert: rij gij sij max( bmin ,bij) 2 Ablauf: Hybridisierung Extraktion von Vordergrundregionen Aufnahme von Photos Manuelle Segmentierung von imaginal discs Alignment Generierung von Shape Models Bewertung des Färbegrads Erstellung von Genexpressionskarten und Clustering Genexpressionskarten: • Verschiedene Expressionsbilder eines Gens in einer Imaginal Discs werden zu Expressionskarten zusammengefasst Pixelwert in der Expressionskarte ist der Mittelwert von allen alignierten Bildern Expressionskarte des Gens dr1 Anwendung von Genexpressionskarten • Neue Bilder können extrahiert, aligniert und mit der Expressionskarte anderer Gene verglichen werden Doc1: Transkriptionsfaktor Cyp310a1: Elektronencarrier Doc2: Transkriptionsfaktor Pepck: Phosphoenolpyruvat Carboxykinase Overlay Maps: • Aus den Expressionsmustern mehrer Gene können Overlay Maps gebildet werden Drm: Bindung von Nucleinsäuren TIMP: metalloendopeptidase inhibitor activity BG:DS00180-3: Clustering • Gemeinsame Eigenschaften verschiedener Gene lassen sich durch Clustering feststellen Clustering ähnlicher Expressionsmuster: Clustering von Pixeln: Pixel mit ähnlichen Expressionsprofilen werden geclustert Pixel Clustering Notum Zusammenfassung • Genexpressionsmuster von 130 Genen wurden untersucht • Die Methode arbeitet in 85% der Fälle adäquat Fehler bei mehreren Imaginal Discs in einem Bild und starker biologischer Verschmutzung • Für die Zukunft: Mehrere Imaginal Discs in einem Bild sollen erkannt werden Die Methode soll robuster gegen biologische Störungen werden Hierarchisches Clustering soll verwedet werden