Analyse von Genexpressionsprofilen

Werbung
Analyse von Genexpressionsprofilen
Jede einzelne Zelle eines Organismus enthält sein komplettes Genom. Aber nicht alle Zellen
exprimieren die gleichen Gene. Unterschiede treten dabei in Raum und Zeit auf, d.h. zu
unterschiedlichen Zeiten werden in verschiedenen Zelltypen jeweils andere Gene exprimiert.
Im Falle von kodierenden Genen wird diese Genauswahl über Transkriptions- und
Translationsapparat in Proteine „übersetzt“ und bestimmt dadurch den Zustand und die
Funktion der Zelle. Die Genaktivität ist dabei abhängig vom Entwicklungsstadium,
extrazellulären Signalen und Zellart. Es ergeben sich Muster der aktiven Gene die Genexpressionsprofile genannt werden. Sie existieren für einzelne Organismen und verschiedene
Zelltypen. Vergleiche der Profile können in Raum und Zeit durchgeführt werden, z.B. kann
man die Genexpression in verschiedenen Zelltypen („Raum“) oder die Entwicklungsstadien
(Änderungen der Genaktivität) eines Zelltyps („Zeit“) untersuchen. Die Vergleiche erlauben
Schlüsse über die Funktion und Beziehung von Genen. Um die Aktivität von tausenden von
Genen zu untersuchen wurde das DNA-Microarray entwickelt.
Aufbau und Funktion von DNA-Microarrays
Ein Microarray ist eine Trägerplatte aus Glas oder Kunststoff auf der in einem bestimmten
Muster Polynukleotide aufgebracht sind. Die Sequenzen sind bekannt und jeder sind die
Koordinaten auf der Trägerplatte zugeordnet.
Es gibt mehrere verschiedene Möglichkeiten Microarrays herzustellen. Die am häufigsten
eingesetzten Verfahren sind 1.) die Aufbringung von cDNA’s (mehrere hundert bp) und 2.)
die Ansynthese kurzer Oligonukleotide (18 – 25 Basen). Die cDNA’s sind Kopien von
bestimmten Genen eines Organismus und damit kann den Koordinaten gleichzeitig ein
bestimmter Genname zugeordnet werden. Die Oligonukleotide sind komplementär zu
Teilabschnitten von Genen mit bekannter Sequenz. Die Nukleotide werden in Sektoren
aufgebracht. Jeder Sektor steht für ein bestimmtes Gen bzw. eine bestimmte Sequenz und
beinhaltet mehrere cDNA’s bzw. Oligonukleotide. Ein Microarray der Größe n kann n2
verschiedene cDNA’s tragen die bestimmte Gene repräsentieren. Die Koordinaten der
einzelnen „Gene“ sind bekannt. Microarrays können annäherungsweise für den kompletten
Gensatz von verschieden Organsimen (z.B. Maus, Mensch, Fruchtfliege) angefertigt werden.
Der Grundgedanke ist, das Abschnitte der festen Polynukleotide (cDNA’s oder
Oligonukleotide) mit einigen Proben- Poly(ribo)nukleotiden (cRNA’s) aufgrund
komplementärer Basenpaare hybridisieren. Durch die Hybridisierung kommt es zu einer
Fixierung. Nicht-hybridisierte Moleküle werden durch einen Waschvorgang entfernt. Durch
an die Proben-cRNA angebrachte Fluoreszenz- Farbstoffe (und andere Methoden) können die
hybridisierten cRNA’s nachgewiesen werden.
Als Repräsentant des Expressionsprofils wird die mRNA- Population einer Zelle gewählt. Da
mRNA instabil ist, wird diese durch reverse Transkription in cDNA übersetzt und bei der in
vitro Transkription zur cRNA mit Fluoreszenz-Farbstoffen versehen. Diese cRNA’s sind die
Proben- Poly(ribo)nukleotide die auf das Microarray aufgebracht werden. Da
Expressionsprofile von der Genaktivät der Zelle abhängen, werden nur bestimmte mRNAs in
der Population vorhanden sein. Es kommt dadurch nicht zur Hybridisierung mit allen cDNA’s
des Microarray. In der folgenden Fluoreszenzanalyse markieren sogenannte „Spots“
(angeregte Farbstoffe die Strahlung emittieren) in den einzelnen Sektoren wo
Hybridisierungen stattgefunden haben und wo nicht. Da bekannt ist welche Gene durch
welche cDNA’s auf dem Array repräsentiert werden kann nun darauf geschlossen werden
welche mRNA’s in der Zelle vorkommen und welche nicht. Man schließt daraus auf die
Genaktivität. Die Intensität der Fluroeszenzreaktion (und damit des Spots) lässt weiterhin auf
die Konzentration der mRNA (Stärke der Genaktivität) schließen. Die Spots im Microarray
sind damit ein Abbild des Genexpressionsprofils einer bestimmten Zelle zu einem bestimmten
Zeitpunkt.
Abb. 1: Nachweis von mRNA-Produkten einer Zelle mit
Microarrays
Vergleich von Genexpressionsprofilen
Durch Verwendung verschiedener mRNA-Populationen lassen sich
Vergleiche hinsichtlich Zelltypen oder zeitlicher Entwicklung
durchführen. Um die Populationen auseinanderzuhalten werden
verschiedene Fluoreszenzfarbstoffe verwendet.
Die gemessenen Intensitäten der zwei Fluoreszenz Reporter wird in
Falschfarben (Rot/Grün) umgerechnet und übereinander gelegt. Gelbe
Spots haben die gleiche Menge gebundener cDNA von jeder der beiden
Zellpopulationen (rot+ grün = gelb). Spots die rot oder grün sind zeigen
das dort die DNA von nur einer Probe sehr stark gebunden hat.
Mögliche Vergleiche:
1) Vergleich krankes und gesundes Gewebe
2) Vergleich verschiedener Gewebe
3) Vergleich der mRNA-Population zu bestimmten diskreten Zeitpunkten, mit
Population zu einem bestimmten Anfangszeitpunkt
usw.
Abb. 2: Schematische Darstellung der
Expressionsprofile zweier unterschiedlicher Tumorgewebebiopsien. Das
Gen, das durch den umrandeten Probeset markiert ist, ist in Biopsie A nicht
exprimiert, aber in Biopsie B.
Ein Problem der Analyse solcher Genexpressionsprofile ist die enorme Menge der Daten
(durch die große Zahl der verglichenen Gene) und damit deren Unübersichtlichkeit. Es ist
schwer konkrete Schlüsse über gestimmte Gene und deren Beziehungen untereinander zu
ziehen. Für die Vergleichsart 1) mag dies noch durch einen menschlichen Betrachter zu
bewältigen sein. Doch für 2) und 3) bei dem mehrere Expressionsprofile mit jeweils 100010000 Genen zu untersuchen sind, benötigt man eine computergestützte Auswertung.
Als Beispiel wird hier die Vergleichsart 3) genauer beschrieben:
Zeit
Die Ausgangs-mRNA Population wird isoliert und aufbewahrt. Sie
wird mit einem 1.Fluoreszenz-Farbstoff markiert. Aus den zu
untersuchenden Zellen eines Zelltyps werden zu bestimmten
Zeitpunkten (z.B. nach einem extrazellulären Signal) mRNAPopulationen gewonnen und mit einem 2. Fluoreszenz-Farbstoff
markiert. Die unterschiedliche markierten Populationen werden auf
ein Microarray gegeben. Nach der Fluoreszenzanalyse berechnet man
den Quotient (Intensität 1.Farbstoff/Intensität 2.Farbstoff) = q1,2 der
Intensitäten eines Gens. Ist q1,2 = 1 bedeutet dies keine Veränderung
der Aktivität des Gens, q1,2 < 1 Zunahme der Aktivität, q1,2 >
Abnahme der Aktivität. Im Allgemeinen werden diese Quotienten
noch logarithmiert und können in Falschfarben dargestellt werden.
Für jeden Zeitpunkt ergibt sich ein Bild über die Veränderung der
Aktivität von tausenden von Genen. Dieses Bild wird im folgenden
als zeitliches Genexpressionsprofil bezeichnet.
Schön wäre es wenn aus dem Bild Daten darüber gewonnen werden
könnten, welche Gene ein ähnliches Expressionsprofil über der Zeit
haben. Diese Gene könnten dann in Gruppen zusammengefasst
werden und das Bild damit umgeordnet werden. Aus der Ähnlichkeit
des Expressionsprofils zweier Gene kann man darauf schließen, dass
sie in funktioneller Beziehung stehen. Eine solche Umordnung würde
Aufschluß darüber geben welche Gengruppen zu bestimmten Zeiten
ein- und ausgeschaltet werden, welche Gene überhaupt zu diesen
gehören und wie diese in Beziehung stehen. Das Problem der Gengruppierung nach bestimmten Kriterien (hier Genaktivität im Verlauf
der Zeit) ist ein Optimierungsproblem aus dem BioinformatikTeilgebiet Data Mining. Es ist eine Art des „Clustering-Problems“
das auch in vielen anderen Gebieten vorkommt.
Gene
Das Clustering-Problem bei zeitlichen Genexpressionsprofilen
Clustering bedeutet Unterteilung von Datenmengen nach einem bestimmten Kriterium.
Bestimmte Elemente werden zu einem „Cluster“ hinzugefügt wohingegen andere nicht zu
diesem Cluster gehören. Ziel ist es eine hohe „Ähnlichkeit“ (nach einem bestimmten
Kriterium) der Elemente eines Clusters und eine geringe „Ähnlichkeit“ der Elemente aus
verschiedenen Clustern zu erhalten. Die Anzahl der Cluster ist bei dieser Art des Problems am
Anfang nicht bekannt. Es müssen daher Annahmen über die Clusteranzahl gemacht werden.
Definition des Clustering-Problems (Minimum sum-of-squares clustering):
- Population: X = {x1, x2,… , xn}und
- Einteilung der Population in Cluster:
- Mk Punkte im Cluster k
- Clusterzentren:
(Mittelwert über den Cluster)
- Squared Error für Cluster k:
- Gesamtfehler:
(Zielfunktion)
- Ziel ist bei gegebener Clusteranzahl g eine Unterteilung von X zu finden so dass Eg  Min
Die Übertragung des allgemeinen Problems auf die Analyse der Genexpressionsprofile ergibt
sich einfach dadurch, dass ein Gen und die Veränderung der (logarithmierten) Quotienten der
Intensität der Spots (log q1,2) im Laufe der Zeit als Vektor angesehen werden.
Definition der Genaktivität als Vektor:
- m Zeitpunkte, n Gene
- Veränderung der Expression des Gen g zum Zeitpunkt t:
vi,t = log q1,2 des Spots für Gen i zum Zeitpunkt t, für alle i = 1...n
- Vektor für Genaktivität: xi = (vi,1 , vi,2 , vi,3, ..., vi,n)
Diese Definition ergibt n m-dimensionale Vektoren. Auch hier gilt es die Zielfunktion Eg zu
minimieren und damit Gene mit gleicher Genaktivität in g Gruppen zu einzuordnen.
Beschreibung und Größe des Suchraums:
Der Suchraum Pk ist die Menge aller Partitionen von X in k (=g) Cluster. Die Größe des
Suchraums beträgt S(n,k). Wobei S(n,k) die Stirling-Zahlen 2.Art sind, die die Anzahl aller
möglichen nichtleeren k- Partitionen einer Menge mit n Elementen angeben. Es gilt:
Ist dagegen die Anzahl k der Cluster unbekannt so erweitert sich der Suchraum auf die Größe
Bn (Bell-Zahlen). Für die n-te Bell-Zahl gilt:
Als Beispiel die Bell-Zahlen von B0 bis B12:
1, 1, 2, 5, 15, 52, 203, 877, 4140, 21147, 115975, 678570, 4213597
Das heißt für 12 Elemente (z.B. 12 verschiedene Genaktivitäten) gibt es 4213597 Möglichkeiten diese zu Clustern.
B100 = 4758539127676483365879076884138720782636366968682561146661633463755911
4497892442622672724044217756306953557882560751
Der exponentielle Charakter der Größe des Suchraums ist eindeutig zu erkennen.
Eine weitere Herangehensweise an das Problem der Gruppierung von Genen wird als Problem
der Genanordnung mit maximaler Ähnlichkeit bezeichnet. Sie benötigt keine festgelegte
Clusteranzahl aber verwendet ein Ähnlichkeitsmaß für die Berechnung der Distanz der
Genaktivität zweier Gene. Die Lösung dieses Problems ist ähnlich der Konstruktion eines
evolutionären Baumes mit minimalen Distanzen. Algorithmen die auf diese Weise arbeiten,
schichten also „nur“ die Zeilen des zeitlichen Genexpressionsprofils um und bringen damit
Struktur in die Bilder. Der Suchraum ist in diesem Fall auf die Permutationen der n Zeilen
beschränkt und hat damit eine Größe von n! .
Verschiedene heuristische Ansätze zur Lösung
1. hierarchische Verfahren (meist für Genanordnungs-Problem)
- Rekonstruktion auf der Basis von Ähnlichkeitswerten der einzelnen Vektoren
- Ähnlichkeitsfunktion benötigt
2. Partitionierungsverfahren (meist für Clustering- Problem)
- meist Optimierungsverfahren (z.B. k-mean- Algorithmus)
3. memetische Algorithmen
- Kombination aus evolutionären Algorithmen + Optimierungsverfahren(z.B.k-means)
- vielversprechend
Abschätzung der Schwierigkeit des Minimum-sum-of-squares Clustering
Ist die Anzahl der Cluster bekannt (k) kann man für ein Optimierungsverfahren die Cluster
(z.B. entsprechend zufälliger Clusterzentren) initialisieren. Diese Initialisierung muss für die n
Elemente hinsichtlich des Minimum-sum-of-squares Kriterium für jeden Cluster überprüft
werden. Ein Optimierungsverfahren wird nun die Zuordnungen iterativ optimieren (z.B. durch
Verschiebung der Clusterzentren) und nach einer bestimmten Anzahl von Iterationen i
abbrechen sobald ein Minimum erreicht wurde (inwiefern dies ein lokales oder globales ist,
ist schwer zu bestimmen und stark von der Initialisierung abhängig). Es ergibt sich damit eine
Abschätzung von O(n * k * i) wobei in i der Aufwand für die Optimierung eines Schrittes
mitenthalten ist.
Ist die Anzahl der Clusterzentren nicht bekannt so muss in jedem Schritt, für jede Anzahl von
Clusterzentren eine Überprüfung durchgeführt werden. Dies bedeutet für jeden Schritt einen
Aufwand von O(n*1 + n*2 + n*3 + ... + n*n) = O(n*n(n+1)/2). Der Gesamtaufwand ergibt
sich zu O( (n3+n2)/2 * i ). Das Problem hierbei ist auch das sich die Anzahl der Iterationsschritte vergrößern wird, da verschiedene Clusteranzahlen betrachtet werden.
Abb. 3: Der „Lohn“ der Mühe.
Ergebnis des hierarchischen Clustering der Genaktivitäten eines zeitlichen Expressionsprofils
(Genanordnungsproblem). Ca. 8600 verschiedene Gene wurden betrachtet. Zu erkennen ist wie
zu bestimmten Zeitpunkten ganze Gengruppen aktiviert (rot) bzw. inaktiviert (grün) werden. Aus
solch einer Umgruppierung ist jetzt bestimmbar, welche Gene zu den einzelnen Gruppen
gehören. Dabei können neue Genfunktionen und Beziehungen zwischen den Genen entdeckt
werden.
Quellen:
DNA-Mikroarrays: eine neue Technologie zur Erstellung von RNA-Expressionsprofilen
auf Genomebene
Ludger Klein-Hitpaß und Tarik Möröy
BIOSPEKTRUM 2.01, 7.JAHRGANG, pp. 150-153
Cluster analysis and display of genome-wide expression patterns
MICHAEL B. EISEN, PAUL T. SPELLMAN, PATRICK O. BROWN, AND DAVID
BOTSTEIN
Proc. Natl. Acad. Sci. USA Vol. 95, pp. 14863–14868, December 1998
_________
_______ __
_________
_______ __
___ _________ _______ ____
_______
___ _________ _______ ____
_______
Clustering Gene Expression Profiles with Memetic Algorithms
Peter Merz and Andreas Zell
Proceedings of the 7th International Conference on Parallel Problem Solving from Nature PPSN VII, Lecture Notes in Computer Science 2439, Springer, Berlin, Heidelberg, pp. 811820, 2002.
_____ ____ ___ _____! "_#
Internetquellen:
- Mathe-Foren:
Matroids Matheplanet http://matheplanet.com/
MatheRaum http://www.matheraum.de
- Vorlesung:
Reinhard Beichel, Bildverarbeitung und Mustererkennung 2002 / 2, Universität Graz,
Institute for Computer Graphics and Vision
Christian Bodenstein 2004
Matrikel- Nr.: 63609
Herunterladen