Kapitel 4 (Forts.) Genexpression

Werbung
Kapitel 4 (Forts.) Genexpression
Genexpression
■
Was ist Genexpression?
− Aktivierung der Gentranskription durch endogene, exogene
Einflüsse
• Genexpressionsexperimente
– Verfahren
– Anwendungsgebiete
– Systematische Probleme, Normalisierung
− Ausbildung der einem Gen inhärenten Eigenschaften
■
− Charakterisierung der Funktion von Genen, deren Interdependenzen, Interaktionen und Einfluss in verschiedenen
Netzwerken (metabolische N., regulatorische N. etc.)
• Analyse von Genexpressionsdaten
– Differentielle Expression
– Clustering zur Ko-Expression
■
• Datenmanagment
– Übersicht zu bestehenden Genexpressions-DBs
– Datenarten, Datenmodelle
Ziele der Genexpressionsanalyse
Messung der Genexpression
■ Ziele:
− Messung der RNA Konzentration in Zellen unter verschiedenen Bedingungen (gesundes vs. krankes Gewebe)
− Suche nach Genen mit gleicher Expression (Koexpression) bzw. differenzieller Expression
■ Techniken: Northern Blotting, SAGE, Microarray ...
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
68
(C) Prof. E. Rahm, Dr. R. Müller
Microarrays
■
Affymetrix GeneChip Technologie
■ verschiedene Chiptypen
cDNA Arrays, Oligo Arrays
− Abbildung unterschiedlicher Spezies, Transkriptteile
− Chiptechnologie (Wafer)
■ Terminologie
− ’single stranded’ Sequenzen
1
− Unterscheidung nach Sequenzart, Sequenzlänge
25
A C T A G T C T A G G G T A C C T A G C T G C T A
1
■
Hersteller: Affymetrix, Agilent,
Rosetta Inpharmics etc.
■
einfarbige vs. zweifarbige Arrays
A C T A G T C T A G G G A A C C T A G C T G C T A
probe
probe set
probe pair
MM
komplementäre Mittelbase
■ Hybridisierungsprozess (stark vereinfacht)
„Roh“-Chip
Bindungsprozess
Verteilung von
Untersuchungsgewebe +
Kontrolle auf einem oder
mehreren Chips
Bildquelle: Affymetrix, http://www.affymetrix.com
(C) Prof. E. Rahm, Dr. R. Müller
PM
25
69
(C) Prof. E. Rahm, Dr. R. Müller
70
„hybridisierter“ Chip
Expressionsexperiment und -analyse
(1) Cell Selection
sample
Zweifarbaufnahmen
spot intensities for
experiment series
mRNA
(2) RNA/DNA
Preparation
(6) Preprocessing
labeling
(3) Hybridization
gene expression
matrix
chip
x
y
(4) Array Scan
array image
(7) Expression Analysis/
Data mining
x
y
(5) Image Analysis
■
array spot
intensities
Analyse ist abhängig vom verfolgten Ziel bzw. der Fragestellung
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
71
(C) Prof. E. Rahm, Dr. R. Müller
Ergebnis
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Anwendungsgebiete
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Diagnostik
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Systematische Probleme 2
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Systematische Probleme
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Normalisierung
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Normalisierung
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Analyse von Genexpressionsdaten
Vergleich Genexpression - Sequenzierung
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Differentielle Exprimierung
• Differentielle Expression
• Rohdaten
– Expressionsintensitäten einzelner Gene
– Experimentreihen: Sample 1(Kontrolle), Sample 2 (Krank)
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Simple Fold
Probleme des Simple Fold
• Vergleicht nur die Mittelwerte
• Unabhängig von absoluten Größen und Fehlerraten
• Unabhängig von Streuung
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Statistischer Test: t-Test
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Anwendung des t-Tests
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Beispiel
Differentielle Exprimierung
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Ko-Regulation
Hierarchische Clusterverfahren
• Bisher: Erkennen des auffälligen Verhaltens eines Gens
• Jetzt: Erkennen, welche Gene gemeinsam auf einen Stimulus reag.
•Ziel
– Konstruktion einer Hierarchie von Clustern (Dendrogramm), so daß immer
die Cluster mit minimaler Distanz verschmolzen werden
•Dendrogramm
– ein Baum, dessen Knoten jeweils ein Cluster repräsentieren, mit folgenden
– Eigenschaften:
• die Wurzel repräsentiert alle Gene
• die Blätter repräsentieren einzelne Gene
∑ (s
n
– Pearson’s Korrelations Koeffizient
r=
i =1
∑ (s
n
i =1
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
xi
xi
)(
− s x s yi − s y
− sx
) ∑ (s
2
n
i =1
yi
)
− sy
• ein innerer Knoten repräsentiert die Vereinigung aller Gene, die im
darunterliegenden Teilbaum repräsentiert werden
)
2
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Hierarchische Clusterverfahren
Hierarchische Clusterverfahren
•Beispiel eines Dendrogramms
Agglomeratives hierarchisches Clustering (bottom up)
1. Bilde initiale Cluster, die jeweils aus einem Gen bestehen,
und bestimme die Distanzen zwischen allen Paaren dieser Cluster.
2
7
5
1
1
8 9
1
2 4
6
3
5
1
Distanz zwischen
den Clustern
3. Bestimme die Distanz zwischen dem neuen Cluster und allen anderen
Clustern.
0
5
1
2
3
4
•Typen von hierarchischen Verfahren
5
6
7
8
2. Bilde einen neuen Cluster aus den zwei Clustern,
welche die geringste Distanz zueinander haben.
9
4. Wenn alle Gene sich in einem einzigen Cluster befinden:
Fertig, andernfalls wiederhole ab Schritt 2.
• Bottom-Up Konstruktion des Dendrogramms (agglomerative)
• Top-Down Konstruktion des Dendrogramms (divisive)
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Reale Daten
Hierarchische Clusterverfahren
•Generische Distanzfunktionen für Cluster
• Sei eine Distanzfunktion dist(x,y) für Paare von Genen
• Seien X, Y Cluster, d.h. Mengen von Objekten.
• Centroid-Link
centroidLinkDist( X , Y ) = dist( x, y ), x =
1
X
• Single-Link
singleLinkDist( X , Y ) = min dist ( x, y )
• Complete-Link
completeLinkDist( X , Y ) = max dist( x, y )
• Average-Link
averageLinkDist( X , Y ) =
∑ x,
x∈X
y=
1
Y
∑y
y∈Y
x∈X , y∈Y
x∈X , y∈Y
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
1
⋅ ∑ dist ( x, y )
| X | ⋅ | Y | x∈X , y∈Y
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Komplexität und Bewertung
Fuzzy k-Means [GE02]
• Idee
– Model für K überlappende Clusters, Zuordnung der Gene durch
member-scores
– Ein Gen kann in mehreren Clustern Mitglied sein
• Minimiere Zielfunktion:
–
–
–
–
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Fuzzy k Means
•
•
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Fuzzy k Means Beispiel
Heuristik um einen guten Wert für k zu bestimmen
Drei Zyklen
1.
2.
3.
•
Xi … Expressionsmuster des i-ten Gens
Vj … Repräsentant von Cluster j
dXiVj … Pearson Korrelation (zw. -1 und 1)
mXiVj … Membership-Score von Xi in Cluster j
Init. Zentroide auf Eigenvektoren, bestimme Membership und
verschiebe Zentroide zum gewichteten Durchschnitt bis das
Verfahren konvergiert
Fasse ähnliche Zentroide zusammen (Pearson corr. >0.9), entferne
Gene mit Pearson Korr. >0.7, füge neue Zentroide hinzu
Wiederhole Schritt 2
Abschluß: bestimme Mitgliedschaft der Gene zu den
gefundenen Clustern
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Beispiele bestehender GE-Datenbanken
Zusammenfassung
Name
• Datenanalyse
– Differentielle Expression: Signifikanz von Änderungen
• Simple Fold
• T-Test
RDBMS
Sybase
ExpressDB
Havard University, USA
http://arep.med.havard.edu/ExpressDB
RDBMS
Sybase
GeneX
National Centre for Genome Resources (NCGR), USA
http://genebox.ncgr.org/genex
RDBMS
Sybase
GIMS
University of Manchester, GB
http://www.cs.man.ac.uk/~norm/gims
ODBMS
Poet
M-CHIPS
German Cancer Research Centre, Germany
http://www.mchips.de
RDBMS
PostGreSQL
RAD2
University of Pennsylvania, USA
http://www.cbil.upenn.edu/RAD2
RDBMS
Oracle
SMD
Stanford University, USA
http://genome-www4.stanford.edu/MicroArray/SMD
RDBMS
Oracle
YMD
Yale University, USA
http://info.med.yale.edu/microarray
RDBMS
Oracle
• Viele Methoden und Implementierungen (Exel, R, ...)
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
(C) Prof. E. Rahm, Dr. R. Müller
Datenarten
forderungen erfordern differenzierte Sichtweise
Quelle
Datentyp
■ Dokumentation des experimentellen Prozesses
■ vielfach Freitext, keine Benutzung abgestimmter bzw. standardisierter Vokabulare
Charakteristik
Nutzung
Bilddaten
Experiment,
Scanvorgang
binär
große Dateien
(>20MB)
Generierung von
Expressionsdaten
Expressionsdaten
Bildanalyse
ASCII, Zahlenformat
schnell wachsende Menge
statistische Analyse (Clustering),
Visualisierung und
Annotationsdaten
Experiment
& Sampleannotation
Benutzereingabe
Text
manuelle Eingabe,
oft Textfelder
Genannotation
externe, öffentliche Quellen
Integration in GEAnalyse,
notwendig zur
Interpretation der
Analyseergebnisse
regelmäßge Aktualisierungen in den
Datenquellen
■ "Minimal Information About Microarray Experiment" - MIAME Standard
Bildquelle: MGED
− Umfang für spezielle Domains nicht ausreichend J MIAME/Tox (Toxicogenomics) u.a.
■ vielfach keine Speicherung der Bilddaten
■ Management von Daten mehrerer Genexpressionstechniken
(C) Prof. E. Rahm, Dr. R. Müller
72
Experimentannotationen
■ Verschiedene Arten von Genexpressionsdaten mit unterschiedlicher Charakteristik und An-
Datenart
DBMS
National Human Genome Research Institute (NHGRI), USA
http://genome.nggri.nih.gov/arraydb
– Ko-Regulation von Genen: Gemeinsame Aufgaben
• Hierarchisches Clustering
• K-Means
• Bi-Clustering ...
Organisation / Institut
ArrayDB
74
− Datenaustausch per MAGE-ML (MAGE-OM)
− "Microarray Gene Expression Data" (MGED) Society J http://www.mged.org
(C) Prof. E. Rahm, Dr. R. Müller
75
Prozesse
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
MAGE
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
MIAME
Mage Workflow
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Mage Workflow (2)
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Eigenschaften
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
MAGE Objektmodell
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Bewertung
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
Mechanismen zur Datenintegration
■
GeneX
Virtuelle Integration: Web Links und föderierte DBS
Images
Arrays
− weit verbreitete Navigation per Link
− Beispiel einer URL: http://www.ncbi.nlm.nih.gov/UniGene/clust.cgi?ORG=Hs&CID=75212
■ Föderierte Datenbanksysteme
− Schema Intergation (globales Schema generiert aus lokalen Schemas)
− On-the-Fly Datenintegration: Transformation, Bereinigung, Herstellen der Relation (Join)
− kaum Anwendung, aber spezifische Tools wie Discovery Link (IBM)
Materialisierte Integration (Data Warehouse)
− Stanford Microarray Database (SMD), sonst kaum Anwendung
Hybride Ansätze
− Kombination von materialiserter und föderierter Integration
weiterführende Information:
siehe Kapitel Datenintegration
− speziefische Systeme: SRS (Lion BioScience), BioMax
77
(C) Prof. E. Rahm, Dr. R. Müller
Zusammenfassung
© Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm
RAD2
SMD
Experiment
Ann.
nein
cDNA, Oligo,
SAGE
nein
cDNA,
Oligo,
SAGE
Geschlecht, Alter, Gewebe, Sehr umfassendes
Stadium, ..., Hardware and Annotationsschema
Softwareparameter
Vokabulare
lokale
Vokabulare
Web Link
SGD, MGD, dbEST,
GenBank
GenBank, KEGG, SwissProt
nein
cDNA, Oligo, SAGE
Dateisystem
cDNA
Geschlecht, Alter, Krankh., Geschlecht, Alter, Status, ...
Stadium, ...,
RNA Amplifikation, Labeling
Protokoll, Scanparameter
Standardvokabulare
lokale
Vokabulare
lokale
Vokabulare
Integrationsform
GenBank, AllGenes, KEGG dbEST, GeneMap,
LocusLink, SwissProt,
föderiert
Materialisiert
nein
GO functions
Auto. Update
-
nein
nein
nein
-
GO Funktionen (SGD),
Gennamen (WormPD),
UniGene
ja
nein
XCluster (Web)
nein
Datenbank API
Hier., K-means, SOM, SVD
nein
nein
-
zoombare Punktgraphiken,
interaktive Clusterbilder
Datenanalyse
− lokale/zentralisierte Speicherung aller Expressionsdaten und notwendigen (!) Annotationsdaten
■
M-CHIPS
Datenarten
■ Web Links auf Basis spezifischer Identifikatoren
■
Systemvergleich
Software Tools RClust, Eisen, CyberT
(Web)
Integration
Datenbank API
Data Mining
Hier., K-means, PCA
Statistik
Visualisierung
proprietär
Datenbank API
Korrespondenzanalyse,
Hier. Clustering
nein
T-Tests, Bonferonni
Korrektur, …
interaktive Dendrogramme, Korrespondenzanalyse
Clusterbäume
Biplot
Quelle: Do, Kirsten, Rahm, Proc. 10th BTW. 2003
(C) Prof. E. Rahm, Dr. R. Müller
80
Zugehörige Unterlagen
Herunterladen