Analyse eines Microarray-Experiments

Werbung
technische universität
dortmund
Analyse eines Microarray-Experiments
1. Biologische Frage
2. Experimentelles Design
3. Microarray-Experiment
4. Bildanalyse
5. Normalisierung
6. Statistische Analyse
7. Biologische Verifikation
and Interpretation
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 33 -
technische universität
dortmund
Analyse eines Microarray-Experiments
• Microarray-Experimente
• werden seit Ende der 90er in großem Umfang durchgeführt
• haben viele Kooperationen zwischen Statistikern und
Biologen/Medizinern generiert und ermöglicht
• Vielzahl und Brandbreite der eingesetzten statistischen Methoden ist
beeindruckend
• Übersicht der Microarray-Analyse (ausschnitthaft und grob) auf den
nächsten 17 Folien, später ausführlicher
• Statistische Methoden (Beispiele)
• Versuchsplanung (Experimentelles Design)
• Clusteranalyse (Bildverarbeitung)
• Lokal lineare Regression, varianzstabilisierende Transformation
(Normalisierung)
• Varianzanalyse, Diskriminanzanalyse, Testtheorie (Analyse
verschiedener Proben)
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 34 -
technische universität
dortmund
Zwei-Farben Microarray-Experiment
Kontrolle
Tumor
cDNA von Kontroll- und
Tumorgewebe
Markieren (labeling) von Proben
mit grüner (532 nm) und roter
(635 nm) Farbe
Kompetitive Hybridisierung
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 35 -
technische universität
dortmund
Zwei-Farben Microarray-Experiment
Microarray Slide
Scannen des Bildes mit
konfokalem Scanner
Identifikation der Spots
Quantifizierung der roten
und grünen Intensität
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 36 -
technische universität
dortmund
Gründe für niedrige Datenqualität
1. Abnehmende Pin-Qualität
Nach 500.000 Spots
2. Räumliche Effekte
auf dem Microarray
Farb-Repräsentation
Expressionswerte sind
sortiert (Ränge) von
blau nach gelb
G
Nach 300.000 Spots
H. Sueltmann DKFZ/MGA
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
R
Rb
R-Rb
16.04.2009
- 37 -
technische universität
dortmund
Affymetrix Gene Chips
Zelle (cell) einer hybridisierten
* Probe
GeneChip Probe Array
*
*
*
*
Oligonukleotid-Probe
20 µm
1.28 cm
Jede Zelle enthält
Millionen von Kopien einer
spezifischen
Oligonukleotid-Probe
Über 400,000
verschiedene Proben,
jeweils komplementär zu
(Teilen von) Genen
Bild eines hybridisierten Arrays
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 38 -
technische universität
dortmund
Analyse eines Microarray-Experiments
1. Biologische Frage
• Wahl des Designs
•
•
•
•
2. Experimentelles Design
3. Microarray-Experiment
4. Bildanalyse
• Nebenbedingungen
• Anzahl der Experimente:
Kosten pro Exp. ~ 500-800 €
• Material (mRNA):
Oft schwer zu erhalten
5. Normalisierung
6. Statistische Analyse
7. Biologische Verifikation
and Interpretation
Behandlung vs. Kontrolle
Mehrere Behandlungen
Faktorielles Design
Zeitreihen
• Anzahl der Replikate
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
• Fallzahlplanung?
• Keine allgemein akzeptierten
Modelle
16.04.2009
- 39 -
technische universität
dortmund
Experimentelles Design: 2 x 2 faktorielles Design
Indirekt
I)
A
Balance von direkt und indirekt
II)
B
A.B C
C
B
III)
A
IV)
C
A.B B
# Experimente
A
C
A
A.B
B
A.B
N=6
Haupteffekt A
0.5
0.67
0.5
NA
Haupteffekt B
0.5
0.43
0.5
0.3
1.5
0.67
1
0.67
Wechselwirkung
A.B
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 40 -
technische universität
dortmund
Experimentelles Design: Zeitreihen
Lag 1
Lag 2
Lag 3
Varianzvergleich
Ave
T1T2
T2T3
T3T4
T1T3
T2T4
T1T4
T1
T2
T3
T4
1
2
2
1
2
1
1.5
T1
T2
T3
T4
1
1
1
2
2
3
1.67
T1
T2
T3
T4
2
2
2
2
2
2
2
0.67
0.67
1.67
0.67
1.67
1
1.06
0.75
0.75
0.75
1
1
.75
.83
1
.75
1
.75
.75
.75
.83
N=3
C
T1
T2
T3
T4
N=4
T1
T2
T1
T2
T3
T4
T3
T4
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 41 -
technische universität
dortmund
Analyse eines Microarray-Experiments
1. Biologische Frage
2. Experimentelles Design
3. Microarray-Experiment
4. Bildanalyse
5. Normalisierung
6. Statistische Analyse
7. Biologische Verifikation
and Interpretation
• Addressierung:
• Finden der Bereiche im Bild die zu
einzelnen Spots gehören.
• Bereich von Spot und zugehörigem
Hintergrund heißt „target area“.
• Segmentierung:
• Aufteilen der „target area“ in
Vordergrund (fg) und Hintergrund
(bg).
• Reduktion:
• Extrahieren zweier skalarer Werte
R and G für rote und grüne
Intensität.
• Berechnung eines Wertes R/G für
relative Abundanz.
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 42 -
technische universität
dortmund
Bildanalyse – Clusteranalyse
Spot mit Loch im Zentrum
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 43 -
technische universität
dortmund
Analyse eines Microarray-Experiments
1. Biologische Frage
2. Experimentelles Design
3. Microarray-Experiment
4. Bildanalyse
5. Normalisierung
6. Statistische Analyse
7. Biologische Verifikation
and Interpretation
• Globale Normalisierung
• Experimentelle Varianz: Verschiedene
Größenordnungen für grün bzw. rot
markierte Proben
• Annahme: Die meisten Gene sind nicht
differentiell exprimiert
• Intensitäts-abhängige Normalisierung
• Varianz von Genexpressions-Quotienten
größer für niedrige Intensitäten
• Varianz-stabilisierende
Transformation
• Modell-basierte Normalisierung
• Macht Varianz konstant über ganzen
Intensitätsbereich
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 44 -
technische universität
dortmund
Normalisierung
MA-plot
M = log2 ( R G )
A = log2 ( RG ) 2
M … log ratio
A … average log intensity
Annahme: Differentiell
exprimierte Gene
gleichmäßig verteilt über
Intensitätsbereich
Lösung: Ziehe lokal lineare
Regressionsschätzung
von den Daten ab
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 45 -
technische universität
dortmund
Normalisierung
MA-plot
M = log2 ( R G )
A = log2 ( RG ) 2
M … log ratio
A … average log intensity
Annahme: Differentiell
exprimierte Gene
gleichmäßig verteilt über
Intensitätsbereich
Lösung: Ziehe lokal lineare
Regressionsschätzung
von den Daten ab
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 46 -
technische universität
dortmund
Normalisierung – VSN: Fehlermodell
Gemessene Intensität = offset
+
Faktor × wahre Abundanz
y ik = aik + bik xik
bik = bi bk exp(ηik )
aik = ai + ε ik
ai per-sample offset
bi per-sample Normalisierungsfaktor
εik ~ N(0, bi2s12)
bk Sequenzabhängige Effizienz
“additives Rauschen”
ηik ~ N(0,s22)
i… Sample, Experiment, Array
k… Gen
“multiplikatives Rauschen”
ppt-Folien adaptiert von W. Huber
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 47 -
technische universität
dortmund
Normalisierung: Fehlermodell (ppt-Folien: W. Huber)
• Für das vereinfachte Modell mit bk=1 für alle Gene k gilt:
y ik = ai + ε ik + bi exp(ηik )xik
⇒
Var ( y ik ) = c 2 (E ( y ik ) − ai )2 + bi2s12
mit c 2 = Var (eη ) / E 2 (eη )
• Varianz ist quadratische Funktion des Erwartungswerts
• Dieser Effekt kann durch eine varianzstabilisierende
Transformation kompensiert werden
x
f (x) =
∫
1
v (u )
2
du
• In diesem Fall: v (u ) ∝ (u + u0 ) + s
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
2
u + u0
⇒ f ∝ arsinh
s
16.04.2009
- 48 -
technische universität
dortmund
Differenz rot-grün
Normalisierung: Validität von VSN
Gene sortiert
nach Expression
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 49 -
technische universität
dortmund
Differentiell exprimierte Gene
Teststatistik für die Identifizierung von differentiell
exprimierten Genen (im Fall von n Replikaten):
Mittelwert
m
t
= m / sd
S = m / (sd+a)
t-Test (Mittelwert/Standardabweichung)
adaptiver t-Test, a = 90th perc. von allen sd’s (Stanford)
2
2
2
log ( p (1 − p ) ) 
a +s +m

B =
 a 2 + s 2 + m 2 (1 + nc )
1 + nc

(
ν+
)




n
2
‘empirical Bayes log odds’ Teststatistik (Berkeley)
p…
apriori Wahrscheinlichkeit für differentielle Expression
ν, a, c… Hyperparameter, geschätzt aus Daten
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 50 -
technische universität
dortmund
Differentiell exprimierte Gene
log ( p (1 − p )) 
a2 + s 2 + m2

B =
 a 2 + s 2 + m 2 (1 + nc )
1 + nc

(
ν+
)




n
2
ist „empirical Bayes posterior log odds statistic“, wenn für jedes Gen gilt
log(R/G) ~ N(µ,σ2),
τ
= na/2σ2 ~ Γ(ν,1),
µ|τ = 0
für nicht-differentiell exprimierte Gene,
µ|τ = N(0,cna/2σ2) für differentiell exprimierte Gene
• Parameter a, ν, c werden aus Daten geschätzt, p apriori festgelegt
• Simulierte MA-plots sind ähnlich zu MA-plots von realen Daten
• Kompromiss zwischen M and t wie auch bei Efrons Statistik S
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 51 -
2. Markovketten – Sequenzmodellierung –
Hidden Markov Modelle (HMMs)
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 52 -
technische universität
dortmund
Markovketten
• Bedeutung von Markovketten in der Bioinformatik
• Modellierung von Sequenzevolution (stochastische Prozesse)
• Modellierung von Zufallsequenzen als sogenannte Nullmodelle
(Generierung der Nullhypothese)
• Grundlage für HMMs (Hidden-Markov-Modelle)
• HMMs sind wesentlicher Bestandteil in der Sequenzanalyse
• Markovketten
• Stochastische Prozesse
• Übergänge zwischen Zuständen werden stochastisch modelliert
• Gedächtnislosigkeit (oder Markov-Eigenschaft) der Zustände:
Übergangswahrscheinlichkeiten von einem Zustand in den
nächsten hängen nur vom derzeitigen Zustand ab, nicht von
vorherigen Zuständen
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 53 -
technische universität
dortmund
Markovketten
• Beispiel für Markovkette
• Nukleotid an fester Position in Sequenz im Laufe der Evolution
• Mögliche Zustände: A,G,C,T
• Zeiteinheit (z.B.): 1 Million Jahre
• Hypothetische Übergangsmatrix P
• P stochastische Matrix mit Zeilensumme 1
• Die Wahrscheinlichkeit, dass sich ein bestimmtes Nukleotid innerhalb
von 1 Million Jahre von A nach G geändert hat, sei 0.01 (analog für alle
anderen Kombinationen)
→ A →G →C →T 

 A → 0.97 0.01 0.01 0.01 
• Die i-te Zeile von P gibt


die Verteilung des
P =  G → 0.01 0.97 0.01 0.01 
nächsten Zustandes an,


C
→
0.01
0.01
0.97
0.01


wenn die Kette gegenwärtig
 T → 0.01 0.01 0.01 0.97 
im Zustand i ist


Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 54 -
technische universität
dortmund
Markovketten
• Definition: Stochastischer Prozess
• Ein stochastischer Prozess ist eine Zufallsvariable X(t) im Verlauf
der Zeit t. Die Zufallsvariable nimmt Werte aus einem
vorgegebenen Zustandsraum X an.
• Die Zeit kann diskret oder stetig sein
• Wahrscheinlichkeits-Aussagen über X(t) werden mit P
beschrieben, d.h. P(X(0)=A) ist die Wahrscheinlichkeit, dass A
das Startsymbol ist
• Nukleotid-Beispiel
• X = {1,2,3,4} endlich (Kodierung zum Beispiel A=1, G=2, C=3, T=4).
• Aminosäure-Beispiel
• X = {1,...,20} endlich (zum Beispiel mit Alanin=1, Aspartat=2, ...).
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 55 -
technische universität
dortmund
Markovketten
• Definition Markovkette
• Eine (zeitdiskrete und homogene) Markovkette ist ein
stochastischer Prozess, der vollständig durch eine Startverteilung
π(0) auf X und eine Übergangsmatrix P zwischen den Zuständen
gegeben ist.
• Der Wert Pij gibt die bedingte Wahrscheinlichkeit an, zum
nächsten Zeitpunkt in Zustand j zu landen, wenn i der jetzige
Zustand ist.
• Bei nichthomogenen Markovketten kann sich P mit der Zeit
ändern
• In Gleichungen:
π i( 0 ) = P ( X ( 0 ) = i )
Pij = P ( X ( t + 1) = j X ( t ) = i )
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 56 -
technische universität
dortmund
Markovketten
Typische Fragestellungen
• Heute steht hier ein A, was steht dort vermutlich in 10 Millionen
Jahren?
• Gegeben X(t) = i, wie ist die Verteilung von X(t+k) für ein k>0?
• Gegeben die 1-Schritt Übergangswahrscheinlichkeiten Pij , was sind die kSchritt Übergangswahrscheinlichkeiten Pij(k)?
• Wie häufig sieht man im Mittel jedes Nukleotid A,C,G,T?
• Was ist die Zustandsverteilung im Zeitmittel?
• Oft äquivalent zur Frage nach einer stationären Verteilung, d.h. einer
Verteilung, die sich durch Anwenden der Übergangsmatrix P nicht ändert
• Das Modell sieht sehr symmetrisch aus. Sind Mutationswahrscheinlichkeiten nicht eher unterschiedlich für Transitionen/Transversionen?
• Woher kommen die Übergangswahrscheinlichkeiten, d.h. wie findet man die
Parameter des Markovmodells, wenn Beobachtungsreihen von Zuständen
gegeben ist sind?
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 57 -
technische universität
dortmund
Markovketten
• Heute steht hier ein A, was steht dort vermutlich in 10 Millionen
Jahren?
• Gegeben X(t) = i, wie ist die Verteilung von X(t+k) für ein k>0?
• Gegeben die 1-Schritt Übergangswahrscheinlichkeiten Pij , was sind die
k-Schritt Übergangswahrscheinlichkeiten Pij(k)?
• Für den Übergang von Zustand i nach Zustand j nach zwei Schritten gilt
P  X ( 2 ) = j X ( 0 ) = i 
= ∑ P  X ( 2 ) = j , X (1) = y X ( 0 ) = i 
y
= ∑ P  X (1) = y X ( 0 ) = i  ⋅ P  X ( 2 ) = j X (1) = y , X ( 0 ) = i 
y
und damit
Pij( 2) = ∑ Piy ⋅ Pyj
y
• In Matrixschreibweise ergibt sich:
P ( 2) = P ⋅ P = P 2
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 58 -
technische universität
dortmund
Markovketten
• Heute steht hier ein A, was steht dort vermutlich in 10 Millionen
Jahren?
• Gegeben X(t) = i, wie ist die Verteilung von X(t+k) für ein k>0?
• Gegeben die 1-Schritt Übergangswahrscheinlichkeiten Pij , was sind die
k-Schritt Übergangswahrscheinlichkeiten Pij(k)?
• Analog erhält man für die k-Schritt Übergangswahrscheinlichkeiten
Pij( k ) = ∑ Piy( k −1) ⋅ Pyj
y
und damit in Matrixschreibweise
P ( k ) = P ( k −1) ⋅ P = P k
• Übungen: Berechnung von k-Schritt Übergangswahrscheinlichkeiten
• Bemerkung: Auch wenn an einer bestimmten Stelle ein Nukleotid
nach einer bestimmten Zeit noch steht, kann es sich mehrfach
zwischendurch geändert haben!
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
16.04.2009
- 59 -
Herunterladen