Anwendung der ANOVA bei Microarray

Vorlesung: 18.11.2003
ANOVA II
Übersicht
•
Warum sollte man eine ANOVA überhaupt durchführen?
Ein Vergleich mit dem t-Test
- Beispiel 1: Zwei Gruppen Vergleich
- Beispiel 2: >2 Gruppen Vergleich
•
Überblick:
Anwendung der ANOVA bei Microarray-Datenauswertungen:
1. Beispiel: Kandidatengene
2. Beispiel: Normalisierung von Microarray Daten
Übersicht
•
Warum sollte man eine ANOVA überhaupt durchführen?
Ein Vergleich mit dem t-Test
- Beispiel 1: Zwei Gruppen Vergleich
- Beispiel 2: >2 Gruppen Vergleich
•
Überblick:
Anwendung der ANOVA bei Microarray-Datenauswertungen:
1. Beispiel: Kandidatengene
2. Beispiel: Normalisierung von Microarray Daten
Gedankenexperiment 1: Raucher und Nichtraucher
Angenommen, wir wollen untersuchen, ob
A
B
man bei Rauchern tendenziell ein anderes Level von Protein x mißt als bei Nichtrauchern
Raucher ein signifikant höheres Level von Protein x haben als Nichtraucher
Messungen
1
2
3
4
5
6
7
8
9
10
11
12
13
79,98
80,04
80,02
80,04
80,03
80,03
80,04
79,97
80,05
80,03
80,02
80,00
80,02
80,02
79,94
79,98
79,97
79,97
80,03
79,95
79,97
Mean
STD
80,02
0,0240
79,98
0,0314
Gedankenexperiment 2: 4 Laboratorien
Angenommen, wir wollen untersuchen, ob
4 verschiedene Laboratorien bei der Messung des Cholesterinspiegels von Patienten dieselben Ergebnisse liefern
1
Messungen
Mittelwert
STD
2
3
4
4,13
4,07
4,04
4,07
4,07
4,05
4,04
4,02
4,06
4,10
4,04
4,08
3,86
3,85
4,08
4,11
4,08
4,01
4,02
4,11
3,97
3,95
4,00
4,02
4,01
4,01
4,04
3,99
4,03
3,97
3,98
3,98
3,88
3,88
3,91
3,95
3,92
3,97
3,92
3,90
3,90
4,06
0,0300
4,00
0,0959
4,00
0,0231
3,91
0,0300
Fragestellung
1
2
3
4
Gibt es einen Unterschied?
zwischen
Rauchern/Nichtrauchern
4 Laboratorien
Raucher und Nichtraucher: Zusammenfassung der Daten
Min/ Max
25/75% Quantil
Median: 80.03 versus 79.97
Raucher und Nichtraucher: Zusammenfassung der Daten
Was sehen wir?
• Tendenziell höhere Wert bei
Rauchern
• hohe Varianz
• Es gibt durchaus Nichtraucher, die
einen höheren Wert haben als einige
Raucher
Sind die Unterschiede signifikant?
4 Laboratorien: Zusammenfassung der Daten
Was sehen wir?
• Tendenziell unterschiedliche
Resultate
• hohe Varianz
• Labor 2, 3: fast gleiches Mittel,
unterschiedliche Varianz
Sind die Unterschiede signifikant?
1
x
2
3
4
T-Test oder ANOVA?
T-test:
Angenommen, wir haben zwei Proben.
Die erste Probe X1, ..., Xn umfaßt n Stichproben, die aus einer Normalverteilung mit
Erwartungswert X und Varianz 2 gezogen wurden; die zweite Probe Y1, ..., Ym umfaßt m
Stichproben, die aus einer Normalverteilung mit Erwartungswert Y und Varianz 2 gezogen
wurden.
Wenn man nun Differenzen zwischen den beiden Gruppen betrachten möchte ist das intuitive
Maß die Differenz der Mittelwerte:
X - Y
Tatsächlich ist die Differenz normalverteilter Zufallsvariablen wieder normalverteilt, d.h. in
diesem Fall mit Erwartungswert X - Y und Varianz 2 (1/n+1/m).
T-Test oder ANOVA?
Definition: „pooled sample variance“
sp
2
(n  1) S  (m  1) S

mn2
2
X
2
Y
Satz:
Angenommen, X1, ..., Xn sind n unabhängig normalverteilte Zufallsvariablen mit
Erwartungswert X und Varianz 2 . Ebenso seien Y1, ..., Ym m unabhängige normalverteilte
Zufallsvariablen mit Erwartungswert Y und Varianz 2 . Außerdem sind die Xi unabhängig
von den Yj für alle i,j. Dann folgt die Statistik:
( Mean( X )  Mean(Y ))  (  X  Y )
t
s p 1/ n  1/ m
einer t-Verteilung mit m+n-2 Freiheitsgraden.
Was ist eine t-Verteilung?
Dichte einer t-Verteilung:
fr(t)=
t-Verteilung:
Fr(t)=
r=Freiheitsgrade
Raucher und Nichtraucher: t-Test
Messungen
1
2
3
4
5
6
7
8
9
10
11
12
13
79,98
80,04
80,02
80,04
80,03
80,03
80,04
79,97
80,05
80,03
80,02
80,00
80,02
80,02
79,94
79,98
79,97
79,97
80,03
79,95
79,97
Mean
STD
80,02
0,0240
79,98
0,0314
Mean( X Raucher )  80.02
Mean( X Nichtraucher )  79.98
STD( X R )  0.024
STD( X NR )  0.031
s p  0.027
s p 1/13  1/ 8  0.012
Raucher und Nichtraucher: t-Test
H 0 :  R   NR
H 1:  R   NR
Zweiseitiger Test
H 2 :  R   NR
H 3 :  R   NR
Einseitige Tests
( Mean( X R )  Mean( X NR )) 80.02  79.98
t

 3.3333
0.012
s p 1/ n  1/ m
Raucher und Nichtraucher: t-Test
t = 3.3333; Signifikanzlevel=0.05
H 0 :  R   NR
H1: t  tn  m2 ( / 2)
H 1:  R   NR
H 2 : t  tn  m2 ( )
H 2 :  R   NR
H 3: t  tn  m2 ( )
H 3 :  R   NR
P(H1) = 0.0033
P(H2) = 0.001656512
P(H3) = 0.9983435
Raucher und Nichtraucher: ANOVA
4 Laboratorien: ein neues Problem
1
3
2 4
Nun haben wir aber
mehr als zwei
Probenreihen...
2
1
3
4
6 t- Tests
n
 n
 
 2
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1
3
6
10
15
21
28
36
45
55
66
78
91
105
120
136
153
171
190
4 Laboratorien: t-Test
t
1
1
2
3
4
2
30,3066 194,3379
0,4592
4
376,9584
36,7911
272,3098
2
P-Wert
3
1
2
3
0,0523
3
4
3,7153e-5
6,9624e-10
0,9748
0,0159
1,3707e-6
1
2
3
Laboratorien
4
4 Laboratorien: ANOVA
Übersicht
•
Warum sollte man eine ANOVA überhaupt durchführen?
Ein Vergleich mit dem t-Test
- Beispiel 1: Zwei Gruppen Vergleich
- Beispiel 2: >2 Gruppen Vergleich
•
Überblick:
Anwendung der ANOVA bei Microarray-Datenauswertungen:
1. Beispiel: Kandidatengene
2. Beispiel: Normalisierung von Microarray Daten
Anwendung der ANOVA bei Microarray-Datenauswertungen
1. Beispiel: Kandidatengene
Drei Behandlungen:
…
…
Für welche Gene gibt es Unterschiede in
den beiden Behandlungsmethoden?
…
Anwendung der ANOVA bei Microarray-Datenauswertungen
1. Beispiel: Kandidatengene
Behandlung 1
Stamm 1
Stamm 2
Behandlung 2
Behandlung 3
Anwendung der ANOVA bei Microarray-Datenauswertungen
1. Beispiel: Kandidatengene
Wir schauen uns erstmal nur ein Gen an
Behandlung 1
Behandlung 2
Behandlung 3
Stamm 1
50,51,50
40,41,45
48,48,47
46,6
Stamm 2
50,52,53
41,42,41
49,48,50
47,3
51,0
41,6
48,3
•
Warum sollte man eine ANOVA überhaupt durchführen?
Ein Vergleich mit dem t-Test
- Beispiel 1: Zwei Gruppen Vergleich
- Beispiel 2: >2 Gruppen Vergleich
•
Überblick:
Anwendung der ANOVA bei Microarray-Datenauswertungen:
1. Beispiel: Kandidatengene
2. Beispiel: Normalisierung von Microarray Daten
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Array 1
Patient:
Kontrolle:
Array 2
Grün
Rot
Patient:
Kontrolle:
Rot
Grün
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
ARRAY 1 oder 2 ?
Variety:
Patient oder Kontrolle ?
Intensität:
14527
Farbstoff:
Grün oder Rot ?
Welches Gen ?
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Farbstoff: Grün
Farbstoff: Rot
Array 1
Patient
Kontrolle
Array 2
Kontrolle
Patient
- Dye Swap Setting
- Latin Square Setting
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Variety
Array
Dye=
Farbstoff
Gen
Intijkl  
 ai  v j  d k  gl
 avij  adik  agil  vd jk  vg jl  dg kl
2-Interaktionseffekte
 advikj  dvg kjl  avgijl  adgikl
3-Interaktionseffekte
+
ijkg
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Gesamtmittel
A
D
V
G
AG
DG
VG
~
~
~
~
~
~
~
~
ADV
DV
AV
AD
ADVG
DVG
AVG
ADG
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Modell von G.Churchill/K.Kerr
Jede Messung in einem Micoarrayexperiment wird mit einer ganz speziellen Kombination der
Parameter „Array“, „Dye (Farbstoff)“, „Variety(Probentyp)“, und „Gen“ assoziiert.
Angenommen,
y ijkg
Bezeichnet die Intensitätsmessung des g-ten Gens auf dem i-ten Array mit dem j-ten Farbstoff im
k-ten Probentyp.
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Modell von G.Churchill/K.Kerr
Dann kann man das folgende Modell einführen:
log(y ijkg) =  + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg
Dabei ist  der Gesamtmittelwert;
Ai bezeichnet den Arrayeffekt des i-ten Arrays;
Dj bezeichnet den Farbstoffeffekt des j-ten Farbstoffs;
Vk bezeichnet den k-ten Probentypeffekt;
Gg bezeichnet den Geneffekt des g-ten Gens;
(AG)ig bezeichnet den Interaktioneffekt von Array i und Gen g
und (VG)kg bezeichnet den Interaktionseffekt des k-ten Probentyps und des g-ten Gens.
ijkg ist ein N(0,) Fehlerterm.
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Modell von G.Churchill/K.Kerr
Farbstoff: Grün
Farbstoff: Rot
Array 1
Leber
Muskel
Array 2
Muskel
Leber
Welche Gene sind in Leber und Muskel unterschiedlich exprimiert?
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Modell von G.Churchill/K.Kerr
Farbstoff: Grün
Farbstoff: Rot
Array 1
Leber
Muskel
Array 2
Muskel
Leber
Index Set:
Array
i=1,2
Dye
j=1,2
Gewebe
k=1,2
Gene
g=1,...,n
(i,j,k)  { (1,1,1) , (1,2,2) , (2,1,2) , (2,2,1) }
d.h. jeder Clone Index (Gen) g=1,...,n erscheint genau einmal mit jeder Kombination (i,j,k)
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Modell von G.Churchill/K.Kerr
log(y ijkg) =  + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg
Quadrat der Summe der Residuen:
RSQ = ijkl (log(y ijkg) – ( + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg))2
Berechne die Parameter so, daß die Residuen möglichst klein sind.
Dazu berechne die partiellen Ableitungen und setze diese gleich Null.
RSQ /  (VG)kg =0
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Farbstoff: Grün
Farbstoff: Rot
Array 1
Leber
Muskel
Array 2
Muskel
Leber
(VG)k=1g‘ - (VG)k=2g‘ = 0.5 log(
Y111g‘ y221g‘
Y122g‘ y212g‘
Leber
Muskel
) – 1/2n log( g
Log-ratio des
geometrischen Mittels
der Beobachtungen für
das Gen g‘ in den
beiden Gruppen
y111g y221g
y122g y212g
Konstant: Zentrierung
)
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
(VG)k=1g‘ - (VG)k=2g‘
Die exponierten Differenzen
exp((VG)k=1g‘ - (VG)k=2g‘ )
können als Schätzer für „fold changes“ zwischen den beiden
betrachteten Gruppen angesehen werden.
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Mittel der Log-Produktintensität (Leber,Muskel)