Vorlesung: 18.11.2003 ANOVA II Übersicht • Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich - Beispiel 2: >2 Gruppen Vergleich • Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen: 1. Beispiel: Kandidatengene 2. Beispiel: Normalisierung von Microarray Daten Übersicht • Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich - Beispiel 2: >2 Gruppen Vergleich • Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen: 1. Beispiel: Kandidatengene 2. Beispiel: Normalisierung von Microarray Daten Gedankenexperiment 1: Raucher und Nichtraucher Angenommen, wir wollen untersuchen, ob A B man bei Rauchern tendenziell ein anderes Level von Protein x mißt als bei Nichtrauchern Raucher ein signifikant höheres Level von Protein x haben als Nichtraucher Messungen 1 2 3 4 5 6 7 8 9 10 11 12 13 79,98 80,04 80,02 80,04 80,03 80,03 80,04 79,97 80,05 80,03 80,02 80,00 80,02 80,02 79,94 79,98 79,97 79,97 80,03 79,95 79,97 Mean STD 80,02 0,0240 79,98 0,0314 Gedankenexperiment 2: 4 Laboratorien Angenommen, wir wollen untersuchen, ob 4 verschiedene Laboratorien bei der Messung des Cholesterinspiegels von Patienten dieselben Ergebnisse liefern 1 Messungen Mittelwert STD 2 3 4 4,13 4,07 4,04 4,07 4,07 4,05 4,04 4,02 4,06 4,10 4,04 4,08 3,86 3,85 4,08 4,11 4,08 4,01 4,02 4,11 3,97 3,95 4,00 4,02 4,01 4,01 4,04 3,99 4,03 3,97 3,98 3,98 3,88 3,88 3,91 3,95 3,92 3,97 3,92 3,90 3,90 4,06 0,0300 4,00 0,0959 4,00 0,0231 3,91 0,0300 Fragestellung 1 2 3 4 Gibt es einen Unterschied? zwischen Rauchern/Nichtrauchern 4 Laboratorien Raucher und Nichtraucher: Zusammenfassung der Daten Min/ Max 25/75% Quantil Median: 80.03 versus 79.97 Raucher und Nichtraucher: Zusammenfassung der Daten Was sehen wir? • Tendenziell höhere Wert bei Rauchern • hohe Varianz • Es gibt durchaus Nichtraucher, die einen höheren Wert haben als einige Raucher Sind die Unterschiede signifikant? 4 Laboratorien: Zusammenfassung der Daten Was sehen wir? • Tendenziell unterschiedliche Resultate • hohe Varianz • Labor 2, 3: fast gleiches Mittel, unterschiedliche Varianz Sind die Unterschiede signifikant? 1 x 2 3 4 T-Test oder ANOVA? T-test: Angenommen, wir haben zwei Proben. Die erste Probe X1, ..., Xn umfaßt n Stichproben, die aus einer Normalverteilung mit Erwartungswert X und Varianz 2 gezogen wurden; die zweite Probe Y1, ..., Ym umfaßt m Stichproben, die aus einer Normalverteilung mit Erwartungswert Y und Varianz 2 gezogen wurden. Wenn man nun Differenzen zwischen den beiden Gruppen betrachten möchte ist das intuitive Maß die Differenz der Mittelwerte: X - Y Tatsächlich ist die Differenz normalverteilter Zufallsvariablen wieder normalverteilt, d.h. in diesem Fall mit Erwartungswert X - Y und Varianz 2 (1/n+1/m). T-Test oder ANOVA? Definition: „pooled sample variance“ sp 2 (n 1) S (m 1) S mn2 2 X 2 Y Satz: Angenommen, X1, ..., Xn sind n unabhängig normalverteilte Zufallsvariablen mit Erwartungswert X und Varianz 2 . Ebenso seien Y1, ..., Ym m unabhängige normalverteilte Zufallsvariablen mit Erwartungswert Y und Varianz 2 . Außerdem sind die Xi unabhängig von den Yj für alle i,j. Dann folgt die Statistik: ( Mean( X ) Mean(Y )) ( X Y ) t s p 1/ n 1/ m einer t-Verteilung mit m+n-2 Freiheitsgraden. Was ist eine t-Verteilung? Dichte einer t-Verteilung: fr(t)= t-Verteilung: Fr(t)= r=Freiheitsgrade Raucher und Nichtraucher: t-Test Messungen 1 2 3 4 5 6 7 8 9 10 11 12 13 79,98 80,04 80,02 80,04 80,03 80,03 80,04 79,97 80,05 80,03 80,02 80,00 80,02 80,02 79,94 79,98 79,97 79,97 80,03 79,95 79,97 Mean STD 80,02 0,0240 79,98 0,0314 Mean( X Raucher ) 80.02 Mean( X Nichtraucher ) 79.98 STD( X R ) 0.024 STD( X NR ) 0.031 s p 0.027 s p 1/13 1/ 8 0.012 Raucher und Nichtraucher: t-Test H 0 : R NR H 1: R NR Zweiseitiger Test H 2 : R NR H 3 : R NR Einseitige Tests ( Mean( X R ) Mean( X NR )) 80.02 79.98 t 3.3333 0.012 s p 1/ n 1/ m Raucher und Nichtraucher: t-Test t = 3.3333; Signifikanzlevel=0.05 H 0 : R NR H1: t tn m2 ( / 2) H 1: R NR H 2 : t tn m2 ( ) H 2 : R NR H 3: t tn m2 ( ) H 3 : R NR P(H1) = 0.0033 P(H2) = 0.001656512 P(H3) = 0.9983435 Raucher und Nichtraucher: ANOVA 4 Laboratorien: ein neues Problem 1 3 2 4 Nun haben wir aber mehr als zwei Probenreihen... 2 1 3 4 6 t- Tests n n 2 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 3 6 10 15 21 28 36 45 55 66 78 91 105 120 136 153 171 190 4 Laboratorien: t-Test t 1 1 2 3 4 2 30,3066 194,3379 0,4592 4 376,9584 36,7911 272,3098 2 P-Wert 3 1 2 3 0,0523 3 4 3,7153e-5 6,9624e-10 0,9748 0,0159 1,3707e-6 1 2 3 Laboratorien 4 4 Laboratorien: ANOVA Übersicht • Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich - Beispiel 2: >2 Gruppen Vergleich • Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen: 1. Beispiel: Kandidatengene 2. Beispiel: Normalisierung von Microarray Daten Anwendung der ANOVA bei Microarray-Datenauswertungen 1. Beispiel: Kandidatengene Drei Behandlungen: … … Für welche Gene gibt es Unterschiede in den beiden Behandlungsmethoden? … Anwendung der ANOVA bei Microarray-Datenauswertungen 1. Beispiel: Kandidatengene Behandlung 1 Stamm 1 Stamm 2 Behandlung 2 Behandlung 3 Anwendung der ANOVA bei Microarray-Datenauswertungen 1. Beispiel: Kandidatengene Wir schauen uns erstmal nur ein Gen an Behandlung 1 Behandlung 2 Behandlung 3 Stamm 1 50,51,50 40,41,45 48,48,47 46,6 Stamm 2 50,52,53 41,42,41 49,48,50 47,3 51,0 41,6 48,3 • Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich - Beispiel 2: >2 Gruppen Vergleich • Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen: 1. Beispiel: Kandidatengene 2. Beispiel: Normalisierung von Microarray Daten Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Array 1 Patient: Kontrolle: Array 2 Grün Rot Patient: Kontrolle: Rot Grün Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten ARRAY 1 oder 2 ? Variety: Patient oder Kontrolle ? Intensität: 14527 Farbstoff: Grün oder Rot ? Welches Gen ? Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Farbstoff: Grün Farbstoff: Rot Array 1 Patient Kontrolle Array 2 Kontrolle Patient - Dye Swap Setting - Latin Square Setting Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Variety Array Dye= Farbstoff Gen Intijkl ai v j d k gl avij adik agil vd jk vg jl dg kl 2-Interaktionseffekte advikj dvg kjl avgijl adgikl 3-Interaktionseffekte + ijkg Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Gesamtmittel A D V G AG DG VG ~ ~ ~ ~ ~ ~ ~ ~ ADV DV AV AD ADVG DVG AVG ADG Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Modell von G.Churchill/K.Kerr Jede Messung in einem Micoarrayexperiment wird mit einer ganz speziellen Kombination der Parameter „Array“, „Dye (Farbstoff)“, „Variety(Probentyp)“, und „Gen“ assoziiert. Angenommen, y ijkg Bezeichnet die Intensitätsmessung des g-ten Gens auf dem i-ten Array mit dem j-ten Farbstoff im k-ten Probentyp. Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Modell von G.Churchill/K.Kerr Dann kann man das folgende Modell einführen: log(y ijkg) = + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg Dabei ist der Gesamtmittelwert; Ai bezeichnet den Arrayeffekt des i-ten Arrays; Dj bezeichnet den Farbstoffeffekt des j-ten Farbstoffs; Vk bezeichnet den k-ten Probentypeffekt; Gg bezeichnet den Geneffekt des g-ten Gens; (AG)ig bezeichnet den Interaktioneffekt von Array i und Gen g und (VG)kg bezeichnet den Interaktionseffekt des k-ten Probentyps und des g-ten Gens. ijkg ist ein N(0,) Fehlerterm. Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Modell von G.Churchill/K.Kerr Farbstoff: Grün Farbstoff: Rot Array 1 Leber Muskel Array 2 Muskel Leber Welche Gene sind in Leber und Muskel unterschiedlich exprimiert? Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Modell von G.Churchill/K.Kerr Farbstoff: Grün Farbstoff: Rot Array 1 Leber Muskel Array 2 Muskel Leber Index Set: Array i=1,2 Dye j=1,2 Gewebe k=1,2 Gene g=1,...,n (i,j,k) { (1,1,1) , (1,2,2) , (2,1,2) , (2,2,1) } d.h. jeder Clone Index (Gen) g=1,...,n erscheint genau einmal mit jeder Kombination (i,j,k) Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Modell von G.Churchill/K.Kerr log(y ijkg) = + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg Quadrat der Summe der Residuen: RSQ = ijkl (log(y ijkg) – ( + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg))2 Berechne die Parameter so, daß die Residuen möglichst klein sind. Dazu berechne die partiellen Ableitungen und setze diese gleich Null. RSQ / (VG)kg =0 Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Farbstoff: Grün Farbstoff: Rot Array 1 Leber Muskel Array 2 Muskel Leber (VG)k=1g‘ - (VG)k=2g‘ = 0.5 log( Y111g‘ y221g‘ Y122g‘ y212g‘ Leber Muskel ) – 1/2n log( g Log-ratio des geometrischen Mittels der Beobachtungen für das Gen g‘ in den beiden Gruppen y111g y221g y122g y212g Konstant: Zentrierung ) Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten (VG)k=1g‘ - (VG)k=2g‘ Die exponierten Differenzen exp((VG)k=1g‘ - (VG)k=2g‘ ) können als Schätzer für „fold changes“ zwischen den beiden betrachteten Gruppen angesehen werden. Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Mittel der Log-Produktintensität (Leber,Muskel)