STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005 1 Varianzanalyse Varianzanalyse od. ANOVA • Frage: Hat ein Faktor Einfluss auf ein Merkmal? • Faktor: Nominal skalierte Größe, Faktorausprägungen = Ebenen oder Stufen • Merkmal (durch Faktor beeinflusst): Metrische Größe 2 Varianzanalyse Varianzanalyse • Einfache Varianzanalyse: Ein Faktor • Zweifache Varianzanalyse: Zwei Faktoren • … 3 Varianzanalyse • Test, für arithmetische Mittel von zwei oder mehr Grundgesamtheiten. – Test, ob die Differenz der arithmetischen Mittel von zwei oder mehr als zwei Grundgesamtheiten signifikant von Null verschieden ist. 4 Varianzanalyse • Modellannahmen der Varinazanalyse: – Unabhängigkeit der Stichproben (i=1,…,r) – Normalverteilung der Merkmale mit µi und σi² – Varianzhomogenität (Homoskedastizität), d.h. σi² = σ² 5 Varianzanalyse • Nullhypothese: Alle Gruppen haben den gleichen Mittelwert µ H0: µ1 = µ2 = … = µ • Alternativhypothese: Nicht alle Gruppen haben den gleichen Mittelwert µ H1: mindestens zwei µi sind ungleich 6 Varianzanalyse • Frage: Beeinflusst der Faktor (nominalskalierte Größe) das Merkmal (metrischskalierte Größe)? • Unter H0: µi = µ für alle i (i = 1,…,r Faktorstufen). • Abweichung, die dem Faktor zuzuschreiben sind: αi = µi - µ (i = 1,…,r) heißen wahre Effekte auf der i-ten Ebene. 7 Varianzanalyse • Modell der einfachen Varianzanalyse: • xij = µ + αi + eij – µ … Gesamtmittelwert – αi … Effekt auf der i-ten Ebene – eij … Versuchsfehler = die Abweichung eines zufällig aus der i-ten Ebene des Faktors herausgegriffenen Beobachtungswertes xik vom Mittelwert µi dieser Ebene. eij = xij – µi = xij – (µ + αi) 8 Varianzanalyse • Beispiel: Zugfestigkeit von r = 3 Drahtsorten überprüfen, je Sorte 6 Proben, unabhängig voneinander und N(µi,σ²)-vt. Frage: Bestehen signifikante Unterschiede in der Zugfestigkeit? i Drahtsorte j 1 2 3 1 9 7,3 18 2 15,4 15,6 9,6 3 8,2 14,2 11,5 4 3,9 13 19,4 5 7,3 6,8 17,1 6 10,8 9,7 14,4 9 Varianzanalyse Vorgehensweise: • Gesamtmittelwert aller Faktorstufen und Mittelwerte der Faktorstufen bestimmen • Bestimmung der Abweichungen • Zerlegung der Abweichungsquadratsumme • Teststatistik und Testverteilung bestimmen • Entscheidung, Interpretation 10 Varianzanalyse • Gesamtmittelwert über alle Faktorstufen r 1 r ni x = x ij N i=1 j=1 • Mittelwerte der r Faktorstufen 1 x i = ni ni x ij j=1 11 Varianzanalyse • Beispiel: Drahtsorten i Drahtsorte j 1 2 3 1 9 7,3 18 2 15,4 15,6 9,6 3 8,2 14,2 11,5 4 3,9 13 19,4 5 7,3 6,8 17,1 6 10,8 9,7 14,4 xi. 9,1 11,1 15 x.. 11,7 12 Varianzanalyse • Abweichungen: Quadratsumme der Abweichungen (Sum of Squares) – Abweichungen der Beobachtungen vom Gesamtmittelwert. r ni SST= (x ij -x ) 2 i=1 j=1 – Summe der Quadratischen Abweichungen – Bezeichnungen: SST (Total), SSG (Gesamt) 13 Varianzanalyse • Sum of Squares: – Abweichungen der Beobachtungen der einzelnen Messreihen vom Mittelwert der jeweiligen Messreihe. r ni SSW= (x ij -x i ) 2 i=1 j=1 – Summe der Quadratischen Abweichungen des Restes, Maß für die nicht durch den Faktor beeinflusste Restvariabilität – Bezeichnungen: SSW (Within), SSE (Error), SSR (Residual). 14 Varianzanalyse • Sum of Squares: – Abweichungen der Mittelwerte der einzelnen Messreihen vom Gesamtmittelwert. r SSB= n i (x i -x ) 2 i=1 – Mit Stichprobengröße multiplizierte Summe der Quadratischen Abweichungen der Stichprobenmittelwerte vom Gesamtmittelwert, also der beobachteten Effekte des Faktors. – Bezeichnungen: SSB (Between), SSE (Explained), SSM (Model), SST (Treatment), 15 Varianzanalyse • Quadratsummenzerlegung: • SST = SSB + SSW r ni r r ni 2 2 2 (x -x ) n (x -x ) (x -x ) ij i i ij i i=1 j=1 i=1 i=1 j=1 • Interpretation: Gesamtvariation (SST) setzt sich aus der Variation zwischen den Messreihen (SSB) und der Variation innerhalb der Messreihen (SSW) zusammen. 16 Varianzanalyse • Idee für Test: – Vergleich der Variation zwischen den Messreihen mit der Variation innerhalb der Messreihen – Ist die Variation zwischen den Messreihen größer als jene innerhalb der Messreihen, schließe auf Unterschied zwischen den Messreihen (Faktoreffekt). 17 Varianzanalyse • Teststatistik – Idee: – Aus den Beobachtungswerten werden zwei voneinander unabhängige Schätzwerte für sW² und sB² für die Varianzen der Beobachtungswerte innerhalb und zwischen den Stichproben bestimmt. – Liegen keine wahren Effekte vor (Gültigkeit von H0), sind sW² und sB² (bis auf zufällige Abweichungen) gleich. – Bei Vorhandensein von wahren Effekten (H1) ist sB² systematisch größer als sW². 18 Varianzanalyse • Erwartungstreuer Schätzer für die Varianz innerhalb der Messreihen (Restvarianz): r ni 1 2 s 2W = (x -x ) ij i N-r i=1 j=1 • Erwartungstreuer Schätzer für die Varianz zwischen den Messreihen (Faktoreffekt) r 1 s 2B = n i (x i -x ) 2 r-1 i=1 19 Varianzanalyse • Mittlere Quadratsummen (MSS = Mean Sum of Squares): • Quadratsummen dividiert durch entsprechende Freiheitsgrade • MSB und MSW sind erwartungstreue Schätzer der Varianz zwischen- und innerhalb der Messreihen. 20 Varianzanalyse • Varianzanalysetafel (r Messreihen): Streuungsursache Freiheits- QuadratMittlere grade (DF) summe (SS) Quadratsumme (MS) Unterschied zw r-1 Messreihen SSB (Between) MSB = SSB / (r-1) Zufälliger Fehler N-r SSW (Within) MSW = SSW / (N-r) Gesamt N-1 SST (Total) 21 Varianzanalyse Teststatistik: • F = MSB / MSW • F ~ F(r-1),(N-r) • Entscheidung: Ist F ≤ Fc, lehne H0 nicht ab (Fc = kritischer Wert der F-Verteilung mit (r1) und (N-r) Freiheitsgraden). 22 Varianzanalyse • Beispiel: Drahtsorten • Quadratsummenzerlegung: SST = SSB + SSW – 324,62 = 108,04 + 216,58 • Mittlere Quadratsummen: – MSB = 108,04 / (3-1) = 54,02 – MSW = 216,58 / (18-3) = 14,44 • Teststatistik: – F = MSB / MSW = 3,74 • Kritischer Wert der F2;15 Vt. 3,68 • Entscheidung: 3,74 > 3,68 => H0 ablehnen, d.h. es besteht ein signifikanter Unterschied zw. den Sorten 23 Varianzanalyse • Zweifache Varianzanalyse: – 2 Faktoren (A und B, wobei r Faktorstufen bei A und p Faktorstufen bei B) – 1 metrische Variable • Unterscheidung: – Modell ohne Wechselwirkungen zw. den Faktoren – Modell mit Wechselwirkungen zw. den Faktoren 24 Varianzanalyse • Modell ohne Wechselwirkungen zw. den Faktoren • xijk = µ + αi + βj + eijk (für i=1,…,r, j=1,…,p, k=1,…,n) –µ – α, β – eijk gemeinsamer Mittelwert Faktoreffekte zufällige Fehler 25 Varianzanalyse • Mittelwerte: 1 • Gesamt x = r p n x rpn ijk i=1 j=1 k=1 • Faktor A 1 p n x i = x ijk pn j=1 k=1 • Faktor B 1 r n x j = x ijk rn i=1 k=1 26 Varianzanalyse • Schätzer für Gesamtmittel und Effekte • Gesamtmittel m=x • Effekt von Faktor A a i =x i -m • Effekt von Faktor B b j =x j -m 27 Varianzanalyse • Quadratsummen p r n • SST= (xijk -x )2 i=1 j=1 k=1 r • SSE(A)=pn a i2 i=1 p • SSE(B)=rn b 2 j j=1 • SSR = SST – SSE(A) – SSE(B) 28 Varianzanalyse • Quadratsummenzerlegung – SST = SSE(A) + SSE(B) + SSR • Mittlere Quadratsummen: – MSE(A) = SSE(A) / (r-1) – MSE(B) = SSE(B) / (p-1) – MSR = SSR / (rpn-r-p+1) 29 Varianzanalyse • Prüfgrößen und kritische Werte: • Faktor A: – F(A) = MSE(A) / MSR – Fr-1,(nrp-r-p+1);1-α • Faktor B: – F(B) = MSE(B) / MSR – Fp-1,(nrp-r-p+1);1-α 30 Varianzanalyse • Beispiel: 2 Faktoren (Erreger, Antibiotikum) Erreger i (A) Antibiotikum j (B) 1 2 3 Mittelwerte Schätzer ai 1 38 40 38 2 35 41 39 38,5 0,667 1 42 39 33 2 45 33 34 37,7 -0,167 1 38 38 33 2 41 38 36 37,3 -0,500 Mittelwerte 39,8 38,2 35,5 37,8 Schätzer bj 2,000 0,333 -2,333 k 1 2 3 31 Varianzanalyse • Modell mit Wechselwirkungen zw. den Faktoren • xijk = µ + αi + βj + (αβ)ij + eijk (für i=1,…,r, j=1,…,p, k=1,…,n) – – – – µ α, β αβ eijk gemeinsamer Mittelwert Faktoreffekte Wechselwirkung zufällige Fehler 32 Varianzanalyse • Mittelwerte: 1 • Gesamt x = r p n x rpn ijk i=1 j=1 k=1 • Faktor A 1 p n x i = x ijk pn j=1 k=1 • Faktor B 1 r n x j = x ijk rn i=1 k=1 1 n • Wechselwirkung x ij = x ijk n k=1 33 Varianzanalyse • Gesamtmittel und Effekte • Gesamtmittel m=x • Effekt von Faktor A a i =x i -m • Effekt von Faktor B b j =x j -m • Effekt der Wechselwirkung (ab)ij =x ij -a i -b j -m 34 Varianzanalyse • Quadratsummen p r n SST= (x ijk -x )2 i=1 j=1 k=1 r SSE(A)=pn a i2 i=1 p SSE(B)=rn b 2j j=1 r p SSE(AB)=n (ab)ij2 i=1 j=1 SSR = SST – SSE(A) – SSE(B) – SSE(AB) 35 Varianzanalyse • Quadratsummenzerlegung – SST = SSE(A) + SSE(B) + SSE(AB) + SSR • Mittlere Quadratsummen: – – – – MSE(A) = SSE(A) / (r-1) MSE(B) = SSE(B) / (p-1) MSE(AB) = SSE(AB) / (p-1)(r-1) MSR = SSR / rp(n-1) 36 Varianzanalyse • Prüfgrößen und kritische Werte: • Faktor A: – F(A) = MSE(A) / MSR – Fr-1, pr(n-1); 1-α • Faktor B: – F(B) = MSE(B) / MSR – Fp-1, pr(n-1); 1-α • Wechselwirkung: – F(AB) = MSE(AB) / MSR – F(p-1)(r-1), pr(n-1); 1-α 37 Varianzanalyse • Beispiel: 2 Faktoren + Wechselwirkung Erreger i Antibiotikum j (Faktor B) (Faktor A) 1 2 3 1 k xi1k 1 38 2 35 1 42 2 45 1 38 2 41 xi1. 2 (ab)i1 xi2k xi2. 3 (ab)i2 40 36,5 -4,000 41 3,833 33 40,5 1,667 0,167 38 xi3. (ab)i3 39 38,5 2,333 38,5 0,667 33,5 -1,833 37,7 -0,167 34,5 -0,500 37,3 -0,500 33 36 -2,000 38 39,5 ai 38 39 43,5 xi3k xi.. 34 33 38 0,333 36 x.j. 39,8 38,2 35,5 bj 2,000 0,333 -2,333 37,8 38 Varianzanalyse • Beispiel: Varianzanalysetafel Streuungsursache Freiheitsgrade Quadratsumme Mittlere Quadrats. Teststatistik Kritischer Wert Erreger 2 4,33 2,16667 0,52 4,26 Antibiotikum 2 57,33 28,6667 6,88 4,26 Interaktion 4 93,33 23,3333 5,60 3,63 Fehler 9 37,50 4,16667 17 192,5 Total • Faktor Erreger: kein Effekt • Faktor Antibiotikum: Effekt • Interaktion: Effekt (impliziert, dass auch Faktor Erreger eine Wirkung hat). 39 Varianzanalyse Erreger - Antibiotikum 45 44 43 42 41 Mittelwerte 40 39 Erreger 1 38 Erreger 2 37 Erreger 3 36 35 34 33 32 31 30 0 1 2 3 4 Antibiotikum 40 Nichtparametrische ANOVA • Kruskal-Wallis Test • Unterscheiden sich die Mittelwerte von p Messreihen (n1, …, np)? • Voraussetzungen: – Stetige Verteilung der Messreihen – Mindestens Ordinalskala – Setzt weder Normalverteilung, noch Varianzhomogenität voraus. • Hypothese: – H0: Mittelwerte der p Messreihen sind gleich – H1: Mittelwerte unterscheiden sich 41 Nichtparametrische ANOVA • Vorgehensweise: – N Messwerten X11, …, Xpnp werden Rangzahlen rij zugewiesen. – Summe der Ränge der einzelnen Messreihen berechnen: ni ri = rij j=1 – Bindungen (mehrere Messwerte sind gleich): Mittelwert der Ränge 42 Nichtparametrische ANOVA • Prüfgröße: p 1 12 1 2 H= ri -3(N+1) B N(N+1) i=1 n i 1 g 3 B=1- 3 (t l -t) N -N i=1 – g … Anzahl der verschiedenen Messwerte – t … wie oft tritt ein Messwert auf – Treten keine Bindungen auf, ist B = 1 43 Nichtparametrische ANOVA • Entscheidung: – H0 ablehnen, wenn H > hp(n1,…,np);1-α – h … kritische Werte (Tabelle, z.B. Hartung S. 615) • Approximation durch χ²p-1,1-α Verteilung: – H0 ablehnen, wenn H > χ²p-1,1-α (Quantile der χ² Verteilung) 44