statistik_Nov_08_05

Werbung
STATISIK
LV Nr.: 0021
WS 2005/06
8. November 2005
1
Varianzanalyse
Varianzanalyse od. ANOVA
• Frage: Hat ein Faktor Einfluss auf ein
Merkmal?
• Faktor: Nominal skalierte Größe,
Faktorausprägungen = Ebenen oder Stufen
• Merkmal (durch Faktor beeinflusst):
Metrische Größe
2
Varianzanalyse
Varianzanalyse
• Einfache Varianzanalyse: Ein Faktor
• Zweifache Varianzanalyse: Zwei Faktoren
• …
3
Varianzanalyse
• Test, für arithmetische Mittel von zwei oder
mehr Grundgesamtheiten.
– Test, ob die Differenz der arithmetischen Mittel
von zwei oder mehr als zwei
Grundgesamtheiten signifikant von Null
verschieden ist.
4
Varianzanalyse
• Modellannahmen der Varinazanalyse:
– Unabhängigkeit der Stichproben (i=1,…,r)
– Normalverteilung der Merkmale mit µi und σi²
– Varianzhomogenität (Homoskedastizität), d.h.
σi² = σ²
5
Varianzanalyse
• Nullhypothese: Alle Gruppen haben den
gleichen Mittelwert µ
H0: µ1 = µ2 = … = µ
• Alternativhypothese: Nicht alle Gruppen
haben den gleichen Mittelwert µ
H1: mindestens zwei µi sind ungleich
6
Varianzanalyse
• Frage: Beeinflusst der Faktor (nominalskalierte Größe) das Merkmal (metrischskalierte Größe)?
• Unter H0: µi = µ für alle i (i = 1,…,r
Faktorstufen).
• Abweichung, die dem Faktor zuzuschreiben
sind: αi = µi - µ (i = 1,…,r) heißen wahre
Effekte auf der i-ten Ebene.
7
Varianzanalyse
• Modell der einfachen Varianzanalyse:
• xij = µ + αi + eij
– µ … Gesamtmittelwert
– αi … Effekt auf der i-ten Ebene
– eij … Versuchsfehler = die Abweichung eines
zufällig aus der i-ten Ebene des Faktors
herausgegriffenen Beobachtungswertes xik vom
Mittelwert µi dieser Ebene.
eij = xij – µi = xij – (µ + αi)
8
Varianzanalyse
• Beispiel: Zugfestigkeit von r = 3
Drahtsorten überprüfen, je Sorte 6 Proben,
unabhängig voneinander und N(µi,σ²)-vt.
Frage: Bestehen signifikante Unterschiede
in der Zugfestigkeit?
i
Drahtsorte
j
1
2
3
1
9
7,3
18
2
15,4
15,6
9,6
3
8,2
14,2
11,5
4
3,9
13
19,4
5
7,3
6,8
17,1
6
10,8
9,7
14,4
9
Varianzanalyse
Vorgehensweise:
• Gesamtmittelwert aller Faktorstufen und
Mittelwerte der Faktorstufen bestimmen
• Bestimmung der Abweichungen
• Zerlegung der Abweichungsquadratsumme
• Teststatistik und Testverteilung bestimmen
• Entscheidung, Interpretation
10
Varianzanalyse
• Gesamtmittelwert über alle Faktorstufen r
1 r ni
x  =  x ij
N i=1 j=1
• Mittelwerte der r Faktorstufen
1
x i =
ni
ni
x
ij
j=1
11
Varianzanalyse
• Beispiel: Drahtsorten
i
Drahtsorte
j
1
2
3
1
9
7,3
18
2
15,4
15,6
9,6
3
8,2
14,2
11,5
4
3,9
13
19,4
5
7,3
6,8
17,1
6
10,8
9,7
14,4
xi.
9,1
11,1
15
x..
11,7
12
Varianzanalyse
• Abweichungen: Quadratsumme der
Abweichungen (Sum of Squares)
– Abweichungen der Beobachtungen vom
Gesamtmittelwert.
r
ni
SST= (x ij -x  ) 2
i=1 j=1
– Summe der Quadratischen Abweichungen
– Bezeichnungen: SST (Total), SSG (Gesamt)
13
Varianzanalyse
• Sum of Squares:
– Abweichungen der Beobachtungen der
einzelnen Messreihen vom Mittelwert der
jeweiligen Messreihe.
r
ni
SSW= (x ij -x i ) 2
i=1 j=1
– Summe der Quadratischen Abweichungen des
Restes, Maß für die nicht durch den Faktor
beeinflusste Restvariabilität
– Bezeichnungen: SSW (Within), SSE (Error),
SSR (Residual).
14
Varianzanalyse
• Sum of Squares:
– Abweichungen der Mittelwerte der einzelnen
Messreihen vom Gesamtmittelwert.
r
SSB= n i (x i -x  ) 2
i=1
– Mit Stichprobengröße multiplizierte Summe
der Quadratischen Abweichungen der
Stichprobenmittelwerte vom Gesamtmittelwert,
also der beobachteten Effekte des Faktors.
– Bezeichnungen: SSB (Between), SSE
(Explained), SSM (Model), SST (Treatment),
15
Varianzanalyse
• Quadratsummenzerlegung:
• SST = SSB + SSW
r
ni
r
r
ni
2
2
2
(x
-x
)

n
(x
-x
)

(x
-x
)
 ij   i i   ij i
i=1 j=1
i=1
i=1 j=1
• Interpretation: Gesamtvariation (SST) setzt
sich aus der Variation zwischen den
Messreihen (SSB) und der Variation
innerhalb der Messreihen (SSW)
zusammen.
16
Varianzanalyse
• Idee für Test:
– Vergleich der Variation zwischen den
Messreihen mit der Variation innerhalb der
Messreihen
– Ist die Variation zwischen den Messreihen
größer als jene innerhalb der Messreihen,
schließe auf Unterschied zwischen den
Messreihen (Faktoreffekt).
17
Varianzanalyse
• Teststatistik – Idee:
– Aus den Beobachtungswerten werden zwei
voneinander unabhängige Schätzwerte für sW²
und sB² für die Varianzen der
Beobachtungswerte innerhalb und zwischen
den Stichproben bestimmt.
– Liegen keine wahren Effekte vor (Gültigkeit
von H0), sind sW² und sB² (bis auf zufällige
Abweichungen) gleich.
– Bei Vorhandensein von wahren Effekten (H1)
ist sB² systematisch größer als sW².
18
Varianzanalyse
• Erwartungstreuer Schätzer für die Varianz
innerhalb der Messreihen (Restvarianz):
r ni
1
2
s 2W =
(x
-x
)
 ij i
N-r i=1 j=1
• Erwartungstreuer Schätzer für die Varianz
zwischen den Messreihen (Faktoreffekt)
r
1
s 2B =  n i (x i -x  ) 2
r-1 i=1
19
Varianzanalyse
• Mittlere Quadratsummen (MSS = Mean
Sum of Squares):
• Quadratsummen dividiert durch
entsprechende Freiheitsgrade
• MSB und MSW sind erwartungstreue
Schätzer der Varianz zwischen- und
innerhalb der Messreihen.
20
Varianzanalyse
• Varianzanalysetafel (r Messreihen):
Streuungsursache
Freiheits- QuadratMittlere
grade (DF) summe (SS) Quadratsumme (MS)
Unterschied zw r-1
Messreihen
SSB
(Between)
MSB = SSB / (r-1)
Zufälliger
Fehler
N-r
SSW
(Within)
MSW = SSW / (N-r)
Gesamt
N-1
SST
(Total)
21
Varianzanalyse
Teststatistik:
• F = MSB / MSW
• F ~ F(r-1),(N-r)
• Entscheidung: Ist F ≤ Fc, lehne H0 nicht ab
(Fc = kritischer Wert der F-Verteilung mit (r1) und (N-r) Freiheitsgraden).
22
Varianzanalyse
• Beispiel: Drahtsorten
• Quadratsummenzerlegung: SST = SSB + SSW
– 324,62 = 108,04 + 216,58
• Mittlere Quadratsummen:
– MSB = 108,04 / (3-1) = 54,02
– MSW = 216,58 / (18-3) = 14,44
• Teststatistik:
– F = MSB / MSW = 3,74
• Kritischer Wert der F2;15 Vt. 3,68
• Entscheidung: 3,74 > 3,68 => H0 ablehnen, d.h. es
besteht ein signifikanter Unterschied zw. den Sorten
23
Varianzanalyse
• Zweifache Varianzanalyse:
– 2 Faktoren (A und B, wobei r Faktorstufen bei
A und p Faktorstufen bei B)
– 1 metrische Variable
• Unterscheidung:
– Modell ohne Wechselwirkungen zw. den
Faktoren
– Modell mit Wechselwirkungen zw. den
Faktoren
24
Varianzanalyse
• Modell ohne Wechselwirkungen zw. den
Faktoren
• xijk = µ + αi + βj + eijk (für i=1,…,r, j=1,…,p,
k=1,…,n)
–µ
– α, β
– eijk
gemeinsamer Mittelwert
Faktoreffekte
zufällige Fehler
25
Varianzanalyse
• Mittelwerte:
1
• Gesamt
x  =
r
p
n
x

rpn
ijk
i=1 j=1 k=1
• Faktor A
1 p n
x i =  x ijk
pn j=1 k=1
• Faktor B
1 r n
x  j =  x ijk
rn i=1 k=1
26
Varianzanalyse
• Schätzer für Gesamtmittel und Effekte
• Gesamtmittel
m=x
• Effekt von Faktor A
a i =x i -m
• Effekt von Faktor B
b j =x  j -m
27
Varianzanalyse
• Quadratsummen
p
r
n
• SST= (xijk -x )2
i=1 j=1 k=1
r
• SSE(A)=pn  a i2
i=1
p
• SSE(B)=rn  b
2
j
j=1
• SSR = SST – SSE(A) – SSE(B)
28
Varianzanalyse
• Quadratsummenzerlegung
– SST = SSE(A) + SSE(B) + SSR
• Mittlere Quadratsummen:
– MSE(A) = SSE(A) / (r-1)
– MSE(B) = SSE(B) / (p-1)
– MSR = SSR / (rpn-r-p+1)
29
Varianzanalyse
• Prüfgrößen und kritische Werte:
• Faktor A:
– F(A) = MSE(A) / MSR
– Fr-1,(nrp-r-p+1);1-α
• Faktor B:
– F(B) = MSE(B) / MSR
– Fp-1,(nrp-r-p+1);1-α
30
Varianzanalyse
• Beispiel: 2 Faktoren (Erreger, Antibiotikum)
Erreger i (A)
Antibiotikum j (B)
1
2
3
Mittelwerte
Schätzer ai
1
38
40
38
2
35
41
39
38,5
0,667
1
42
39
33
2
45
33
34
37,7
-0,167
1
38
38
33
2
41
38
36
37,3
-0,500
Mittelwerte
39,8
38,2
35,5
37,8
Schätzer bj
2,000
0,333
-2,333
k
1
2
3
31
Varianzanalyse
• Modell mit Wechselwirkungen zw. den
Faktoren
• xijk = µ + αi + βj + (αβ)ij + eijk (für i=1,…,r,
j=1,…,p, k=1,…,n)
–
–
–
–
µ
α, β
αβ
eijk
gemeinsamer Mittelwert
Faktoreffekte
Wechselwirkung
zufällige Fehler
32
Varianzanalyse
• Mittelwerte:
1
• Gesamt
x  =
r
p
n
x

rpn
ijk
i=1 j=1 k=1
• Faktor A
1 p n
x i =  x ijk
pn j=1 k=1
• Faktor B
1 r n
x  j =  x ijk
rn i=1 k=1
1 n
• Wechselwirkung x ij =  x ijk
n k=1
33
Varianzanalyse
• Gesamtmittel und Effekte
• Gesamtmittel m=x
• Effekt von Faktor A
a i =x i -m
• Effekt von Faktor B
b j =x  j -m
• Effekt der Wechselwirkung (ab)ij =x ij -a i -b j -m
34
Varianzanalyse
• Quadratsummen
p
r
n
SST= (x ijk -x )2
i=1 j=1 k=1
r
SSE(A)=pn  a i2
i=1
p
SSE(B)=rn  b 2j
j=1
r
p
SSE(AB)=n  (ab)ij2
i=1 j=1
SSR = SST – SSE(A) – SSE(B) – SSE(AB)
35
Varianzanalyse
• Quadratsummenzerlegung
– SST = SSE(A) + SSE(B) + SSE(AB) + SSR
• Mittlere Quadratsummen:
–
–
–
–
MSE(A) = SSE(A) / (r-1)
MSE(B) = SSE(B) / (p-1)
MSE(AB) = SSE(AB) / (p-1)(r-1)
MSR = SSR / rp(n-1)
36
Varianzanalyse
• Prüfgrößen und kritische Werte:
• Faktor A:
– F(A) = MSE(A) / MSR
– Fr-1, pr(n-1); 1-α
• Faktor B:
– F(B) = MSE(B) / MSR
– Fp-1, pr(n-1); 1-α
• Wechselwirkung:
– F(AB) = MSE(AB) / MSR
– F(p-1)(r-1), pr(n-1); 1-α
37
Varianzanalyse
• Beispiel: 2 Faktoren + Wechselwirkung
Erreger i
Antibiotikum j (Faktor B)
(Faktor A)
1
2
3
1
k
xi1k
1
38
2
35
1
42
2
45
1
38
2
41
xi1.
2
(ab)i1
xi2k
xi2.
3
(ab)i2
40
36,5
-4,000
41
3,833
33
40,5
1,667
0,167
38
xi3.
(ab)i3
39
38,5
2,333
38,5
0,667
33,5
-1,833
37,7
-0,167
34,5
-0,500
37,3
-0,500
33
36
-2,000
38
39,5
ai
38
39
43,5
xi3k
xi..
34
33
38
0,333
36
x.j.
39,8
38,2
35,5
bj
2,000
0,333
-2,333
37,8
38
Varianzanalyse
• Beispiel: Varianzanalysetafel
Streuungsursache
Freiheitsgrade
Quadratsumme
Mittlere
Quadrats.
Teststatistik
Kritischer
Wert
Erreger
2
4,33
2,16667
0,52
4,26
Antibiotikum
2
57,33
28,6667
6,88
4,26
Interaktion
4
93,33
23,3333
5,60
3,63
Fehler
9
37,50
4,16667
17
192,5
Total
• Faktor Erreger: kein Effekt
• Faktor Antibiotikum: Effekt
• Interaktion: Effekt (impliziert, dass auch
Faktor Erreger eine Wirkung hat).
39
Varianzanalyse
Erreger - Antibiotikum
45
44
43
42
41
Mittelwerte
40
39
Erreger 1
38
Erreger 2
37
Erreger 3
36
35
34
33
32
31
30
0
1
2
3
4
Antibiotikum
40
Nichtparametrische ANOVA
• Kruskal-Wallis Test
• Unterscheiden sich die Mittelwerte von p
Messreihen (n1, …, np)?
• Voraussetzungen:
– Stetige Verteilung der Messreihen
– Mindestens Ordinalskala
– Setzt weder Normalverteilung, noch
Varianzhomogenität voraus.
• Hypothese:
– H0: Mittelwerte der p Messreihen sind gleich
– H1: Mittelwerte unterscheiden sich
41
Nichtparametrische ANOVA
• Vorgehensweise:
– N Messwerten X11, …, Xpnp werden
Rangzahlen rij zugewiesen.
– Summe der Ränge der einzelnen Messreihen
berechnen:
ni
ri =  rij
j=1
– Bindungen (mehrere Messwerte sind gleich):
Mittelwert der Ränge
42
Nichtparametrische ANOVA
• Prüfgröße:
p

1  12
1 2
H= 
ri -3(N+1) 

B  N(N+1) i=1 n i

1 g 3
B=1- 3  (t l -t)
N -N i=1
– g … Anzahl der verschiedenen Messwerte
– t … wie oft tritt ein Messwert auf
– Treten keine Bindungen auf, ist B = 1
43
Nichtparametrische ANOVA
• Entscheidung:
– H0 ablehnen, wenn H > hp(n1,…,np);1-α
– h … kritische Werte (Tabelle, z.B. Hartung S.
615)
• Approximation durch χ²p-1,1-α Verteilung:
– H0 ablehnen, wenn H > χ²p-1,1-α (Quantile der χ²
Verteilung)
44
Herunterladen