Einführung in die Varianzanalyse mit SPSS

Werbung
Einführung in die
Varianzanalyse mit SPSS
Inhalt
1.
2.
3.
SPSS-Benutzertreffen am URZ
Carina Ortseifen
16. Mai 2003
4.
5.
6.
7.
1. Varianzanalyse
{
{
kann nach zwei Methoden gerechnet
werden:
Klassische Methode nach Fisher
(Zerlegung der Gesamtvarianz in
Quadratsummen innerhalb und
zwischen den Gruppen)
Allgemeines lineares Modell
(Korrelations- und Regressionsrechnung)
1.2 Hypothesen / Fragen
{
{
F-Test:
H0: Alle Mittelwerte µi sind gleich.
Multiple Mittelwertvergleiche:
Welche µi unterscheiden sich?
Siehe Kapitel 4.
Varianzanalyse
Prozedur ONEWAY
Vergleich von k Gruppen
Multiple Vergleiche
Modellvoraussetzungen
Weiterführende Themen
Literatur
1.1 Beobachtungen und Modell
{
{
{
Beobachtungen yij, i=1,..,ni, j=1,..,k
Beispiel: Iris-Daten, ni=50, k=3, yij=sw
Einfaktorielles Modell mit festen Effekten:
Yij=µi+εij (i=1,...,ni, N=n1+..+nk)
µi unbekannte Erwartungswerte der k
Gruppen
εij unabhängige N(0,σ2)-verteilte
Zufallsvariablen
mit σ12=...=σk2 (Homoskedastizität)
1.3 Varianzzerlegung (Anova-Tafel)
Streuung
FG
SS(*) MS=SS/FG
---------------------------------------------------Unterschiede
zwischen
k-1 Yi.-Y.. MST
Gruppen
F= MST / MSE
Zufälliger
N-k Yij-Yi. MSE
Fehler
Gesamt
N-1 Yij-Y..
(*) Summe von Quadraten
1
2. Prozedur ONEWAY
1.4 F-Test
{
{
{
H0 wird verworfen, wenn MST sehr viel
größer als MSE ist, d.h. die Variation
zwischen den Meßreihen ist wesentlich
größer als die Variation innerhalb der
Meßreihen.
{
Bestandteil des SPSS Basismoduls
{
Menüpunkt:
Analysieren
> Mittelwerte vergleichen
> Einfaktorielle ANOVA …
F=MST/MSE
ist unter H0 F-verteilt mit k-1 und N-k
Freiheitsgraden.
Lehne H0 ab, wenn F>F
k-1,N-k,1-α
3. F-Test mit ONEWAY
3.1 Prozedur ONEWAY - Ausgabe
Nullhypothese H0: µ1= µ2= ... = µk
ONEWAY ANOVA
Breite der Kelchblätter
Zwischen den Gruppen
Innerhalb der Gruppen
Gesamt
3.2 ONEWAY - Optionen
{
Deskriptive Statistiken
{
liefert für die gesamte Stichprobe
und die Gruppen
Mittelwert, Standardabweichung,
Standardfehler, 95%Konfidenzintervall für Mittelwert,
Minimum und Maximum
Quadrats
umme
11,345
16,962
28,307
df
2
147
149
Mittel der
Quadrate
5,672
,115
F
49,160
Signifikanz
,000
4. Multiple Mittelwertvergleiche
{
F-Test ist ein globaler Test auf Unterschied
in den k Mittelwerten
Um zu sehen, welche Gruppen sich
unterscheiden, rechnet man multiple
Mittelwertvergleiche.
{
ONEWAY – Post Hoc ..
{
(= Post-Hoc-Mehrfachvergleiche)
2
4.1 Post Hoc Mehrfachvergleiche
SPSS unterscheidet
{ Post Hoc-Spannweitentests
(ermitteln homogene Untergruppen,
deren Mittelwerte nicht voneinander
abweichen) und
{ Paarweise multiple Vergleiche
(testen die Differenz zwischen
gepaarten Mittelwerten)
in der Ergebnisdarstellung.
(Details in der Hilfe)
4.2 Bonferroni t-Test
{
berechnet Zweistichproben t-Tests
für die Paarvergleiche und testet
diese auf dem Niveau
α/m
(m = Anzahl der Paarvergleiche)
Anzahl aller möglichen Vergleiche:
k(k-1)/2
4.3 Tukey Test
Mehrfachvergleiche
Abhängige Variable: Breite der Kelchblätter
Bonferroni
Breite der Kelchblätter
a
(I) BLUME
1
2
3
(J) BLUME
2
3
1
3
1
2
Mittlere
Standardf
Differenz (I-J)
ehler
,6580*
,06794
,4540*
,06794
-,6580*
,06794
-,2040*
,06794
-,4540*
,06794
,2040*
,06794
Signifikanz
,000
,000
,000
,009
,000
,009
95%-Konfidenzintervall
Untergrenze Obergrenze
,4935
,8225
,2895
,6185
-,8225
-,4935
-,3685
-,0395
-,6185
-,2895
,0395
,3685
*. Die mittlere Differenz ist auf der Stufe .05 signifikant.
4.3 Weiteres Beispiel: Hyper.sav
Koerpergroesse
Altersklassen
Tukey-HSDa,b 66-75 Jahre
> 75 Jahre
56-65 Jahre
bis 55 Jahre
Signifikanz
N
47
24
51
52
Tukey-HSD
BLUME
2
3
1
Signifikanz
Die Mittelwerte für die in homogenen Untergruppen befindlichen
Gruppen werden angezeigt.
a. Verwendet ein harmonisches Mittel für Stichprobengröße =
39,300.
b. Die Gruppengrößen sind nicht identisch. Es wird das
harmonische Mittel der Gruppengrößen verwendet.
Fehlerniveaus des Typs I sind nicht garantiert.
50
50
50
Untergruppe für Alpha = .05.
1
2
3
2,7700
2,9740
3,4280
1,000
1,000
1,000
Die Mittelwerte für die in homogenen Untergruppen
befindlichen Gruppen werden angezeigt.
a. Verwendet ein harmonisches Mittel für
Stichprobengröße = 50,000.
4.4 Weitere multiple Vergleiche
{
Untergruppe für Alpha
= .05.
1
2
162,47
162,67
164,82
164,82
169,10
,525
,068
N
{
{
{
Scheffé
Kritische Differenz mit F-Verteilung
Tukey
neben NV wird balanciertes Design
vorausgesetzt
kritische Differenz mit studentisierter
Spannweitenverteilung
Dunnett
Vergleiche mit einer Kontrolle (many one)
Sequentielle Tests
F nach REGW, Q nach REGW
3
5. Modellvoraussetzungen
4.5 Empfehlungen (nach DJS)
{
{
{
paarweise Vergleiche bei balanciertem
Design
TUKEY oder Q-REGW
paarweise Vergleiche bei unbalanciertem
Design
SCHEFFE oder SIDAK
Lineare Kontraste
SCHEFFE, manchmal auch SIDAK oder
TUKEY
1.
2.
Normalverteilung der Fehler
Homoskedastizität (=Gleichheit der
Gruppenvarianzen)
und deren Überprüfung:
Berechnung der Residuen und
Normalverteilungscheck mittels
Explorativer Datenanalyse
2. Optionen – Statistik - Test auf
Varianzhomogenität
1.
5.1 Normalverteilte Fehler
5.2 Homoskedastizität
Untersuchung nicht mit ONEWAY
möglich
{ aber mit GLM: Analysieren >
Allgemeines lineares Modell > Univariat
1. Nach Festlegung der Modellparameter
Speichern – Residuen – Nicht
standardisiert auswählen.
2. Analysieren > Deskriptive Statistiken >
Explorative Datenanalyse – Diagramme
– Normalverteilungsdiagramm mit Test
= Gleichheit der Gruppenvarianzen
5.3 Alternativen zum F-Test
6. Weiterführende Themen
{
{
1.
2.
Sind die Varianzen nicht homogen, bietet
ONEWAY folgende robusten Tests (über
Optionen – Statistik) an:
Brown-Forsythe
Welch-Test
{
Test der Homogenität der Varianzen
Breite der Kelchblätter
Levene-St
atistik
,601
1.
2.
3.
4.
Robuste Testverfahren zur Prüfung auf Gleichheit der Mittelwerte
Levene-Test
setzt keine Normalverteilung, nur Stetigkeit
voraus
df1
2
df2
147
Signifikanz
,550
Mehrfaktorielle Modelle
Multivariate Varianzanalysen
Zufällige Effekte
Messwiederholung
Nichtparametrische Alternativen
Breite der Kelchblätter
a
Welch-Test
Brown-Forsythe
Statistik
45,012
49,160
df1
2
2
df2
97,402
142,654
Sig.
,000
,000
a. Asymptotisch F-verteilt
4
6.1 Zweifaktorielle Varianzanalyse
= Untersuchung des gemeinsamen
Effekts von zwei Einflußfaktoren A
und B
{ vollständig kreuzklassifiziert
{ hierarchisch klassifiziert
6.1.1 Beispiel: Fütterungsversuch
{
{
Abhängigkeit des Gewichtszuwachses
von Futtermischungen
Faktor A: Vitaminzusatz (1, 2, 3)
Faktor B: Darrreichungsform
(pelettiert, gemahlen)
Untersuchung von
Haupteffekten und
{ Wechselwirkungen
{
6.1.2 Datenmaterial
6.1.3 GLM Ergebnis
{
Tests der Zwischensubjekteffekte
Variablen a, b, gewicht:
1 1
2 1
3 1
13
15
14
1 1 15
2 1 21
3 1 18
1 2 14
2 2 27
3 2 25
N=12 Ratten, d.h. n=2 Ratten pro
Faktorkombination
Abhängige Variable: GEWICHT
1 2 18
2 2 29
3 2 31
Prozedur GLM, Modul Advanced Statistics
Analysieren
> Allgemeines lineares Modell
> Multivariat
Quelle
Korrigiertes Modell
Konstanter Term
A
B
A*B
Fehler
Gesamt
Korrigierte
Gesamtvariation
Quadratsum
me vom Typ III
400,000a
4800,000
152,000
192,000
56,000
56,000
5256,000
456,000
df
5
1
2
1
2
6
12
Mittel der
Quadrate
80,000
4800,000
76,000
192,000
28,000
9,333
F
8,571
514,286
8,143
20,571
3,000
11
a. R-Quadrat = ,877 (korrigiertes R-Quadrat = ,775)
6.2 Zufällige Effekte
6.3 Messwiederholung (GLM)
Stufen des Einflussfaktors werden
nicht systematisch und bewusst
festgelegt oder vorgegeben, sondern
zufällig ausgewählt.
{ Beispiel: Von vielen vorhandenen
Sorten werden drei zufällig
ausgewählt.
Analysieren
> Gemischte Modelle
> Linear
Analysieren
> Allgemeines lineares Modell
> Messwiederholung
{
Signifikanz
,011
,000
,020
,004
,125
5
6.4 Nichtparametrische VA
Unabhängige Gruppen
Kruskal-Wallis Test
Prozedur NPAR aus Basismodul
Analysieren > Nichtparametrische
Tests > k unabhängige Stichproben
Aber: Keine direkten multiplen
Vergleiche
Abhängige Gruppen
Friedman Test
Analysieren > Nichtparametrische
Tests > k verbundene Stichproben
7. Literatur
{
{
{
SPSS Online Hilfe
A. Bühl, P. Zöfel: SPSS Version 10, Addison
Wesley
Dufner, J., Jensen, U. Schumacher, E.:
Statistik mit SAS.
Teubner Verlag, 2002.
6
Herunterladen