VO 6 Signifikanztests [Kompatibilitätsmodus]

Werbung
Signifikanztests = Hypothesenprüfung
Hypothese = Wenn – dann - Beziehung
Kapitel 6: Signifikanztests
Besteht ein Zusammenhang zwischen Variable X und Variable Y?
„Die widerspenstige
Zähmung des Zufalls“
unabhängige
Variable
Rauchen
Ein Lustspiel in mehreren Akten
Geschlecht
Heute: 3. Akt oder:
Gewalterfahrung
Der Regenbogen der Signifikanztests
hat Einfluß auf
hat Einfluß auf
hat Einfluß auf
hat Einfluß auf
abhängige
Variable
Lungenkrebs
Konsumgewohnheiten
Einstiegsalter
Heroin
2
1
Aufstellen von Hypothesen
Nullhypothese:
H0
Unser Ausgangspunkt ist
ZUFALL = Nullhypothese
Hypothese zur Unabhängigkeit
„Es besteht kein Zusammenhang zwischen
Rauchen und Lungenkrebs“ oder:
Theoretisch gehen wir davon aus,
dass es keine Gesetzmäßigkeit gibt.
„Unabhängig von den Rauchgewohnheiten bekommen
die untersuchten Männer gleich häufig Lungenkrebs.“
Alternativhypothese:
H1
Prüfmaß: Wir messen Abweichung
vom tatsächlichem Ergebnis
zum „erwarteten Ergebnis“ (=Zufall)
Hypothese zur Abhängigkeit
„Es besteht ein Zusammenhang zwischen
Rauchen und Lungenkrebs“ oder:
„Ob die untersuchten Männer Lungenkrebs bekommen,
ist abhängig davon, ob sie Raucher oder Nichtraucher sind.“
Wir bestimmen WS von diesem Prüfmaß
anhand dessen Zufalls-WS-Verteilung
3
4
Signifikanztests = Hypothesenprüfung
Wann muß die Nullhypothese beibehalten und
der Zusammenhang/H1 verworfen werden?
Logik Chi-Quadrat
Wenn das Prüfmaß wahrscheinlicher als 5%.
(Irrtums-WS ≥ 0,05)
Ergebnis ist mit mehr als 95%iger Sicherheit zufällig
= Messen der Abweichung
von tatsächlichen zu erwarteten Häufigkeiten
= Messen der Abweichung zum
Zufall/Unabhängigkeit
Wann darf die Ho verworfen und
ein Zusammenhang/H1 angenommen werden?
Wenn das Prüfmaß unwahrscheinlicher als 5%.
(Irrtums-WS < 0,05)
Ergebnis ist mit weniger als 5%igem Risiko nicht zufällig.
5
= Abweichung = (χ2) = Prüfmaß
Bestimmen von theoretischer WS vom Prüfmaß
unter der Voraussetzung des
Zufalls/Unabhängigkeit
6
8
Signifikanztests = Hypothesenprüfung
Logik bei ALLEN Signifikanztests
= Messen der Abweichung der Stichprobe
zum Zufall/Unabhängigkeit
= Abweichung = Prüfmaß
Bestimmen von theoretischer WS vom
Prüfmaß unter der Voraussetzung des
Zufalls/Unabhängigkeit
….wenn der Zufall beim errechneten Ergebnis….
= eher wahrscheinlich ist (p > 0,05) Zufall/Unabhängigkeit gilt
= eher unwahrscheinlich ist (p <= 0,05) Zusammenhang gilt 7
Prüfmaß
Verfahren
Chi-Quadrat
χ2
misst Abweichung
tatsächliche und erwartete Häufigkeiten
M-Withney-U-Test
z
misst Differenz von mittleren Rängen
Wilcoxon – Test
z
misst Differenz von verbundenen Rängen
t - Test
t
misst Differenz von zwei Mittelwerten
t - Test
t
misst durchschnittliche Differenz
von zwei gepaarten Messwerten
Varianzanalyse
F
misst Verhältnis erklärte Varianz
zu Fehlervarianz
Kolmogorov-Smirnov
z
misst Abweichung einer tatsächlichen
Verteilung zur Normalverteilung
für verbundene Ränge
für gepaarte Variablen
und viele andere………..
9
Prüfmaß
Nullhypothese
Chi-Quadrat
χ2
tatsächliche = erwartete Häufigkeiten
M-Withney-U-Test
z
Differenz der mittleren Ränge = 0
Wilcoxon – Test
z
Differenz der verbundenen Ränge = 0
für verbundene Ränge
t - Test
t - Test
für gepaarte Variablen
10
Prüfmaß
Datenqualität
Chi-Quadrat
χ2
Nominal, ordinal
M-Withney-U-Test
z
Ordinal bzw.
Metrisch und nicht normalverteilt
Wilcoxon – Test
z
Ordinal bzw.
Metrisch und nicht normalverteilt
t - Test
t
Verteilung der Testvariable in beiden
Vergleichsgruppen metrisch und normalverteilt
t - Test
t
Testvariablen metrisch und Verteilung
der Differenzvariable ist normalverteilt
für verbundene Ränge
t
Differenz von zwei Mittelwerten = 0
t
Die durchschnittliche Differenz
der zwei gepaarten Messwerte = 0
für gepaarte Variablen
Varianzanalyse
F
erklärte Varianz ≤ Fehlervarianz
Varianzanalyse
F
Gruppenvariable: nominal, ordinal
Abhängige Variable:
Metrisch und normalverteilt
und: homogene Varianzen in den Untergruppen
Kolmogorov-Smirnov
z
empirische Verteilung = Normalverteilung
Kolmogorov-Smirnov
z
ab ordinal
und viele andere………..
Prüfmaß Chi-Quadrat
Chi-Quadrat-Test
χ2
Häufigkeitsvergleich
bei allen Arten von Kreuztabellen
nominal - ordinal
=
Σ
( f o – fe ) 2
fe
Abweichung zwischen tatsächlichen und
erwarteten Häufigkeiten
11
12
Beispiel Chi-Quadrat:
Zusammenhang Berufstätigkeit und
Einstellung „Statistik ist langweilig“
Berufstätige und nicht
berufstätige Studierende
bewerten Statistik
gleichermaßen als „langweilig“.
Beispiel Chi-Quadrat:
Zusammenhang Berufstätigkeit und
Einstellung „Statistik ist nützlich“
Kreuztabelle
Kreuztabelle
BERUF_NE
Berufstätig
berufstätig
Anzahl
% von BERUF_NE
Anzahl
% von BERUF_NE
Anzahl
% von BERUF_NE
Kreuztabelle
nicht berufstätig
Gesamt
BERUF_NE
Berufstätig
χ2 =
berufstätig
nicht berufstätig
Gesamt
F3_2DI STATISTIK ist
langweilig
trifft zu
trifft nicht zu
38
55
40,9%
59,1%
28
41
40,6%
59,4%
66
96
40,7%
59,3%
F3_2DI STATISTIK ist
langweilig
trifft zu
trifft nicht zu
38
55
37,9
55,1
28
41
28,1
40,9
66
96
66,0
96,0
Gesamt
93
100,0%
69
100,0%
162
100,0%
BERUF_NE
Berufstätig
(χ2)
berufstätig
Gesamt
Gesamt
93
93,0
69
69,0
162
162,0
BERUF_NE
Berufstätig
Gesamt
13
bis 25 J.
26-35 J.
ab 36 J.
Gesamt
Anzahl
% von SSEX
Anzahl
% von SSEX
Anzahl
% von SSEX
Anzahl
% von SSEX
χ2 = 4,785
Geschlecht
Geschlecht
Geschlecht
Geschlecht
F3_3DI STATISTIK ist
nützlich
trifft zu
trifft nicht zu
89
4
95,7%
4,3%
56
13
81,2%
18,8%
145
17
89,5%
10,5%
F3_3DI STATISTIK ist
nützlich
trifft zu
trifft nicht zu
89
4
83,2
9,8
56
13
61,8
7,2
145
17
145,0
17,0
Gesamt
93
100,0%
69
100,0%
162
100,0%
Gesamt
93
93,0
69
69,0
162
162,0
8,915 p(χ ) = 0,003
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
2
14
Die Altersgruppen unterscheiden sich
signifikant nach Geschlecht.
SAL_K Alter * SSEX Geschlecht Kreuztabelle
SAL_K
Alter
χ2 =
berufstätig
nicht berufstätig
Die Altersgruppen unterscheiden sich
deutlich nach Geschlecht.
SSEX Geschlecht
männlich
weiblich
8
11
22,2%
50,0%
18
7
50,0%
31,8%
10
4
27,8%
18,2%
36
22
100,0%
100,0%
Anzahl
% von BERUF_NE
Anzahl
% von BERUF_NE
Anzahl
% von BERUF_NE
Kreuztabelle
nicht berufstätig
0,001 p = 0,971
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Berufstätige bewerten Statistik
signifikant häufiger als „nützlich“
als nicht berufstätige
Studierende.
SAL_K Alter * SSEX Geschlecht Kreuztabelle
Gesamt
19
32,8%
25
43,1%
14
24,1%
58
100,0%
SAL_K
Alter
bis 25 J.
26-35 J.
ab 36 J.
Gesamt
p(χ ) = 0,091
2
15
Anzahl
% von SSEX
Anzahl
% von SSEX
Anzahl
% von SSEX
Anzahl
% von SSEX
χ2 = 9,569
Geschlecht
Geschlecht
Geschlecht
Geschlecht
SSEX Geschlecht
männlich
weiblich
16
22
22,2%
50,0%
36
14
50,0%
31,8%
20
8
27,8%
18,2%
72
44
100,0%
100,0%
Gesamt
38
32,8%
50
43,1%
28
24,1%
116
100,0%
p(χ ) = 0,008
2
16
U-Test: Rechenbeispiel
Zusammenhang Geschlecht und Lebenszufriedenheit
Rangplatzvergleich bei zwei Gruppen bei einer ordinalen Variable
U-Test
1
2
3
4
5
6
7
8
9
10
Rangplatzvergleich bei zwei Gruppen
bei einer ordinalen Variable
Prüfmaß z
z=
z=
1
1
1
1
1
1
2
2
3
3
4
R −R
1
2
( m + n )²( m + n + 1)
12 mn
Prüfmaß z,
Abweichung
zwischen zwei
mittleren Rängen
Rangplätze bilden:
Ränge
LZ Lebenszufriedenheit
GESCH Geschlecht
männlich
weiblich
Gesamt
1 = zufrieden
2 = eher zufrieden
3 = eher unzufrieden
4 = sehr unzufrieden
Abweichung zwischen zwei mittleren Rängen
(R1 und R2)
19
LZ
1
2
2
3
3
3
4
4
4
4
Zusammenhang Geschlecht und Lebenszufriedenheit
2
( m + n )²( m + n +1
+ 1)
12 mn
1
2
3
4
5
6
7
8
9
10
Name
Frauen
Trixi
Babsi
Josefine
Alberta
Huberta
Siegline
Conny
Pamela
Uschi
Susi
18
U-Test:
R −R
LZ
1 = zufrieden
4 = unzufrieden
17
Mann-Withney-U-Test
Name
Männer
Hubsi
Josef
Max
Bertl
Sepp
Ali
Heinz
Werner
Lothar
Willi
1
2
3
4
5
6
7
8
9
10
N
10
10
20
Männer
1
1
1
1
1
2
2
3
3
4
Mittlerer
Rang
7,85
13,15
Frauen
1
2
2
3
3
3
4
4
4
4
sex LZ Rangplatz
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
m
m
m
m
m
w
m
m
w
w
m
m
w
w
w
m
w
w
w
w
1
1
1
1
1
1
2
2
2
2
3
3
3
3
3
4
4
4
4
4
3,5
3,5
3,5
3,5
3,5
3,5
8,5
8,5
8,5
8,5
13
13
13
13
13
18
18
18
18
18
20
U-Test:
21
Zusammenhang Geschlecht und Lebenszufriedenheit
Beispiel U-Test:
Ränge
LZ Lebenszufriedenheit
GESCH Geschlecht
männlich
weiblich
Gesamt
Mittlerer
Rang
7,85
13,15
N
10
10
20
Männer mittlerer Rang = 7,85
Summe Rangplätze / m
(m =10)
Männer sind signifikant
zufriedener mit ihrem
Leben als Frauen.
Testb
LZ Lebenszufriedenheit
-2,070
,038
Z
Asymptotische Signifikanz (2-seitig)
Wer weiter „vorne“
steht, hat den niedrigeren
Messwert
Zusammenhang Berufstätigkeit und
„Statistik ist langweilig“ (dichotom)
„Statistik ist nützlich“ (dichotom)
dichotom –
vergleiche Chi2-Test!
Ränge
F3_2DI STATISTIK
ist langweilig
Frauen mittlerer Rang = 13,15
Summe Rangplätze / n
(n =10)
Statistik für
1 = sehr zufrieden
4 = sehr unzufrieden
1 = trifft zu
2 = trifft nicht zu
F3_3DI STATISTIK
ist nützlich
BERUF_NE Berufstätig
berufstätig
nicht berufstätig
Gesamt
berufstätig
nicht berufstätig
Gesamt
N
93
69
162
93
69
162
Mittlerer Rang
81,40
81,63
76,48
88,26
Statistik für Testa
WS von z (= -2,070) unter
Voraussetzung der
Nullhypothese = 0,038
b. Gruppenvariable: GESCH Geschlecht
Z
Asymptotische
Signifikanz (2-seitig)
F3_2DI
STATISTIK ist
langweilig
-,036
F3_3DI
STATISTIK
ist nützlich
-2,977
,971
,003
p für z (= -2,977) unter
Voraussetzung
der Nullhypothese
= 0,003
22
a. Gruppenvariable: BERUF_NE Berufstätig
Beispiel U-Test:
Zusammenhang Berufstätigkeit und
„Statistik ist langweilig“ (4er-Skala)
„Statistik ist nützlich“ (4er-Skala)
F3_3 STATISTIK
ist nützlich
BERUF_NE Berufstätig
berufstätig
nicht berufstätig
Gesamt
berufstätig
nicht berufstätig
Gesamt
N
93
69
162
93
69
162
Zusammenhang Berufstätigkeit
und Langeweile versus Nützlichkeit von Statistik
Vergleich: grobe Skala – feinere Skala
1 = trifft sehr zu
2 = trifft eher zu
3 = trifft eher nicht zu
4 = trifft gar nicht zu
Ränge
F3_2 STATISTIK
ist langweilig
Mittlerer Rang
82,46
80,21
Wer weiter
„vorne“ steht,
stimmt mehr zu
77,38
87,05
1 = trifft zu
2 = trifftRänge
nicht zu
Ränge
F3_2DI STATISTIK
ist langweilig
BERUF_NE Berufstätig
F3_2 STATISTIK
berufstätig
ist langweilig
nicht berufstätig
F3_3DI STATISTIK
ist nützlich
Gesamt
berufstätig
F3_3 STATISTIK
ist nützlich
nicht berufstätig
Gesamt
BERUF_NE
Berufstätig
N
Mittlerer
Rang
berufstätig
93
81,40
nicht 69
berufstätig 81,63
Gesamt
162
berufstätig
93
76,48
nicht 69
berufstätig 88,26
Gesamt
162
Statistik für Testa
Statistik für Testa
Z
Asymptotische
Signifikanz (2-seitig)
24
U-Test:
F3_2
STATISTIK ist
langweilig
-,320
F3_3
STATISTIK
ist nützlich
-1,434
,749
,152
a. Gruppenvariable: BERUF_NE Berufstätig
p unter
Voraussetzung
der Nullhypothese
> 0,05
Z
Asymptotische
Signifikanz (2-seitig)
23
1 = trifft zu
4 = trifft nicht zu
N
93
69
162
93
69
162
Mittlerer Rang
82,46
80,21
77,38
87,05
Statistik für Testa
F3_2DI
F3_3DI
STATISTIK ist STATISTIK
langweilig
ist nützlich
Z
-,036
-2,977
Asymptotische
,971
,003
Signifikanz (2-seitig)
F3_2
STATISTIK ist
langweilig
-,320
F3_3
STATISTIK
ist nützlich
-1,434
,749
,152
a. Gruppenvariable: BERUF_NE Berufstätig
a. Gruppenvariable: BERUF_NE Berufstätig
Wilcoxon-Test: Rechenbeispiel
Einschätzung der Nützlichkeit von Statistik vor und nach der LV
= Rangplatzvergleich bei einer ordinalen Variable vorher-nachher
Name
Studi
Wilcoxon-Test
Vergleich von Rangplatzdifferenzen
einer ordinalen Variable
bei zwei abhängigen Messungen
25
1
2
3
4
5
6
7
8
9
10
diff
vorher nachher
1
2
2
3
3
3
3
4
4
4
Huber
Nowak
Maier
Cemile
Spasic
Wallner
Wittels
Reiner
Oberh.
Unterh.
0
-1
+1
-2
-1
0
-2
-3
-1
0
1
1
3
1
2
3
1
1
3
4
„Statistik ist nützlich“
1 = trifft sehr zu
2 = trifft eher zu
3 = trifft eher nicht zu
4 = trifft gar nicht zu
gleichbleibend
verbessert sich
verschlechtert sich
26
28
Wilcoxon-Test: Rechenbeispiel
Wilcoxon-Test: Rechenbeispiel
Einschätzung der Nützlichkeit von Statistik vor und nach der LV
Abweichung zwischen verbundenen Rangplätzen
Einschätzung der Nützlichkeit von Statistik vor und nach der LV
Ränge
vorher nachher
1
2
3
4
5
6
7
1
3
4
2
3
4
2
3
3
4
1
3
4
1
2
3
3
1
1
1
Rangplatz
0
0
0
-1
-1
-1
+1
-2
-2
-3
2,5
2,5
2,5
2,5
5,5
5,5
7
„Statistik ist nützlich“
1 = trifft sehr zu
2 = trifft eher zu
3 = trifft eher nicht zu
4 = trifft gar nicht zu
NACHHER
- VORHER
Negative Ränge
Positive Ränge
Bindungen
Gesamt
a. NACHHER < VORHER
b. NACHHER > VORHER
c. NACHHER = VORHER
gleichbleibend
N
6a
1b
3c
10
Mittlerer
Rang
4,25
2,50
Rangsumme
25,50
2,50
verbessert sich
verschlechtert sich
gleichbleibend
Statistik für
verbessert sich
Mittlerer Rang = 4,25
Z
Asymptotische
Signifikanz (2-seitig)
verschlechtert sich
Mittlerer Rang = 2,5
27
Testb
NACHHER VORHER
-1,983a
,047
a. Basiert auf positiven Rängen.
b. Wilcoxon-Test
Rangplätze nach dem
Ausmaß der Veränderung
Wer den höheren
Rang hat, hat eine
stärkere Veränderung
WS von z = -1,983 unter
Voraussetzung der
Nullhypothese = 0,047
Nach der LV bewerten die
Studierenden Statistik signifikant
„nützlicher“ als vor der LV.
t-Test für unabhängige Stichproben:
Rechenbeispiel: Vergleich von zwei Gruppenmittelwerten
einer metrischen und „annähernd“ normalverteilten Variable
Unterscheidet sich die durchschnittliche Einschätzung der
Nützlichkeit von Statistik (11er-Skala) bei zwei Altersgruppen
(unter und über 21-Jährige)?
t-Test
H0: μ1 – μ2 = 0 oder μ1 = μ2
HA: μ1 – μ2 ≠ 0 oder μ1 ≠ μ2
Vergleich von zwei Gruppenmittelwerten einer
metrischen und normalverteilten Variable
t=
Das Prüfmaß t misst die
Abweichung zwischen
zwei Mittelwerten
x1 − x2
sx − x
1
2
29
Kolmogorov-Smirnov-Test:
30
t-Test für unabhängige Stichproben
Ist die zu testende Variable f4_3 normalverteilt?
Varianzen sind gleich (homogen)
H0: f4_3 = normalverteilt
HA: f4_3 ≠ normalverteilt
t=
Kolmogorov-Smirnov-Anpassungstest
f4_3 Statistik
NÜTZLICHKEITS
Ausmass
160
N
Signifikanter
Unterschied zur
Normalverteilung
Parameter der a,b
Normalverteilung
Mittelwert
Extremste Differenzen
Absolut
Standardabweichung
19,508
,191
,124
Negativ
-,191
Asymptotische Signifikanz (2-seitig)
a. Die zu testende Verteilung ist eine Normalverteilung.
b. Aus den Daten berechnet.
s 2p =
(n1 − 1) s12 + (n2 − 1) s12
(n1 − 1) + (n2 − 1)
Varianzen sind nicht gleich (heterogen)
76,75
Positiv
Kolmogorov-Smirnov-Z
x1 − x2
1 1
sp
+
n1 n2
t=
x1 − x2
s12 s22
+
n1 n2
oder
t=
x1 − x2
s x1 − x2
2,418
,000
31
In der Software werden meistens beide Varianten gerechnet,
vorher Test auf Gleichheit der Varianzen
32
t-Test für unabhängige Stichproben:
t-Test für unabhängige Stichproben:
Rechenbeispiel: Unterscheidet sich die durchschnittliche
Einschätzung der Nützlichkeit von Statistik (11er-Skala)
bei zwei Altersgruppen (unter und über 21-Jährige)?
Rechenbeispiel: Unterscheidet sich die durchschnittliche
Einschätzung der Nützlichkeit von Statistik (11er-Skala)
bei zwei Altersgruppen (unter und über 21-Jährige)?
Varianzen
sind gleich
Gruppenstatistiken
F4_3 Statistik
NÜTZLICHKEITS
Ausmass
ALTER
>= 21
< 21
N
71
86
Mittelwert
79,01
74,65
Standardab
weichung
18,060
20,677
Standardfe
hler des
Mittelwertes
2,143
2,230
H0: s2(A) = s2(B)
HA: s2(A) ≠ s2(B)
Kein signifikanter
Altersunterschied
H 0:
HA:
xA
xA
=
≠
xB
xB
Prüfmaß „t“
Test bei unabhängigen Stichproben
Levene-Test der
Varianzgleichheit
Die über 21-jährigen Studierenden (n=71) gaben dem
Nützlichkeitsausmaß durchschnittlich 79 Punkte (von 100 Punkten).
Die unter 21-jährigen Studierenden (n=86) bewerteten das
Nützlichkeitsausmaß der Statistik etwas geringer mit
durchschnittlich 75 Punkten.
F
f4_3 Statistik
Varianzen sind
NÜTZLICHKEIT gleich
S Ausmass
Varianzen sind
nicht gleich
33
,831
Sig
T
,363 1,393
T-Test für die Mittelwertgleichheit
95% Konfidenzintervall
der Differenz
Sig.
Mittlere
(2-seitig) Differenz
df
Untere
Obere
155
,166
4,363
-1,826
10,552
1,411 154,5
,160
4,363
-1,747
10,472
p(t) = 0,166
34
t-Test für abhängige Stichproben:
Vergleich von zwei „gepaarten“ Mittelwerten
einer metrischen und „annähernd“ normalverteilten Variable
Es gibt immer zwei Messwerte für einen Fall:
Jeder Messwert der einen Stichprobe ist einem Messwert der
anderen Stichprobe zugeordnet, man hat also Paare von Messwerten
t-Test bei gepaarten Messungen
(=bei abhängigen/verbundenen
Stichproben)
vorher – nachher:
Gewicht vor und nach der Diät,
Aggressionsbereitschaft vor und nach Film/Experiment
Schmerzintensität vor und nach einer Behandlung usw.
Mittelwertvergleich einer metrischen
und normalverteilten Variable
mit zwei abhängigen Messwerten
35
andere „Paare“: Messwert BefragteR und „gepaarte Person“
Jobzufriedenheit/Einkommen von Ehepartnern,
Berufsprestige von Befragten und Elternteil usw.
36
37
t-Test für abhängige Stichproben:
HA :d ≠ 0
t=
d i = xi1 − xi 2
d=
38
Beispiel: Unterscheidet sich die durchschnittliche Einschätzung
der Nützlichkeit von Statistik (11er-Skala) vor und nach der LV?
Beispiel: Unterscheidet sich die durchschnittliche Einschätzung
der Nützlichkeit von Statistik (11er-Skala) vor und nach der LV?
H0 : d = 0
t-Test für abhängige Stichproben:
Statistik bei gepaarten Stichproben
Das Prüfmaß „t“ misst die
Abweichung zwischen zwei
„gepaarten“ Mittelwerten
n
1
∑ di
n i =1
Mittelwert
Paaren
1
VOR Statistik
NÜTZLICHKEITS
Ausmass VORHER
NACH Statistik
NÜTZLICHKEITS
Ausmass NACHHER
N
Standardab
weichung
Standardfehler
des Mittelwertes
49,00
20
26,338
5,889
63,00
20
24,516
5,482
Durchschnittliche
Differenz der
beiden Messwerte
d
d
=
2
sd
∑ (d i − d ) 1
n
n −1
n
Vor der LV bewerteten die Studierenden das Nützlichkeitsausmaß
von Statistik mit durchschnittlich 49 Punkten, nach der LV mit
durchschnittlich 63 Punkten. Das Nützlichkeitsausmaß ist somit um
14 Punkte gestiegen.
t-Test für abhängige Stichproben:
39
Beispiel: Unterscheidet sich die durchschnittliche Einschätzung
der Nützlichkeit von Statistik (11er-Skala) vor und nach der LV?
Test bei gepaarten Stichproben
Gepaarte Differenzen
Standardab
Mittelwert
weichung
Paaren
1
Statistik NÜTZLICHKEITS Ausmass
VORHER - NACHHER
Die durchschnittliche Differenz
der Messwertpaare beträgt -14
Punkte. (vorher – nachher)
Signifikanter Unterschied der
Bewertung der Nützlichkeit von
Statistik zwischen der Messung
am Beginn und am Ende der LV
-14,00
13,917
T
df
-4,5
19
Sig.
(2-seitig)
,000
Prüfmaß „t“
Varianzanalyse
Multipler Mittelwertvergleich einer metrischen
und normalverteilten Variable
p(t) = 0,000
40
Varianzanalyse: Multipler Mittelwertvergleich:
Varianzanalyse: Multipler Mittelwertvergleich
Beispiel: Unterscheidet sich die durchschnittliche Einschätzung
der Nützlichkeit von Statistik (11er-Skala) nach dem Ausmaß von
Berufstätigkeit?
einer metrischen und normalverteilten Variable
Das Prüfmaß F misst das Verhältnis der
erklärten Varianz zur Fehlervarianz
F=
F=
Mit dem Ausmaß der
Berufstätigkeit nimmt die
durchschnittliche Bewertung der
Nützlichkeit leicht zu, und zwar
von durchschnittlich 75 Punkten
bei jenen, die noch nie berufstätig
waren auf durchschnittlich knapp
80 Punkten von jenen, die vollbzw. teilzeit berufstätig sind.
erklärte Varianz / df
Fehlervarianz / df
Streuung der GruppenMW um GesamtMW/df
H0: Varianzen sind homogen
HA: Varianzen sind heterogen
Nullhypothese gilt!
Streuung der Einzelwerte um GruppenMW/df
41
Beispiel: Unterscheidet sich die durchschnittliche Einschätzung
der Nützlichkeit von Statistik (11er-Skala) nach dem Ausmaß der
Berufstätigkeit?
F= 0,934
p(F) = 0,425
df = 3 weil 4 Gruppenmittelwerte
df = Anzahl Gruppen - 1
43
Es besteht kein signifikanter
Gruppenunterschied nach
Berufstätigkeit hinsichtlich
der Bewertung der
Nützlichkeit von Statistik.
df = 233 weil
236 Einzelwerte
df = n – Anz. Gruppen -1
Varianzzerlegung: Σ(yi-ỹt)2 = Σ(yi-ỹg)2+ Σ(yg-ỹt)2 · ng
100
(y-ỹt) = (y-ỹg) + (ỹg-ỹt)
80
60
Traditionelles Familienbild
Varianzanalyse: Multipler Mittelwertvergleich:
42
40
20
0
0
1
2
3
4
5
6
Schulabschluss
Cases weighted by GEWICHT
44
46
Varianzanalyse ANOVA: Beispiel aus der Praxis
t - Verteilung
Normalverteilung
Selbstwirksamkeit
1) Lösung schwieriger Probleme gelingt immer
2) in unerwarteten Situation weiß ich, wie ich mich verhalten soll
3) mit überraschenden Ereignissen komme ich gut zurecht
4) habe das Gefühl, in meiner Arbeit etwas Sinnvolles zu tun
45
45
df
df
bei unabh. Stpr. = n – 2
bei abh. Stpr. = n – 1
Festlegen des Annahme- und
Ablehnungsbereiches - Visualisierung
Wahrscheinlichste 95%
(95% = 100% - α)
f(t)
WS-Verteilungen
H0: t = t0 und HA: t ≠ t0
f(t): WS-Dichte von t unter
der Annahme von H0
…..ob t, ob F, ob z, ….. Bei genügend viel
Freiheitsgraden (df ∞ )
gehen alle diese WS-Verteilungen
in eine Normalverteilung über
2,5%
47
tu
t0
HA annehmen H0 beibehalten
t
to
2,5%
HA annehmen
48
49
F - Verteilung
χ2 –Verteilung
= quadrierte Normalverteilung
t - Verteilung
= quadrierte t- Verteilung
Bei genügend df (oder n) gehen alle
diese WS-Verteilungen in eine
Normalverteilung über
Normalverteilung
F - Verteilung
= quadrierte t- Verteilung
50
Frage 1: Wie ist das empirische Ergebnis
in meiner Stichprobe? (empirisch, messen)
Frage 2: Spricht dieses empirische Ergebnis
für Zufall oder für Gesetzmäßigkeit?
Übersicht über die wichtigsten
Signifikanz-Tests
Frage 2a: Wie wäre mein Ergebnis,
wenn es zufällig wäre? (theoretisch, berechnet)
Frage 2b: Wie stark unterscheidet sich
das empirische Ergebnis vom theoretischen Ergebnis
bei Zufall?
51
52
Wie sieht das technisch aus???
Definitionen
1. Ich wähle jenes Verfahren (Prüfmaß),
das für meine Testung geeignet ist.
1. Das Prüfmaß misst, wieweit das empirische
Ergebnis in der Stichprobe vom Zufall abweicht.
2. Die Signifikanz wird anhand der
Wahrscheinlichkeitsverteilung (Zufall) ermittelt:
Von 100% Wahrscheinlichkeit werden die
„letzten“ 5% abgeschnitten: ab dieser Grenze
ist das Prüfmaß so hoch, dass der Zufall sehr
unwahrscheinlich ist (p<= 0,05),
dann gilt die Gesetzmäßigkeit.
2. Ich ermittle die Wahrscheinlichkeitsverteilung
von diesem Prüfmaß, wenn der Zufall gilt.
3. Anhand dieser Wahrscheinlichkeitsverteilung
sehe ich nach, wie wahrscheinlich mein
erhaltenes Prüfmaß ist.
Wenn Zufall: PM ist klein, Zufall ist sehr wahrscheinlich.
Wenn Gesetzt: PM ist hoch, Zufall ist sehr unwahrscheinlich.
53
54
Signifikanzniveau =
Grenze, ab der von einer signifikanten
Prüfgröße gesprochen wird.
Signifikanz = WS für den Zufall
= „Irrtumswahrscheinlichkeit“
= α-Fehler = Fehler, den ich begehe,
wenn ich den Zusammenhang annehme.
Signifikanzniveau =
Konvention in Sozialwissenschaft = 5%
d.h. wenn WS der Prüfgröße zwischen 0 und 0,05,
dann besteht ein signifikanter Zusammenhang.
Signifikanz =
sehr niedrig
Zufall ist unwahrscheinlich
Gesetz ist wahrscheinlich.
= tolerierter α-Fehler =
maximal 5% Irrtumswahrscheinlichkeit
sehr hoch
Zufall ist wahrscheinlich
Gesetz ist unwahrscheinlich.
55
56
58
Datenniveau der abhängigen Variable
Metrisch
Nominal
(Kreuztabelle)
Ordinal
Histogramm
Kolmo.-Smirnov T.
ja
Parameterfreie Verfahren
Untersch. /
Gruppenvgl
.
Schiefe/Steilheit
Variable normalverteilt?
nein
Zusammenhänge
Parametrische Verfahren
Kontingenzkoeff.
ChiQuadrat
Test
Cramer‘s V
Zusammenhänge
Unterschiede / Gruppenvergleiche
Zusammenhänge
nein
Unterschiede /
Gruppenvergleiche
unabhängige Variable ordinal?
nein
2 Gruppen
ja
mehr als
2 Gruppen
ja
ja
ja
Pearson Korrelation
lineare Regression
ja
z.B:
Wilcoxon
-Test
z.B:
Kruskal
Wallis
Test
ja
z.B:
Friedman
Test
z.B:
MANOVA
ja
Varianzen homogen?
Levene Test
ja
nein
nein
t-Test bei
ungleichen
Varianzen
Varianzanalyse
ANOVA
Post Hoc Tests
Signifikanz ≠ Relevanz
Wenn H0 beibehalten wird:
Die Daten aus der Stichprobe bieten keine ausreichende Evidenz
um HA anzunehmen.
Wir gehen dann davon aus, dass in der GG kein Zusammenhang
/ keine „Gesetzmäßigkeit“ besteht, sondern das Ergebnis zufällig
zustande gekommen ist.
Wenn HA angenommen wird:
Die Daten aus der Stichprobe lassen mit einer festgelegten
(kleinen) Fehlerwahrscheinlichkeit den Schluss zu, dass H0
verworfen wird und HA angenommen wird.
Wir gehen dann davon aus, dass das Stichprobenergebnis mit
hoher Wahrscheinlichkeit nicht zufällig ist und postulieren eine
in der GG gültigen Gesetzmäßigkeit.
nein
t-Test bei
gepaarten
Stichproben
t-Test bei
gleichen
Varianzen
Interpretation der Entscheidung
Gruppen
unabhängig? nein
Varianzen homogen?
Levene Test
nein
nein
U-Test
mehr als
2
Gruppen
Gruppen
unabhängig?
nein
Zusammenhang linear?
Gruppen
unabhängig?
2 Gruppen
ja
Spearman
Korrelation
Gruppen
unabhängig?
unabhängige Variable metrisch?
Nicht alles, was statistisch signifikant ist, ist inhaltlich relevant
Je größer die Stichprobe, desto kleinere Testergebnisse sind
bereits signifikant.
In einer sehr großen Stichprobe wird jeder noch so kleine
Unterschied als statistisch signifikant gewertet.
Beispiel: im Mikrozensus (n = 70.000) wird die Wohnungsgröße
erhoben. Es könnte herauskommen, dass die durchschnittliche
Wohnungsgröße in den letzten 10 Jahren um 0,05m2 gestiegen
ist (statistisch signifikant wegen der hohen Fallzahlen),
diese Änderung ist aber völlig irrelevant.
59
60
HÜ für alle
Formulieren Sie zu
Ihrer pflegewissenschaftlichen Fragestellung
je eine Hypothese für einen:
1. Chi-Quadrat-Test
2. U-Test und Wilcoxon-Test
3. t-Test für unabhängige
4. t-Test für abhängige Stichproben.
61
Herunterladen