Signifikanztests = Hypothesenprüfung Hypothese = Wenn – dann - Beziehung Kapitel 6: Signifikanztests Besteht ein Zusammenhang zwischen Variable X und Variable Y? „Die widerspenstige Zähmung des Zufalls“ unabhängige Variable Rauchen Ein Lustspiel in mehreren Akten Geschlecht Heute: 3. Akt oder: Gewalterfahrung Der Regenbogen der Signifikanztests hat Einfluß auf hat Einfluß auf hat Einfluß auf hat Einfluß auf abhängige Variable Lungenkrebs Konsumgewohnheiten Einstiegsalter Heroin 2 1 Aufstellen von Hypothesen Nullhypothese: H0 Unser Ausgangspunkt ist ZUFALL = Nullhypothese Hypothese zur Unabhängigkeit „Es besteht kein Zusammenhang zwischen Rauchen und Lungenkrebs“ oder: Theoretisch gehen wir davon aus, dass es keine Gesetzmäßigkeit gibt. „Unabhängig von den Rauchgewohnheiten bekommen die untersuchten Männer gleich häufig Lungenkrebs.“ Alternativhypothese: H1 Prüfmaß: Wir messen Abweichung vom tatsächlichem Ergebnis zum „erwarteten Ergebnis“ (=Zufall) Hypothese zur Abhängigkeit „Es besteht ein Zusammenhang zwischen Rauchen und Lungenkrebs“ oder: „Ob die untersuchten Männer Lungenkrebs bekommen, ist abhängig davon, ob sie Raucher oder Nichtraucher sind.“ Wir bestimmen WS von diesem Prüfmaß anhand dessen Zufalls-WS-Verteilung 3 4 Signifikanztests = Hypothesenprüfung Wann muß die Nullhypothese beibehalten und der Zusammenhang/H1 verworfen werden? Logik Chi-Quadrat Wenn das Prüfmaß wahrscheinlicher als 5%. (Irrtums-WS ≥ 0,05) Ergebnis ist mit mehr als 95%iger Sicherheit zufällig = Messen der Abweichung von tatsächlichen zu erwarteten Häufigkeiten = Messen der Abweichung zum Zufall/Unabhängigkeit Wann darf die Ho verworfen und ein Zusammenhang/H1 angenommen werden? Wenn das Prüfmaß unwahrscheinlicher als 5%. (Irrtums-WS < 0,05) Ergebnis ist mit weniger als 5%igem Risiko nicht zufällig. 5 = Abweichung = (χ2) = Prüfmaß Bestimmen von theoretischer WS vom Prüfmaß unter der Voraussetzung des Zufalls/Unabhängigkeit 6 8 Signifikanztests = Hypothesenprüfung Logik bei ALLEN Signifikanztests = Messen der Abweichung der Stichprobe zum Zufall/Unabhängigkeit = Abweichung = Prüfmaß Bestimmen von theoretischer WS vom Prüfmaß unter der Voraussetzung des Zufalls/Unabhängigkeit ….wenn der Zufall beim errechneten Ergebnis…. = eher wahrscheinlich ist (p > 0,05) Zufall/Unabhängigkeit gilt = eher unwahrscheinlich ist (p <= 0,05) Zusammenhang gilt 7 Prüfmaß Verfahren Chi-Quadrat χ2 misst Abweichung tatsächliche und erwartete Häufigkeiten M-Withney-U-Test z misst Differenz von mittleren Rängen Wilcoxon – Test z misst Differenz von verbundenen Rängen t - Test t misst Differenz von zwei Mittelwerten t - Test t misst durchschnittliche Differenz von zwei gepaarten Messwerten Varianzanalyse F misst Verhältnis erklärte Varianz zu Fehlervarianz Kolmogorov-Smirnov z misst Abweichung einer tatsächlichen Verteilung zur Normalverteilung für verbundene Ränge für gepaarte Variablen und viele andere……….. 9 Prüfmaß Nullhypothese Chi-Quadrat χ2 tatsächliche = erwartete Häufigkeiten M-Withney-U-Test z Differenz der mittleren Ränge = 0 Wilcoxon – Test z Differenz der verbundenen Ränge = 0 für verbundene Ränge t - Test t - Test für gepaarte Variablen 10 Prüfmaß Datenqualität Chi-Quadrat χ2 Nominal, ordinal M-Withney-U-Test z Ordinal bzw. Metrisch und nicht normalverteilt Wilcoxon – Test z Ordinal bzw. Metrisch und nicht normalverteilt t - Test t Verteilung der Testvariable in beiden Vergleichsgruppen metrisch und normalverteilt t - Test t Testvariablen metrisch und Verteilung der Differenzvariable ist normalverteilt für verbundene Ränge t Differenz von zwei Mittelwerten = 0 t Die durchschnittliche Differenz der zwei gepaarten Messwerte = 0 für gepaarte Variablen Varianzanalyse F erklärte Varianz ≤ Fehlervarianz Varianzanalyse F Gruppenvariable: nominal, ordinal Abhängige Variable: Metrisch und normalverteilt und: homogene Varianzen in den Untergruppen Kolmogorov-Smirnov z empirische Verteilung = Normalverteilung Kolmogorov-Smirnov z ab ordinal und viele andere……….. Prüfmaß Chi-Quadrat Chi-Quadrat-Test χ2 Häufigkeitsvergleich bei allen Arten von Kreuztabellen nominal - ordinal = Σ ( f o – fe ) 2 fe Abweichung zwischen tatsächlichen und erwarteten Häufigkeiten 11 12 Beispiel Chi-Quadrat: Zusammenhang Berufstätigkeit und Einstellung „Statistik ist langweilig“ Berufstätige und nicht berufstätige Studierende bewerten Statistik gleichermaßen als „langweilig“. Beispiel Chi-Quadrat: Zusammenhang Berufstätigkeit und Einstellung „Statistik ist nützlich“ Kreuztabelle Kreuztabelle BERUF_NE Berufstätig berufstätig Anzahl % von BERUF_NE Anzahl % von BERUF_NE Anzahl % von BERUF_NE Kreuztabelle nicht berufstätig Gesamt BERUF_NE Berufstätig χ2 = berufstätig nicht berufstätig Gesamt F3_2DI STATISTIK ist langweilig trifft zu trifft nicht zu 38 55 40,9% 59,1% 28 41 40,6% 59,4% 66 96 40,7% 59,3% F3_2DI STATISTIK ist langweilig trifft zu trifft nicht zu 38 55 37,9 55,1 28 41 28,1 40,9 66 96 66,0 96,0 Gesamt 93 100,0% 69 100,0% 162 100,0% BERUF_NE Berufstätig (χ2) berufstätig Gesamt Gesamt 93 93,0 69 69,0 162 162,0 BERUF_NE Berufstätig Gesamt 13 bis 25 J. 26-35 J. ab 36 J. Gesamt Anzahl % von SSEX Anzahl % von SSEX Anzahl % von SSEX Anzahl % von SSEX χ2 = 4,785 Geschlecht Geschlecht Geschlecht Geschlecht F3_3DI STATISTIK ist nützlich trifft zu trifft nicht zu 89 4 95,7% 4,3% 56 13 81,2% 18,8% 145 17 89,5% 10,5% F3_3DI STATISTIK ist nützlich trifft zu trifft nicht zu 89 4 83,2 9,8 56 13 61,8 7,2 145 17 145,0 17,0 Gesamt 93 100,0% 69 100,0% 162 100,0% Gesamt 93 93,0 69 69,0 162 162,0 8,915 p(χ ) = 0,003 Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl 2 14 Die Altersgruppen unterscheiden sich signifikant nach Geschlecht. SAL_K Alter * SSEX Geschlecht Kreuztabelle SAL_K Alter χ2 = berufstätig nicht berufstätig Die Altersgruppen unterscheiden sich deutlich nach Geschlecht. SSEX Geschlecht männlich weiblich 8 11 22,2% 50,0% 18 7 50,0% 31,8% 10 4 27,8% 18,2% 36 22 100,0% 100,0% Anzahl % von BERUF_NE Anzahl % von BERUF_NE Anzahl % von BERUF_NE Kreuztabelle nicht berufstätig 0,001 p = 0,971 Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl Anzahl Erwartete Anzahl Berufstätige bewerten Statistik signifikant häufiger als „nützlich“ als nicht berufstätige Studierende. SAL_K Alter * SSEX Geschlecht Kreuztabelle Gesamt 19 32,8% 25 43,1% 14 24,1% 58 100,0% SAL_K Alter bis 25 J. 26-35 J. ab 36 J. Gesamt p(χ ) = 0,091 2 15 Anzahl % von SSEX Anzahl % von SSEX Anzahl % von SSEX Anzahl % von SSEX χ2 = 9,569 Geschlecht Geschlecht Geschlecht Geschlecht SSEX Geschlecht männlich weiblich 16 22 22,2% 50,0% 36 14 50,0% 31,8% 20 8 27,8% 18,2% 72 44 100,0% 100,0% Gesamt 38 32,8% 50 43,1% 28 24,1% 116 100,0% p(χ ) = 0,008 2 16 U-Test: Rechenbeispiel Zusammenhang Geschlecht und Lebenszufriedenheit Rangplatzvergleich bei zwei Gruppen bei einer ordinalen Variable U-Test 1 2 3 4 5 6 7 8 9 10 Rangplatzvergleich bei zwei Gruppen bei einer ordinalen Variable Prüfmaß z z= z= 1 1 1 1 1 1 2 2 3 3 4 R −R 1 2 ( m + n )²( m + n + 1) 12 mn Prüfmaß z, Abweichung zwischen zwei mittleren Rängen Rangplätze bilden: Ränge LZ Lebenszufriedenheit GESCH Geschlecht männlich weiblich Gesamt 1 = zufrieden 2 = eher zufrieden 3 = eher unzufrieden 4 = sehr unzufrieden Abweichung zwischen zwei mittleren Rängen (R1 und R2) 19 LZ 1 2 2 3 3 3 4 4 4 4 Zusammenhang Geschlecht und Lebenszufriedenheit 2 ( m + n )²( m + n +1 + 1) 12 mn 1 2 3 4 5 6 7 8 9 10 Name Frauen Trixi Babsi Josefine Alberta Huberta Siegline Conny Pamela Uschi Susi 18 U-Test: R −R LZ 1 = zufrieden 4 = unzufrieden 17 Mann-Withney-U-Test Name Männer Hubsi Josef Max Bertl Sepp Ali Heinz Werner Lothar Willi 1 2 3 4 5 6 7 8 9 10 N 10 10 20 Männer 1 1 1 1 1 2 2 3 3 4 Mittlerer Rang 7,85 13,15 Frauen 1 2 2 3 3 3 4 4 4 4 sex LZ Rangplatz 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 m m m m m w m m w w m m w w w m w w w w 1 1 1 1 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 4 3,5 3,5 3,5 3,5 3,5 3,5 8,5 8,5 8,5 8,5 13 13 13 13 13 18 18 18 18 18 20 U-Test: 21 Zusammenhang Geschlecht und Lebenszufriedenheit Beispiel U-Test: Ränge LZ Lebenszufriedenheit GESCH Geschlecht männlich weiblich Gesamt Mittlerer Rang 7,85 13,15 N 10 10 20 Männer mittlerer Rang = 7,85 Summe Rangplätze / m (m =10) Männer sind signifikant zufriedener mit ihrem Leben als Frauen. Testb LZ Lebenszufriedenheit -2,070 ,038 Z Asymptotische Signifikanz (2-seitig) Wer weiter „vorne“ steht, hat den niedrigeren Messwert Zusammenhang Berufstätigkeit und „Statistik ist langweilig“ (dichotom) „Statistik ist nützlich“ (dichotom) dichotom – vergleiche Chi2-Test! Ränge F3_2DI STATISTIK ist langweilig Frauen mittlerer Rang = 13,15 Summe Rangplätze / n (n =10) Statistik für 1 = sehr zufrieden 4 = sehr unzufrieden 1 = trifft zu 2 = trifft nicht zu F3_3DI STATISTIK ist nützlich BERUF_NE Berufstätig berufstätig nicht berufstätig Gesamt berufstätig nicht berufstätig Gesamt N 93 69 162 93 69 162 Mittlerer Rang 81,40 81,63 76,48 88,26 Statistik für Testa WS von z (= -2,070) unter Voraussetzung der Nullhypothese = 0,038 b. Gruppenvariable: GESCH Geschlecht Z Asymptotische Signifikanz (2-seitig) F3_2DI STATISTIK ist langweilig -,036 F3_3DI STATISTIK ist nützlich -2,977 ,971 ,003 p für z (= -2,977) unter Voraussetzung der Nullhypothese = 0,003 22 a. Gruppenvariable: BERUF_NE Berufstätig Beispiel U-Test: Zusammenhang Berufstätigkeit und „Statistik ist langweilig“ (4er-Skala) „Statistik ist nützlich“ (4er-Skala) F3_3 STATISTIK ist nützlich BERUF_NE Berufstätig berufstätig nicht berufstätig Gesamt berufstätig nicht berufstätig Gesamt N 93 69 162 93 69 162 Zusammenhang Berufstätigkeit und Langeweile versus Nützlichkeit von Statistik Vergleich: grobe Skala – feinere Skala 1 = trifft sehr zu 2 = trifft eher zu 3 = trifft eher nicht zu 4 = trifft gar nicht zu Ränge F3_2 STATISTIK ist langweilig Mittlerer Rang 82,46 80,21 Wer weiter „vorne“ steht, stimmt mehr zu 77,38 87,05 1 = trifft zu 2 = trifftRänge nicht zu Ränge F3_2DI STATISTIK ist langweilig BERUF_NE Berufstätig F3_2 STATISTIK berufstätig ist langweilig nicht berufstätig F3_3DI STATISTIK ist nützlich Gesamt berufstätig F3_3 STATISTIK ist nützlich nicht berufstätig Gesamt BERUF_NE Berufstätig N Mittlerer Rang berufstätig 93 81,40 nicht 69 berufstätig 81,63 Gesamt 162 berufstätig 93 76,48 nicht 69 berufstätig 88,26 Gesamt 162 Statistik für Testa Statistik für Testa Z Asymptotische Signifikanz (2-seitig) 24 U-Test: F3_2 STATISTIK ist langweilig -,320 F3_3 STATISTIK ist nützlich -1,434 ,749 ,152 a. Gruppenvariable: BERUF_NE Berufstätig p unter Voraussetzung der Nullhypothese > 0,05 Z Asymptotische Signifikanz (2-seitig) 23 1 = trifft zu 4 = trifft nicht zu N 93 69 162 93 69 162 Mittlerer Rang 82,46 80,21 77,38 87,05 Statistik für Testa F3_2DI F3_3DI STATISTIK ist STATISTIK langweilig ist nützlich Z -,036 -2,977 Asymptotische ,971 ,003 Signifikanz (2-seitig) F3_2 STATISTIK ist langweilig -,320 F3_3 STATISTIK ist nützlich -1,434 ,749 ,152 a. Gruppenvariable: BERUF_NE Berufstätig a. Gruppenvariable: BERUF_NE Berufstätig Wilcoxon-Test: Rechenbeispiel Einschätzung der Nützlichkeit von Statistik vor und nach der LV = Rangplatzvergleich bei einer ordinalen Variable vorher-nachher Name Studi Wilcoxon-Test Vergleich von Rangplatzdifferenzen einer ordinalen Variable bei zwei abhängigen Messungen 25 1 2 3 4 5 6 7 8 9 10 diff vorher nachher 1 2 2 3 3 3 3 4 4 4 Huber Nowak Maier Cemile Spasic Wallner Wittels Reiner Oberh. Unterh. 0 -1 +1 -2 -1 0 -2 -3 -1 0 1 1 3 1 2 3 1 1 3 4 „Statistik ist nützlich“ 1 = trifft sehr zu 2 = trifft eher zu 3 = trifft eher nicht zu 4 = trifft gar nicht zu gleichbleibend verbessert sich verschlechtert sich 26 28 Wilcoxon-Test: Rechenbeispiel Wilcoxon-Test: Rechenbeispiel Einschätzung der Nützlichkeit von Statistik vor und nach der LV Abweichung zwischen verbundenen Rangplätzen Einschätzung der Nützlichkeit von Statistik vor und nach der LV Ränge vorher nachher 1 2 3 4 5 6 7 1 3 4 2 3 4 2 3 3 4 1 3 4 1 2 3 3 1 1 1 Rangplatz 0 0 0 -1 -1 -1 +1 -2 -2 -3 2,5 2,5 2,5 2,5 5,5 5,5 7 „Statistik ist nützlich“ 1 = trifft sehr zu 2 = trifft eher zu 3 = trifft eher nicht zu 4 = trifft gar nicht zu NACHHER - VORHER Negative Ränge Positive Ränge Bindungen Gesamt a. NACHHER < VORHER b. NACHHER > VORHER c. NACHHER = VORHER gleichbleibend N 6a 1b 3c 10 Mittlerer Rang 4,25 2,50 Rangsumme 25,50 2,50 verbessert sich verschlechtert sich gleichbleibend Statistik für verbessert sich Mittlerer Rang = 4,25 Z Asymptotische Signifikanz (2-seitig) verschlechtert sich Mittlerer Rang = 2,5 27 Testb NACHHER VORHER -1,983a ,047 a. Basiert auf positiven Rängen. b. Wilcoxon-Test Rangplätze nach dem Ausmaß der Veränderung Wer den höheren Rang hat, hat eine stärkere Veränderung WS von z = -1,983 unter Voraussetzung der Nullhypothese = 0,047 Nach der LV bewerten die Studierenden Statistik signifikant „nützlicher“ als vor der LV. t-Test für unabhängige Stichproben: Rechenbeispiel: Vergleich von zwei Gruppenmittelwerten einer metrischen und „annähernd“ normalverteilten Variable Unterscheidet sich die durchschnittliche Einschätzung der Nützlichkeit von Statistik (11er-Skala) bei zwei Altersgruppen (unter und über 21-Jährige)? t-Test H0: μ1 – μ2 = 0 oder μ1 = μ2 HA: μ1 – μ2 ≠ 0 oder μ1 ≠ μ2 Vergleich von zwei Gruppenmittelwerten einer metrischen und normalverteilten Variable t= Das Prüfmaß t misst die Abweichung zwischen zwei Mittelwerten x1 − x2 sx − x 1 2 29 Kolmogorov-Smirnov-Test: 30 t-Test für unabhängige Stichproben Ist die zu testende Variable f4_3 normalverteilt? Varianzen sind gleich (homogen) H0: f4_3 = normalverteilt HA: f4_3 ≠ normalverteilt t= Kolmogorov-Smirnov-Anpassungstest f4_3 Statistik NÜTZLICHKEITS Ausmass 160 N Signifikanter Unterschied zur Normalverteilung Parameter der a,b Normalverteilung Mittelwert Extremste Differenzen Absolut Standardabweichung 19,508 ,191 ,124 Negativ -,191 Asymptotische Signifikanz (2-seitig) a. Die zu testende Verteilung ist eine Normalverteilung. b. Aus den Daten berechnet. s 2p = (n1 − 1) s12 + (n2 − 1) s12 (n1 − 1) + (n2 − 1) Varianzen sind nicht gleich (heterogen) 76,75 Positiv Kolmogorov-Smirnov-Z x1 − x2 1 1 sp + n1 n2 t= x1 − x2 s12 s22 + n1 n2 oder t= x1 − x2 s x1 − x2 2,418 ,000 31 In der Software werden meistens beide Varianten gerechnet, vorher Test auf Gleichheit der Varianzen 32 t-Test für unabhängige Stichproben: t-Test für unabhängige Stichproben: Rechenbeispiel: Unterscheidet sich die durchschnittliche Einschätzung der Nützlichkeit von Statistik (11er-Skala) bei zwei Altersgruppen (unter und über 21-Jährige)? Rechenbeispiel: Unterscheidet sich die durchschnittliche Einschätzung der Nützlichkeit von Statistik (11er-Skala) bei zwei Altersgruppen (unter und über 21-Jährige)? Varianzen sind gleich Gruppenstatistiken F4_3 Statistik NÜTZLICHKEITS Ausmass ALTER >= 21 < 21 N 71 86 Mittelwert 79,01 74,65 Standardab weichung 18,060 20,677 Standardfe hler des Mittelwertes 2,143 2,230 H0: s2(A) = s2(B) HA: s2(A) ≠ s2(B) Kein signifikanter Altersunterschied H 0: HA: xA xA = ≠ xB xB Prüfmaß „t“ Test bei unabhängigen Stichproben Levene-Test der Varianzgleichheit Die über 21-jährigen Studierenden (n=71) gaben dem Nützlichkeitsausmaß durchschnittlich 79 Punkte (von 100 Punkten). Die unter 21-jährigen Studierenden (n=86) bewerteten das Nützlichkeitsausmaß der Statistik etwas geringer mit durchschnittlich 75 Punkten. F f4_3 Statistik Varianzen sind NÜTZLICHKEIT gleich S Ausmass Varianzen sind nicht gleich 33 ,831 Sig T ,363 1,393 T-Test für die Mittelwertgleichheit 95% Konfidenzintervall der Differenz Sig. Mittlere (2-seitig) Differenz df Untere Obere 155 ,166 4,363 -1,826 10,552 1,411 154,5 ,160 4,363 -1,747 10,472 p(t) = 0,166 34 t-Test für abhängige Stichproben: Vergleich von zwei „gepaarten“ Mittelwerten einer metrischen und „annähernd“ normalverteilten Variable Es gibt immer zwei Messwerte für einen Fall: Jeder Messwert der einen Stichprobe ist einem Messwert der anderen Stichprobe zugeordnet, man hat also Paare von Messwerten t-Test bei gepaarten Messungen (=bei abhängigen/verbundenen Stichproben) vorher – nachher: Gewicht vor und nach der Diät, Aggressionsbereitschaft vor und nach Film/Experiment Schmerzintensität vor und nach einer Behandlung usw. Mittelwertvergleich einer metrischen und normalverteilten Variable mit zwei abhängigen Messwerten 35 andere „Paare“: Messwert BefragteR und „gepaarte Person“ Jobzufriedenheit/Einkommen von Ehepartnern, Berufsprestige von Befragten und Elternteil usw. 36 37 t-Test für abhängige Stichproben: HA :d ≠ 0 t= d i = xi1 − xi 2 d= 38 Beispiel: Unterscheidet sich die durchschnittliche Einschätzung der Nützlichkeit von Statistik (11er-Skala) vor und nach der LV? Beispiel: Unterscheidet sich die durchschnittliche Einschätzung der Nützlichkeit von Statistik (11er-Skala) vor und nach der LV? H0 : d = 0 t-Test für abhängige Stichproben: Statistik bei gepaarten Stichproben Das Prüfmaß „t“ misst die Abweichung zwischen zwei „gepaarten“ Mittelwerten n 1 ∑ di n i =1 Mittelwert Paaren 1 VOR Statistik NÜTZLICHKEITS Ausmass VORHER NACH Statistik NÜTZLICHKEITS Ausmass NACHHER N Standardab weichung Standardfehler des Mittelwertes 49,00 20 26,338 5,889 63,00 20 24,516 5,482 Durchschnittliche Differenz der beiden Messwerte d d = 2 sd ∑ (d i − d ) 1 n n −1 n Vor der LV bewerteten die Studierenden das Nützlichkeitsausmaß von Statistik mit durchschnittlich 49 Punkten, nach der LV mit durchschnittlich 63 Punkten. Das Nützlichkeitsausmaß ist somit um 14 Punkte gestiegen. t-Test für abhängige Stichproben: 39 Beispiel: Unterscheidet sich die durchschnittliche Einschätzung der Nützlichkeit von Statistik (11er-Skala) vor und nach der LV? Test bei gepaarten Stichproben Gepaarte Differenzen Standardab Mittelwert weichung Paaren 1 Statistik NÜTZLICHKEITS Ausmass VORHER - NACHHER Die durchschnittliche Differenz der Messwertpaare beträgt -14 Punkte. (vorher – nachher) Signifikanter Unterschied der Bewertung der Nützlichkeit von Statistik zwischen der Messung am Beginn und am Ende der LV -14,00 13,917 T df -4,5 19 Sig. (2-seitig) ,000 Prüfmaß „t“ Varianzanalyse Multipler Mittelwertvergleich einer metrischen und normalverteilten Variable p(t) = 0,000 40 Varianzanalyse: Multipler Mittelwertvergleich: Varianzanalyse: Multipler Mittelwertvergleich Beispiel: Unterscheidet sich die durchschnittliche Einschätzung der Nützlichkeit von Statistik (11er-Skala) nach dem Ausmaß von Berufstätigkeit? einer metrischen und normalverteilten Variable Das Prüfmaß F misst das Verhältnis der erklärten Varianz zur Fehlervarianz F= F= Mit dem Ausmaß der Berufstätigkeit nimmt die durchschnittliche Bewertung der Nützlichkeit leicht zu, und zwar von durchschnittlich 75 Punkten bei jenen, die noch nie berufstätig waren auf durchschnittlich knapp 80 Punkten von jenen, die vollbzw. teilzeit berufstätig sind. erklärte Varianz / df Fehlervarianz / df Streuung der GruppenMW um GesamtMW/df H0: Varianzen sind homogen HA: Varianzen sind heterogen Nullhypothese gilt! Streuung der Einzelwerte um GruppenMW/df 41 Beispiel: Unterscheidet sich die durchschnittliche Einschätzung der Nützlichkeit von Statistik (11er-Skala) nach dem Ausmaß der Berufstätigkeit? F= 0,934 p(F) = 0,425 df = 3 weil 4 Gruppenmittelwerte df = Anzahl Gruppen - 1 43 Es besteht kein signifikanter Gruppenunterschied nach Berufstätigkeit hinsichtlich der Bewertung der Nützlichkeit von Statistik. df = 233 weil 236 Einzelwerte df = n – Anz. Gruppen -1 Varianzzerlegung: Σ(yi-ỹt)2 = Σ(yi-ỹg)2+ Σ(yg-ỹt)2 · ng 100 (y-ỹt) = (y-ỹg) + (ỹg-ỹt) 80 60 Traditionelles Familienbild Varianzanalyse: Multipler Mittelwertvergleich: 42 40 20 0 0 1 2 3 4 5 6 Schulabschluss Cases weighted by GEWICHT 44 46 Varianzanalyse ANOVA: Beispiel aus der Praxis t - Verteilung Normalverteilung Selbstwirksamkeit 1) Lösung schwieriger Probleme gelingt immer 2) in unerwarteten Situation weiß ich, wie ich mich verhalten soll 3) mit überraschenden Ereignissen komme ich gut zurecht 4) habe das Gefühl, in meiner Arbeit etwas Sinnvolles zu tun 45 45 df df bei unabh. Stpr. = n – 2 bei abh. Stpr. = n – 1 Festlegen des Annahme- und Ablehnungsbereiches - Visualisierung Wahrscheinlichste 95% (95% = 100% - α) f(t) WS-Verteilungen H0: t = t0 und HA: t ≠ t0 f(t): WS-Dichte von t unter der Annahme von H0 …..ob t, ob F, ob z, ….. Bei genügend viel Freiheitsgraden (df ∞ ) gehen alle diese WS-Verteilungen in eine Normalverteilung über 2,5% 47 tu t0 HA annehmen H0 beibehalten t to 2,5% HA annehmen 48 49 F - Verteilung χ2 –Verteilung = quadrierte Normalverteilung t - Verteilung = quadrierte t- Verteilung Bei genügend df (oder n) gehen alle diese WS-Verteilungen in eine Normalverteilung über Normalverteilung F - Verteilung = quadrierte t- Verteilung 50 Frage 1: Wie ist das empirische Ergebnis in meiner Stichprobe? (empirisch, messen) Frage 2: Spricht dieses empirische Ergebnis für Zufall oder für Gesetzmäßigkeit? Übersicht über die wichtigsten Signifikanz-Tests Frage 2a: Wie wäre mein Ergebnis, wenn es zufällig wäre? (theoretisch, berechnet) Frage 2b: Wie stark unterscheidet sich das empirische Ergebnis vom theoretischen Ergebnis bei Zufall? 51 52 Wie sieht das technisch aus??? Definitionen 1. Ich wähle jenes Verfahren (Prüfmaß), das für meine Testung geeignet ist. 1. Das Prüfmaß misst, wieweit das empirische Ergebnis in der Stichprobe vom Zufall abweicht. 2. Die Signifikanz wird anhand der Wahrscheinlichkeitsverteilung (Zufall) ermittelt: Von 100% Wahrscheinlichkeit werden die „letzten“ 5% abgeschnitten: ab dieser Grenze ist das Prüfmaß so hoch, dass der Zufall sehr unwahrscheinlich ist (p<= 0,05), dann gilt die Gesetzmäßigkeit. 2. Ich ermittle die Wahrscheinlichkeitsverteilung von diesem Prüfmaß, wenn der Zufall gilt. 3. Anhand dieser Wahrscheinlichkeitsverteilung sehe ich nach, wie wahrscheinlich mein erhaltenes Prüfmaß ist. Wenn Zufall: PM ist klein, Zufall ist sehr wahrscheinlich. Wenn Gesetzt: PM ist hoch, Zufall ist sehr unwahrscheinlich. 53 54 Signifikanzniveau = Grenze, ab der von einer signifikanten Prüfgröße gesprochen wird. Signifikanz = WS für den Zufall = „Irrtumswahrscheinlichkeit“ = α-Fehler = Fehler, den ich begehe, wenn ich den Zusammenhang annehme. Signifikanzniveau = Konvention in Sozialwissenschaft = 5% d.h. wenn WS der Prüfgröße zwischen 0 und 0,05, dann besteht ein signifikanter Zusammenhang. Signifikanz = sehr niedrig Zufall ist unwahrscheinlich Gesetz ist wahrscheinlich. = tolerierter α-Fehler = maximal 5% Irrtumswahrscheinlichkeit sehr hoch Zufall ist wahrscheinlich Gesetz ist unwahrscheinlich. 55 56 58 Datenniveau der abhängigen Variable Metrisch Nominal (Kreuztabelle) Ordinal Histogramm Kolmo.-Smirnov T. ja Parameterfreie Verfahren Untersch. / Gruppenvgl . Schiefe/Steilheit Variable normalverteilt? nein Zusammenhänge Parametrische Verfahren Kontingenzkoeff. ChiQuadrat Test Cramer‘s V Zusammenhänge Unterschiede / Gruppenvergleiche Zusammenhänge nein Unterschiede / Gruppenvergleiche unabhängige Variable ordinal? nein 2 Gruppen ja mehr als 2 Gruppen ja ja ja Pearson Korrelation lineare Regression ja z.B: Wilcoxon -Test z.B: Kruskal Wallis Test ja z.B: Friedman Test z.B: MANOVA ja Varianzen homogen? Levene Test ja nein nein t-Test bei ungleichen Varianzen Varianzanalyse ANOVA Post Hoc Tests Signifikanz ≠ Relevanz Wenn H0 beibehalten wird: Die Daten aus der Stichprobe bieten keine ausreichende Evidenz um HA anzunehmen. Wir gehen dann davon aus, dass in der GG kein Zusammenhang / keine „Gesetzmäßigkeit“ besteht, sondern das Ergebnis zufällig zustande gekommen ist. Wenn HA angenommen wird: Die Daten aus der Stichprobe lassen mit einer festgelegten (kleinen) Fehlerwahrscheinlichkeit den Schluss zu, dass H0 verworfen wird und HA angenommen wird. Wir gehen dann davon aus, dass das Stichprobenergebnis mit hoher Wahrscheinlichkeit nicht zufällig ist und postulieren eine in der GG gültigen Gesetzmäßigkeit. nein t-Test bei gepaarten Stichproben t-Test bei gleichen Varianzen Interpretation der Entscheidung Gruppen unabhängig? nein Varianzen homogen? Levene Test nein nein U-Test mehr als 2 Gruppen Gruppen unabhängig? nein Zusammenhang linear? Gruppen unabhängig? 2 Gruppen ja Spearman Korrelation Gruppen unabhängig? unabhängige Variable metrisch? Nicht alles, was statistisch signifikant ist, ist inhaltlich relevant Je größer die Stichprobe, desto kleinere Testergebnisse sind bereits signifikant. In einer sehr großen Stichprobe wird jeder noch so kleine Unterschied als statistisch signifikant gewertet. Beispiel: im Mikrozensus (n = 70.000) wird die Wohnungsgröße erhoben. Es könnte herauskommen, dass die durchschnittliche Wohnungsgröße in den letzten 10 Jahren um 0,05m2 gestiegen ist (statistisch signifikant wegen der hohen Fallzahlen), diese Änderung ist aber völlig irrelevant. 59 60 HÜ für alle Formulieren Sie zu Ihrer pflegewissenschaftlichen Fragestellung je eine Hypothese für einen: 1. Chi-Quadrat-Test 2. U-Test und Wilcoxon-Test 3. t-Test für unabhängige 4. t-Test für abhängige Stichproben. 61