Nicht-parametrische Statistik Eine kleine Einführung Überblick • Anwendung nicht-parametrischer Statistik • Behandelte Tests – Mann-Whitney U Test – Kolmogorov-Smirnov Test – Wilcoxon Test – Binomialtest – Chi-squared Test – Kruskal-Wallis Test Anwendung nicht-parametrischer Statistik • kleine Stichproben (bei Experimenten häufig zwischen n=6 und n=30) • keine Annahmen über die Verteilung der Daten in der Grundgesamtheit • ordinalskalierte und kategoriale Variablen können einfach ausgewertet werden • Methoden ähnlich der Medizin, Biologie Mann-Whitney U-test Test, ob Daten aus zwei statistisch unabhängigen Stichproben (X und Y) aus derselben Grundgesamtheit (hinsichtlich des Mittelwertes) stammen. H0: keine Mittelwertsunterschiede H1: Mittelwerte unterscheiden sich: X ≠ Y (zweiseitiger Test) (Einseitiger Test wäre X > Y oder X < Y.) Mann-Whitney U-test: Ein Beispiel Ultimatum-Spiel mit VWlern vs. Nicht-VWLer: Angebote der VWLer 2 4 1 0.5 Angebote der Nicht-VWLer 3 2.5 5 5 0.5 Bringe die Beobachtungen in eine aufsteigende Reihenfolge und ordne aufsteigend Ränge zu offer 0.5 0.5 1 2 2.5 3 4 5 5 group V V V V NV NV V NV NV rank 1.5 3 4 5 6 7 8.5 8.5 1.5 U-test: Ein Beispiel – Fortsetzung offer 0.5 0.5 1 2 2.5 3 4 5 5 group V V V V NV NV V NV NV rank 1.5 3 4 5 6 7 8.5 8.5 1.5 Summiere die Ränge der kleineren Gruppe zu W (Testgröße) Im Beispiel: W(N) = 28 [maximaler Wert wäre W(N) = 30] p = 0.063 (zweiseitig) (siehe Table J aus Siegel/Castellan) p = 0.048 (zweiseitig) (aus STATA) Approximation durch Normalverteilung von W(N) für große n STATA: ranksum offer, by(study) Kolmogorov-Smirnov-Test Test, ob Daten aus zwei statistisch unabhängigen Stichproben (X und Y) aus derselben Grundgesamtheit (hinsichtlich der Verteilung der Beobachtungen, Mittelwert, Schiefe …) stammen. H0: Verteilungsgleichheit H1: Verteilungen sind signifikant unterschiedlich (zweiseitiger Test) Kolmogorov-Smirnov-Test: Ein Beispiel Ultimatum-Spiel mit VWLern vs. Nicht-VWLer: Angebote der VWLer 2 Angebote der Nicht-VWLer 3 4 1 0.5 2.5 5 5 0.5 Bestimme die kumulierten Häufigkeiten der Beobachtungen. offer 0.5 1 2 2.5 3 4 5 VWL 40% 60% 80% 80% 80% 100% 100% 0% 0% 25% 50% 50% 100% N-VWL 0% Kolmogorov-Smirnov-Test – Fortsetzung offer 0.5 1 2 2.5 3 4 5 VWL 40% 60% 80% 80% 80% 100% 100% N-VWL 0% 0% 0% 25% 50% 50% 100% Sn(X) - Sm(X) 40% 60% 80% 55% 30% 50% 0% Suche die größte (absolute) Differenz zwischen den kumulierten Häufigkeiten und bilde folgende Größen: Dm,n = max |Sn(X) - Sm(X)|, wobei m(n) die Anzahl der Beobachtungen in beiden Stichproben ist und Sm(X) = K/m, wobei K die Anzahl der Beobachtungen ist, die kleiner oder gleich X sind. Kolmogorov-Smirnov-Test – Fortsetzung offer 0.5 1 2 2.5 3 4 5 VWL 40% 60% 80% 80% 80% 100% 100% N-VWL 0% 0% 0% 25% 50% 50% 100% Sn(X) - Sm(X) 40% 60% 80% 55% 30% 50% 0% Die Testgröße ist dann: m*n* Dm,n = 5*4*0.8 = 16 p = 0.10 (zweiseitig) (siehe Table LII aus Siegel/Castellan) p = 0.116 (zweiseitig) (aus STATA) Approximation durch die χ² Verteilung für große n (mit df=2) STATA: ksmirnov offer, by(study) Möglichkeit gegen eine theoretische Verteilung zu testen Wilcoxon-Signed-Ranks Test Test, ob zwischen zwei statistisch abhängigen Beobachtungen (X1 und X2) Unterschiede bestehen H0: keine Unterschiede (X1 = X2) H1: Beobachtungen unterscheiden sich: X1 ≠ X2 (zweiseitiger Test) (Einseitiger Test wäre X1 > X2 oder X1 < X2.) Wilcoxon Test: Ein Beispiel Wiederholtes Ultimatum-Spiel Subjekt 1 2 3 4 5 6 7 8 9 Runde 1 0.5 0.5 1 2 2.5 3 4 5 5 Runde 2 1.5 1.5 1 1.5 1 1 1 2 2.5 Bilde die Differenz zwischen den gepaarten Beobachtungen und ordne Ränge nach absoluter Differenz (versehen mit dem Vorzeichen der Differenz zu) Subjekt 1 2 3 4 5 6 7 8 9 Runde 1 0.5 0.5 1 2 2.5 3 4 5 5 Runde 2 1.5 1.5 1 1.5 1 1 1 2 2.5 Differenz 1 1 0 -0.5 -1.5 -2 -3 -3 -2.5 Rang +2.5 +2.5 drop -1 -4 -5 -7.5 -7.5 -6 Wilcoxon Test: Ein Beispiel – Fortsetzung Subjekt 1 2 3 4 5 6 7 8 9 Runde 1 0.5 0.5 1 2 2.5 3 4 5 5 Runde 2 1.5 1.5 1 1.5 1 1 1 2 2.5 Differenz 1 1 0 -0.5 -1.5 -2 -3 -3 -2.5 Rang +2.5 +2.5 drop -1 -4 -5 -7.5 -7.5 -6 T+ = Summe der Ränge mit positivem Vorzeichen (T+ = 5) T- = Summe der Ränge mit negativem Vorzeichen (T- = 31) p = 0.078 (zweiseitig mit N=8 (!), siehe Table H aus S/C) p = 0.0745 (aus STATA) Approximation durch Normalverteilung für große n STATA: signrank offer = offer[_n+1] Sign-Test als Alternative (auch gegen feste Werte) Binomial-Test Zwei Merkmalsausprägungen [X=1 oder X=0] (z.B. Kopf oder Zahl bei Münze; Budgetüber- oder – unterschreitung) Wahrscheinlichkeit für X=1: p Wahrscheinlichkeit für X=0: q = 1 – p H0: p = p0 H1: p ≠ p0 Test, ob die Verteilung der Merkmalsausprägungen aus einer Grundgesamtheit mit p = p0 stammen kann Binomial-Test: Ein Beispiel Münzwurf: Eine Münze werde 10 mal geworfen Wurf 1 2 3 4 5 6 7 8 9 10 Ergebnis K Z K K K K Z K K K X 0 1 0 0 0 0 1 0 0 0 Wahrscheinlichkeiten: p = q = 0.5 Y=ΣX=2 Wahrscheinlichkeit, dass Y einen bestimmten Wert annimmt: ⎛ N ⎞ k N −k P[Y = k ] = ⎜ ⎟ p q ⎝k⎠ wobei ⎛N⎞ N! ⎜ ⎟= ⎝ k ⎠ k!( N − k )! Binomial-Test: Ein Beispiel - Fortsetzung Wahrscheinlichkeit, dass Y=2 ⎛10 ⎞ 2 8 10! 2 8 9 *10 P[Y = 2] = ⎜ ⎟ p q = 0.5 0.5 = 0.510 = 0.043 2! 8! 2 ⎝2⎠ Beim Binomialtest interessiert die kumulierte Wahrscheinlichkeit, dass Y ≤ r oder Y ≥ s ⎛ N ⎞ i N −i P[Y ≤ k ] = ∑ ⎜ ⎟ p q i =0 ⎝ i ⎠ k P[Y ≤ 2] = P[Y = 0] + P[Y = 1] + P[Y = 2] = ⎛ N ⎞ i N −i = ∑ ⎜ ⎟p q = 0.055 i =0 ⎝ i ⎠ 2 (siehe Table D) Binomial-Test: Ein anderes Beispiel Weichen Budgetvoranschlag und Budgetrealisierung für Forschung und Wissenschaft systematisch voneinander ab? Nein (16 Überschreitungen in den letzten 28 Jahren). U n te rs c h ie d V o ra n s c h la g / Za h lu n g e n (+ Ü b e rs c h re itu n g ) B ild u n g s s e k to r 12.00% 10.00% 8.00% 6.00% 4.00% 2.00% 0.00% -2 . 0 0 % 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 -4 . 0 0 % -6 . 0 0 % -8 . 0 0 % Jahr F o rs c h u n g u n d W is s e n s c h a ft Chi-squared-test (χ²-test) Test, ob Unterschiede in Verteilungen in zwei oder mehreren Kategorien existieren (Mindestanzahl an Beobachtungen pro Zelle ca. 5). Test möglich für den Vergleich zweier Beoabchtung und dem Vergleich zu einer theoretischen Verteilung. Einfachste Anwendung: 2x2-Tabellen. A B Teststatistik (mit Kontinuitätskorrektur): C D χ² = N{|AD – BC| - N/2}² / {(A+B)(C+D)(A+C)(B+D)} Reject, if χ² > 3.84 (p < 0.05). Chi-squared-test (χ²-test) - Beispiel # offers unter 5 # offers über 5 VWLer 8 14 Nicht-VWLer 13 12 χ² = N{|AD – BC| - N/2}² / {(A+B)(C+D)(A+C)(B+D)} = 0.61 Nicht ablehnen, da χ² < 3.84 (p < 0.05) Möglichkeit der Erweiterung auf r x k Beobachtungen Kruskal-Wallis Test Test, ob Daten aus k statistisch unabhängigen Stichproben (X, Y, Z, …) aus derselben Grundgesamtheit stammen. Teststatistik H wird über die Varianzen gebildet und folgt einer χ² Verteilung mit df = k-1 H0 = mehrere Stichproben sind aus derselben Grundgesamtheit H1 = Stichproben aus unterschiedlichen Grundgesamtheiten STATA: kwallis offer, by(age) Übersicht der behandelten Tests One sample Two samples N samples Abhängige Unabhängige Unabhängige Beobachtungen Beobachtungen Beobachtungen Nominale oder kategoriale Daten Binomial Test χ²-test (r x 2) χ²-test (r x k) Ordinale Daten Kolmogorov- Sign test Smirnov Wilcoxon signed (oneranks test sample) Mann-Whitney U test KolmogorovSmirnov (twosample) Kruskal-Wallis test