Zweistichprobenprobleme Grafische Methoden zur Beurteilung von Verteilungsunterschieden: – Gestapelte Balkendiagramme – Box–Whisker–Plots – Histogramme – Populationspyramiden – ... 1 Wesentlich ist die Feststellung, ob unabhängige oder abhängige (verbundene) Stichproben vorliegen. Beispiele für unabhängige Stichproben: – Einkommensunterschiede von Männern und Frauen – Behandlungserfolg in zwei unterschiedlich behandelten, sich nicht überschneidenden Patientengruppen (→ PC–Praktikum) 2 Doppelter t–Test (t–Test bei unabhängigen Stichproben) Anliegen: Parametrischer Test zur Überprüfung von Hypothesen über die Gleichheit/Ungleichheit der Erwarungswerte µX und µY zweier unabhängiger, normalverteilter Zufallsvariablen X und Y bei unbekannten, aber gleichen Varianzen (Varianzhomogenität). Voraussetzungen: (X1 , . . . , Xn ), (Y1 , . . . , Ym ) unabhängige Stichproben aus normalverteilten Grundgesamtheiten (oder mit hinreichend großen Stichprobenumfängen n und m (n, m > 30)) und unbekannten, gleichen Varianzen σX2 = σY2 . 3 Hypothesen: H0 : µX = µY HA : µX 6= µY (1) HA : µX < µY (2) HA : µX > µY (3) Testgröße: T =s X −Y (n − 1)SX2 + (m − 1)SY2 n+m−2 r · nm n+m Unter H0 ist T (näherungsweise) t–verteilt mit n + m − 2 Freiheitsgraden. 4 p–Wert: p = P (|T | ≥ |t|) bei (1) p = P (T ≤ t) bei (2) p = P (T ≥ t) bei (3) Entscheidungsregel: Ablehnung von H0 , falls p ≤ α. 5 Bemerkungen: Die Verteilungsvoraussetzungen können mit Hilfe von Anpassungstests und die Annahme gleicher Varianzen mit Hilfe des Levene–Tests überprüft werden. SPSS berechnet bei Durchführung eines doppelten t–Tests (T–Test bei unabhängigen Stichproben) den Levene–Test automatisch mit. Bei Ablehnung der Hypothese gleicher Varianzen kommen korrigierte Varianten zur Berechnung der Überschreitungswahrscheinlichkeiten zu Einsatz (gebrochene Freiheitsgrade, Behrends–Fischer–Problem). 6 U–Test (Rangsummentest, Mann–Whitney–Test oder Wilcoxon–Test) Anliegen: Parameterfreier Test zur Überprüfung der Hypothese, dass zwei unabhängige Zufallsvariable X und Y die gleiche Verteilung besitzen. Voraussetzungen: (X1 , X2 , . . . , Xm ) und (Y1 , Y2 , . . . , Yn ) sind unabhängige Stichproben. Die Verteilungsfunktionen FX und FY sind stetig. Hypothesen: H0 : FX = FY HA : FX (x) = FY (x − c), c 6= 0 (zweiseitige Lagealternative) 7 Testgröße: Wir fassen beide Stichproben zu einer gepoolten Stichprobe (X1 , . . . , Xm , Y1 , . . . , Yn ) zusammen und bilden die Ränge Rg(X1 ), . . . , Rg(Xm ), Rg(Y1 ), . . . , Rg(Yn ) in dieser Stichprobe. Als Testgröße wird oftmals die Summe der Ränge R= m X Rg(Xi ) i=1 oder m(m + n + 1) R− 2 T = s mn(m + n + 1) 12 verwendet. Unter H0 ist die exakte Verteilung der Testgrößen bekannt; für große n, m sind es näherungsweise Normalverteilungen. 8 p–Wert: p = P (|T | ≥ |t|) Entscheidungsregel: Ablehnung von H0 , falls p ≤ α. 9 Bemerkungen: – Nichtparam. Verallgemeinerung des doppelten t–Tests. – Analog zum doppelten t–Test lassen sich auch einseitige Alternativhypothesen behandeln. – Getestet wird die Durchmischung der beiden Stichproben. Mittlere Rangzahl in beiden Stichproben etwa gleich? – Testgröße für größere n, m nur aufwendig berechenbar. – HA lässt sich auch allgemeiner fassen (”Dominanzwkt” P (X ≥ Y ) 6= 1/2) und P (X ≥ Y ) lässt sich schätzen – Es genügt ordinales Skalenniveau und Stetigkeit der Verteilungen. – Problem gleiche Werte (Bindungen, ties) → Literatur. 10 Kolmogorov–Smirnov–Test für zwei (unabhängige) Stichproben Analog zum Kolmogorov–Smirnov–Test (Anpassungstest) für eine Stichprobe kann ein Homogenitätstest für zwei Stichproben auf der Basis des Abstandes der empirischen Verteilungsfunktionen konstruiert werden. Dieser nichtparametrische Test ist in SPSS verfügbar. 11 χ2 –Homogenitätstest [test of homogeneity] Anliegen: Vergleich der Verteilungen zweier unabhängiger Stichproben für kategoriale Daten (ggf. Klassierung verwenden) Voraussetzungen: Die Merkmale X und Y nehmen beide nur r Werte aj an. Die zufälligen Häufigkeiten des Auftretens dieser Werte werden für beide Stichproben ermittelt und in eine Kreuztabelle eingetragen. 12 Kategorie Stichprobe 1 (X) Stichprobe 2 (Y ) P 1 H11 H12 H1• 2 H21 H22 H2• ... ... ... ... r Hr1 Hr2 Hr• P H•1 = m H•2 = n H•• = m + n 13 Hypothesen: H0 : P (X = aj ) = P (Y = aj ) für alle j = 1, . . . , r. HA : P (X = aj ) 6= P (Y = aj ) für mindestens ein j. d.h.: H0 : Verteilungen sind identisch. HA : Verteilungen sind verschieden. Testgröße: T = (m + n) · 2 X r X j=1 i=1 Hij Hi• H•j − m+n Hi• H•j 2 Unter H0 ist T asymptotisch, d.h. für ”gut besetzte” Kreuztabellen (siehe unten) näherungsweise, χ2 –verteilt. 14 p–Wert: p = P (T ≥ t) Entscheidungsregel: Ablehnung von H0 , falls p ≤ α. Bemerkungen: – Verallgemeinerung des χ2 –Anpassungstests für eine Stichprobe. – Testgröße entspricht dem Wert χ2 als beschreibender Statistik (Abhängigkeitsmaß) für eine Kontingenztafel. – Stichprobenumfang m + n insgesamt sollte mindestens 60 betragen. 15 hi• h•j – Die erwarteten Häufigkeiten sollten > 1 und 80% n davon sollten > 5 sein. – Stetig verteilte Merkmale evtl. durch Klassenbildung (Vergröberung) behandeln. – Der Test kann zur Überprüfung der Gleichheit zweier Wahrscheinlichkeiten (Unabhängigkeit zweier dichotomer Merkmale) eingesetzt werden. Die entstehende Kreuztabelle ist dann eine Vierfeldertafel. Bei kleineren Stichprobenumfängen sollte dafür der exakte Test von Fisher (→ Literatur) verwendet werden, der in SPSS verfügbar ist und ggf. automatisch angeboten wird. 16 Beispiel: ALLBUS – Berufstätigkeit nach Geschlecht. Wir betrachten die Nullhypothese, dass die Berufstätigkeit in beiden Stichproben (für Männer und Frauen) gleich verteilt ist, d.h. die Prozentsätze der Arten der Berufstätigkeit für beide Geschlechter sind Schätzungen für jeweils die gleichen Wahrscheinlichkeiten. 17 Interpretiert man die Zugehörigkeit zu einer der Stichproben (Geschlechtszugehörigkeit) als ein beobachtetes zufälliges Merkmal des Probanden, dann entspricht die obige Hypothese der Hypothese: Die Zufallsvariablen X (für Einkommensquelle) und Y (für ” Geschlecht) sind unabhängig.“ Je nach der Art der Stichprobenerhebung für die Kontingenztafel testen wir also entweder, ob die verschiedenen Stichproben etwa gleich verteilt sind (Homogenität) oder ob die Einkommensquelle vom Geschlecht unabhängig ist (Unabhängigkeit). Der Test wird dann als χ2 –Unabhängigkeitstest [test of independence] bezeichnet. In SPSS werden χ2 –Tests direkt unter Kreuztabellen angeboten. 18 Beispiele für abhängige (verbundene) Stichproben: [matched pair sample] – Blutdruck von PatientInnen am Anfang und am Ende einer Behandlung → PC–Praktikum – Gehalt am Beginn und nach einem Jahr der Berufstätigkeit – Panelstudien 19 Bemerkung: Sind die beiden untersuchten abhängigen Merkmale intervallskaliert, so kann man zur Untersuchung der Differenzen dieser Merkmale – z.B. Anfangswert minus Endwert – übergehen. Der Hypothese Im Verlauf der Untersuchung hat sich keine Veränderung ” ergeben.“ entspricht dann die Hypothese Die Differenzen sind im Mittel Null.“ ” Diese Hypothese kann dann mit Testverfahren für Einstichprobenprobleme behandelt werden. 20 Beispiel: Systolischer Blutdruck von Patienten vor und nach einer Behandlung: Nr. Anfang Ende Differenz di 1 170 170 0 2 170 110 60 3 170 140 30 4 170 185 -15 5 160 120 40 6 170 160 10 7 170 145 25 8 170 170 0 9 170 145 25 10 180 140 40 d¯ = 26.88 sD = 22.35 21 Sind die Differenzen Di = Xi − Yi normalverteilt (oder ist der Umfang der Stichprobe groß genug), so kann die Hypothese H0 : µD = 0 gegen HA : µD > 0 (!einseitig) mit Hilfe des einfachen t–Tests geprüft werden. Als Testgröße verwendet man also D−0√ n T = SD Für dieses Beispiel gilt 26.88 √ t= 10 = 2.99 22.35 und p = P (T ≥ 2.99) = 12 × 0.015. Damit resultiert bei Wahl des Signifikanzniveaus α = 0.05 die Ablehnung von H0 . Die Behandlung hat auf diesem Niveau eine signifikante Wirkung. 22 Vorzeichentest [sign test] Anliegen: Parameterfreier Test zur Überprüfung der Hypothese, dass die verbundenen Stichproben (X1 , X2 , . . . , Xn ) und (Y1 , Y2 , ..., Yn ) die gleiche Verteilung besitzen. Voraussetzungen: Die Verteilungsfunktionen FX und FY seien stetig. Hypothesen: H0 : FX = FY HA : FX 6= FY (!zweiseitig) 23 Testgröße: Anzahl der positiven Differenzen Xi − Yi p–Werte und Entscheidungsregel wie beim Binomial–Test mit p0 = 1/2. Bemerkungen: – Im Fall xi = yi (Bindung [tie]) wird der betreffende Fall aus der Liste gestrichen und der Stichprobenumfang entsprechend reduziert. – Der Test verwendet nur die Information über die Anzahlen der Vorzeichen ( + oder – ) der Differenzen. 24 Beispiel (siehe oben): Es treten 7 positive, 1 negative Differenz und 2 Bindungen auf. Der korrigierte Stichprobenumfang ist also 8. Die Überschreitungswahrscheinlichkeit ist gleich der Wahrscheinlichkeit, dass eine binomialverteilte Zufallsvariable mit den Parametern p = 0.5 und n = 8 Werte größer oder gleich 7 oder Werte kleiner oder gleich 1 annimmt (zweiseitige Alternativhypothese). Diese Wahrscheinlichkeit ist gleich 0.07. Die Nullhypothese wird also zum Signifikanzniveau α = 0.05 bei Verwendung der zweiseitigen Alternative durch den Vorzeichentest nicht abgelehnt. 25 Vorzeichenrangtest [signed-rank test] (Wilcoxon–Test für die Paardifferenzen) Dieser Test verwendet als Information die Vorzeichen und die ”Größe” der Differenzen in Form von Rängen für die absoluten Beträge. Er erweist sich damit als trennschärfer als der Vorzeichentest. 26