Klassifikation von Signifikanztests • nach Verteilungsannahmen: – verteilungsabhängige = parametrische Tests – verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen über die Verteilung gemacht (z.B. NV) und Hypothesen über Parameter dieser Verteilung getestet. Bei nichtparametrischen Tests wird dagegen keine spezielle Verteilung vorausgesetzt (aber gegebenenfalls Voraussetzungen wie: ”stetige Verteilung”) – i.a. weniger mächtig, d.h. Unterschiede werden seltener aufgedeckt (H0 seltener abgelehnt) aber: – schwächere Voraussetzungen im Modell (bei Ablehnung Aussage über Population zuverlässiger) • nach der Anzahl der Stichproben: eine, zwei, k Stichprobe(n), Einstichprobenprobleme, . . . Einstichprobenprobleme: – der einfache t-Test – der Gauß-Test 1 • Art der Erhebung der Stichproben (abhängig oder unabhängig): abhängige (gepaarte, verbundene) Stichprobe 2 (oder mehr) ZV X, Y über der Grundgesamtheit → n Versuche ω → (X, Y ) (X1, . . . , Xn), (Y1, . . . , Yn) verbundene Stichproben An jedem Objekt werden mehrere Merkmale untersucht. Beispiele: – Blutdruck von Patienten vor und nach einer Behandlung mit einem Medikament – Einkommen einer Person in den Jahren 1996, 2000, 2002 – Bildung und Einkommen einer Person Unabhängige Stichproben Zufallsvariablen X, Y über der Grundgesamtheit n1 + n2 Versuche; X1, . . . , Xn1 , Y1, . . . , Yn2 (X1, . . . , Xn1 ), (Y1, . . . , Yn2 ) unabhängige Stichproben An jedem Objekt nur ein Merkmal untersucht. Beispiele: – Blutdruck von Patienten aus zwei unterschiedlich behandelten Gruppen mit unterschiedlichen Personen – Einkommen von Männern, Einkommen von Frauen 2 Einstichprobenprobleme Gauß-Test Der einfache t-Test Der Binomialtest (Einstichprobenproblem, nichtparametrisch) Anliegen: A ein zufälliges Ereignis mit P (A) = p, p ∈ [0, 1], unbekannt. Überprüfung einer Hypothese über p anhand von n unabhängigen Versuchen Die mathematische Stichprobe (X1, X2, . . . , Xn) beschreibt, in welchen der n Versuche das Ereignis A eingetreten ist (vgl. Bernoulli-Schema). ( 1 , falls A eingetreten X = 0 , falls A nicht eingetreten 1. Hypothesen: H0 : p = p0 HA : p 6= p0 (bei zweiseitiger Fragestellung) 2. Testgröße: T = n X Xi = Hn(A) i=1 T ∼ B(n; p) binomialverteilt 3. H0 wird abgelehnt, wenn t < bα1 oder t > b1−α2 . bα1 , b1−α2 . . . Quantile der BV: B(n; p0) α = α1 + α2 . . . Signifikanzniveau. (In der Regel α1 = α2.) 3 Bemerkung zu großen n: Für große n sind die Quantile der BV ohne Computer kompliziert zu berechnen. gute Approximation durch die Normalverteilung; es gilt für Hn ∼ B(n; p) und große n (n > 30, n·p > 5, n·(1−p) > 5): Hn − n · p T = p n · p · (1 − p) ist näherungsweise N (0, 1)-verteilt, also für diese Testgröße das entsprechende kritische Gebiet des Gauß–Tests benutzen Vereinbarung: Wir werden den Binomialtest immer so durchführen: 1. Hypothese: H0 : p = p0 2. Testgröße: H n − n · p0 T = p n · p0 · (1 − p0) 3. Ablehnung von H0, falls bei zweiseitiger Alternative HA : p 6= p0 |t| > z1− α2 einseitiger Alternative HA : p < p0 t < −z1−α HA : p > p0 t > z1−α 4 Beispiel: ”Losverkäufer” Hypothesen H0 : p = 0, 1 HA : p < 0, 1 (einseitige Fragestellung) Testgröße: (zwei Gewinnlose) 2 − 100 · 0, 1 8 t = √ = − = −2, 67 < −1, 64 = −z0,95 3 100 · 0, 1 · 0, 9 Ablehnung von H0. Im Lostopf sind signifikant zu wenige Gewinnlose. Weitere Diskussion dieses Beispiels → Internet 5 Zweistichprobenprobleme Der χ2-Homogenitätstest Anliegen: Vergleich der Verteilungen zweier unabhängiger Stichproben für (kategoriale) Daten, nichtparametrischer Test Die Variablen X und Y nehmen jede nur r diskrete Werte an. Die zufälligen Häufigkeiten des Auftretens dieser Werte werden für beide Stichproben ermittelt und in folgende Tabelle eingetragen. Kategorie Stichprobe 1 (X) Stichprobe 2 (Y ) Σ 1 N11 N12 N1• 2 N21 N22 N2• ... ... ... ... r P Nr1 Nr2 Nr• N•1 N•2 N•• = N Hypothesen: H0 : pi1 = pi2, i = 1, . . . , r (Verteilungen sind identisch.) HA : pi1 6= pi2 für mindestens ein i Dabei ist: pi1 = P (X = xi), pi2 = P (Y = xi) 6 Testgröße: µ T = Nij 2 X r X j=1 i=1 Ni•N•j − n Ni•N•j n ¶2 H0 wird abgelehnt, wenn t > χ2r−1,1−α Bemerkungen: • Der konkrete Wert der Testgröße ist der χ2–Wert für die Stichprobe. • Stichprobenumfang n insgesamt sollte mindestens 60 betragen. • Die erwarteten Häufigkeiten davon sollten > 5 sein. 7 Ni•N•j sollten > 1 und 80% n Beispiel: ALLBUS, Einkommensquelle nach Geschlecht H0 bedeutet, die Einkommensquellen sind in beiden SP gleich verteilt, d.h. die %-Werte in jeder Zeile sind Schätzungen für die gleiche Wahrscheinlichkeit. Bemerkung: Interpretiert man die Zugehörigkeit zu einer der Stichproben (= Geschlecht) als ein beobachtetes Merkmal des Probanden, dann entspricht die obige Hypothese der Hypothese: ”Die Zufallsvariablen X (für Einkommensquelle) und Y (für Geschlecht) sind unabhängig.” Je nach Interpretation der Kontingenztafel testen wir also entweder, ob sich die verschiedenen Stichproben etwa gleich zusammensetzen (Homogenität) oder, ob die Einkommensquelle vom Geschlecht abhängt (Unabhängigkeit). 8 Der doppelte t-Test, parametrisch Anliegen: Überprüfung von Hypothesen über die Gleichheit der Erwartungswerte zweier unabhängiger normalverteilter ZV bei unbekannten, aber gleichen Varianzen (Varianzhomogenität), parametrischer Test Voraussetzungen: (X1, . . . , Xn), (Y1, . . . , Ym) unabhängige Stichproben 2 Xi ∼ N (µX , σX ), i = 1, . . . , n Yj ∼ N (µY , σY2 ), j = 1, . . . , m 2 σX = σY2 unbekannt Hypothesen: H0 : µX = µY HA : µX 6= µY 1) µX < µY 2) µX > µY 3) 2. Testgröße T =r X̄ − Ȳ 2 (n − 1)SX + (m − 1)SY2 n+m−2 Ablehnung von H0, falls |t| > tn+m−2, 1− α2 bei 1) t < −tn+m−2, 1−α bei 2) t > 1−α bei 3) tn+m−2, 9 r · nm n+m Beispiel: ALLBUS, monatliches Haushalts–Nettoeinkommen nach Geschlecht Vergleich der Erwartungswerte für die Zufallsvariablen X und Y , die das monatliche Haushaltsnettoeinkommen von Frauen bzw. Männern beschreiben. X und Y unabhängig, µX = EX, µY = EY X und Y seien normalverteilt, Varianzen sind unbekannt. α = 0, 05 Bemerkung: NV sicher keine gute Modellannahme, X̄ und Ȳ sind aber näherungsweise normalverteilt (ZGWS). H0 : µX = µY HA : µX < µ Y T = r X̄, Ȳ ”Durchschnitts-HH-Nettoeinkommen gleich” ”Männer verdienen mehr” X̄ − Ȳ 2 (n − 1)SX + (m − 1)SY2 n+m−2 r · nm n+m . . . arithmetisches Mittel der SP 2 SX , SY2 . . . empirische Varianz der SP n, m . . . Stichprobenumfang der SP X1, . . . , Xn, Y1, . . . , Ym 10 T = r X̄ − Ȳ 2 (n − 1)SX + (m − 1)SY2 n+m−2 r · nm n+m Wenn H0 richtig ist, dann gilt: T ist t-verteilt mit n + m − 2 = 1349 Freiheitsgraden. für die konkrete Stichprobe: t = r 2473, 08 − 2796, 34 749 · 1376, 2292 + 600 · 1359, 3362 750 + 601 − 2 r 750 · 601 750 + 601 = −4, 314 vergleiche mit: −t1349, 0.95 = −1.64 −4, 314 < −1.645 H0 wird abgelehnt und entschieden: ”Das Durchschnitts-HH-Nettoeinkommen von Männern ist signifikant höher als das von Frauen.” 11 Diskussion des Beispiels: α tα 0.000003 -4.55 * ↓ dα 340.95 Ablehnung von H0 nein 0.0000086 -4.314 323 0.0005 -3.29 246.53 ja 0.01 -2.33 174.60 ja 0.025 -1.86 139.38 ja 0.05 -1.64 122.89 ja *) dα . . . die Differenz der Mittelwerte, die (bei gleichem n, m, sX , sY !) genügt, um H0 abzulehnen. Der Wert 0.0000086 heißt p-Wert oder Signifikanz. Stichprobenumfänge n, m: einleuchtend: größere n und m erhöhen die Überzeugungskraft einer beobachteten Abweichung (α = 0.05, α = 0.01) d0.05 1 003 d0.01 1425 100 317 451 1 000 100 142 10 000 32 45 100 000 10 14 Wo beginnt es unsinnig zu 1 000 000 3 5 werden? Fast alle Gehalts- 10 000 000 1 1,43 angaben im Datensatz sind auf 20 000 000 0,71 1,00 volle 100DM-Beträge gerundet! n=m= 10 12