Teil 2 - Fakultät Informatik/Mathematik

Werbung
Klassifikation von Signifikanztests
• nach Verteilungsannahmen:
– verteilungsabhängige
= parametrische Tests
– verteilungsunabhängige = nichtparametrische Tests
Bei parametrischen Tests werden im Modell Voraussetzungen über die Verteilung gemacht (z.B. NV) und
Hypothesen über Parameter dieser Verteilung getestet.
Bei nichtparametrischen Tests wird dagegen keine
spezielle Verteilung vorausgesetzt (aber gegebenenfalls
Voraussetzungen wie: ”stetige Verteilung”)
– i.a. weniger mächtig, d.h. Unterschiede werden
seltener aufgedeckt (H0 seltener abgelehnt)
aber:
– schwächere Voraussetzungen im Modell
(bei Ablehnung Aussage über Population zuverlässiger)
• nach der Anzahl der Stichproben:
eine, zwei, k Stichprobe(n), Einstichprobenprobleme, . . .
Einstichprobenprobleme:
– der einfache t-Test
– der Gauß-Test
1
• Art der Erhebung der Stichproben (abhängig oder
unabhängig):
abhängige (gepaarte, verbundene) Stichprobe
2 (oder mehr) ZV X, Y über der Grundgesamtheit
→ n Versuche
ω → (X, Y )
(X1, . . . , Xn), (Y1, . . . , Yn) verbundene Stichproben
An jedem Objekt werden mehrere Merkmale untersucht.
Beispiele:
– Blutdruck von Patienten vor und nach einer Behandlung mit einem Medikament
– Einkommen einer Person in den Jahren 1996, 2000,
2002
– Bildung und Einkommen einer Person
Unabhängige Stichproben
Zufallsvariablen X, Y über der Grundgesamtheit
n1 + n2 Versuche;
X1, . . . , Xn1 , Y1, . . . , Yn2
(X1, . . . , Xn1 ), (Y1, . . . , Yn2 ) unabhängige Stichproben
An jedem Objekt nur ein Merkmal untersucht.
Beispiele:
– Blutdruck von Patienten aus zwei unterschiedlich
behandelten Gruppen mit unterschiedlichen Personen
– Einkommen von Männern, Einkommen von Frauen
2
Einstichprobenprobleme
Gauß-Test
Der einfache t-Test
Der Binomialtest (Einstichprobenproblem, nichtparametrisch)
Anliegen: A ein zufälliges Ereignis mit P (A) = p, p ∈ [0, 1],
unbekannt. Überprüfung einer Hypothese über p anhand von
n unabhängigen Versuchen
Die mathematische Stichprobe
(X1, X2, . . . , Xn)
beschreibt, in welchen der n Versuche das Ereignis A
eingetreten ist (vgl. Bernoulli-Schema).
(
1 , falls A eingetreten
X =
0 , falls A nicht eingetreten
1. Hypothesen: H0 : p = p0
HA : p 6= p0
(bei zweiseitiger Fragestellung)
2. Testgröße:
T =
n
X
Xi = Hn(A)
i=1
T ∼ B(n; p)
binomialverteilt
3. H0 wird abgelehnt, wenn t < bα1 oder t > b1−α2 .
bα1 , b1−α2 . . . Quantile der BV: B(n; p0)
α = α1 + α2 . . . Signifikanzniveau.
(In der Regel α1 = α2.)
3
Bemerkung zu großen n:
Für große n sind die Quantile der BV ohne Computer
kompliziert zu berechnen.
gute Approximation durch die Normalverteilung; es gilt für
Hn ∼ B(n; p) und große n (n > 30, n·p > 5, n·(1−p) > 5):
Hn − n · p
T = p
n · p · (1 − p)
ist näherungsweise N (0, 1)-verteilt, also für diese Testgröße das
entsprechende kritische Gebiet des Gauß–Tests benutzen
Vereinbarung: Wir werden den Binomialtest immer so
durchführen:
1. Hypothese:
H0 : p = p0
2. Testgröße:
H n − n · p0
T = p
n · p0 · (1 − p0)
3. Ablehnung von H0, falls bei
zweiseitiger Alternative
HA :
p 6= p0
|t| > z1− α2
einseitiger Alternative
HA :
p < p0
t < −z1−α
HA :
p > p0
t > z1−α
4
Beispiel: ”Losverkäufer”
Hypothesen H0 : p = 0, 1
HA : p < 0, 1 (einseitige Fragestellung)
Testgröße:
(zwei Gewinnlose)
2 − 100 · 0, 1
8
t = √
= − = −2, 67 < −1, 64 = −z0,95
3
100 · 0, 1 · 0, 9
Ablehnung von H0.
Im Lostopf sind signifikant zu wenige Gewinnlose.
Weitere Diskussion dieses Beispiels → Internet
5
Zweistichprobenprobleme
Der χ2-Homogenitätstest
Anliegen: Vergleich der Verteilungen zweier unabhängiger
Stichproben für (kategoriale) Daten, nichtparametrischer Test
Die Variablen X und Y nehmen jede nur r diskrete Werte
an. Die zufälligen Häufigkeiten des Auftretens dieser Werte
werden für beide Stichproben ermittelt und in folgende
Tabelle eingetragen.
Kategorie Stichprobe 1 (X) Stichprobe 2 (Y ) Σ
1
N11
N12
N1•
2
N21
N22
N2•
...
...
...
...
r
P
Nr1
Nr2
Nr•
N•1
N•2
N•• = N
Hypothesen:
H0 : pi1 = pi2, i = 1, . . . , r (Verteilungen sind identisch.)
HA : pi1 6= pi2 für mindestens ein i
Dabei ist:
pi1 = P (X = xi), pi2 = P (Y = xi)
6
Testgröße:
µ
T =
Nij
2 X
r
X
j=1 i=1
Ni•N•j
−
n
Ni•N•j
n
¶2
H0 wird abgelehnt, wenn
t > χ2r−1,1−α
Bemerkungen:
• Der konkrete Wert der Testgröße ist der χ2–Wert für die
Stichprobe.
• Stichprobenumfang n insgesamt sollte mindestens 60
betragen.
• Die erwarteten Häufigkeiten
davon sollten > 5 sein.
7
Ni•N•j
sollten > 1 und 80%
n
Beispiel: ALLBUS, Einkommensquelle nach Geschlecht
H0 bedeutet, die Einkommensquellen sind in beiden SP gleich
verteilt, d.h. die %-Werte in jeder Zeile sind Schätzungen für
die gleiche Wahrscheinlichkeit.
Bemerkung:
Interpretiert man die Zugehörigkeit zu einer der Stichproben
(= Geschlecht) als ein beobachtetes Merkmal des Probanden,
dann entspricht die obige Hypothese der Hypothese:
”Die Zufallsvariablen X (für Einkommensquelle) und Y (für
Geschlecht) sind unabhängig.”
Je nach Interpretation der Kontingenztafel testen wir also
entweder, ob sich die verschiedenen Stichproben etwa gleich
zusammensetzen (Homogenität) oder, ob die Einkommensquelle vom Geschlecht abhängt (Unabhängigkeit).
8
Der doppelte t-Test, parametrisch
Anliegen: Überprüfung von Hypothesen über die Gleichheit der
Erwartungswerte zweier unabhängiger normalverteilter ZV bei
unbekannten, aber gleichen Varianzen (Varianzhomogenität),
parametrischer Test
Voraussetzungen:
(X1, . . . , Xn), (Y1, . . . , Ym) unabhängige Stichproben
2
Xi ∼ N (µX , σX
),
i = 1, . . . , n
Yj ∼ N (µY , σY2 ),
j = 1, . . . , m
2
σX
= σY2 unbekannt
Hypothesen:
H0 : µX = µY
HA : µX 6= µY 1)
µX < µY 2)
µX > µY 3)
2. Testgröße
T =r
X̄ − Ȳ
2
(n − 1)SX
+ (m − 1)SY2
n+m−2
Ablehnung von H0, falls
|t| > tn+m−2, 1− α2
bei 1)
t < −tn+m−2,
1−α
bei 2)
t >
1−α
bei 3)
tn+m−2,
9
r
·
nm
n+m
Beispiel: ALLBUS, monatliches Haushalts–Nettoeinkommen
nach Geschlecht
Vergleich der Erwartungswerte für die Zufallsvariablen X und
Y , die das monatliche Haushaltsnettoeinkommen von
Frauen bzw. Männern beschreiben.
X und Y unabhängig, µX = EX, µY = EY
X und Y seien normalverteilt, Varianzen sind unbekannt.
α = 0, 05
Bemerkung: NV sicher keine gute Modellannahme,
X̄ und Ȳ sind aber näherungsweise normalverteilt (ZGWS).
H0 :
µX = µY
HA :
µX < µ Y
T = r
X̄, Ȳ
”Durchschnitts-HH-Nettoeinkommen gleich”
”Männer verdienen mehr”
X̄ − Ȳ
2
(n − 1)SX
+ (m − 1)SY2
n+m−2
r
·
nm
n+m
. . . arithmetisches Mittel der SP
2
SX
, SY2 . . . empirische Varianz der SP
n, m
. . . Stichprobenumfang der SP X1, . . . , Xn, Y1, . . . , Ym
10
T = r
X̄ − Ȳ
2
(n − 1)SX
+ (m − 1)SY2
n+m−2
r
·
nm
n+m
Wenn H0 richtig ist, dann gilt:
T ist t-verteilt mit n + m − 2 = 1349 Freiheitsgraden.
für die konkrete Stichprobe:
t = r
2473, 08 − 2796, 34
749 · 1376, 2292 + 600 · 1359, 3362
750 + 601 − 2
r
750 · 601
750 + 601
= −4, 314
vergleiche mit:
−t1349, 0.95 = −1.64
−4, 314 < −1.645
H0 wird abgelehnt und entschieden:
”Das Durchschnitts-HH-Nettoeinkommen von Männern ist
signifikant höher als das von Frauen.”
11
Diskussion des
Beispiels:
α
tα
0.000003
-4.55
*
↓
dα
340.95
Ablehnung von
H0
nein
0.0000086
-4.314
323
0.0005
-3.29
246.53
ja
0.01
-2.33
174.60
ja
0.025
-1.86
139.38
ja
0.05
-1.64
122.89
ja
*) dα . . . die Differenz der Mittelwerte, die (bei gleichem
n, m, sX , sY !) genügt, um H0 abzulehnen.
Der Wert 0.0000086 heißt p-Wert oder Signifikanz.
Stichprobenumfänge n, m:
einleuchtend: größere n und m erhöhen die Überzeugungskraft
einer beobachteten Abweichung (α = 0.05, α = 0.01)
d0.05
1 003
d0.01
1425
100
317
451
1 000
100
142
10 000
32
45
100 000
10
14 Wo beginnt es unsinnig zu
1 000 000
3
5 werden? Fast alle Gehalts-
10 000 000
1
1,43 angaben im Datensatz sind auf
20 000 000
0,71
1,00 volle 100DM-Beträge gerundet!
n=m=
10
12
Herunterladen