Statistisches Testen

Werbung
Statistisches Testen
Grundlegendes Prinzip
Erwartungswert
Bekannte Varianz
Unbekannte Varianz
Differenzen
Anteilswert
Chi-Quadrat Tests
Gleichheit von Varianzen
Prinzip des Statistischen Tests
Konfidenzintervall diente dazu, um Bereich
festzulegen in dem ein Schätzer mit einer gewissen
Wahrscheinlichkeit liegt.
Testverfahren dienen dazu, um eine Entscheidung
zu treffen. Typischerweise wählt man zwischen
einer Nullhypothese H0 und einer Alternative H1, die
beide präzise festgelegt werden müssen.
Es kann zu zwei Fehlentscheidungen kommen:
H0 ist richtig, man entscheidet sich jedoch für H1.
H1 ist richtig, man entscheidet sich jedoch für H0.
Allgemeines zum Testprinzip:
Fehler erster und zweiter Art
Testentscheidung
H0
H1
tatsächlich gilt
H0
H1
1-α
β
α
1-β
Fehler erster Art (α) :
Wahrscheinlichkeit die Nullhypothese fälschlicherweise zu verwerfen.
Fehler zweiter Art (β) :
Wahrscheinlichkeit die Nullhypothese fälschlicherweise nicht zu
verwerfen.
Allgemeines zum Testprinzip:
Fehler erster und zweiter Art
Testentscheidung
H0
H1
tatsächlich gilt
H0
H1
1-α
β
α
1-β
Signifikanzniveau α wird “von vorne herein festgelegt”
zB.: α = 0,05
Güte bzw. Power eines Tests (1−β) :
Wahrscheinlichkeit für die korrekte Verwerfung der Nullhypothese.
Allgemeines zum Testprinzip:
Power eines statistischen Tests
Signifikanzniveau α
Stichprob
enumfang
(+)
Power eines Tests
(+)
Ausmaß des tatsächlichen
Effektes/Unterschiedes/Zusammenhanges
Test für den Erwartungswert
Man sucht nach Tests die bei gegebenem Signifikanzniveau α maximale Güte haben.
Typischerweise wird ein Test derart durchgeführt,
dass aus den Daten einer Stichprobe eine gewisse
Teststatistik T berechnet wird, die mit einem
zugehörigen Ablehnbereich verglichen wird
Liegt T im Ablehnbereich wird die Nullhypothese
verworfen und man entscheidet sich für H1. Liegt T
nicht im Ablehnbereich muss man H0 beibehalten.
Die Daten sind nicht stichhaltig genug, um sich für
die Alternative zu entscheiden.
Test für den Erwartungswert
Annahme: Stichprobe der Größe n normalverteilt mit
bekannter Varianz σ und fraglichem Mittelwert µ.
H0: µ = µ0
Teststatistik:
H1: µ ≠ µ0
n ( x − µ0 )
T=
σ
Testentscheidung für H1 :
Ansonsten H0 beibehalten
Einseitiges und zweiseitiges Testen
Zweiseitiges Testen:
H0: µ = µ0
H1: µ ≠ µ0
Testentscheidung für H1 :
Einseitiges Testen:
H0: µ = µ0
H1: µ > µ0
Testentscheidung für H1 :
H0: µ = µ0
Testentscheidung für H1 :
H1: µ < µ0
Test für Erwartungswert, σ unbekannt
Stichprobe der Größe n, empirische Varianz s2
H0: µ = µ0
Teststatistik:
H1: µ ≠ µ0
n ( x − µ0 )
T=
s
Testentscheidung für H1 :
Ansonsten kann H1 nicht verworfen werden.
Einseitige Tests analog zu Fall mit σ bekannt
Beispiel 6-1
n = 30 Beutel Speisekartoffel, Sollwert 2 kg.
Im Mittel 1.88 kg, Standardabweichung s = 0.25 kg
Teste zum Niveau α = 0.05 ob Beutel korrekt abgefüllt,
Alternative: nicht korrekt abgefüllt
H0: µ = 2,
H1: µ ≠ 2,
30 (1.88 − 2)
T=
= −2.63
0.25
Testentscheidung für H1: Die Stichprobe bekräftigt, dass
die Säcke nicht korrekt abgefüllt wurden.
Beispiel 6-1, Fortsetzung
Berechne für das selbe Problem ein 95%-CI
(µ – xα , µ + xα ) mit
CI = [1.787, 1.973]
Man erkennt, dass der Sollwert 2 nicht im Konfidenzintervall für den Erwartungswert liegt. Wir sehen hier
den Zusammenhang zwischen Konfidenzintervallen und
Testentscheidung: Ich entscheide mich im Test zum
Niveau α genau dann für H1 wenn das zu testende µ0
nicht im (1- α) – Konfidenzintervall von µ liegt.
Tests für Differenz zweier Mittelwerte
Aufgrund von dem Zusammenhang zwischen Tests
und Konfidenzintervallen ist nun klar, dass wir beim
Vergleich von Mittelwerten wiederum folgende Fälle
unterscheiden:
1. Verbundene Stichproben (Vorher-Nachher Vergleich):
Bilde Differenzen und teste H0: µ = µ0 gegen H1: µ ≠ µ0
2. Zwei unabhängige Stichproben
•
Bekannte Varianzen
•
Unbekannte Varianzen, in beiden Gruppen gleich
•
Unbekannte Varianzen, in beiden Gruppen verschieden
Unabhängige Stichproben (Größe n1,n2) ,
bekannte Varianzen σ12 , σ22
H0: µ1 = µ2
Teststatistik:
H1: µ1 ≠ µ2
µD
T=
σD
wobei
und
Testentscheidung für H1 :
Die Gestalt der Teststatistik ist für T-Tests typisch!
Unabhängige Stichproben (Größe n1,n2) ;
unbekannte Varianzen, Ann: σ12 ≠ σ22
H0: µ1 = µ2
Teststatistik:
H1: µ1 ≠ µ2
µD
T=
sD
wobei
Testentscheidung für H1 :
mit
wobei
Unabhängige Stichproben (Größe n1,n2) ;
unbekannte Varianzen, Ann: σ12 = σ22
H0: µ1 = µ2
Teststatistik:
H1: µ1 ≠ µ2
µD
T=
sP
mit
Testentscheidung für H1 :
Tests für den Anteilswert
Wie schon bei der Berechnung vom α-Konfidenzintervall
für Anteilswerte benutzen wir auch beim Testen die
Normalverteilungs - Approximation:
Stichprobe der Größe n, H0: p = p0 , H1: p ≠ p0
Teststatistik:
T=
n ( pˆ − p0 )
p0 (1 − p0 )
Testentscheidung für H1 :
Beachte: Kleiner Unterschied zu den Konfidenzintervallen für
Anteilswerte: Verwende für die Varianz p0!
Test für Differenz zweier Anteilswerte
Wie für den Anteilswert selbst NormalverteilungsApproximation (im Vergleich zum Konfidenzintervall
wiederum Unterschied in der Formel für sD)
Stichproben der Größe n1,n2, H0: p1 = p2 , H1: p1 ≠ p2
Teststatistik:
mit
und
pˆ 1 − pˆ 2
T=
sD
Bsp. 6-12
Werbekampagne: 200 Personen vorher, davon 60 pos.
400 nachher befragt, davon 240 pos.
Frage: Änderung des Bekanntheitsgrades?
H0: p1 = p2 , H1: p1 ≠ p2
pˆ 1 = 0.3, pˆ 2 = 0.6
pˆ 1 − pˆ 2
= −6.928
Teststatistik: T =
sD
Bsp. 6-12 - Fortsetzung
Teststatistik:
pˆ 1 − pˆ 2
T=
= −6.928
sD
Entscheide mich für die Alternativhypothese:
Der Bekanntheitsgrad hat sich geändert!
Einseitiger Test: H0: p2 · p1 , H1: p2 > p1
Entscheide mich für die Alternativhypothese:
Der Bekanntheitsgrad hat sich gesteigert!
Tests für kategorielle Variablen
Bisher behandelten wir Tests für Eigenschaften von
metrischen Variablen. Wir möchten nun kategorielle
Variablen behandeln (endlich viele Ausprägungen).
Typischerweise folgen in diesem Zusammenhang die
Teststatistiken einer χ2 – Verteilung. Die Quantile der
χ2 - Verteilung findet man in Tabelle 4, Seite 320
Wir werden 3 Situationen besprechen:
1. Test auf Unabhängigkeit zweier Variablen
2. Test auf Homogenität einer Variable zwischen Gruppen
3. Anpassungstest (eine Variable)
Klassischer χ2 - Test
Dieser Test wird bei zwei verschiedenen
Fragestellungen angewendet:
1) Besteht ein Zusammenhang zwischen zwei
kategoriellen Variablen?
2) Hat eine kategorielle Variable in zwei oder
mehr Gruppen die selbe Verteilung?
Test wird in beiden Situationen identisch durchgeführt.
Entscheidend ist das Berechnen der Teststatistik aus
einer Kreuztabelle.
χ2 – Test am Beispiel von 2× 2 Tafel
Frage: Gibt es einen Zusammenhang zwischen dem
Geschlecht und dem Wunsch nach Lokalanästhesie vor
einer Zahnbehandlung? D.h., unterscheidet sich der Anteil
der Männer, die Lokalanästhesie wünschen vom Anteil
der Frauen?
Nullhypothese, H0:
Es besteht kein Zusammenhang zwischen Geschlecht und dem
Wunsch nach Lokalanästhesie. (Die Anteile sind gleich)
Alternativhypothese, H1:
Es besteht ein Zusammenhang zwischen Geschlecht und dem
Wunsch nach Lokalanästhesie. (Die Anteile unterscheiden sich)
χ2 – Test am Beispiel von 2× 2 Tafel
Daten der letzten beiden Tage aus einer Zahnarztpraxis:
Lokalanästhesie
gewünscht
nicht gewünscht
Summe
Männer
11
9
20
Frauen
7
13
20
Summe
18
22
40
Anteil Lokalanästhesien bei Männern: 11/20 = 55%
Anteil Lokalanästhesien bei Frauen:
Anteil Lokalanästhesien gesamt:
7/20 = 35%
18/40 = 45%
χ2 – Test am Beispiel von 2 × 2 Tafel
Angenommen, der Wunsch nach Lokalanästhesie ist tatsächlich
unabhängig vom Geschlecht (d.h. bei Männern und Frauen gleich
ausgeprägt), welche „Zellenhäufigkeiten“ würden wir erwarten?
Lokalanästhesie
gewünscht
nicht gewünscht
Summe
Männer
?
?
20
Frauen
?
?
20
Summe
18
22
40
Anteil Lokalanästhesien gesamt:
18/40 = 45%
χ2 – Test am Beispiel von 2 × 2 Tafel
Angenommen, der Wunsch nach Lokalanästhesie ist tatsächlich
unabhängig vom Geschlecht (d.h. bei Männern und Frauen gleich
ausgeprägt), welche „Zellenhäufigkeiten“ würden wir erwarten?
Lokalanästhesie
gewünscht
nicht gewünscht
Summe
Männer
9
11
20
Frauen
9
11
20
Summe
18
22
40
zB: Zelle links oben: 20*18/40 = 9.
χ2 – Test
Gesucht: Teststatistik, die den Abstand zwischen der
“beobachteten” und der unter H0 “erwarteten” Tabelle erfaßt.
beobachtet
LA ja
Männer
Frauen
Summe
11
7
18
Berechne
unter H0 erwartet
LA nein Summe
9
13
22
20
20
40
LA ja
Männer
Frauen
Summe
(beobachtet - erwartet) 2
∑
erwartet
9
9
18
LA nein Summe
11
11
22
über alle 4 Zellen
(11 − 9 ) 2 (9 − 11) 2 ( 7 − 9 ) 2 (13 − 11) 2
T =
+
+
+
= 1 .616
9
11
9
11
20
20
40
LA ja
Männer
Frauen
Summe
11
7
18
LA nein Summe
9
13
22
20
20
40
Frage: Wie wahrscheinlich ist es, dieses spezielle Resultat
(T = 1 .616 ) oder ein “noch extremeres” zu beobachten, unter
der Annahme, dass kein Zusammenhang besteht (H0)?
LA ja
„Noch extremer“ ?:
LA nein Summe
Männer
Frauen
Summe
18
22
20
20
40
LA ja
Männer
Frauen
Summe
11
7
18
LA nein Summe
9
13
22
20
20
40
Frage: Wie wahrscheinlich ist es, dieses spezielle Resultat
(T = 1 .616 ) oder ein “noch extremeres” zu beobachten, unter
der Annahme, dass kein Zusammenhang besteht (H0)?
LA ja
„Noch extremer“ ?:
Männer
Frauen
Summe
12
6
18
LA nein Summe
8
14
22
20
20
40
LA ja
LA nein Summe
Männer
9
11
20
Männer
14
6
20
Frauen
9
11
20
Frauen
4
16
20
Summe
18
22
40
Summe
18
22
40
Männer
10
10
20
Männer
15
5
20
Frauen
8
12
20
Frauen
3
17
20
Summe
18
22
40
Summe
18
22
40
Männer
11
9
20
Männer
16
4
20
Frauen
7
13
20
Frauen
2
18
20
Summe
18
22
40
Summe
18
22
40
Männer
12
8
20
Männer
17
3
20
Frauen
6
14
20
Frauen
1
19
20
Summe
18
22
40
Summe
18
22
40
Männer
13
7
20
Männer
18
2
20
Frauen
5
15
20
Frauen
0
20
20
Summe
18
22
40
Summe
18
22
40
LA ja
0
0,404
1,616
3,636
6,465
LA nein Summe
Männer
9
11
20
Männer
14
6
20
Frauen
9
11
20
Frauen
4
16
20
Summe
18
22
40
Summe
18
22
40
Männer
10
10
20
Männer
15
5
20
Frauen
8
12
20
Frauen
3
17
20
Summe
18
22
40
Summe
18
22
40
Männer
11
9
20
Männer
16
4
20
Frauen
7
13
20
Frauen
2
18
20
Summe
18
22
40
Summe
18
22
40
Männer
12
8
20
Männer
17
3
20
Frauen
6
14
20
Frauen
1
19
20
Summe
18
22
40
Summe
18
22
40
Männer
13
7
20
Männer
18
2
20
Frauen
5
15
20
Frauen
0
20
20
Summe
18
22
40
Summe
18
22
40
10,10
14,55
19,80
25,86
32,73
Teststatistik χ2 – Test (allgemein)
Kreuztabelle mit r Zeilen und s Spalten
(hij − eij ) 2
T = ∑∑
eij
i =1 j =1
r
Teststatistik:
hij
s
beobachtete Häufigkeiten pro Zelle
eij = hi.· h.j/n erwartete Häufigkeiten pro Zelle
Entscheidung: H0 wird abgelehnt falls
Der p-Wert
Bisher haben wir Testentscheidungen durchgeführt, indem
wir die Teststatistik mit dem kritischen Wert verglichen
haben. Alternativ kann man den entsprechenden p-Wert
heranziehen.
p-Wert: Wahrscheinlichkeit dass unter H0 die
Teststatistik (betragsmäßig) größer ist als der
berechnete Wert.
Testentscheidung:
H0 wird abgelehnt falls p-Wert < α
H0 wird beibehalten falls p-Wert ≥ α
χ2 – Test mittels Computer
Frage: Wie wahrscheinlich ist es in obigem Besipiel, dieses
spezielle Resultat (T = 1 .616 ) oder ein “noch extremeres” zu
beobachten, wenn kein Zusammenhang besteht (H0)?
Antwort:
(mittels Computer)
Gesuchte Wahrscheinlichkeit für T = 1.616 p = 0,2036
p-Wert > α = 0.05
Beide Ungleichungen
sagen aus, dass H0
nicht verworfen
werden kann!
Durchführung des Tests mittels Computer
1) Formulieren von H0 und H1
Frequency |
1|
2| Total
---------|--------|--------|----------1 |
11 |
9 |
20
|--------|--------|
2 |
7 |
13 |
20
|--------|--------|
Total
|
18 |
22 |
40
2) Signifikanzniveau festlegen,
z.B.: α = 0.05
3) Passenden Test auswählen und
durchführen
4) p-Wert berechnen
5) p-Wert mit Signifikanzniveau
vergleichen
6) Testentscheidung:
Statistics for Table of geschl by Lokanae
Statistic
DF
Value
Prob
------------------------------------------Chi-Square
1
1.6162
0.2036
wenn p < α H0 verwerfen
wenn p > α H0 nicht verwefen
Anpassungstest
Gegeben sei ein Merkmal mit m Ausprägungen.
Aufgrund von n Beobachtungen sollen folgende
Hypothesen getestet werden:
H0: P(j-te Ausprägung) = pj
H1: Mindestens eine Ausprägung hat nicht die
vorgegebene Wahrscheinlichkeit pj
Typisches Beispiel - Test auf Gleichverteilung: pj = 1/m
Anpassungstest: Teststatistik
(hi − ei )
T =∑
ei
i =1
m
Teststatistik:
h1,…, hm,
2
beobachtete absolute Häufigkeiten
ei = n · pi, erwartete absolute Häufigkeiten
Entscheidung: H0 wird abgelehnt falls
Die Quantile der χ2 - Verteilung findet man in
Tabelle 4, Seite 320
Beispiel 6-13
Handelsvertreter besucht täglich 20 Kunden
Abschlüsse
0
1
2
>2
Tage
30
34
21
5
Teste ob Kunden unabhängig voneinander mit p=0.05
ein Geschäft mit dem Vertreter abschließen (α = 0.01)
Anzahl der täglichen Abschlüsse unter H0
binomialverteilt mit n=20 und p=0.05
Erwartete Tage mit k Abschlüssen: 90 P(X=k)
Beispiel 6-13 Fortsetzung
Abschlüsse
0
1
2
>2
Tage
30
34
21
5
32.2
33.9
17.0
6.8
Unter H0 erwartet
Teststatistik:
2.2 2 0.12
4 2 1.82
+
+
+
= 1.6
32.2 33.9 17.0 6.8
Aus Tabelle 4 entnimmt man
H0 kann nicht verworfen werden.
Test auf Gleichheit von Varianzen
Die Verteilung des Quotienten zweier χ2 – verteilter
Zufallsgrößen heißt F-Verteilung
Betrachte H0: Die Verteilungen zweier unabhängige
Stichproben der Größe n1 und n2 haben gleiche Varianz
s12
T= 2
s2
ist F-verteilt
H0: σ1 = σ2 , H1: σ1 ≠ σ2
H0 wird beibehalten falls
Quantile der F-Verteilung
Für n, m ≥ 1 und 0 < γ < 1 gilt
Beachte die vertauschte Reihenfolge der Freiheitsgrade!
Herunterladen