Nichtparametrische Tests Bibliografie

Werbung
Nichtparametrische Tests
Anpassungstests:
Chi-Quadrat-Anpassungstest
Kolmogorov-Smirmov-Anpassungstest
Unabhängigkeitstest
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
1
Bibliografie
¾ Prof. Dr. Kück
Universität Rostock
Statistik, Vorlesungsskript, Abschnitt 7.2.5 und 7.2.6
¾ Bleymüller / Gehlert / Gülicher
Verlag Vahlen
Statistik für Wirtschaftswissenschaftler
¾ http://www.wiwi.uni-rostock.de/~stat/download.htm
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
2
1
Testverfahren - Eine Klassifikation
Parametrische Tests:
Nichtparametrische Tests:
Prüfung von Hypothesen über die
Parameter der Grundgesamtheiten
Prüfung von Hypothesen über die
Verteilung der Grundgesamtheiten
Beispiele:
Beispiele:
¾ Tests über den Mittelwert einer
normalverteilten Grundgesamtheit
¾Anpassungstest
¾ Test über das Verhältnis von
Varianzen
¾Unabhängigkeitstest
¾Homogenitätstest
¾ Varianzanalyse
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
3
Anpassungstests - Problemstellung
Grundgesamtheit
Stichprobe
F: unbekannte Verteilungsfunktion
Fo: beobachtete (empirische) Verteilung
Fe: Verteilungsfunktion der
Nullhypothese (angenommene)
Fe
Diskrete Verteilungen
Angenommene
theoretische
Verteilung
H0: F=Fe
H1: F≠Fe
Stetige Verteilungen
Gleichverteilung
Gleichverteilung
Binomialverteilung
Exponentialverteilung
Hypergeometrische
Verteilung
Normalverteilung
Poissonverteilung
Chi-Quadrat, t, F
H0: Die in der Stichprobe beobachtete (empirische) Verteilung
steht nicht im Widerspruch mit der für die unbekannte Verteilung
der Grundgesamtheit gemachten Annahme Fe.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Signifikanzniveau α
Testverfahren IV
4
2
Verteilung des durchschnittlichen Benzinverbrauches für 50 Taxen eines
Unternehmens (Hypothesenformulierung) - Beispiel
i
Klasse
Abs. Häufigkeit
1
5,0
-
5,6
4
2
5,6
-
6,2
6
3
6,2
-
6,8
8
4
6,8
-
7,4
9
5
7,4
-
8,0
7
6
8,0
-
8,6
5
7
8,6
-
9,2
5
8
9,2
-
9,8
4
9
9,8
-
10,4
1
Empirische Verteilung
10,0
9,0
8,0
Abs. Häufigkeiten
7,0
6,0
5,0
4,0
3,0
2,0
1,0
0,0
4,7
5,3
5,9
6,5
7,1
7,7
8,3
8,9
9,5 10,1 10,7 11,3
Verbrauch in l/ 100 km
Dichtefunktion einer Normalverteilung
0,30
10
10,4
-
11,0
Summe
1
0,20
n=50
H0: Der durchschnittliche Benzinverbrauch
ist normalverteilt.
0,10
0,00
2
3
4
H1: Der durchschnittliche Benzinverbrauch
ist nicht normalverteilt.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
5
6
7
8
9
10
11
12
13
Signifikanzniveau α
Testverfahren IV
5
Chi-Quadrat-Anpassungstest
Absolute Häufigkeiten
Hypothesenpaar
H0:
F=Fe
Signifikanzniveau α
H1: F≠Fe
Prüfgröße:
k
χ2 = ∑
i =1
(h − h )
~ χ 2r
h ie
0
i
e 2
i
r=k-m-1
Klasse
i
Beobachtete
(observed)
hoi
Erwartete
theoretische
hei
Differenz
hoi - hei
1
ho1
he1
ho1 - he1
2
ho2
he2
ho2 - he2
.
.
.
.
.
.
.
.
.
.
.
.
k
hok
hek
hok - hek
Summe
n
n
0
Bedingung:
m: Zahl der für die theoretische
Verteilung geschätzten Parameter
he
i
≥ 5 für alle i=1, 2, . . . , k
α
Kritischer Bereich:
k
K(α ) = {χ 2 : χ 2 = ∑
i =1
(h i0 − h ie ) 2
> χ 12−α;r }
h ie
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
H0 nicht ablehnen
H0 ablehnen
6
3
Chi-Quadrat-Anpassungstest für die Gleichverteilung
der Augenzahl (Hypothesenformulierung) - Beispiel
Beispiel: Bei 90 Ausspielungen eines Würfels seien die in der folgenden Tabelle
wiedergegebenen absoluten Häufigkeiten beobachtet worden (observed). Auf einem
Signifikanzniveau von α=0,05 soll geprüft werden, ob die Annahme, dass es sich hier um
einen idealen Würfel handelt, abgelehnt werden kann oder nicht.
Augenzah xi
Abs. Häufigkeit hoi
1
19
2
H0: F=Fe
H0: Die Augenzahl ist gleichverteilt.
13
H1: F≠Fe
Signifikanzniveau α =0,05
F: unbekannte Verteilungsfunktion der Augenzahl.
3
14
4
12
5
17
Fe: diskrete Gleichverteilung
6
15
Es gilt:
Summe
n=90
fe: Wahrscheinlichkeitsfunktion
⎧1
⎪⎪ = 0,1 6
f (x i ) = W(X = x i ) = ⎨ 6
⎪
0
⎩⎪
für
i = 1,2, . . . , 6
e
für alle anderen
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Fälle
Testverfahren IV
7
Chi-Quadrat-Anpassungstest für die Gleichverteilung
der Augenzahl (Kritischer Bereich) - Beispiel
Augenzah
xi
Abs. Häufigkeit
hoi
1
19
2
13
3
14
4
12
5
17
6
15
Summe
n=90
Kritischer Bereich:
H0: Die Augenzahl ist gleichverteilt.
H1: Die Augenzahl ist nicht gleichverteilt.
Prüfgröße:
k
χ2 = ∑
i =1
k=6
(h i0 − h ie ) 2
~ χ 2r
h ie
r=k-1-m
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
α=0,05
Es ist kein Parameter
zu schätzen.
K(α ) = {χ 2 : χ 2 > χ 12−α;r }
2
χ 12−α;r = χ 0,95;5
= 11,070
r=5
m=0
11,070
H0 nicht ablehnen
Testverfahren IV
H0 ablehnen
8
4
Chi-Quadrat-Anpassungstest für Gleichverteilung der
Augenzahl (Berechnung der hei und der Prüfgröße) -Beispiel
Augenzahl
xi
Abs. obs.
Häufigkeit
hoi
pi
Erw. abs.
Häufigkeit
hei
1
19
0,167
15
4
1,067
2
13
0,167
15
-2
0,267
3
14
0,167
15
-1
0,067
4
12
0,167
15
-3
0,600
5
17
0,167
15
2
0,267
6
15
0,167
15
0
0,000
Summe
n=90
1,0
90
χ2 = ∑
α=0,05
i =1
11,070
H0 ablehnen
p i = W(X = x i ) = f e ( x i ) =
pi ≈
1
≈ 0,167
6
h ie
n
2,267
k
H0 nicht ablehnen
Für die diskrete
Gleichverteilung gilt:
(h i0 − h ie ) 2
h ie
Differenzen
(hoi - hei)
(h − h )
= 2,267
h ie
0
i
e 2
i
h ie = np i = 90 ⋅
1
= 15 > 5
6
2,267 < 11,070 => H0 ist nicht zu verwerfen, d. h. die
beobachteten Differenzen zwischen den empirischen und
den theoretisch erwarteten Häufigkeiten können als
zufällig interpretiert werden. Der Würfel ist „ideal“.
Der β-Fehler bei dieser Entscheidung ist unbekannt.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
9
Chi-Quadrat-Anpassungstest für die Gleichverteilung
des Einkommen (Aufgabenstellung) - Beispiel
Beispiel: Es soll getestet werden (α=0,05), ob die Einkommen in einer untersuchten
Grundgesamtheit zwischen 1000 und 6000 EUR gleichverteilt sind. Das Einkommen von
200 zufällig ausgewählten Personen hat folgende empirische Häufigkeitsverteilung:
Abs. Häufigkeit
i
xui - xoi
hoi
1
1000 - 1500
15
2
1500 - 2000
20
3
2000 - 2500
20
4
2500 - 3000
22
5
3000 - 3500
28
6
3500 - 4000
31
7
4000 - 4500
18
8
4500 - 5000
14
9
5000 - 5500
16
10
5500 - 6000
16
Summe
Empirische Verteilung
35
Beobachtete abs.
Häufigkeiten
Klasse
30
25
20
15
10
5
0
750
Einkommen
fe: Dichtefunktion
⎧ 1
⎪⎪
f e (x) = ⎨ 5000
⎪
⎪⎩ 0
n=200
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250
Testverfahren IV
für 1000 ≤ x ≤ 6000
für alle anderen Fälle
10
5
Chi-Quadrat-Anpassungstest für die Gleichverteilung
des Einkommen (Hypothesen) - Beispiel
Empirische Verteilung
Beobachtete abs.
Häufigkeiten
35
H0: Das Merkmal Einkommen ist
in der Grundgesamtheit (stetig)
gleichverteilt.
H0: F=Fe
30
25
20
H1: F≠Fe
15
10
5
α=0,05
0
750
1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250
Einkommen
F: unbekannte Verteilungsfunktion der Einkommen
Theoretische Gleichverteilung
Fe: Verteilungsfunktion der stetigen Gleichverteilung
Erwartete abs.
Haüfigkeiten
25
20
15
10
⎧
0
⎪ x − 1000
F e (x) = ⎨
⎪ 5000
1
⎩
5
0
750
1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250
Einkommen
fe: Dichtefunktion
⎧ 1
⎪⎪
f e (x) = ⎨ 5000
⎪
⎪⎩ 0
x < 1000
für
für 1000 ≤ x ≤ 6000
x > 6000
für
für 1000 ≤ x ≤ 6000
für alle anderen Fälle
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
11
Chi-Quadrat-Anpassungstest für die Gleichverteilung
des Einkommen (Kritischer Bereich) - Beispiel
H0: Das Merkmal Einkommen ist in der
Grundgesamtheit (stetig) gleichverteilt.
H0: F=Fe
H1: F≠Fe
Kritischer Bereich:
F: unbekannte Verteilungsfunktion der Einkommen
K(α ) = {χ 2 : χ 2 > χ 12−α;r }
Fe: Verteilungsfunktion der stetigen Gleichverteilung
2
χ 12−α;r = χ 0,95;9
= 16,919
Prüfgröße:
k=10
k
χ2 = ∑
i =1
(h i0 − h ie ) 2
~ χ 2r
h ie
r=k-m-1
α=0,05
r=9
m=0
16,919
H0 nicht ablehnen
Es ist kein Parameter
zu schätzen.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
H0 ablehnen
12
6
Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen
(Berechnung der erwarteten Häufigkeiten) - Beispiel
Klasse
Obs.abs.
Häufigkeit
i
xui - xoi
hoi
pi
hei
1
1000 - 1500
15
0,1
20
2
1500 - 2000
20
0,1
20
3
2000 - 2500
20
0,1
20
4
2500 - 3000
22
0,1
20
5
3000 - 3500
28
0,1
20
6
3500 - 4000
31
0,1
20
7
4000 - 4500
18
0,1
20
8
4500 - 5000
14
0,1
20
9
5000 - 5500
16
0,1
20
10
5500 - 6000
16
0,1
20
n=200
1,0
200
Summe
Erw. abs.
Häufigkeit
Bei der stetigen Gleichverteilung
gilt für alle i=1, 2, . . . , k:
p i = W(x iu < X < x i0 ) = F e (x i0 ) − F e (x iu )
=
x i0 − 1000 x iu − 1000 x i0 − x iu
−
=
5000
5000
5000
Für konstante Klassenbreite c gilt:
p i = W(x iu < X < x i0 ) =
In diesem Fall (c=500)
pi =
pi ≈
k=10
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
x i0 − x iu
c
=
5000
5000
Testverfahren IV
c
500
=
= 0,1
5000 5000
h ie
n
h ie ≈ np i = 20 > 5
13
Chi-Quadrat-Anpassungstest für die Gleichverteilung
des Einkommen (Berechnung der Prüfgröße) - Beispiel
Klasse
Obs. abs. Erw.abs.
Differenz (hoi - hei)2/ hei
Häufigkeit Häufigkeit
i
xu i
x oi
hoi
hei
hoi - hei
1
1000
1500
15
20
-5
1,25
2
1500
2000
20
20
0
0,00
3
2000
2500
20
20
0
0,00
4
2500
3000
22
20
2
0,20
5
3000
3500
28
20
8
3,20
6
3500
4000
31
20
11
6,05
7
4000
4500
18
20
-2
0,20
8
4500
5000
14
20
-6
1,80
9
5000
5500
16
20
-4
0,80
10
5500
6000
16
20
-4
0,80
n=200
200
0
14,30
k
Summe
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
χ2 = ∑
i =1
(h i0 − h ie ) 2
h ie
14
7
Chi-Quadrat-Anpassungstest für die Gleichverteilung
der Einkommen (Entscheidung) - Beispiel
Differenzen
Empirische Verteilung
15
Beobachtete abs.
Häufigkeiten
35
30
10
25
5
20
15
0
10
5
-5
0
750
-10
1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250
Klassen
Einkommen
k
Theoretische Gleichverteilung
χ2 = ∑
Erwartete abs.
Haüfigkeiten
25
20
i =1
15
(h i0 − h ie ) 2
= 14,30
h ie
2
χ 12−α;r = χ 0,95;9
= 16,919
10
5
0
750
1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250
α=0,05
Einkommen
14,30 < 16,916 => H0 ist nicht zu verwerfen.
Die Stichprobenwerte entstammen aus einer
gleichverteilten Grundgesamtheit. Die Differenzen
zwischen beobachteten und erwarteten Häufigkeiten
können als zufällig angesehen werden.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
16,919
H0 nicht ablehnen
H0 ablehnen
Testverfahren IV
15
Chi-Quadrat-Anpassungstest für die Normalverteilung
des Benzinverbrauches (Aufgabenstellung) - Beispiel
Beispiel: Es soll getestet werden, ob der monatliche Kraftstoffsverbrauch (in l pro 100
km) der 50 Taxen eines Unternehmens normalverteilt ist. Der Verbrauch eines
Abrechnungsmonates wird in der folgenden Häufigkeitstabelle dargestellt. Nutzen Sie
α=0,05 für den Test.
Empirische Verteilung
Klasse
Abs. Häufigkeit
1
5,0
-
5,6
4
2
5,6
-
6,2
6
3
6,2
-
6,8
8
4
6,8
-
7,4
9
10,0
9,0
8,0
7,0
Abs. Häufigkeiten
i
6,0
5,0
X ~ N( µ , σ ²)
4,0
3,0
2,0
1,0
5
7,4
-
8,0
7
6
8,0
-
8,6
5
7
8,6
-
9,2
5
8
9,2
-
9,8
4
9
9,8
-
10,4
1
0,20
10
10,4
-
11,0
1
0,10
0,0
4,7
5,3
5,9
6,5
7,1
7,7
8,3
8,9
9,5 10,1 10,7 11,3
Verbrauch in l/ 100 km
fe: Dichtefunktion
Dichtefunktion einer Normalverteilung
Summe
n=50
0,30
f e (x) =
σ 2π
e
1 x −µ 2
)
− (
2 σ
0,00
2
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
1
3
4
5
6
Testverfahren IV
7
8
9
10
11
12
13
16
8
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Hypothesenformulierung) - Beispiel
i
Klasse
Abs.
Häufigkeit
Empirische Verteilung
9,0
8,0
1
5,0
-
5,6
4
2
5,6
-
6,2
6
3
6,2
-
6,8
8
3,0
4
6,8
-
7,4
9
1,0
5
7,4
-
8,0
7
6
8,0
-
8,6
5
7
8,6
-
9,2
5
8
9,2
-
9,8
4
9
9,8
-
10,4
1
10
10,4
-
11,0
1
Summe
X ~ N(µ, σ )
Abs. Häufigkeiten
6,0
5,0
4,0
0,10
2,0
0,00
0,0
4,7
5,3
5,9
6,5
7,1
7,7
8,3
8,9
2
9,5 10,1 10,7 11,3
3
4
5
6
7
8
9
10
11
12
13
Verbrauch in l/ 100 km
H0: F=Fe
H0: Der Verbrauch ist in der
GG normalverteilt.
H1: F≠Fe
α=0,05
F: unbekannte Verteilungsfunktion des Verbrauches
Fe: Verteilungsfunktion der Normalverteilung
x
F (x) =
e
0,20
7,0
n=50
2
0,30
10,0
∫σ
−∞
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
1
2π
e
1 v −µ 2
)
− (
2 σ
dv
µ und σ² sind unbekannt, sie
müssen geschätzt werden
(m=2).
Testverfahren IV
17
Chi-Quadrat-Anpassungstest für die Normalverteilung
des Benzinverbrauches (Parameterschätzung) - Beispiel
Klasse
Abs.
Häufigkeit
Klassenmitte
µ̂ = x =
i
xui
xoi
hoi
xi
xi*hoi
1
5,0
5,6
4
5,3
21,2
x²i*hoi
112,36
2
5,6
6,2
6
5,9
35,4
208,86
3
6,2
6,8
8
6,5
52,0
338,00
4
6,8
7,4
9
7,1
63,9
453,69
5
7,4
8,0
7
7,7
53,9
415,03
6
8,0
8,6
5
8,3
41,5
344,45
7
8,6
9,2
5
8,9
44,5
396,05
8
9,2
9,8
4
9,5
38,0
361,00
9
9,8
10,4
1
10,1
10,1
102,01
10
10,4
11,0
1
10,7
10,7
114,49
371,2
2845,94
Summe
n=50
σ̂ = s = s ² = 1,8398 = 1,356 Liter 100 km
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
=
1 n
∑ x i ⋅ h io
n i =1
371,2
= 7,424 Liter / 100 km
50
σ̂ ² = s ² =
1 n
∑ (x i − x)² ⋅ h io
n − 1 i =1
n
n
(∑ x i ⋅ h io )²
1
[∑ x i2 ⋅ h io − i =1
]
n − 1 i =1
n
1
371,2²
=
(2845,94 −
) = 1,8398
49
50
=
Die Anzahl der geschätzten
Parameter ist hier m=2
18
9
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Prüfgröße und Kritischer Bereich) - Beispiel
H0: Das Merkmal Verbrauch ist in der GG
normalverteilt mit den Parametern µ und σ².
H0: F=Fe
H1: F≠Fe
Kritischer Bereich:
F: unbekannte Verteilungsfunktion des Einkommen
K(α ) = {χ 2 : χ 2 > χ 12−α;r }
Fe: Verteilungsfunktion der Normalverteilung
X ~ N( µ , σ ²)
µ̂ = 7,424 σ̂ = 1,356
α=0,05
m=2
Prüfgröße:
(h 0 − h e ) 2
χ 2 = ∑ i e i ~ χ 2r
hi
i =1
k
χ 12−α ;r
r=k-1-m
H0 nicht ablehnen H0 ablehnen
k=10
Die endgültige Anzahl r der Freiheitsgrade der Chi-Quadrat-Verteilung wird nach der
Berechnung der erwarteten absoluten Häufigkeiten bestimmt. Wegen hei ≥ 5 müssen oft
einige Klassen zusammengefasst werden, damit ändert sich auch die Anzahl der Klassen k
und schließlich r.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
19
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Erwartete Häufigkeiten für i=2, . . . , k-1 ) - Beispiel
xui
i
1
xoi
hoi
5,6
zoi
FZ(z0i)
pi
hei
-1,345 0,0894
2
5,6
6,2
6
-0,902 0,1834
0,0941 4,70
3
6,2
6,8
8
-0,460 0,3227
0,1393
6,97
4
6,8
7,4
9
-0,018 0,4929
0,1702
8,51
5
7,4
8,0
7
0,425 0,6645
0,1715 8,58
6
8,0
8,6
5
0,867 0,8070
0,1426
7
8,6
9,2
5
1,309 0,9048 0,0978 4,89
8
9,2
9,8
4
1,752 0,9601
0,0553
2,76
9
9,8 10,4
1
2,195 0,9858 0,0258
1,29
p i = W(x iu < X < x i0 ) = W(
= FZ (z i0 ) − FZ (z iu )
7,13
10
h ie
n
z iu =
x iu − µ o x io − µ
zi =
σ
σ
µ̂ = 7,424
σ̂ = 1,356
Aus xui= xoi-1 folgt:
z iu = z i0−1 ⇒ FZ (z iu ) = FZ (z io−1 )
⇒ p i = FZ (z io ) − FZ (z io−1 )
Das bedeutet, man benötigt nur zoi
n=50
pi ≈
x iu − µ
x0 − µ
<Z< i
)
σ
σ
h ie ≈ np i
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Nutzung der Tabelle 12 der
Formelsammlung.
Für negative Zahlen gilt:
Testverfahren IV
FZ (− z) = 1 − FZ (z)
20
10
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Erwartete Häufigkeiten für i= 1 und i=k) - Beispiel
i
xui
xoi
hoi
1
5,0
5,6
4
zui
-∞
zoi
pi
hei
-1,345
0,0894
4,47
2
3
Für die erste Klasse gilt:
p1 = W(−∞ < X < x 10 ) = W(−∞ < Z <
x 10 − µ
)
σ
= FZ (z10 ) − FZ (−∞)
4
Nun wird xu1=-∞ gemacht.
5
6
Nun wird xo10=+∞ gemacht
7
h ie ≈ np i
= FZ (z10 ) − 0 = FZ (−1,345) = 0,0894
Nutzung der Tabelle 12.
n=50
FZ (− z) = 1 − FZ (z)
8
µ̂ = 7,424
σ̂ = 1,356
9
10
10,4
11,0
1
1,786
+∞
0,0141
0,71
Für die letzte Klasse gilt:
u
u
p10 = W(x 10
< X < ∞) = W(z10
< Z < ∞)
u
0
= FZ (∞) − FZ (z10
) = 1 − FZ (z10
)
= 1 − FZ (1,786) = 1 − 0,9859 = 0,0141
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
21
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Berechnung von Prüfgröße und r) - Beispiel
Differenz
i
xui
xoi
hoi
hei
1
-∞
5,6
4
4,47
10
5,6
6,2
6
6,2
6,8
8
6,97
1,03
0,1535
4
6,8
7,4
9
8,51
0,49
0,0282
5
7,4
8,0
7
8,58
-1,58
0,2895
6
8,0
8,6
5
7,13
-2,13
0,6357
1,35
0,1893
7
8,6
9,2
5
9,2
9,8
4
2,76
9
9,8
10,4
1
1,29
10
10,4
+∞
1
0,71
Summe
4,89
50
50
9,65
0,83
(h 0i − h ie ) 2
h ie
3
8
9,17
-
hei
2
11
4,70
hoi
0,0749
Alle Klassen mit hei<5 werden
mit den Nachbarklassen
zusammengefasst.
Die Klassenanzahl ist k=6.
k=6
r=k-1-m=3
m=2
2
χ 12−α; r = χ 0,95;3
= 7,815
1,3711
k
χ2 = ∑
i =1
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
(h i0 − h ie ) 2
= 1,3711
h ie
22
11
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Kritischer Bereich und Entscheidung) - Beispiel
2
χ 12−α;r = χ 0,95;3
= 7,815
Empirische Verteilung
10
9
χ2 =
8
Abs. Häufigkeiten
7
k
∑
i =1
6
(h i0 − h ie ) 2
= 1,3711
h ie
5
4
α=0,05
3
2
1
0
3,5
4,1
4,7
5,3
5,9
6,5
7,1
7,7
8,3
8,9
9,5
10,1
10,7
11,3
11,9
12,5
Verbrauch in l/ 100 km
7,815
H0 nicht ablehnen
8,00
7,00
H0 ablehnen
Abs. Häufigkeiten
6,00
5,00
4,00
3,00
2,00
1,00
0,00
3 ,5
4 ,1
4 ,7
5,3
5,9
6 ,5
7,1
7,7
8 ,3
8 ,9
9 ,5
10 ,1
10 ,7
11,3
11,9
Ve rbrauch in l/ 100 km
1,3711< 7,815 => H0 ist nicht zu verwerfen. Die
Stichprobenwerte entstammen aus einer normalverteilten
Grundgesamtheit. Die Differenzen zwischen beobachteten
und empirischen Häufigkeiten und dadurch die leichte
Asymmetrie der empirische Häufigkeitsverteilung kann als
zufällig angesehen werden.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
23
Kolmogorov-Smirnov-Anpassungstest
- Hypothesenformulierung Grundgesamtheit
F: unbekannte Verteilungsfunktion
Fe: Verteilungsfunktion der
Nullhypothese (angenommene)
Fe
Fo: beobachtete (empirische) Verteilung
Stetige Verteilungen
Angenommen
e theoretische
Verteilung
Gleichverteilung
Exponentialverteilung
H0: F=Fe
H1: F≠Fe
Stichprobe
Voraussetzungen für die Anwendung des Tests:
Normalverteilung
¾metrisch skaliertes Merkmal
Chi-Quadrat, t, F
¾die theoretische Verteilung Fe soll stetig sein.
H0: Die in der Stichprobe beobachtete (empirische) Verteilung
steht nicht im Widerspruch mit der für die unbekannte Verteilung
der Grundgesamtheit gemachten Annahme.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
Signifikanzniveau α
24
12
Kolmogorov-Smirnov-Anpassungstest
- Prüfgröße und kritischer Bereich 1. Prüfgröße:
F ( x)
d = max | F e (x) − F o (x) |
x
Fe: theoretisch stetige
Verteilungsfunktion
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0
20
40
60
80
100
120
x
Fo: empirische unstetige
Verteilungsfunktion
Die maximale absolute Abweichung d zwischen
diesen beiden Funktionen kann also nur an
einer der Sprungstellen auftreten.
K( α ) = {d : d = max | F e (x) − F o (x) |> d n;1− α }
2. Kritischer Bereich:
x
Die Kritischen Werte dn;1-α sind für α und n in der
Formelsammlung (Tabelle 20) zu finden.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
25
Kolmogorov-Smirnov-Anpassungstest für die Gleichverteilung
des Einkommen (Hypothesenformulierung) - Beispiel
Es soll getestet werden (α=0,05), ob die Einkommen in einer untersuchten
Grundgesamtheit zwischen 1000 und 6000 EUR gleichverteilt sind. Das Einkommen von
200 zufällig ausgewählten Personen hat folgende empirische Häufigkeitsverteilung:
Klasse
Abs. Häufigkeit
i
xui - xoi
hoi
1
1000 - 1500
15
2
1500 - 2000
20
3
2000 - 2500
20
4
2500 - 3000
22
5
3000 - 3500
28
6
3500 - 4000
31
7
4000 - 4500
18
8
4500 - 5000
14
9
5000 - 5500
16
10
5500 - 6000
Summe
H0: F=Fe
H0: Das Merkmal Einkommen ist
in der GG (stetig) gleichverteilt.
H1: F≠Fe
α=0,05
F: unbekannte Verteilungsfunktion der Einkommen
Fe: Verteilungsfunktion der stetigen Gleichverteilung
⎧
0
⎪ x − 1000
F e (x) = ⎨
⎪ 5000
1
⎩
für
x < 1000
für 1000 ≤ x ≤ 6000
für
x > 6000
16
n=200
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
26
13
Kolmogorov-Smirnov-Anpassungstest für die Gleichverteilung
der Einkommen (Empirische und theoretische Verteilungen)
i
xui
xoi
hoi
Fo(xoi)
Fe(xoi)
0
-∞
1000
0
0
0
1
1000
1500
15
0,075
0,1
2
1500
2000
20
0,175
0,2
3
2000
2500
20
0,275
0,3
4
2500
3000
22
0,385
0,4
5
3000
3500
28
0,525
0,5
6
3500
4000
31
0,680
0,6
7
4000
4500
18
0,770
0,7
8
4500
5000
14
0,840
0,8
9
5000
5500
16
0,920
0,9
10
5500
6000
16
1,000
1
11
6000
+∞
0
1,000
1
Summe
n=200
o
i
o
Fo
0
1000
2000
3000
4000
5000
6000
7000
Da die theoretische Verteilungsfunktion stetig ist
und die empirische unstetig ist, kann die
maximale absolute Abweichung d zwischen
diesen beiden Funktionen also nur an einer der
Sprungstellen auftreten. An jeder Sprungstelle
berechnet man zwei Differenzen, eine untere und
eine obere.
d oben ( x io ) = F e ( x io ) − F o ( x io+1 )
d unten ( x ) = F ( x ) − F ( x )
e
Fe
Die obere Differenzen mit der Formel:
Die untere Differenzen mit der Formel:
o
i
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
o
i
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
27
Kolmogorov-Smirnov-Anpassungstest für die Gleichverteilung
der Einkommen (Berechnungen, Entscheidung) - Beispiel
i
xui
xoi
hoi
Fo(xoi)
Fe(xoi)
dunten
0
-∞
1000
0
0
0
0
0,075
doben
1
1000
1500
15
0,075
0,1
0,025
0,075
2
1500
2000
20
0,175
0,2
0,025
0,075
0,085
3
2000
2500
20
0,275
0,3
0,025
4
2500
3000
22
0,385
0,4
0,015
0,125
5
3000
3500
28
0,525
0,5
0,025
0,180
6
3500
4000
31
0,680
0,6
0,080
0,170
7
4000
4500
18
0,770
0,7
0,070
0,140
8
4500
5000
14
0,840
0,8
0,040
0,120
0,100
9
5000
5500
16
0,920
0,9
0,020
10
5500
6000
16
1,000
1
0
11
6000
+∞
0
1,000
1
0
Summe
n=200
Fe
Fo
0
1000
2000
3000
4000
5000
6000
7000
d u (x ) = F (x ) − F (x )
o
i
e
o
i
o
o
i
d o ( x io ) = F e ( x io ) − F o ( x io+1 )
1. Prüfgröße:
d = max | F e (x) − F o (x) |
x
2. Kritischer Bereich
K(α ) = {d : d > d n;1−α }
0,180>0,096=>H0 wird verworfen. Die SP
entstammt nicht aus einer gleichverteilten GG.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
0
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
Testverfahren IV
d n;1−α = d 200;0,95 =
1,36
n
=
1,36
200
= 0,096
28
14
Unabhängigkeitstest - Problemstellung
Grundgesamtheit
Statistische Einheit 1
x1
y1
.
.
.
Statistische Einheit N
xN
yN
H0: Die Merkmale X und Y sind in
der GG stochastisch unabhängig.
H1: Die Merkmale X und Y sind in der
GG nicht stochastisch unabhängig.
Signifikanzniveau α
Für alle Paare (x, y) gilt :
Es gibt ein Paar (x, y) mit :
F(x, y) ≠ FX (x) ⋅ FY (y)
F(x, y) = FX (x) ⋅ FY (y)
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
29
Unabhängigkeitstest - Kontingenztabelle
Bivariate empirische Häufigkeitsverteilung
(Kreuz- bzw. Kontingenztabelle)
Stichprobe
y1
Ausprägungen des
Merkmals X
.
.
.
Statistische Einheit n
xn
yn
r
h . j = ∑ h ij
i =1
r
s
r
s
i =1
j=1
n = ∑∑ h ij = ∑ h i . = ∑ h . j
i =1 j=1
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
j=1
Ausprägungen des Merkmals Y
Statistische Einheit 1
x1
s
h i . = ∑ h ij
Total h.j
Total
hi.
y1
y2
...
yj
...
ys
x1
h11
h12
...
h1j
...
h1s
h1.
x2
h21 h22
...
h2j
...
h2s
h2.
..
.
... ...
...
...
hi2
...
xi
hi1
..
.
... ...
...
hij
xr
hr1
hr2
...
hrj
h.1
h.2
...
h.j
...
his
hi.
...
...
...
hrs
hr.
...
h.s
n
...
hij: empirische (beobachtete) absolute Häufigkeit des
Paares (xi, yj) für i=1, 2, . . . , r und j=1, 2, . . . , s)
Testverfahren IV
30
15
Unabhängigkeitstest
-Prüfgröße und kritischer Bereich2. Kritischer Bereich:
r
s
K(α ) = {χ ² : χ ² = ∑∑
1. Prüfgröße:
(h ijo − h ije )²
h ije
i =1 j=1
r
s
χ ² = ∑∑
(h ijo − h ije )²
h ije
i =1 j=1
h ijo = h ij
h ije =
> χ 2v;1−α }
~ χ ν2
h i. ⋅ h . j
3. Entscheidungsregel
n
ν = (r − 1)(s− 1)
α
χ 2v;1−α
H0 nicht ablehnen
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
H0 ablehnen
Testverfahren IV
31
Legitimität der Geburten und Alter der Mutter - Beispiel
Beispiel: Im Jahr 2000 wurden in MV etwa 12.000 Kinder geboren. Die Zahl der
Lebendgeborenen lässt sich nach den beiden Merkmale „Alter der Mutter“ und
„Legitimität der Geburt“ in einer bivariaten Häufigkeitstabelle darstellen. Es soll mit
α=0,01 untersucht werden, ob zwischen dem Alter der Mutter und der Legitimität der Geburt
statistische Unabhängigkeit besteht.
Alter der Mutter (Jahre)
Legitimität der Geburt (Anzahl)
von . . . bis unter . . .
ehelich
nichtehelich
Total
15 - 20
60
260
320
20 - 25
900
1.900
2.800
25 - 30
2.600
2.200
4.800
30 - 35
2.100
900
300
35 - 40
700
200
900
40 - 45
140
40
180
6.500
5.500
12.000
Total
H0: Die Merkmale X und Y sind in der GG
stochastisch unabhängig.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
hij: beobachtete abs.
Häufigkeiten für
i=1, 2, . . . , 6 und j=1, 2
r
h . j = ∑ h ij
i =1
s
h i . = ∑ h ij
j=1
α =0,01
H1: Die Merkmale X und Y sind in der GG
nicht stochastisch unabhängig.
Testverfahren IV
32
16
Legitimität der Geburten und Alter der Mutter
(Kreuztabelle, Berechnung der Prüfgröße) - Beispiel
Alter der
Mutter
Beobachtete Häufigkeiten
ehelich
10 - 20
hi.
nichtehelich
60
260
Residuen
Erwartete Häufigkeiten
Total
Ehelich
320
Nichtehelich
Ehelich
146,7
-113,3
113,3
-616,7
616,7
173,3
Nichtehelich
20 - 25
900
1.900
2.800
1.516,7
1.283,3
25 - 30
2.600
2.200
4.800
2.600,0
2.200,0
0,0
0,0
30 - 35
2.100
900
300
1.625,0
1.375,0
475,0
-475,0
35 - 40
700
200
900
487,5
412,5
212,5
-212,5
40 - 45
140
40
180
97,5
82,5
42,5
-42,5
6.500
5.500
12.000
Total h.j
n=12.000
1. Prüfgröße:
r
s
χ ² = ∑∑
(h − h )²
o
ij
h
i =1 j=1
r=6
e
ij
s=2
χ ν ;1−α = χ
2
e
ij
r
s
= 1254,18 K(α ) = {χ ² : χ ² = ∑∑
h i. ⋅ h. j
n
(h − h )²
i =1 j=1
ν=(r-1)(s-1)=5
2
5;0,95
h ije =
2. Kritischer Bereich:
o
ij
e
ij
e ij = h ijo − h ije
> χ ν2 ;1−α }
h ije
1254,18>15,086 => H0 kann verworfen werden.
Zwischen beiden Merkmalen besteht doch ein
Zusammenhang. Sie sind nicht statistisch unabhängig.
= 15,086
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
33
Zusammenhang zwischen Geschlecht und Rauchen - Beispiel
Beispiel: In einer Untersuchung zum Thema Rauchen bei 484 Männern und 516 Frauen
ergabt sich folgende bivariate Häufigkeitsverteilung. Die Ergebnisse werden in der folgende
Vierfeldertafel dargestellt. Untersuchen Sie bei einem Signifikanzniveau von 0,05, ob es einen
Zusammenhang zwischen dem Geschlecht X und dem Status Y Raucher oder Nichtraucher gibt?
Quelle: Mikrozensus 2003, Tabelle 77.
Raucher Nichtraucher Total
Residuen
Erwartete Häufigkeit
männlich
161
323
484
133,1
350,9
27,9
- 27,9
weiblich
114
402
516
141,9
374,1
- 27,9
27,9
Total
275
725
1000
H0: Die Merkmale X und Y sind in der
GG stochastisch unabhängig.
H1: Die Merkmale X und Y sind in der
GG nicht stochastisch unabhängig.
2
2
χ ² = ∑∑
i =1 j=1
(h ijo − h ije )²
h ije
= 15,633
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
h ije =
h i. ⋅ h . j
n
e ij = h ijo − h ije
r
s
K(α ) = {χ ² : χ ² = ∑∑
i =1 j=1
ν=(r-1)(s-1)=(2-1)(2-1)=1
(h ijo − h ije )²
h ije
> χ ν2 ;1−α }
χ ν2 ;1−α = χ 12;0,95 = 3,841
15,633 > 3,841 => H0 kann verworfen werden,
d. h. zwischen dem Geschlecht und dem Status
(Raucher/Nichtraucher) besteht ein Zusammenhang.
Testverfahren IV
34
17
Zusammenhang zwischen Wirtschaftssektor und Wohngebiet
Beispiel: Untersuchen Sie ob, zwischen Wohngebiet X und Wirtschaftssektor Y einen
Zusammenhang besteht. Nutzen Sie α=0,05 und folgende bivariate Häufigkeitsverteilung.
Quelle: Datenreport 2004, S. 102, Tabelle 4: Erwerbstätige nach Wirtschaftsbereichen
Früheres
Bundesgebiet
Primärer
Sektor
Sekundärer
Sektor
Neue Länder
Berlin-Ost
20
268
Erwartete Häufigkeiten
Total
26
6
319
51
Tertiärer
Sektor
537
118
Total
825
175
H0: Die Merkmale X und Y sind in
der GG stochastisch unabhängig.
655
h ije =
6
-1,45
1,45
268
51
4,825
4,825
537
118
-3,375
3,375
e ij = h − h
o
ij
h i. ⋅ h. j
n
3
2
χ ² = ∑∑
1000
i =1 j=1
r
s
K(α ) = {χ ² : χ ² = ∑∑
H1: Die Merkmale X und Y sind in der
GG nicht stochastisch unabhängig.
Residuen
20
(h ijo − h ije )²
i =1 j=1
ν=(r-1)(s-1)
=(3-1)(2-1)=2
h ije
e
ij
(h ijo − h ije )²
h ije
= 1,186
> χ ν2;1− α }
χ ν2 ;1−α = χ 22;0,95 = 5,991
1,186 < 5,991 => H0 kann nicht verworfen werden, d. h. zwischen der Region und
der Anzahl der Beschäftigten im jeweiligen Wirtschaftsbereich besteht kein Zusammenhang.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
35
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Testverfahren IV
36
18
Zugehörige Unterlagen
Herunterladen