Nichtparametrische Tests

Werbung
Nichtparametrische Tests
¾ Chi-Quadrat-Anpassungstest
¾ Unabhängigkeitstest
¾ Homogenitätstest
Bibliografie:
¾ Bleymüller / Gehlert / Gülicher
Verlag Vahlen
Statistik für Wirtschaftswissenschaftler
¾ PowerPointPresentationen (Prof. Kück/ Dr. Ricabal),
¾ Vorlesungsskript für Statistik II (Dr. Pu Chen),
¾ http://www.wiwi.uni-rostock.de/vwl/statistik/download/ba/stat2/
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
1
Testverfahren - Eine Klassifikation
Parametrische Tests:
Nichtparametrische Tests:
Prüfung von Hypothesen über die
Parameter der Grundgesamtheiten
Prüfung von Hypothesen über die
Verteilung der Grundgesamtheiten
Beispiele:
Beispiele:
¾ Tests über den Mittelwert einer
normalverteilten Grundgesamtheit
¾Anpassungstest
¾ Test zum Vergleich zweier
Mittelwerte
¾ Homogenitätstest
¾Unabhängigkeitstest
¾ Varianzanalyse
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
2
1
Anpassungstests - Problemstellung
Grundgesamtheit
Stichprobe
F: unbekannte Verteilungsfunktion
Fe: theoretische Verteilungsfunktion der
Grundgesamtheit (angenommene)
Fe
Fo: beobachtete (empirische) Verteilung
Angenommene
theoretische
Verteilung
Diskrete Verteilungen
Stetige Verteilungen
Gleichverteilung
Gleichverteilung
Binomialverteilung
Exponentialverteilung
Hypergeometrische
Verteilung
Normalverteilung
Poissonverteilung
Chi-Quadrat, t, F
H0: Die in der Stichprobe beobachtete (empirische) Verteilung
steht nicht im Widerspruch mit der für die unbekannte Verteilung
der Grundgesamtheit gemachten Annahme Fe.
H0: F=Fe
H1: F≠Fe
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Signifikanzniveau α
BA_Testverfahren III
3
Verteilung des durchschnittlichen Benzinverbrauches für 50 Taxen eines
Unternehmens (Hypothesenformulierung) - Beispiel
i
Klasse
Abs. Häufigkeit
1
5,0
-
5,6
4
2
5,6
-
6,2
6
3
6,2
-
6,8
8
4
6,8
-
7,4
9
5
7,4
-
8,0
7
6
8,0
-
8,6
5
7
8,6
-
9,2
5
8
9,2
-
9,8
4
9
9,8
-
10,4
1
Empirische Verteilung
10,0
9,0
8,0
Abs. Häufigkeiten
7,0
6,0
5,0
4,0
3,0
2,0
1,0
0,0
4,7
5,3
5,9
6,5
7,1
7,7
8,3
8,9
9,5 10,1 10,7 11,3
Verbrauch in l/ 100 km
Dichtefunktion einer Normalverteilung
0,30
10
10,4
-
11,0
Summe
1
0,20
n=50
H0: Der durchschnittliche Benzinverbrauch
ist normalverteilt.
0,10
0,00
2
H1: Der durchschnittliche Benzinverbrauch
ist nicht normalverteilt.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
3
4
5
6
7
8
9
10
11
12
13
Signifikanzniveau α
4
2
Chi-Quadrat-Anpassungstest
Absolute Häufigkeiten
Hypothesenpaar
H0: F=Fe
Signifikanzniveau α
Klasse
i
Beobachtete
(observed)
hoi
Erwartete
theoretische
hei
Differenz
hoi - hei
1
ho1
he1
ho1 - he1
2
ho
he2
ho2 - he2
.
.
.
.
.
.
.
.
.
.
.
.
k
hok
hek
hok - hek
Summe
n
n
0
H1: F≠Fe
Prüfgröße:
(h 0 − h e ) 2
χ 2 = ∑ i e i ~ χ 2r
hi
i =1
k
r=k-m-1
2
Bedingung: hei ≥ 5 für alle i=1, 2, . . . , k
m: Zahl der für die theoretische
Verteilung geschätzten Parameter
α
Kritischer Bereich:
k
K(α ) = {χ 2 : χ 2 = ∑
i =1
(h i0 − h ie ) 2
> χ 12−α;r }
h ie
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
H0 nicht ablehnen
H0 ablehnen
BA_Testverfahren III
5
Chi-Quadrat-Anpassungstest für die Gleichverteilung
der Augenzahl (Hypothesenformulierung) - Beispiel
Beispiel: Bei 90 Ausspielungen eines Würfels seien die in der folgenden Tabelle
wiedergegebenen absoluten Häufigkeiten beobachtet worden (observed). Auf einem
Signifikanzniveau von α=0,05 soll geprüft werden, ob die Annahme, dass es sich hier um
einen idealen Würfel handelt, abgelehnt werden kann oder nicht.
Augenzah xi
Abs. Häufigkeit hoi
1
19
2
H0: F=Fe
H0: Die Augenzahl ist gleichverteilt.
13
H1: F≠Fe
Signifikanzniveau α =0,05
3
14
F: unbekannte Verteilungsfunktion der Augenzahl.
4
12
5
17
Fe: diskrete Gleichverteilung
6
15
Es gilt:
Summe
n=90
fe: Wahrscheinlichkeitsfunktion
⎧1
= 0,1 6
⎪⎪
f e (x i ) = W(X = x i ) = ⎨ 6
⎪
⎪⎩
0
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
für
i = 1,2, . . . , 6
für alle anderen
Fälle
BA_Testverfahren III
6
3
Chi-Quadrat-Anpassungstest für die Gleichverteilung
der Augenzahl (Kritischer Bereich) - Beispiel
Augenzah
xi
Abs. Häufigkeit
hoi
1
19
2
13
3
14
4
12
5
17
6
15
Summe
n=90
H0: Die Augenzahl ist gleichverteilt.
H1: Die Augenzahl ist nicht gleichverteilt.
k
Prüfgröße:
χ2 = ∑
i =1
k=6
r=k-1-m
(h i0 − h ie ) 2
~ χ 2r
h ie
r=5
m=0
α=0,05
Es ist kein Parameter
zu schätzen.
Kritischer Bereich:
K(α ) = {χ 2 : χ 2 > χ 12−α;r }
11,070
H0 nicht ablehnen
2
χ 12−α;r = χ 0,95;5
= 11,070
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
H0 ablehnen
BA_Testverfahren III
7
Chi-Quadrat-Anpassungstest für Gleichverteilung der
Augenzahl (Berechnung der hei und der Prüfgröße) -Beispiel
Augenzahl
xi
Abs. obs.
Häufigkeit
hoi
pi
Erw. abs.
Häufigkeit
hei
Differenzen
(hoi - hei)
(h i0 − h ie ) 2
h ie
1
19
0,167
15
4
1,067
2
3
13
0,167
15
-2
0,267
14
0,167
15
-1
0,067
4
12
0,167
15
-3
0,600
5
17
0,167
15
2
0,267
6
15
0,167
15
0
0,000
Summe
n=90
1,0
90
11,070
H0 nicht ablehnen
H0 ablehnen
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
p i = W(X = x i ) = f e ( x i ) =
pi ≈
1
≈ 0,167
6
h ie
n
2,267
k
α=0,05
Für die diskrete
Gleichverteilung gilt:
χ2 = ∑
i =1
(h i0 − h ie ) 2
= 2,267
h ie
h ie = np i = 90 ⋅
1
= 15 > 5
6
2,267 < 11,070 => H0 ist nicht zu verwerfen, d. h. die
beobachteten Differenzen zwischen den empirischen und
den theoretisch erwarteten Häufigkeiten können als
zufällig interpretiert werden. Der Würfel ist „ideal“.
Der β-Fehler bei dieser Entscheidung ist unbekannt.
BA_Testverfahren III
8
4
Chi-Quadrat-Anpassungstest für die Gleichverteilung
des Einkommen (Aufgabenstellung) - Beispiel
Beispiel: Es soll getestet werden (α=0,05), ob die Einkommen in einer untersuchten
Grundgesamtheit zwischen 1000 und 6000 EUR gleichverteilt sind. Das Einkommen von
200 zufällig ausgewählten Personen hat folgende empirische Häufigkeitsverteilung:
Abs. Häufigkeit
xui - xoi
hoi
1
1000 - 1500
15
2
1500 - 2000
20
3
2000 - 2500
20
4
2500 - 3000
22
5
3000 - 3500
28
6
3500 - 4000
31
7
4000 - 4500
18
8
4500 - 5000
14
9
5000 - 5500
16
10
5500 - 6000
16
Summe
Empirische Verteilung
35
Beobachtete abs.
Häufigkeiten
Klasse
i
30
25
20
15
10
5
0
750
1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250
Einkommen
fe: Dichtefunktion
⎧ 1
⎪⎪
f e (x) = ⎨ 5000
⎪
⎪⎩ 0
n=200
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
für 1000 ≤ x ≤ 6000
für alle anderen Fälle
9
Chi-Quadrat-Anpassungstest für die Gleichverteilung
des Einkommen (Hypothesen) - Beispiel
Empirische Verteilung
Beobachtete abs.
Häufigkeiten
35
H0: Das Merkmal Einkommen ist
in der Grundgesamtheit (stetig)
gleichverteilt.
H0: F=Fe
30
25
20
H1: F≠Fe
15
10
5
α=0,05
0
750
1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250
Einkommen
F: unbekannte Verteilungsfunktion der Einkommen
Theoretische Gleichverteilung
Fe: Verteilungsfunktion der stetigen Gleichverteilung
Erwartete abs.
Haüfigkeiten
25
20
15
10
5
0
750
1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250
Einkommen
fe: Dichtefunktion
⎧ 1
⎪⎪
f e (x) = ⎨ 5000
⎪
⎩⎪ 0
⎧
0
⎪ x − 1000
F e (x) = ⎨
⎪ 5000
1
⎩
für
x < 1000
für 1000 ≤ x ≤ 6000
für
x > 6000
für 1000 ≤ x ≤ 6000
für alle anderen Fälle
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
10
5
Chi-Quadrat-Anpassungstest für die Gleichverteilung
des Einkommen (Kritischer Bereich) - Beispiel
H0: Das Merkmal Einkommen ist in der
Grundgesamtheit (stetig) gleichverteilt.
H0: F=Fe
H1: F≠Fe
Kritischer Bereich:
F: unbekannte Verteilungsfunktion der Einkommen
K(α ) = {χ 2 : χ 2 > χ 12−α;r }
Fe: Verteilungsfunktion der stetigen Gleichverteilung
2
χ 12−α;r = χ 0,95;9
= 16,919
Prüfgröße:
k
χ2 = ∑
i =1
k=10
(h i0 − h ie ) 2
~ χ 2r
h ie
r=k-m-1
α=0,05
r=9
m=0
16,919
H0 nicht ablehnen
Es ist kein Parameter
zu schätzen.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
H0 ablehnen
BA_Testverfahren III
11
Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen
(Berechnung der erwarteten Häufigkeiten) - Beispiel
Klasse
Obs.abs.
Häufigkeit
Erw. abs.
Häufigkeit
i
xui - xoi
hoi
pi
hei
1
1000 - 1500
15
0,1
20
2
1500 - 2000
20
0,1
20
3
2000 - 2500
20
0,1
20
4
2500 - 3000
22
0,1
20
5
3000 - 3500
28
0,1
20
6
3500 - 4000
31
0,1
20
7
4000 - 4500
18
0,1
20
8
4500 - 5000
14
0,1
20
9
5000 - 5500
16
0,1
20
10
5500 - 6000
16
0,1
20
n=200
1,0
200
Summe
p i = W(x iu < X < x i0 ) = F e (x i0 ) − F e (x iu )
=
x i0 − 1000 x iu − 1000 x i0 − x iu
−
=
5000
5000
5000
Für konstante Klassenbreite c gilt:
p i = W(x iu < X < x i0 ) =
BA_Testverfahren III
x i0 − x iu
c
=
5000
5000
In diesem Fall (c=500)
pi =
pi ≈
k=10
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Bei der stetigen Gleichverteilung
gilt für alle i=1, 2, . . . , k:
c
500
=
= 0,1
5000 5000
h ie
n
h ie ≈ np i = 20 > 5
12
6
Chi-Quadrat-Anpassungstest für die Gleichverteilung
des Einkommen (Berechnung der Prüfgröße) - Beispiel
Klasse
i
xu i
Obs. abs. Erw.abs.
Differenz (hoi - hei)2/ hei
Häufigkeit Häufigkeit
x oi
hoi
hei
hoi - hei
1
1000
1500
15
20
-5
1,25
2
1500
2000
20
20
0
0,00
3
2000
2500
20
20
0
0,00
4
2500
3000
22
20
2
0,20
5
3000
3500
28
20
8
3,20
6
3500
4000
31
20
11
6,05
7
4000
4500
18
20
-2
0,20
8
4500
5000
14
20
-6
1,80
9
5000
5500
16
20
-4
0,80
10
5500
6000
16
20
-4
0,80
n=200
200
0
14,30
k
Summe
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
χ2 = ∑
i =1
BA_Testverfahren III
(h i0 − h ie ) 2
h ie
13
Chi-Quadrat-Anpassungstest für die Gleichverteilung
der Einkommen (Entscheidung) - Beispiel
Differenzen
Empirische Verteilung
15
Beobachtete abs.
Häufigkeiten
35
30
10
25
5
20
15
0
10
5
-5
0
750
-10
1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250
Klassen
Einkommen
Theoretische Gleichverteilung
Erwartete abs.
Haüfigkeiten
25
20
k
χ2 = ∑
i =1
15
(h i0 − h ie ) 2
= 14,30
h ie
2
χ 12−α;r = χ 0,95;9
= 16,919
10
5
0
750
1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250
α=0,05
Einkommen
14,30 < 16,916 => H0 ist nicht zu verwerfen.
Die Stichprobenwerte entstammen aus einer
gleichverteilten Grundgesamtheit. Die Differenzen
zwischen beobachteten und erwarteten Häufigkeiten
können als zufällig angesehen werden.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
16,919
H0 nicht ablehnen
H0 ablehnen
14
7
Chi-Quadrat-Anpassungstest für die Normalverteilung
des Benzinverbrauches (Aufgabenstellung) - Beispiel
Beispiel: Es soll getestet werden, ob der monatliche Kraftstoffsverbrauch (in l pro 100
km) der 50 Taxen eines Unternehmens normalverteilt ist. Der Verbrauch eines
Abrechnungsmonates wird in der folgenden Häufigkeitstabelle dargestellt. Nutzen Sie
α=0,05 für den Test.
Empirische Verteilung
Klasse
Abs. Häufigkeit
1
5,0
-
5,6
4
2
5,6
-
6,2
6
3
6,2
-
6,8
8
4
6,8
-
7,4
9
10,0
9,0
8,0
7,0
Abs. Häufigkeiten
i
6,0
5,0
X ~ N( µ , σ ²)
4,0
3,0
2,0
1,0
5
7,4
-
8,0
7
6
8,0
-
8,6
5
7
8,6
-
9,2
5
8
9,2
-
9,8
4
9
9,8
-
10,4
1
0,20
10
10,4
-
11,0
1
0,10
fe: Dichtefunktion
0,0
4,7
5,3
5,9
6,5
7,1
7,7
8,3
8,9
9,5 10,1 10,7 11,3
Verbrauch in l/ 100 km
Dichtefunktion einer Normalverteilung
Summe
0,30
n=50
f e (x) =
1
σ 2π
e
1 x −µ 2
)
− (
2 σ
0,00
2
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
3
4
5
6
7
8
9
10
11
12
13
BA_Testverfahren III
15
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Hypothesenformulierung) - Beispiel
i
Klasse
Abs.
Häufigkeit
Empirische Verteilung
9,0
8,0
1
5,0
-
5,6
4
2
5,6
-
6,2
6
3
6,2
-
6,8
8
3,0
9
1,0
4
6,8
-
7,4
5
7,4
-
8,0
7
6
8,0
-
8,6
5
7
8,6
-
9,2
5
8
9,2
-
9,8
4
9
9,8
-
10,4
1
10
10,4
-
11,0
1
Summe
Abs. Häufigkeiten
5,0
4,0
0,10
0,00
0,0
4,7
5,3
5,9
6,5
7,1
7,7
8,3
8,9
9,5 10,1 10,7 11,3
2
3
4
5
6
7
8
9
10
11
12
13
Verbrauch in l/ 100 km
H0: F=Fe
H0: Der Verbrauch ist in der
GG normalverteilt.
H1: F≠Fe
α=0,05
F: unbekannte Verteilungsfunktion des Verbrauches
Fe: Verteilungsfunktion der Normalverteilung
∫σ
−∞
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
6,0
2,0
n=50
F e (x) =
0,20
7,0
x
X ~ N(µ, σ 2 )
0,30
10,0
1
2π
e
1 v −µ 2
)
− (
2 σ
BA_Testverfahren III
dv
µ und σ² sind unbekannt, sie
müssen geschätzt werden
(m=2).
16
8
Chi-Quadrat-Anpassungstest für die Normalverteilung
des Benzinverbrauches (Parameterschätzung) - Beispiel
Klasse
Abs.
Häufigkeit
Klassenmitte
µ̂ = x =
i
xui
xoi
hoi
xi
xi*hoi
x²i*hoi
1
5,0
5,6
4
5,3
21,2
112,36
2
5,6
6,2
6
5,9
35,4
208,86
3
6,2
6,8
8
6,5
52,0
338,00
4
6,8
7,4
9
7,1
63,9
453,69
5
7,4
8,0
7
7,7
53,9
415,03
6
8,0
8,6
5
8,3
41,5
344,45
8,6
7
9,2
5
8,9
44,5
396,05
8
9,2
9,8
4
9,5
38,0
361,00
9
9,8
10,4
1
10,1
10,1
102,01
10
10,4
11,0
1
10,7
10,7
114,49
371,2
2845,94
Summe
n=50
=
371,2
= 7,424 Liter / 100 km
50
σ̂ ² = s ² =
1 n
∑ (x i − x)² ⋅ h io
n − 1 i =1
n
n
(∑ x i ⋅ h io )²
1
[∑ x i2 ⋅ h io − i =1
]
n − 1 i =1
n
1
371,2²
=
(2845,94 −
) = 1,8398
49
50
=
Die Anzahl der geschätzten
Parameter ist hier m=2
σ̂ = s = s ² = 1,8398 = 1,356 Liter 100 km
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
1 n
∑ x i ⋅ h io
n i =1
BA_Testverfahren III
17
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Prüfgröße und Kritischer Bereich) - Beispiel
H0: F=Fe
H0: Das Merkmal Verbrauch ist in der GG
normalverteilt mit den Parametern µ und σ².
H1: F≠Fe
F: unbekannte Verteilungsfunktion des Einkommen
Fe: Verteilungsfunktion der Normalverteilung
X ~ N( µ , σ ²)
Prüfgröße:
µ̂ = 7,424 σ̂ = 1,356
Kritischer Bereich:
K(α ) = {χ 2 : χ 2 > χ 12−α;r }
α=0,05
m=2
(h 0 − h e ) 2
χ 2 = ∑ i e i ~ χ 2r
hi
i =1
k
r=k-1-m
k=10
χ 12−α ;r
H0 nicht ablehnen H0 ablehnen
Die endgültige Anzahl r der Freiheitsgrade der Chi-Quadrat-Verteilung wird nach der
Berechnung der erwarteten absoluten Häufigkeiten bestimmt. Wegen hei ≥ 5 müssen oft
einige Klassen zusammengefasst werden, damit ändert sich auch die Anzahl der Klassen k
und schließlich r.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
18
9
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Erwartete Häufigkeiten für i=2, . . . , k-1 ) - Beispiel
i
xui
xoi
zoi
FZ(z0i)
hei
1
-∞
5,6
-1,345 0,0894 0,0894
2
5,6
6,2
-0,902 0,1834
0,0941 4,70
3
6,2
6,8
-0,460 0,3227
0,1393
6,97
4
6,8
7,4
-0,018 0,4929
0,1702
8,51
5
7,4
8,0
0,425 0,6645
0,1715 8,58
6
8,0
8,6
0,867 0,8070
0,1426
1,309 0,9048 0,0978 4,89
pi
4,47
7
8,6
9,2
9,2
9,8
1,752 0,9601
0,0553
2,76
9
9,8
10,4
2,195 0,9858
0,0258
1,29
10 10,4
+∞
+∞
0,0141
0,71
z iu =
h ie
n
x iu − µ o x io − µ
zi =
σ
σ
µ̂ = 7,424
σ̂ = 1,356
Aus xui= xoi-1 folgt:
z iu = z i0−1 ⇒ FZ (z iu ) = FZ (z io−1 )
⇒ p i = FZ (z io ) − FZ (z io−1 )
Das bedeutet, man benötigt nur zoi
n=50
pi ≈
x0 − µ
x iu − µ
)
<Z< i
σ
σ
= FZ (z i0 ) − FZ (z iu )
7,13
8
1
p i = W(x iu < X < x i0 ) = W(
Nutzung der Tabelle 12 der
Formelsammlung.
Für negative Zahlen gilt:
h ie ≈ np i
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
FZ (− z) = 1 − FZ (z)
BA_Testverfahren III
19
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Erwartete Häufigkeiten für i= 1 und i=k) - Beispiel
i
xui
xoi
1
-∞
5,6
zui
-∞
zoi
pi
hei
-1,345
0,0894
4,47
2
3
Für die erste Klasse gilt:
p1 = W(−∞ < X < x 10 ) = W(−∞ < Z <
x 10 − µ
)
σ
= FZ (z10 ) − FZ (−∞)
4
Nun wird xu1=-∞ gemacht.
5
6
Nun wird xo10=+∞ gemacht
7
h ie ≈ np i
= FZ (z10 ) − 0 = FZ (−1,345) = 0,0894
n=50
µ̂ = 7,424
σ̂ = 1,356
8
9
10
10,4
-∞
1,786
+∞
0,0141
0,71
Für die letzte Klasse gilt:
u
u
p10 = W(x 10
< X < ∞) = W(z10
< Z < ∞)
u
0
= FZ (∞) − FZ (z10
) = 1 − FZ (z10
)
= 1 − FZ (1,786) = 1 − 0,9859 = 0,0141
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
FZ (− z) = 1 − FZ (z)
BA_Testverfahren III
Tabelle 12.
20
10
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Berechnung von Prüfgröße und r) - Beispiel
Differenz
i
xui
xoi
hoi
hei
1
-∞
5,6
4
2
5,6
6,2
6
3
6,2
6,8
8
4
6,8
7,4
9
5
7,4
8,0
7
6
8,0
8,6
5
7,13
7
8,6
9,2
5
(h 0i − h ie ) 2
h ie
4,47
10
4,70
9,17
0,83
0,0749
1,03
0,1535
8,51
0,49
0,0282
8,58
-1,58
0,2895
-2,13
0,6357
1,35
0,1893
6,97
11
4,89
8
9,2
9,8
4
2,76
9
9,8
10,4
1
1,29
10
10,4
+∞
1
0,71
Summe
hoi - hei
50
50
9,65
Die Klassenanzahl ist k=6.
k=6
r=k-1-m=3
m=2
2
χ 12−α; r = χ 0,95;3
= 7,815
1,3711
1,3711< 7,815 => H0 ist nicht zu verwerfen. Die
Stichprobenwerte entstammen aus einer normalverteilten
Grundgesamtheit.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Alle Klassen mit hei<5 werden
mit den Nachbarklassen
zusammengefasst.
k
χ2 = ∑
i =1
(h i0 − h ie ) 2
= 1,3711
h ie
BA_Testverfahren III
21
Chi-Quadrat-Anpassungstest für die Normalverteilung des
Benzinverbrauches (Kritischer Bereich und Entscheidung) - Beispiel
2
χ 12−α;r = χ 0,95;3
= 7,815
Empirische Verteilung
10
9
χ2 =
8
Abs. Häufigkeiten
7
k
∑
i =1
6
(h i0 − h ie ) 2
= 1,3711
h ie
5
4
α=0,05
3
2
1
0
3,5
4,1
4,7
5,3
5,9
6,5
7,1
7,7
8,3
8,9
9,5
10,1
10,7
11,3
11,9
12,5
Verbrauch in l/ 100 km
7,815
H0 nicht ablehnen
8,00
7,00
H0 ablehnen
Abs. Häufigkeiten
6,00
1,3711< 7,815 => H0 ist nicht zu verwerfen. Die
Differenzen zwischen beobachteten und empirischen
Häufigkeiten und dadurch die leichte Asymmetrie der
empirische Häufigkeitsverteilung kann als zufällig
angesehen werden.
5,00
4,00
3,00
2,00
1,00
0,00
3 ,5
4 ,1
4 ,7
5,3
5,9
6 ,5
7,1
7,7
8 ,3
8 ,9
9 ,5
10 ,1
10 ,7
11,3
11,9
Ve rbrauch in l/ 100 km
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
22
11
Unabhängigkeitstest - Problemstellung
Grundgesamtheit
Statistische Einheit 1
x1
y1
.
.
.
Statistische Einheit N
xN
yN
H0: Die Merkmale X und Y sind in
der GG stochastisch unabhängig.
H1: Die Merkmale X und Y sind in der
GG nicht stochastisch unabhängig.
Signifikanzniveau α
Für alle Paare (x, y) gilt :
Es gibt ein Paar (x, y) mit :
f (x, y) ≠ f X (x) ⋅ f Y (y)
f (x, y) = f X (x) ⋅ f Y (y)
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
23
Unabhängigkeitstest - Kontingenztabelle
Bivariate empirische Häufigkeitsverteilung
(Kreuz- bzw. Kontingenztabelle)
s
h i . = ∑ h ij
j=1
Ausprägungen des Merkmals Y
Ausprägungen des
Merkmals X
y1
y2
...
yj
...
ys
x1
h11
h12
...
h1j
...
h1s
h1.
x2
h21 h22
...
h2j
...
h2s
h2.
..
.
... ...
...
...
r
h . j = ∑ h ij
r
s
hi2
...
xi
hi1
..
.
... ...
xr
hr1
hr2
...
hrj
h.1
h.2
...
h.j
Total h.j
i =1
r
s
i =1
j=1
...
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
hij
...
his
hi.
...
...
...
hrs
hr.
...
h.s
n
...
n = ∑∑ h ij = ∑ h i . = ∑ h . j
i =1 j=1
Total
hi.
hij: empirische (beobachtete) absolute Häufigkeit des
Paares (xi, yj) für i=1, 2, . . . , r und j=1, 2, . . . , s)
BA_Testverfahren III
24
12
Unabhängigkeitstest
-Prüfgröße und kritischer BereichH0: Die Merkmale X und Y sind in der GG stochastisch unabhängig.
2. Kritischer Bereich:
Für alle Paare ( x i , y j ) gilt :
f (x i , y j ) = f X (x i ) ⋅ f Y (y j )
h ij
n
=
r
χ ² = ∑∑
i =1 j=1
h ijo = h ij
h ije
> χ 2v;1−α }
3. Entscheidungsregel
1. Prüfgröße:
s
(h ijo − h ije )²
i =1 j=1
h i. ⋅ h . j
h i. h . j
⋅
⇔ h ije =
n n
n
r
s
K(α ) = {χ ² : χ ² = ∑∑
α
(h ijo − h ije )²
h ije
~ χ ν2
χ 2v;1−α
ν = (r − 1)(s− 1)
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
H0 nicht ablehnen
H0 ablehnen
BA_Testverfahren III
25
Legitimität der Geburten und Alter der Mutter - Beispiel
Beispiel: Im Jahr 2000 wurden in MV etwa 12.000 Kinder geboren. Die Zahl der
Lebendgeborenen lässt sich nach den beiden Merkmale „Alter der Mutter“ und
„Legitimität der Geburt“ in einer bivariaten Häufigkeitstabelle darstellen. Es soll mit
α=0,01 untersucht werden, ob zwischen dem Alter der Mutter und der Legitimität der Geburt
statistische Unabhängigkeit besteht.
Alter der Mutter (Jahre)
Legitimität der Geburt (Anzahl)
von . . . bis unter . . .
ehelich
nichtehelich
Total
15 - 20
60
260
320
20 - 25
900
1.900
2.800
25 - 30
2.600
2.200
4.800
30 - 35
2.100
900
300
35 - 40
700
200
900
40 - 45
140
40
180
6.500
5.500
12.000
Total
H0: Die Merkmale X und Y sind in der GG
stochastisch unabhängig.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
hij: beobachtete abs.
Häufigkeiten für
i=1, 2, . . . , 6 und j=1, 2
r
h . j = ∑ h ij
i =1
s
h i . = ∑ h ij
j=1
α =0,01
H1: Die Merkmale X und Y sind in der GG
nicht stochastisch unabhängig.
BA_Testverfahren III
26
13
Legitimität der Geburten und Alter der Mutter
(Kreuztabelle, Berechnung der Prüfgröße) - Beispiel
Alter der
Mutter
Beobachtete Häufigkeiten
ehelich
10 - 20
Total
hi.
nichtehelich
60
260
320
Residuen
Erwartete Häufigkeiten
Ehelich
Nichtehelich
Ehelich
146,7
-113,3
113,3
-616,7
616,7
173,3
Nichtehelich
20 - 25
900
1.900
2.800
1.516,7
1.283,3
25 - 30
2.600
2.200
4.800
2.600,0
2.200,0
0,0
0,0
30 - 35
2.100
900
300
1.625,0
1.375,0
475,0
-475,0
35 - 40
700
200
900
487,5
412,5
212,5
-212,5
40 - 45
140
40
180
97,5
82,5
42,5
-42,5
6.500
5.500
12.000
Total h.j
n=12.000
1. Prüfgröße:
r
s
χ ² = ∑∑
(h − h )²
o
ij
h
i =1 j=1
r=6
e
ij
s=2
χ ν ;1−α = χ
2
2
5;0,95
e
ij
h ije =
2. Kritischer Bereich:
r
s
= 1254,18 K(α ) = {χ ² : χ ² = ∑∑
i =1 j=1
ν=(r-1)(s-1)=5
h i. ⋅ h. j
n
(h − h )²
o
ij
e
ij
h ije
e ij = h ijo − h ije
> χ ν2 ;1−α }
1254,18>15,086 => H0 kann verworfen werden.
Zwischen beiden Merkmalen besteht doch ein
Zusammenhang. Sie sind nicht statistisch unabhängig.
= 15,086
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
27
Homogenitätstest - Problemstellung
Kreuztabelle
Merkmal X
Ausprägungen
x1
Total h.j
Stichproben
1
h11
2
...
h12 . . .
s
Total
hi.
h1s
h1.
x2
h21 h22 . . .
h2s
h2.
...
... ...
...
...
xr
hr1
hr2 . . .
hrs
hr.
h.1
h.2
h.s
n
...
Beim Chi-Quadrat-Homogenitättest
geht man von zwei oder auch mehr als
zwei Stichproben aus. Deswegen gehört
er zur Gruppe der Zwei- bzw.
Mehrstichprobentests. Geprüft wird, ob
alle Stichproben aus der gleichen
Grundgesamtheit stammen oder nicht.
H0: Die Stichproben stammen aus der gleichen Grundgesamtheit, d. h.
für alle Ausprägung xi (i=1, …, r) des Merkmals X gilt in jeder Teilgesamtheit j
(j=1, …, s):
f (x i / TG j ) = f X ( x i )
Signifikanzniveau α
H1: Es gibt ein xi in einer TG j, für die es gilt:
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
f (x i / TG j ) ≠ f X ( x i )
28
14
Homogenitätstest - Kreuztabelle
Stichproben
1
2
...
j
...
s
Total
hi.
h11
h12
...
h1j
...
h1s
h1.
x2
h21
h22
...
h2j
...
..
.
...
...
xi
hi1
hi2
..
.
...
...
xr
hr1
hr2
...
hrj
h.1
h.2
...
h.j
x1
Klassierung
der Verteilung
Total h.j
h2s
h2.
...
...
his
hi.
...
...
...
hrs
hr.
...
h.s
n
...
s
r
h i . = ∑ h ij
h . j = ∑ h ij
j=1
r
i =1
s
i =1 j=1
...
hij
...
...
r
s
i =1
j=1
n = ∑∑ h ij = ∑ h i . = ∑ h . j
H 0 : f (x i / TG j ) = f X ( x i )
h ij
h .j
=
h i. ⋅ h .j
h i.
⇔ h ije =
n
n
hij: empirische (beobachtete) absolute Häufigkeit der Ausprägung xi in der
Stichprobe yj (für i=1, 2, . . . , r und j=1, 2, . . . , s)
Ausgehen von der Nullhypothese können die erwarteten absoluten
Häufigkeiten heij über die schon bekannten Formel des Unabhängigkeitstests
berechnet werden.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
29
Homogenitätstest
-Prüfgröße und kritischer Bereich2. Kritischer Bereich:
1. Prüfgröße:
r
s
χ ² = ∑∑
(h ijo − h ije )²
h
i =1 j=1
e
ij
~ χ ν2
r
s
K(α ) = {χ ² : χ ² = ∑∑
(h ijo − h ije )²
i =1 j=1
h
e
ij
> χ 2v;1−α }
ν = (r − 1)(s− 1)
h = h ij
o
ij
h ije =
h i. ⋅ h . j
3. Entscheidungsregel
n
α
χ 2v;1−α
H0 nicht ablehnen
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
H0 ablehnen
30
15
Zusammenhang zwischen Geschlecht und Rauchen - Beispiel
Beispiel: In einer Untersuchung zum Thema Rauchen bei 484 Männern und 516 Frauen
ergabt sich folgende bivariate Häufigkeitsverteilung. Die Ergebnisse werden in der folgende
Vierfeldertafel dargestellt. Untersuchen Sie bei einem Signifikanzniveau von 0,05, ob die
Verteilungen beider Gruppen homogen sind?
Quelle: Mikrozensus 2003, Tabelle 77.
Raucher Nichtraucher Total
Residuen
Erwartete Häufigkeit
männlich
161
323
484
133,1
350,9
27,9
- 27,9
weiblich
114
402
516
141,9
374,1
- 27,9
27,9
Total
275
725
1000
H0: Die Stichproben für Männer und Frauen
stammen aus der gleichen Grundgesamtheit,
d. h. die Verteilung des Merkmals Rauchen
sind identisch in beiden Gruppen.
H1=~H0
h ije =
h i. ⋅ h. j
e ij = h ijo − h ije
n
r
2
2
i =1 j=1
(h ijo − h ije )²
h
e
ij
= 15,633
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
(h ijo − h ije )²
h ije
i =1 j=1
> χ ν2 ;1−α }
χ ν2 ;1−α = χ 12;0,95 = 3,841
ν=(r-1)(s-1)=(2-1)(2-1)=1
χ ² = ∑∑
s
K(α ) = {χ ² : χ ² = ∑∑
15,633 > 3,841 => H0 wird verworfen,
d. h. zwischen dem Geschlecht und dem Status
(Raucher/Nichtraucher) besteht eine Abhängigkeit.
BA_Testverfahren III
31
Zusammenhang zwischen Wirtschaftssektor und Wohngebiet
Beispiel: Untersuchen Sie, ob zwischen Wohngebiet X und Wirtschaftssektor Y einen
Zusammenhang besteht. Nutzen Sie α=0,05 und folgende bivariate Häufigkeitsverteilung.
Quelle: Datenreport 2004, S. 102, Tabelle 4: Erwerbstätige nach Wirtschaftsbereichen
Früheres
Bundesgebiet
Primärer
Sektor
Sekundärer
Sektor
Neue Länder
Berlin-Ost
20
6
268
51
Tertiärer
Sektor
537
118
Total
825
175
H0: Die Merkmale X und Y sind in
der GG stochastisch unabhängig.
H1: Die Merkmale X und Y sind in der
GG nicht stochastisch unabhängig.
Erwartete Häufigkeiten
Total
26
319
655
h ije =
Residuen
20
6
-1,45
1,45
268
51
4,825
4,825
537
118
-3,375
3,375
e ij = h − h
o
ij
h i. ⋅ h. j
n
3
2
χ ² = ∑∑
1000
i =1 j=1
r
s
K(α ) = {χ ² : χ ² = ∑∑
i =1 j=1
ν=(r-1)(s-1)
=(3-1)(2-1)=2
(h ijo − h ije )²
h ije
e
ij
(h ijo − h ije )²
h ije
= 1,186
> χ ν2;1− α }
χ ν2 ;1−α = χ 22;0,95 = 5,991
1,186 < 5,991 => H0 kann nicht verworfen werden, d. h. zwischen der Region und
der Anzahl der Beschäftigten im jeweiligen Wirtschaftsbereich besteht kein Zusammenhang.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
BA_Testverfahren III
32
16
Herunterladen