Nichtparametrische Tests Anpassungstests: Chi-Quadrat-Anpassungstest Kolmogorov-Smirmov-Anpassungstest Unabhängigkeitstest Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 1 Bibliografie ¾ Prof. Dr. Kück Universität Rostock Statistik, Vorlesungsskript, Abschnitt 7.2.5 und 7.2.6 ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen Statistik für Wirtschaftswissenschaftler ¾ http://www.wiwi.uni-rostock.de/~stat/download.htm Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 2 1 Testverfahren - Eine Klassifikation Parametrische Tests: Nichtparametrische Tests: Prüfung von Hypothesen über die Parameter der Grundgesamtheiten Prüfung von Hypothesen über die Verteilung der Grundgesamtheiten Beispiele: Beispiele: ¾ Tests über den Mittelwert einer normalverteilten Grundgesamtheit ¾Anpassungstest ¾ Test über das Verhältnis von Varianzen ¾Unabhängigkeitstest ¾Homogenitätstest ¾ Varianzanalyse Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 3 Anpassungstests - Problemstellung Grundgesamtheit Stichprobe F: unbekannte Verteilungsfunktion Fo: beobachtete (empirische) Verteilung Fe: Verteilungsfunktion der Nullhypothese (angenommene) Fe Diskrete Verteilungen Angenommene theoretische Verteilung H0: F=Fe H1: F≠Fe Stetige Verteilungen Gleichverteilung Gleichverteilung Binomialverteilung Exponentialverteilung Hypergeometrische Verteilung Normalverteilung Poissonverteilung Chi-Quadrat, t, F H0: Die in der Stichprobe beobachtete (empirische) Verteilung steht nicht im Widerspruch mit der für die unbekannte Verteilung der Grundgesamtheit gemachten Annahme Fe. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Signifikanzniveau α Testverfahren IV 4 2 Verteilung des durchschnittlichen Benzinverbrauches für 50 Taxen eines Unternehmens (Hypothesenformulierung) - Beispiel i Klasse Abs. Häufigkeit 1 5,0 - 5,6 4 2 5,6 - 6,2 6 3 6,2 - 6,8 8 4 6,8 - 7,4 9 5 7,4 - 8,0 7 6 8,0 - 8,6 5 7 8,6 - 9,2 5 8 9,2 - 9,8 4 9 9,8 - 10,4 1 Empirische Verteilung 10,0 9,0 8,0 Abs. Häufigkeiten 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 4,7 5,3 5,9 6,5 7,1 7,7 8,3 8,9 9,5 10,1 10,7 11,3 Verbrauch in l/ 100 km Dichtefunktion einer Normalverteilung 0,30 10 10,4 - 11,0 Summe 1 0,20 n=50 H0: Der durchschnittliche Benzinverbrauch ist normalverteilt. 0,10 0,00 2 3 4 H1: Der durchschnittliche Benzinverbrauch ist nicht normalverteilt. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 5 6 7 8 9 10 11 12 13 Signifikanzniveau α Testverfahren IV 5 Chi-Quadrat-Anpassungstest Absolute Häufigkeiten Hypothesenpaar H0: F=Fe Signifikanzniveau α H1: F≠Fe Prüfgröße: k χ2 = ∑ i =1 (h − h ) ~ χ 2r h ie 0 i e 2 i r=k-m-1 Klasse i Beobachtete (observed) hoi Erwartete theoretische hei Differenz hoi - hei 1 ho1 he1 ho1 - he1 2 ho2 he2 ho2 - he2 . . . . . . . . . . . . k hok hek hok - hek Summe n n 0 Bedingung: m: Zahl der für die theoretische Verteilung geschätzten Parameter he i ≥ 5 für alle i=1, 2, . . . , k α Kritischer Bereich: k K(α ) = {χ 2 : χ 2 = ∑ i =1 (h i0 − h ie ) 2 > χ 12−α;r } h ie Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV H0 nicht ablehnen H0 ablehnen 6 3 Chi-Quadrat-Anpassungstest für die Gleichverteilung der Augenzahl (Hypothesenformulierung) - Beispiel Beispiel: Bei 90 Ausspielungen eines Würfels seien die in der folgenden Tabelle wiedergegebenen absoluten Häufigkeiten beobachtet worden (observed). Auf einem Signifikanzniveau von α=0,05 soll geprüft werden, ob die Annahme, dass es sich hier um einen idealen Würfel handelt, abgelehnt werden kann oder nicht. Augenzah xi Abs. Häufigkeit hoi 1 19 2 H0: F=Fe H0: Die Augenzahl ist gleichverteilt. 13 H1: F≠Fe Signifikanzniveau α =0,05 F: unbekannte Verteilungsfunktion der Augenzahl. 3 14 4 12 5 17 Fe: diskrete Gleichverteilung 6 15 Es gilt: Summe n=90 fe: Wahrscheinlichkeitsfunktion ⎧1 ⎪⎪ = 0,1 6 f (x i ) = W(X = x i ) = ⎨ 6 ⎪ 0 ⎩⎪ für i = 1,2, . . . , 6 e für alle anderen Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Fälle Testverfahren IV 7 Chi-Quadrat-Anpassungstest für die Gleichverteilung der Augenzahl (Kritischer Bereich) - Beispiel Augenzah xi Abs. Häufigkeit hoi 1 19 2 13 3 14 4 12 5 17 6 15 Summe n=90 Kritischer Bereich: H0: Die Augenzahl ist gleichverteilt. H1: Die Augenzahl ist nicht gleichverteilt. Prüfgröße: k χ2 = ∑ i =1 k=6 (h i0 − h ie ) 2 ~ χ 2r h ie r=k-1-m Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik α=0,05 Es ist kein Parameter zu schätzen. K(α ) = {χ 2 : χ 2 > χ 12−α;r } 2 χ 12−α;r = χ 0,95;5 = 11,070 r=5 m=0 11,070 H0 nicht ablehnen Testverfahren IV H0 ablehnen 8 4 Chi-Quadrat-Anpassungstest für Gleichverteilung der Augenzahl (Berechnung der hei und der Prüfgröße) -Beispiel Augenzahl xi Abs. obs. Häufigkeit hoi pi Erw. abs. Häufigkeit hei 1 19 0,167 15 4 1,067 2 13 0,167 15 -2 0,267 3 14 0,167 15 -1 0,067 4 12 0,167 15 -3 0,600 5 17 0,167 15 2 0,267 6 15 0,167 15 0 0,000 Summe n=90 1,0 90 χ2 = ∑ α=0,05 i =1 11,070 H0 ablehnen p i = W(X = x i ) = f e ( x i ) = pi ≈ 1 ≈ 0,167 6 h ie n 2,267 k H0 nicht ablehnen Für die diskrete Gleichverteilung gilt: (h i0 − h ie ) 2 h ie Differenzen (hoi - hei) (h − h ) = 2,267 h ie 0 i e 2 i h ie = np i = 90 ⋅ 1 = 15 > 5 6 2,267 < 11,070 => H0 ist nicht zu verwerfen, d. h. die beobachteten Differenzen zwischen den empirischen und den theoretisch erwarteten Häufigkeiten können als zufällig interpretiert werden. Der Würfel ist „ideal“. Der β-Fehler bei dieser Entscheidung ist unbekannt. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 9 Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen (Aufgabenstellung) - Beispiel Beispiel: Es soll getestet werden (α=0,05), ob die Einkommen in einer untersuchten Grundgesamtheit zwischen 1000 und 6000 EUR gleichverteilt sind. Das Einkommen von 200 zufällig ausgewählten Personen hat folgende empirische Häufigkeitsverteilung: Abs. Häufigkeit i xui - xoi hoi 1 1000 - 1500 15 2 1500 - 2000 20 3 2000 - 2500 20 4 2500 - 3000 22 5 3000 - 3500 28 6 3500 - 4000 31 7 4000 - 4500 18 8 4500 - 5000 14 9 5000 - 5500 16 10 5500 - 6000 16 Summe Empirische Verteilung 35 Beobachtete abs. Häufigkeiten Klasse 30 25 20 15 10 5 0 750 Einkommen fe: Dichtefunktion ⎧ 1 ⎪⎪ f e (x) = ⎨ 5000 ⎪ ⎪⎩ 0 n=200 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 Testverfahren IV für 1000 ≤ x ≤ 6000 für alle anderen Fälle 10 5 Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen (Hypothesen) - Beispiel Empirische Verteilung Beobachtete abs. Häufigkeiten 35 H0: Das Merkmal Einkommen ist in der Grundgesamtheit (stetig) gleichverteilt. H0: F=Fe 30 25 20 H1: F≠Fe 15 10 5 α=0,05 0 750 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 Einkommen F: unbekannte Verteilungsfunktion der Einkommen Theoretische Gleichverteilung Fe: Verteilungsfunktion der stetigen Gleichverteilung Erwartete abs. Haüfigkeiten 25 20 15 10 ⎧ 0 ⎪ x − 1000 F e (x) = ⎨ ⎪ 5000 1 ⎩ 5 0 750 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 Einkommen fe: Dichtefunktion ⎧ 1 ⎪⎪ f e (x) = ⎨ 5000 ⎪ ⎪⎩ 0 x < 1000 für für 1000 ≤ x ≤ 6000 x > 6000 für für 1000 ≤ x ≤ 6000 für alle anderen Fälle Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 11 Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen (Kritischer Bereich) - Beispiel H0: Das Merkmal Einkommen ist in der Grundgesamtheit (stetig) gleichverteilt. H0: F=Fe H1: F≠Fe Kritischer Bereich: F: unbekannte Verteilungsfunktion der Einkommen K(α ) = {χ 2 : χ 2 > χ 12−α;r } Fe: Verteilungsfunktion der stetigen Gleichverteilung 2 χ 12−α;r = χ 0,95;9 = 16,919 Prüfgröße: k=10 k χ2 = ∑ i =1 (h i0 − h ie ) 2 ~ χ 2r h ie r=k-m-1 α=0,05 r=9 m=0 16,919 H0 nicht ablehnen Es ist kein Parameter zu schätzen. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV H0 ablehnen 12 6 Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen (Berechnung der erwarteten Häufigkeiten) - Beispiel Klasse Obs.abs. Häufigkeit i xui - xoi hoi pi hei 1 1000 - 1500 15 0,1 20 2 1500 - 2000 20 0,1 20 3 2000 - 2500 20 0,1 20 4 2500 - 3000 22 0,1 20 5 3000 - 3500 28 0,1 20 6 3500 - 4000 31 0,1 20 7 4000 - 4500 18 0,1 20 8 4500 - 5000 14 0,1 20 9 5000 - 5500 16 0,1 20 10 5500 - 6000 16 0,1 20 n=200 1,0 200 Summe Erw. abs. Häufigkeit Bei der stetigen Gleichverteilung gilt für alle i=1, 2, . . . , k: p i = W(x iu < X < x i0 ) = F e (x i0 ) − F e (x iu ) = x i0 − 1000 x iu − 1000 x i0 − x iu − = 5000 5000 5000 Für konstante Klassenbreite c gilt: p i = W(x iu < X < x i0 ) = In diesem Fall (c=500) pi = pi ≈ k=10 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik x i0 − x iu c = 5000 5000 Testverfahren IV c 500 = = 0,1 5000 5000 h ie n h ie ≈ np i = 20 > 5 13 Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen (Berechnung der Prüfgröße) - Beispiel Klasse Obs. abs. Erw.abs. Differenz (hoi - hei)2/ hei Häufigkeit Häufigkeit i xu i x oi hoi hei hoi - hei 1 1000 1500 15 20 -5 1,25 2 1500 2000 20 20 0 0,00 3 2000 2500 20 20 0 0,00 4 2500 3000 22 20 2 0,20 5 3000 3500 28 20 8 3,20 6 3500 4000 31 20 11 6,05 7 4000 4500 18 20 -2 0,20 8 4500 5000 14 20 -6 1,80 9 5000 5500 16 20 -4 0,80 10 5500 6000 16 20 -4 0,80 n=200 200 0 14,30 k Summe Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV χ2 = ∑ i =1 (h i0 − h ie ) 2 h ie 14 7 Chi-Quadrat-Anpassungstest für die Gleichverteilung der Einkommen (Entscheidung) - Beispiel Differenzen Empirische Verteilung 15 Beobachtete abs. Häufigkeiten 35 30 10 25 5 20 15 0 10 5 -5 0 750 -10 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 Klassen Einkommen k Theoretische Gleichverteilung χ2 = ∑ Erwartete abs. Haüfigkeiten 25 20 i =1 15 (h i0 − h ie ) 2 = 14,30 h ie 2 χ 12−α;r = χ 0,95;9 = 16,919 10 5 0 750 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 α=0,05 Einkommen 14,30 < 16,916 => H0 ist nicht zu verwerfen. Die Stichprobenwerte entstammen aus einer gleichverteilten Grundgesamtheit. Die Differenzen zwischen beobachteten und erwarteten Häufigkeiten können als zufällig angesehen werden. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 16,919 H0 nicht ablehnen H0 ablehnen Testverfahren IV 15 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Aufgabenstellung) - Beispiel Beispiel: Es soll getestet werden, ob der monatliche Kraftstoffsverbrauch (in l pro 100 km) der 50 Taxen eines Unternehmens normalverteilt ist. Der Verbrauch eines Abrechnungsmonates wird in der folgenden Häufigkeitstabelle dargestellt. Nutzen Sie α=0,05 für den Test. Empirische Verteilung Klasse Abs. Häufigkeit 1 5,0 - 5,6 4 2 5,6 - 6,2 6 3 6,2 - 6,8 8 4 6,8 - 7,4 9 10,0 9,0 8,0 7,0 Abs. Häufigkeiten i 6,0 5,0 X ~ N( µ , σ ²) 4,0 3,0 2,0 1,0 5 7,4 - 8,0 7 6 8,0 - 8,6 5 7 8,6 - 9,2 5 8 9,2 - 9,8 4 9 9,8 - 10,4 1 0,20 10 10,4 - 11,0 1 0,10 0,0 4,7 5,3 5,9 6,5 7,1 7,7 8,3 8,9 9,5 10,1 10,7 11,3 Verbrauch in l/ 100 km fe: Dichtefunktion Dichtefunktion einer Normalverteilung Summe n=50 0,30 f e (x) = σ 2π e 1 x −µ 2 ) − ( 2 σ 0,00 2 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 1 3 4 5 6 Testverfahren IV 7 8 9 10 11 12 13 16 8 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Hypothesenformulierung) - Beispiel i Klasse Abs. Häufigkeit Empirische Verteilung 9,0 8,0 1 5,0 - 5,6 4 2 5,6 - 6,2 6 3 6,2 - 6,8 8 3,0 4 6,8 - 7,4 9 1,0 5 7,4 - 8,0 7 6 8,0 - 8,6 5 7 8,6 - 9,2 5 8 9,2 - 9,8 4 9 9,8 - 10,4 1 10 10,4 - 11,0 1 Summe X ~ N(µ, σ ) Abs. Häufigkeiten 6,0 5,0 4,0 0,10 2,0 0,00 0,0 4,7 5,3 5,9 6,5 7,1 7,7 8,3 8,9 2 9,5 10,1 10,7 11,3 3 4 5 6 7 8 9 10 11 12 13 Verbrauch in l/ 100 km H0: F=Fe H0: Der Verbrauch ist in der GG normalverteilt. H1: F≠Fe α=0,05 F: unbekannte Verteilungsfunktion des Verbrauches Fe: Verteilungsfunktion der Normalverteilung x F (x) = e 0,20 7,0 n=50 2 0,30 10,0 ∫σ −∞ Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 1 2π e 1 v −µ 2 ) − ( 2 σ dv µ und σ² sind unbekannt, sie müssen geschätzt werden (m=2). Testverfahren IV 17 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Parameterschätzung) - Beispiel Klasse Abs. Häufigkeit Klassenmitte µ̂ = x = i xui xoi hoi xi xi*hoi 1 5,0 5,6 4 5,3 21,2 x²i*hoi 112,36 2 5,6 6,2 6 5,9 35,4 208,86 3 6,2 6,8 8 6,5 52,0 338,00 4 6,8 7,4 9 7,1 63,9 453,69 5 7,4 8,0 7 7,7 53,9 415,03 6 8,0 8,6 5 8,3 41,5 344,45 7 8,6 9,2 5 8,9 44,5 396,05 8 9,2 9,8 4 9,5 38,0 361,00 9 9,8 10,4 1 10,1 10,1 102,01 10 10,4 11,0 1 10,7 10,7 114,49 371,2 2845,94 Summe n=50 σ̂ = s = s ² = 1,8398 = 1,356 Liter 100 km Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV = 1 n ∑ x i ⋅ h io n i =1 371,2 = 7,424 Liter / 100 km 50 σ̂ ² = s ² = 1 n ∑ (x i − x)² ⋅ h io n − 1 i =1 n n (∑ x i ⋅ h io )² 1 [∑ x i2 ⋅ h io − i =1 ] n − 1 i =1 n 1 371,2² = (2845,94 − ) = 1,8398 49 50 = Die Anzahl der geschätzten Parameter ist hier m=2 18 9 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Prüfgröße und Kritischer Bereich) - Beispiel H0: Das Merkmal Verbrauch ist in der GG normalverteilt mit den Parametern µ und σ². H0: F=Fe H1: F≠Fe Kritischer Bereich: F: unbekannte Verteilungsfunktion des Einkommen K(α ) = {χ 2 : χ 2 > χ 12−α;r } Fe: Verteilungsfunktion der Normalverteilung X ~ N( µ , σ ²) µ̂ = 7,424 σ̂ = 1,356 α=0,05 m=2 Prüfgröße: (h 0 − h e ) 2 χ 2 = ∑ i e i ~ χ 2r hi i =1 k χ 12−α ;r r=k-1-m H0 nicht ablehnen H0 ablehnen k=10 Die endgültige Anzahl r der Freiheitsgrade der Chi-Quadrat-Verteilung wird nach der Berechnung der erwarteten absoluten Häufigkeiten bestimmt. Wegen hei ≥ 5 müssen oft einige Klassen zusammengefasst werden, damit ändert sich auch die Anzahl der Klassen k und schließlich r. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 19 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Erwartete Häufigkeiten für i=2, . . . , k-1 ) - Beispiel xui i 1 xoi hoi 5,6 zoi FZ(z0i) pi hei -1,345 0,0894 2 5,6 6,2 6 -0,902 0,1834 0,0941 4,70 3 6,2 6,8 8 -0,460 0,3227 0,1393 6,97 4 6,8 7,4 9 -0,018 0,4929 0,1702 8,51 5 7,4 8,0 7 0,425 0,6645 0,1715 8,58 6 8,0 8,6 5 0,867 0,8070 0,1426 7 8,6 9,2 5 1,309 0,9048 0,0978 4,89 8 9,2 9,8 4 1,752 0,9601 0,0553 2,76 9 9,8 10,4 1 2,195 0,9858 0,0258 1,29 p i = W(x iu < X < x i0 ) = W( = FZ (z i0 ) − FZ (z iu ) 7,13 10 h ie n z iu = x iu − µ o x io − µ zi = σ σ µ̂ = 7,424 σ̂ = 1,356 Aus xui= xoi-1 folgt: z iu = z i0−1 ⇒ FZ (z iu ) = FZ (z io−1 ) ⇒ p i = FZ (z io ) − FZ (z io−1 ) Das bedeutet, man benötigt nur zoi n=50 pi ≈ x iu − µ x0 − µ <Z< i ) σ σ h ie ≈ np i Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Nutzung der Tabelle 12 der Formelsammlung. Für negative Zahlen gilt: Testverfahren IV FZ (− z) = 1 − FZ (z) 20 10 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Erwartete Häufigkeiten für i= 1 und i=k) - Beispiel i xui xoi hoi 1 5,0 5,6 4 zui -∞ zoi pi hei -1,345 0,0894 4,47 2 3 Für die erste Klasse gilt: p1 = W(−∞ < X < x 10 ) = W(−∞ < Z < x 10 − µ ) σ = FZ (z10 ) − FZ (−∞) 4 Nun wird xu1=-∞ gemacht. 5 6 Nun wird xo10=+∞ gemacht 7 h ie ≈ np i = FZ (z10 ) − 0 = FZ (−1,345) = 0,0894 Nutzung der Tabelle 12. n=50 FZ (− z) = 1 − FZ (z) 8 µ̂ = 7,424 σ̂ = 1,356 9 10 10,4 11,0 1 1,786 +∞ 0,0141 0,71 Für die letzte Klasse gilt: u u p10 = W(x 10 < X < ∞) = W(z10 < Z < ∞) u 0 = FZ (∞) − FZ (z10 ) = 1 − FZ (z10 ) = 1 − FZ (1,786) = 1 − 0,9859 = 0,0141 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 21 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Berechnung von Prüfgröße und r) - Beispiel Differenz i xui xoi hoi hei 1 -∞ 5,6 4 4,47 10 5,6 6,2 6 6,2 6,8 8 6,97 1,03 0,1535 4 6,8 7,4 9 8,51 0,49 0,0282 5 7,4 8,0 7 8,58 -1,58 0,2895 6 8,0 8,6 5 7,13 -2,13 0,6357 1,35 0,1893 7 8,6 9,2 5 9,2 9,8 4 2,76 9 9,8 10,4 1 1,29 10 10,4 +∞ 1 0,71 Summe 4,89 50 50 9,65 0,83 (h 0i − h ie ) 2 h ie 3 8 9,17 - hei 2 11 4,70 hoi 0,0749 Alle Klassen mit hei<5 werden mit den Nachbarklassen zusammengefasst. Die Klassenanzahl ist k=6. k=6 r=k-1-m=3 m=2 2 χ 12−α; r = χ 0,95;3 = 7,815 1,3711 k χ2 = ∑ i =1 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV (h i0 − h ie ) 2 = 1,3711 h ie 22 11 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Kritischer Bereich und Entscheidung) - Beispiel 2 χ 12−α;r = χ 0,95;3 = 7,815 Empirische Verteilung 10 9 χ2 = 8 Abs. Häufigkeiten 7 k ∑ i =1 6 (h i0 − h ie ) 2 = 1,3711 h ie 5 4 α=0,05 3 2 1 0 3,5 4,1 4,7 5,3 5,9 6,5 7,1 7,7 8,3 8,9 9,5 10,1 10,7 11,3 11,9 12,5 Verbrauch in l/ 100 km 7,815 H0 nicht ablehnen 8,00 7,00 H0 ablehnen Abs. Häufigkeiten 6,00 5,00 4,00 3,00 2,00 1,00 0,00 3 ,5 4 ,1 4 ,7 5,3 5,9 6 ,5 7,1 7,7 8 ,3 8 ,9 9 ,5 10 ,1 10 ,7 11,3 11,9 Ve rbrauch in l/ 100 km 1,3711< 7,815 => H0 ist nicht zu verwerfen. Die Stichprobenwerte entstammen aus einer normalverteilten Grundgesamtheit. Die Differenzen zwischen beobachteten und empirischen Häufigkeiten und dadurch die leichte Asymmetrie der empirische Häufigkeitsverteilung kann als zufällig angesehen werden. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 23 Kolmogorov-Smirnov-Anpassungstest - Hypothesenformulierung Grundgesamtheit F: unbekannte Verteilungsfunktion Fe: Verteilungsfunktion der Nullhypothese (angenommene) Fe Fo: beobachtete (empirische) Verteilung Stetige Verteilungen Angenommen e theoretische Verteilung Gleichverteilung Exponentialverteilung H0: F=Fe H1: F≠Fe Stichprobe Voraussetzungen für die Anwendung des Tests: Normalverteilung ¾metrisch skaliertes Merkmal Chi-Quadrat, t, F ¾die theoretische Verteilung Fe soll stetig sein. H0: Die in der Stichprobe beobachtete (empirische) Verteilung steht nicht im Widerspruch mit der für die unbekannte Verteilung der Grundgesamtheit gemachten Annahme. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV Signifikanzniveau α 24 12 Kolmogorov-Smirnov-Anpassungstest - Prüfgröße und kritischer Bereich 1. Prüfgröße: F ( x) d = max | F e (x) − F o (x) | x Fe: theoretisch stetige Verteilungsfunktion 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0 20 40 60 80 100 120 x Fo: empirische unstetige Verteilungsfunktion Die maximale absolute Abweichung d zwischen diesen beiden Funktionen kann also nur an einer der Sprungstellen auftreten. K( α ) = {d : d = max | F e (x) − F o (x) |> d n;1− α } 2. Kritischer Bereich: x Die Kritischen Werte dn;1-α sind für α und n in der Formelsammlung (Tabelle 20) zu finden. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 25 Kolmogorov-Smirnov-Anpassungstest für die Gleichverteilung des Einkommen (Hypothesenformulierung) - Beispiel Es soll getestet werden (α=0,05), ob die Einkommen in einer untersuchten Grundgesamtheit zwischen 1000 und 6000 EUR gleichverteilt sind. Das Einkommen von 200 zufällig ausgewählten Personen hat folgende empirische Häufigkeitsverteilung: Klasse Abs. Häufigkeit i xui - xoi hoi 1 1000 - 1500 15 2 1500 - 2000 20 3 2000 - 2500 20 4 2500 - 3000 22 5 3000 - 3500 28 6 3500 - 4000 31 7 4000 - 4500 18 8 4500 - 5000 14 9 5000 - 5500 16 10 5500 - 6000 Summe H0: F=Fe H0: Das Merkmal Einkommen ist in der GG (stetig) gleichverteilt. H1: F≠Fe α=0,05 F: unbekannte Verteilungsfunktion der Einkommen Fe: Verteilungsfunktion der stetigen Gleichverteilung ⎧ 0 ⎪ x − 1000 F e (x) = ⎨ ⎪ 5000 1 ⎩ für x < 1000 für 1000 ≤ x ≤ 6000 für x > 6000 16 n=200 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 26 13 Kolmogorov-Smirnov-Anpassungstest für die Gleichverteilung der Einkommen (Empirische und theoretische Verteilungen) i xui xoi hoi Fo(xoi) Fe(xoi) 0 -∞ 1000 0 0 0 1 1000 1500 15 0,075 0,1 2 1500 2000 20 0,175 0,2 3 2000 2500 20 0,275 0,3 4 2500 3000 22 0,385 0,4 5 3000 3500 28 0,525 0,5 6 3500 4000 31 0,680 0,6 7 4000 4500 18 0,770 0,7 8 4500 5000 14 0,840 0,8 9 5000 5500 16 0,920 0,9 10 5500 6000 16 1,000 1 11 6000 +∞ 0 1,000 1 Summe n=200 o i o Fo 0 1000 2000 3000 4000 5000 6000 7000 Da die theoretische Verteilungsfunktion stetig ist und die empirische unstetig ist, kann die maximale absolute Abweichung d zwischen diesen beiden Funktionen also nur an einer der Sprungstellen auftreten. An jeder Sprungstelle berechnet man zwei Differenzen, eine untere und eine obere. d oben ( x io ) = F e ( x io ) − F o ( x io+1 ) d unten ( x ) = F ( x ) − F ( x ) e Fe Die obere Differenzen mit der Formel: Die untere Differenzen mit der Formel: o i 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 o i Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 27 Kolmogorov-Smirnov-Anpassungstest für die Gleichverteilung der Einkommen (Berechnungen, Entscheidung) - Beispiel i xui xoi hoi Fo(xoi) Fe(xoi) dunten 0 -∞ 1000 0 0 0 0 0,075 doben 1 1000 1500 15 0,075 0,1 0,025 0,075 2 1500 2000 20 0,175 0,2 0,025 0,075 0,085 3 2000 2500 20 0,275 0,3 0,025 4 2500 3000 22 0,385 0,4 0,015 0,125 5 3000 3500 28 0,525 0,5 0,025 0,180 6 3500 4000 31 0,680 0,6 0,080 0,170 7 4000 4500 18 0,770 0,7 0,070 0,140 8 4500 5000 14 0,840 0,8 0,040 0,120 0,100 9 5000 5500 16 0,920 0,9 0,020 10 5500 6000 16 1,000 1 0 11 6000 +∞ 0 1,000 1 0 Summe n=200 Fe Fo 0 1000 2000 3000 4000 5000 6000 7000 d u (x ) = F (x ) − F (x ) o i e o i o o i d o ( x io ) = F e ( x io ) − F o ( x io+1 ) 1. Prüfgröße: d = max | F e (x) − F o (x) | x 2. Kritischer Bereich K(α ) = {d : d > d n;1−α } 0,180>0,096=>H0 wird verworfen. Die SP entstammt nicht aus einer gleichverteilten GG. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 0 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Testverfahren IV d n;1−α = d 200;0,95 = 1,36 n = 1,36 200 = 0,096 28 14 Unabhängigkeitstest - Problemstellung Grundgesamtheit Statistische Einheit 1 x1 y1 . . . Statistische Einheit N xN yN H0: Die Merkmale X und Y sind in der GG stochastisch unabhängig. H1: Die Merkmale X und Y sind in der GG nicht stochastisch unabhängig. Signifikanzniveau α Für alle Paare (x, y) gilt : Es gibt ein Paar (x, y) mit : F(x, y) ≠ FX (x) ⋅ FY (y) F(x, y) = FX (x) ⋅ FY (y) Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 29 Unabhängigkeitstest - Kontingenztabelle Bivariate empirische Häufigkeitsverteilung (Kreuz- bzw. Kontingenztabelle) Stichprobe y1 Ausprägungen des Merkmals X . . . Statistische Einheit n xn yn r h . j = ∑ h ij i =1 r s r s i =1 j=1 n = ∑∑ h ij = ∑ h i . = ∑ h . j i =1 j=1 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik j=1 Ausprägungen des Merkmals Y Statistische Einheit 1 x1 s h i . = ∑ h ij Total h.j Total hi. y1 y2 ... yj ... ys x1 h11 h12 ... h1j ... h1s h1. x2 h21 h22 ... h2j ... h2s h2. .. . ... ... ... ... hi2 ... xi hi1 .. . ... ... ... hij xr hr1 hr2 ... hrj h.1 h.2 ... h.j ... his hi. ... ... ... hrs hr. ... h.s n ... hij: empirische (beobachtete) absolute Häufigkeit des Paares (xi, yj) für i=1, 2, . . . , r und j=1, 2, . . . , s) Testverfahren IV 30 15 Unabhängigkeitstest -Prüfgröße und kritischer Bereich2. Kritischer Bereich: r s K(α ) = {χ ² : χ ² = ∑∑ 1. Prüfgröße: (h ijo − h ije )² h ije i =1 j=1 r s χ ² = ∑∑ (h ijo − h ije )² h ije i =1 j=1 h ijo = h ij h ije = > χ 2v;1−α } ~ χ ν2 h i. ⋅ h . j 3. Entscheidungsregel n ν = (r − 1)(s− 1) α χ 2v;1−α H0 nicht ablehnen Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik H0 ablehnen Testverfahren IV 31 Legitimität der Geburten und Alter der Mutter - Beispiel Beispiel: Im Jahr 2000 wurden in MV etwa 12.000 Kinder geboren. Die Zahl der Lebendgeborenen lässt sich nach den beiden Merkmale „Alter der Mutter“ und „Legitimität der Geburt“ in einer bivariaten Häufigkeitstabelle darstellen. Es soll mit α=0,01 untersucht werden, ob zwischen dem Alter der Mutter und der Legitimität der Geburt statistische Unabhängigkeit besteht. Alter der Mutter (Jahre) Legitimität der Geburt (Anzahl) von . . . bis unter . . . ehelich nichtehelich Total 15 - 20 60 260 320 20 - 25 900 1.900 2.800 25 - 30 2.600 2.200 4.800 30 - 35 2.100 900 300 35 - 40 700 200 900 40 - 45 140 40 180 6.500 5.500 12.000 Total H0: Die Merkmale X und Y sind in der GG stochastisch unabhängig. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik hij: beobachtete abs. Häufigkeiten für i=1, 2, . . . , 6 und j=1, 2 r h . j = ∑ h ij i =1 s h i . = ∑ h ij j=1 α =0,01 H1: Die Merkmale X und Y sind in der GG nicht stochastisch unabhängig. Testverfahren IV 32 16 Legitimität der Geburten und Alter der Mutter (Kreuztabelle, Berechnung der Prüfgröße) - Beispiel Alter der Mutter Beobachtete Häufigkeiten ehelich 10 - 20 hi. nichtehelich 60 260 Residuen Erwartete Häufigkeiten Total Ehelich 320 Nichtehelich Ehelich 146,7 -113,3 113,3 -616,7 616,7 173,3 Nichtehelich 20 - 25 900 1.900 2.800 1.516,7 1.283,3 25 - 30 2.600 2.200 4.800 2.600,0 2.200,0 0,0 0,0 30 - 35 2.100 900 300 1.625,0 1.375,0 475,0 -475,0 35 - 40 700 200 900 487,5 412,5 212,5 -212,5 40 - 45 140 40 180 97,5 82,5 42,5 -42,5 6.500 5.500 12.000 Total h.j n=12.000 1. Prüfgröße: r s χ ² = ∑∑ (h − h )² o ij h i =1 j=1 r=6 e ij s=2 χ ν ;1−α = χ 2 e ij r s = 1254,18 K(α ) = {χ ² : χ ² = ∑∑ h i. ⋅ h. j n (h − h )² i =1 j=1 ν=(r-1)(s-1)=5 2 5;0,95 h ije = 2. Kritischer Bereich: o ij e ij e ij = h ijo − h ije > χ ν2 ;1−α } h ije 1254,18>15,086 => H0 kann verworfen werden. Zwischen beiden Merkmalen besteht doch ein Zusammenhang. Sie sind nicht statistisch unabhängig. = 15,086 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 33 Zusammenhang zwischen Geschlecht und Rauchen - Beispiel Beispiel: In einer Untersuchung zum Thema Rauchen bei 484 Männern und 516 Frauen ergabt sich folgende bivariate Häufigkeitsverteilung. Die Ergebnisse werden in der folgende Vierfeldertafel dargestellt. Untersuchen Sie bei einem Signifikanzniveau von 0,05, ob es einen Zusammenhang zwischen dem Geschlecht X und dem Status Y Raucher oder Nichtraucher gibt? Quelle: Mikrozensus 2003, Tabelle 77. Raucher Nichtraucher Total Residuen Erwartete Häufigkeit männlich 161 323 484 133,1 350,9 27,9 - 27,9 weiblich 114 402 516 141,9 374,1 - 27,9 27,9 Total 275 725 1000 H0: Die Merkmale X und Y sind in der GG stochastisch unabhängig. H1: Die Merkmale X und Y sind in der GG nicht stochastisch unabhängig. 2 2 χ ² = ∑∑ i =1 j=1 (h ijo − h ije )² h ije = 15,633 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik h ije = h i. ⋅ h . j n e ij = h ijo − h ije r s K(α ) = {χ ² : χ ² = ∑∑ i =1 j=1 ν=(r-1)(s-1)=(2-1)(2-1)=1 (h ijo − h ije )² h ije > χ ν2 ;1−α } χ ν2 ;1−α = χ 12;0,95 = 3,841 15,633 > 3,841 => H0 kann verworfen werden, d. h. zwischen dem Geschlecht und dem Status (Raucher/Nichtraucher) besteht ein Zusammenhang. Testverfahren IV 34 17 Zusammenhang zwischen Wirtschaftssektor und Wohngebiet Beispiel: Untersuchen Sie ob, zwischen Wohngebiet X und Wirtschaftssektor Y einen Zusammenhang besteht. Nutzen Sie α=0,05 und folgende bivariate Häufigkeitsverteilung. Quelle: Datenreport 2004, S. 102, Tabelle 4: Erwerbstätige nach Wirtschaftsbereichen Früheres Bundesgebiet Primärer Sektor Sekundärer Sektor Neue Länder Berlin-Ost 20 268 Erwartete Häufigkeiten Total 26 6 319 51 Tertiärer Sektor 537 118 Total 825 175 H0: Die Merkmale X und Y sind in der GG stochastisch unabhängig. 655 h ije = 6 -1,45 1,45 268 51 4,825 4,825 537 118 -3,375 3,375 e ij = h − h o ij h i. ⋅ h. j n 3 2 χ ² = ∑∑ 1000 i =1 j=1 r s K(α ) = {χ ² : χ ² = ∑∑ H1: Die Merkmale X und Y sind in der GG nicht stochastisch unabhängig. Residuen 20 (h ijo − h ije )² i =1 j=1 ν=(r-1)(s-1) =(3-1)(2-1)=2 h ije e ij (h ijo − h ije )² h ije = 1,186 > χ ν2;1− α } χ ν2 ;1−α = χ 22;0,95 = 5,991 1,186 < 5,991 => H0 kann nicht verworfen werden, d. h. zwischen der Region und der Anzahl der Beschäftigten im jeweiligen Wirtschaftsbereich besteht kein Zusammenhang. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 35 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Testverfahren IV 36 18