Nichtparametrische Tests ¾ Chi-Quadrat-Anpassungstest ¾ Unabhängigkeitstest ¾ Homogenitätstest Bibliografie: ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen Statistik für Wirtschaftswissenschaftler ¾ PowerPointPresentationen (Prof. Kück/ Dr. Ricabal), ¾ Vorlesungsskript für Statistik II (Dr. Pu Chen), ¾ http://www.wiwi.uni-rostock.de/vwl/statistik/download/ba/stat2/ Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 1 Testverfahren - Eine Klassifikation Parametrische Tests: Nichtparametrische Tests: Prüfung von Hypothesen über die Parameter der Grundgesamtheiten Prüfung von Hypothesen über die Verteilung der Grundgesamtheiten Beispiele: Beispiele: ¾ Tests über den Mittelwert einer normalverteilten Grundgesamtheit ¾Anpassungstest ¾ Test zum Vergleich zweier Mittelwerte ¾ Homogenitätstest ¾Unabhängigkeitstest ¾ Varianzanalyse Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 2 1 Anpassungstests - Problemstellung Grundgesamtheit Stichprobe F: unbekannte Verteilungsfunktion Fe: theoretische Verteilungsfunktion der Grundgesamtheit (angenommene) Fe Fo: beobachtete (empirische) Verteilung Angenommene theoretische Verteilung Diskrete Verteilungen Stetige Verteilungen Gleichverteilung Gleichverteilung Binomialverteilung Exponentialverteilung Hypergeometrische Verteilung Normalverteilung Poissonverteilung Chi-Quadrat, t, F H0: Die in der Stichprobe beobachtete (empirische) Verteilung steht nicht im Widerspruch mit der für die unbekannte Verteilung der Grundgesamtheit gemachten Annahme Fe. H0: F=Fe H1: F≠Fe Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Signifikanzniveau α BA_Testverfahren III 3 Verteilung des durchschnittlichen Benzinverbrauches für 50 Taxen eines Unternehmens (Hypothesenformulierung) - Beispiel i Klasse Abs. Häufigkeit 1 5,0 - 5,6 4 2 5,6 - 6,2 6 3 6,2 - 6,8 8 4 6,8 - 7,4 9 5 7,4 - 8,0 7 6 8,0 - 8,6 5 7 8,6 - 9,2 5 8 9,2 - 9,8 4 9 9,8 - 10,4 1 Empirische Verteilung 10,0 9,0 8,0 Abs. Häufigkeiten 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 4,7 5,3 5,9 6,5 7,1 7,7 8,3 8,9 9,5 10,1 10,7 11,3 Verbrauch in l/ 100 km Dichtefunktion einer Normalverteilung 0,30 10 10,4 - 11,0 Summe 1 0,20 n=50 H0: Der durchschnittliche Benzinverbrauch ist normalverteilt. 0,10 0,00 2 H1: Der durchschnittliche Benzinverbrauch ist nicht normalverteilt. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 3 4 5 6 7 8 9 10 11 12 13 Signifikanzniveau α 4 2 Chi-Quadrat-Anpassungstest Absolute Häufigkeiten Hypothesenpaar H0: F=Fe Signifikanzniveau α Klasse i Beobachtete (observed) hoi Erwartete theoretische hei Differenz hoi - hei 1 ho1 he1 ho1 - he1 2 ho he2 ho2 - he2 . . . . . . . . . . . . k hok hek hok - hek Summe n n 0 H1: F≠Fe Prüfgröße: (h 0 − h e ) 2 χ 2 = ∑ i e i ~ χ 2r hi i =1 k r=k-m-1 2 Bedingung: hei ≥ 5 für alle i=1, 2, . . . , k m: Zahl der für die theoretische Verteilung geschätzten Parameter α Kritischer Bereich: k K(α ) = {χ 2 : χ 2 = ∑ i =1 (h i0 − h ie ) 2 > χ 12−α;r } h ie Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik H0 nicht ablehnen H0 ablehnen BA_Testverfahren III 5 Chi-Quadrat-Anpassungstest für die Gleichverteilung der Augenzahl (Hypothesenformulierung) - Beispiel Beispiel: Bei 90 Ausspielungen eines Würfels seien die in der folgenden Tabelle wiedergegebenen absoluten Häufigkeiten beobachtet worden (observed). Auf einem Signifikanzniveau von α=0,05 soll geprüft werden, ob die Annahme, dass es sich hier um einen idealen Würfel handelt, abgelehnt werden kann oder nicht. Augenzah xi Abs. Häufigkeit hoi 1 19 2 H0: F=Fe H0: Die Augenzahl ist gleichverteilt. 13 H1: F≠Fe Signifikanzniveau α =0,05 3 14 F: unbekannte Verteilungsfunktion der Augenzahl. 4 12 5 17 Fe: diskrete Gleichverteilung 6 15 Es gilt: Summe n=90 fe: Wahrscheinlichkeitsfunktion ⎧1 = 0,1 6 ⎪⎪ f e (x i ) = W(X = x i ) = ⎨ 6 ⎪ ⎪⎩ 0 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik für i = 1,2, . . . , 6 für alle anderen Fälle BA_Testverfahren III 6 3 Chi-Quadrat-Anpassungstest für die Gleichverteilung der Augenzahl (Kritischer Bereich) - Beispiel Augenzah xi Abs. Häufigkeit hoi 1 19 2 13 3 14 4 12 5 17 6 15 Summe n=90 H0: Die Augenzahl ist gleichverteilt. H1: Die Augenzahl ist nicht gleichverteilt. k Prüfgröße: χ2 = ∑ i =1 k=6 r=k-1-m (h i0 − h ie ) 2 ~ χ 2r h ie r=5 m=0 α=0,05 Es ist kein Parameter zu schätzen. Kritischer Bereich: K(α ) = {χ 2 : χ 2 > χ 12−α;r } 11,070 H0 nicht ablehnen 2 χ 12−α;r = χ 0,95;5 = 11,070 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik H0 ablehnen BA_Testverfahren III 7 Chi-Quadrat-Anpassungstest für Gleichverteilung der Augenzahl (Berechnung der hei und der Prüfgröße) -Beispiel Augenzahl xi Abs. obs. Häufigkeit hoi pi Erw. abs. Häufigkeit hei Differenzen (hoi - hei) (h i0 − h ie ) 2 h ie 1 19 0,167 15 4 1,067 2 3 13 0,167 15 -2 0,267 14 0,167 15 -1 0,067 4 12 0,167 15 -3 0,600 5 17 0,167 15 2 0,267 6 15 0,167 15 0 0,000 Summe n=90 1,0 90 11,070 H0 nicht ablehnen H0 ablehnen Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik p i = W(X = x i ) = f e ( x i ) = pi ≈ 1 ≈ 0,167 6 h ie n 2,267 k α=0,05 Für die diskrete Gleichverteilung gilt: χ2 = ∑ i =1 (h i0 − h ie ) 2 = 2,267 h ie h ie = np i = 90 ⋅ 1 = 15 > 5 6 2,267 < 11,070 => H0 ist nicht zu verwerfen, d. h. die beobachteten Differenzen zwischen den empirischen und den theoretisch erwarteten Häufigkeiten können als zufällig interpretiert werden. Der Würfel ist „ideal“. Der β-Fehler bei dieser Entscheidung ist unbekannt. BA_Testverfahren III 8 4 Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen (Aufgabenstellung) - Beispiel Beispiel: Es soll getestet werden (α=0,05), ob die Einkommen in einer untersuchten Grundgesamtheit zwischen 1000 und 6000 EUR gleichverteilt sind. Das Einkommen von 200 zufällig ausgewählten Personen hat folgende empirische Häufigkeitsverteilung: Abs. Häufigkeit xui - xoi hoi 1 1000 - 1500 15 2 1500 - 2000 20 3 2000 - 2500 20 4 2500 - 3000 22 5 3000 - 3500 28 6 3500 - 4000 31 7 4000 - 4500 18 8 4500 - 5000 14 9 5000 - 5500 16 10 5500 - 6000 16 Summe Empirische Verteilung 35 Beobachtete abs. Häufigkeiten Klasse i 30 25 20 15 10 5 0 750 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 Einkommen fe: Dichtefunktion ⎧ 1 ⎪⎪ f e (x) = ⎨ 5000 ⎪ ⎪⎩ 0 n=200 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III für 1000 ≤ x ≤ 6000 für alle anderen Fälle 9 Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen (Hypothesen) - Beispiel Empirische Verteilung Beobachtete abs. Häufigkeiten 35 H0: Das Merkmal Einkommen ist in der Grundgesamtheit (stetig) gleichverteilt. H0: F=Fe 30 25 20 H1: F≠Fe 15 10 5 α=0,05 0 750 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 Einkommen F: unbekannte Verteilungsfunktion der Einkommen Theoretische Gleichverteilung Fe: Verteilungsfunktion der stetigen Gleichverteilung Erwartete abs. Haüfigkeiten 25 20 15 10 5 0 750 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 Einkommen fe: Dichtefunktion ⎧ 1 ⎪⎪ f e (x) = ⎨ 5000 ⎪ ⎩⎪ 0 ⎧ 0 ⎪ x − 1000 F e (x) = ⎨ ⎪ 5000 1 ⎩ für x < 1000 für 1000 ≤ x ≤ 6000 für x > 6000 für 1000 ≤ x ≤ 6000 für alle anderen Fälle Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 10 5 Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen (Kritischer Bereich) - Beispiel H0: Das Merkmal Einkommen ist in der Grundgesamtheit (stetig) gleichverteilt. H0: F=Fe H1: F≠Fe Kritischer Bereich: F: unbekannte Verteilungsfunktion der Einkommen K(α ) = {χ 2 : χ 2 > χ 12−α;r } Fe: Verteilungsfunktion der stetigen Gleichverteilung 2 χ 12−α;r = χ 0,95;9 = 16,919 Prüfgröße: k χ2 = ∑ i =1 k=10 (h i0 − h ie ) 2 ~ χ 2r h ie r=k-m-1 α=0,05 r=9 m=0 16,919 H0 nicht ablehnen Es ist kein Parameter zu schätzen. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik H0 ablehnen BA_Testverfahren III 11 Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen (Berechnung der erwarteten Häufigkeiten) - Beispiel Klasse Obs.abs. Häufigkeit Erw. abs. Häufigkeit i xui - xoi hoi pi hei 1 1000 - 1500 15 0,1 20 2 1500 - 2000 20 0,1 20 3 2000 - 2500 20 0,1 20 4 2500 - 3000 22 0,1 20 5 3000 - 3500 28 0,1 20 6 3500 - 4000 31 0,1 20 7 4000 - 4500 18 0,1 20 8 4500 - 5000 14 0,1 20 9 5000 - 5500 16 0,1 20 10 5500 - 6000 16 0,1 20 n=200 1,0 200 Summe p i = W(x iu < X < x i0 ) = F e (x i0 ) − F e (x iu ) = x i0 − 1000 x iu − 1000 x i0 − x iu − = 5000 5000 5000 Für konstante Klassenbreite c gilt: p i = W(x iu < X < x i0 ) = BA_Testverfahren III x i0 − x iu c = 5000 5000 In diesem Fall (c=500) pi = pi ≈ k=10 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Bei der stetigen Gleichverteilung gilt für alle i=1, 2, . . . , k: c 500 = = 0,1 5000 5000 h ie n h ie ≈ np i = 20 > 5 12 6 Chi-Quadrat-Anpassungstest für die Gleichverteilung des Einkommen (Berechnung der Prüfgröße) - Beispiel Klasse i xu i Obs. abs. Erw.abs. Differenz (hoi - hei)2/ hei Häufigkeit Häufigkeit x oi hoi hei hoi - hei 1 1000 1500 15 20 -5 1,25 2 1500 2000 20 20 0 0,00 3 2000 2500 20 20 0 0,00 4 2500 3000 22 20 2 0,20 5 3000 3500 28 20 8 3,20 6 3500 4000 31 20 11 6,05 7 4000 4500 18 20 -2 0,20 8 4500 5000 14 20 -6 1,80 9 5000 5500 16 20 -4 0,80 10 5500 6000 16 20 -4 0,80 n=200 200 0 14,30 k Summe Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik χ2 = ∑ i =1 BA_Testverfahren III (h i0 − h ie ) 2 h ie 13 Chi-Quadrat-Anpassungstest für die Gleichverteilung der Einkommen (Entscheidung) - Beispiel Differenzen Empirische Verteilung 15 Beobachtete abs. Häufigkeiten 35 30 10 25 5 20 15 0 10 5 -5 0 750 -10 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 Klassen Einkommen Theoretische Gleichverteilung Erwartete abs. Haüfigkeiten 25 20 k χ2 = ∑ i =1 15 (h i0 − h ie ) 2 = 14,30 h ie 2 χ 12−α;r = χ 0,95;9 = 16,919 10 5 0 750 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 α=0,05 Einkommen 14,30 < 16,916 => H0 ist nicht zu verwerfen. Die Stichprobenwerte entstammen aus einer gleichverteilten Grundgesamtheit. Die Differenzen zwischen beobachteten und erwarteten Häufigkeiten können als zufällig angesehen werden. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 16,919 H0 nicht ablehnen H0 ablehnen 14 7 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Aufgabenstellung) - Beispiel Beispiel: Es soll getestet werden, ob der monatliche Kraftstoffsverbrauch (in l pro 100 km) der 50 Taxen eines Unternehmens normalverteilt ist. Der Verbrauch eines Abrechnungsmonates wird in der folgenden Häufigkeitstabelle dargestellt. Nutzen Sie α=0,05 für den Test. Empirische Verteilung Klasse Abs. Häufigkeit 1 5,0 - 5,6 4 2 5,6 - 6,2 6 3 6,2 - 6,8 8 4 6,8 - 7,4 9 10,0 9,0 8,0 7,0 Abs. Häufigkeiten i 6,0 5,0 X ~ N( µ , σ ²) 4,0 3,0 2,0 1,0 5 7,4 - 8,0 7 6 8,0 - 8,6 5 7 8,6 - 9,2 5 8 9,2 - 9,8 4 9 9,8 - 10,4 1 0,20 10 10,4 - 11,0 1 0,10 fe: Dichtefunktion 0,0 4,7 5,3 5,9 6,5 7,1 7,7 8,3 8,9 9,5 10,1 10,7 11,3 Verbrauch in l/ 100 km Dichtefunktion einer Normalverteilung Summe 0,30 n=50 f e (x) = 1 σ 2π e 1 x −µ 2 ) − ( 2 σ 0,00 2 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 3 4 5 6 7 8 9 10 11 12 13 BA_Testverfahren III 15 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Hypothesenformulierung) - Beispiel i Klasse Abs. Häufigkeit Empirische Verteilung 9,0 8,0 1 5,0 - 5,6 4 2 5,6 - 6,2 6 3 6,2 - 6,8 8 3,0 9 1,0 4 6,8 - 7,4 5 7,4 - 8,0 7 6 8,0 - 8,6 5 7 8,6 - 9,2 5 8 9,2 - 9,8 4 9 9,8 - 10,4 1 10 10,4 - 11,0 1 Summe Abs. Häufigkeiten 5,0 4,0 0,10 0,00 0,0 4,7 5,3 5,9 6,5 7,1 7,7 8,3 8,9 9,5 10,1 10,7 11,3 2 3 4 5 6 7 8 9 10 11 12 13 Verbrauch in l/ 100 km H0: F=Fe H0: Der Verbrauch ist in der GG normalverteilt. H1: F≠Fe α=0,05 F: unbekannte Verteilungsfunktion des Verbrauches Fe: Verteilungsfunktion der Normalverteilung ∫σ −∞ Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 6,0 2,0 n=50 F e (x) = 0,20 7,0 x X ~ N(µ, σ 2 ) 0,30 10,0 1 2π e 1 v −µ 2 ) − ( 2 σ BA_Testverfahren III dv µ und σ² sind unbekannt, sie müssen geschätzt werden (m=2). 16 8 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Parameterschätzung) - Beispiel Klasse Abs. Häufigkeit Klassenmitte µ̂ = x = i xui xoi hoi xi xi*hoi x²i*hoi 1 5,0 5,6 4 5,3 21,2 112,36 2 5,6 6,2 6 5,9 35,4 208,86 3 6,2 6,8 8 6,5 52,0 338,00 4 6,8 7,4 9 7,1 63,9 453,69 5 7,4 8,0 7 7,7 53,9 415,03 6 8,0 8,6 5 8,3 41,5 344,45 8,6 7 9,2 5 8,9 44,5 396,05 8 9,2 9,8 4 9,5 38,0 361,00 9 9,8 10,4 1 10,1 10,1 102,01 10 10,4 11,0 1 10,7 10,7 114,49 371,2 2845,94 Summe n=50 = 371,2 = 7,424 Liter / 100 km 50 σ̂ ² = s ² = 1 n ∑ (x i − x)² ⋅ h io n − 1 i =1 n n (∑ x i ⋅ h io )² 1 [∑ x i2 ⋅ h io − i =1 ] n − 1 i =1 n 1 371,2² = (2845,94 − ) = 1,8398 49 50 = Die Anzahl der geschätzten Parameter ist hier m=2 σ̂ = s = s ² = 1,8398 = 1,356 Liter 100 km Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 1 n ∑ x i ⋅ h io n i =1 BA_Testverfahren III 17 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Prüfgröße und Kritischer Bereich) - Beispiel H0: F=Fe H0: Das Merkmal Verbrauch ist in der GG normalverteilt mit den Parametern µ und σ². H1: F≠Fe F: unbekannte Verteilungsfunktion des Einkommen Fe: Verteilungsfunktion der Normalverteilung X ~ N( µ , σ ²) Prüfgröße: µ̂ = 7,424 σ̂ = 1,356 Kritischer Bereich: K(α ) = {χ 2 : χ 2 > χ 12−α;r } α=0,05 m=2 (h 0 − h e ) 2 χ 2 = ∑ i e i ~ χ 2r hi i =1 k r=k-1-m k=10 χ 12−α ;r H0 nicht ablehnen H0 ablehnen Die endgültige Anzahl r der Freiheitsgrade der Chi-Quadrat-Verteilung wird nach der Berechnung der erwarteten absoluten Häufigkeiten bestimmt. Wegen hei ≥ 5 müssen oft einige Klassen zusammengefasst werden, damit ändert sich auch die Anzahl der Klassen k und schließlich r. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 18 9 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Erwartete Häufigkeiten für i=2, . . . , k-1 ) - Beispiel i xui xoi zoi FZ(z0i) hei 1 -∞ 5,6 -1,345 0,0894 0,0894 2 5,6 6,2 -0,902 0,1834 0,0941 4,70 3 6,2 6,8 -0,460 0,3227 0,1393 6,97 4 6,8 7,4 -0,018 0,4929 0,1702 8,51 5 7,4 8,0 0,425 0,6645 0,1715 8,58 6 8,0 8,6 0,867 0,8070 0,1426 1,309 0,9048 0,0978 4,89 pi 4,47 7 8,6 9,2 9,2 9,8 1,752 0,9601 0,0553 2,76 9 9,8 10,4 2,195 0,9858 0,0258 1,29 10 10,4 +∞ +∞ 0,0141 0,71 z iu = h ie n x iu − µ o x io − µ zi = σ σ µ̂ = 7,424 σ̂ = 1,356 Aus xui= xoi-1 folgt: z iu = z i0−1 ⇒ FZ (z iu ) = FZ (z io−1 ) ⇒ p i = FZ (z io ) − FZ (z io−1 ) Das bedeutet, man benötigt nur zoi n=50 pi ≈ x0 − µ x iu − µ ) <Z< i σ σ = FZ (z i0 ) − FZ (z iu ) 7,13 8 1 p i = W(x iu < X < x i0 ) = W( Nutzung der Tabelle 12 der Formelsammlung. Für negative Zahlen gilt: h ie ≈ np i Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik FZ (− z) = 1 − FZ (z) BA_Testverfahren III 19 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Erwartete Häufigkeiten für i= 1 und i=k) - Beispiel i xui xoi 1 -∞ 5,6 zui -∞ zoi pi hei -1,345 0,0894 4,47 2 3 Für die erste Klasse gilt: p1 = W(−∞ < X < x 10 ) = W(−∞ < Z < x 10 − µ ) σ = FZ (z10 ) − FZ (−∞) 4 Nun wird xu1=-∞ gemacht. 5 6 Nun wird xo10=+∞ gemacht 7 h ie ≈ np i = FZ (z10 ) − 0 = FZ (−1,345) = 0,0894 n=50 µ̂ = 7,424 σ̂ = 1,356 8 9 10 10,4 -∞ 1,786 +∞ 0,0141 0,71 Für die letzte Klasse gilt: u u p10 = W(x 10 < X < ∞) = W(z10 < Z < ∞) u 0 = FZ (∞) − FZ (z10 ) = 1 − FZ (z10 ) = 1 − FZ (1,786) = 1 − 0,9859 = 0,0141 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik FZ (− z) = 1 − FZ (z) BA_Testverfahren III Tabelle 12. 20 10 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Berechnung von Prüfgröße und r) - Beispiel Differenz i xui xoi hoi hei 1 -∞ 5,6 4 2 5,6 6,2 6 3 6,2 6,8 8 4 6,8 7,4 9 5 7,4 8,0 7 6 8,0 8,6 5 7,13 7 8,6 9,2 5 (h 0i − h ie ) 2 h ie 4,47 10 4,70 9,17 0,83 0,0749 1,03 0,1535 8,51 0,49 0,0282 8,58 -1,58 0,2895 -2,13 0,6357 1,35 0,1893 6,97 11 4,89 8 9,2 9,8 4 2,76 9 9,8 10,4 1 1,29 10 10,4 +∞ 1 0,71 Summe hoi - hei 50 50 9,65 Die Klassenanzahl ist k=6. k=6 r=k-1-m=3 m=2 2 χ 12−α; r = χ 0,95;3 = 7,815 1,3711 1,3711< 7,815 => H0 ist nicht zu verwerfen. Die Stichprobenwerte entstammen aus einer normalverteilten Grundgesamtheit. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Alle Klassen mit hei<5 werden mit den Nachbarklassen zusammengefasst. k χ2 = ∑ i =1 (h i0 − h ie ) 2 = 1,3711 h ie BA_Testverfahren III 21 Chi-Quadrat-Anpassungstest für die Normalverteilung des Benzinverbrauches (Kritischer Bereich und Entscheidung) - Beispiel 2 χ 12−α;r = χ 0,95;3 = 7,815 Empirische Verteilung 10 9 χ2 = 8 Abs. Häufigkeiten 7 k ∑ i =1 6 (h i0 − h ie ) 2 = 1,3711 h ie 5 4 α=0,05 3 2 1 0 3,5 4,1 4,7 5,3 5,9 6,5 7,1 7,7 8,3 8,9 9,5 10,1 10,7 11,3 11,9 12,5 Verbrauch in l/ 100 km 7,815 H0 nicht ablehnen 8,00 7,00 H0 ablehnen Abs. Häufigkeiten 6,00 1,3711< 7,815 => H0 ist nicht zu verwerfen. Die Differenzen zwischen beobachteten und empirischen Häufigkeiten und dadurch die leichte Asymmetrie der empirische Häufigkeitsverteilung kann als zufällig angesehen werden. 5,00 4,00 3,00 2,00 1,00 0,00 3 ,5 4 ,1 4 ,7 5,3 5,9 6 ,5 7,1 7,7 8 ,3 8 ,9 9 ,5 10 ,1 10 ,7 11,3 11,9 Ve rbrauch in l/ 100 km Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 22 11 Unabhängigkeitstest - Problemstellung Grundgesamtheit Statistische Einheit 1 x1 y1 . . . Statistische Einheit N xN yN H0: Die Merkmale X und Y sind in der GG stochastisch unabhängig. H1: Die Merkmale X und Y sind in der GG nicht stochastisch unabhängig. Signifikanzniveau α Für alle Paare (x, y) gilt : Es gibt ein Paar (x, y) mit : f (x, y) ≠ f X (x) ⋅ f Y (y) f (x, y) = f X (x) ⋅ f Y (y) Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 23 Unabhängigkeitstest - Kontingenztabelle Bivariate empirische Häufigkeitsverteilung (Kreuz- bzw. Kontingenztabelle) s h i . = ∑ h ij j=1 Ausprägungen des Merkmals Y Ausprägungen des Merkmals X y1 y2 ... yj ... ys x1 h11 h12 ... h1j ... h1s h1. x2 h21 h22 ... h2j ... h2s h2. .. . ... ... ... ... r h . j = ∑ h ij r s hi2 ... xi hi1 .. . ... ... xr hr1 hr2 ... hrj h.1 h.2 ... h.j Total h.j i =1 r s i =1 j=1 ... Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik hij ... his hi. ... ... ... hrs hr. ... h.s n ... n = ∑∑ h ij = ∑ h i . = ∑ h . j i =1 j=1 Total hi. hij: empirische (beobachtete) absolute Häufigkeit des Paares (xi, yj) für i=1, 2, . . . , r und j=1, 2, . . . , s) BA_Testverfahren III 24 12 Unabhängigkeitstest -Prüfgröße und kritischer BereichH0: Die Merkmale X und Y sind in der GG stochastisch unabhängig. 2. Kritischer Bereich: Für alle Paare ( x i , y j ) gilt : f (x i , y j ) = f X (x i ) ⋅ f Y (y j ) h ij n = r χ ² = ∑∑ i =1 j=1 h ijo = h ij h ije > χ 2v;1−α } 3. Entscheidungsregel 1. Prüfgröße: s (h ijo − h ije )² i =1 j=1 h i. ⋅ h . j h i. h . j ⋅ ⇔ h ije = n n n r s K(α ) = {χ ² : χ ² = ∑∑ α (h ijo − h ije )² h ije ~ χ ν2 χ 2v;1−α ν = (r − 1)(s− 1) Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik H0 nicht ablehnen H0 ablehnen BA_Testverfahren III 25 Legitimität der Geburten und Alter der Mutter - Beispiel Beispiel: Im Jahr 2000 wurden in MV etwa 12.000 Kinder geboren. Die Zahl der Lebendgeborenen lässt sich nach den beiden Merkmale „Alter der Mutter“ und „Legitimität der Geburt“ in einer bivariaten Häufigkeitstabelle darstellen. Es soll mit α=0,01 untersucht werden, ob zwischen dem Alter der Mutter und der Legitimität der Geburt statistische Unabhängigkeit besteht. Alter der Mutter (Jahre) Legitimität der Geburt (Anzahl) von . . . bis unter . . . ehelich nichtehelich Total 15 - 20 60 260 320 20 - 25 900 1.900 2.800 25 - 30 2.600 2.200 4.800 30 - 35 2.100 900 300 35 - 40 700 200 900 40 - 45 140 40 180 6.500 5.500 12.000 Total H0: Die Merkmale X und Y sind in der GG stochastisch unabhängig. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik hij: beobachtete abs. Häufigkeiten für i=1, 2, . . . , 6 und j=1, 2 r h . j = ∑ h ij i =1 s h i . = ∑ h ij j=1 α =0,01 H1: Die Merkmale X und Y sind in der GG nicht stochastisch unabhängig. BA_Testverfahren III 26 13 Legitimität der Geburten und Alter der Mutter (Kreuztabelle, Berechnung der Prüfgröße) - Beispiel Alter der Mutter Beobachtete Häufigkeiten ehelich 10 - 20 Total hi. nichtehelich 60 260 320 Residuen Erwartete Häufigkeiten Ehelich Nichtehelich Ehelich 146,7 -113,3 113,3 -616,7 616,7 173,3 Nichtehelich 20 - 25 900 1.900 2.800 1.516,7 1.283,3 25 - 30 2.600 2.200 4.800 2.600,0 2.200,0 0,0 0,0 30 - 35 2.100 900 300 1.625,0 1.375,0 475,0 -475,0 35 - 40 700 200 900 487,5 412,5 212,5 -212,5 40 - 45 140 40 180 97,5 82,5 42,5 -42,5 6.500 5.500 12.000 Total h.j n=12.000 1. Prüfgröße: r s χ ² = ∑∑ (h − h )² o ij h i =1 j=1 r=6 e ij s=2 χ ν ;1−α = χ 2 2 5;0,95 e ij h ije = 2. Kritischer Bereich: r s = 1254,18 K(α ) = {χ ² : χ ² = ∑∑ i =1 j=1 ν=(r-1)(s-1)=5 h i. ⋅ h. j n (h − h )² o ij e ij h ije e ij = h ijo − h ije > χ ν2 ;1−α } 1254,18>15,086 => H0 kann verworfen werden. Zwischen beiden Merkmalen besteht doch ein Zusammenhang. Sie sind nicht statistisch unabhängig. = 15,086 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 27 Homogenitätstest - Problemstellung Kreuztabelle Merkmal X Ausprägungen x1 Total h.j Stichproben 1 h11 2 ... h12 . . . s Total hi. h1s h1. x2 h21 h22 . . . h2s h2. ... ... ... ... ... xr hr1 hr2 . . . hrs hr. h.1 h.2 h.s n ... Beim Chi-Quadrat-Homogenitättest geht man von zwei oder auch mehr als zwei Stichproben aus. Deswegen gehört er zur Gruppe der Zwei- bzw. Mehrstichprobentests. Geprüft wird, ob alle Stichproben aus der gleichen Grundgesamtheit stammen oder nicht. H0: Die Stichproben stammen aus der gleichen Grundgesamtheit, d. h. für alle Ausprägung xi (i=1, …, r) des Merkmals X gilt in jeder Teilgesamtheit j (j=1, …, s): f (x i / TG j ) = f X ( x i ) Signifikanzniveau α H1: Es gibt ein xi in einer TG j, für die es gilt: Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III f (x i / TG j ) ≠ f X ( x i ) 28 14 Homogenitätstest - Kreuztabelle Stichproben 1 2 ... j ... s Total hi. h11 h12 ... h1j ... h1s h1. x2 h21 h22 ... h2j ... .. . ... ... xi hi1 hi2 .. . ... ... xr hr1 hr2 ... hrj h.1 h.2 ... h.j x1 Klassierung der Verteilung Total h.j h2s h2. ... ... his hi. ... ... ... hrs hr. ... h.s n ... s r h i . = ∑ h ij h . j = ∑ h ij j=1 r i =1 s i =1 j=1 ... hij ... ... r s i =1 j=1 n = ∑∑ h ij = ∑ h i . = ∑ h . j H 0 : f (x i / TG j ) = f X ( x i ) h ij h .j = h i. ⋅ h .j h i. ⇔ h ije = n n hij: empirische (beobachtete) absolute Häufigkeit der Ausprägung xi in der Stichprobe yj (für i=1, 2, . . . , r und j=1, 2, . . . , s) Ausgehen von der Nullhypothese können die erwarteten absoluten Häufigkeiten heij über die schon bekannten Formel des Unabhängigkeitstests berechnet werden. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 29 Homogenitätstest -Prüfgröße und kritischer Bereich2. Kritischer Bereich: 1. Prüfgröße: r s χ ² = ∑∑ (h ijo − h ije )² h i =1 j=1 e ij ~ χ ν2 r s K(α ) = {χ ² : χ ² = ∑∑ (h ijo − h ije )² i =1 j=1 h e ij > χ 2v;1−α } ν = (r − 1)(s− 1) h = h ij o ij h ije = h i. ⋅ h . j 3. Entscheidungsregel n α χ 2v;1−α H0 nicht ablehnen Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III H0 ablehnen 30 15 Zusammenhang zwischen Geschlecht und Rauchen - Beispiel Beispiel: In einer Untersuchung zum Thema Rauchen bei 484 Männern und 516 Frauen ergabt sich folgende bivariate Häufigkeitsverteilung. Die Ergebnisse werden in der folgende Vierfeldertafel dargestellt. Untersuchen Sie bei einem Signifikanzniveau von 0,05, ob die Verteilungen beider Gruppen homogen sind? Quelle: Mikrozensus 2003, Tabelle 77. Raucher Nichtraucher Total Residuen Erwartete Häufigkeit männlich 161 323 484 133,1 350,9 27,9 - 27,9 weiblich 114 402 516 141,9 374,1 - 27,9 27,9 Total 275 725 1000 H0: Die Stichproben für Männer und Frauen stammen aus der gleichen Grundgesamtheit, d. h. die Verteilung des Merkmals Rauchen sind identisch in beiden Gruppen. H1=~H0 h ije = h i. ⋅ h. j e ij = h ijo − h ije n r 2 2 i =1 j=1 (h ijo − h ije )² h e ij = 15,633 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik (h ijo − h ije )² h ije i =1 j=1 > χ ν2 ;1−α } χ ν2 ;1−α = χ 12;0,95 = 3,841 ν=(r-1)(s-1)=(2-1)(2-1)=1 χ ² = ∑∑ s K(α ) = {χ ² : χ ² = ∑∑ 15,633 > 3,841 => H0 wird verworfen, d. h. zwischen dem Geschlecht und dem Status (Raucher/Nichtraucher) besteht eine Abhängigkeit. BA_Testverfahren III 31 Zusammenhang zwischen Wirtschaftssektor und Wohngebiet Beispiel: Untersuchen Sie, ob zwischen Wohngebiet X und Wirtschaftssektor Y einen Zusammenhang besteht. Nutzen Sie α=0,05 und folgende bivariate Häufigkeitsverteilung. Quelle: Datenreport 2004, S. 102, Tabelle 4: Erwerbstätige nach Wirtschaftsbereichen Früheres Bundesgebiet Primärer Sektor Sekundärer Sektor Neue Länder Berlin-Ost 20 6 268 51 Tertiärer Sektor 537 118 Total 825 175 H0: Die Merkmale X und Y sind in der GG stochastisch unabhängig. H1: Die Merkmale X und Y sind in der GG nicht stochastisch unabhängig. Erwartete Häufigkeiten Total 26 319 655 h ije = Residuen 20 6 -1,45 1,45 268 51 4,825 4,825 537 118 -3,375 3,375 e ij = h − h o ij h i. ⋅ h. j n 3 2 χ ² = ∑∑ 1000 i =1 j=1 r s K(α ) = {χ ² : χ ² = ∑∑ i =1 j=1 ν=(r-1)(s-1) =(3-1)(2-1)=2 (h ijo − h ije )² h ije e ij (h ijo − h ije )² h ije = 1,186 > χ ν2;1− α } χ ν2 ;1−α = χ 22;0,95 = 5,991 1,186 < 5,991 => H0 kann nicht verworfen werden, d. h. zwischen der Region und der Anzahl der Beschäftigten im jeweiligen Wirtschaftsbereich besteht kein Zusammenhang. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik BA_Testverfahren III 32 16