Intervallschätzung Intervallschätzung (allgemein) Konfidenzintervall des arithmetischen Mittels Konfidenzintervall für die Differenz zweier arithmetischer Mittel Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 1 Bibliografie: ¾ Prof. Dr. Kück Universität Rostock Statistik, Vorlesungsskript Abschnitt 7.1.2, 7.1.3, 7.1.4 ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen Statistik für Wirtschaftswissenschaftler ¾ MM*Stat. Eine interaktive Einführung in die Welt der Statistik PC Pool WISO-Fakultät \\zeus\statistik\MMstat\start ¾ Dr. Roland Jeske Online Statistik http://www.wiwi.uni-konstanz.de/heiler/os2/ ¾ http://www.wiwi.uni-rostock.de/~stat/download.htm Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 2 1 Intervallschätzung Mit einer Intervallschätzung wird ein unbekannter Parameter der Grundgesamtheit derart geschätzt, dass ¾ ein Intervall entsteht und ¾ vor der Ziehung der Stichprobe die Wahrscheinlichkeit dafür angegeben werden kann, dass der wahre Parameterwert der Grundgesamtheit in diesem Intervall liegt. Diese Aussage erfolgt unter Vorbehalt einer Irrtumswahrscheinlichkeit α. Ein solches Intervall wird als Schätzintervall oder Realisation eines Konfidenz- oder Vertrauensintervalls bezeichnet. Die Wahrscheinlichkeit 1-α heißt Konfidenzniveau. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 3 Konfidenzintervall Gegeben sei eine Zufallsstichprobe (X1, X2, . . . , Xn) aus einer Grundgesamtheit X. Ein Intervall [Ku, Ko] heißt Konfidenzintervall zum Niveau 1-α für den Parameter q der Grundgesamtheit X, wenn die Bedingungen gelten: g u (X 1 , X 2 , K , X n ) ≤ g o (X 1 , X 2 , K , X n ) für alle möglichen SP W[g u (X1 , X 2 , K , X n ) ≤ q ≤ g o (X1 , X 2 , K, X n )] = 1 − α oder W[q ≤ g u (X 1 , X 2 , K , X n )] + W[q ≥ g o (X 1 , X 2 , K , X n )] = α Die zufälligen Grenzen Ku und Ko werden Konfidenzgrenzen genannt. Die Wahrscheinlichkeit 1-α bezeichnet das Konfidenzniveau, den Sicherheitsgrad oder die Aussagewahrscheinlichkeit. Sie ist die Wahrscheinlichkeit, dass das Konfidenzintervall den Parameter q überdeckt. Der Wert α gibt dabei die Irrtumswahrscheinlichkeit der Konfidenzschätzung an, d. h. den relativ geringen Anteil der konkreten Intervalle (Realisationen), die den Parameter q nicht überdecken. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 4 2 Konfidenzintervall - Grafische Darstellung q Realisation oder konkrete SP Nr. 1 2 3 4 5 . . . 98 99 100 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II ¾Eines der 100 konkreten Intervalle überdeckt den Parameter nicht. ¾Dies ist ein Beispiel für ein 99%iges Konfidenzintervall für den Parameter q. ¾Bei 1000 SP ist es zu erwarten, dass 10 Intervalle den Parameter q nicht überdecken. 5 Konfidenzintervall - Interpretation vor der Ziehung der Stichprobe Da die Konfidenzgrenzen Ku und Ko vor der Ziehung der konkreten Stichprobe, Funktionen der Stichprobenvariablen (X1, X2, . . . , Xn) sind, sind sie ebenfalls Zufallsvariablen. [Ku, Ko] ist somit ein Zufallsintervall, über das Wahrscheinlichkeitsaussagen möglich sind. Das Konfidenzniveau 1 - α gibt den Anteil aller möglichen Realisationen [ku, ko] des Konfidenzintervalls an, die den unbekannten Wert des Parameters q überdecken. Die Irrtumswahrscheinlichkeit α gibt den Anteil aller möglichen Schätzintervalle (Realisationen) [ku, ko] an, die den unbekannten Wert des Parameters q nicht überdecken. Wird das Verfahren der Intervallschätzung sehr oft wiederholt, dann erhält man in (1 - α) · 100% der Fälle ein Schätzintervall, das q enthält, und in α · 100% der Fälle ein Schätzintervall, das q nicht enthält. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 6 3 Konfidenzintervall - Interpretation nach der Ziehung der Stichprobe Setzt man die konkreten Stichprobenwerte (x1, ..., xn) in die Stichprobenfunktionen Ku und Ko ein, so führt das zu Realisationen ku = g1(x1, ..., xn) und ko = g2(x1, ..., xn) und damit zu einem realisierten Konfidenzintervall oder Schätzintervall [ku, ko]. Die Grenzen des Schätzintervalls ku und ko sind nunmehr feste Größen (keine Zufallsgrößen) und Wahrscheinlichkeitsaussagen sind nicht mehr möglich. Entweder liegt der unbekannte Wert des Parameters q in dem Schätzintervall oder nicht. Da jedoch das Konfidenzniveau 1 - α (0,90; 0,95 oder 0,99) nahe bei Eins gewählt wird, vertraut man darauf, für die konkrete Stichprobe ein Schätzintervall erhalten zu haben, dass q einschließt. Ob im Einzelfall diese Annahme richtig oder falsch ist, kann nicht gesagt werden. Bekannt ist jedoch der mittlere prozentuale Fehleranteil mit α · 100%, der sich bei wiederholter Beobachtung von Stichproben des Umfangs n ergibt. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 7 Konfidenzbreite, Schätzungsfehler, Standardfehler und Konfidenzniveau Für das Konfidenzintervall zum Niveau 1-α eines beliebigen Parameters q gilt folgendes: Konfidenzbreite = Intervallbreite = K o − K u = 2 e = 2 ⋅ Schätzfehler Schätzfehler = e = Intervallbreite 2 Die Hälfte der Konfidenzbreite wird Schätzfehler (e) genannt. Er bringt die Genauigkeit der Schätzung zum Ausdruck und setzt sich aus drei Komponenten zusammen: ¾Streuung des Schätzers des Parameters ¾Sicherheit der Schätzung (Konfidenzniveau 1-α) ¾Stichprobenumfang n. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 8 4 Wechselwirkung zwischen Intervallbreite 2e und Konfidenzniveau 1-α bei konstantem n Irrtumswahrscheinlichkeit Konfidenzniveau q α 1-α 0,10 0,90 0,05 0,95 0,01 0,99 0,001 0,999 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Bei gleichem SP-Umfang n nimmt die Breite des Schätzintervalls 2e mit wachsendem Konfidenzniveau 1-α zu und umgekehrt. Das bedeutet, die Präzision der Schätzung nimmt mit sinkender Irrtumswahrscheinlichkeit α ab und umgekehrt. Je breiter ein Schätzintervall ist (2e), um so kleiner die Präzision der Schätzung ist. Schätzung II 9 Abhängigkeit der Intervallbreite 2e vom Stichprobenumfang n bei konstantem 1-α q n 20 . . . 100 . . . 200 . . . 1000 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Die Breite des Schätzintervalls 2e nimmt mit wachsendem n bei konstantem Konfidenzniveau 1-α ab. Das bedeutet, die Präzision der Schätzung bei einer Genauigkeit der Aussage 1-α nimmt mit wachsendem Stichprobenumfang n zu. Schätzung II 10 5 Statistische Fehler Die Irrtumswahrscheinlichkeit α und die damit verbundene Sicherheit wird häufig mit einem Fehlermaß identifiziert. Das trifft nur bedingt zu, denn der hier in Rede stehende statistische Fehler bzw. Fehlerbereich erfasst die Abweichung eines Ergebnisses einer Beobachtung vom „wahren“ Wert. Er tritt auf als ¾Zufälliger Fehler (Schätzfehler) ¾Systematischer (nicht zufälliger) Fehler Die zufälligen Fehler sind -so paradox das klingt- vom Statistiker gut abzuschätzen, ihre Abschätzung liegt dem Konfidenzmodell zugrunde. Darüber hinaus auftretende systematische Fehler, die besonders bei wirtschaft- und sozialwissenschaftlichen Daten durch vielfältige Möglichkeiten entstehen, sind für den Statistiker schwer oder gar nicht messbar. Eine hohe statistische Sicherheit sollte also nicht suggerieren, dass Fehler ausgeschlossen werden könnten! Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 11 Möglichkeit zur Bildung von Konfidenzintervallen Ein zweiseitiges Konfidenzintervall [Ku, Ko] heißt symmetrisch, wenn gilt: W[q ≤ g u (X1 , X 2 ,K, X n )] = W[g u (X1 , X 2 , K, X n ) ≥ q] = α 2 Ein Konfidenzintervall heißt halbseitig offen oder einseitig, falls eine der Grenzen von vornherein als unbeschränkt festgelegt wird, d. h. wenn gilt: ¾(-∞, Ko] ⇒ W[q≤ go(X1, X2, . . . , Xn)]=1-α ⇔ W[q≥ go(X1, X2, . . . , Xn)]=α ¾[Ku, +∞) ⇒ W[go(X1, X2, . . . , Xn) ≥ q]=1-α ⇔ W[q ≤ go(X1, X2, . . . , Xn)]=α Ob ein einseitiges oder zweiseitiges Konfidenzintervall zu bestimmen ist, hängt von der sachlichen Fragestellung ab. Wenn von Interesse ist, ob z. B. ein Parameter q höchstens einen bestimmten Wert annimmt, dann ist eine einseitige Fragestellung geboten. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 12 6 Konstruktion der Konfidenzintervalle Um ein Konfidenzintervall zum Niveau 1-α für einen Parameter q zu konstruieren, wird meistens eine von q abhängige Stichprobenfunktion g(X1, X2, . . . , Xn; q), deren Verteilung bekannt ist und aber nicht von q abhängt, genutzt. Sie heißt Pivotgröße. Beispiel: Sei (X1, X2, . . . , Xn) eine Zufallsstichprobe einer normalverteilten Grundgesamtheit X mit den Parameter µ und σ². Die Stichprobenfunktionen Z und T (s. u.) sind Pivot-Funktionen für µ. Der Stichprobenmittelwert⎯X ist aber keine Pivotgröße von µ. Seine Verteilung hängt von µ ab. Z = g 1 (X1 , X 2 ,..., X n ; µ) = X− µ σ Z ∼ N(0, 1) Standardnormalverteilung n T = g 2 (X1 , X 2 ,..., X n ; µ) = T ∼ tn-1 X− µ S Studentverteilung mit n-1 FG n X = g 3 (X1 , X 2 ,..., X n ) = 1 n ∑ X1 n i =1 X ~ N(µ ; Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik σ² ) n Normalverteilung Schätzung II 13 Konstruktion eines Konfidenzintervalls für µ (Normalverteilung der GG, bekannte Varianz σ²und einfache SP) Sei X ein Merkmal, das in der Grundgesamtheit einer Normalverteilung mit den Parametern µ und σ² genügt. Sei (X1, X2, . . . , Xn) eine einfache Zufallsstichprobe (Ziehen mit Zurücklegen). Unterstellen wir, dass die Varianz σ² bekannt ist. Ein symmetrisches Konfidenzintervall zum Niveau 1-α für den Parameter µ ist: [X − σ Z n 1− ; X+ α 2 σ n Z 1− α 2 ] Z= X− µ ~ N(0, 1) σ n W( − Z 1 − ≤Z≤Z α 2 1 − α 2 ) = W( − Z 1 − α 2 ≤ 1− α X− µ ≤ Z α ) = 1− α 1 − σ 2 n α 2 ⇓ W( − X − σ n Z 1 − α 2 ≤ −µ ≤ − X+ σ n −Z Z 1 − α 2 ) = 1− α ⇓ W( + X + σ n Z 1 − α 2 ≥ +µ ≥ + X− σ n Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik α 2 Z 1 − α 2 W[X − ) = 1− α Schätzung II σ n 1− Z α 2 Z 1− α 2 ≤ µ ≤ X+ σ n 1− α 2 Z 1− α 2 ] = 1− α 14 7 Konstruktion eines Konfidenzintervalls für µ (Normalverteilung der GG, unbekannte Varianz und einfache SP) Sei X ein Merkmal, das in der Grundgesamtheit einer Normalverteilung mit den Parametern µ und σ² genügt. Sei (X1, X2, . . . , Xn) eine kleine einfache Zufallsstichprobe (n<30). Nehmen wir an, dass die Varianz σ² unbekannt ist (meistens in praxi). Ein symmetrisches Konfidenzintervall zum Niveau 1-α für den Parameter µ ist: [X − W(− t S n t ; X+ α 1− ; n −1 2 S n t α 1− ; n −1 2 X− µ ~ t n -1 S ] α 1− ; n −1 2 1− α n X− µ ≤ ≤ t α ) = 1− α 1− ; n −1 S 2 ⇓ W(− X − S n t α 1− ; n −1 2 ≤ −µ ≤ − X+ S n α 2 α 2 n −t t α 1− ; n −1 2 ) = 1− α t 1− α ; n −1 2 1− α ; n −1 2 ⇓ W(+ X + S n t α 1− ; n −1 2 ≥ + µ ≥ + X− S n t α 1− ; n −1 2 ) = 1− α Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik W[X − S n t α 1− ; n −1 2 ≤ µ ≤ X+ S n t α 1− ; n −1 2 Schätzung II ] = 1− α 15 Mittlere Montagedauer von Geräten eines Typs in einer Großserienproduktion - Beispiel Die Montagedauer von Geräten eines Typs in einer Großserienproduktion wird statistisch mittels Stichproben überwacht. Sie kann für die Gesamtproduktion (näherungsweise) als normalverteilt vorausgesetzt werden. Zu bestimmen ist eine 95%ige Intervallschätzung für die mittlere Montagedauer der Schichtproduktion. Die Berechnungen aus 16 zufällig gezogenen Stichprobenmessungen lieferten eine mittlere Montagedauer von 205 min und eine Standardabweichung von 20 min. µ: Mittlere Montagedauer der Schichtproduktion (Mittelwert einer normalverteilten GG mit unbekannter Varianz, kleiner SP (n<30) und n/N<0,05). Konfidenzintervall W[X16 − t 1− α ; n −1 2 s16 16 t 1− 0,95 ; 15 2 ≤ µ ≤ X16 + = t 0,975 ; 15 = 2,131 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Punktschätzung für µ und σ s16 16 t 1− 0,95 ; 15 2 ] = 0,95 k u = 205 − Tab. 16 der Formelsammlung k u = 205 + 20 16 20 16 2,131= 205 − 10,655 = 194,345 2,131= 205 + 10,655 = 215,655 [194,345 ≤ µ ≤ 215,655] Schätzung II 16 8 Intervallschätzung mittlerer Montagedauer - Interpretation µ: Mittlere Montagedauer der Schichtproduktion (Mittelwert einer normalverteilten GG mit unbekannter Varianz, kleiner SP (n<30) und n/N<0,05). W[X16 − s16 16 t 1− 0,95 ; 15 2 ≤ µ ≤ X16 + s16 16 t 1− 0,95 ; 15 2 ] = 0,95 [194,345 ≤ µ ≤ 215,655] Interpretation: Da das Konfidenzniveau 0,95 nahe bei Eins gewählt wurde, vertraut man darauf, ein Schätzintervall, das Intervall [194,345 ; 215,655], erhalten zu haben, das den Mittelwert µ überdeckt. Ob in diesem Fall diese Annahme richtig oder falsch ist, kann nicht gesagt werden. Bekannt ist jedoch der mittlere prozentuale Fehleranteil mit 5 %, der sich bei wiederholter Beobachtung von Stichproben des Umfangs 16 ergibt. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 17 Kriterien zur Erzeugung der Konfidenzintervalle für µ Bei der Konstruktion eines Konfidenzintervalls für den Erwartungswert µ sind bei den vier Kriterien folgende Entscheidungen möglich: Verteilung des Merkmals Stichproben- Entnahmetechnik Varianz σ² in der GG umfang der SP Normalverteilung bekannt n ≥ 30 Ziehen mit Zurücklegen Keine Normalverteilung unbekannt n < 30 Ziehen ohne Zurücklegen Die Konfidenzintervalle [Ku, K0] werden fallweise wie folgt berechnet: Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 18 9 Konfidenzintervalle für µ - Zusammenfassung Parameter µ (σ bekannt) µ (σ unbekannt) Konfidenzintervall [X − Zσ (X) ; X + Zσ (X)] Standardfehler (1) ohne Zurücklegen (2) mit Zurücklegen n σ (2) σ(X) = (1) σ̂(X) = N− n n− 1 σ (1) σ(X) = n N− n n− 1 S n [X − tσ̂(X) ; X + tσ̂(X)] (2) σ̂(X) = S n * * Anzuwendende Verteilung kleine SP große SP Normalverteilung Normalverteilung Faustregel: n>30 Bedingung: Grundgesamtheit normalverteilt Studentverteilung Normalverteilung mit ν=n-1 Faustregel: n>30 t→Z Bedingung: Grundgesamtheit normalverteilt Für n/N < 0,05 kann der Korrekturfaktor für endliche Gesamtheit vernachlässigt werden. N− n →1 n− 1 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 19 Verteilung der Differenz zweier Stichprobenmittelwerte D =⎯X1 -⎯X2 Es wird unterstellt, dass folgende Bedingungen erfüllt sind: ¾Gegeben sind zwei Grundgesamtheiten, in denen die Zufallsvariablen X1 und X2 den Normalverteilungen N(µ1, σ1²) bzw. N(µ2, σ2²) genügen. ¾Aus jeder Grundgesamtheit wird eine einfache Zufallsstichprobe (Ziehen mit Zurücklegen) mit den Stichprobenumfängen n1 bzw. n2 gezogen. ¾Die beiden Zufallsstichproben sind unabhängig voneinander. Da die beiden Zufallsvariablen X1 und X2 normalverteilt sind und die einfachen Zufallsstichproben unabhängig voneinander sind, so ist die Differenz zweier Stichprobenmittelwerte D =⎯X1 -⎯X2 normalverteilt mit den Parametern: µ D = E(D) = µ D = µ1 − µ 2 σ 2D = Var(D) = σ 2D = 2 1 2 2 σ σ + n1 n 2 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Z= D− µ D (X 1 − X 2 ) − (µ1 − µ 2 ) ~ N(0, 1) = σD σ12 σ 22 + n1 n 2 Schätzung II 20 10 Konfidenzintervall für die Differenz µ1 - µ2 (Normalverteilungen und bekannte Varianzen σ12 und σ22) D − µ D ( X 1 − X 2 ) − (µ 1 − µ 2 ) = ~ N(0, 1) σD σ 12 σ 22 + n1 n 2 Z= W[− Z 1− α 2 ≤ (X1 − X 2 ) − (µ1 − µ 2 ) σ12 σ 22 + n1 n 2 W[−(X1 − X 2 ) − Z 1− W[+(X1 − X 2 ) + Z W[(X1 − X 2 ) − Z 1− 1− ≤Z 1− α 2 1− α −Z ] = 1− α α 2 σ12 σ 22 + ≤ −(µ1 − µ 2 ) ≤ −(X1 − X 2 ) + Z 1− n1 n 2 α 2 σ12 σ 22 + ] = 1− α n1 n 2 α 2 σ12 σ 22 + ≥ + (µ1 − µ 2 ) ≥ +(X1 − X 2 ) − Z α 1− n1 n 2 2 σ12 σ 22 + ] = 1− α n1 n 2 σ12 σ 22 + ≤ (µ1 − µ 2 ) ≤ (X1 − X 2 ) + Z α 1− n1 n 2 2 α 2 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik α 2 α 2 1− Z α 2 1− α 2 Für unabhängige einfache SP oder n1/N1<0,05 und n2/N2<0,05 σ12 σ 22 + ] = 1− α n1 n 2 Schätzung II 21 Konfidenzintervall für die Differenz µ1 - µ2 (Normalverteilung und unbekannte Varianzen σ12 und σ22) (X1 − X 2 ) − (µ1 − µ 2 ) 2 1 2 2 S S + n1 n 2 W[ − t 1 − α ;v 2 ≤ ~ tv (X 1 − X 2 ) − (µ 1 − µ 2 ) S12 S 22 + n1 n 2 W[ − (X 1 − X 2 ) − t W[ + (X 1 − X 2 ) + t W[( X 1 − X 2 ) − t v= ≤t 1 − α ;v 2 ⎡ S12 S 22 ⎤ ⎢ + ⎥ ⎣ n1 n 2 ⎦ ⎡ S12 ⎤ ⎢ ⎥ ⎣ n1 ⎦ 2 2 1− α 2 α 2 α 2 ⎡ S 22 ⎤ ⎢ ⎥ n2 +⎣ ⎦ n1 − 1 n2 −1 −t 1− α ;v 2 α ;v 2 S12 S 22 + ≤ − (µ 1 − µ 2 ) ≤ − (X 1 − X 2 ) + t 1 − n1 n 2 α ;v 2 S12 S 22 ] = 1− α + n1 n 2 1 − α ;v 2 S12 S 22 + ≥ + (µ 1 − µ 2 ) ≥ + (X 1 − X 2 ) − t 1 − n1 n 2 α ;v 2 S12 S 22 ] = 1− α + n1 n 2 α ;v 2 S12 S 22 + ≤ (µ 1 − µ 2 ) ≤ (X 1 − X 2 ) + t 1 − n1 n 2 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 1− α ;v 2 ] = 1− α 1 − 1 − t Schätzung II α ;v 2 S12 S 22 + ] = 1− α n1 n 2 Für unabhängige einfache Stichproben oder n1/N1<0,05 und n2/N2<0,05 22 11 Konfidenzintervall für die Differenz µ1- µ2 - Zusammenfassung ¾Ziehen der Stichproben mit Zurücklegen oder n1/N1<0,05 und n2/N2<0,05 normalverteilte Grundgesamtheiten, [(X1 − X 2 ) − Z α bekannte Varianzen 1− 2 σ 12 σ 22 + ; (X1 − X 2 ) + Z α 1− n1 n 2 2 S12 S 22 Normalverteilte Grundgesamt- [(X 1 − X 2 ) − t α + ; 1− ; v n1 n 2 2 heiten, d. h. X1~ N(µ1, σ1²) bzw. X2 ~ N(µ2, σ2²) , unbekannte Varianzen σ1² und v= σ2² und kleine Stichproben (n1<30 oder n2<30) Unbekannte Varianzen σ1² und σ2² und große Stichproben (n1>30 und n2>30) [(X1 − X 2 ) − Z Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik α 1− 2 (X 1 − X 2 )+ t ⎡ S12 S 22 ⎤ ⎢ + ⎥ ⎣ n1 n 2 ⎦ 2 σ12 σ 22 + ] n1 n 2 S12 S 22 + ] n1 n 2 α 1− ; v 2 2 2 ⎡ S12 ⎤ ⎡ S 22 ⎤ ⎢ ⎥ ⎢ ⎥ ⎣ n1 ⎦ + ⎣ n 2 ⎦ n1 − 1 n2 −1 S12 S 22 + ; (X1 − X 2 ) + Z 1− n1 n 2 α 2 S12 S 22 + ] n1 n 2 Schätzung II 23 Differenz mittlerer Monatsverdienste der Angestellten in Schleswig-Holstein und MV - Intervallschätzung Beispiel: Eine SP-Untersuchung von je 100 Personen zur Ermittlung durchschnittlicher Bruttomonatsverdienste der Angestellten in ausgewählten Branchen Mecklenburg-Vorpommerns (MV) und Schleswig-Holsteins (SH) brachte folgende Ergebnisse: Branche Bruttomonatsverdienste in Euro Kreditinstitute Versicherungsgewerbe SH MV Durchschnitt 1.925 1.045 Standardabweichung 200 150 Durchschnitt Varianz 1.980 1.075 25.500 40.000 Vergleichsaspekte: ¾ Differenz beider Branchen je Bundesland (Branchenvergleich) ¾ Differenz beider Bundesländer je Branche (Regionalvergleich) Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 24 12 Mittlere Monatsverdienste der Angestellten in Schleswig-Holstein und MV - Rahmenbedingungen Branche Bruttomonatsverdienste in Euro Kreditinstitute Durchschnitt Versicherungsgewerbe SH MV ⎯x 1.925 1.045 Standardabweichung s 200 150 Stichprobenumfang n 100 100 ⎯x 1.980 1.075 Varianz s² 25.500 40.000 Stichprobenumfang n 100 100 Durchschnitt Bedingungen: ¾ Unbekannte Verteilungen des Merkmals Bruttomonatsverdienst in allen Grundgesamtheiten ¾ Unbekannte Varianzen des Merkmals in den Grundgesamtheiten ¾ Große (nij>30) und unabhängige Zufallsstichproben. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 25 Differenz mittlerer Monatsverdienste von Angestellten der Kreditinstitute in SH und MV - Intervallschätzung Regionalvergleich: Branche Bruttomonatsverdienste in Euro Kreditinstitute W[(X1 − X 2 ) − Z 0,95 1− 2 σ̂ D = s12 s2 + 2 = 100 100 Z = Z 0,975 = 1,96 1− 0,95 2 SH MV Durchschnitt 1.925 1.045 Standardabweichung 200 150 Stichprobenumfang 100 100 S12 S2 + 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 1− 100 100 200² 150² + = 100 100 S12 S2 + 2 ] = 0,95 100 100 40000 22500 + = 625 = 25 100 100 [880 − 1,96 ⋅ 25 ≤ µ 1 − µ 2 ≤ 880 + 1,96 ⋅ 25] Tab. 12 der Formelsammlung = [880 − 49 ≤ µ − µ ≤ 880 + 49] 1 (X − X ) = 1.925 − 1.045 = 880 1 0,95 2 [831 ≤ µ1 − µ 2 ≤ 929] 2 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik 2 Schätzung II 26 13 Differenz mittlerer Monatsverdienste von Angestellten der Kreditinstitute in SH und MV - Interpretation Regionalvergleich: Branche Bruttomonatsverdienste in Euro Kreditinstitute W[(X1 − X 2 ) − Z 0,95 1− 2 SH MV Durchschnitt 1.925 1.045 Standardabweichung 200 150 Stichprobenumfang 100 100 S12 S2 + 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 1− 100 100 0,95 2 S12 S2 + 2 ] = 0,95 100 100 [831 ≤ µ1 − µ 2 ≤ 929] Interpretation: Da das Konfidenzniveau 0,95 nahe bei Eins gewählt wurde, vertraut man darauf, dass die Differenz der durchschnittlichen Bruttomonatsverdienste bei Kreditinstituten beider Länder im Intervall [831 ; 929] liegt. Ob in diesem Fall diese Annahme richtig oder falsch ist, kann nicht gesagt werden. Bekannt ist jedoch der mittlere prozentuale Fehleranteil mit 5 %, der sich bei wiederholter Beobachtung von Stichproben des Umfangs 100 ergibt. Da das Konfidenzintervall den Wert Null nicht überdeckt, kann man von einem signifikanten Unterschied der mittleren Einkommen in Kreditinstituten von MV und SH ausgehen. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 27 Differenz mittlerer Monatsverdienste von Angestellten der Versicherungen in SH und MV - Intervallschätzung Regionalvergleich: Branche Bruttomonatsverdienste in Euro Versicherungsgewerbe Durchschnitt Varianz Stichprobenumfang W[(X1 − X 2 ) − Z 1− 0,95 2 1.980 1.075 25.500 40.000 100 100 25.500 40.000 + = 655 = 25,593 100 100 = Z 0,975 = 1,96 Tab. 12 oder Tab. 14 der Formelsammlung [905 − 1,96 ⋅ 25,593 ≤ µ1 − µ 2 ≤ 905 + 1,96 ⋅ 25,593] = [905 − 50,16 ≤ µ1 − µ 2 ≤ 905 + 50,16] (X − X ) = 1.980 − 1.075 = 905 1 MV S12 S2 S12 S2 + 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 0,95 + 2 ] = 0,95 1− 100 100 100 100 2 0,95 2 s12 s2 + 2 = 100 100 σ̂ D = Z 1− SH [854,84 ≤ µ1 − µ 2 ≤ 955,16] 2 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 28 14 Differenz mittlerer Monatsverdienste von Angestellten der Versicherungen in SH und MV - Interpretation Regionalvergleich: Branche Bruttomonatsverdienste in Euro Versicherungsgewerbe Durchschnitt Varianz Stichprobenumfang W[(X1 − X 2 ) − Z 1− 0,95 2 S12 S2 S12 S2 + 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 0,95 + 2 ] = 0,95 1− 100 100 100 100 2 SH MV 1.980 1.075 25.500 40.000 100 100 [854,84 ≤ µ1 − µ 2 ≤ 955,16] Interpretation: Da das Konfidenzniveau 0,95 nahe Eins gewählt wurde, vertraut man darauf, dass die Differenz der durchschnittlichen Bruttomonatsverdienste im Versicherungsgewerbe beider Länder im Intervall [855 ; 955] liegt. Ob in diesem Fall diese Annahme richtig oder falsch ist, kann nicht gesagt werden. Bekannt ist jedoch der mittlere prozentuale Fehleranteil mit 5 %, der sich bei wiederholter Beobachtung von Stichproben des Umfangs 100 ergibt. Da das Konfidenzintervall den Wert Null nicht überdeckt, kann man von einem signifikanten Unterschied der mittleren Einkommen im Versicherungsgewerbe von MV und SH ausgehen. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 29 Differenz der mittleren Monatsverdienste von Angestellten der Kreditinstitute und der Versicherungen - Intervallschätzung Branchenvergleich Schleswig-Holstein: Branche Bruttomonatsverdienste in Euro Kreditinstitute Durchschnitt Standardabweichung 1.925 200 Stichprobenumfang Durchschnitt Varianz Stichprobenumfang 100 1.980 25.500 100 Versicherungsgewerbe W[(X1 − X 2 ) − Z σ̂ D = Z 1− 0,95 2 s12 s2 + 2 = 100 100 0,95 1− 2 S12 S2 S12 S2 + 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 0,95 + 2 ] = 0,95 − 1 100 100 100 100 2 [55 − 1,96 ⋅ 25,6 ≤ µ − µ ≤ 55 + 1,96 ⋅ 25,6] 40.000 25.500 1 2 + = 655 = 25,593 100 100 = [55 − 50,17 ≤ µ − µ ≤ 55 + 50,17] = Z 0,975 = 1,96 1 Tab. 12 oder 14 der Formelsammlung (X − X ) = 1.980 − 1.925 = 55 1 SH 2 [4,83 ≤ µ1 − µ 2 ≤ 105,17] 2 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 30 15 Differenz der mittleren Monatsverdienste von Angestellten der Kreditinstitute und der Versicherungen - Interpretation Branchenvergleich Schleswig-Holstein: Branche Bruttomonatsverdienste in Euro Kreditinstitute Durchschnitt Standardabweichung 1.925 200 Stichprobenumfang Durchschnitt Varianz Stichprobenumfang 100 1.980 25.500 100 Versicherungsgewerbe W[(X1 − X 2 ) − Z 1− 0,95 2 S12 S2 S12 S2 + 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 0,95 + 2 ] = 0,95 1− 100 100 100 100 2 SH [4,83 ≤ µ1 − µ 2 ≤ 105,17] Interpretation: Da das Konfidenzniveau 0,95 nahe Eins gewählt wurde, vertraut man darauf, dass die Differenz der durchschnittlichen Bruttomonatsverdienste bei Versicherungsgewerbe und Kreditinstitute in Schleswig-Holsteins im Intervall [5 ; 105] liegt. Ob in diesem Fall diese Annahme richtig oder falsch ist, kann nicht gesagt werden. Bekannt ist jedoch der mittlere prozentuale Fehleranteil mit 5 %, der sich bei wiederholter Beobachtung von Stichproben des Umfangs 100 ergibt. Da das Konfidenzintervall den Wert Null nicht überdeckt, kann man von einem signifikanten Unterschied zwischen den Bruttomonatsverdiensten in beiden Branchen ausgehen. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 31 Differenz der mittleren Monatsverdienste von Angestellten der Kreditinstitute und der Versicherungen - Intervallschätzung Branchenvergleich in Mecklenburg-Vorpommern: Branche Bruttomonatsverdienste in Euro Kreditinstitute Durchschnitt Standardabweichung 1.045 150 Stichprobenumfang Durchschnittliche Varianz Stichprobenumfang 100 1.075 40.000 100 Versicherungsgewerbe W[(X1 − X 2 ) − Z 0,95 1− 2 σ̂ D = Z 0,95 2 1− s12 s2 + 2 = 100 100 S12 S2 S12 S2 + 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 0,95 + 2 ] = 0,95 1− 100 100 100 100 2 40.000 22.500 + = 625 = 25 100 100 = Z 0,975 = 1,96 MV [30 − 1,96 ⋅ 25 ≤ µ 1 − µ 2 ≤ 30 + 1,96 ⋅ 25] = [30 − 49 ≤ µ 1 − µ 2 ≤ 30 + 49] Tab. 12 oder 14 der Formelsammlung [−19 ≤ µ1 − µ 2 ≤ 79] (X − X ) = 1.075 − 1.045 = 30 1 2 Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 32 16 Differenz der mittleren Monatsverdienste von Angestellten der Kreditinstitute und der Versicherungen - Interpretation Branchenvergleich in Mecklenburg-Vorpommern: Branche Bruttomonatsverdienste in Euro Kreditinstitute Durchschnitt Standardabweichung 1.045 150 Stichprobenumfang Durchschnitt Varianz Stichprobenumfang 100 1.075 40.000 100 Versicherungsgewerbe W[(X1 − X 2 ) − Z 1− 0,95 2 S12 S2 + 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 1− 100 100 MV S12 S2 + 2 ] = 0,95 100 100 0,95 2 [−19 ≤ µ1 − µ 2 ≤ 79] Interpretation: Da das Konfidenzniveau 0,95 nahe Eins gewählt wurde, vertraut man darauf, dass die Differenz der durchschnittlichen Bruttomonatsverdienste beider Branchen in MV im Intervall [-19 ; 79] liegt. Da die Null zum Schätzintervall gehört, kann man von einem signifikanten Unterschied zwischen den durchschnittlichen Bruttomonatsverdienst der Branchen in MV ausgehen. Ob in diesem Fall diese Annahme richtig oder falsch ist, kann nicht gesagt werden. Bekannt ist jedoch der mittlere prozentuale Fehleranteil mit 5 %, der sich bei wiederholter Beobachtung von Stichproben des Umfangs 100 ergibt. Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 33 So erzeugt SPSS eine Statistik der Konfidenzintervalle (95%) Beispiel: Campusfile Mikrozensus, Einkommen der Haushalte T h u e ri ng e n S a ch se n - A n ha l t S a ch se n Land der Bundesrepublik M e ckl e nb u r g -V o r p o mm e r n B r a nd e n b u rg B e r lin S a a rla n d B a ye r n B a d e n -W u e r ttem b e r g R h e in la n d -P fa l z H e sse n N o rd r he i n -W e stfa l en B r e me n N ie d e rs ac h se n H a mb u r g S ch le s wi g- H o lste in 2 .5 00 3 .0 00 3 .50 0 4 .0 0 0 4 .5 0 0 5 .0 0 0 9 5 % C I h h ne Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 34 17 So erzeugt SPSS eine Statistik der Konfidenzintervalle (99%) Beispiel: Campusfile Mikrozensus, Einkommen der Haushalte T h u e ri ng e n S a ch se n -A nh a l t S a ch se n Land der Bundesrepublik M e ckl e nb u r g -V o r p o mm e r n B r a nd e n b u rg B e r lin S a a rla n d B a ye r n B a d e n -W u e r ttem b e r g R h e in la n d -P fa l z H e sse n N o rd r he i n -W e stfa l en B r e me n N ie d e rs ac h se n H a mb u r g S ch le sw i g- H o lste in 2 5 00 ,0 0 3 00 0 ,0 0 3 5 0 0 ,0 0 4 00 0 ,0 0 4 5 0 0 ,0 0 5 0 0 0 ,0 0 99% C I hhne Dr. Ricabal Delgado/Prof. Kück Lehrstuhl Statistik Schätzung II 35 18