Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 5, Zusammenhangsmaße Kovarianz n sxy 1 = (xi − x̄)(yi − ȳ) n i=1 Korrelationskoeffizient nach Bravais-Pearson n rxy (xi − x̄) (yi − ȳ) sxy i=1 = = sx · sy n n (xi − x̄)2 · (yi − ȳ)2 i=1 Dr. Matthias Arnold i=1 294 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 5, Zusammenhangsmaße Kovarianz und Korrelation Maßzahlen für den linearen Zusammenhang Korrelation: standardisiert Korrelation = Kausalität Rangkorrelationskoeffizient nach Spearman n R rxy = i=1 n i=1 R(xi ) − R̄x R(xi ) − R̄x R(yi ) − R̄y n 2 2 · R(yi ) − R̄y i=1 Maß für monotonen Zusammenhang Dr. Matthias Arnold 295 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 6, Preisindizes Preisindex nach Laspeyres n L P0t = i=1 n i=1 pt (i) · q0 (i) p0 (i) · q0 (i) Preisindex nach Paasche n P P0t = i=1 n i=1 Dr. Matthias Arnold pt (i) · qt (i) p0 (i) · qt (i) 296 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 6, Preisindizes Preisindizes Darstellung als gewichtetes arithmetisches Mittel Inflationsrate Warenkorb und Verbraucherpreisindex praktische Umsetzung Dr. Matthias Arnold 297 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 7, Zufällige Ereignisse und ihre Wahrscheinlichkeiten Grundlegende Begriffe Zufallsexperiment Elementarereignisse ωi Ergebnismenge Ω Ereignisse Ereignisse A und B Schnittmenge A ∩ B Vereinigungsmenge A ∪ B Differenzmenge A \ B Komplementärmenge Ā disjunkte Mengen Dr. Matthias Arnold 298 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 7, Zufällige Ereignisse und ihre Wahrscheinlichkeiten Wahrscheinlichkeiten Laplace Axiome von Kolmogoroff Rechenregeln bedingte Wahrscheinlichkeiten stochastische Unabhängigkeit Interpretation bedingter Wahrscheinlichkeiten Dr. Matthias Arnold 299 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 8, Zufallsvariablen Zufallsvariable X Abbildung: Ω → R diskrete und stetige Zufallsvariablen diskrete Zufallsvariable: Wahrscheinlichkeitsfunktion f (xi ) = P (X = xi ), i = 1, . . . , k, diskrete Zufallsvariable: Verteilungsfunktion F (x) = P (X ≤ x) = f (xi ), x ∈ R xi ≤x Dr. Matthias Arnold 300 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 8, Zufallsvariablen stetige Zufallsvariable: Dichtefunktion f (x) = F (x), x ∈ R, stetige Zufallsvariable: Verteilungsfunktion x F (x) = P (X ≤ x) = f (t) dt, x ∈ R −∞ Dr. Matthias Arnold 301 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 8, Zufallsvariablen Wahrscheinlichkeitsfunktion, Dichtefunktion, Verteilungsfunktion Eigenschaften Rechenregeln stochastische Unabhängigkeit Dr. Matthias Arnold 302 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 9, Erwartungswert, Varianz und Kovarianz von Zufallsvariablen Erwartungswert, diskrete Zufallsvariable E (X) = xi · f (xi ) i∈I Erwartungswert, stetige Zufallsvariable ∞ E (X) = x · f (x) dx −∞ Eigenschaften des Erwartungswertes Gesetz der großen Zahl p-Quantile Dr. Matthias Arnold 303 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 9, Erwartungswert, Varianz und Kovarianz von Zufallsvariablen Varianz einer Zufallsvariablen 2 σX = Var (X) = E (X − E (X))2 Standardabweichung σX = 2 σX Eigenschaften Dr. Matthias Arnold 304 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 9, Erwartungswert, Varianz und Kovarianz von Zufallsvariablen Kovarianz zweier Zufallsvariablen σXY = Cov (X, Y ) = E [(X − E (X))(Y − E (Y ))] Korrelation zweier Zufallsvariablen ρXY = σXY σX · σY Kovarianz und Korrelation Maße für den linearen Zusammenhang Rechenregeln, Eigenschaften Unkorreliertheit und Unabhängigkeit Dr. Matthias Arnold 305 Universität Erfurt Sommersemester 2012 - Statistik Zusammenfassung: Kapitel 10, Ausgewählte Verteilungen Binomialverteilung Bernoulli-Experiment, n-mal wiederholt Stetige Gleichverteilung Normalverteilung Standardnormalverteilung Zentraler Grenzwertsatz Approximationen Dr. Matthias Arnold 306 Universität Erfurt Sommersemester 2012 - Statistik Teil C: Induktive Statistik Dr. Matthias Arnold 307 Universität Erfurt Sommersemester 2012 - Statistik Motivation Teil B: Verteilung F einer Zufallsvariablen X ist bekannt ⇒ sämtliche Parameter“ von F (Erwartungswert, Varianz, ” Quantile, . . . ) lassen sich direkt angeben Teil C: Verteilung F einer Zufallsvariablen X ist unbekannt uiv ⇒ Stichprobe X1 , ..., Xn ∼ F ⇒ Realisationen x1 , ..., xn sollen Rückschlüsse auf unbekannte Parameter“ von F liefern ” Dr. Matthias Arnold 308 Universität Erfurt Sommersemester 2012 - Statistik Motivation (Fortsetzung) Dr. Matthias Arnold 309 Universität Erfurt Sommersemester 2012 - Statistik Kapitel 11: Punktschätzung Beispiel 11.1 (S1-Verspätung, vgl. u.a. Beispiel 9.5 b)) X = S1-Verspätung (in min) Haltestelle Dortmund Universität“ ” Kapitel 8&9: X ∼ R [0, 20] Jetzt: X ∼ F, wobei F unbekannt Messe nun stichprobenartig folgende Verspätungen (in Min.): 2, 20, 14, 8, 10, 2, 0, 3, 9, 2 → gesucht: Durchschnittliche Verspätung, also E (X) → ??? Dr. Matthias Arnold 310 Universität Erfurt Sommersemester 2012 - Statistik Definition 11.1 X1 , ..., Xn Stichprobenvariablen aus Grundgesamtheit mit unbekannter Verteilung F = Fθ . Dann heißt eine Funktion θ̂ = g (X1 , ..., Xn ) Schätzfunktion (kurz Schätzer) für den unbekannten Parameter θ. Der sich aus den Realisationen x1 , ..., xn ergebende Wert g (x1 , ..., xn ) heißt Schätzwert für θ. Dr. Matthias Arnold 311 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 11.2 (S1-Verspätung, Situation wie in Beispiel 11.1) Xi = S1-Verspätung (in min) bei i−ter Messung“ ” uiv ⇒ X1 , ..., X10 ∼ X ∼ F (F unbekannt) Von Interesse: μ = E (Xi ) → einige mögliche Kandidaten: μ̂1 = X̄ = 7 μ̂2 = X1 = 2 μ̂3 = 3 · X8 = 6 μ̂4 = 19 9i=1 Xi = 7, 56 → Welcher Schätzer ist am besten“? ” Dr. Matthias Arnold 312 Universität Erfurt Sommersemester 2012 - Statistik Definition 11.2 Ein Schätzer θ̂, für den E (θ̂) = θ gilt, heißt erwartungstreu (oder unverzerrt) für θ. Für einen Schätzer θ̂ heißt Bias (θ̂) = E (θ̂) − θ Verzerrung (oder Bias) von θ̂. Dr. Matthias Arnold 313 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung a) Grafische Darstellung erwartungstreue Schätzung f(θ^) θ Dr. Matthias Arnold 314 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) b) Grafische Darstellung verzerrte Schätzung f(θ^) θ Dr. Matthias Arnold 315 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 11.3 (S1-Verspätung, Situation wie in Beispiel 11.2) Für die vier vorgeschlagenen Schätzer gilt: 10 10 1 1 Xi = 10 E (Xi ) = E (μ̂1 ) = E 10 i=1 i=1 1 10 · 10 · μ = μ E (μ̂2 ) = E (X1 ) = μ E (μ̂3 ) = E (3 · X8 ) = 3 · E (X8 ) = 3 · μ = μ E (μ̂4 ) = E 1 9 9 i=1 Xi = 1 9 9 i=1 E (Xi ) = 1 9 ·9·μ = μ μ̂1 , μ̂2 und μ̂4 erwartungstreu → welchen Schätzer bevorzugen? Dr. Matthias Arnold 316 Universität Erfurt Sommersemester 2012 - Statistik Definition 11.3 Seien θ̂1 und θ̂2 erwartungstreue Schätzer für θ. Wenn Var (θ̂1 ) < Var (θ̂2 ), so heißt θ̂1 effizienter zur Schätzung von θ als θ̂2 . Bemerkung Grafische Darstellung Effizienz (hier θ̂1 effizienter als θ̂2 ) ^ ) f(θ 1 ^ ) f(θ 2 θ Dr. Matthias Arnold 317 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 11.4 (S1-Verspätung, Situation wie in Beispiel 11.3) Für die erwartungstreuen Schätzer μ̂1 , μ̂2 und μ̂4 gilt: 10 10 1 1 Xi = 100 Var (Xi ) Var (μ̂1 ) = Var 10 = 1 100 · 10 i=1 · σ2 1 10 = · σ2 i=1 Var (μ̂2 ) = Var (X1 ) = σ 2 Var (μ̂4 ) = Var = 1 81 1 9 ·9· 9 Xi i=1 σ 2 = 19 = · σ2 1 81 9 i=1 Var (Xi ) → Güte der Schätzer (gemäß Effizienzkrit.): 1) μ̂1 , 2) μ̂4 , 3) μ̂2 Dr. Matthias Arnold 318 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung a) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = μ. Gemäß Beispiel 11.4 ist μ̂1 = X̄ effizienter als zwei andere erwartungstreue Schätzer für μ. Allgemein ist X̄ der effizienteste Schätzer unter allen erwartungstreuen Schätzern für μ, d. h. es gilt: Var (X̄) ≤ Var (μ̃) für alle μ̃ mit E (μ̃) = μ. b) Spezialfall von a) bei Bernoulliverteilung: uiv X1 , ..., Xn ∼ Bin(1, p) → E (Xi ) = p → X̄ erwartungstreuer (und außerdem effizientester) Schätzer für p Dr. Matthias Arnold 319 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) c) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = μ bekannt und σ 2 = Var (Xi ) unbekannt. Dann ist 2 σ̂ = 2 SX n 1 = (Xi − μ)2 n i=1 ein erwartungstreuer Schätzer für σ 2 . d) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = μ unbekannt und σ 2 = Var (Xi ) unbekannt. Dann ist 2 σ̂ = 2 S̃X n 1 = (Xi − X̄)2 n−1 i=1 ein erwartungstreuer Schätzer für σ 2 . Dr. Matthias Arnold 320 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 11.5 (S1-Verspätung, Situation wie in 11.1) a) Xi = S1-Verspätung bei i−ter Messung“ (i = 1, ..., 10), ” Xi ∼ F (unbekannt) → Schätze Varianz σ 2 (gem. Bem. d) 2 nach Bsp. 11.1) erwartungstreu mit S̃X 2 S̃X 1 (2 − 7)2 + (14 − 7)2 + (10 − 7)2 + (0 − 7)2 + (9 − 7)2 9 +(20 − 7)2 + (8 − 7)2 + (2 − 7)2 + (3 − 7)2 + (2 − 7)2 ) 1 = (25 + 49 + 9 + 49 + 4 + 169 + 1 + 25 + 16 + 25) 9 1 = · 372 = 41, 34 9 = Dr. Matthias Arnold 321 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 11.5 (Fortsetzung) b) Situation wie in a), unterstelle jedoch, dass der aus den zehn Messungen resultierende Mittelwert (x̄ = 7) dem wahren Erwartungswert entspricht → verwende diese Zusatzinfo und schätze die Varianz σ 2 2 (gem. Bem. c) nach Bsp. 11.1) erwartungstreu mit SX 2 SX n = 1 1 (Xi − μ)2 = · 372 = 37, 2 n 10 i=1 Dr. Matthias Arnold 322 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 11.5 (Fortsetzung) c) Mit welcher Wahrscheinlichkeit verspätet sich S1 um höchstens 5 Minuten? 1, Verspätung ≤ 5 min Definiere Yi = 0, sonst uiv Also Y1 , ..., Y10 ∼ Bin(1, p); Von Interesse: p (Wahrscheinlichkeit, dass S1 max. 5 min. zu spät) → Gemäß Bem. b) nach Bsp. 11.1 ist X̄ effizientester Schätzer für p p̂ = 1 1 (1 + 0 + 0 + 1 + 0 + 0 + 0 + 1 + 1 + 1) = 10 2 (Zur Erinnerung: P(Versp. max. 5 min) = 0, 25 bei Unterstellung einer Gleichverteilung) Dr. Matthias Arnold 323 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung Fazit/Zusammenfassung Kapitel 11 Schätzer = Funktion der Stichprobenvariablen, selbst ebenfalls Zufallsvariable Erwartungstreue als Konzept zum Vergleich von Schätzern Effizienz als Konzept zum Vergleich von erwartungstreuen Schätzern Dr. Matthias Arnold 324 Universität Erfurt Sommersemester 2012 - Statistik Kapitel 12: Intervallschätzung Motivation Bisher: Schätzung des unbekannten Parameters θ durch θ̂ auf einen Punkt“ ” → P(θ̂ = θ) = 0 (falls θ̂ stetig verteilt), darüber hinaus keine Informationen, wie wahrscheinlich sich θ̂ zumindest in der ” Nähe“von θ realisiert Jetzt: Konstruiere (basierend auf Punktschätzer) Intervall, das unbekannten Parameter mit hoher Wahrscheinlichkeit“ ” überdeckt → liefert Information über Präzision des Schätzers Dr. Matthias Arnold 325 Universität Erfurt Sommersemester 2012 - Statistik Definition 12.1 X1 , ..., Xn Stichpr. aus Grundges. mit Xi ∼ Fθ (unbekannt). Vu = g(X1 , X2 , . . . , Xn ) und Vo = h(X1 , X2 , . . . , Xn ) Stichprobenfunktionen mit Vu < Vo . Dann heißt das Intervall [Vu , Vo ] Konfidenzintervall für den unbekannten Parameter θ. Weiter heißt α = P (θ ∈ / [Vu , Vo ]) Irrtumswahrscheinlichkeit und 1 − α = P (θ ∈ [Vu , Vo ]) Vertrauenswahrscheinlichkeit oder Konfidenzniveau. Dr. Matthias Arnold 326 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 12.1 Das Zentrum für Studienangelegenheiten an der TU Dortmund behauptet, dass die mittlere Wartezeit von Besuchern nicht mehr als zehn Minuten beträgt. Eine Befragung von 16 zufällig ausgewählten Besuchern ergab folgende Wartezeiten (in Minuten): 12, 20, 5, 15, 8, 1, 30, 25, 10, 4, 17, 11, 20, 10, 6, 2. Gesucht: 95%-Konfidenzintervall für die mittlere Wartezeit Annahme: Wartezeiten Stichprobenrealisationen einer normalverteilten Grundgesamtheit mit Standardabweichung σ = 5 bekannt. Dr. Matthias Arnold 327 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung Herleitung eines Konfidenzintervalls für μ bei bekannter Varianz (normalverteilte Grundgesamtheit) uiv Ausgangssituation: X1 , ..., Xn ∼ N μ, σ 2 n 2 (vgl. Bem. d) nach Def. 10.4) X ∼ N n · μ, n · σ → i i=1 i σ2 → X̄ ∼ N μ, n (vgl. Bem. d) nach Bsp. 9.1 und Bem. a), Punkt ii), nach Beispiel 9.5) → √ n X̄−μ σ ∼ N (0, 1) (vgl. Bem. c) nach Def. 10.4) √ X̄ − μ → P u α2 ≤ n ≤ u1− α2 = 1 − α σ mit uγ = γ-Quantil der N (0, 1)-Verteilung Dr. Matthias Arnold 328 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) uiv Herleitung Konfidenzintervall für μ bei Xi ∼ N μ, σ 2 , σ 2 bekannt (Fortsetzung) √ α α 1 − α = P −u1− 2 σ ≤ n (X̄ − μ) ≤ u1− 2 σ = P −u1− α2 −u1− α2 σ σ √ − X̄ ≤ −μ ≤ u1− α √ − X̄ 2 n n ⎞ = P σ σ √ ≤ X̄ − μ ≤ u1− α √ 2 n n ⎛ ⎜ σ σ ⎟ ⎜ ⎟ α α √ √ = P ⎜X̄ − u1− 2 ≤ μ ≤ X̄ + u1− 2 ⎟ ⎝ n n⎠ = Vu Dr. Matthias Arnold = Vo 329 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) uiv Somit gilt: Wenn X1 , ..., Xn ∼ N (μ, σ 2 ), Varianz σ 2 bekannt, dann ist ein Konfidenzintervall für den unbekannten Erwartungswert μ zum Konfidenzniveau 1 − α gegeben durch σ σ KI1−α (μ) = X̄ − u1− α2 √ , X̄ + u1− α2 √ n n Interpretation μ ist ein fester Wert (obwohl unbekannt), zufällig sind die Intervallgrenzen deshalb: Das Intervall [Vu , Vo ] überdeckt den unbekannten Parameter μ mit vorgegebener Wahrscheinlichkeit 1 − α Dr. Matthias Arnold 330 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 12.2 (Wartezeiten ZfS, vgl. Bsp. 12.1) Xi = Wartezeit i-ter Besucher (in Minuten)“, dann gilt nach ” Annahme: uiv X1 , X2 , . . . , X16 ∼ N (μ, 25) Konfidenzintervall Varianz σ 2 bekannt, also: σ σ KI1−α (μ) = X̄ − u1− α2 √ , X̄ + u1− α2 √ n n Berechnung für diese Daten: Dr. Matthias Arnold 331 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 12.2 (Fortsetzung) Hier ist X̄ = 1 (12 + 20 + 5 + . . . + 6 + 2) = 12, 25 16 und für α = 0, 05 gilt nach Tabelle 1 − α = 0, 95 → KI0,95 (μ) = ⇒ u1− α2 = u0,975 = 1, 96 5 5 12, 25 − 1, 96 · √ ; 12, 25 + 1, 96 · √ 16 16 = [12, 25 − 2, 45; 12, 25 + 2, 45] = [9, 8; 14, 7] = [9 Min.&48 Sek.; 14 Min.&42 Sek.] Intervall derart konstruiert, dass es unter den getroffenen Annahmen die (unbekannte, aber feste) mittlere Wartezeit beim ZfS mit 95 % Wahrscheinlichkeit überdeckt Dr. Matthias Arnold 332 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung Frage: Wie lässt sich analoges Konfidenzintervall für mittlere Wartezeit finden, wenn Varianz σ 2 unbekannt? Idee: Ersetze in Bemerkung nach Beispiel 12.1 die unbekannte 2 (siehe Varianz σ 2 durch erwartungstreuen Schätzer, z.B. S̃X Bem. d) nach Bsp. 11.4) Problem: Aber: √ X̄ − μ n N (0, 1) S̃X √ X̄ − μ n besitzt andere, leicht handhabbare Verteilung S̃X Dr. Matthias Arnold 333 Universität Erfurt Sommersemester 2012 - Statistik Definition 12.2 uiv X1 , ..., Xn ∼ N (0, 1), dann heißt die Zufallsvariable Y = n Xi2 i=1 χ2 -verteilt mit n Freiheitsgraden, kurz: Y ∼ χ2n . Weiter sei W ebenfalls N (0, 1) verteilt und Y wie oben definiert (also Y ∼ χ2n ). Sind W und Y stochastisch unabhängig, so heißt die Zufallsvariable W Z= 1 nY t-verteilt mit n Freiheitsgraden, kurz: Z ∼ tn . Dr. Matthias Arnold 334 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung 1 0.5 a) Dichten ausgesuchter χ2n −Verteilungen n=1 n=2 0.4 n=3 n=4 0.3 n=6 0.0 0.1 0.2 f(x) n=9 0 Dr. Matthias Arnold 2 4 x 6 8 335 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung 1 (Fortsetzung) 0.4 0.4 b) Dichten ausgesuchter tn −Verteilungen n=5 0.3 0.2 f(x) 0.1 0.0 0.0 0.1 0.2 f(x) 0.3 n=2 0 x 2 4 −4 −2 0 x 2 0.1 0.2 f(x) 0.3 n = 25 0.0 0.0 0.1 0.2 f(x) 0.3 n = 10 −4 Dr. Matthias Arnold 4 0.4 −2 0.4 −4 −2 0 x 2 4 −4 −2 0 x 2 4 336 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung 2 a) Konfidenzintervall für μ bei Normalverteilung, σ 2 unbekannt uiv Betrachte Problem aus Bem. nach Bsp. 12.2: Xi ∼ N (μ, σ 2 ) mit μ und σ 2 unbekannt; Gesucht: Konfidenzintervall für μ √ Bekannt: außerdem leicht zu zeigen: n X̄−μ σ ∼ N (0, 1); (n − 1) 2 S̃X σ2 ∼ χ2n−1 2 stochastisch unabhängig Weiter sind X̄ und S̃X √ X̄−μ √ X̄−μ √ X̄ − μ n σ n σ ⇒ = = n ∼ tn−1 (vgl. Def. 12.2) 2 S̃ X S̃ S̃ n−1 X X σ n−1 σ 2 und somit P Dr. Matthias Arnold tn−1, α2 √ X̄ − μ ≤ n ≤ tn−1,1− α2 S̃X =1−α 337 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung 2 (Fortsetzung) a) Konfidenzintervall bei N (μ, σ 2 ), σ 2 unbekannt (Fortsetzung) uiv Somit gilt: Wenn X1 , ..., Xn ∼ N (μ, σ 2 ), Varianz σ 2 unbekannt, dann ist ein Konfidenzintervall für den unbekannten Erwartungswert μ zum Konfidenzniveau 1 − α gegeben durch S̃X S̃X KI1−α (μ) = X̄ − tn−1,1− α2 √ , X̄ + tn−1,1− α2 √ n n b) Für n → ∞ konvergiert tn −Verteilung gegen N (0, 1)−Verteilung; Faustregel: Approximation bei n ≥ 30 akzeptabel → wenn n ≥ 30, so kann im Konfidenzintervall aus Teil a) anstelle des (1 − α/2)−Quantils der tn −Verteilung das entsprechende N (0, 1)−Quantil verwendet werden Dr. Matthias Arnold 338 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 12.3 (Wartezeiten ZfS, vgl. Bsp. 12.1 und 12.2) Xi = Wartezeit i-ter Besucher (in Minuten)“; unterstelle ” weiterhin Normalverteilung, nehme nun jedoch an, dass σ 2 uiv unbekannt → X1 , ..., X16 ∼ N (μ, σ 2 ) Gesucht: Konfidenzintervall für μ → wende Bem. 2 a) nach Def. 12.2 an X̄ = 12, 25 und n = 16 (vgl. Bsp. 12.2), weiterhin gilt 2 t15,0.975 = 2, 131; berechne nun außerdem S̃X 2 S̃X = 1 (12 − 12, 25)2 + (20 − 12, 25)2 + . . . + (2 − 12, 25)2 15 = 69, 933 Dr. Matthias Arnold 339 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 12.3 (Fortsetzung) Somit gilt KI0,95 (μ) = 12, 25 ± t15,0.975 · = 12, 25 − 2, 131 · 69, 933 16 69, 933 ; 12, 25 + 2, 131 · 16 69, 933 16 = [12, 25 − 4, 455; 12, 25 + 4, 455] = [7, 795; 16, 705] = [7 Min.&48 Sek.; 16 Min.&42 Sek.] Beachte: Bei bekannter Varianz umschloss das Konfidenzintervall den Bereich [9 Min.&48 Sek.; 14 Min.&42 Sek.], vgl. Bsp. 12.2 → dieses Intervall liegt komplett in dem Konfidenzintervall, welches bei unbekannter Varianz berechnet wurde (klar: weniger Informationen → größere Unsicherheit) Dr. Matthias Arnold 340 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 12.4 Bei einer Umfrage unter 65 mittelständischen Unternehmen geben 26 Betriebe an, zusätzliche Mitarbeiter einstellen zu wollen, falls der Kündigungsschutz gelockert wird. Gesucht: 90%-Konfidenzintervall für den unbekannten Anteil der Betriebe, die nach einer Gesetzesänderung zusätzliche Arbeitsplätze schaffen wollen 1 i-ter Betrieb möchte zusätzl. Mitarb. einstellen Definiere Xi = 0 sonst uiv → X1 , ..., X65 ∼ Bin (1, p) → 65 Xi ∼ Bin (65, p) i=1 Gemäß Fragestellung also benötigt: Konfidenzintervall für p Dr. Matthias Arnold 341 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung uiv Seien X1 , ..., Xn ∼ Bin (1, p), dann ist ein (approximatives) Konfidenzintervall für den unbekannten Anteil p zum Konfidenzniveau 1 − α gegeben durch: σ̂ σ̂ KI1−α (p) = p̂ − u1− α2 √ , p̂ + u1− α2 √ n n Dabei ist p̂ = X̄, σ̂ = p̂ (1 − p̂) und uγ das γ-Quantil der Standardnormalverteilung. Weiterhin gilt die Approximation als akzeptabel, wenn (1) n ≥ 30, Dr. Matthias Arnold (2) np̂ ≥ 10, (3) n (1 − p̂) ≥ 10 342 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 12.5 (Umfrage in mittelständischen Unternehmen, vgl. Bsp. 12.4) uiv Xi wie in Bsp. 12.4 → X1 , ..., X65 ∼ Bin (1, p) Gesucht: Konfidenzintervall für p → Nutze Bem. nach Bsp. 12.4: 65 Xi = 26 → p̂ = X̄ = i=1 26 = 0, 4 65 Überprüfung der Voraussetzungen: (1) n = 65 ≥ 30 (2) n p̂ = 26 ≥ 10 (3) n (1 − p̂) = 39 ≥ 10 Dr. Matthias Arnold 343 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 12.5 (Fortsetzung) Weiter gilt σ̂ = 0, 4 (1 − 0, 4) = 1 − α = 0, 9 ⇒ 0, 24 = 0, 49 u1− α2 = u0,95 = 1, 645 und somit KI0,9 (p) = 0, 49 0, 49 0, 4 − 1, 645 √ ; 0, 4 + 1, 645 √ 65 65 = [0, 4 − 0, 1; 0, 4 + 0, 1] = [0, 3; 0, 5] → Das 90 % Konfidenzintervall für den Anteil an Betrieben, die nach einer Gesetzesänderung zusätzliches Personal einstellen würden, geht von 30 % bis 50 %. Dr. Matthias Arnold 344 Universität Erfurt Sommersemester 2012 - Statistik Wahlumfragen Politbarometer (Forschungsgruppe Wahlen) Angabe: Bei 1.250 Befragten beträgt die Fehlertoleranz für Parteien mit 40% Stimmenanteil +/ − 3% für Parteien mit 10% Stimmenanteil +/ − 2% Berechnung n = 1250 α = 0, 05 (Konvention) ⇒ u1− α2 = u0.975 = 1.96 ≈ 2 bzw. σ̂ ⇒ u1− α2 n p · (1 − p) 2· n Dr. Matthias Arnold p · (1 − p) ≈ 2· =2· n 0.09 = 2· ≈ 0, 017 1250 0.24 ≈ 0, 028 1250 345 Universität Erfurt Sommersemester 2012 - Statistik Wahlumfragen Infratest Dimap (ARD-DeutschlandTREND) Angabe: Bei 1.000 Befragten beträgt die Fehlertoleranz für Parteien mit 5% Stimmenanteil +/ − 1, 4% für Parteien mit 50% Stimmenanteil +/ − 3, 1% Berechnung n = 1000 α = 0, 05 (Konvention) ⇒ u1− α2 = u0.975 = 1.96 ≈ 2 bzw. σ̂ ⇒ u1− α2 n p · (1 − p) 2· n Dr. Matthias Arnold p · (1 − p) ≈ 2· =2· n 0.25 = 2· ≈ 0, 0316 1000 0.0475 ≈ 0, 0138 1000 346 Universität Erfurt Sommersemester 2012 - Statistik Das Konfidenzintervall KI1−α (μ) = X̄ − u1− α2 σ σ √ , X̄ + u1− α √ 2 n n hat die Breite V o − Vu = X̄ + u1− α2 σ √ n − X̄ − u1− α2 σ √ n σ = 2 · u1− α2 √ n und ist deshalb umso schmaler, je größer α ist (größere Irrtumswahrscheinlichkeit bedeutet kleineres Intervall) kleiner σ 2 ist (präzisere Schätzung gibt mehr Sicherheit) größer n ist (mehr Stichprobe bedeutet mehr Information) Dr. Matthias Arnold 347 Universität Erfurt Sommersemester 2012 - Statistik erforderlicher Stichprobenumfang In der Praxis häufig: gewünschte Breite des Konfidenzintervalles vorgegeben: Vo − Vu = c mit einer Konstante c daraus: erforderlichen Stichprobenumfang berechnen σ c = Vo − Vu = 2 · u1− α2 √ n σ 2 ⇔n = 2 · u1− α2 c bei unbekanntem σ: durch Schätzwert ersetzen Zusammenhang ist quadratisch: Intervallbreite halbieren erfordert vierfachen Stichprobenumfang Dr. Matthias Arnold 348