TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) Zentraler Grenzwertsatz (Grund für enorme Bedeutung der Normalverteilung): X1 , ..., Xn seien unabhängig identisch verteilte (uiv) Zufallsvariablen mit E (Xi ) = µ und Var (Xi ) = σ 2 . Dann gilt: P n bzw. X − nµ i=1 i √ lim P ≤ x = Φ (x) n→∞ σ n √ X̄n − µ ≤ x = Φ (x). n lim P n→∞ σ Dr. Hendrik Hansen 271 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) Mit Hilfe von b) lassen sich also hinreichend große Scharen unabhängiger Zufallsvariablen mit gleicher Verteilung (egal welcher!) an die Standardnormalverteilung annähern. Spezialfall: X1 , ..., Xn uiv mit Xi ∼ Bin (1, p). Somit ist µ = p, σ 2 = p · (1 − p) und es gilt P n X − np i=1 i = Φ (x). p lim P ≤ x n→∞ np (1 − p) Faustregel“: Approximation aus b) akzeptabel, wenn ” (1) n ≥ 30, Dr. Hendrik Hansen (2) np ≥ 10, (3) n (1 − p) ≥ 10 272 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.6 Angenommen, die täglichen Änderungen des Deutschen Aktienindexes (DAX) seien unabhängige Zufallsvariablen, wobei P (DAX steigt) = P (DAX fällt) = 1/2 Mit welcher Wahrscheinlichkeit steigt dann der DAX an mehr als 120 von insgesamt 200 Börsentagen? ( 1 Definiere Xi = 0 DAX steigt an Börsentag i (i = 1, ..., 200) sonst Dann gilt: X1 , ..., X200 Dr. Hendrik Hansen 1 ∼ Bin 1, 2 uiv ⇒ X= 200 X i=1 1 Xi ∼ Bin 200, 2 273 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.6 (Fortsetzung) Gesucht: P (X > 120) = 1 − P (X ≤ 120) (nicht tabelliert) = 1− 120 X = 1− k 200−k 120 X 1 1 200 P (X = k) k=0 k=0 k 2 2 (kaum berechenbar) → wende Bemerkung c) nach Beispiel 11.5 an Dr. Hendrik Hansen 274 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 11.6 (Fortsetzung) Faustregeln“ erfüllt? ” n = 200 ≥ 30 X, Also: P (X > 120) np = 100 ≥ 10 X, n (1 − p) = 100 ≥ 10 X X − 100 = 1 − P (X ≤ 120) = 1 − P √ ≤ 50 | {z } ≈N (0,1) 120−100 √ 50 ≈ 1 − Φ (2, 83) = 1 − 0, 9977 = 0, 0023 = 0, 23% → Unter gegebenen Annahmen steigt der DAX an mehr als 120 von insgesamt 200 Börsentagen mit einer Wahrscheinlichkeit von (lediglich) 0,23% Dr. Hendrik Hansen 275 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Fazit/Zusammenfassung Kapitel 11 ◮ Unabhängige Wiederholungen eines Bernoulliexperiments → Binomialverteilung ◮ Wichtigste stetige Verteilung: Normalverteilung ◮ Berechnung von Wahrscheinlichkeiten für normalverteilte Zufallsvariablen immer über Standardnormalverteilung (siehe Bem. c) nach Def. 11.4) ◮ Approximation beliebiger Verteilungen durch Standardnormalverteilung bei großem Stichprobenumfang möglich (siehe Bem.b) bzw. c) nach Bsp. 11.5) Dr. Hendrik Hansen 276 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Teil C: Induktive Statistik Dr. Hendrik Hansen 277 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Motivation Teil B: Verteilung F einer Zufallsvariablen X ist bekannt ⇒ sämtliche Parameter“ von F (Erwartungswert, Varianz, ” Quantile, . . . ) lassen sich direkt angeben Teil C: Verteilung F einer Zufallsvariablen X ist unbekannt uiv ⇒ Stichprobe X1 , ..., Xn ∼ F ⇒ Realisationen x1 , ..., xn sollen Rückschlüsse auf unbekannte Parameter“ von F liefern ” Dr. Hendrik Hansen 278 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Motivation (Fortsetzung) Dr. Hendrik Hansen 279 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 12: Punktschätzung Beispiel 12.1 (S1-Verspätung, vgl. u.a. Beispiel 10.5 b)) X = S1-Verspätung (in min) Haltestelle Dortmund Universität“ ” Kapitel 9&10: X ∼ R [0, 20] Jetzt: X ∼ F, wobei F unbekannt Messe nun stichprobenartig folgende Verspätungen (in Min.): 2, 20, 14, 8, 10, 2, 0, 3, 9, 2 → gesucht: Durchschnittliche Verspätung, also E (X) → ??? Dr. Hendrik Hansen 280 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 12.1 X1 , ..., Xn Stichprobenvariablen aus Grundgesamtheit mit unbekannter Verteilung F = Fθ . Dann heißt eine Funktion θ̂ = g (X1 , ..., Xn ) Schätzfunktion (kurz Schätzer) für den unbekannten Parameter θ. Der sich aus den Realisationen x1 , ..., xn ergebende Wert g (x1 , ..., xn ) heißt Schätzwert für θ. Dr. Hendrik Hansen 281 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.2 (S1-Verspätung, Situation wie in Beispiel 12.1) Xi = S1-Verspätung (in min) bei i−ter Messung“ ” uiv ⇒ X1 , ..., X10 ∼ X ∼ F (F unbekannt) Von Interesse: µ = E (Xi ) → einige mögliche Kandidaten: µ̂1 = X̄ = 7 µ̂2 = X1 = 2 µ̂3 = 3 · X8 = 6 P µ̂4 = 91 9i=1 Xi = 7, 56 → Welcher Schätzer ist am besten“? ” Dr. Hendrik Hansen 282 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 12.2 Ein Schätzer θ̂, für den E (θ̂) = θ gilt, heißt erwartungstreu (oder unverzerrt) für θ. Für einen Schätzer θ̂ heißt Bias (θ̂) = E (θ̂) − θ Verzerrung (oder Bias) von θ̂. Dr. Hendrik Hansen 283 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Grafische Darstellung erwartungstreue Schätzung f(θ^) θ Dr. Hendrik Hansen 284 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) b) Grafische Darstellung verzerrte Schätzung f(θ^) θ Dr. Hendrik Hansen 285 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.3 (S1-Verspätung, Situation wie in Beispiel 12.2) Für die vier vorgeschlagenen Schätzer gilt: 10 10 1 P 1 P Xi = 10 E (Xi ) = E (µ̂1 ) = E 10 i=1 i=1 1 10 · 10 · µ = µ E (µ̂2 ) = E (X1 ) = µ E (µ̂3 ) = E (3 · X8 ) = 3 · E (X8 ) = 3 · µ 6= µ E (µ̂4 ) = E 1 9 9 P i=1 Xi = 1 9 9 P i=1 E (Xi ) = 1 9 ·9·µ = µ µ̂1 , µ̂2 und µ̂4 erwartungstreu → welchen Schätzer bevorzugen? Dr. Hendrik Hansen 286 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 12.3 Seien θ̂1 und θ̂2 erwartungstreue Schätzer für θ. Wenn Var (θ̂1 ) < Var (θ̂2 ), so heißt θ̂1 effizienter zur Schätzung von θ als θ̂2 . Bemerkung Grafische Darstellung Effizienz (hier θ̂1 effizienter als θ̂2 ) ^ ) f(θ 1 ^ ) f(θ 2 θ Dr. Hendrik Hansen 287 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.4 (S1-Verspätung, Situation wie in Beispiel 12.3) Für die erwartungstreuen Schätzer µ̂1 , µ̂2 und µ̂4 gilt: 10 10 1 P 1 P Xi = 100 Var (Xi ) Var (µ̂1 ) = Var 10 i=1 = 1 100 i=1 1 10 · 10 · σ 2 = · σ2 Var (µ̂2 ) = Var (X1 ) = σ 2 Var (µ̂4 ) = Var = 1 81 1 9 ·9· 9 P Xi i=1 σ 2 = 91 = · σ2 1 81 9 P Var (Xi ) i=1 → Güte der Schätzer (gemäß Effizienzkrit.): 1) µ̂1 , 2) µ̂4 , 3) µ̂2 Dr. Hendrik Hansen 288 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung a) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ. Gemäß Beispiel 12.4 ist µ̂1 = X̄ effizienter als zwei andere erwartungstreue Schätzer für µ. Allgemein ist X̄ der effizienteste Schätzer unter allen erwartungstreuen Schätzern für µ, d. h. es gilt: Var (X̄) ≤ Var (µ̂) für alle µ̂ mit E (µ̂) = µ. b) Spezialfall von a) bei Bernoulliverteilung: uiv X1 , ..., Xn ∼ Bin(1, p) → E (Xi ) = p → X̄ erwartungstreuer (und außerdem effizientester) Schätzer für p Dr. Hendrik Hansen 289 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) c) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ bekannt und σ 2 = Var (Xi ) unbekannt. Dann ist n 2 σ̂ 2 = SX = 1X (Xi − µ)2 n i=1 ein erwartungstreuer Schätzer für σ 2 . d) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ unbekannt und σ 2 = Var (Xi ) unbekannt. Dann ist n 2 σ̂ 2 = S̃X = 1 X (Xi − X̄)2 n−1 i=1 ein erwartungstreuer Schätzer für σ 2 . Dr. Hendrik Hansen 290 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.5 (S1-Verspätung, Situation wie in 12.1) a) Xi = S1-Verspätung bei i−ter Messung“ (i = 1, ..., 10), ” Xi ∼ F (unbekannt) → Schätze Varianz σ 2 (gem. Bem. d) 2 nach Bsp. 12.1) erwartungstreu mit S̃X 2 S̃X 1 (2 − 7)2 + (14 − 7)2 + (10 − 7)2 + (0 − 7)2 + (9 − 7)2 9 +(20 − 7)2 + (8 − 7)2 + (2 − 7)2 + (3 − 7)2 + (2 − 7)2 ) 1 (25 + 49 + 9 + 49 + 4 + 169 + 1 + 25 + 16 + 25) = 9 1 · 372 = 41, 34 = 9 = Dr. Hendrik Hansen 291 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.5 (Fortsetzung) b) Situation wie in a), unterstelle jedoch, dass der aus den zehn Messungen resultierende Mittelwert (x̄ = 7) dem wahren Erwartungswert entspricht → verwende diese Zusatzinfo und schätze die Varianz σ 2 (gem. Bem. c) nach Bsp. 12.1) 2 erwartungstreu mit SX n 2 SX = 1X 1 · 372 = 37, 2 (Xi − µ)2 = n 10 i=1 Dr. Hendrik Hansen 292 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 12.5 (Fortsetzung) c) Mit welcher Wahrscheinlichkeit verspätet sich S1 um höchstens 5 Minuten? ( 1 Verspätung ≤ 5 min Definiere Yi = 0 sonst uiv Also Y1 , ..., Y10 ∼ Bin(1, p); Von Interesse: p (Wahrscheinlichkeit, dass S1 max. 5 min. zu spät) → Gemäß Bem. b) nach Bsp. 12.1 ist X̄ effizientester Schätzer für p p̂ = 1 1 (1 + 0 + 0 + 1 + 0 + 0 + 0 + 1 + 1 + 1) = 10 2 (Zur Erinnerung: P(Versp. max. 5 min) = 0, 25 bei Unterstellung einer Gleichverteilung) Dr. Hendrik Hansen 293 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Fazit/Zusammenfassung Kapitel 12 ◮ Schätzer = Funktion der Stichprobenvariablen, selbst ebenfalls Zufallsvariable ◮ Erwartungstreue als Konzept zum Vergleich von Schätzern ◮ Effizienz als Konzept zum Vergleich von erwartungstreuen Schätzern Dr. Hendrik Hansen 294 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Kapitel 13: Intervallschätzung Motivation ◮ Bisher: Schätzung des unbekannten Parameters θ durch θ̂ auf einen Punkt“ ” → P(θ̂ = θ) = 0 (falls θ̂ stetig verteilt), darüber hinaus keine Informationen, wie wahrscheinlich sich θ̂ zumindest in der ” Nähe“von θ realisiert ◮ Jetzt: Konstruiere (basierend auf Punktschätzer) Intervall, das unbekannten Parameter mit hoher Wahrscheinlichkeit“ ” überdeckt → liefert Information über Präzision des Schätzers Dr. Hendrik Hansen 295 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Definition 13.1 X1 , ..., Xn Stichpr. aus Grundges. mit Xi ∼ Fθ (unbekannt). Vu = g(X1 , X2 , . . . , Xn ) und Vo = h(X1 , X2 , . . . , Xn ) Stichprobenfunktionen mit Vu < Vo . Dann heißt das Intervall [Vu , Vo ] Konfidenzintervall für den unbekannten Parameter θ. Weiter heißt α = P (θ ∈ / [Vu , Vo ]) Irrtumswahrscheinlichkeit und 1 − α = P (θ ∈ [Vu , Vo ]) Vertrauenswahrscheinlichkeit oder Konfidenzniveau. Dr. Hendrik Hansen 296 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.1 Das Zentrum für Studienangelegenheiten an der TU Dortmund behauptet, dass die mittlere Wartezeit von Besuchern nicht mehr als zehn Minuten beträgt. Eine Befragung von 16 zufällig ausgewählten Besuchern ergab folgende Wartezeiten (in Minuten): 12, 20, 5, 15, 8, 1, 30, 25, 10, 4, 17, 11, 20, 10, 6, 2. Annahme: Wartezeiten Stichprobenrealisationen einer normalverteilten Grundgesamtheit mit Standardabweichung σ = 5 bekannt. Gesucht: 95%-Konfidenzintervall für die mittlere Wartezeit Dr. Hendrik Hansen 297 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung Herleitung eines Konfidenzintervalls für µ bei bekannter Varianz (normalverteilte Grundgesamtheit) uiv Ausgangssituation: X1 , ..., Xn ∼ N µ, σ 2 Pn 2 (vgl. Bem. d) nach Def. 11.4) → i=1 Xi ∼ N n · µ, n · σ 2 → X̄ ∼ N µ, σn (vgl. Bem. d) nach Bsp. 10.1 und Bem. a), Punkt ii), nach Beispiel 10.5) → √ n X̄−µ σ ∼ N (0, 1) (vgl. Bem. c) nach Def. 11.4) √ X̄ − µ → P u α2 ≤ n ≤ u1− α2 = 1 − α σ mit uγ = γ-Quantil der N (0, 1)-Verteilung Dr. Hendrik Hansen 298 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) uiv Herleitung Konfidenzintervall für µ bei Xi ∼ N µ, σ 2 , σ 2 bekannt (Fortsetzung) √ 1 − α = P −u1− α2 σ ≤ n (X̄ − µ) ≤ u1− α2 σ = P = P −u 1− α 2 −u 1− α 2 σ σ √ ≤ X̄ − µ ≤ u1− α √ 2 n n σ σ √ − X̄ ≤ −µ ≤ u1− α √ − X̄ 2 n n σ σ α α √ √ = P X̄ − u1− 2 ≤ µ ≤ X̄ + u1− 2 n n {z } {z } | | = Vu Dr. Hendrik Hansen = Vo 299 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Bemerkung (Fortsetzung) uiv Somit gilt: Wenn X1 , ..., Xn ∼ N (µ, σ 2 ), Varianz σ 2 bekannt, dann ist ein Konfidenzintervall für den unbekannten Erwartungswert µ zum Konfidenzniveau 1 − α gegeben durch σ σ KI1−α (µ) = X̄ − u1− α2 √ , X̄ + u1− α2 √ n n Beispiel 13.2 (Wartezeiten ZfS, vgl. Bsp. 13.1) Xi = Wartezeit i-ter Besucher (in Minuten)“, dann gilt ” uiv X1 , X2 , . . . , X16 ∼ N (µ, 25) Dr. Hendrik Hansen 300 TU Dortmund Wintersemester 2010/2011 - Statistik für Ökonomen Beispiel 13.2 (Fortsetzung) Weiter ist X̄ = 1 (12 + 20 + 5 + . . . + 6 + 2) = 12, 25 16 und 1 − α = 0, 95 ⇒ u1− α2 = u0,975 = 1, 96 5 5 → KI0,95 (µ) = 12, 25 − 1, 96 · √ ; 12, 25 + 1, 96 · √ 16 16 = [12, 25 − 2, 45; 12, 25 + 2, 45] = [9, 8; 14, 7] = [9 Min.&48 Sek.; 14 Min.&42 Sek.] Unter getroffenen Annahmen liegt die mittlere Wartezeit beim ZfS mit 95 % Wahrscheinlichkeit in obigem Intervall Dr. Hendrik Hansen 301