05.01.11 - TU Dortmund

Werbung
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) Zentraler Grenzwertsatz (Grund für enorme Bedeutung der
Normalverteilung): X1 , ..., Xn seien unabhängig identisch
verteilte (uiv) Zufallsvariablen mit E (Xi ) = µ und
Var (Xi ) = σ 2 . Dann gilt:
P
n
bzw.

X − nµ
 i=1 i

√
lim P 
≤ x

 = Φ (x)
n→∞
σ n
√ X̄n − µ
≤ x = Φ (x).
n
lim P
n→∞
σ
Dr. Hendrik Hansen
271
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) Mit Hilfe von b) lassen sich also hinreichend große Scharen
unabhängiger Zufallsvariablen mit gleicher Verteilung (egal
welcher!) an die Standardnormalverteilung annähern.
Spezialfall: X1 , ..., Xn uiv mit Xi ∼ Bin (1, p). Somit ist
µ = p, σ 2 = p · (1 − p) und es gilt
 P

n
X − np
 i=1 i

 = Φ (x).
p
lim P 
≤
x

n→∞ 
np (1 − p)
Faustregel“: Approximation aus b) akzeptabel, wenn
”
(1) n ≥ 30,
Dr. Hendrik Hansen
(2) np ≥ 10,
(3) n (1 − p) ≥ 10
272
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.6
Angenommen, die täglichen Änderungen des Deutschen
Aktienindexes (DAX) seien unabhängige Zufallsvariablen, wobei
P (DAX steigt) = P (DAX fällt) = 1/2
Mit welcher Wahrscheinlichkeit steigt dann der DAX an mehr als
120 von insgesamt 200 Börsentagen?
(
1
Definiere Xi =
0
DAX steigt an Börsentag i
(i = 1, ..., 200)
sonst
Dann gilt:
X1 , ..., X200
Dr. Hendrik Hansen
1
∼ Bin 1,
2
uiv
⇒
X=
200
X
i=1
1
Xi ∼ Bin 200,
2
273
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.6 (Fortsetzung)
Gesucht:
P (X > 120) = 1 − P (X ≤ 120) (nicht tabelliert)
= 1−
120
X
= 1−
k 200−k
120 X
1
1
200
P (X = k)
k=0
k=0
k
2
2
(kaum berechenbar)
→ wende Bemerkung c) nach Beispiel 11.5 an
Dr. Hendrik Hansen
274
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.6 (Fortsetzung)
Faustregeln“ erfüllt?
”
n = 200 ≥ 30 X,
Also:
P (X > 120)
np = 100 ≥ 10 X,
n (1 − p) = 100 ≥ 10 X

 X − 100

= 1 − P (X ≤ 120) = 1 − P  √
≤

50
| {z }
≈N (0,1)



120−100
√

50 
≈ 1 − Φ (2, 83) = 1 − 0, 9977 = 0, 0023 = 0, 23%
→ Unter gegebenen Annahmen steigt der DAX an mehr als 120
von insgesamt 200 Börsentagen mit einer Wahrscheinlichkeit
von (lediglich) 0,23%
Dr. Hendrik Hansen
275
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Fazit/Zusammenfassung Kapitel 11
◮
Unabhängige Wiederholungen eines Bernoulliexperiments →
Binomialverteilung
◮
Wichtigste stetige Verteilung: Normalverteilung
◮
Berechnung von Wahrscheinlichkeiten für normalverteilte
Zufallsvariablen immer über Standardnormalverteilung (siehe
Bem. c) nach Def. 11.4)
◮
Approximation beliebiger Verteilungen durch
Standardnormalverteilung bei großem Stichprobenumfang
möglich (siehe Bem.b) bzw. c) nach Bsp. 11.5)
Dr. Hendrik Hansen
276
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Teil C: Induktive Statistik
Dr. Hendrik Hansen
277
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Motivation
Teil B: Verteilung F einer Zufallsvariablen X ist bekannt
⇒
sämtliche Parameter“ von F (Erwartungswert, Varianz,
”
Quantile, . . . ) lassen sich direkt angeben
Teil C: Verteilung F einer Zufallsvariablen X ist unbekannt
uiv
⇒
Stichprobe X1 , ..., Xn ∼ F
⇒
Realisationen x1 , ..., xn sollen Rückschlüsse auf
unbekannte Parameter“ von F liefern
”
Dr. Hendrik Hansen
278
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Motivation (Fortsetzung)
Dr. Hendrik Hansen
279
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 12: Punktschätzung
Beispiel 12.1
(S1-Verspätung, vgl. u.a. Beispiel 10.5 b))
X = S1-Verspätung (in min) Haltestelle Dortmund Universität“
”
Kapitel 9&10: X ∼ R [0, 20]
Jetzt: X ∼ F, wobei F unbekannt
Messe nun stichprobenartig folgende Verspätungen (in Min.):
2,
20,
14,
8,
10,
2,
0,
3,
9,
2
→ gesucht: Durchschnittliche Verspätung, also E (X) → ???
Dr. Hendrik Hansen
280
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 12.1
X1 , ..., Xn Stichprobenvariablen aus Grundgesamtheit mit
unbekannter Verteilung F = Fθ . Dann heißt eine Funktion
θ̂ = g (X1 , ..., Xn )
Schätzfunktion (kurz Schätzer) für den unbekannten Parameter θ.
Der sich aus den Realisationen x1 , ..., xn ergebende Wert
g (x1 , ..., xn ) heißt Schätzwert für θ.
Dr. Hendrik Hansen
281
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.2
(S1-Verspätung, Situation wie in Beispiel 12.1)
Xi = S1-Verspätung (in min) bei i−ter Messung“
”
uiv
⇒ X1 , ..., X10 ∼ X ∼ F (F unbekannt)
Von Interesse: µ = E (Xi ) → einige mögliche Kandidaten:
µ̂1 = X̄
=
7
µ̂2 = X1
=
2
µ̂3 = 3 · X8
=
6
P
µ̂4 = 91 9i=1 Xi = 7, 56
→ Welcher Schätzer ist am besten“?
”
Dr. Hendrik Hansen
282
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 12.2
Ein Schätzer θ̂, für den
E (θ̂) = θ
gilt, heißt erwartungstreu (oder unverzerrt) für θ.
Für einen Schätzer θ̂ heißt
Bias (θ̂) = E (θ̂) − θ
Verzerrung (oder Bias) von θ̂.
Dr. Hendrik Hansen
283
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Grafische Darstellung erwartungstreue Schätzung
f(θ^)
θ
Dr. Hendrik Hansen
284
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) Grafische Darstellung verzerrte Schätzung
f(θ^)
θ
Dr. Hendrik Hansen
285
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.3
(S1-Verspätung, Situation wie in Beispiel 12.2)
Für die vier vorgeschlagenen Schätzer gilt:
10
10
1 P
1 P
Xi = 10
E (Xi ) =
E (µ̂1 ) = E 10
i=1
i=1
1
10
· 10 · µ = µ
E (µ̂2 ) = E (X1 )
= µ
E (µ̂3 ) = E (3 · X8 ) = 3 · E (X8 ) = 3 · µ
6= µ
E (µ̂4 ) = E
1
9
9
P
i=1
Xi
=
1
9
9
P
i=1
E (Xi ) =
1
9
·9·µ
= µ
µ̂1 , µ̂2 und µ̂4 erwartungstreu → welchen Schätzer bevorzugen?
Dr. Hendrik Hansen
286
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 12.3
Seien θ̂1 und θ̂2 erwartungstreue Schätzer für θ. Wenn
Var (θ̂1 ) < Var (θ̂2 ),
so heißt θ̂1 effizienter zur Schätzung von θ als θ̂2 .
Bemerkung
Grafische Darstellung Effizienz (hier θ̂1 effizienter als θ̂2 )
^ )
f(θ
1
^ )
f(θ
2
θ
Dr. Hendrik Hansen
287
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.4
(S1-Verspätung, Situation wie in Beispiel 12.3)
Für die erwartungstreuen Schätzer µ̂1 , µ̂2 und µ̂4 gilt:
10
10
1 P
1 P
Xi = 100
Var (Xi )
Var (µ̂1 ) = Var 10
i=1
=
1
100
i=1
1
10
· 10 · σ 2 =
· σ2
Var (µ̂2 ) = Var (X1 ) = σ 2
Var (µ̂4 ) = Var
=
1
81
1
9
·9·
9
P
Xi
i=1
σ 2 = 91
=
· σ2
1
81
9
P
Var (Xi )
i=1
→ Güte der Schätzer (gemäß Effizienzkrit.): 1) µ̂1 , 2) µ̂4 , 3) µ̂2
Dr. Hendrik Hansen
288
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ.
Gemäß Beispiel 12.4 ist µ̂1 = X̄ effizienter als zwei andere
erwartungstreue Schätzer für µ.
Allgemein ist X̄ der effizienteste Schätzer unter allen
erwartungstreuen Schätzern für µ, d. h. es gilt:
Var (X̄) ≤ Var (µ̂) für alle µ̂ mit E (µ̂) = µ.
b) Spezialfall von a) bei Bernoulliverteilung:
uiv
X1 , ..., Xn ∼ Bin(1, p) → E (Xi ) = p
→ X̄ erwartungstreuer (und außerdem effizientester)
Schätzer für p
Dr. Hendrik Hansen
289
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ
bekannt und σ 2 = Var (Xi ) unbekannt. Dann ist
n
2
σ̂ 2 = SX
=
1X
(Xi − µ)2
n
i=1
ein erwartungstreuer Schätzer für σ 2 .
d) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ
unbekannt und σ 2 = Var (Xi ) unbekannt. Dann ist
n
2
σ̂ 2 = S̃X
=
1 X
(Xi − X̄)2
n−1
i=1
ein erwartungstreuer Schätzer für σ 2 .
Dr. Hendrik Hansen
290
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.5
(S1-Verspätung, Situation wie in 12.1)
a) Xi = S1-Verspätung bei i−ter Messung“ (i = 1, ..., 10),
”
Xi ∼ F (unbekannt) → Schätze Varianz σ 2 (gem. Bem. d)
2
nach Bsp. 12.1) erwartungstreu mit S̃X
2
S̃X
1
(2 − 7)2 + (14 − 7)2 + (10 − 7)2 + (0 − 7)2 + (9 − 7)2
9
+(20 − 7)2 + (8 − 7)2 + (2 − 7)2 + (3 − 7)2 + (2 − 7)2 )
1
(25 + 49 + 9 + 49 + 4 + 169 + 1 + 25 + 16 + 25)
=
9
1
· 372 = 41, 34
=
9
=
Dr. Hendrik Hansen
291
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.5 (Fortsetzung)
b) Situation wie in a), unterstelle jedoch, dass der aus den zehn
Messungen resultierende Mittelwert (x̄ = 7) dem wahren
Erwartungswert entspricht → verwende diese Zusatzinfo und
schätze die Varianz σ 2 (gem. Bem. c) nach Bsp. 12.1)
2
erwartungstreu mit SX
n
2
SX
=
1X
1
· 372 = 37, 2
(Xi − µ)2 =
n
10
i=1
Dr. Hendrik Hansen
292
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.5 (Fortsetzung)
c) Mit welcher Wahrscheinlichkeit verspätet sich S1 um
höchstens 5 Minuten?
(
1 Verspätung ≤ 5 min
Definiere Yi =
0 sonst
uiv
Also Y1 , ..., Y10 ∼ Bin(1, p); Von Interesse: p (Wahrscheinlichkeit, dass S1 max. 5 min. zu spät) → Gemäß Bem. b) nach
Bsp. 12.1 ist X̄ effizientester Schätzer für p
p̂ =
1
1
(1 + 0 + 0 + 1 + 0 + 0 + 0 + 1 + 1 + 1) =
10
2
(Zur Erinnerung: P(Versp. max. 5 min) = 0, 25 bei
Unterstellung einer Gleichverteilung)
Dr. Hendrik Hansen
293
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Fazit/Zusammenfassung Kapitel 12
◮
Schätzer = Funktion der Stichprobenvariablen, selbst
ebenfalls Zufallsvariable
◮
Erwartungstreue als Konzept zum Vergleich von Schätzern
◮
Effizienz als Konzept zum Vergleich von erwartungstreuen
Schätzern
Dr. Hendrik Hansen
294
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 13: Intervallschätzung
Motivation
◮
Bisher: Schätzung des unbekannten Parameters θ durch θ̂
auf einen Punkt“
”
→ P(θ̂ = θ) = 0 (falls θ̂ stetig verteilt), darüber hinaus keine
Informationen, wie wahrscheinlich sich θ̂ zumindest in der
”
Nähe“von θ realisiert
◮
Jetzt: Konstruiere (basierend auf Punktschätzer) Intervall,
das unbekannten Parameter mit hoher Wahrscheinlichkeit“
”
überdeckt → liefert Information über Präzision des Schätzers
Dr. Hendrik Hansen
295
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 13.1
X1 , ..., Xn Stichpr. aus Grundges. mit Xi ∼ Fθ (unbekannt).
Vu = g(X1 , X2 , . . . , Xn ) und Vo = h(X1 , X2 , . . . , Xn )
Stichprobenfunktionen mit Vu < Vo . Dann heißt das Intervall
[Vu , Vo ] Konfidenzintervall für den unbekannten Parameter θ.
Weiter heißt
α = P (θ ∈
/ [Vu , Vo ])
Irrtumswahrscheinlichkeit und
1 − α = P (θ ∈ [Vu , Vo ])
Vertrauenswahrscheinlichkeit oder Konfidenzniveau.
Dr. Hendrik Hansen
296
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.1
Das Zentrum für Studienangelegenheiten an der TU Dortmund
behauptet, dass die mittlere Wartezeit von Besuchern nicht mehr
als zehn Minuten beträgt. Eine Befragung von 16 zufällig
ausgewählten Besuchern ergab folgende Wartezeiten (in Minuten):
12, 20, 5, 15, 8, 1, 30, 25, 10, 4, 17, 11, 20, 10, 6, 2.
Annahme: Wartezeiten Stichprobenrealisationen einer normalverteilten Grundgesamtheit mit Standardabweichung σ = 5 bekannt.
Gesucht: 95%-Konfidenzintervall für die mittlere Wartezeit
Dr. Hendrik Hansen
297
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Herleitung eines Konfidenzintervalls für µ bei bekannter Varianz
(normalverteilte Grundgesamtheit)
uiv
Ausgangssituation: X1 , ..., Xn ∼ N µ, σ 2
Pn
2 (vgl. Bem. d) nach Def. 11.4)
→
i=1 Xi ∼ N n · µ, n · σ
2
→ X̄ ∼ N µ, σn (vgl. Bem. d) nach Bsp. 10.1 und Bem. a),
Punkt ii), nach Beispiel 10.5)
→
√
n X̄−µ
σ ∼ N (0, 1) (vgl. Bem. c) nach Def. 11.4)
√ X̄ − µ
→ P u α2 ≤ n
≤ u1− α2 = 1 − α
σ
mit uγ = γ-Quantil der N (0, 1)-Verteilung
Dr. Hendrik Hansen
298
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
uiv
Herleitung Konfidenzintervall für µ bei Xi ∼ N µ, σ 2 , σ 2
bekannt (Fortsetzung)
√
1 − α = P −u1− α2 σ ≤ n (X̄ − µ) ≤ u1− α2 σ
= P
= P
−u
1− α
2
−u
1− α
2

σ
σ
√ ≤ X̄ − µ ≤ u1− α √
2
n
n
σ
σ
√ − X̄ ≤ −µ ≤ u1− α √ − X̄
2
n
n


σ
σ 


α
α
√
√
= P X̄ − u1− 2
≤ µ ≤ X̄ + u1− 2


n
n
{z
}
{z
}
|
|
= Vu
Dr. Hendrik Hansen
= Vo
299
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
uiv
Somit gilt: Wenn X1 , ..., Xn ∼ N (µ, σ 2 ), Varianz σ 2 bekannt,
dann ist ein Konfidenzintervall für den unbekannten Erwartungswert µ zum Konfidenzniveau 1 − α gegeben durch
σ
σ
KI1−α (µ) = X̄ − u1− α2 √ , X̄ + u1− α2 √
n
n
Beispiel 13.2
(Wartezeiten ZfS, vgl. Bsp. 13.1)
Xi = Wartezeit i-ter Besucher (in Minuten)“, dann gilt
”
uiv
X1 , X2 , . . . , X16 ∼ N (µ, 25)
Dr. Hendrik Hansen
300
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.2 (Fortsetzung)
Weiter ist
X̄ =
1
(12 + 20 + 5 + . . . + 6 + 2) = 12, 25
16
und
1 − α = 0, 95
⇒
u1− α2 = u0,975 = 1, 96
5
5
→ KI0,95 (µ) = 12, 25 − 1, 96 · √ ; 12, 25 + 1, 96 · √
16
16
= [12, 25 − 2, 45; 12, 25 + 2, 45]
= [9, 8; 14, 7] = [9 Min.&48 Sek.; 14 Min.&42 Sek.]
Unter getroffenen Annahmen liegt die mittlere Wartezeit beim ZfS
mit 95 % Wahrscheinlichkeit in obigem Intervall
Dr. Hendrik Hansen
301
Herunterladen