Statistik, Sommersemester 2012

Werbung
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 5, Zusammenhangsmaße
Kovarianz
n
sxy
1
=
(xi − x̄)(yi − ȳ)
n
i=1
Korrelationskoeffizient nach Bravais-Pearson
n
rxy
(xi − x̄) (yi − ȳ)
sxy
i=1
=
=
sx · sy
n
n
(xi − x̄)2 ·
(yi − ȳ)2
i=1
Dr. Matthias Arnold
i=1
294
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 5, Zusammenhangsmaße
Kovarianz und Korrelation
Maßzahlen für den linearen Zusammenhang
Korrelation: standardisiert
Korrelation = Kausalität
Rangkorrelationskoeffizient nach Spearman
n R
rxy
=
i=1
n i=1
R(xi ) − R̄x
R(xi ) − R̄x
R(yi ) − R̄y
n 2 2
·
R(yi ) − R̄y
i=1
Maß für monotonen Zusammenhang
Dr. Matthias Arnold
295
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 6, Preisindizes
Preisindex nach Laspeyres
n
L
P0t
=
i=1
n
i=1
pt (i) · q0 (i)
p0 (i) · q0 (i)
Preisindex nach Paasche
n
P
P0t
=
i=1
n
i=1
Dr. Matthias Arnold
pt (i) · qt (i)
p0 (i) · qt (i)
296
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 6, Preisindizes
Preisindizes
Darstellung als gewichtetes arithmetisches Mittel
Inflationsrate
Warenkorb und Verbraucherpreisindex
praktische Umsetzung
Dr. Matthias Arnold
297
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 7, Zufällige Ereignisse
und ihre Wahrscheinlichkeiten
Grundlegende Begriffe
Zufallsexperiment
Elementarereignisse ωi
Ergebnismenge Ω
Ereignisse
Ereignisse A und B
Schnittmenge A ∩ B
Vereinigungsmenge A ∪ B
Differenzmenge A \ B
Komplementärmenge Ā
disjunkte Mengen
Dr. Matthias Arnold
298
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 7, Zufällige Ereignisse
und ihre Wahrscheinlichkeiten
Wahrscheinlichkeiten
Laplace
Axiome von Kolmogoroff
Rechenregeln
bedingte Wahrscheinlichkeiten
stochastische Unabhängigkeit
Interpretation bedingter Wahrscheinlichkeiten
Dr. Matthias Arnold
299
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 8, Zufallsvariablen
Zufallsvariable X
Abbildung: Ω → R
diskrete und stetige Zufallsvariablen
diskrete Zufallsvariable: Wahrscheinlichkeitsfunktion
f (xi ) = P (X = xi ),
i = 1, . . . , k,
diskrete Zufallsvariable: Verteilungsfunktion
F (x) = P (X ≤ x) =
f (xi ), x ∈ R
xi ≤x
Dr. Matthias Arnold
300
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 8, Zufallsvariablen
stetige Zufallsvariable: Dichtefunktion
f (x) = F (x),
x ∈ R,
stetige Zufallsvariable: Verteilungsfunktion
x
F (x) = P (X ≤ x) =
f (t) dt, x ∈ R
−∞
Dr. Matthias Arnold
301
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 8, Zufallsvariablen
Wahrscheinlichkeitsfunktion, Dichtefunktion,
Verteilungsfunktion
Eigenschaften
Rechenregeln
stochastische Unabhängigkeit
Dr. Matthias Arnold
302
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 9, Erwartungswert,
Varianz und Kovarianz von Zufallsvariablen
Erwartungswert, diskrete Zufallsvariable
E (X) =
xi · f (xi )
i∈I
Erwartungswert, stetige Zufallsvariable
∞
E (X) =
x · f (x) dx
−∞
Eigenschaften des Erwartungswertes
Gesetz der großen Zahl
p-Quantile
Dr. Matthias Arnold
303
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 9, Erwartungswert,
Varianz und Kovarianz von Zufallsvariablen
Varianz einer Zufallsvariablen
2
σX
= Var (X) = E (X − E (X))2
Standardabweichung
σX =
2
σX
Eigenschaften
Dr. Matthias Arnold
304
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 9, Erwartungswert,
Varianz und Kovarianz von Zufallsvariablen
Kovarianz zweier Zufallsvariablen
σXY = Cov (X, Y ) = E [(X − E (X))(Y − E (Y ))]
Korrelation zweier Zufallsvariablen
ρXY =
σXY
σX · σY
Kovarianz und Korrelation
Maße für den linearen Zusammenhang
Rechenregeln, Eigenschaften
Unkorreliertheit und Unabhängigkeit
Dr. Matthias Arnold
305
Universität Erfurt
Sommersemester 2012 - Statistik
Zusammenfassung: Kapitel 10, Ausgewählte
Verteilungen
Binomialverteilung
Bernoulli-Experiment, n-mal wiederholt
Stetige Gleichverteilung
Normalverteilung
Standardnormalverteilung
Zentraler Grenzwertsatz
Approximationen
Dr. Matthias Arnold
306
Universität Erfurt
Sommersemester 2012 - Statistik
Teil C: Induktive Statistik
Dr. Matthias Arnold
307
Universität Erfurt
Sommersemester 2012 - Statistik
Motivation
Teil B: Verteilung F einer Zufallsvariablen X ist bekannt
⇒
sämtliche Parameter“ von F (Erwartungswert, Varianz,
”
Quantile, . . . ) lassen sich direkt angeben
Teil C: Verteilung F einer Zufallsvariablen X ist unbekannt
uiv
⇒
Stichprobe X1 , ..., Xn ∼ F
⇒
Realisationen x1 , ..., xn sollen Rückschlüsse auf
unbekannte Parameter“ von F liefern
”
Dr. Matthias Arnold
308
Universität Erfurt
Sommersemester 2012 - Statistik
Motivation (Fortsetzung)
Dr. Matthias Arnold
309
Universität Erfurt
Sommersemester 2012 - Statistik
Kapitel 11: Punktschätzung
Beispiel 11.1
(S1-Verspätung, vgl. u.a. Beispiel 9.5 b))
X = S1-Verspätung (in min) Haltestelle Dortmund Universität“
”
Kapitel 8&9: X ∼ R [0, 20]
Jetzt: X ∼ F, wobei F unbekannt
Messe nun stichprobenartig folgende Verspätungen (in Min.):
2,
20,
14,
8,
10,
2,
0,
3,
9,
2
→ gesucht: Durchschnittliche Verspätung, also E (X) → ???
Dr. Matthias Arnold
310
Universität Erfurt
Sommersemester 2012 - Statistik
Definition 11.1
X1 , ..., Xn Stichprobenvariablen aus Grundgesamtheit mit
unbekannter Verteilung F = Fθ . Dann heißt eine Funktion
θ̂ = g (X1 , ..., Xn )
Schätzfunktion (kurz Schätzer) für den unbekannten Parameter θ.
Der sich aus den Realisationen x1 , ..., xn ergebende Wert
g (x1 , ..., xn ) heißt Schätzwert für θ.
Dr. Matthias Arnold
311
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 11.2
(S1-Verspätung, Situation wie in Beispiel 11.1)
Xi = S1-Verspätung (in min) bei i−ter Messung“
”
uiv
⇒ X1 , ..., X10 ∼ X ∼ F (F unbekannt)
Von Interesse: μ = E (Xi ) → einige mögliche Kandidaten:
μ̂1 = X̄
=
7
μ̂2 = X1
=
2
μ̂3 = 3 · X8
=
6
μ̂4 = 19 9i=1 Xi = 7, 56
→ Welcher Schätzer ist am besten“?
”
Dr. Matthias Arnold
312
Universität Erfurt
Sommersemester 2012 - Statistik
Definition 11.2
Ein Schätzer θ̂, für den
E (θ̂) = θ
gilt, heißt erwartungstreu (oder unverzerrt) für θ.
Für einen Schätzer θ̂ heißt
Bias (θ̂) = E (θ̂) − θ
Verzerrung (oder Bias) von θ̂.
Dr. Matthias Arnold
313
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung
a) Grafische Darstellung erwartungstreue Schätzung
f(θ^)
θ
Dr. Matthias Arnold
314
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung (Fortsetzung)
b) Grafische Darstellung verzerrte Schätzung
f(θ^)
θ
Dr. Matthias Arnold
315
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 11.3
(S1-Verspätung, Situation wie in Beispiel 11.2)
Für die vier vorgeschlagenen Schätzer gilt:
10
10
1 1 Xi = 10
E (Xi ) =
E (μ̂1 ) = E 10
i=1
i=1
1
10
· 10 · μ = μ
E (μ̂2 ) = E (X1 )
= μ
E (μ̂3 ) = E (3 · X8 ) = 3 · E (X8 ) = 3 · μ
= μ
E (μ̂4 ) = E
1
9
9
i=1
Xi
=
1
9
9
i=1
E (Xi ) =
1
9
·9·μ
= μ
μ̂1 , μ̂2 und μ̂4 erwartungstreu → welchen Schätzer bevorzugen?
Dr. Matthias Arnold
316
Universität Erfurt
Sommersemester 2012 - Statistik
Definition 11.3
Seien θ̂1 und θ̂2 erwartungstreue Schätzer für θ. Wenn
Var (θ̂1 ) < Var (θ̂2 ),
so heißt θ̂1 effizienter zur Schätzung von θ als θ̂2 .
Bemerkung
Grafische Darstellung Effizienz (hier θ̂1 effizienter als θ̂2 )
^ )
f(θ
1
^ )
f(θ
2
θ
Dr. Matthias Arnold
317
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 11.4
(S1-Verspätung, Situation wie in Beispiel 11.3)
Für die erwartungstreuen Schätzer μ̂1 , μ̂2 und μ̂4 gilt:
10
10
1 1 Xi = 100
Var (Xi )
Var (μ̂1 ) = Var 10
=
1
100
· 10
i=1
· σ2
1
10
=
·
σ2
i=1
Var (μ̂2 ) = Var (X1 ) = σ 2
Var (μ̂4 ) = Var
=
1
81
1
9
·9·
9
Xi
i=1
σ 2 = 19
=
· σ2
1
81
9
i=1
Var (Xi )
→ Güte der Schätzer (gemäß Effizienzkrit.): 1) μ̂1 , 2) μ̂4 , 3) μ̂2
Dr. Matthias Arnold
318
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung
a) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = μ.
Gemäß Beispiel 11.4 ist μ̂1 = X̄ effizienter als zwei andere
erwartungstreue Schätzer für μ.
Allgemein ist X̄ der effizienteste Schätzer unter allen
erwartungstreuen Schätzern für μ, d. h. es gilt:
Var (X̄) ≤ Var (μ̃)
für alle μ̃ mit E (μ̃) = μ.
b) Spezialfall von a) bei Bernoulliverteilung:
uiv
X1 , ..., Xn ∼ Bin(1, p) → E (Xi ) = p
→ X̄ erwartungstreuer (und außerdem effizientester)
Schätzer für p
Dr. Matthias Arnold
319
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung (Fortsetzung)
c) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = μ
bekannt und σ 2 = Var (Xi ) unbekannt. Dann ist
2
σ̂ =
2
SX
n
1
=
(Xi − μ)2
n
i=1
ein erwartungstreuer Schätzer für σ 2 .
d) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = μ
unbekannt und σ 2 = Var (Xi ) unbekannt. Dann ist
2
σ̂ =
2
S̃X
n
1 =
(Xi − X̄)2
n−1
i=1
ein erwartungstreuer Schätzer für σ 2 .
Dr. Matthias Arnold
320
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 11.5
(S1-Verspätung, Situation wie in 11.1)
a) Xi = S1-Verspätung bei i−ter Messung“ (i = 1, ..., 10),
”
Xi ∼ F (unbekannt) → Schätze Varianz σ 2 (gem. Bem. d)
2
nach Bsp. 11.1) erwartungstreu mit S̃X
2
S̃X
1 (2 − 7)2 + (14 − 7)2 + (10 − 7)2 + (0 − 7)2 + (9 − 7)2
9
+(20 − 7)2 + (8 − 7)2 + (2 − 7)2 + (3 − 7)2 + (2 − 7)2 )
1
=
(25 + 49 + 9 + 49 + 4 + 169 + 1 + 25 + 16 + 25)
9
1
=
· 372 = 41, 34
9
=
Dr. Matthias Arnold
321
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 11.5 (Fortsetzung)
b) Situation wie in a), unterstelle jedoch, dass der aus den zehn
Messungen resultierende Mittelwert (x̄ = 7) dem wahren
Erwartungswert entspricht
→ verwende diese Zusatzinfo und schätze die Varianz σ 2
2
(gem. Bem. c) nach Bsp. 11.1) erwartungstreu mit SX
2
SX
n
=
1
1
(Xi − μ)2 =
· 372 = 37, 2
n
10
i=1
Dr. Matthias Arnold
322
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 11.5 (Fortsetzung)
c) Mit welcher Wahrscheinlichkeit verspätet sich S1 um
höchstens 5 Minuten?
1, Verspätung ≤ 5 min
Definiere Yi =
0, sonst
uiv
Also Y1 , ..., Y10 ∼ Bin(1, p); Von Interesse: p (Wahrscheinlichkeit, dass S1 max. 5 min. zu spät) → Gemäß Bem. b) nach
Bsp. 11.1 ist X̄ effizientester Schätzer für p
p̂ =
1
1
(1 + 0 + 0 + 1 + 0 + 0 + 0 + 1 + 1 + 1) =
10
2
(Zur Erinnerung: P(Versp. max. 5 min) = 0, 25 bei
Unterstellung einer Gleichverteilung)
Dr. Matthias Arnold
323
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung
Fazit/Zusammenfassung Kapitel 11
Schätzer = Funktion der Stichprobenvariablen, selbst
ebenfalls Zufallsvariable
Erwartungstreue als Konzept zum Vergleich von Schätzern
Effizienz als Konzept zum Vergleich von erwartungstreuen
Schätzern
Dr. Matthias Arnold
324
Universität Erfurt
Sommersemester 2012 - Statistik
Kapitel 12: Intervallschätzung
Motivation
Bisher: Schätzung des unbekannten Parameters θ durch θ̂
auf einen Punkt“
”
→ P(θ̂ = θ) = 0 (falls θ̂ stetig verteilt), darüber hinaus keine
Informationen, wie wahrscheinlich sich θ̂ zumindest in der
”
Nähe“von θ realisiert
Jetzt: Konstruiere (basierend auf Punktschätzer) Intervall,
das unbekannten Parameter mit hoher Wahrscheinlichkeit“
”
überdeckt
→ liefert Information über Präzision des Schätzers
Dr. Matthias Arnold
325
Universität Erfurt
Sommersemester 2012 - Statistik
Definition 12.1
X1 , ..., Xn Stichpr. aus Grundges. mit Xi ∼ Fθ (unbekannt).
Vu = g(X1 , X2 , . . . , Xn )
und
Vo = h(X1 , X2 , . . . , Xn )
Stichprobenfunktionen mit Vu < Vo . Dann heißt das Intervall
[Vu , Vo ] Konfidenzintervall für den unbekannten Parameter θ.
Weiter heißt
α = P (θ ∈
/ [Vu , Vo ])
Irrtumswahrscheinlichkeit und
1 − α = P (θ ∈ [Vu , Vo ])
Vertrauenswahrscheinlichkeit oder Konfidenzniveau.
Dr. Matthias Arnold
326
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 12.1
Das Zentrum für Studienangelegenheiten an der TU Dortmund
behauptet, dass die mittlere Wartezeit von Besuchern nicht mehr
als zehn Minuten beträgt. Eine Befragung von 16 zufällig
ausgewählten Besuchern ergab folgende Wartezeiten (in Minuten):
12, 20, 5, 15, 8, 1, 30, 25, 10, 4, 17, 11, 20, 10, 6, 2.
Gesucht: 95%-Konfidenzintervall für die mittlere Wartezeit
Annahme: Wartezeiten Stichprobenrealisationen einer
normalverteilten Grundgesamtheit mit Standardabweichung σ = 5
bekannt.
Dr. Matthias Arnold
327
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung
Herleitung eines Konfidenzintervalls für μ bei bekannter Varianz
(normalverteilte Grundgesamtheit)
uiv
Ausgangssituation: X1 , ..., Xn ∼ N μ, σ 2
n
2 (vgl. Bem. d) nach Def. 10.4)
X
∼
N
n
·
μ,
n
·
σ
→
i
i=1 i
σ2
→ X̄ ∼ N μ, n (vgl. Bem. d) nach Bsp. 9.1 und Bem. a),
Punkt ii), nach Beispiel 9.5)
→
√
n X̄−μ
σ ∼ N (0, 1) (vgl. Bem. c) nach Def. 10.4)
√ X̄ − μ
→ P u α2 ≤ n
≤ u1− α2 = 1 − α
σ
mit uγ = γ-Quantil der N (0, 1)-Verteilung
Dr. Matthias Arnold
328
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung (Fortsetzung)
uiv
Herleitung Konfidenzintervall für μ bei Xi ∼ N μ, σ 2 ,
σ 2 bekannt (Fortsetzung)
√
α
α
1 − α = P −u1− 2 σ ≤ n (X̄ − μ) ≤ u1− 2 σ
= P
−u1− α2
−u1− α2
σ
σ
√ − X̄ ≤ −μ ≤ u1− α √ − X̄
2
n
n
⎞
= P
σ
σ
√ ≤ X̄ − μ ≤ u1− α √
2
n
n
⎛
⎜
σ
σ ⎟
⎜
⎟
α
α
√
√
= P ⎜X̄ − u1− 2
≤ μ ≤ X̄ + u1− 2
⎟
⎝
n
n⎠
= Vu
Dr. Matthias Arnold
= Vo
329
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung (Fortsetzung)
uiv
Somit gilt: Wenn X1 , ..., Xn ∼ N (μ, σ 2 ), Varianz σ 2 bekannt,
dann ist ein Konfidenzintervall für den unbekannten Erwartungswert μ zum Konfidenzniveau 1 − α gegeben durch
σ
σ
KI1−α (μ) = X̄ − u1− α2 √ , X̄ + u1− α2 √
n
n
Interpretation
μ ist ein fester Wert (obwohl unbekannt), zufällig sind die
Intervallgrenzen
deshalb: Das Intervall [Vu , Vo ] überdeckt den unbekannten
Parameter μ mit vorgegebener Wahrscheinlichkeit 1 − α
Dr. Matthias Arnold
330
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 12.2
(Wartezeiten ZfS, vgl. Bsp. 12.1)
Xi = Wartezeit i-ter Besucher (in Minuten)“, dann gilt nach
”
Annahme:
uiv
X1 , X2 , . . . , X16 ∼ N (μ, 25)
Konfidenzintervall
Varianz σ 2 bekannt, also:
σ
σ
KI1−α (μ) = X̄ − u1− α2 √ , X̄ + u1− α2 √
n
n
Berechnung für diese Daten:
Dr. Matthias Arnold
331
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 12.2 (Fortsetzung)
Hier ist
X̄ =
1
(12 + 20 + 5 + . . . + 6 + 2) = 12, 25
16
und für α = 0, 05 gilt nach Tabelle
1 − α = 0, 95
→ KI0,95 (μ) =
⇒
u1− α2 = u0,975 = 1, 96
5
5
12, 25 − 1, 96 · √ ; 12, 25 + 1, 96 · √
16
16
= [12, 25 − 2, 45; 12, 25 + 2, 45]
= [9, 8; 14, 7] = [9 Min.&48 Sek.; 14 Min.&42 Sek.]
Intervall derart konstruiert, dass es unter den getroffenen
Annahmen die (unbekannte, aber feste) mittlere Wartezeit beim
ZfS mit 95 % Wahrscheinlichkeit überdeckt
Dr. Matthias Arnold
332
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung
Frage: Wie lässt sich analoges Konfidenzintervall für mittlere
Wartezeit finden, wenn Varianz σ 2 unbekannt?
Idee: Ersetze in Bemerkung nach Beispiel 12.1 die unbekannte
2 (siehe
Varianz σ 2 durch erwartungstreuen Schätzer, z.B. S̃X
Bem. d) nach Bsp. 11.4)
Problem:
Aber:
√ X̄ − μ
n
N (0, 1)
S̃X
√ X̄ − μ
n
besitzt andere, leicht handhabbare Verteilung
S̃X
Dr. Matthias Arnold
333
Universität Erfurt
Sommersemester 2012 - Statistik
Definition 12.2
uiv
X1 , ..., Xn ∼ N (0, 1), dann heißt die Zufallsvariable
Y =
n
Xi2
i=1
χ2 -verteilt mit n Freiheitsgraden, kurz: Y ∼ χ2n .
Weiter sei W ebenfalls N (0, 1) verteilt und Y wie oben definiert
(also Y ∼ χ2n ). Sind W und Y stochastisch unabhängig, so heißt
die Zufallsvariable
W
Z=
1
nY
t-verteilt mit n Freiheitsgraden, kurz: Z ∼ tn .
Dr. Matthias Arnold
334
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung 1
0.5
a) Dichten ausgesuchter χ2n −Verteilungen
n=1
n=2
0.4
n=3
n=4
0.3
n=6
0.0
0.1
0.2
f(x)
n=9
0
Dr. Matthias Arnold
2
4
x
6
8
335
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung 1 (Fortsetzung)
0.4
0.4
b) Dichten ausgesuchter tn −Verteilungen
n=5
0.3
0.2
f(x)
0.1
0.0
0.0
0.1
0.2
f(x)
0.3
n=2
0
x
2
4
−4
−2
0
x
2
0.1
0.2
f(x)
0.3
n = 25
0.0
0.0
0.1
0.2
f(x)
0.3
n = 10
−4
Dr. Matthias Arnold
4
0.4
−2
0.4
−4
−2
0
x
2
4
−4
−2
0
x
2
4
336
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung 2
a) Konfidenzintervall für μ bei Normalverteilung, σ 2 unbekannt
uiv
Betrachte Problem aus Bem. nach Bsp. 12.2: Xi ∼ N (μ, σ 2 )
mit μ und σ 2 unbekannt; Gesucht: Konfidenzintervall für μ
√
Bekannt:
außerdem leicht zu zeigen:
n X̄−μ
σ ∼ N (0, 1);
(n − 1)
2
S̃X
σ2
∼ χ2n−1
2 stochastisch unabhängig
Weiter sind X̄ und S̃X
√ X̄−μ
√ X̄−μ
√ X̄ − μ
n σ
n σ
⇒ =
=
n
∼ tn−1 (vgl. Def. 12.2)
2
S̃
X
S̃
S̃
n−1 X
X
σ
n−1 σ 2
und somit P
Dr. Matthias Arnold
tn−1, α2
√ X̄ − μ
≤ n
≤ tn−1,1− α2
S̃X
=1−α
337
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung 2 (Fortsetzung)
a) Konfidenzintervall bei N (μ, σ 2 ), σ 2 unbekannt (Fortsetzung)
uiv
Somit gilt: Wenn X1 , ..., Xn ∼ N (μ, σ 2 ), Varianz σ 2
unbekannt, dann ist ein Konfidenzintervall für den
unbekannten Erwartungswert μ zum Konfidenzniveau 1 − α
gegeben durch
S̃X
S̃X
KI1−α (μ) = X̄ − tn−1,1− α2 √ , X̄ + tn−1,1− α2 √
n
n
b) Für n → ∞ konvergiert tn −Verteilung gegen N (0, 1)−Verteilung; Faustregel: Approximation bei n ≥ 30 akzeptabel
→ wenn n ≥ 30, so kann im Konfidenzintervall aus Teil a)
anstelle des (1 − α/2)−Quantils der tn −Verteilung das entsprechende N (0, 1)−Quantil verwendet werden
Dr. Matthias Arnold
338
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 12.3
(Wartezeiten ZfS, vgl. Bsp. 12.1 und 12.2)
Xi = Wartezeit i-ter Besucher (in Minuten)“; unterstelle
”
weiterhin Normalverteilung, nehme nun jedoch an, dass σ 2
uiv
unbekannt → X1 , ..., X16 ∼ N (μ, σ 2 )
Gesucht: Konfidenzintervall für
μ → wende Bem. 2 a) nach Def. 12.2 an
X̄ = 12, 25 und n = 16 (vgl. Bsp. 12.2), weiterhin gilt
2
t15,0.975 = 2, 131; berechne nun außerdem S̃X
2
S̃X
=
1 (12 − 12, 25)2 + (20 − 12, 25)2 + . . . + (2 − 12, 25)2
15
= 69, 933
Dr. Matthias Arnold
339
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 12.3 (Fortsetzung)
Somit gilt
KI0,95 (μ) = 12, 25 ± t15,0.975 ·
=
12, 25 − 2, 131 ·
69, 933
16
69, 933
; 12, 25 + 2, 131 ·
16
69, 933
16
= [12, 25 − 4, 455; 12, 25 + 4, 455]
= [7, 795; 16, 705] = [7 Min.&48 Sek.; 16 Min.&42 Sek.]
Beachte: Bei bekannter Varianz umschloss das Konfidenzintervall
den Bereich [9 Min.&48 Sek.; 14 Min.&42 Sek.], vgl. Bsp. 12.2
→ dieses Intervall liegt komplett in dem Konfidenzintervall, welches
bei unbekannter Varianz berechnet wurde (klar: weniger Informationen → größere Unsicherheit)
Dr. Matthias Arnold
340
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 12.4
Bei einer Umfrage unter 65 mittelständischen Unternehmen geben
26 Betriebe an, zusätzliche Mitarbeiter einstellen zu wollen, falls
der Kündigungsschutz gelockert wird.
Gesucht: 90%-Konfidenzintervall für den unbekannten Anteil der
Betriebe, die nach einer Gesetzesänderung zusätzliche Arbeitsplätze schaffen wollen
1 i-ter Betrieb möchte zusätzl. Mitarb. einstellen
Definiere Xi =
0 sonst
uiv
→ X1 , ..., X65 ∼ Bin (1, p) →
65
Xi ∼ Bin (65, p)
i=1
Gemäß Fragestellung also benötigt: Konfidenzintervall für p
Dr. Matthias Arnold
341
Universität Erfurt
Sommersemester 2012 - Statistik
Bemerkung
uiv
Seien X1 , ..., Xn ∼ Bin (1, p), dann ist ein (approximatives) Konfidenzintervall für den unbekannten Anteil p zum Konfidenzniveau
1 − α gegeben durch:
σ̂
σ̂
KI1−α (p) = p̂ − u1− α2 √ , p̂ + u1− α2 √
n
n
Dabei ist p̂ = X̄, σ̂ = p̂ (1 − p̂) und uγ das γ-Quantil der
Standardnormalverteilung.
Weiterhin gilt die Approximation als akzeptabel, wenn
(1) n ≥ 30,
Dr. Matthias Arnold
(2) np̂ ≥ 10,
(3) n (1 − p̂) ≥ 10
342
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 12.5
(Umfrage in mittelständischen Unternehmen, vgl. Bsp. 12.4)
uiv
Xi wie in Bsp. 12.4 → X1 , ..., X65 ∼ Bin (1, p)
Gesucht: Konfidenzintervall für p → Nutze Bem. nach Bsp. 12.4:
65
Xi = 26 → p̂ = X̄ =
i=1
26
= 0, 4
65
Überprüfung der Voraussetzungen:
(1)
n = 65 ≥ 30 (2)
n p̂ = 26 ≥ 10 (3) n (1 − p̂) = 39 ≥ 10 Dr. Matthias Arnold
343
Universität Erfurt
Sommersemester 2012 - Statistik
Beispiel 12.5 (Fortsetzung)
Weiter gilt
σ̂ =
0, 4 (1 − 0, 4) =
1 − α = 0, 9
⇒
0, 24 = 0, 49
u1− α2 = u0,95 = 1, 645
und somit
KI0,9 (p) =
0, 49
0, 49
0, 4 − 1, 645 √ ; 0, 4 + 1, 645 √
65
65
= [0, 4 − 0, 1; 0, 4 + 0, 1]
= [0, 3; 0, 5]
→ Das 90 % Konfidenzintervall für den Anteil an Betrieben, die
nach einer Gesetzesänderung zusätzliches Personal einstellen
würden, geht von 30 % bis 50 %.
Dr. Matthias Arnold
344
Universität Erfurt
Sommersemester 2012 - Statistik
Wahlumfragen
Politbarometer (Forschungsgruppe Wahlen)
Angabe: Bei 1.250 Befragten beträgt die Fehlertoleranz
für Parteien mit 40% Stimmenanteil +/ − 3%
für Parteien mit 10% Stimmenanteil +/ − 2%
Berechnung
n = 1250
α = 0, 05 (Konvention) ⇒ u1− α2 = u0.975 = 1.96 ≈ 2
bzw.
σ̂
⇒ u1− α2
n
p · (1 − p)
2·
n
Dr. Matthias Arnold
p · (1 − p)
≈ 2·
=2·
n
0.09
= 2·
≈ 0, 017
1250
0.24
≈ 0, 028
1250
345
Universität Erfurt
Sommersemester 2012 - Statistik
Wahlumfragen
Infratest Dimap (ARD-DeutschlandTREND)
Angabe: Bei 1.000 Befragten beträgt die Fehlertoleranz
für Parteien mit 5% Stimmenanteil +/ − 1, 4%
für Parteien mit 50% Stimmenanteil +/ − 3, 1%
Berechnung
n = 1000
α = 0, 05 (Konvention) ⇒ u1− α2 = u0.975 = 1.96 ≈ 2
bzw.
σ̂
⇒ u1− α2
n
p · (1 − p)
2·
n
Dr. Matthias Arnold
p · (1 − p)
≈ 2·
=2·
n
0.25
= 2·
≈ 0, 0316
1000
0.0475
≈ 0, 0138
1000
346
Universität Erfurt
Sommersemester 2012 - Statistik
Das Konfidenzintervall
KI1−α (μ) = X̄ − u1− α2
σ
σ
√ , X̄ + u1− α √
2
n
n
hat die Breite
V o − Vu =
X̄ + u1− α2
σ
√
n
− X̄ − u1− α2
σ
√
n
σ
= 2 · u1− α2 √
n
und ist deshalb umso schmaler, je
größer α ist (größere Irrtumswahrscheinlichkeit bedeutet
kleineres Intervall)
kleiner σ 2 ist (präzisere Schätzung gibt mehr Sicherheit)
größer n ist (mehr Stichprobe bedeutet mehr Information)
Dr. Matthias Arnold
347
Universität Erfurt
Sommersemester 2012 - Statistik
erforderlicher Stichprobenumfang
In der Praxis häufig: gewünschte Breite des
Konfidenzintervalles vorgegeben:
Vo − Vu = c mit einer Konstante c
daraus: erforderlichen Stichprobenumfang berechnen
σ
c = Vo − Vu = 2 · u1− α2 √
n
σ 2
⇔n =
2 · u1− α2
c
bei unbekanntem σ: durch Schätzwert ersetzen
Zusammenhang ist quadratisch: Intervallbreite halbieren
erfordert vierfachen Stichprobenumfang
Dr. Matthias Arnold
348
Herunterladen