6. Schätzverfahren für Parameter

Werbung
6. Schätzverfahren für Parameter
Ausgangssituation:
• Ein interessierender Zufallsvorgang werde durch die ZV X
repräsentiert
• X habe eine unbekannte Verteilungsfunktion FX (x)
• Wir interessieren uns für einen (oder mehrere) Parameter der
Verteilung von X
313
Wichtige Parameter sind:
• Der Erwartungswert von X
• Die Varianz von X
• Werte der VF FX (x)
• Quantile der VF FX (x) (vgl. Definition 3.3, Folie 122)
314
Ansatz zur Informationsbeschaffung:
• Betrachte eine einfache Zufallsstichprobe X1, . . . , Xn aus X
• Schätze den unbekannten Parameter von X anhand einer
geeigneten Statistik
T = g(X1, . . . , Xn)
der Zufallsstichprobe
(vgl. Definition 5.2, Folie 300)
315
6.1 Punktschätzung
Bezeichnungen:
• Der unbekannte Parameter von X sei θ
(z.B. θ = E(X))
• Die Statistik der einfachen Zufallsstichprobe X1, . . . , Xn aus
X zur Schätzung des unbekannten Parameters θ wird häufig
mit θ̂(X1, . . . , Xn) bezeichnet
(memotechnisch sinnvoll)
316
Definition 6.1: (Schätzer, Schätzwert)
Die Statistik θ̂(X1, . . . , Xn) heißt Schätzer (auch Schätzfunktion)
für den Parameter θ. Hat sich die Zufallsstichprobe X1, . . . , Xn in
den Werten x1, . . . , xn realisiert, so bezeichnet man die damit verbundene Realisierung des Schätzers θ̂(x1, . . . , xn) als Schätzwert.
Bemerkungen:
• Der Schätzer θ̂(X1, . . . , Xn) ist eine Zufallsvariable
−→ Schätzer hat Vtlg., E-Wert und Varianz
• Der Schätzwert θ̂(x1, . . . , xn) ist dagegen eine Zahl
(vgl. Abbildungen auf den Folien 295 + 302)
317
Frage:
• Wozu braucht man das scheinbar komplizierte theoretische
Konzept des Schätzers als Zufallsvariable?
Antwort:
• Um alternative Schätzer für ein und denselben Parameter θ
im Hinblick auf ihre jeweilige ’Genauigkeit’ miteinander vergleichen zu können
318
Beispiel:
• Es sei θ = V (X) die Varianz von X
• Zwei alternative Schätzer für θ sind
n 
‘2
X
1
2
θ̂1(X1, . . . , Xn) = S =
Xi − X
n i=1
θ̂2(X1, . . . , Xn) = S
∗2
n 
‘2
1 X
Xi − X
=
n − 1 i=1
Frage:
• Welcher Schätzer ist ’besser’ und warum?
−→ Eigenschaften von Punktschätzern
319
6.2 Eigenschaften von Punktschätzern
Ziel:
• Formulierung von Qualitätskriterien zur Beurteilung der Eigenschaften eines Schätzers θ̂(X1, . . . , Xn) für θ
Hier 3 Kriterien:
• Erwartungstreue
• Mittlerer quadratischer Fehler
• (schwache) Konsistenz
320
Definition 6.2: (Erwartungstreue)
Der Schätzer θ̂(X1, . . . , Xn) für den unbekannten Parameter θ
heißt erwartungstreu, falls sein Erwartungswert mit dem zu schätzenden Parameter θ übereinstimmt, d.h. falls
h
i
E θ̂(X1, . . . , Xn) = θ.
Bemerkung:
• Anschaulich bedeutet Erwartungstreue, dass der Schätzer
θ̂(X1, . . . , Xn) nicht ’systematisch daneben’ schätzt, wenn
man den Schätzer nicht nur für eine, sondern für ’viele’ Stichproben auswertet
(Gedankenexperiment: Wiederholte Stichprobe)
321
Beispiel 1: [I]
• Es sei θ = E(X)
• Betrachte den Schätzer
n
1 X
Xi
θ̂(X1, . . . , Xn) = X =
n i=1
(arithmetisches Stichprobenmittel)
322
Beispiel 1: [II]
• Es gilt:
h
E θ̂(X1, . . . , Xn)
i

= E
n
1 X
n i=1

Xi 
n
n
1 X
1 X
E(Xi) =
E(X)
=
n i=1
n i=1
n
1 X
1
=
θ = ·n·θ =θ
n i=1
n
−→ θ̂(X1, . . . , Xn) = X ist erwartungstreu für θ = E(X)
(vgl. Satz 4.13, Folie 281)
323
Beispiel 2: [I]
• Es sei θ = V (X) die Varianz von X
• Betrachte den Schätzer
n 
‘2
X
1
2
θ̂1(X1, . . . , Xn) = S =
Xi − X
n i=1
(Stichprobenvarianz)
• Hier gilt
h
i
n−1
·θ
n
−→ S 2 ist nicht erwartungstreu für θ = V (X)
E θ̂1(X1, . . . , Xn) = E(S 2) =
324
Beispiel 2: [II]
• Betrachte korrigierte Stichprobenvarianz
θ̂2(X1, . . . , Xn) = S
• Hier gilt:
h
E θ̂2(X1, . . . , Xn)
∗2
i
n 
‘2
1 X
n
=
· S2
Xi − X =
n − 1 i=1
n−1
’
“
n
= E(S ∗2) = E
· S2
n−1
n
n−1
n
·θ
=
E(S 2) =
·
n−1
n−1
n
= θ = V (X)
−→ S ∗2 ist erwartungstreu für θ = V (X)
325
Satz 6.3: (E-treue Schätzer für E(X) und V (X))
Es sei X1, . . . , Xn eine Stichprobe aus X und X sei beliebig verteilt
mit unbekanntem Erwartungswert µ = E(X) sowie unbekannter
Varianz σ 2 = V (X). Dann sind die beiden Schätzer
n
1 X
Xi
µ̂(X1, . . . , Xn) = X = ·
n i=1
bzw.
σˆ2(X1, . . . , Xn) = S ∗2 =
n 
‘2
X
1
·
Xi − X
n − 1 i=1
stets erwartungstreu für die Parameter µ = E(X) und σ 2 =
V (X).
326
Vorsicht:
• Erwartungstreue pflanzt sich bei Parametertransformationen
nicht beliebig fort
Beispiel:
• Zwar ist S ∗2 erwartungstreu für σ 2 = V (X)
• Jedoch ist S ∗ nicht erwartungstreu für σ =
q
V (X)
Bemerkung:
• Im übrigen ist auch S nicht E-treu für σ =
q
V (X)
327
Übersicht:
• Weitere Parameter von X und zugehörige potenzielle Schätzer,
wie sie aus der deskriptiven Statistik (Statistik I) bekannt sind
Parameter
Wahrscheinlichkeit
Verteilungsfunktion
Quantil
Standardabweichung
Gemeinsame Wskt.
Kovarianz
Korrelationskoeffizient
Potenzieller Schätzer
relative Häufigkeit
emp. Verteilungsfunktion
Quantil
emp. Standardabweichung
gem. relative Häufigkeit
emp. Kovarianz
emp. Korrelationskoeffizient
Vorsicht:
• Die potenziellen Schätzer sind oft, aber nicht immer erwartungstreu für die zu schätzenden Parameter
328
Jetzt:
• Strengeres Qualitätskriterium für Schätzer
Dichtefunktionen zweier erwartungstreuer Schätzer für den Parameter θ
∧
Dichte von θ 1 ( X1, K , X n )
∧
Dichte von θ 2 ( X1, K , X n )
θ
329
Intuition:
• Ist ein Schätzer erwartungstreu, so ist es günstig, wenn er
eine kleine Varianz aufweist
−→ Optimal: Erwartungstreuer Schätzer mit minimaler Varianz
Problem:
• Solche Schätzer sind oft schwer oder gar nicht auffindbar
Ausweg:
• Kennzahlen zum Vergleich zweier alternativer Schätzer
Bekannteste Kennzahl:
• Mittlerer quadratischer Fehler
330
Definition 6.4: (Mittlerer quadratischer Fehler)
Es sei θ̂(X1, . . . , Xn) einer Schätzer für den unbekannten Parameter θ. Dann heißt die Kennzahl
MSE(θ̂) = E[(θ̂ − θ)2]
der mittlere quadratische Fehler (englisch: mean squared error)
des Schätzers θ̂.
Bemerkung:
• Der mittlere quadratische Fehler lässt sich auch schreiben als
h
MSE(θ̂) = V (θ̂) + E(θ̂) − θ
|
{z
i2
}
Verzerrung
−→ Bei erwartungstreuen Schätzern ist der MSE gleich der
Varianz des Schätzers
331
Weiteres Gütekriterium für einen Schätzer:
• Konsistenz eines Schätzers
Intuition:
• Ein Schätzer θ̂(X1, . . . , Xn) für den unbekannten Parameter θ
heißt konsistent, falls die Schätzung bei zunehmenden Stichprobenumfang immer genauer wird
(Konzept wird hier nicht genauer behandelt)
332
Weitere zentrale Fragestellung:
• Wie findet man geeignete Schätzer
Es gibt allgemeine Konstruktionsprinzipien, z.B. die:
• Methode der Kleinsten-Quadrate
• Momenten-Methode
• Maximum-Likelihood-Methode
(Gegenstand der Ökonometrie-VL im Hauptstudium)
333
6.3 Intervallschätzung
Bisher:
• Schätzung des Parameters θ auf der Basis einer Stichprobe
durch Punktschätzung θ̂(X1, . . . , Xn)
Problem:
• Punktschätzung trifft in der Regel den exakten Wert des
unbekannten Parameters θ nicht
• Bei Stichproben aus stetigen Verteilungen gilt sogar

‘
P θ̂(X1, . . . , Xn) = θ = 0
bzw.

‘
P θ̂(X1, . . . , Xn) 6= θ = 1
334
Alternativer Ansatz:
• Konstruktion eines zufälligen Intervalls anhand einer
Stichprobe X1, . . . , Xn, das den Parameter θ mit einer vorgebenen Wskt. überdeckt
Vorteil:
• Genauigkeit der Schätzung wird ’quantifiziert’
Ansatz:
• Wähle 2 Statistiken θ̂u(X1, . . . , Xn) und θ̂o(X1, . . . , Xn), derart dass das zufällige Intervall
h
i
I = θ̂u(X1, . . . , Xn), θ̂o(X1, . . . , Xn)
θ mit einer vorgegebenen Wahrscheinlichkeit überdeckt
335
Definition 6.5: (Konfidenzintervall)
Es sei X1, . . . , Xn eine Zufallsstichprobe aus X, θ ein unbekannter
Parameter und α ∈ [0, 1] eine reelle Zahl. Dann bezeichnet man
das zufällige Intervall
h
θ̂u(X1, . . . , Xn), θ̂o(X1, . . . , Xn)
mit der Eigenschaft

i
‘
P θ̂u(X1, . . . , Xn) ≤ θ ≤ θ̂o(X1, . . . , Xn) = 1 − α
als Konfidenzintervall für θ zum Konfidenzniveau 1 − α. Die Zahl
α ∈ [0, 1] heißt Irrtumswahrscheinlichkeit.
336
Bemerkungen:
• Die Grenzen des Intervalls sind ZV’en
• Nach Realisation der Stichprobe heißt das Intervall
h
θ̂u(x1, . . . , xn), θ̂o(x1, . . . , xn)
konkretes Konfidenzintervall
i
337
Konfidenzintervall 1: [I]
• Der interessierende Zufallsvorgang repräsentiert durch die ZV
X sei normalverteilt, d.h.
X ∼ N (µ, σ 2),
wobei µ unbekannt und σ 2 bekannt sein sollen
• Gesucht wird (1 − α)-Konfidenzintervall für µ
• Betrachte Stichprobe X1, . . . , Xn aus X
• Wissen aufgrund von Satz 5.5(b), Folie 310:
√ X −µ
n·
∼ N (0, 1)
σ
338
N (0, 1)-Dichtefunktion der Statistik
Dichte von
n⋅
√
n·
X −µ
σ
~ N (0,1)
α/2
α/2
−c
X−µ
σ
0
c
Konfidenzintervall 1: [II]
• c ist das (1 − α/2)-Quantil der N (0, 1)-Verteilung
339
Konfidenzintervall 1: [III]
• Das p-Quantil der Standardnormalverteilung wird im Lehrbuch
Mosler/Schmid mit up bezeichnet, d.h. c = u1−α/2
• Es gilt also:
⇐⇒
√
−µ ≤c
P −c ≤ n · X σ
’
P −u1−α/2 ≤
’
“
’
√
−µ ≤u
n·Xσ
1−α/2
⇐⇒ P X − u1−α/2 · √σ ≤ µ ≤ X + u1−α/2 · √σ
n
n
“
“
= 1−α
= 1−α
= 1−α
340
Konfidenzintervall 1: [IV]
• Ein Konfidenzintervall für µ zum Niveau 1 − α ist also
"
σ
σ
X − u1−α/2 · √ , X + u1−α/2 · √
n
n
#
• Z.B. gilt für 1 − α = 0.95:
1−α = 0.95
=⇒
α = 0.05
=⇒
u1−α/2 = u0.975 = 1.96
(vgl.Formelsammlung Bomsdorf/Gröhn/Mosler/Schmid)
341
Konkretes Beispiel: [I]
• Es sei X das tatsächliche Gewicht (in Gramm) einer 200gTafel Schokolade
• Angenommen, X ∼ N (µ, 4) mit unbek. Erwartungswert µ
• Eine einfache Stichprobe vom Umfang n = 8 liefert
x1
201.15
x2
197.57
x3
201.38
x4
203.15
x5
199.92
x6
198.99
x7
203.44
342
x8
200.50
Konkretes Beispiel: [II]
• Ein Punktschätzwert für µ ist x = 200.7625
• Ein konkretes 0.95-Konfidenzintervall für µ ist
"
2
2
x − 1.96 · √ , x + 1.96 · √
8
8
#
= [199.3766 , 202.1484]
343
Konfidenzintervall 2: [I]
• Der interessierende Zufallsvorgang repräsentiert durch die ZV
X sei normalverteilt, d.h.
X ∼ N (µ, σ 2),
wobei sowohl µ als auch σ 2 unbekannt sein sollen
• Gesucht wird (1 − α)-Konfidenzintervall für µ
• Betrachte Stichprobe X1, . . . , Xn aus X
• Wissen aufgrund von Satz 5.5(c), Folie 311:
√
X −µ
n−1·
∼ t(n − 1)
S
344
Dichtefunktion der t(n)-Verteilung
0.4
n = 10
Dichtefunktion
0.3
0.2
n=1
0.1
0.0
-2
-1
0
1
2
x
Konfidenzintervall 2: [II]
• c ist das (1 − α/2)-Quantil der t(n)-Verteilung
345
Konfidenzintervall 2: [III]
• Das p-Quantil der t(ν)-Verteilung wird in Mosler/Schmid mit
tν,p bezeichnet, d.h. c = tn−1,1−α/2
• Es gilt also:
’
’
“
√
X
−
µ
P −c ≤ n − 1 · S
≤c = 1−α
≤µ≤X +c·√ S
⇐⇒ P X − c · √ S
n−1
n−1
“
= 1−α
346
Konfidenzintervall 2: [IV]
• Ein Konfidenzintervall für µ zum Niveau 1 − α ist somit
"
S
S
X − tn−1,1−α/2 · √
, X + tn−1,1−α/2 · √
n−1
n−1
#
• Z.B. gilt für 1 − α = 0.95:
1−α = 0.95 =⇒ α = 0.05 =⇒ tn−1,1−α/2 = t7,0.975 = 2.3646
(vgl. Formelsammlung Bomsdorf/Gröhn/Mosler/Schmid)
347
Konkretes Beispiel: [I]
• Es sei X das tatsächliche Gewicht (in Gramm) einer 200gTafel Schokolade
• Angenommen, X ∼ N (µ, σ 2) mit unbekanntem Erwartungswert
µ und unbekannter Varianz σ 2
• Eine einfache Stichprobe vom Umfang n = 8 war
x1
201.15
x2
197.57
x3
201.38
x4
203.15
x5
199.92
x6
198.99
x7
203.44
348
x8
200.50
Konkretes Beispiel: [II]
• Ein Punktschätzwert für µ ist x = 200.7625
• Ein Punktschätzwert für σ ist s = 1.8545
• Ein konkretes 0.95-Konfidenzintervall für µ ist
"
x − 2.3646 ·
1.8545
1.8545
√
, x + 2.3646 · √
7
7
#
= [199.1051 , 202.4199]
• KI ist breiter als das KI auf Folie 343, weil Schätzung der
unbekannten Varianz σ 2 durch S 2 zusätzliche Unsicherheit
birgt
349
Herunterladen