Schätzer

5. Statistische Schätztheorie
Problem:
• Sei X eine Zufallsvariable (oder X ein Zufallsvektor), die
einen interessierenden Zufallsvorgang repräsentiere
• Man möchte die tatsächliche Verteilung von X (oder X) kennenlernen
Man beachte:
• In praxi ist die Verteilung von X zunächst unbekannt
191
Deshalb:
• Sammle Informationen über die unbekannte Verteilung des
Zufallsvorgangs, indem man diesen (und damit die Zufallsvariable X) mehrfach beobachtet
−→ Zufallsstichprobe
−→ Statistiken
−→ Schätzer
192
5.1 Stichproben, Schätzer, Grenzwertsätze
Situation:
• Sei X die Zufallsvariable, die den interessierenden Zufallsvorgang repräsentiere
(zunächst Betrachtung univariater Variablen)
• Man beabsichtigt, den Zufallsvorgang (d.h. X) insgesamt n
mal zu beobachten
• Vor den Realisierungen kann man die n potenziellen Beobachtungen als ZV’en X1, . . . , Xn auffassen
193
Definition 5.1: (Stichprobe)
Die ZV’en X1, . . . , Xn heißen einfache Stichprobe aus X, wenn
(a) jedes Xi, i = 1, . . . , n, wie X verteilt ist,
(b) X1, . . . , Xn stochastisch unabhängig sind.
Die Anzahl n heißt Stichprobenumfang.
194
Bemerkungen:
• Der interessierende Zufallsvorgang kann prinzipiell beliebig
oft wiederholt werden
• Die Realisierungen x1, . . . , xn der Stichprobe X1, . . . , Xn heißen
konkrete Stichprobe
• Betrachtet man die Stichprobe X1, . . . , Xn als Zufallsvektor,
so ist die gemeinsame Dichtefunktion wegen der Unabhängigkeit gegeben durch
fX1,...,Xn (x1, . . . , xn) =
n
Y
i=1
fXi (xi)
(vgl. Definition 3.8, Folie 125)
195
Modell der einfachen Zufallsstichprobe
Zufallsvorgang X
X1 (ZV)
X2 (ZV)
...
Xn (ZV)
x1 (Realisation 1. Exp.)
x2 (Realisation 2. Exp.)
...
xn (Realisation n. Exp.)
Mögliche
Realisationen
196
Jetzt:
• Betrachte Funktionen der Stichprobenvariablen X1, . . . , Xn
−→ Statistiken
−→ Schätzer
Definition 5.2: (Statistik, Stichprobenfunktion)
Es seien X1, . . . , Xn eine einfache Stichprobe aus X sowie g :
Rn −→ R eine reellwertige Funktion mit n Argumenten, die keine
unbekannten Parameter enthält. Dann nennt man die ZV
T = g(X1, . . . , Xn)
eine Statistik oder Stichprobenfunktion.
197
Beispiele:
• Stichprobenmittel:
n
1 X
X = g1(X1, . . . , Xn) = ·
Xi
n i=1
• Stichprobenvarianz:
n
2
1 X
2
S = g2(X1, . . . , Xn) = ·
Xi − X
n i=1
• Stichprobenstandardabweichung:
v
u
n
2
u1 X
Xi − X
S = g3(X1, . . . , Xn) = t ·
n i=1
198
Bemerkungen:
• Alle bisherigen Begriffe können inhaltsgleich auf den multivariaten Fall übertragen werden
• Die Statistik T = g(X1, . . . , Xn) ist eine Funktion von ZV’en
und damit selbst eine ZV
−→ eine Statistik hat eine Verteilung
(d.h. auch einen Erwartungswert und eine Varianz)
Zweck von Statistiken:
• Liefern Informationen über die Verteilung von X
• Sind Grundbausteine beim
Schätzen von Parametern
Testen von Hypothesen über Parameter
199
Stichproben und Statistiken
Stichprobe
( X1, . . ., Xn)
g( X1, . . ., Xn)
Statistik
Messung
Stichprobenrealisation
( x1, . . ., xn)
g( x1, . . ., xn)
Realisation der Statistik
200
Jetzt folgende Situation:
• Es sei X (oder X) eine ZV’e mit unbekannter VF FX (x)
• Wir interessieren uns für einen oder mehrere Parameter von
X
• Es sei θ dieser unbekannte Parametervektor, z.B.
θ=
"
E(X)
Var(X)
#
• Oft ist die Verteilungsfamilie von X bekannt, z.B. X ∼ N (µ, σ 2),
nicht aber die Parameter, d.h.
θ=
"
µ
σ2
#
• Der unbekannte Parametervektor wird mit Hilfe von Statistiken einer Stichprobe X1, . . . , Xn geschätzt
201
Definition 5.3: (Schätzer, Schätzwert)
b (X , . . . , X ) heißt Schätzer (auch Schätzfunktion)
Die Statistik θ
n
1
für den unbekannten Parametervektor θ . Für die konkrete Stichprobe x1, . . . , xn bezeichnet man die damit verbundene Realb (x , . . . , x ) als Schätzwert.
isierung des Schätzers θ
n
1
Bemerkungen:
b (X , . . . , X ) ist ein Zufallsvektor
• Der Schätzer θ
n
1
−→ Schätzer hat eine Verteilung, einen Erwartungswert und
eine Varianz
b (x , . . . , x ) ist dagegen eine Zahl oder ein
• Der Schätzwert θ
n
1
Zahlenvektor
202
Beispiel:
• X sei N (µ, σ 2)-verteilt mit unbek. Parametern µ und σ 2
• Der zu schätzende Parametervektor ist dann
θ=
"
µ
σ2
#
=
"
E(X)
Var(X)
#
• Mögliche Schätzer für µ und σ 2 sind
n
1 X
µ̂ =
Xi
n i=1
und
−→ ein Schätzer für θ ist
θb =
"
µ̂
σ̂ 2
n
X
1
σ̂ 2 =
(Xi − µ̂)2
n − 1 i=1
#


1 Pn X
i=1 i

= 1 n
Pn
2
n − 1 i=1 (Xi − µ̂)
203
Frage:
• Wozu braucht man das scheinbar komplizierte theoretische
Konzept des Schätzers als Zufallsvariable?
Antwort:
• Zum Vergleich alternativer Schätzer für ein und denselben
Parametervektor θ im Hinblick auf bestimmte Güteeigenschaften
Beispiel:
• Es sei θ = Var(X) die Varianz von X
204
• Zwei alternative Schätzer für θ sind
n
2
1 X
θ̂1(X1, . . . , Xn) =
Xi − X
n i=1
n
2
1 X
θ̂2(X1, . . . , Xn) =
Xi − X
n − 1 i=1
Frage:
• Welcher Schätzer ist ’besser’ und warum?
−→ Eigenschaften (Qualitätskriterien) von Punktschätzern
(vgl. Abschnitt 5.2)
205
Wichtig:
• Einige dieser Kriterien beurteilen das Verhalten eines Schätzers
für große Stichprobenumfänge
(n → ∞, Große-Stichproben-Eigenschaften)
Deshalb:
• Erläuterung einiger stochastischer Konvergenzbegriffe:
Zentraler Grenzwertsatz
Schwaches Gesetz der großen Zahl
Konvergenz nach Wahrscheinlichkeit
Konvergenz nach Verteilung
206
Satz 5.4: (Univariater zentraler Grenzwertsatz)
Es sei X eine beliebig verteilte Zufallsvariable mit E(X) = µ und
Var(X) = σ 2. Weiterhin sei X1, . . . , Xn eine einfache Stichprobe
aus X und
n
1 X
Xi
Xn =
n i=1
das arithmetische Stichprobenmittel. Dann gilt für n → ∞:
X n ∼ N µ,
σ2
n
!
bzw.
√ Xn − µ
n
∼ N (0, 1).
σ
Jetzt:
• Verallgemeinerung auf multivariaten Fall
207
Satz 5.5: (Multivariater zentraler Grenzwertsatz)
Es sei X = (X1, . . . , Xm)0 ein beliebig verteilter Zufallsvektor mit
E(X) = µ und Cov(X) = Σ. Weiterhin sei X1, . . . , Xn eine (multivariate) einfache Stichprobe aus X und
n
1 X
Xn =
Xi
n i=1
das multivariate arithmetische Stichprobenmittel. Dann gilt für
n → ∞:

√
1
Xn ∼ N µ , Σ
bzw.
n Xn − µ ∼ N (0, Σ).
n
208
Bemerkungen:
• Eine multivariate einfache Stichprobe aus dem Zufallsvektor
X erhält man, indem man in Definition 5.1 (Folie 194) alle
univariaten Zufallsvariablen durch entsprechende multivariate
Zufallsvektoren ersetzt
• Man beachte die formale Analogie zum univariaten Fall in
Satz 5.4
(Rechenoperationen für Matrizen beachten!)
Jetzt:
• Bekannter Satz über das arithmetische Stichprobenmittel
209
Satz 5.6: (Schwaches Gesetz der großen Zahl)
Es sei X1, X2, . . . eine Folge von unabhängigen und identisch
verteilten Zufallsvariablen mit
E(Xi) = µ < ∞,
Var(Xi) = σ 2 < ∞.
Weiterhin betrachte man die Zufallsvariable
n
1 X
Xi
Xn =
n i=1
(arithmetisches Stichprobenmittel). Für jedes > 0 gilt dann:

lim P X n − µ ≥ = 0.
n→∞
210
Bemerkungen:
• Satz 5.6 ist das schwache Gesetz der großen Zahl
• Für jedes noch so kleine > 0 konvergiert die Wskt., dass X n
um ± vom Erwartungswert µ abweicht, bei zunehmendem
Stichprobenumfang gegen Null
• Man beachte die Analogie zwischen einer Folge von unabhängig, identisch verteilten ZV’en und der Definition 5.1
(Folie 194) einer einfachen Stichprobe aus X
Jetzt:
• Erster wichtiger Konvergenzbegriff
211
Definition 5.7: (Konvergenz nach Wahrscheinlichkeit)
Es sei Y1, Y2, . . . eine Folge Zufallsvariablen. Man sagt: Die Folge
Y1, Y2, . . . konvergiert nach Wahrscheinlichkeit gegen θ, wenn für
jedes > 0 gilt:
lim P (|Yn − θ| ≥ ) = 0.
n→∞
Man notiert die Konvergenz nach Wahrscheinlichkeit mit
plim Yn = θ
oder
p
Yn → θ.
Bemerkungen:
• Spezialfall: Schwaches Gesetz der großen Zahlen
plim X n = µ
oder
p
Xn → µ
212
• Bei der Konvergenz nach Wahrscheinlichkeit strebt die Folge
der ZV’en meistens gegen einen Wert (θ ∈ R)
• Für multivariate Folgen von Zufallsvektoren Y1, Y2, . . . ist die
Definition 5.7 elementweise anzuwenden
• Die Konvergenz nach Wahrscheinlichkeit spielt bei der Beurteilung von Schätzern eine wichtige Rolle
Jetzt:
• Alternativer stochastischer Konvergenzbegriff
213
Definition 5.8: (Konvergenz nach Verteilung)
Es sei Y1, Y2, . . . eine Folge Zufallsvariablen und Z ebenfalls eine
Zufallsvariable. Man sagt: Die Folge Y1, Y2, . . . konvergiert nach
Verteilung gegen Z, wenn
lim FYn (y) = FZ (y)
n→∞
für jedes y ∈ R.
Man notiert die Konvergenz nach Verteilung mit
d
Yn → Z.
Bemerkungen:
• Spezialfall: Zentraler Grenzwertsatz
√ Xn − µ d
→ U ∼ N (0, 1)
Yn = n
σ
• Bei der Konvergenz nach Verteilung strebt die Folge der
ZV’en stets gegen eine Zufallsvariable
214
Satz 5.9: (plim -Rechenregeln)
Es seien X1, X2, . . . und Y1, Y2, . . . Folgen von Zufallsvariablen für
die gilt plim Xn = a bzw. plim Yn = b. Dann gilt:
(a) plim (Xn ± Yn) = a ± b.
(b) plim (Xn · Yn) = a · b.
(c) plim

Xn = a , falls b 6= 0.
Yn
b
(d) (Slutsky-Theorem) Wenn g : R −→ R eine in a stetige Funktion ist, dann gilt
plim g (Xn) = g(a).
215
Bemerkung:
• Eine mit dem Slutsky-Theorem verwandte Eigenschaft gilt
auch für die Konvergenz nach Verteilung
d
Satz 5.10: (→-Rechenregel)
Es seien X1, X2, . . . eine Folge von Zufallsvariablen, Z ebenfalls
d
eine Zufallsvariable und es gelte Xn → Z. Weiterhin sei h : R −→
R eine stetige Funktion. Dann gilt:
d
h (Xn) → h(Z).
Jetzt:
• Verbindung der beiden Konvergenzkonzepte
216
Satz 5.11: (Cramér-Theorem)
Es seien X1, X2, . . . sowie Y1, Y2, . . . Folgen von Zufallsvariablen,
Z eine Zufallsvariable und a ∈ R. Außerdem gelte plim Xn = a
d
und Yn → Z. Dann gelten:
d
(a) Xn + Yn → a + Z.
d
(b) Xn · Yn → a · Z.
Beispiel:
• Es sei X1, . . . , Xn eine einfache Stichprobe aus X mit E(X) =
µ bzw. Var(X) = σ 2
217
• Man kann zeigen, dass
plim Sn∗2 =
plim Sn2 =
n
2
1 X
Xi − X n = σ 2
n − 1 i=1
n
2
1 X
Xi − X n = σ 2
n i=1
• Für g1(x) = x/σ 2 folgt aus dem Slutksky-Theorem:

plim g1 Sn∗2

plim g1 Sn2

Sn∗2
= plim 2 = g1(σ 2) = 1
σ
Sn2
= plim 2 = g1(σ 2) = 1
σ
218
√
• Für g2(x) = σ/ x folgt aus dem Slutksky-Theorem:

σ
∗2
= plim ∗ = g2(σ 2) = 1
plim g2 Sn
Sn

plim g2 Sn2

σ
= g2(σ 2) = 1
= plim
Sn
• Mit dem zentralen Grenzwertsatz folgt:
√ Xn − µ d
n
→ U ∼ N (0, 1)
σ
219
• Mit dem Cramér-Theorem folgt:
√ Xn − µ
∗2
g2 Sn · n

σ
=
σ √ Xn − µ
· n
∗
Sn
σ
√ Xn − µ
=
n
Sn∗
d
→ 1·U
= U ∼ N (0, 1)
• Ebenso liefert das Cramér-Theorem:
√ Xn − µ d
→ U ∼ N (0, 1)
n
Sn
220
5.2 Eigenschaften von Schätzern
Inhalt von Definition 5.3:
• Ein Schätzer ist eine Statistik
(Stichprobenfunktion)
−→ Es gibt verschiedene Schätzer für den unbekannten Parametervektor θ
Beispiel:
• Es seien X ∼ N (0, σ 2) mit unbekannter Varianz σ 2 und
X1, . . . , Xn eine einfache Stichprobe aus X
• Mögliche Schätzer für θ = σ 2 sind:
n
2
1 X
θ̂1 =
Xi − X
n i=1
bzw.
n
2
1 X
θ̂2 =
Xi − X
n − 1 i=1
221
Wichtige Fragen:
• Welche Qualitätskriterien dienen zur Auswahl eines ’guten’
Schätzers ?
• Wie findet man ’gute’ Schätzer ?
1. Qualitätseigenschaft:
• Konzept der wiederholten Stichprobe:
Ziehe mehrere einfache Stichproben aus X
Betrachte den Schätzer an jeder Stichprobe
Eine ’Mittelung’ der Schätzwerte sollte ’nahe’ am unbekannten Parameter liegen
(keine systematische Verzerrung)
−→ Erwartungstreue eines Schätzers
222
Definition 5.12: (Erwartungstreue, Verzerrung)
Der Schätzer θ̂(X1, . . . , Xn) für den unbekannten Parameter θ
heißt erwartungstreu, falls sein Erwartungswert mit dem zu
schätzenden Parameter θ übereinstimmt, d.h. falls
h
i
E θ̂(X1, . . . , Xn) = θ.
Unter der Verzerrung des Schätzers (engl. Bias) versteht man
den Abstand
Bias(θ̂) = E(θ̂) − θ.
Bemerkungen:
• Übertragung auf den multivariaten Fall möglich
• Bei erwartungstreuen Schätzern ist der Bias gleich Null
223
Jetzt:
• Wichtiges allgemeingültiges Resultat
Satz 5.13: (E-treue Schätzer für E(X) und Var(X))
Es sei X1, . . . , Xn eine Stichprobe aus X und X sei beliebig verteilt
mit unbekanntem Erwartungswert µ = E(X) sowie unbekannter
Varianz σ 2 = Var(X). Dann sind die beiden Schätzer
bzw.
n
1 X
µ̂(X1, . . . , Xn) = X = ·
Xi
n i=1
σ̂ 2(X1, . . . , Xn) = S 2 =
n
2
X
1
Xi − X
·
n − 1 i=1
stets erwartungstreu für die Parameter µ = E(X) und σ 2 =
Var(X).
224
Bemerkungen:
• Beweis: Übungsaufgabe
• Man beachte, dass keine explizite Verteilung für X unterstellt
wird
• Erwartungstreue pflanzt sich bei Parametertransformationen
nicht beliebig
fort, z.B. ist
q
√
2
S = S nicht erwartungstreu für σ = SD(X) = Var(X)
Frage:
• Wie kann man zwei erwartungstreue Schätzer für den unbekannten Parameter θ miteinander vergleichen?
225
Definition 5.14: (Relative Effizienz)
Es seien θ̂1 und θ̂2 zwei erwartungstreue Schätzer für den unbekannten Parameter θ. Dann heißt θ̂1 relativ effizienter als θ̂2,
falls gilt
Var(θ̂1) ≤ Var(θ̂2)
für alle möglichen Parameterwerte für θ und
Var(θ̂1) < Var(θ̂2)
für mindestens einen möglichen Parameterwert für θ.
226
Beispiel:
• Es sei θ = E(X)
• Betrachte die beiden Schätzer
n
1 X
Xi
θ̂1(X1, . . . , Xn) =
n i=1
n
X
1
X1
θ̂2(X1, . . . , Xn) =
+
Xi
2
2(n − 1) i=2
• Welcher Schätzer ist relativ effizienter ?
(Übungsaufgabe)
Frage:
• Wie vergleicht man 2 Schätzer, wenn (mindestens) einer
verzerrt ist?
227
Definition 5.15: (Mittlerer quadratischer Fehler)
Es sei θ̂ ein beliebiger Schätzer für den unbekannten Parameter θ.
Unter dem mittleren quadratischen Fehler (mean-squared error)
des Schätzers versteht man die Maßzahl
MSE(θ̂) = E

θ̂ − θ

2
h
= Var θ̂ + Bias(θ̂)
i2
.
Bemerkungen:
• Bei einem erwartungstreuen Schätzer ist der MSE gleich der
Varianz des Schätzers
• Der MSE eines Schätzers θ̂ hängt i.d.R. vom Wert des unbekannten Parameters θ ab
228
Vergleich beliebiger Schätzer:
• Über ihre MSEs
Definition 5.16: (MSE-Effizienz)
Es seien θ̂1 und θ̂2 zwei beliebige Schätzer für den unbekannten
Parameter θ. Dann heißt θ̂1 MSE-efffizienter als θ̂2, falls gilt
MSE(θ̂1) ≤ MSE(θ̂2)
für alle möglichen Parameterwerte für θ und
MSE(θ̂1) < MSE(θ̂2)
für mindestens einen möglichen Parameterwert für θ.
229
Vergleich erwartungstreuer vs. verzerrter Schätzer
∧
θ 2 ( X 1, K , X n )
∧
θ 1 ( X 1, K , X n )
θ
230
Bemerkungen:
• Oft sind 2 Schätzer für θ nicht im Sinne der MSE-Effizienz
vergleichbar, da sich die MSE-Kurven schneiden
• Es gibt kein allgemeines mathematisches Prinzip zur Bestimmung eines MSE-effizienten Schätzers
• Es gibt aber Methoden, unter allen erwartungstreuen Schätzern
den mit der gleichmäßig geringsten Varianz zu bestimmen
−→ Beschränkung auf erwartungstreue Schätzer
• Diese Methoden nicht Gegenstand der VL
(Theoreme von Rao-Blackwell, Lehmann-Scheffé)
• Hier nur ein wichtiges Resultat:
231
Satz 5.17: (Cramér-Rao Varianzuntergrenze)
Es sei X1, . . . , Xn eine einfache Stichprobe aus X und θ ein zu
schätzender Parameter. Man betrachte die gemeinsame Dichtefunktion der Stichprobe, fX1,...,Xn (x1, . . . , xn), und definiere den
Wert
 !2−1

∂ fX1,...,Xn (X1, . . . , Xn)

.
CR(θ) ≡ E 


∂θ


Unter bestimmten Voraussetzungen gilt dann für jeden beliebigen
erwartungstreuen Schätzer θ̂(X1, . . . , Xn):
Var(θ̂) ≥ CR(θ).
232
Bemerkungen:
• Der Wert CR(θ) ist die geringste Varianz, die ein erwartungstreuer Schätzer haben kann
−→ Optimalitätskriterium für erwartungstreue Schätzer
• Gilt für den erwartungstreuen Schätzer θ̂(X1, . . . , Xn)
Var(θ̂) = CR(θ),
so bezeichnet man θ̂ als UMVUE-Schätzer
(Uniformly Minimum-Variance Unbiased Estimator)
233
2. Qualitätseigenschaft:
• Lasse den Stichprobenumfang wachsen (n → ∞):
Notation: θ̂n(X1, . . . , Xn) = θ̂(X1, . . . , Xn)
Untersuchung der Eigenschaften der asymptotischen Verteilung von θ̂n
−→ Konsistenz eines Schätzers
Definition 5.18: ((Schwache) Konsistenz)
Der Schätzer θ̂n(X1, . . . , Xn) heißt (schwach) konsistent für θ,
falls er nach Wahrscheinlichkeit gegen θ konvergiert, d.h. falls
plim θ̂n(X1, . . . , Xn) = θ.
234
Beispiel:
• Es sei X ∼ N (µ, σ 2) mit σ 2 bekannt (z.B. σ 2 = 1)
• Betrachte 2 Schätzer für µ:
n
1 X
Xi
µ̂n(X1, . . . , Xn) =
n i=1
n
X
2
1
∗
µ̂n(X1, . . . , Xn) =
Xi +
n i=1
n
• µ̂n ist (schwach) konsistent für µ
(Satz 5.6, Folie 210: Schwaches Gesetz der großen Zahl)
235
• µ̂∗n ist (schwach) konsistent für µ
(folgt aus Satz 5.9(a), Folie 215)
• Exakte Verteilung von µ̂n:
µ̂n ∼ N (µ, σ 2/n)
(Lineare Transformation der NV)
• Exakte Verteilung von µ̂∗n:
µ̂∗n ∼ N (µ + 2/n, σ 2/n)
(Lineare Transformation der NV)
236
Dichtefunktionen des Schätzers µ̂n für n = 2, 10, 20 (σ 2 = 1)
8
6
4
2
0
-1
-0.5
µ=0
0.5
1
237
Dichtefunktionen des Schätzers µ̂∗n für n = 2, 10, 20 (σ 2 = 1)
8
6
4
2
0
-0.5 µ=0
0.5
1
1.5
2
2.5
238
Bemerkungen:
• Hinreichende (aber nicht notwendige) Bedingung für Konsistenz:
lim E(θ̂n) = θ
n→∞
(asymptotische Erwartungstreue)
lim Var(θ̂n) = 0
n→∞
• Mögliche Eigenschaften eines Schätzers:
konsistent und erwartungstreu
inkonsistent und erwartungstreu
konsistent und verzerrt
inkonsistent und verzerrt
239
Jetzt:
• Anwendung des zentralen Grenzwertsatzes auf Schätzer
−→ asymptotische Normalität des Schätzers
Definition 5.19: (Asymptotische Normalität)
Ein Schätzer θ̂n(X1, . . . , Xn) für den unbekannten Parameter θ
heißt asymptotisch normalverteilt, falls es eine Folge reeller Zahlen
θ1, θ2, . . . und eine Funktion V (θ) gibt, so dass gilt:
√

d
n · θ̂n − θn → U ∼ N (0, V (θ)).
240
Bemerkungen:
• Andere Schreibweise:
appr.
θ̂n ∼ N (θn, V (θ)/n)
• Zur asymptotischen Normalität gibt es eine multivariate Verallgemeinerung
241
5.3 Schätzmethoden
Bisher:
• Definitionen + Qualitätskriterien für Schätzer
Jetzt:
• Konstruktion von Schätzern
3 traditionelle Verfahren:
• Methode der kleinsten Quadrate (KQ)
• Momenten-Methode (MM)
• Maximum-Likelihood-Methode (ML)
242
Bemerkungen:
• Es gibt weitere Verfahren
(z.B. die verallgemeinerte Momenten-Methode, GMM)
• Hier: hauptsächlich ML-Methode
243
5.3.1 Kleinste-Quadrate-Methode
Historie:
• Eingeführt von
A.M. Legendre (1752-1833)
C.F. Gauß (1777-1855)
Idee:
• Approximiere verrauschte Beobachtungen x1, . . . , xn durch
Funktionen gi(θ1, . . . , θm), i = 1, . . . , n, m < n durch
S(x1, . . . , xn; θ ) =
• KQ-Schätzer ist dann
n
X
[xi − gi(θ )]2 −→ min
θ
i=1
θb (X1, . . . , Xn) = argmin S(X1, . . . , Xn; θ )
244
Bemerkung:
• KQ-Methode ist zentrale Schätztechnik beim linearen Regressionsmodell
(vgl. VLen Ökonometrie I + II)
245
5.3.2 Momenten-Methode
Historie:
• Eingeführt von K. Pearson (1857-1936)
Definition 5.20: (Theoretische und empirische Momente)
(a) Es sei X eine Zufallsvariable mit Erwartungswert E(X). Dann
ist das gewöhnliche theoretische p-te Moment von X (in Zeichen: µ0p) definiert als als
µp0 = E(X p).
Das zentrale theoretische p-te Moment von X (in Zeichen:
µp) ist definiert durch
µp = E {[X − E(X)]p} .
246
(b) Es sei X1, . . . , Xn eine einfache Stichprobe aus X und es
bezeichne X das arithmetische Stichprobenmittel. Dann ist
das gewöhnliche empirische p-te Moment (in Zeichen: µ̂0p)
definiert durch
n
1 X
p
0
Xi .
µ̂p =
n i=1
Das zentrale empirische p-te Moment (in Zeichen: µ̂p) ist
definiert durch
n
p
1 X
µ̂p =
Xi − X .
n i=1
247
Bemerkungen:
• Die theoretischen Momente µ0p und µp wurden bereits in der
Definition 2.21 (Folie 76) eingeführt
• Die empirischen Momente µ̂0p bzw. µ̂p sind Schätzer für die
theoretischen Momente µ0p bzw. µp
• Das arithmetische Stichprobenmittel ist das 1. gewöhnliche
empirische Moment von X1, . . . , Xn
• Die Stichprobenvarianz ist das 2. zentrale empirische Moment von X1, . . . , Xn
248
Ausgangssituation:
• Anhand der einfachen Stichprobe X1, . . . , Xn aus X sollen die
r unbekannten Parameter θ1, . . . , θr geschätzt werden
Grundidee der Momentenmethode:
1. Drücke r theoretische Momente als Funktionen der r unbekannten Parameter aus:
µ01 = g1(θ1, . . . , θr )
...
µ0r = gr (θ1, . . . , θr )
249
2. Drücke die r unbekannten Parameter als Funktionen der r
theoretischen Momente aus:
θ1 = h1(µ1, . . . , µr , µ01, . . . , µ0r )
...
0 , . . . , µ0 )
θr = hr (µ1, . . . , µr , µ1
r
3. Ersetze theoretische durch empirische Momente:
θ̂1(X1, . . . , Xn) = h1(µ̂1, . . . , µ̂r , µ̂01, . . . , µ̂0r )
...
θ̂r (X1, . . . , Xn) = hr (µ̂1, . . . , µ̂r , µ̂01, . . . , µ̂0r )
250
Beispiel: (Exponentialverteilung)
• Die ZV’e X heißt exponentialverteilt mit Parameter λ > 0,
falls X die Dichtefunktion
fX (x) =
(
λe−λx
0
, für x > 0
, sonst
aufweist
• Es gilt:
1
E(X) =
λ
Var(X) =
1
λ2
251
• Momentenschätzer über den Erwartungswert:
1. Wir wissen:
1
0
E(X) = µ1 =
λ
2. Also folgt:
1
λ= 0
µ1
3. Momentenschätzer für λ:
λ̂(X1, . . . , Xn) =
1
Pn
1/n i=1 Xi
252
• Momentenschätzer über die Varianz:
1. Wir wissen:
1
Var(X) = µ2 = 2
λ
2. Also folgt:
λ=
s
1
µ2
3. Momentenschätzer für λ:
v
u
u
λ̂(X1, . . . , Xn) = u
t
1
2
Pn
1/n i=1 Xi − X
−→ Momentenschätzer für einen unbekannten Parameter sind
nicht eindeutig bestimmt
253
Bemerkungen:
• Momentenschätzer sind konsistent, denn
0 , . . . , µ̂0 )
plim θ̂1 = plim h1(µ̂1, . . . , µ̂r , µ̂1
r
0 , . . . , plim µ̂0 )
= h1(plim µ̂1, . . . , plim µ̂r , plim µ̂1
r
= h1(µ1, . . . , µr , µ01, . . . , µ0r )
= θ1
• I.a. sind Momentenschätzer nicht erwartungstreu
• Momentenschätzer sind (i.a.) asymptotisch normalverteilt
• Die asymptotischen Varianzen sind häufig schwer zu bestimmen
254
5.3.3 Maximum-Likelihood-Methode
Historie:
• Eingeführt von Ronald Fisher (1890-1962)
Grundidee:
• Schätze die unbekannten Parameter θ1, . . . , θr derart, dass
die Wahrscheinlichkeit (likelihood) der konkreten Stichprobe
x1, . . . , xn als Funktion der unbekannten Parameter maximal
wird
255
Beispiel:
• Eine Urne enthalte schwarze und weiße Kugeln
• Bekannt ist das Verhältnis der Kugelanzahlen von 3 : 1
• Unbekannt ist, welche der Kugeln häufiger vorkommt
• Ziehe n Kugeln mit Zurücklegen
• X bezeichne die Anzahl schwarzer gezogener Kugeln
• Verteilung von X:
n
P (X = x) =
px(1−p)n−x,
x
(Binomialverteilung)
x ∈ {0, 1, . . . , n}, p ∈ {0.25, 0.75}
256
• p ∈ {0.25, 0.75} ist zu schätzender Parameter
• Ziehe eine Stichprobe vom Umfang n = 3
−→ Mögliche Stichprobenausgänge:
Anzahl schwarze Kugeln: x
P (X = x; p = 0.25)
P (X = x; p = 0.75)
0
1
2
3
27
64
1
64
27
64
9
64
9
64
27
64
1
64
27
64
• Intuitives Schätzen:
Schätze p als den Wert, der die Wskt. der tatsächlichen
Beobachtung x (ex-ante) maximiert:
(
0.25 , für x = 0, 1
0.75 , für x = 2, 3
−→ Maximum-Likelihood-Methode
p̂ =
257
Jetzt:
• Formalisierung der Maximum-Likelihood-Methode
Begriffe:
• Likelihood-, Loglikelihoodfunktion
• Maximum-Likelihood-Schätzer
Definition 5.21: (Likelihoodfunktion)
Die Likelihoodfunktion von n ZV’en X1, . . . , Xn ist definiert als die
gemeinsame Dichte der n ZV’en, fX1,...,Xn (x1, . . . , xn; θ ), jedoch
aufgefasst als eine Funktion des Parametervektors θ .
258
Bemerkungen:
• Sind X1, . . . , Xn eine einfache Stichprobe aus der stetigen
ZV’en X mit Dichtefunktion fX (x, θ ), so ist
fX1,...,Xn (x1, . . . , xn; θ ) =
n
Y
i=1
fXi (xi; θ ) =
n
Y
fX (xi; θ )
i=1
• Die Likelihoodfunktion wird oft mit L(θ ; x1, . . . , xn) oder L(θ )
bezeichnet, also im vorhergehenden Fall
L(θ ; x1, . . . , xn) = L(θ ) =
n
Y
fX (xi; θ )
i=1
259
• Sind die X1, . . . , Xn eine Stichprobe aus einer diskreten ZV’en
X, so ist die Likelihoodfunktion
L(θ ; x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn; θ ) =
n
Y
P (X = xi; θ )
i=1
(Hier: Likelihood = Wahrscheinlichkeit der Stichprobe)
Beispiel:
• Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N (µ, σ 2).
Dann ist θ = (µ, σ 2)0 und
L(θ ; x1, . . . , xn) =
=
n
Y
i=1

√
1
2πσ 2
1
2πσ 2
2
−1/2((x
−µ)/σ)
i
e
n/2

· exp −
n
X

1
2
(x
−
µ)
i
2σ 2 i=1
260
Definition 5.22: (Maximum-Likelihood Schätzer)
Es sei L(θ , x1, . . . , xn) die Likelihoodfunktion der einfachen Stichb (wobei θ
b (x , . . . , x ) von den
probe X1, . . . , Xn. Es bezeichne θ
n
1
Beobachtungen x1, . . . , xn abhängt) denjenigen Parametervektor,
b (X , . . . , X ) der
der L(θ , x1, . . . , xn) maximiert. Dann heißt θ
n
1
Maximum-Likelihood Schätzer von θ .
Bemerkungen:
• Man erhält den ML-Schätzer über die Maximierung der Likelihood-Funktion
b ; x , . . . , x ) = max L(θ ; x , . . . , x )
L(θ
n
n
1
1
θ
und anschließendem Ersetzen der Realisationen x1, . . . , xn
durch die Stichprobenvariablen X1, . . . , Xn
261
• Oft ist die Maximierung der Loglikelihoodfunktion
ln[L(θ ; x1, . . . , xn)]
einfacher
(Man beachte: L(θ ) und ln[L(θ )] haben ihre Maxima an derselben Stelle)
b = (θ̂ , . . . , θ̂ )0 durch Lösen des Gleichungs• Man bestimmt θ
r
1
systems
∂
ln[L(θ ; x1, . . . , xn)] = 0
∂ θ1
...
∂
ln[L(θ ; x1, . . . , xn)] = 0
∂ θr
262
Beispiel:
• Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N (µ, σ 2)
mit Likelihoodfunktion
L(µ, σ 2) =

1
2πσ 2
n/2

· exp −
• Die Loglikelihoodfunktion ist
n
X

1
2
µ)
(x
−
i
2σ 2 i=1
L∗(µ, σ 2) = ln[L(µ, σ 2)]
n
X
n
n
1
2
µ
= − ln(2π) − ln(σ 2) −
x
−
)
(
i
2
2
2σ 2 i=1
263
• Die partiellen Ableitungen lauten
bzw.
n
∂ L∗(µ, σ 2)
1 X
= 2
(xi − µ)
∂µ
σ i=1
n
∂ L∗(µ, σ 2)
1 X
n 1
2
=
−
+
−
µ)
(x
i
∂ σ2
2 σ2
2σ 4 i=1
• Gleich-Null-Setzen, Lösen des Gleichungssystems und Ersetzen der Realisationen durch die Stichprobenvariablen liefert
die ML-Schätzer
n
1 X
Xi = X
µ̂(X1, . . . , Xn) =
n i=1
σ̂ 2(X1, . . . , Xn) =
n
2
1 X
Xi − X
n i=1
264
Eigenschaften der ML-Methode:
• Verteilungsannahmen sind unbedingt notwendig
• Unter bestimmten Bedingungen haben ML-Schätzer sehr angenehme Eigenschaften:
1. Wenn θ̂ der ML-Schätzer für θ ist, dann ist g(θ̂) der MLSchätzer von g(θ)
(Äquivarianz)
2. Konsistenz:
plim θ̂n = θ
265
3. Asymptotische Normalität:

√
d
n θ̂n − θ → U ∼ N (0, V (θ))
4. Asymptotische Effizienz:
V (θ) ist die Cramér-Rao-Untergrenze
5. Berechenbarkeit (numerische Methoden)
6. Quasi-ML-Schätzung:
ML-Schätzer, berechnet auf der Basis normalverteilter
Stichproben, sind robust gegenüber Abweichungen von
normalverteilten Grundgesamtheiten
266