Statistische Modelle und Parameterschätzung

Kapitel 2
Statistische Modelle und
Parameterschätzung
2.1
Statistisches Modell
Die bisher betrachtete Modellierung eines Zufallsexperimentes erforderte insbesondere die Festlegung
einer W-Verteilung. Oft besteht aber gerade über diese Festlegung Unsicherheit. Eine statistische
Modellierung eines Zufallsexperiments berücksichtigt eine Unsicherheit über die wahre Verteilung zumindest innerhalb eines gewissen Rahmens: Es werden einige Parameter in das Verteilungsmodell
aufgenommen, deren Werte offen gelassen werden, also unbekannt sind. Als Aufgabe stellt sich dann:
Auf Grund von Beobachtungsdaten sind (sinnvolle) Parameterschätzungen zu konstruieren.
Beispiele (für statistische Modelle) :
(a) (Bernoulli-Modell)
Ein 0-1-Experiment wird n-mal unabhängig durchgeführt; dabei ist die Wahrscheinlichkeit für
“1” im Einzelexperiment unbekannt.
Modell: n unabhängige 0-1-wertige Zufallsvariablen X1 , . . . , Xn mit Xi ∼ Bi(1, p) für alle
i = 1, . . . , n , wobei p ∈ ( 0 , 1) der Parameter ist. Kurz:
X1 , . . . , Xn u.i.v. ∼ Bi(1, p) ,
p ∈ ( 0 , 1) der Parameter.
(b) (Binomial-Modell)
Als Ergebnis des Zufallsexperiments von oben wird jetzt nur die Anzahl der in den n Einzelexperimenten erzielten “1”en notiert.
Modell: Eine binomial-(n, p)-verteilte Zufallsvariable, wobei p ∈ ( 0 , 1) der Parameter ist. Kurz:
X ∼ Bi(n, p) ,
p ∈ ( 0 , 1) der Parameter.
(c) (Normalverteilungsmodell)
Die Füllmengen von n maschinellen Flaschenabfüllungen werden gemessen.
Modell: n unabhängige identisch normalverteilte Zufallsvariablen X1 , . . . , Xn , wobei die Parameter µ und σ der Normalverteilung unbekannt sind, µ ∈ R und σ ∈ ( 0 , ∞). Kurz:
X1 , . . . , Xn u.i.v. ∼ N(µ, σ) ,
µ ∈ R und σ ∈ ( 0 , ∞) die Parameter.
In allgemeinen Erörterungen wollen wir den oder die Parameter des statistischen Modells mit ϑ bezeichnen, wobei im Fall mehrerer (reeller) Parameter diese im mehrdimensionalen Vektor ϑ ∈ Θ
zusammengefasst sind. In obigen Beispielen:
(a), (b) : ϑ = p ∈ ( 0 , 1 ) ;
(c) : ϑ = (µ, σ) ∈ R ×( 0 , ∞) .
12
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
13
Statistische Standard-Modelle:
(I) Modell mit einer Zufallsvariablen:
X : Ω −→ M eine Zufallsvariable; eine Familie von möglichen Verteilungen der Zufallsvariablen
X ist gegeben : (Pϑ,X )ϑ∈Θ (W-Verteilungen auf M ).
Kurz:
X ∼ Pϑ,X , ϑ ∈ Θ der Parameter.
(II) Modell mit n u.i.v. Zufallsvariablen:
Xi : Ω −→ M , i = 1, . . . , n , unabhängige und identisch verteilte Zufallsvariablen:
X1 , . . . , Xn unabhängig und Pϑ,X1 = Pϑ,X2 = . . . = Pϑ,Xn = Pϑ,X ,
kurz: X1 , . . . , Xn u.i.v. ∼ Pϑ,X , ϑ ∈ Θ der Parameter.
wobei wie in (I) eine Familie (Pϑ,X )ϑ∈Θ von möglichen Verteilungen auf M gegeben ist.
Anmerkung: Der w-theoretische Begriff der Verteilung einer Zufallsvariablen verlangt: Auf Ω ist ebenfalls
eine Familie von W-Verteilungen vorhanden: (Pϑ )ϑ∈Θ ; diese wie auch die Menge Ω wird aber nie spezifiziert;
zu spezifizieren sind M und die Verteilungsfamilie (Pϑ,X )ϑ∈Θ auf M .
Bemerkung:
Wir werden fast ausschließlich Modelle mit reellen Zufallsvariablen betrachten, d.h. M ⊆ R .
2.2
Maximum-Likelihood-Schätzung
Likelihood-Funktion für Standard-Modelle
(I) Modell mit einer Zufallsvariablen: X ∼ Pϑ,X , ϑ ∈ Θ der Parameter.
(a) Diskrete Verteilungen: M ist endlich oder abzählbar-unendlich.
Die Likelihood-Funktion zu einem Wert x ∈ M ist die Funktion
Lx : Θ −→ [ 0 , 1 ] ,
Lx (ϑ) = Pϑ,X (x) .
(b) Stetige Verteilungen: M ⊆ R ein Intervall, jede Verteilung Pϑ,X hat eine Dichtefunktion fϑ .
Die Likelihood-Funktion zu einem Wert x ∈ M ist die Funktion
Lx : Θ −→ [ 0 , ∞) ,
Lx (ϑ) = fϑ (x) .
(II) Modell mit n u.i.v. Zufallsvariablen: X1 , . . . , Xn u.i.v. ∼ Pϑ,X , ϑ ∈ Θ der Parameter.
(a) Diskrete Verteilungen: M ist endlich oder abzählbar-unendlich.
Die Likelihood-Funktion zu Werten x1 , . . . , xn ∈ M ist die Funktion
Lx1 ,...,xn : Θ −→ [ 0 , 1 ] ,
Lx1 ,...,xn (ϑ) =
n
Y
Pϑ,X (xi ) .
i=1
(b) Stetige Verteilungen: M ⊆ R ein Intervall, jede Verteilung Pϑ,X hat eine Dichtefunktion fϑ .
Die Likelihood-Funktion zu Werten x1 , . . . , xn ∈ M ist die Funktion
Lx1 ,...,xn : Θ −→ [ 0 , ∞) ,
Lx1 ,...,xn (ϑ) =
n
Y
fϑ (xi ) .
i=1
Anmerkung: Der Kürze halber schreuben wir statt Lx (ϑ) bzw Lx1 ,...,xn (ϑ) oft einfach L(ϑ).
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
14
Maximum-Likelihood-Schätzung (für den Parameter ϑ des Modells)
In einem Modell (I) :
Eine Maximum-Likelihood-Schätzung für ϑ auf Grund eines Wertes x ∈ M ist ein Parameterwert
b
ϑb = ϑ(x)
∈ Θ , der die Likelihood-Funktion zu x maximiert:
¡ ¢
Lx ϑb = max Lx (ϑ) .
ϑ∈Θ
In einem Modell (II) :
Eine Maximum-Likelihood-Schätzung für ϑ auf Grund von Werten x1 , . . . , xn ∈ M ist ein Parameb 1 , . . . , xn ) ∈ Θ , der die Likelihood-Funktion zu x1 , . . . , xn maximiert:
terwert ϑb = ϑ(x
¡ ¢
Lx1 ,...,xn ϑb = max Lx1 ,...,xn (ϑ) .
ϑ∈Θ
Bemerkung: Log-Likelihood-Funktion
Alle Werte einer Likelihood-Funktion L(ϑ) sind offenbar ≥ 0. Wenn die Likelihood-Funktion strikt
positiv ist, also L(ϑ) > 0 für alle ϑ ∈ Θ, dann können wir auch die logarithmierte Likelihood-Funktion
bilden, die sog. Log-Likelihood-Funktion,
`(ϑ) = ln L(ϑ) ,
ϑ ∈ Θ.
Dann haben die beiden Probleme
L(ϑ) −→ max ! und `(ϑ) −→ max !
ϑ∈Θ
ϑ∈Θ
dieselben Optimallösungen für ϑ, so dass eine Maximum-Likelihood-Schätzung auch als Maximumstelle
der Log-Likelihood-Funktion bestimmt werden kann.
Beispiele (für ML-Schätzungen) :
(a) (Bernoulli-Modell)
X1 , . . . , Xn u.i.v. ∼ Bi(1, p) , p ∈ ( 0 , 1) der Parameter.
Likelihood-Funktion und Log-Likelihood-Funktion zu Werten x1 , . . . , xn ∈ {0, 1} :
L(p) = p
Pn
i=1
xi
(1 − p)n−
Pn
i=1
xi
,
`(p) =
³P
n
i=1
es resultiert die ML-Schätzung:
pb = x =
1
n
n
P
i=1
´
³
´
n
P
xi ln(p) + n −
xi ln(1 − p) ;
i=1
xi .
Anmerkung: Da die Werte xi in {0, 1} sind, gilt:
n
P
i=1
xi = (absolute) Häufigkeit von ‘1’ in x1 , . . . , xn ,
x = relative Häufigkeit von ‘1’ in x1 , . . . , xn .
(b) (Binomial-Modell)
X ∼ Bi(n, p) , p ∈ ( 0 , 1) der Parameter.
Likelihood-Funktion und Log-Likelihood-Funktion zu einem Wert x ∈ {0, 1, . . . , n} :
µ ¶
µ ¶
n x
n
n−x
L(p) =
p (1 − p)
,
`(p) = ln
+ x ln(p) + (n − x) ln(1 − p) ;
x
x
es resultiert die ML-Schätzung: pb = x/n .
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
15
(c) (Normalverteilungsmodell)
X1 , . . . , Xn u.i.v. ∼ N(µ, σ) , (n ≥ 2) , µ ∈ R und σ ∈ ( 0 , ∞) die Parameter.
Likelihood-Funktion und Log-Likelihood-Funktion zu Werten x1 , . . . , xn ∈ R :
L(µ, σ) =
³ 1 h x − µ i2 ´
1
i
√
,
exp −
2
σ
σ 2π
i=1
n
Y
n
n
1 X
`(µ, σ) = − ln(2π) − n ln(σ) −
(xi − µ)2 ;
2
2σ 2
i=1
es resultiert die ML-Schätzung:
s
µ
b = x,
1
n
σ
b =
n
P
(xi − x)2 .
i=1
(d) (Exponentialverteilungsmodell)
X1 , . . . , Xn u.i.v. ∼ Exp(λ) , λ ∈ ( 0 , ∞) der Parameter.
Likelihood-Funktion und Log-Likelihood-Funktion zu Werten x1 , . . . , xn ∈ ( 0 , ∞) :
L(λ) =
n
Y
³
´
n
¡
P
λ exp −λxi ) = λn exp −λ
xi ,
i=1
i=1
`(λ) = n ln(λ) − λ
n
P
i=1
xi ;
b = 1/x .
es resultiert die ML-Schätzung: λ
2.3
Statistische Eigenschaften von Schätzern
Statistische Eigenschaften einer Parameterschätzung (z.B. ML-Schätzung) beziehen sich stets auf das
“globale” Verhalten der Schätzung über alle möglichen Werte x bzw. x1 , . . . , xn der Zufallsvariablen
des Modells. Wir sprechen daher von einem Schätzer oder einer Schätzfunktion, womit die Schätzung
als Funktion der Zufallsvariablen gemeint ist.
Wir beschränken uns hier auf Schätzer für reelle Parameter eines statistischen Modells, z.B. für eine
Komponente (etwa µ) des mehrdimensionalen Modellparameters ϑ (etwa ϑ = (µ, σ)). Allgemein:
Bezeichne γ = γ(ϑ) einen zu schätzenden reellen Parameter eines statistischen Modells.
Schätzer für einen reellen Parameter
Unter einem Schätzer γ
b für einen reellen Parameter γ = γ(ϑ) eines statistischen Modells versteht man
eine reelle Funktion der Zufallsvariablen des Modells:
(I) Im Modell mit einer Zufallsvariablen X : Ω −→ M heißt das:
γ
b = g(X) ,
wobei g : M −→ R ;
(II) im Modell mit n u.i.v. Zufallsvariablen Xi : Ω −→ M (i = 1, . . . , n) heißt das:
γ
b = g(X1 , . . . , Xn ) ,
wobei g : M n −→ R .
Anmerkungen: 1. Ein Schätzer ist insbesondere eine reelle Zufallsvariable.
2. Wenn in (I) die Zufallsvariable X den Wert x liefert, dann liefert der Schätzer γ
b = g(X)
die Schätzung g(x) für γ. Analog in (II).
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
16
Beispiele: Schätzer für reelle Parameter aus ML-Schätzungen ; (“ML-Schätzer reeller Parameter”)
(a) (Bernoulli-Modell)
X1 , . . . , Xn u.i.v. ∼ Bi(1, p) , p ∈ ( 0 , 1) der Parameter.
n
P
Der ML-Schätzer für p ist pb = X = n1
Xi ;
i=1
hier also: pb = g(X1 , . . . , Xn ) mit der Funktion g : {0, 1}n −→ R , g(x1 , . . . , xn ) = x =
1
n
n
P
i=1
xi .
(b) (Binomial-Modell)
X ∼ Bi(n, p) , p ∈ ( 0 , 1) der Parameter.
Der ML-Schätzer für p ist pb = X/n ;
hier also: pb = g(X) mit der Funktion g : {0, 1, . . . , n} −→ R , g(x) = x/n .
(c) (Normalverteilungsmodell)
X1 , . . . , Xn u.i.v. ∼ N(µ, σ) , (n ≥ 2) ,
Der ML-Schätzer für µ ist µ
b = X;
µ ∈ R und σ ∈ ( 0 , ∞) die Parameter.
hier also: µ
b = g(X1 , . . . , Xn ) mit der Funktion g : Rn −→ R , g(x1 , . . . , xn ) = x .
Der ML-Schätzer für σ 2 ist
σ
b2 =
1
n
n
P
(Xi − X)2 ;
i=1
hier also: σ
b2 = g(X1 , . . . , Xn ) mit g : Rn −→ R , g(x1 , . . . , xn ) =
s
Der ML-Schätzer für σ ist σ
b =
1
n
n
P
1
n
n
P
(xi − x)2 .
i=1
(Xi − X)2 .
i=1
(d) (Exponentialverteilungsmodell)
X1 , . . . , Xn u.i.v. ∼ Exp(λ) , λ ∈ ( 0 , ∞) der Parameter.
b = 1/X ;
Der ML-Schätzer für λ ist λ
b = g(X1 , . . . , Xn ) mit g : (0 , ∞)n −→ R , g(x1 , . . . , xn ) = 1/x .
hier also: λ
Der ML-Schätzer für µ = 1/λ ist µ
b = X.
Da ein Schätzer γ
b insbesondere eine reelle Zufallsvariable ist, können wir Erwartungswert und Varianz
und andere Kenngrößen von γ
b betrachten. Allerdings ist zu berücksichtigen: Diese Größen hängen
i.A. vom Parameter ϑ des Modells ab, da
γ
b = g(X) bzw. γ
b = g(X1 , . . . , Xn ) ,
und die Verteilungen der Zufallsvariablen hängen vom Parameter ϑ ab. Wir bringen dies zum Ausdruck
durch Schreibweisen wie Eϑ (b
γ ) , Varϑ (b
γ) .
Bias und Erwartungstreue (Unbiasedness)
Für einen Schätzer γ
b für einen reellen Parameter γ = γ(ϑ) heißt
¡
¢
B γ
b ; ϑ = Eϑ ( γ
b ) − γ(ϑ)
der Bias (die Verzerrung) – oder genauer: die Bias-Funktion (als Funktion von ϑ).
Der Schätzer γ
b heißt erwartungstreu (oder unverzerrt, engl. unbiased), wenn gilt:
¡
¢
B γ
b ; ϑ = 0 für alle ϑ ∈ Θ,
oder äquivalent formuliert:
Eϑ ( γ
b) = γ(ϑ) für alle ϑ ∈ Θ.
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
17
Beispiele:
(a) Im (Bernoulli-Modell): pb = X ist ein erwartungstreuer Schätzer für p .
(b) Im Binomial-Modell: pb = X/n ist ein erwartungstreuer Schätzer für p .
(c) Im Normalverteilungsmodell:
µ
b = X ist ein erwartungstreuer Schätzer für µ ;
n
P
der Bias des Schätzers σ
b2 = n1
(Xi − X)2 für den Parameter σ 2 ist
¡ 2
¢
B σ
b ; µ, σ = −σ 2 /n .
i=1
ein erwartungstreuer Schätzer für σ 2 ist s2 =
1
n−1
n
P
(Xi − X)2 .
i=1
(d) Im Exponentialverteilungsmodell: µ
b = X ist ein erwartungstreuer schätzer für µ = 1/λ .
Allgemeineres Resultat:
Sei ein Modell mit n u.i.v. Zufallsvariablen gegeben: X1 , . . . , Xn u.i.v. ∼ Pϑ,X , ϑ ∈ Θ .
Ein erwartungstreuer Schätzer für den Parameter µ = µ(ϑ) = Eϑ (X) (Erwartungswert) ist µ
b = X.
Ein erwartungstreuer Schätzer für den Parameter σ 2 = σ 2 (ϑ) = Varϑ (X) (Varianz) ist
n
1 P
s2 = n−1
(Xi − X)2 .
i=1
Effizienz-Vergleich von erwartungstreuen Schätzern
(i) Seien γ
b[1] und γ
b[2] zwei erwartungstreue Schätzer für γ = γ(ϑ).
Der Schätzer γ
b[1] heißt effizienter als der Schätzer γ
b[2] , wenn
¡ [2] ¢
¡ [1] ¢
b
für alle ϑ ∈ Θ .
b
≤ Varϑ γ
Varϑ γ
(ii) Ein erwartungstreuer Schätzer γ
b∗ für γ heißt effizientester erwartungstreuer Schätzer (oder
engl.: UMVUE = Uniformly Minimum Variance Unbiased Estimator) , wenn γ
b∗ effizienter als jeder
andere erwartungstreue Schätzer γ
b für γ ist.
Bemerkung: Effizienteste erwartungstreue Schätzer existieren in vielen Fällen
(a) Im Bernoulli-Modell: pb = X ist UMVUE für p .
(b) Im Binomial-Modell: pb = X/n ist UMVUE für p .
(c) Im Normalverteilungsmodell: µ
b = X ist UMVUE für µ ; s2 ist UMVUE für σ 2 .
(d) Im Exponentialverteilungsmodell: µ
b = X ist UMVUE für µ = 1/λ .
Auch Schätzer, die nicht erwartungstreu sind, können durchaus effizient sein und bisweilen sogar
effizienter als ein UMVUE. Zur Beurteilung der Effizienz auch nicht-erwartungstreuer Schätzer ist der
Mean Squared Error (der mittlere quadrierte Fehler) geeignet.
Mean Squared Error (MSE) eines Schätzers
Für einen Schätzer γ
b für einen reellen Parameter γ = γ(ϑ) heißt
³£
¡
¢
¤2 ´
MSE γ
b ; ϑ = Eϑ γ
b − γ(ϑ)
der Mean-Squared Error (MSE) – oder genauer: die MSE-Funktion (als Funktion von ϑ).
Zwischen MSE, Varianz und Bias des Schätzers γ
b besteht der folgende Zusammmenhang:
¡
¢
¡ ¢
£
¤2
MSE γ
b ; ϑ = Varϑ γ
b + B(b
γ ; ϑ) .
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
2.4
18
Ausblick: Andere statistische Modelle
Zwei-Stichproben-Modelle:
Zufallsvariablen:
Xi : Ω −→ M , i = 1, . . . , n1 , und Yj : Ω −→ M , j = 1, . . . , n2 ,
X1 , . . . , Xn1 , Y1 , . . . , Yn2
sind unabhängig,
X1 , . . . , Xn1 u.i.v. ∼ Pϑ,X und Y1 , . . . , Yn2 u.i.v. ∼ Pϑ,Y ,
ϑ ∈ Θ der Parameter,
¡
¢
wobei eine Familie Pϑ,X , Pϑ,Y ϑ∈Θ von Paaren möglicher Verteilungen gegeben ist.
Beispiel: Zwei-Stichproben-Normalverteilungsmodell mit gleicher Varianz
X1 , . . . , Xn1 u.i.v. ∼ N(µ1 , σ) und Y1 , . . . , Yn2 u.i.v. ∼ N(µ2 , σ),
ϑ = (µ1 , µ2 , σ) ∈ R2 ×( 0 , ∞) der Parameter.
Als Likelihood-Funktion zu gegebenen Werten x1 , . . . , xn1 , y1 , . . . , yn2 definiert man:
L(µ1 , µ2 , σ) =
n1
³Y
fµ1 ,σ (xi )
n2
´³Y
i=1
´
fµ2 ,σ (yj )
,
j=1
wobei mit fµ,σ die Dichtefunktion von N(µ, σ) bezeichnet sei. Man erhält die Log-Likelihood-Funktion:
2
ln(2π) − (n1 + n2 ) ln(σ) −
`(µ1 , µ2 , σ) = − n1 +n
2
1
2σ 2
³P
n1
(xi − µ1 )2 +
i=1
n2
P
´
(yj − µ2 )2 .
j=1
Als ML-Schätzung ergibt sich :
n1
1 X
xi ,
µ
b1 = x =
n1
i=1
n2
1 X
µ
b2 = y =
yj ,
n2
s
σ
b =
1
n1 +n2
j=1
³P
n1
(xi − x)2 +
i=1
n2
P
´
(yj − y)2 .
j=1
b2 = Y
Im Rahmen der statistischen Theorie der Schätzer erweisen sich die Schätzer µ
b1 = X und µ
als erwartungstreu für µ1 bzw. für µ2 , und der Schätzer
s2 =
1
n1 +n2 −2
³P
n1
(Xi − X)2 +
i=1
n2
P
(Yj − Y )2
´
j=1
als erwartungstreu für σ 2 (sofern n1 + n2 ≥ 3).
Entsprechend lassen sich k-Stichproben-Modelle betrachten (k ≥ 2) . Eine weitere sehr wichtige Klasse
statistischer Modelle sind die (linearen) Regressionsmodelle, die in Kapitel 5 behandelt werden.