Statistische Modelle und Parameterschätzung

Werbung
Kapitel 2
Statistische Modelle und
Parameterschätzung
2.1
Statistisches Modell
Die bisher betrachtete Modellierung eines Zufallsexperimentes erforderte insbesondere die Festlegung
einer W-Verteilung. Oft besteht aber gerade über diese Festlegung Unsicherheit. Eine statistische
Modellierung eines Zufallsexperiments berücksichtigt eine Unsicherheit über die wahre Verteilung zumindest innerhalb eines gewissen Rahmens: Es werden einige Parameter in das Verteilungsmodell
aufgenommen, deren Werte offen gelassen werden, also unbekannt sind. Als Aufgabe stellt sich dann:
Auf Grund von Beobachtungsdaten sind (sinnvolle) Parameterschätzungen zu konstruieren.
Beispiele (für statistische Modelle) :
(a) (Bernoulli-Modell)
Ein 0-1-Experiment wird n-mal unabhängig durchgeführt; dabei ist die Wahrscheinlichkeit für
“1” im Einzelexperiment unbekannt.
Modell: n unabhängige 0-1-wertige Zufallsvariablen X1 , . . . , Xn mit Xi ∼ Bi(1, p) für alle
i = 1, . . . , n , wobei p ∈ ( 0 , 1) der Parameter ist. Kurz:
X1 , . . . , Xn u.i.v. ∼ Bi(1, p) ,
p ∈ ( 0 , 1) der Parameter.
(b) (Binomial-Modell)
Als Ergebnis des Zufallsexperiments von oben wird jetzt nur die Anzahl der in den n Einzelexperimenten erzielten “1”en notiert.
Modell: Eine binomial-(n, p)-verteilte Zufallsvariable, wobei p ∈ ( 0 , 1) der Parameter ist. Kurz:
X ∼ Bi(n, p) ,
p ∈ ( 0 , 1) der Parameter.
(c) (Normalverteilungsmodell)
Die Füllmengen von n maschinellen Flaschenabfüllungen werden gemessen.
Modell: n unabhängige identisch normalverteilte Zufallsvariablen X1 , . . . , Xn , wobei die Parameter µ und σ der Normalverteilung unbekannt sind, µ ∈ R und σ ∈ ( 0 , ∞). Kurz:
X1 , . . . , Xn u.i.v. ∼ N(µ, σ) ,
µ ∈ R und σ ∈ ( 0 , ∞) die Parameter.
In allgemeinen Erörterungen wollen wir den oder die Parameter des statistischen Modells mit ϑ bezeichnen, wobei im Fall mehrerer (reeller) Parameter diese im mehrdimensionalen Vektor ϑ ∈ Θ
zusammengefasst sind. In obigen Beispielen:
(a), (b) : ϑ = p ∈ ( 0 , 1 ) ;
(c) : ϑ = (µ, σ) ∈ R ×( 0 , ∞) .
12
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
13
Statistische Standard-Modelle:
(I) Modell mit einer Zufallsvariablen:
X : Ω −→ M eine Zufallsvariable; eine Familie von möglichen Verteilungen der Zufallsvariablen
X ist gegeben : (Pϑ,X )ϑ∈Θ (W-Verteilungen auf M ).
Kurz:
X ∼ Pϑ,X , ϑ ∈ Θ der Parameter.
(II) Modell mit n u.i.v. Zufallsvariablen:
Xi : Ω −→ M , i = 1, . . . , n , unabhängige und identisch verteilte Zufallsvariablen:
X1 , . . . , Xn unabhängig und Pϑ,X1 = Pϑ,X2 = . . . = Pϑ,Xn = Pϑ,X ,
kurz: X1 , . . . , Xn u.i.v. ∼ Pϑ,X , ϑ ∈ Θ der Parameter.
wobei wie in (I) eine Familie (Pϑ,X )ϑ∈Θ von möglichen Verteilungen auf M gegeben ist.
Anmerkung: Der w-theoretische Begriff der Verteilung einer Zufallsvariablen verlangt: Auf Ω ist ebenfalls
eine Familie von W-Verteilungen vorhanden: (Pϑ )ϑ∈Θ ; diese wie auch die Menge Ω wird aber nie spezifiziert;
zu spezifizieren sind M und die Verteilungsfamilie (Pϑ,X )ϑ∈Θ auf M .
Bemerkung:
Wir werden fast ausschließlich Modelle mit reellen Zufallsvariablen betrachten, d.h. M ⊆ R .
2.2
Maximum-Likelihood-Schätzung
Likelihood-Funktion für Standard-Modelle
(I) Modell mit einer Zufallsvariablen: X ∼ Pϑ,X , ϑ ∈ Θ der Parameter.
(a) Diskrete Verteilungen: M ist endlich oder abzählbar-unendlich.
Die Likelihood-Funktion zu einem Wert x ∈ M ist die Funktion
Lx : Θ −→ [ 0 , 1 ] ,
Lx (ϑ) = Pϑ,X (x) .
(b) Stetige Verteilungen: M ⊆ R ein Intervall, jede Verteilung Pϑ,X hat eine Dichtefunktion fϑ .
Die Likelihood-Funktion zu einem Wert x ∈ M ist die Funktion
Lx : Θ −→ [ 0 , ∞) ,
Lx (ϑ) = fϑ (x) .
(II) Modell mit n u.i.v. Zufallsvariablen: X1 , . . . , Xn u.i.v. ∼ Pϑ,X , ϑ ∈ Θ der Parameter.
(a) Diskrete Verteilungen: M ist endlich oder abzählbar-unendlich.
Die Likelihood-Funktion zu Werten x1 , . . . , xn ∈ M ist die Funktion
Lx1 ,...,xn : Θ −→ [ 0 , 1 ] ,
Lx1 ,...,xn (ϑ) =
n
Y
Pϑ,X (xi ) .
i=1
(b) Stetige Verteilungen: M ⊆ R ein Intervall, jede Verteilung Pϑ,X hat eine Dichtefunktion fϑ .
Die Likelihood-Funktion zu Werten x1 , . . . , xn ∈ M ist die Funktion
Lx1 ,...,xn : Θ −→ [ 0 , ∞) ,
Lx1 ,...,xn (ϑ) =
n
Y
fϑ (xi ) .
i=1
Anmerkung: Der Kürze halber schreuben wir statt Lx (ϑ) bzw Lx1 ,...,xn (ϑ) oft einfach L(ϑ).
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
14
Maximum-Likelihood-Schätzung (für den Parameter ϑ des Modells)
In einem Modell (I) :
Eine Maximum-Likelihood-Schätzung für ϑ auf Grund eines Wertes x ∈ M ist ein Parameterwert
b
ϑb = ϑ(x)
∈ Θ , der die Likelihood-Funktion zu x maximiert:
¡ ¢
Lx ϑb = max Lx (ϑ) .
ϑ∈Θ
In einem Modell (II) :
Eine Maximum-Likelihood-Schätzung für ϑ auf Grund von Werten x1 , . . . , xn ∈ M ist ein Parameb 1 , . . . , xn ) ∈ Θ , der die Likelihood-Funktion zu x1 , . . . , xn maximiert:
terwert ϑb = ϑ(x
¡ ¢
Lx1 ,...,xn ϑb = max Lx1 ,...,xn (ϑ) .
ϑ∈Θ
Bemerkung: Log-Likelihood-Funktion
Alle Werte einer Likelihood-Funktion L(ϑ) sind offenbar ≥ 0. Wenn die Likelihood-Funktion strikt
positiv ist, also L(ϑ) > 0 für alle ϑ ∈ Θ, dann können wir auch die logarithmierte Likelihood-Funktion
bilden, die sog. Log-Likelihood-Funktion,
`(ϑ) = ln L(ϑ) ,
ϑ ∈ Θ.
Dann haben die beiden Probleme
L(ϑ) −→ max ! und `(ϑ) −→ max !
ϑ∈Θ
ϑ∈Θ
dieselben Optimallösungen für ϑ, so dass eine Maximum-Likelihood-Schätzung auch als Maximumstelle
der Log-Likelihood-Funktion bestimmt werden kann.
Beispiele (für ML-Schätzungen) :
(a) (Bernoulli-Modell)
X1 , . . . , Xn u.i.v. ∼ Bi(1, p) , p ∈ ( 0 , 1) der Parameter.
Likelihood-Funktion und Log-Likelihood-Funktion zu Werten x1 , . . . , xn ∈ {0, 1} :
L(p) = p
Pn
i=1
xi
(1 − p)n−
Pn
i=1
xi
,
`(p) =
³P
n
i=1
es resultiert die ML-Schätzung:
pb = x =
1
n
n
P
i=1
´
³
´
n
P
xi ln(p) + n −
xi ln(1 − p) ;
i=1
xi .
Anmerkung: Da die Werte xi in {0, 1} sind, gilt:
n
P
i=1
xi = (absolute) Häufigkeit von ‘1’ in x1 , . . . , xn ,
x = relative Häufigkeit von ‘1’ in x1 , . . . , xn .
(b) (Binomial-Modell)
X ∼ Bi(n, p) , p ∈ ( 0 , 1) der Parameter.
Likelihood-Funktion und Log-Likelihood-Funktion zu einem Wert x ∈ {0, 1, . . . , n} :
µ ¶
µ ¶
n x
n
n−x
L(p) =
p (1 − p)
,
`(p) = ln
+ x ln(p) + (n − x) ln(1 − p) ;
x
x
es resultiert die ML-Schätzung: pb = x/n .
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
15
(c) (Normalverteilungsmodell)
X1 , . . . , Xn u.i.v. ∼ N(µ, σ) , (n ≥ 2) , µ ∈ R und σ ∈ ( 0 , ∞) die Parameter.
Likelihood-Funktion und Log-Likelihood-Funktion zu Werten x1 , . . . , xn ∈ R :
L(µ, σ) =
³ 1 h x − µ i2 ´
1
i
√
,
exp −
2
σ
σ 2π
i=1
n
Y
n
n
1 X
`(µ, σ) = − ln(2π) − n ln(σ) −
(xi − µ)2 ;
2
2σ 2
i=1
es resultiert die ML-Schätzung:
s
µ
b = x,
1
n
σ
b =
n
P
(xi − x)2 .
i=1
(d) (Exponentialverteilungsmodell)
X1 , . . . , Xn u.i.v. ∼ Exp(λ) , λ ∈ ( 0 , ∞) der Parameter.
Likelihood-Funktion und Log-Likelihood-Funktion zu Werten x1 , . . . , xn ∈ ( 0 , ∞) :
L(λ) =
n
Y
³
´
n
¡
P
λ exp −λxi ) = λn exp −λ
xi ,
i=1
i=1
`(λ) = n ln(λ) − λ
n
P
i=1
xi ;
b = 1/x .
es resultiert die ML-Schätzung: λ
2.3
Statistische Eigenschaften von Schätzern
Statistische Eigenschaften einer Parameterschätzung (z.B. ML-Schätzung) beziehen sich stets auf das
“globale” Verhalten der Schätzung über alle möglichen Werte x bzw. x1 , . . . , xn der Zufallsvariablen
des Modells. Wir sprechen daher von einem Schätzer oder einer Schätzfunktion, womit die Schätzung
als Funktion der Zufallsvariablen gemeint ist.
Wir beschränken uns hier auf Schätzer für reelle Parameter eines statistischen Modells, z.B. für eine
Komponente (etwa µ) des mehrdimensionalen Modellparameters ϑ (etwa ϑ = (µ, σ)). Allgemein:
Bezeichne γ = γ(ϑ) einen zu schätzenden reellen Parameter eines statistischen Modells.
Schätzer für einen reellen Parameter
Unter einem Schätzer γ
b für einen reellen Parameter γ = γ(ϑ) eines statistischen Modells versteht man
eine reelle Funktion der Zufallsvariablen des Modells:
(I) Im Modell mit einer Zufallsvariablen X : Ω −→ M heißt das:
γ
b = g(X) ,
wobei g : M −→ R ;
(II) im Modell mit n u.i.v. Zufallsvariablen Xi : Ω −→ M (i = 1, . . . , n) heißt das:
γ
b = g(X1 , . . . , Xn ) ,
wobei g : M n −→ R .
Anmerkungen: 1. Ein Schätzer ist insbesondere eine reelle Zufallsvariable.
2. Wenn in (I) die Zufallsvariable X den Wert x liefert, dann liefert der Schätzer γ
b = g(X)
die Schätzung g(x) für γ. Analog in (II).
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
16
Beispiele: Schätzer für reelle Parameter aus ML-Schätzungen ; (“ML-Schätzer reeller Parameter”)
(a) (Bernoulli-Modell)
X1 , . . . , Xn u.i.v. ∼ Bi(1, p) , p ∈ ( 0 , 1) der Parameter.
n
P
Der ML-Schätzer für p ist pb = X = n1
Xi ;
i=1
hier also: pb = g(X1 , . . . , Xn ) mit der Funktion g : {0, 1}n −→ R , g(x1 , . . . , xn ) = x =
1
n
n
P
i=1
xi .
(b) (Binomial-Modell)
X ∼ Bi(n, p) , p ∈ ( 0 , 1) der Parameter.
Der ML-Schätzer für p ist pb = X/n ;
hier also: pb = g(X) mit der Funktion g : {0, 1, . . . , n} −→ R , g(x) = x/n .
(c) (Normalverteilungsmodell)
X1 , . . . , Xn u.i.v. ∼ N(µ, σ) , (n ≥ 2) ,
Der ML-Schätzer für µ ist µ
b = X;
µ ∈ R und σ ∈ ( 0 , ∞) die Parameter.
hier also: µ
b = g(X1 , . . . , Xn ) mit der Funktion g : Rn −→ R , g(x1 , . . . , xn ) = x .
Der ML-Schätzer für σ 2 ist
σ
b2 =
1
n
n
P
(Xi − X)2 ;
i=1
hier also: σ
b2 = g(X1 , . . . , Xn ) mit g : Rn −→ R , g(x1 , . . . , xn ) =
s
Der ML-Schätzer für σ ist σ
b =
1
n
n
P
1
n
n
P
(xi − x)2 .
i=1
(Xi − X)2 .
i=1
(d) (Exponentialverteilungsmodell)
X1 , . . . , Xn u.i.v. ∼ Exp(λ) , λ ∈ ( 0 , ∞) der Parameter.
b = 1/X ;
Der ML-Schätzer für λ ist λ
b = g(X1 , . . . , Xn ) mit g : (0 , ∞)n −→ R , g(x1 , . . . , xn ) = 1/x .
hier also: λ
Der ML-Schätzer für µ = 1/λ ist µ
b = X.
Da ein Schätzer γ
b insbesondere eine reelle Zufallsvariable ist, können wir Erwartungswert und Varianz
und andere Kenngrößen von γ
b betrachten. Allerdings ist zu berücksichtigen: Diese Größen hängen
i.A. vom Parameter ϑ des Modells ab, da
γ
b = g(X) bzw. γ
b = g(X1 , . . . , Xn ) ,
und die Verteilungen der Zufallsvariablen hängen vom Parameter ϑ ab. Wir bringen dies zum Ausdruck
durch Schreibweisen wie Eϑ (b
γ ) , Varϑ (b
γ) .
Bias und Erwartungstreue (Unbiasedness)
Für einen Schätzer γ
b für einen reellen Parameter γ = γ(ϑ) heißt
¡
¢
B γ
b ; ϑ = Eϑ ( γ
b ) − γ(ϑ)
der Bias (die Verzerrung) – oder genauer: die Bias-Funktion (als Funktion von ϑ).
Der Schätzer γ
b heißt erwartungstreu (oder unverzerrt, engl. unbiased), wenn gilt:
¡
¢
B γ
b ; ϑ = 0 für alle ϑ ∈ Θ,
oder äquivalent formuliert:
Eϑ ( γ
b) = γ(ϑ) für alle ϑ ∈ Θ.
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
17
Beispiele:
(a) Im (Bernoulli-Modell): pb = X ist ein erwartungstreuer Schätzer für p .
(b) Im Binomial-Modell: pb = X/n ist ein erwartungstreuer Schätzer für p .
(c) Im Normalverteilungsmodell:
µ
b = X ist ein erwartungstreuer Schätzer für µ ;
n
P
der Bias des Schätzers σ
b2 = n1
(Xi − X)2 für den Parameter σ 2 ist
¡ 2
¢
B σ
b ; µ, σ = −σ 2 /n .
i=1
ein erwartungstreuer Schätzer für σ 2 ist s2 =
1
n−1
n
P
(Xi − X)2 .
i=1
(d) Im Exponentialverteilungsmodell: µ
b = X ist ein erwartungstreuer schätzer für µ = 1/λ .
Allgemeineres Resultat:
Sei ein Modell mit n u.i.v. Zufallsvariablen gegeben: X1 , . . . , Xn u.i.v. ∼ Pϑ,X , ϑ ∈ Θ .
Ein erwartungstreuer Schätzer für den Parameter µ = µ(ϑ) = Eϑ (X) (Erwartungswert) ist µ
b = X.
Ein erwartungstreuer Schätzer für den Parameter σ 2 = σ 2 (ϑ) = Varϑ (X) (Varianz) ist
n
1 P
s2 = n−1
(Xi − X)2 .
i=1
Effizienz-Vergleich von erwartungstreuen Schätzern
(i) Seien γ
b[1] und γ
b[2] zwei erwartungstreue Schätzer für γ = γ(ϑ).
Der Schätzer γ
b[1] heißt effizienter als der Schätzer γ
b[2] , wenn
¡ [2] ¢
¡ [1] ¢
b
für alle ϑ ∈ Θ .
b
≤ Varϑ γ
Varϑ γ
(ii) Ein erwartungstreuer Schätzer γ
b∗ für γ heißt effizientester erwartungstreuer Schätzer (oder
engl.: UMVUE = Uniformly Minimum Variance Unbiased Estimator) , wenn γ
b∗ effizienter als jeder
andere erwartungstreue Schätzer γ
b für γ ist.
Bemerkung: Effizienteste erwartungstreue Schätzer existieren in vielen Fällen
(a) Im Bernoulli-Modell: pb = X ist UMVUE für p .
(b) Im Binomial-Modell: pb = X/n ist UMVUE für p .
(c) Im Normalverteilungsmodell: µ
b = X ist UMVUE für µ ; s2 ist UMVUE für σ 2 .
(d) Im Exponentialverteilungsmodell: µ
b = X ist UMVUE für µ = 1/λ .
Auch Schätzer, die nicht erwartungstreu sind, können durchaus effizient sein und bisweilen sogar
effizienter als ein UMVUE. Zur Beurteilung der Effizienz auch nicht-erwartungstreuer Schätzer ist der
Mean Squared Error (der mittlere quadrierte Fehler) geeignet.
Mean Squared Error (MSE) eines Schätzers
Für einen Schätzer γ
b für einen reellen Parameter γ = γ(ϑ) heißt
³£
¡
¢
¤2 ´
MSE γ
b ; ϑ = Eϑ γ
b − γ(ϑ)
der Mean-Squared Error (MSE) – oder genauer: die MSE-Funktion (als Funktion von ϑ).
Zwischen MSE, Varianz und Bias des Schätzers γ
b besteht der folgende Zusammmenhang:
¡
¢
¡ ¢
£
¤2
MSE γ
b ; ϑ = Varϑ γ
b + B(b
γ ; ϑ) .
Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12
Kapitel 2: Statistische Modelle und Parameterschätzung
2.4
18
Ausblick: Andere statistische Modelle
Zwei-Stichproben-Modelle:
Zufallsvariablen:
Xi : Ω −→ M , i = 1, . . . , n1 , und Yj : Ω −→ M , j = 1, . . . , n2 ,
X1 , . . . , Xn1 , Y1 , . . . , Yn2
sind unabhängig,
X1 , . . . , Xn1 u.i.v. ∼ Pϑ,X und Y1 , . . . , Yn2 u.i.v. ∼ Pϑ,Y ,
ϑ ∈ Θ der Parameter,
¡
¢
wobei eine Familie Pϑ,X , Pϑ,Y ϑ∈Θ von Paaren möglicher Verteilungen gegeben ist.
Beispiel: Zwei-Stichproben-Normalverteilungsmodell mit gleicher Varianz
X1 , . . . , Xn1 u.i.v. ∼ N(µ1 , σ) und Y1 , . . . , Yn2 u.i.v. ∼ N(µ2 , σ),
ϑ = (µ1 , µ2 , σ) ∈ R2 ×( 0 , ∞) der Parameter.
Als Likelihood-Funktion zu gegebenen Werten x1 , . . . , xn1 , y1 , . . . , yn2 definiert man:
L(µ1 , µ2 , σ) =
n1
³Y
fµ1 ,σ (xi )
n2
´³Y
i=1
´
fµ2 ,σ (yj )
,
j=1
wobei mit fµ,σ die Dichtefunktion von N(µ, σ) bezeichnet sei. Man erhält die Log-Likelihood-Funktion:
2
ln(2π) − (n1 + n2 ) ln(σ) −
`(µ1 , µ2 , σ) = − n1 +n
2
1
2σ 2
³P
n1
(xi − µ1 )2 +
i=1
n2
P
´
(yj − µ2 )2 .
j=1
Als ML-Schätzung ergibt sich :
n1
1 X
xi ,
µ
b1 = x =
n1
i=1
n2
1 X
µ
b2 = y =
yj ,
n2
s
σ
b =
1
n1 +n2
j=1
³P
n1
(xi − x)2 +
i=1
n2
P
´
(yj − y)2 .
j=1
b2 = Y
Im Rahmen der statistischen Theorie der Schätzer erweisen sich die Schätzer µ
b1 = X und µ
als erwartungstreu für µ1 bzw. für µ2 , und der Schätzer
s2 =
1
n1 +n2 −2
³P
n1
(Xi − X)2 +
i=1
n2
P
(Yj − Y )2
´
j=1
als erwartungstreu für σ 2 (sofern n1 + n2 ≥ 3).
Entsprechend lassen sich k-Stichproben-Modelle betrachten (k ≥ 2) . Eine weitere sehr wichtige Klasse
statistischer Modelle sind die (linearen) Regressionsmodelle, die in Kapitel 5 behandelt werden.
Herunterladen