PARAMETERSCH ¨ATZUNG 1. Punktschätzung Bisher waren die

Werbung
PARAMETERSCHÄTZUNG
1. Punktschätzung
Bisher waren die Wahrscheinschlichkeitsverteilungen der Zufallsvariablen stets
bekannt, so dass wir Aussagen über die Wahrscheinlichkeiten von Werten bzw.
Wertebereichen treffen konnten. In der Praxis ist es jedoch meistens umgekehrt;
es liegen gemessene Werte vor, aber die zugehörige Verteilung ist weitestgehend
unbekannt. Da die Anzahl der beobachteten Werte in der Regel jedoch zu niedrig
ist, um die Verteilung genau zu schätzen, muss man sich damit begnügen, Verteilungsparameter wie Erwartungswert oder Varianz zu schätzen. Für viele Zwecke
ist dies jedoch ausreichend, da man häufig das statistische Modell kennt und somit die konkrete Verteilung durch diese Parameter eindeutig bestimmt ist (z.B. die
Normalverteilung N (µ, σ 2 )).
Definition: Die Angabe eines solchen Schätzwertes für einen Verteilungsparameter
heißt eine Punktschätzung. Die Menge aller zugrundeliegenden potentiellen Untersuchungsobjekte bezeichnet man als Grundgesamtheit. Eine zufällige Auswahl von
Untersuchungsobjekten aus der zugrundeliegenden Grundgesamtheit nennt man eine Stichprobe.
Aus pragmatischen Gründen wird normalerweise nicht die ganze Grundgesamtheit, sondern eine repräsentative Stichprobe untersucht. An ihr wird dann (repräsentativ) eine gewisse Zufallsvariable X gemessen. Dies liefert eine Messreihe
x1 , . . . , xn . Ist der Kontext klar, spricht man bei der Messreihe ebenfalls häufig von
einer Stichprobe. Statt nun aber jeden dieser Werte als Realisation einer Zufallsvariablen zu verstehen, ist es häufig nützlich, die Werte als Realisationen von n
verschiedenen (identisch verteilten, unabhängigen) Zufallsvariablen zu interpretieren.
Definition: Es seien X1 , . . . , Xn : Ω → R unabhängige und identisch verteilte Zufallsvariablen. Dann nennen wir X1 , . . . , Xn Stichprobenvariablen und jedes
n-Tupel von Werten/Realisationen x1 , . . . , xn ein Stichprobenergebnis oder eine
Messreihe der Länge oder des Umfangs n. Eine Funktion T (X1 , . . . , Xn ) der Stichprobenvariablen heißt Schätzfunktion für einen Verteilungsparameter θ, falls ihr
Wert θ̂ als Schätzwert für θ verwendet wird. T heißt erwartungstreue Schätzfunktion für θ, wenn E(T ) = θ gilt, und T heißt konsistent, falls die Varianz von
Tn = T (X1 , . . . , Xn ) beliebig klein wird, d.h. falls limn→∞ V (Tn ) = 0 ist (hierbei
wird angenommen, dass T für jede Anzahl von Stichprobenvariablen definiert ist).
Beispiel: Es sei µ der gemeinsame Erwartungswert und σ 2 die Varianz
Pnder Stichprobenvariablen X1 , . . . , Xn . Dann hat das Stichprobenmittel X̄ = 1/n i=1 Xi den
Erwartungswert E(X̄) = µ und die Varianz V (X̄) = σ 2 /n (vgl. Zentralen Grenzwertsatz), d.h. X̄ ist eine erwartungstreue und konsistente Schätzfunktion für den
Erwartungswert µ von X.
Auch Schätzfunktionen sind Zufallsvariablen. Ihr Wert kann jedoch erst berechnet werden, wenn die Stichprobenvariablen gewisse Werte angenommen haben,
d.h. wenn eine Messreihe vorliegt. Mithilfe eines Stichprobenergebnisses, also einer Messreihe, kann sogar eine Näherungsfunktion für die unbekannte Verteilungsfunktion konstruiert werden. Hierzu betrachtet man die zufällige Auswahl Y eines
Wertes dieser Messreihe als Zufallsvariale und bezeichnet die zughörige Verteilung
von Y als empirische Verteilung.
Dann ist beispielsweise
P
Pnder Erwartungswert der empirischen Verteilung E(Y ) =
n
x
·
1/n
=
1/n
i
i=1
i=1 xi gerade das arithmetische Mittel der Messreihe, d.h.
E(Y ) ist immer gleich dem Wert, den das Stichprobenmittel X̄ annimmt. Wir folgen
daher mit unserem Schätzwert für den Erwartungswert dem folgenden Prinzip.
Allgemeines Schätzprinzip: Ein unbekannter Parameter der Verteilungsfunktion der Stichprobenvariablen kann durch den entsprechenden Parameter der empirischen Verteilung geschätzt werden.
Beispiel: Bei der Varianz weichen wir allerdings etwas vom allgemeinen Schätzprinzip
Verteilung ist gegeben durch V (Y ) =
Pn ab. Die Varianz der empirischen
Pn
1/n i=1 (xi −x̄)2 mit x̄ = 1/n i=1 xi . Dies ist gerade der Wert der Schätzfunktion
Pn
2
2
Ŝ 2 = 1/n i=1 (Xi −X̄)2 . Allerdings kann man zeigen, dass E(Ŝ 2 ) = n−1
n σ , d.h. Ŝ
n
2
2
ist nicht erwartungstreu für die Varianz. Dies lässt sich beheben durch S = n−1 Ŝ .
n
n
n n−1 2
2
2
Dann ist nämlich E(S 2 ) = E( n−1
Ŝ 2 ) = n−1
E(Ŝ 2 ) = n−1
n σ = σ und somit S
2
erwartungstreu für σ . Als
√ Schätzfunktion für die Standardabweichung σ verwendet
man entsprechend S = S 2 . Diese ist in der Regel ebenfalls nicht erwartungstreu.
Bemerkung:
einer Messreihe x1 , . . . , xn wurde im letzten Semester
Pn Die Varianz
1
2
durch n−1
(x
−x̄)
definiert.
Dies entspricht dann gerade dem Wert der obigen
i=1 i
(erwartungstreuen) Schätzfunktion S 2 für σ 2 .
Zusammenfassung: Anhand einer Stichprobe/Messreihe x1 , . . . , xn mit zugrundeliegender Zufallsvariable X schätzen wir:
Pn
• den Erwartungswert E(X) mithilfe der Schätzfunktion
X̄ = 1/n i=1 Xi ,
Pn
d.h. über das arithmetische Mittel x̄ = 1/n i=1 xi der Messreihe,
Pn
1
2
• die Varianz V (X) mithilfe der Schätzfunktion S 2 = n−1
i=1 (Xi − X̄) ,
P
n
1
2
2
d.h. über die Varianz s = n−1 i=1 (xi − x̄) der Messreihe (wie sie im
letzten Semester definiert p
wurde),
√
• die Standardabweichung V (X) mithilfe
der
Schätzfunktion
S
=
S2,
√
2
d.h. über die Standardabweichung s = s der Messreihe.
Eine weitere Schätzmethode ist die Maximum-Likelihood-Schätzung . Ihr zugrunde liegt der Ansatz eine Schätzgröße zu verwenden, so dass die Messung der vorliegenden Messwerte am wahrscheinlichsten wird. Ist hierbei die zugrundeliegende
Zufallsvariable X diskret mit Wahrscheinlichkeitsverteilung f = fθ , d.h. sie hängt
von einem unbekannten Parameter θ ab, so hängt für eine Messreihe x1 , . . . , xn die
Wahrscheinlichkeit P (x1 , . . . , xn ) = P (x1 , . . . , xn )(θ) von θ ab und man erhält die
sogenannte Likelihood-Funktion L(θ) = P (x1 , . . . , xn )(θ) = fθ (x1 ) · · · fθ (xn ). In der
Praxis gibt es hierbei dann meistens genau eine Maximumsstelle θ̂, welche dann als
Schätzwert für θ verwendet wird. Im stetigen Fall geht man genauso vor und nimmt
für die Likelihood-Funktion einfach die Dichte statt der Wahrscheinlichkeitsverteilung, d.h. ist X stetig mit Dichte f = fθ , so ist die Likelihood-Funktion gegeben
durch L(θ) = fθ (x1 ) · · · fθ (xn ).
Beispiel: Ist X Poisson-verteilt nach Pθ , d.h. fθ (x) =
dann ist für eine gegebene Messreihe x1 , . . . , xn
θx
x!
e−θ für x ∈ N und θ > 0,
θx1 −θ
θxn −θ
e ·...···
e
x1 !
xn !
θx1 +...+xn −nθ
e
=
x1 ! · . . . · xn !
θnx̄
e−nθ .
=
x1 ! · . . . · xn !
L(θ) =
Um nun das Maximum von L(θ) zu finden, nutzt man aus, dass der Logarithmus
streng monoton wachsend ist und daher θ̂ genau dann ein Maximum von L(θ) ist,
wenn θ̂ ein Maximum von ln(L(θ)) ist. Mithilfe der Rechenregel ln(ab) = ln(a) +
ln(b), ln(a/b) = ln(a) − ln(b) und ln(ab ) = b ln(a) erhält man dann
θnx̄
−nθ
e
ln(L(θ)) = ln
x1 ! · . . . · xn !
= ln θnx̄ e−nθ − ln(x1 ! · . . . · xn !)
= ln(θnx̄ ) + ln(e−nθ ) − ln(x1 ! · . . . · xn !)
= nx̄ ln(θ) − nθ − ln(x1 ! · . . . · xn !),
also ist
d
nx̄
ln(L(θ)) =
−n
dθ
θ
und man erhält als einzige Nullstelle der Ableitung, d.h. als einzigen Kandidaten
d2
nx̄
für eine Extremstelle θ̂ = x̄. Wegen dθ
2 ln(L(θ)) = − θ 2 < 0 handelt es sich bei θ̂
auch tatsächlich um ein Maximum, d.h. x̄ ist (auch) nach der Maximum-LikelihoodMethode der Schätzwert für den unbekannten Parameter θ. Das hätte uns in diesem
Fall, wegen E(X) = θ, allerdings auch das allgemeine Schätzprinzip geliefert.
2. Intervallschätzung
Bei der Punktschätzung versucht man einen konkreten Wert für einen unbekannten Parameter zu schätzen. Eine andere Form der Parameterschätzung besteht darin, dass man gerne ein Intervall angeben würde, in dem der unbekannte Parameter
sicher liegt. Wie wir in Beispiel 4 der Vorlesung gesehen haben, ist dies gelegentlich auch möglich, in den meisten Fällen muss man sich jedoch mit einem Intervall
zufrieden geben, das den unbekannten Parameter (lediglich) mit hoher Wahrscheinlichkeit enthält.
Ziel: Angabe des Fehlers einer Schätzgröße θ̂ für einen Parameter θ mit einer Sicherheit von mindestens β. Dabei bedeutet
- Fehler ≤ d: θ ∈ [θ̂ − d, θ̂ + d],
- Sicherheit von mindestens β: P (θ ∈ [θ̂ − d, θ̂ + d]) ≥ β
Definition Eine Intervallschätzung für einen Parameter θ ist die Angabe eines
(minimalen und um den Schätzwert θ̂ symmetrischen) Intervalls I, in dem θ mit
Sicherheit ≥ β liegt, d.h. P (θ ∈ I) ≥ β für β ∈ (0, 1). Ein solches Intervall I mit
P (θ ∈ I) = β nennt man dann ein Konfidenzintervall zum Konfidenzniveau β.
Je nachdem was man über die zugrundeliegende Verteilung weiß und je nach
Fragestellung, gibt es verschiedene Vorgehensweisen bei der Bestimmung des Konfidenzintervalls oder des Konfidenzniveaus.
Wir diskutieren hier im Folgenden exemplarisch den Fall einer Messreihe x1 , . . . , xn
mit zugrundeliegender Normalverteilung X ∼ N (µ, σ 2 ).
Schätzung von µ
1. Fall: σ bekannt.
Problem A: Gegeben sei das Konfidenzniveau β und gesucht sei der Fehler d vom
Schätzwert µ̂ = x̄.
Wie in der Vorlesung ausführlich diskutiert nutzt man hier aus, dass das arithmePn
2
tische Mittel X̄ = 1/n i=1 Xi ∼ N (µ, σn ) normalverteilt, bzw. die standardisierte
X̄−µ
√ ∼ N (0, 1) standardnormalverteilt ist. Für d > 0 erhält man dann
Variable σ/
n
leicht
√
√ x̄ − µ
d n d n
√ ∈ −
µ ∈ [x̄ − d, x̄ + d] ⇐⇒
,
.
σ
σ
σ/ n
Wie wir in der Vorlesung gesehen haben, führt dann die Gleichung
P µ ∈ [X̄ − d, X̄ + d] = P
√
√ d n d n
X̄ − µ
√ ∈ −
,
=β
σ
σ
σ/ n
unter Aussnutzung der√Symmetrie der Dichte der Standardnormalverteilung mit
α = 1−β darauf, dass d σ n gerade das (1− α2 )-Quantil der Standardnormalverteilung
N (0,1)
sein muss, das man üblicherweise mit z1− α2 bezeichnet (statt mit ξ1− α ). Also muss
2
d = z1− α2 · √σn gelten.
Ergebnis: Das symmetrische Konfidenzintervall zum Konfidenzniveau β ist gegeben durch [x̄ − d, x̄ + d] mit d = z1− α2 · √σn und α = 1 − β.
Beispielaufgabe: Bei einem Versuch wurde die Reaktionszeit von 80 zufllig ausgewhlten Personen auf ein bestimmtes visuelles Signal gemessen. Die hierbei ermittelte durchschnittliche Reaktionszeit lag bei 0.8 Sekunden. Geben Sie unter der
Annahme, dass die die Reaktionszeit beschreibende Zufallsvariable normalverteilt
mit einer Varianz von 0.04 ist, ein 95%-iges Konfidenzintervall (oder Konfidenzintervall zum Konfidenzniveau von 95%) fr den Erwartungswert der Zufallsvariablen
an.
Antwort: Es handelt sich beim Typ der Aufgabenstellung um Problem A, die
allgemeine Formel für das Konfidenzintervall (KI) ist demnach
σ
σ
α
α
√
√
KI :
x̄ − z1− 2 ·
, x̄ + z1− 2 ·
n
n
Der Aufgabenstellung entnimmt man: n = 80 und σ 2 = 0.04, also σ = 0.2. Wegen
β = 0.95, ist dann α = 1 − β = 0.05, d.h. 1 − α2 = 0.975, und somit erhält man
mithilfe der Wertetabelle der Standardnormalverteilung:
z1− α2 = z0.975 = 1.96
Mit x̄ = 0.8 und σ = 0.2 also
σ
0.2
x̄ − z1− α2 · √ = 0.8 − 1.96 · √ = 0.75617
n
80
und analog
σ
0.2
x̄ + z1− α2 · √ = 0.8 + 1.96 · √ = 0.84382
n
80
Also ist [0.75617, 0.84382] das gesuchte Konfidenzintervall.
Problem B: Gegeben sei der Fehler d von x̄ und gesucht sei das zugehörige
Konfidenzniveau β.
Lösung: Aus der obigen Rechnung zu Problem A folgt, dass β =√ 1 − α das
zugehörige Konfidenzniveau ist, falls man α so wählt, dass z1−α/2 = d σ n ist.
Problem C: Gegeben seien nun das Niveau β sowie der Fehler d und gesucht sei der
Umfang n der Messreihe, so dass das entsprechende Konfidenzintervall höchstens
die Länge 2d hat.
Lösung: Hierfür löst man einfach die Gleichung d = z1− α2 √σn nach n auf und
erhält die Bedingung n ≥ (z1−α/2 σd )2 .
In der Praxis ist der Umfang der Stichprobe meistens vorgegeben. Will man
daher ein kleines Konfidenzintervall/eine große Sicherheit, so muss man sich mit
geringer Sicherheit/einem großen Konfidenzintervall zufrieden geben.
2. Fall: σ unbekannt.
In diesem Fall ersetzt man σ 2 durch die Schätzung
n
1 X
σ̂ 2 = s2n =
(xi − x̄)2 ,
n − 1 i=1
also durch die Stichprobenvarianz. Statt der N (0, 1)-verteilten Zufallsvariablen
erhält man dann die Zufallsvariable
X̄ − µ
√
Tn−1 =
sn / n
X̄−µ
√
σ/ n
p
mit sn = s2n . Die Zufallsvariable Tn−1 ist ebenfalls symmetrisch um 0 verteilt. Die
entsprechende Verteilung nennt man die tn−1 -Verteilung oder Student-Verteilung
mit n − 1 Freiheitsgraden. Man erhält nun völlig analog zum ersten Fall z.B. das
symmetrische Konfidenzintervall zum Niveau β = 1 − α durch [x̄ − d, x̄ + d] mit
sn
d = tn−1;1−α/2 · √ ,
n
wobei hier tn−1;1−α/2 das (1 − α/2)-Quantil der tn−1 -Verteilung bezeichnet. Diese
Quantile entnimmt man dann wieder der entsprechenden Tabelle (s. Homepage).
Die restlichen Problemstellungen werden ebenfalls völlig analog behandelt.
Neben dem Erwartungswert bestimmt auch die Varianz die Normalverteilung.
Wir müssen uns daher auch Gedanken zu ihrer Schätzung machen.
Schätzung von σ 2
Es sei wieder x1 , . . . , xn eine Messreihe mit X ∼ N (µ, σ 2 ) und s2n bezeichne wieder die Varianz derP
empirischen Verteilung, welche wir als Realisation der Schätzn
1
2
2
2
funktion S 2 = n−1
i=1 (Xi − X̄) deuten. Wie wir gesehen haben, gilt E(S ) = σ
4
2σ
, d.h. S 2 ist eine erwartungstreue und konsistente Schätzfunktion
und V (S 2 ) = n−1
2
2
für σ . Die Zufallsvariable n−1
σ 2 S folgt einer besonderen Verteilung, der sogenann2
ten χ -Verteilung mit n − 1 Freiheitsgraden (kurz: X ∼ χ2n−1 ).
Bemerkung: Die χ2 -Verteilung geht zurück auf Helmert und die zugrundeliegende
Beobachtung ist die folgende: Sind X1 , . . . ,P
Xf unabhängige Zufallsvariablen, die
n
alle standardnormalverteilt sind, so ist χ2 = i=1 Xi2 nicht normalverteilt, sondern
besitzt eine Verteilung mit Dichte
(
0,
x < 0,
g(x) =
f −2
1
−x/2
, x ≥ 0.
x 2 e
2f /2 Γ(f /2)
R∞
mit der Gammafunktion Γ(s) = 0 e−t ts−1 dt, d.h. die Verteilungsfunktion der
χ2f -Verteilung ist
(
0,
x < 0,
R x f −2 −t/2
Fχ2f (x) =
1
t 2 e
dt, x ≥ 0.
2f /2 Γ(f /2) 0
Auch hierzu gibt es Tabellen für ausgewählte Freiheitsgrade bzw. Tabellen für die
entsprechenden Quantile χ2n−1;γ . Als Anwendung der χ2 -Verteilung werden wir
später noch den χ2 -Test kennenlernen, mit dem man überprüfen kann welcher Verteilung eine Zufallsvariable folgt.
Um nun ein Konfidenzintervall für σ 2 zum Konfidenzniveau β = 1 − α zu be2
stimmen, verwenden wir die χ2n−1 -verteilte Zufallsvariable n−1
σ 2 S . Per Definition
der Quantile gilt dann
α
=P
2
sowie
n−1 2
S ≤ χ2n−1; α2
σ2
=P
n−1 2
S ≤ σ2
χ2n−1; α
2
!
α
1− =P
2
n−1 2
S ≤ χ2n−1;1− α2
σ2
=1−P
n−1 2
S ≥ χ2n−1;1− α2
σ2
bzw.
α
=P
2
n−1 2
S ≥ χ2n−1;1− α2
σ2
!
n−1
=P
2
χ2n−1;1− α
S ≥σ
2
.
2
Daraus erhalten wir das Konfidenzintervall
"
#
n−1 2 n−1 2
s , 2
s ,
χ2n−1;1− α
χn−1; α
2
2
2
wobei hier s wieder die konkrete Realisation der Schätzfunktion S 2 , also die Stichprobenvarianz, bezeichnet.
Herunterladen