PARAMETERSCH ¨ATZUNG 1. Punktschätzung Bisher waren die

PARAMETERSCHÄTZUNG
1. Punktschätzung
Bisher waren die Wahrscheinschlichkeitsverteilungen der Zufallsvariablen stets
bekannt, so dass wir Aussagen über die Wahrscheinlichkeiten von Werten bzw.
Wertebereichen treffen konnten. In der Praxis ist es jedoch meistens umgekehrt;
es liegen gemessene Werte vor, aber die zugehörige Verteilung ist weitestgehend
unbekannt. Da die Anzahl der beobachteten Werte in der Regel jedoch zu niedrig
ist, um die Verteilung genau zu schätzen, muss man sich damit begnügen, Verteilungsparameter wie Erwartungswert oder Varianz zu schätzen. Für viele Zwecke
ist dies jedoch ausreichend, da man häufig das statistische Modell kennt und somit die konkrete Verteilung durch diese Parameter eindeutig bestimmt ist (z.B. die
Normalverteilung N (µ, σ 2 )).
Definition Die Angabe eines solchen Schätzwertes für einen Verteilungsparameter
heißt eine Punktschätzung. Die Menge aller zugrundeliegenden potentiellen Untersuchungsobjekte bezeichnet man als Grundgesamtheit. Eine zufällige Auswahl von
Untersuchungsobjekten aus der zugrundeliegenden Grundgesamtheit nennt man eine Stichprobe.
Aus pragmatischen Gründen wird normalerweise nicht die ganze Grundgesamtheit, sondern eine repräsentative Stichprobe untersucht. An ihr wird dann (repräsentativ) eine gewisse Zufallsvariable X gemessen. Dies liefert eine Messreihe
{x1 , . . . , xn }. Ist der Kontext klar, spricht man bei der Messreihe ebenfalls häufig
von einer Stichprobe. Statt nun aber jeden dieser Werte als Realisation einer Zufallsvariablen zu verstehen, ist es häufig nützlich, die Werte als Realisationen von
n verschiedenen (identisch verteilten, unabhängigen) Zufallsvariablen zu interpretieren.
Definition Es seien X1 , . . . , Xn : Ω → R unabhängige und identisch verteilte Zufallsvariablen. Dann nennen wir X1 , . . . , Xn Stichprobenvariablen und jedes
n-Tupel von Werten/Realisationen x1 , . . . , xn ein Stichprobenergebnis oder eine
Messreihe der Länge oder des Umfangs n. Eine Funktion T (X1 , . . . , Xn ) der Stichprobenvariablen heißt Schätzfunktion für einen Verteilungsparameter θ, falls ihr
Wert θ̂ als Schätzwert für θ verwendet wird. T heißt erwartungstreue Schätzfunktion für θ, wenn E(T ) = θ gilt, und T heißt konsistent, falls die Varianz von
Tn = T (X1 , . . . , Xn ) beliebig klein wird, d.h. falls limn→∞ V (Tn ) = 0 ist (hierbei
wird angenommen, dass T für jede Anzahl von Stichprobenvariablen definiert ist).
Beispiel Es sei µ der gemeinsame Erwartungswert und σ 2 die Varianz der
PnStichprobenvariablen X1 , . . . , Xn . Dann hat das arithmetische Mittel X̄ = 1/n i=1 Xi
den Erwartungswert E(X̄) = µ und die Varianz V (X̄) = σ 2 /n (vgl. Zentralen
Grenzwertsatz), d.h. X̄ ist eine erwartungstreue und konsistente Schätzfunktion
für den Erwartungswert µ von X.
Auch Schätzfunktionen sind Zufallsvariablen. Ihr Wert kann jedoch erst berechnet werden, wenn die Stichprobenvariablen gewisse Werte angenommen haben,
d.h. wenn eine Messreihe vorliegt. Mithilfe eines Stichprobenergebnisses, also einer
Messreihe, kann sogar eine Näherungsfunktion für die unbekannte Verteilungsfunktion konstruiert werden.
Definition Es sei {x1 , . . . , xn } eine Messreihe und Y : {x1 , . . . , xn } → R bezeichne
die zufällige Auswahl eines Wertes dieser Messreihe. Dann heißt die Verteilung von
Y die durch das Stichpobenergebnis bestimmte empirische Verteilung.
Bemerkung Y nimmt jeden Wert mit Wahrscheinlichkeit 1/n an, sofern alle Werte
verschieden sind. Kommt eine Zahl k-mal vor, so wird sie mit Wahrscheinlichkeit
k/n angenommen.
Pn
Der
i=1 xi · 1/n =
PnErwartungswert der empirischen Verteilung ist E(Y ) =
1/n i=1 xi , d.h. E(Y ) ist immer gleich dem Wert, den das Stichprobenmittel X̄
annimmt. Wir folgen daher mit unserem Schätzwert für den Erwartungswert dem
folgenden Prinzip.
Allgemeines Schätzprinzip Ein unbekannter Parameter der Verteilungsfunktion der Stichprobenvariablen kann durch den entsprechenden Parameter der empirischen Verteilung geschätzt werden.
Pn
Beispiel Die Varianz der empirischen Verteilung ist V (Y ) = i=1 (xi −x̄)2 ·1/n mit
Pn
Pn
x̄ = 1/n i=1 xi . Dies ist gerade der Wert der Schätzfunktion Ŝ 2 = 1/n i=1 (Xi −
2
2
X̄)2 . Allerdings kann man zeigen, dass E(Ŝ 2 ) = n−1
n σ , d.h. Ŝ ist nicht erwarn
tungstreu für die Varianz. Dies lässt sich beheben durch S 2 = n−1
Ŝ 2 . Dann ist
n
n
n n−1 2
2
2
2
2
nämlich E(S ) = E( n−1 Ŝ ) = n−1 E(Ŝ ) = n−1 n σ = σ und somit S 2 erwartungstreu für σ 2 . Als
√ Schätzfunktion für die Standardabweichung σ verwendet man
entsprechend S = S 2 . Diese ist in der Regel ebenfalls nicht erwartungstreu.
Eine weitere Schätzmethode ist die Maximum-Likelihood-Schätzung . Ihr zugrunde liegt der Ansatz eine Schätzgröße zu verwenden, so dass die Messung der vorliegenden Messwerte am wahrscheinlichsten wird. Ist hierbei die zugrundeliegende
Zufallsvariable X diskret mit Wahrscheinlichkeitsverteilung f = fθ , d.h. sie hängt
von einem unbekannten Parameter θ ab, so hängt für eine Messreihe x1 , . . . , xn die
Wahrscheinlichkeit P (x1 , . . . , xn ) = P (x1 , . . . , xn )(θ) von θ ab und man erhält die
sogenannte Likelihood-Funktion L(θ) = P (x1 , . . . , xn )(θ) = fθ (x1 ) · · · fθ (xn ). In der
Praxis gibt es hierbei dann meistens genau eine Maximumsstelle θ̂, welche dann als
Schätzwert für θ verwendet wird. Im stetigen Fall geht man genauso vor und nimmt
für die Likelihood-Funktion einfach die Dichte statt der Wahrscheinlichkeitsverteilung, d.h. ist X stetig mit Dichte f = fθ , so ist die Likelihood-Funktion gegeben
durch L(θ) = fθ (x1 ) · · · fθ (xn ).
2. Intervallschätzung
Bei der Punktschätzung versucht man einen konkreten Wert für einen unbekannten Parameter zu schätzen. Eine andere Form der Parameterschätzung besteht darin, dass man gerne ein Intervall angeben würde, in dem der unbekannte Parameter
sicher liegt. Wie wir in Beispiel 4 der Vorlesung gesehen haben, ist dies gelegentlich auch möglich, in den meisten Fällen muss man sich jedoch mit einem Intervall
zufrieden geben, das den unbekannten Parameter (lediglich) mit hoher Wahrscheinlichkeit enthält.
Ziel: Angabe des Fehlers einer Schätzgröße θ̂ für einen Parameter θ mit einer Sicherheit von mindestens β. Dabei bedeutet
- Fehler ≤ d: θ ∈ [θ̂ − d, θ̂ + d],
- Sicherheit von mindestens β: P (θ ∈ [θ̂ − d, θ̂ + d]) ≥ β
Definition Eine Intervallschätzung für einen Parameter θ ist die Angabe eines
(um den Schätzwert θ̂ symmetrischen) Intervalls I, in dem θ mit Sicherheit ≥ β
liegt, d.h. P (θ ∈ I) ≥ β für β ∈ (0, 1). Ein solches Intervall I mit P (θ ∈ I) = β
nennt man dann ein Konfidenzintervall zum Konfidenzniveau β.
Je nachdem was man über die zugrundeliegende Verteilung weiß und je nach
Fragestellung, gibt es verschiedene Vorgehensweisen bei der Bestimmung des Konfidenzintervalls oder des Konfidenzniveaus.
Wir diskutieren hier im Folgenden exemplarisch den Fall einer Messreihe x1 , . . . , xn
mit zugrundeliegender Normalverteilung X ∼ N (µ, σ 2 ).
Schätzung von µ
1. Fall: σ bekannt.
Problem A: Gegeben sei das Konfidenzniveau β und gesucht sei der Fehler d vom
Schätzwert µ̂ = x̄.
Wie in der Vorlesung ausführlich diskutiert nutzt man hier aus, dass das arithmePn
2
tische Mittel X̄ = 1/n i=1 Xi ∼ N (µ, σn ) normalverteilt, bzw. die standardisierte
X̄−µ
√ ∼ N (0, 1) standardnormalverteilt ist. Für d > 0 erhält man dann
Variable σ/
n
leicht
√
√ d n d n
x̄ − µ
√ ∈ −
µ ∈ [x̄ − d, x̄ + d] ⇐⇒
,
.
σ
σ
σ/ n
Somit führt die Gleichung
P µ ∈ [X̄ − d, X̄ + d] = P
√
√ X̄ − µ
d n d n
√ ∈ −
,
=β
σ
σ
σ/ n
unter Aussnutzung der √Symmetrie der Dichte der Standardnormalverteilung mit
α = 1 − β darauf, dass d σ n gerade das 1 − α2 -Quantil der Standardnormalverteilung
sein muss, das man üblicherweise mit z1− α2 bezeichnet. Also muss d = z1− α2 √σn
gelten.
Ergebnis: Das symmetrische Konfidenzintervall zum Konfidenzniveau β ist gegeben durch [x̄ − d, x̄ + d] mit d = z1− α2 √σn und α = 1 − β.
Zum Beispiel erhält man für n = 20 = σ und β = 95%, dass 1 − α2 = 97.5% und
wir entnehmen der Wertetabelle der Standardnormalverteilung, dass z0.975 ≈ 1.96.
Also ist der gesuchte Fehler in diesem Fall d = 1.96 √2020 ≈ 8.77.
Problem B: Gegeben sei der Fehler d von x̄ und gesucht sei das zugehörige
Konfidenzniveau β.
Lösung: Aus der obigen Rechnung zu Problem A folgt, dass β =√ 1 − α das
zugehörige Konfidenzniveau ist, falls man α so wählt, dass z1−α/2 = d σ n ist.
Problem C: Gegeben seien nun das Niveau β sowie der Fehler d und gesucht sei der
Umfang n der Messreihe, so dass das entsprechende Konfidenzintervall höchstens
die Länge 2d hat.
Lösung: Hierfür löst man einfach die Gleichung d = z1− α2 √σn nach n auf und
erhält die Bedingung n ≥ (z1−α/2 σd )2 .
In der Praxis ist der Umfang der Stichprobe meistens vorgegeben. Will man
daher ein kleines Konfidenzintervall/eine große Sicherheit, so muss man sich mit
geringer Sicherheit/einem großen Konfidenzintervall zufrieden geben.
2. Fall: σ unbekannt.
In diesem Fall ersetzt man σ 2 durch die Schätzung s2n =
1
n−1
Pn
i=1 (xi
− x̄)2 , al-
X̄−µ
√
so durch die Stichprobenvarianz. Statt der N (0, 1)-verteilten Zufallsvariablen σ/
n
p
X̄−µ
2
erhält man dann die Zufallsvariable Tn−1 = sn /√n mit sn = sn . Die Zufallsvariable Tn−1 ist ebenfalls symmetrisch um 0 verteilt. Die entsprechende Verteilung
nennt man die tn−1 -Verteilung oder Student-Verteilung mit n − 1 Freiheitsgraden.
Man erhält nun völlig analog zum ersten Fall z.B. das symmetrische Konfidenzinsn
tervall zum Niveau β = 1 − α durch [x̄ − d, x̄ + d] mit d = tn−1,1−α/2 √
, wobei
n
hier tn−1,1−α/2 das (1 − α/2)-Quantil der tn−1 -Verteilung bezeichnet. Die restlichen
Problemstellungen werden ebenfalls völlig analog behandelt.
Neben dem Erwartungswert bestimmt auch die Varianz die Normalverteilung.
Wir müssen uns daher auch Gedanken zu ihrer Schätzung machen.
Schätzung von σ 2
Es sei wieder x1 , . . . , xn eine Messreihe mit X ∼ N (µ, σ 2 ) und s2n bezeichne wieder die Varianz derP
empirischen Verteilung, welche wir als Realisation der Schätzn
1
2
2
2
funktion S 2 = n−1
i=1 (Xi − X̄) deuten. Wie wir gesehen haben, gilt E(S ) = σ
4
2σ
, d.h. S 2 ist eine erwartungstreue und konsistente Schätzfunktion
und V (S 2 ) = n−1
2
für σ 2 . Die Zufallsvariable n−1
σ 2 S folgt einer besonderen Verteilung, der sogenann2
ten χ -Verteilung mit n − 1 Freiheitsgraden (kurz: X ∼ χ2n−1 ).
Bemerkung: Die χ2 -Verteilung geht zurück auf Helmert und die zugrundeliegende
Beobachtung ist die folgende: Sind X1 , . . . ,P
Xf unabhängige Zufallsvariablen, die
n
alle standardnormalverteilt sind, so ist χ2 = i=1 Xi2 nicht normalverteilt, sondern
besitzt eine Verteilung mit Dichte
(
0,
x < 0,
g(x) =
f −2
1
−x/2
2
x
e
, x ≥ 0.
2f /2 Γ(f /2)
R∞
mit der Gammafunktion Γ(s) = 0 e−t ts−1 dt, d.h. die Verteilungsfunktion der
χ2f -Verteilung ist
(
0,
x < 0,
R x f −2 −t/2
Fχ2f (x) =
1
2
t
e
dt, x ≥ 0.
2f /2 Γ(f /2) 0
Auch hierzu gibt es Tabellen für ausgewählte Freiheitsgrade bzw. Tabellen für die
entsprechenden Quantile χ2n−1,α . Als Anwendung der χ2 -Verteilung werden wir
später noch den χ2 -Test kennenlernen, mit dem man überprüfen kann welcher Verteilung eine Zufallsvariable folgt.
Um nun ein Konfidenzintervall für σ 2 zum Konfidenzniveau β = 1 − α zu be2
stimmen, verwenden wir die χ2n−1 -verteilte Zufallsvariable n−1
σ 2 S . Per Definition
der Quantile gilt dann
!
n
−
1
n−1 2
S ≤ χ2n−1,α/2 = P
S 2 ≤ σ2
α/2 = P
σ2
χ2n−1,α/2
sowie
1 − α/2 = P
n−1 2
S ≤ χ2n−1,1−α/2
σ2
=1−P
n−1 2
S ≥ χ2n−1,1−α/2
σ2
bzw.
α/2 = P
n−1 2
S ≥ χ2n−1,1−α/2
σ2
=P
Daraus erhalten wir das Konfidenzintervall
!
n−1
2
χ2n−1,1−α/2
n−1
2
χ2n−1,1−α/2
2
s , χ2
S ≥σ
n−1
2
.
s , wobei hier s2
2
n−1,α/2
wieder die konkrete Realisation der Schätzfunktion S , also die Stichprobenvarianz,
bezeichnet.