PARAMETERSCH ¨ATZUNG 1. Punktschätzung Bisher waren die

Werbung
PARAMETERSCHÄTZUNG
1. Punktschätzung
Bisher waren die Wahrscheinschlichkeitsverteilungen der Zufallsvariablen stets
bekannt, so dass wir Aussagen über die Wahrscheinlichkeiten von Werten bzw.
Wertebereichen treffen konnten. In der Praxis ist es jedoch meistens umgekehrt;
es liegen gemessene Werte vor, aber die zugehörige Verteilung ist weitestgehend
unbekannt. Da die Anzahl der beobachteten Werte in der Regel jedoch zu niedrig
ist, um die Verteilung genau zu schätzen, muss man sich damit begnügen, Verteilungsparameter wie Erwartungswert oder Varianz zu schätzen. Für viele Zwecke
ist dies jedoch ausreichend, da man häufig das statistische Modell kennt und somit die konkrete Verteilung durch diese Parameter eindeutig bestimmt ist (z.B. die
Normalverteilung N (µ, σ 2 )).
Definition Die Angabe eines solchen Schätzwertes für einen Verteilungsparameter
heißt eine Punktschätzung. Die Menge aller zugrundeliegenden potentiellen Untersuchungsobjekte bezeichnet man als Grundgesamtheit. Eine zufällige Auswahl von
Untersuchungsobjekten aus der zugrundeliegenden Grundgesamtheit nennt man eine Stichprobe.
Aus pragmatischen Gründen wird normalerweise nicht die ganze Grundgesamtheit, sondern eine repräsentative Stichprobe untersucht. An ihr wird dann (repräsentativ) eine gewisse Zufallsvariable X gemessen. Dies liefert eine Messreihe
{x1 , . . . , xn }. Ist der Kontext klar, spricht man bei der Messreihe ebenfalls häufig
von einer Stichprobe. Statt nun aber jeden dieser Werte als Realisation einer Zufallsvariablen zu verstehen, ist es häufig nützlich, die Werte als Realisationen von
n verschiedenen (identisch verteilten, unabhängigen) Zufallsvariablen zu interpretieren.
Definition Es seien X1 , . . . , Xn : Ω → R unabhängige und identisch verteilte Zufallsvariablen. Dann nennen wir X1 , . . . , Xn Stichprobenvariablen und jedes
n-Tupel von Werten/Realisationen x1 , . . . , xn ein Stichprobenergebnis oder eine
Messreihe der Länge oder des Umfangs n. Eine Funktion T (X1 , . . . , Xn ) der Stichprobenvariablen heißt Schätzfunktion für einen Verteilungsparameter θ, falls ihr
Wert θ̂ als Schätzwert für θ verwendet wird. T heißt erwartungstreue Schätzfunktion für θ, wenn E(T ) = θ gilt, und T heißt konsistent, falls die Varianz von
Tn = T (X1 , . . . , Xn ) beliebig klein wird, d.h. falls limn→∞ V (Tn ) = 0 ist (hierbei
wird angenommen, dass T für jede Anzahl von Stichprobenvariablen definiert ist).
Beispiel Es sei µ der gemeinsame Erwartungswert und σ 2 die Varianz der
PnStichprobenvariablen X1 , . . . , Xn . Dann hat das arithmetische Mittel X̄ = 1/n i=1 Xi
den Erwartungswert E(X̄) = µ und die Varianz V (X̄) = σ 2 /n (vgl. Zentralen
Grenzwertsatz), d.h. X̄ ist eine erwartungstreue und konsistente Schätzfunktion
für den Erwartungswert µ von X.
Auch Schätzfunktionen sind Zufallsvariablen. Ihr Wert kann jedoch erst berechnet werden, wenn die Stichprobenvariablen gewisse Werte angenommen haben,
d.h. wenn eine Messreihe vorliegt. Mithilfe eines Stichprobenergebnisses, also einer
Messreihe, kann sogar eine Näherungsfunktion für die unbekannte Verteilungsfunktion konstruiert werden.
Definition Es sei {x1 , . . . , xn } eine Messreihe und Y : {x1 , . . . , xn } → R bezeichne
die zufällige Auswahl eines Wertes dieser Messreihe. Dann heißt die Verteilung von
Y die durch das Stichpobenergebnis bestimmte empirische Verteilung.
Bemerkung Y nimmt jeden Wert mit Wahrscheinlichkeit 1/n an, sofern alle Werte
verschieden sind. Kommt eine Zahl k-mal vor, so wird sie mit Wahrscheinlichkeit
k/n angenommen.
Pn
Der
i=1 xi · 1/n =
PnErwartungswert der empirischen Verteilung ist E(Y ) =
1/n i=1 xi , d.h. E(Y ) ist immer gleich dem Wert, den das Stichprobenmittel X̄
annimmt. Wir folgen daher mit unserem Schätzwert für den Erwartungswert dem
folgenden Prinzip.
Allgemeines Schätzprinzip Ein unbekannter Parameter der Verteilungsfunktion der Stichprobenvariablen kann durch den entsprechenden Parameter der empirischen Verteilung geschätzt werden.
Pn
Beispiel Die Varianz der empirischen Verteilung ist V (Y ) = i=1 (xi −x̄)2 ·1/n mit
Pn
Pn
x̄ = 1/n i=1 xi . Dies ist gerade der Wert der Schätzfunktion Ŝ 2 = 1/n i=1 (Xi −
2
2
X̄)2 . Allerdings kann man zeigen, dass E(Ŝ 2 ) = n−1
n σ , d.h. Ŝ ist nicht erwarn
tungstreu für die Varianz. Dies lässt sich beheben durch S 2 = n−1
Ŝ 2 . Dann ist
n
n
n n−1 2
2
2
2
2
nämlich E(S ) = E( n−1 Ŝ ) = n−1 E(Ŝ ) = n−1 n σ = σ und somit S 2 erwartungstreu für σ 2 . Als
√ Schätzfunktion für die Standardabweichung σ verwendet man
entsprechend S = S 2 . Diese ist in der Regel ebenfalls nicht erwartungstreu.
Eine weitere Schätzmethode ist die Maximum-Likelihood-Schätzung . Ihr zugrunde liegt der Ansatz eine Schätzgröße zu verwenden, so dass die Messung der vorliegenden Messwerte am wahrscheinlichsten wird. Ist hierbei die zugrundeliegende
Zufallsvariable X diskret mit Wahrscheinlichkeitsverteilung f = fθ , d.h. sie hängt
von einem unbekannten Parameter θ ab, so hängt für eine Messreihe x1 , . . . , xn die
Wahrscheinlichkeit P (x1 , . . . , xn ) = P (x1 , . . . , xn )(θ) von θ ab und man erhält die
sogenannte Likelihood-Funktion L(θ) = P (x1 , . . . , xn )(θ) = fθ (x1 ) · · · fθ (xn ). In der
Praxis gibt es hierbei dann meistens genau eine Maximumsstelle θ̂, welche dann als
Schätzwert für θ verwendet wird. Im stetigen Fall geht man genauso vor und nimmt
für die Likelihood-Funktion einfach die Dichte statt der Wahrscheinlichkeitsverteilung, d.h. ist X stetig mit Dichte f = fθ , so ist die Likelihood-Funktion gegeben
durch L(θ) = fθ (x1 ) · · · fθ (xn ).
2. Intervallschätzung
Bei der Punktschätzung versucht man einen konkreten Wert für einen unbekannten Parameter zu schätzen. Eine andere Form der Parameterschätzung besteht darin, dass man gerne ein Intervall angeben würde, in dem der unbekannte Parameter
sicher liegt. Wie wir in Beispiel 4 der Vorlesung gesehen haben, ist dies gelegentlich auch möglich, in den meisten Fällen muss man sich jedoch mit einem Intervall
zufrieden geben, das den unbekannten Parameter (lediglich) mit hoher Wahrscheinlichkeit enthält.
Ziel: Angabe des Fehlers einer Schätzgröße θ̂ für einen Parameter θ mit einer Sicherheit von mindestens β. Dabei bedeutet
- Fehler ≤ d: θ ∈ [θ̂ − d, θ̂ + d],
- Sicherheit von mindestens β: P (θ ∈ [θ̂ − d, θ̂ + d]) ≥ β
Definition Eine Intervallschätzung für einen Parameter θ ist die Angabe eines
(um den Schätzwert θ̂ symmetrischen) Intervalls I, in dem θ mit Sicherheit ≥ β
liegt, d.h. P (θ ∈ I) ≥ β für β ∈ (0, 1). Ein solches Intervall I mit P (θ ∈ I) = β
nennt man dann ein Konfidenzintervall zum Konfidenzniveau β.
Je nachdem was man über die zugrundeliegende Verteilung weiß und je nach
Fragestellung, gibt es verschiedene Vorgehensweisen bei der Bestimmung des Konfidenzintervalls oder des Konfidenzniveaus.
Wir diskutieren hier im Folgenden exemplarisch den Fall einer Messreihe x1 , . . . , xn
mit zugrundeliegender Normalverteilung X ∼ N (µ, σ 2 ).
Schätzung von µ
1. Fall: σ bekannt.
Problem A: Gegeben sei das Konfidenzniveau β und gesucht sei der Fehler d vom
Schätzwert µ̂ = x̄.
Wie in der Vorlesung ausführlich diskutiert nutzt man hier aus, dass das arithmePn
2
tische Mittel X̄ = 1/n i=1 Xi ∼ N (µ, σn ) normalverteilt, bzw. die standardisierte
X̄−µ
√ ∼ N (0, 1) standardnormalverteilt ist. Für d > 0 erhält man dann
Variable σ/
n
leicht
√
√ d n d n
x̄ − µ
√ ∈ −
µ ∈ [x̄ − d, x̄ + d] ⇐⇒
,
.
σ
σ
σ/ n
Somit führt die Gleichung
P µ ∈ [X̄ − d, X̄ + d] = P
√
√ X̄ − µ
d n d n
√ ∈ −
,
=β
σ
σ
σ/ n
unter Aussnutzung der √Symmetrie der Dichte der Standardnormalverteilung mit
α = 1 − β darauf, dass d σ n gerade das 1 − α2 -Quantil der Standardnormalverteilung
sein muss, das man üblicherweise mit z1− α2 bezeichnet. Also muss d = z1− α2 √σn
gelten.
Ergebnis: Das symmetrische Konfidenzintervall zum Konfidenzniveau β ist gegeben durch [x̄ − d, x̄ + d] mit d = z1− α2 √σn und α = 1 − β.
Zum Beispiel erhält man für n = 20 = σ und β = 95%, dass 1 − α2 = 97.5% und
wir entnehmen der Wertetabelle der Standardnormalverteilung, dass z0.975 ≈ 1.96.
Also ist der gesuchte Fehler in diesem Fall d = 1.96 √2020 ≈ 8.77.
Problem B: Gegeben sei der Fehler d von x̄ und gesucht sei das zugehörige
Konfidenzniveau β.
Lösung: Aus der obigen Rechnung zu Problem A folgt, dass β =√ 1 − α das
zugehörige Konfidenzniveau ist, falls man α so wählt, dass z1−α/2 = d σ n ist.
Problem C: Gegeben seien nun das Niveau β sowie der Fehler d und gesucht sei der
Umfang n der Messreihe, so dass das entsprechende Konfidenzintervall höchstens
die Länge 2d hat.
Lösung: Hierfür löst man einfach die Gleichung d = z1− α2 √σn nach n auf und
erhält die Bedingung n ≥ (z1−α/2 σd )2 .
In der Praxis ist der Umfang der Stichprobe meistens vorgegeben. Will man
daher ein kleines Konfidenzintervall/eine große Sicherheit, so muss man sich mit
geringer Sicherheit/einem großen Konfidenzintervall zufrieden geben.
2. Fall: σ unbekannt.
In diesem Fall ersetzt man σ 2 durch die Schätzung s2n =
1
n−1
Pn
i=1 (xi
− x̄)2 , al-
X̄−µ
√
so durch die Stichprobenvarianz. Statt der N (0, 1)-verteilten Zufallsvariablen σ/
n
p
X̄−µ
2
erhält man dann die Zufallsvariable Tn−1 = sn /√n mit sn = sn . Die Zufallsvariable Tn−1 ist ebenfalls symmetrisch um 0 verteilt. Die entsprechende Verteilung
nennt man die tn−1 -Verteilung oder Student-Verteilung mit n − 1 Freiheitsgraden.
Man erhält nun völlig analog zum ersten Fall z.B. das symmetrische Konfidenzinsn
tervall zum Niveau β = 1 − α durch [x̄ − d, x̄ + d] mit d = tn−1,1−α/2 √
, wobei
n
hier tn−1,1−α/2 das (1 − α/2)-Quantil der tn−1 -Verteilung bezeichnet. Die restlichen
Problemstellungen werden ebenfalls völlig analog behandelt.
Neben dem Erwartungswert bestimmt auch die Varianz die Normalverteilung.
Wir müssen uns daher auch Gedanken zu ihrer Schätzung machen.
Schätzung von σ 2
Es sei wieder x1 , . . . , xn eine Messreihe mit X ∼ N (µ, σ 2 ) und s2n bezeichne wieder die Varianz derP
empirischen Verteilung, welche wir als Realisation der Schätzn
1
2
2
2
funktion S 2 = n−1
i=1 (Xi − X̄) deuten. Wie wir gesehen haben, gilt E(S ) = σ
4
2σ
, d.h. S 2 ist eine erwartungstreue und konsistente Schätzfunktion
und V (S 2 ) = n−1
2
für σ 2 . Die Zufallsvariable n−1
σ 2 S folgt einer besonderen Verteilung, der sogenann2
ten χ -Verteilung mit n − 1 Freiheitsgraden (kurz: X ∼ χ2n−1 ).
Bemerkung: Die χ2 -Verteilung geht zurück auf Helmert und die zugrundeliegende
Beobachtung ist die folgende: Sind X1 , . . . ,P
Xf unabhängige Zufallsvariablen, die
n
alle standardnormalverteilt sind, so ist χ2 = i=1 Xi2 nicht normalverteilt, sondern
besitzt eine Verteilung mit Dichte
(
0,
x < 0,
g(x) =
f −2
1
−x/2
2
x
e
, x ≥ 0.
2f /2 Γ(f /2)
R∞
mit der Gammafunktion Γ(s) = 0 e−t ts−1 dt, d.h. die Verteilungsfunktion der
χ2f -Verteilung ist
(
0,
x < 0,
R x f −2 −t/2
Fχ2f (x) =
1
2
t
e
dt, x ≥ 0.
2f /2 Γ(f /2) 0
Auch hierzu gibt es Tabellen für ausgewählte Freiheitsgrade bzw. Tabellen für die
entsprechenden Quantile χ2n−1,α . Als Anwendung der χ2 -Verteilung werden wir
später noch den χ2 -Test kennenlernen, mit dem man überprüfen kann welcher Verteilung eine Zufallsvariable folgt.
Um nun ein Konfidenzintervall für σ 2 zum Konfidenzniveau β = 1 − α zu be2
stimmen, verwenden wir die χ2n−1 -verteilte Zufallsvariable n−1
σ 2 S . Per Definition
der Quantile gilt dann
!
n
−
1
n−1 2
S ≤ χ2n−1,α/2 = P
S 2 ≤ σ2
α/2 = P
σ2
χ2n−1,α/2
sowie
1 − α/2 = P
n−1 2
S ≤ χ2n−1,1−α/2
σ2
=1−P
n−1 2
S ≥ χ2n−1,1−α/2
σ2
bzw.
α/2 = P
n−1 2
S ≥ χ2n−1,1−α/2
σ2
=P
Daraus erhalten wir das Konfidenzintervall
!
n−1
2
χ2n−1,1−α/2
n−1
2
χ2n−1,1−α/2
2
s , χ2
S ≥σ
n−1
2
.
s , wobei hier s2
2
n−1,α/2
wieder die konkrete Realisation der Schätzfunktion S , also die Stichprobenvarianz,
bezeichnet.
Herunterladen