V. Parameterschätzung - Abteilung Prof. Schumacher

Werbung
Statistische Methoden der Datenanalyse
Wintersemester 2011/2012
Albert-Ludwigs-Universität Freiburg
Dr. Stan Lai und Prof. Markus Schumacher
Physikalisches Institut Westbau 2 OG Raum 008
Telefonnummer 07621 203 8408 (SL) / 7612 (MS)
E-Mail: [email protected]
[email protected]
http://terascale.physik.uni-freiburg.de/lehre/ws_1213/statmethoden_ws1213
Kapitel 5
Grundlagen der Parameterschätzung
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
Grundgesamtheit, Stichprobe, Statistik, Schätzer
Betrachte ZV x mit WDF
oft abhängig von Parametern
Grundgesamtheit = Menge möglicher Ergebnisse beschrieben durch f(x)
Stichprobe vom Umfang n = Satz von n unabhängigen Messungen der Zv x
Ziel: Ableitung von Eigenschaften von f(x) aus der Stichprobe
Statistik: beliebige Funktion der Stichprobenwerte der ZV
Schätzer: Statistik um Eigenschaften der WDF zu bestimmen
a)  Form der WDF unbekannt à Schätzwerte für Erwartungswert, Varianz, …
b)  Form der WDF bekannt à Schätzwerte für Parameter
Schätzer = Funktioneller Zusammenhang, Schätzwert = numerischer Wert
beide werden mit “Hut ^” beschrieben
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
Gemeinsame WDF der Stichprobe
Betrachte n Beobachtungen der ZV x: x1, ..., xn,
wobei x der WDF f (x; θ) folgt.
Unter den Annahmen:
1)  Messungen sind unabhängig
2)  WDF/Grundgesamtheit ändert sich zwischen Beobachtung nicht
folgt die gemeinsame WDF der Stichprobe:
Achtung! Ist nicht immer erfüllt in der Praxis!
Gegenbeispiele: - Lotterie (Ziehen von Kugeln ohne zurücklegen)
- Längenmessung von Stab bei Temperaturschwankungen
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
Die Likelihoodfunktion
Das Ergebnis eines Experimente (Satz von Messungen)
sei eine Menge von Zahlen x, und die gemeinsame WDF
der Stichprobe ist eine Funktion/Statistik, welche von den
Parametern der WDF θ: abhängt:
Nun werte diese Funktion mit den Werten der Stichprobe aus und
betrachte sie als Funktion der Parameter:
Likelihoodfunktion
(x konstant)
Im Falle von unabhängigen, identischen Messungen gilt:
(xi konstant)
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 4
WiSe 2012/2013
Schätzer für den Erwartungswert µ von f(x)
Es gibt keine allgemein gültigen Regeln für die Konstruktion eines Schätzers für einen
bestimmten unbekannten Parameter. Ist beispielsweise der Mittelwert µ der Verteilung
f (x) gesucht und wurde eine Stichprobe vom Umfang n genommen, so könnten wir unter
Mögliche
Schätzer für den
Erwartungswert der WDF der Grundgesamtheit
anderem folgende Schätzer µ
! in Betracht ziehen:
µ
!=x=
µ
!=
µ
!=
1
10
1
n
"n
i=1 xi
"10
i=1 xi
"n
den Mittelwert der Stichprobe
den Mittelwert der ersten 10 Punkte der Stichprobe
i=1 xi
n/(n − 1) mal den Mittelwert der Stichprobe
µ
! = (min(xi ) + max(xi ))/2
Mittelwert des größten und kleinsten Wertes
1
n−1
µ
! = 42
µ
! = Median der Stichprobe
Diese Liste ließe sich ohne Weiters verlängern. Welches ist ein “guter” Schätzer? Hier gibt
es eine Reihe von Kriterien.
Fragen: - welcher Schätzer ist gut, der “Beste”?
- welche Kriterien sollte ein guter Schätzer erfüllen?
Konsistenz
- wie findet man den optimalen Schätzer für ein Problem?
n→∞
Ein Schätzer θ!(n) heißt konsistent, wenn θ!(n) −→ θ. Da θ!(n) selbst eine Zufallsvariable
S. Laiist,
u. M.
Schumacher
Methoden.
der Datenanalyse;
Kapitel 5
WiSe 2012/2013
müssen
wir diese Statistische
Konvergenz
durch eine
Wahrscheinlichkeitsaussage
definieren,
und
Eigenschaften von Schätzern
Wenn mir das Experiment (aus m Messungen bestehend) oft wiederholen.
Würden die Schätzwerte einer WDF folgen:
bester
große
Varianz
nicht erwartungstreu
Wir wollen kleinen (oder Null) Bias (systematischen. Fehler):
→ Mittelwert der wiederholten Messungen sollte = wahren Wert sein
Und wir wollen kleine Varianz (statistischer Fehler):
→ kleiner Bias und keine Varianz sind i.a. gegenläufige Kriterien
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
θ
∂θ
ehörige
Likelihood-Funktion
und
)ätzers
. Sch
VSchätzern
θ̂ Varianz
≥ ( eines
eine Schranke
für die minimal
erreichbare
Scheines
ang
eineEigenschaften
Schranke
für die minimal
erreichbare
Varianz
ät
2
von
A(θ) ist unabhängig von den
xi , d.h.
E[A] = A. Ausserdem
ist
θ̂
in
diesem
Fa
∂ log L
E auf
−und
d.h. E[
θ̂] = θ. Bilden wir also die Erwartungswerte
beiden
der letzten
#θ)
Sei fb(θ)
(x; θ)
Wahrscheinlichkeitsdichtefunktion
θ̂2 Seiten
ein
beliebige
=eine
E[
θ]
−
θ.
Sei
fso
(x;
eine
Wahrscheinlichkeitsdichtefunktion
und
θ̂(5.10
ein
∂θ
ergibt sich
Aus
der Informationstheorie
lässt örige
sich zeigen,
dass es eine untere
Parameter
θ.
L
sei
die
zugeh
Likelihood-Funktion
und
Parameter
θ.
L
sei
die
zugeh
örige
Likelihood-Funktion
und
!
"
#
2Parameter
Schranke für
dieist
Varianz
eines Schätzers
für einen
gibt die auch n
! (SMV),
Dies
die
Schranke
Minimaler
Varianz
∂
log
L
ätzers θ̂. Dann gilt für die Varianz dieses Sch!ätzers
−A = E # 2 ! .
#
b(θ)
= E[b(θ)
θ]∂θ−=θ.bezeichnet
als Rao-Cramér-Frechet-Ungleichung
wird. Ein
θE[θ] − θ.
'2
&
'2 dieses Sc
Einsetzen
in Gl.
5.24
liefertθ̂. Dann gilt für&die Varianz
∂b
sei die Verzerrung
des
Sch
ätzers
sei die1Verzerrung
des Schätzers
θ̂." Dann
für die Varianz d
!
!gilt
# ∂b
+
2
!
!
$ %
1
+
∂
log
L
∂ log L ! $ &
'
%
! 2 (θ̂ ∂θ
= −E
− θ) '2
&
∂θ
!
!
2
∂b
∂θ
∂θ
∂b' + . (5.11
) . $ % Vθ θ̂ 1≥+ *&θ
V θ̂ ≥ ( 2
1 log
+ L 2
$
%
∂θ
∂
log
L
∂
5.25 ergibt
(θ̂θ =≥
V an
θ̂ der
≥ Stelle
E2θ̂ ( ) . ∂θ ) .
E Einsetzen
− in Gl.
V
!
∂ "log
L ∂θ
#2
2
2
∂θ 2
!
∂
log L
∂
log
L
∂ log LE
−
!
2
=
E
E∂θ2−
∂θ
∂θ 2 !θ=θ̂
∂θ 2
nimaler
Varianz
(SMV),
die auch
nach
einigen
ihrer Urhebe
Wenn also derMinimaler
ML-Schätzer effizient
ist, dann
ist der Erwartungswert
der zwe
Dies ist die Schranke
Varianz
(SMV),
die auch nach
ein
Diestung
istbezeichnet
dieLikelihood-Funktion
Schranke
Minimaler
Varianz
(SMV),
dieist
auch
der
gleich
demäquivalente
Wert
an der Stelle
des Eine
ML-Sch
ätzers
t-Ungleichung
wird.
Eine
Form
als Rao-Cramér-Frechet-Ungleichung
bezeichnet
wird.
äquiv
als Rao-Cramér-Frechet-Ungleichung
bezeichnet wird. Ei
Die Größe
'2
&
'2
&
$%
'
&2 ' ∂b &
" 2
# 2
∂b
1
+
∂
log
L
∂
log
L
∂b
+ Fisher: I(θ)$≡ %E
=
Information
nach1R.A
∂θE −1 +∂θ2
$ %
$
%
∂θ
+ .∂θ
∂θ
V θ̂ ≥ *&
'
2
+.
*&
+ . (5.12
V θ̂ ≥ *nennt
V θ̂ ∂≥log L
'2die
&
'
2
man
auch
die
Information
nach
R.
A.
Fisher.
Je
gr
ößer
Informat
→ je größer die Information,
desto kleiner E
der statistische∂Fehler.
log
L
∂
log
L
in der Likelihood-Funktion steckt, desto kleiner
kann die Varianz des Schätze
∂θ
E
E
→ Mittelwert der
Messungen
= wahren
Wert
sein
∂θ
Wir wiederholten
können die Information
auch alssollte
Funktion
der Wahrscheinlichkeitsdichtefu
∂θ
S. Lai u. M. Schumacher
Statistische Methoden.
der Datenanalyse;
Grundgesamtheit
angeben:
Kapitel 5
WiSe 2012/2013
z es
einedurch
Reihe
von
Kriterien.
die
Forderung,
dass
für
jedes
ε > 0definiert
gilt die
Regel
wird
diese
Schranke
nicht
erreicht
und man
Effizienz
n→∞
iel zwar
Mittelwert
und
Median
einer
Stichprobe
beides
konsitente
errung
(Bias)
(n)
(n)
!
!
Ein Schätzerfür
θ gute
heißt konsistent,
Kriterien
Schätzerwenn θ −→ θ. Da
als
n→∞
(n)
(n)
(n)=
ür
den
Mittelwert
einer
normalverteilten
Grundgesamtheit.
De
!(n) θ.
ist,
m
üssen
wir
diese
Konvergenz
durch
eine
Wahrschein
!
!
!
lim
P
(|
θ
−
θ|
>
ε)
0.
r θ 5.3.heißt
wenn
θ
−→
Da
θ
selbst
eine
DIE konsistent,
LIKELIHOOD-FUNKTION
#
!
n→∞
n→∞
SM
VFür εendliche
(n)
(n)
stenz
ist
eine
Eigenschaft
im
Grenzwert
n
→
∞.
n ka
zwar
durch
die
Forderung,
dass
f
ür
jedes
> 0 gilt
!
!
(n)
Konsistenz
"
edoch
derjenige,
der
auch
f
ür
endlichen
Umfang
der
Stichpr
nsistent,
wenn
θ
−→
θ.
Da
θ
selbst
eine
!
#
=
Effizienz
θ
wir diese Konvergenz durch eine WahrscheinlichkeitsaussageZd
"(n)Parameters
wert
des Sch
ätzers
durchaus
vom wahren
Wert
des
abweic
V
θ
(n)
Konsistenz
sollte
eine
Minimalforderung
f
ür
einen
guten
Sch
ätzer
!
ut,
d.h.
eine
m
öglichst
kleine
Varianz
hat.
Man
kann
zeigen,
lim
P
(|
θ
−
θ|
>
ε)
= 0.de
(n)
die
Forderung,
dass
f
ür
jedes
ε
>
0
gilt
n→∞
vergenz
durch
eine
Wahrscheinlichkeitsaussage
Stichprobe
n
keine
Verzerrung
aufweist
(b
=
0)
heißt
unverze
n→∞
(n)
(n)
(n)
(engl.
gegeben
durch
Ein
Schbias)
ätzerist
θ!eine
heißt
konsistent,
wenn
θ!die −→
θ. Daeines
θ! selb
nngBedingungen
untere
Schranke
f
ür
Varianz
Sc
fist,
ür nm
→
∞
verschwindet,
heißteine
der
Schätzer
asymptotisch
unv
(n)
Konsistenz
sollte
Minimalforderung
für einen guten
S
!
dass
f
ür
jedes
ε
>
0
gilt
üssen
wir
diese
Konvergenz
durch
eine
Wahrscheinlichkeitsa
lim
P
(|
θ
−
θ|
>
ε)
=
0.
(n)
(n)
!
chranke
Minimaler
Varianz
Suffizienz
Verzerrung
(Bias)
b (SM
= E[V
θ ) ]oder
− θ. Cramer-Rao-Schrank
n→∞
zwar durch die
dass sind
für jedes
ε>
0 giltEigenschaften e
undForderung,
Unverzerrtheit
unabh
ängige
zer,Konsistenz
dessen Varianz
diese
minimale
Schranke
erreicht, heißt
(n)
Verzerrung
!
sollte
eine
Minimalforderung
f(Bias)
ür
einen
guten
Sch
ätzer
sein.
möglichst
keinen
Bias
d.h.
Schätzer
ist
erwartungstreu.
beiden
impliziert
die
andere.
Ein
konsistenter
Sch
ätzer,
dessen
Ein
weitere
vorteilhafte
Eigenschaft
eines
Sch
ätzers
ist
Suffizienz,
dieendli
dan
erzerrung
h
ängt
ab
von
der
Art
des
Sch
ätzers,
vom
Umfang
der
Stich
lim
P
(|
θ
−
θ|
>
ε)
=
0.
Konsistenz
ist
eine
Eigenschaft
im
Grenzwert
n
→
∞.
F
ür
(n)
!
diese
Schranke
nicht
erreicht
und
man
definiert
die
Effizienz
lim
P
(|
θ
−
θ|
>
ε)
=
0.
"(n)
Konsistente Schätzer mit endlicher Varianz sind
n→∞
der Schendlichen
ätzerdes
θ Verteilung
(xMittelwert
..., xn )durchaus
die
inn→∞
derist
Stichprobe
{x1Wert
, ..., asymptotisch
xunabh
} enthaltene
1 ,ätzers
ndes
einen
hat,
jedoch
immer
er (unbekannten)
f (x;
θ).
Ein
Sch
ätzer,
der
ängig voIu
tungswert
Sch
vom
wahren
Paramete
Konsistenz
istder
eine
Eigenschaft
im Grenzwert n der
→ ∞.
asymptotisch
(nàunendlich)
erwartungstreu
θ vollständig ausnutzt.
Dies ist
Idealfall
der Datenreduktion:
n-diF
zerrung (engl.
gegeben
durch
tungswert
des Schätzers
durchaus
vom wahren
Wert
des P
Konsistenz
solltebias)
eine ist
Minimalforderung
für einen
guten Sch
ätzer
ng
(Bias)
tor der Meßwerte der
ist#auf eine
eindimensionale
(oder allge
! guten
malforderung
fzerrung
ürStichprobe
einen
Sch
ätzer
sein.
SM
V
(engl."bias)
ist gegeben(n)
durch
(n) ohne
(n)
dimensionale) GrößeEffizienz
θ"(n) reduziert,
dass
Information
!
!
Effizienz
θ b = = E[θ #] − θ. über θ verlor
(n)θ, wenn
(n)fbür
"
Technisch
ausgedrücktim
ist Grenzwert
ein Schätzer suffizient
, ...,
xka
n|
= E[
θ!(n)f](x
−1θ.
V
θ
ist Verzerrung
eine Eigenschaft
n
→
∞.
F
ür
endliche
n
von θVerzerrung
abhängt. (Bias)
Die
hängt ab von der Art des Schätzers, vom Umfang
Konsistenz
und Unverzerrtheit
legen
besten
Sch
ätzer
noch
ni
es Sch
ätzers durchaus
vomsollte
wahren
Wert
des
Parameters
abweic
Effizienz
an
“1”
Die
Verzerrung
hnahe
ängt
abden
vonsein.
der Art
des Sch
ätzers,
vom
von der
(unbekannten)
Verteilung
f (x; θ).
EinStichprobe
Schätzer, der
unabh
Beispiel
Mittelwert
und
Median
einer
beides
ko
ngl.zum
bias)
ist
gegeben
durch
von Eigenschaft
der (unbekannten)
Verteilung fn
(x;→
θ). ∞.
Ein F
Sch
d
Konsistenz ist eine
im Grenzwert
ürätzer,
endlic
Varianz des Schätzers
ist unabhängig vonGrundgesam
der
Robustheit
ätzer für
einervom
normalverteilten
z Sch
tungswert
desden
SchMittelwert
ätzers
durchaus
wahren
Wert
des
Paramete
(n)
(n)
!
WDF
der
Grundgesamtheit
bist gegeben
= E[
θ auch
] − θ.
ist
dann
jedochbias)
derjenige,
der
fürürendlichen
Umfang
der
zerrung
(engl.
durch
chaft
im
Grenzwert
n
→
∞.
F
endliche
n
kan
Die Eigenschaften eine Schätzers hängen von der Wahrscheinlichkeitsdich
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
Ein Schätzer für den Erwartungswert
Parameter:
(‘Stichprobenmittelwert’)
Schätzer:
Man kann zeigen: ist konsistent
ist erwartungstreu
ist effizient für Gauss-WDF (aber nicht für alle WDFs)
Der Fehler auf den Schätzer für den Erwartungswert ist gegeben durch
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
i=1
i=1
nsistenter Schätzer für E[x], sofern die Varianz der Grundgesamtheit V [x] endlich ist.
m Spezialfall einerArith.
gaußverteilten
Grundgesamtheit
ist das arithmetische Mittel auc
Mittelwert
für
Gauss-WDF
Spezialfall
einer gaußverteilten
Grundgesamtheit
ist das arithmetische
auchein
ein
unter Verwendung
einer Aussage
des zentralen Grenzwertsatzes.
Somit Mittel
ist x auch
ffizienter
Sch
ätzer.
In
diesem
Fall
ist
zienter
Schätzer. Sch
In ätzer
diesem
konsistenter
für Fall
E[x],ist
sofern die Varianz der Grundgesamtheit V [x] endlich ist.
Die log-Likelihood-Funktion lautet:
Im Spezialfall einer gaußverteilten Grundgesamtheit ist das arithmetische Mittel auch ein
"
" ##
##
n"
"
n ist !
2
effizienter Schätzer. In diesem Fall
2
!
1
1
(xi − µ) (xi − µ)
log √exp − exp
−
(
(5.34)
log Llog=L = log √
2
2
2
2
2σ
2σ
2πσ 2πσ "
"
##
i=1 n
⇒
i=1
!
1
(xi − µ)2
n
$log√ √$% !
exp%(x− −
log L =
nµ)22
!
√
i
2
2σ (xi − µ)2
= −n
log
−
i=1 σ 2π2πσ
= −n log
σ 2π n −2σ 2
2
$ √ % i=1!
(xii=1
− µ)2 2σ
= −n log σ 2π −
∂ 2 log2L
n
2σ 2
∂2 log=L − 2
n
∂µ
σ
2
⇒
=
−
∂ log
L
n
⇒
= − 2σ 2
∂µ22
∂µ
i=1
(5.34)
(5.35)
(5.35)
(5.36)
(5.36)
σ
(
(
SMV ist damit
DieSchranke
SMV
ist damit
minimaler Varianz ergibt sich zu:
ie Die
SMV
ist damit
σ2
V [x]
2
'
=
=
= V [x]
SMV = & 2
σ
V [x]
1
2
n
n
∂
log
L
&
'
=
=σ
=
[x]
SMV =
V V[x]
21
E
−
n
n
∂
log
L
'=
=
= V [x]
SMV = E &∂θ
−2 2 2
1
E −
∂∂θlog L
∂θ 2
n
(5.37)
(5.37)
n
s arithmetische
Mittel Mittel
erreicht
in diesem
(wichtigen)
Spezialfall
SMV.
Das arithmetische
erreicht
in diesem
(wichtigen)
Spezialfallalso
also die
die SMV.
der
Schätzer
eine
Effizienz von
100%
SchD.h.
ätzer
fürätzer
die
Varianz
V hat
[x] der
hatten
derStichStichAls Sch
für die Varianz
V [x]Grundgesamtheit
der Grundgesamtheit
hattenwir
wirdie
dieVarianz
Varianz der
as
arithmetische
Mittel
erreicht
in
diesem
(wichtigen)
Spezialfall
also
die
SMV.
probe
definiert:
obe
definiert:
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
(
er Grundgesamtheit lernen will. Im folgenden nehmen wir stets an, dass die Stichproben
ufällig sind.
Vergleich von 2 Schätzern für den Erwartungswert
.2
Gauss-WDF
Eigenschaften von Sch
ätzern
Gleichverteilung
s gibt keine allgemein gültigen Regeln für die Konstruktion eines Schätzers für einen
estimmten unbekannten Parameter. Ist beispielsweise der Mittelwert µ der Verteilung
(x) gesucht und wurde eine Stichprobe vom Umfang n genommen, so könnten wir unter
nderem folgende Schätzer µ
! in Betracht ziehen:
µ
!=x=
µ
!=
µ
!=
1
10
1
n
"n
"10
i=1
i=1 xi
den Mittelwert der Stichprobe
xi
den Mittelwert der ersten 10 Punkte der Stichprobe robust
"n
i=1 xi
n/(n − 1) mal den Mittelwert der Stichprobe
µ
! = (min(xi ) + max(xi ))/2
Mittelwert des größten und kleinsten Wertes
1
n−1
µ
! = 42
µ
! = Median der Stichprobe
effizienter
für
Gleichverteilung
iese Liste ließe sich ohne Weiters verlängern. Welches ist ein “guter” Schätzer? Hier gibt
eine Reihe von Kriterien.
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
Robustheit: „truncated mean“
Gaussische WDf
Breit-Wigner WDF
Ungefähr gleiche Varianz in Wertebereich
Aufgabe: gute Schätzer finden für den Symmetriepunkt der Verteilung ( x=0 )‫‏‬
Arithmetischer Mittelwert?
Lineare
y-Achse
Log
y-Achse
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
Robustheit: „truncated mean“
Stichprobe von 101 Zufallszahlen xi von jeder PDF.
Breit Wigner: sehr grosse Werte |xi| führt zu großen
Werte für arithmetischen Mittelwert <xi>.
S. Lai u. M. Schumacher
100 000 Stichproben
==> WDF für arithmetischen Mittelwert, <xi>
Breit Wigner: viel größere Varianz als für Gauß
wegen Stichproben mit großen
Einzelwerten xi (siehe unten, links)‫‏‬
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
Robustheit: „truncated mean“
Stichprobe von 101 Zufallszahlen xi von jeder PDF.
Breit Wigner: sehr grosse Werte |xi| führt zu grosse
Werte für aritmetische Mittlewert <xi>.
Verbesserte Schätzer für Symmetriepunkt für Breit
Wigner: 10% grösste und kleinste Werte für x_i
ignorieren, dann <xi> berechnen (Englisch:
“truncated mean”)‫‏‬
==> viel kleinere Varianz für <xi> für Breit Wigner
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
Robustheit: „truncated mean“
WDF für aritmetische Mittelwert, <xi>
WDF für aritmetische Mittelwert, <xi>
NORMAL
10% größte und kleinste Werte ignoriert
Vorher
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
Nachher
WiSe 2012/2013
Robustheit: „truncated mean“
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 6
WiSe 2012/2013
Robustheit:
„truncated
mean“ignoriert
RMS
RMS von
von <x_i>
<x_i> als
als Funktion
Funktion von
von %-Anteil
%-Anteil ignoriert
“truncated” Mittelwert kann den Fehler auf den Schätzer verbessern.
Prof. Markus Schumacher
Chapter 4: Grundlagen der Parameterschätzung
Uni. Freiburg / WS09
Prof.
Markus
Schumacher
Chapter 4: Grundlagen
der Parameterschätzung
Uni. Freiburg / WS09
Hängt
von
Menge
des Abschneidens
und
WDF ab.
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
Ein Schätzer für die Varianz
Parameter:
Schätzer:
(‘Stichprobenvarianz’)
Man kann zeigen: ist konsistent (mit und ohne Besselkorrektur (n/n-1) )
erwartungstreu (ohne n/n-1 Korrektur
nur asymptotisch erwartungstreu)
Der Fehler auf den Schätzer für die Varianz ist gegeben durch
S. Lai u. M. Schumacher
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
Ein
+1
(xi − x)2
RM S = ,
Schätzer für ndie Varianz
i=1
Die Varianz der Varianz der Stichprobe ist
$
i=1
n
!
%
1
oder:
Die
Varianz der Varianz
Stichprobe
isti − x)2
= V
(x
(5.50)
V [σS2 ] der
n−1 $
%
i=1
n
$ n 1 !%
2V [x]2
! (xi − x)2 (x − x)2
]
=
V
V
[σ
i
= S
V
(5.51)
n
−
1
2
(n − 1)
V [x]
i=1
i=1
$ n
%
! der
[x]2dann folgt
(xi Term
− x)2in den eckigen
Wenn die Grundgesamtheit einer Gaußverteilung V
folgt,
V
2
Klammern einer Chiquadratverteilung mit=(n −(n1)−Freiheitsgraden,
1)
Vhat
[x]also die Varianz
i=1 folgt der Ausdruck
Grundgesamtheit
einer Gauss-WDF folgt, dann
(n −Wenn
1). Damit
erhalten wir
in derdie
eckigen
Klammer
Chi-Quadrat-WDF
n-1 dann
FG, folgt der Term in
Wenn
Grundgesamtheit
einer
Gaußverteilungmit
folgt,
2V [x]2 einer
2
Grundgesamtheit.
=Chiquadratverteilung
Veiner
[σS ] 2(n-1)
Deren Varianz
ist. für gaußverteiltemit
Klammern
(n − 1) Freiheitsgraden, (5.52)
hat also
(n − 1)
2(n − 1). Damit erhalten wir
V
S. Lai u. M. Schumacher
[σS2 ]
2V [x]2
für gaußverteilte Grundgesamtheit.
=
(n − 1)
Statistische Methoden. der Datenanalyse; Kapitel 5
WiSe 2012/2013
hätzer für die algebraischen Momente
n−1
# kann
σσS =
V [σS ] =
i=1dσS
d(σS )2
2
V [σS2 ] =
1
2σS
V [σS2 ].
n
Schätzer
für
die
Kovarianz
er für die algebraischenEin
Momente
'
1kann
k
rwendet werden.
µ
&k =
(xi − x)
n
n
−
1
Als Schätzer1 für'
die algebraischen
Momente kann
i=1 k
(5.54)
(5.55)
µ
&k ätzer
= und
(xi −
x)
(5.55)
Ein konsistenter
erwartungstreuer
Schätzer
für
die
Koarianzenxist:
n unverzerrter
Sch
die
Kovarianzmatrix
zweier
Zufallsvariablen
und y ist
n − f1ür
n
det werden.
i=1
n
'
µ
&k =
1 '
(xi − x)k
n−1
werden. Schätzer für die Kovarianzmatrix
i=1
1
n
verzerrter
zweier Zufallsvariablen
x und y ist
(
Vxy =
(xi − x)(yi − y) =
(5.55)
(xy − x y)
(5.5
errter Schätzer für
die Kovarianzmatrix
zweier Zufallsvariablen
x und
−1
n−
1 y ist
verwendet
werden.
nn
i=1
1 '
n
(
(xi −Sch
x)(y
−
y)
=
(xy − x y)zweier Zufallsvariablen
(5.56)
Vxy =Ein'
nunverzerrter
ätzer
f
ür
die
Kovarianzmatrix
x und y ist
i
1 n−1
n n−1
= man als(xSch
− x)(y
(xy − x y)
(5.56)
V(xyält
amit erh
ätzer
für=den'
Korrelationskoeffizienten
ii=1
i − y)
n
n−1
n
−
1
n
i=1
(xy = 1
Schätzer
für
die
Korrelationskoeffizienten
sind
:
(x
−
x)(y
−
y)
=
(xy − x y)
V
i
i
erhält man als Schätzer für den (Korrelationskoeffizienten
n−1
n−1
i=1
Vxy
xy − x y
ält man als Schätzer für den
Korrelationskoeffizienten
)
=
ρ
(
=
+*
+
V(xy
xy −fürx*den
y Korrelationskoeffizienten
σ
σ
Damit erh
ält man
als
Sch
ätzer
S,x
S,y
= )xy
(5.57)
ρ( V
=
2 − y2
(xy
* − x y + * x2 − x+2
y
σ
σ
S,x
S,y
=)
(5.57)
ρ( =
σS,x σS,y
*
* xV(2xy y+2 − y 2
x2 2+ −
2= )
2
2
ρ
(
=
x −x
*
σy −
σy
r den Fall, dass x und y einer
xy − x y
+*
+
S,x S,y
2
2
2
2
x − xGaußverteilung
y −y
zweidimensionalen
(5.56)
(5.5
(5.57)
folgen, findet man
n Fall,Für
dass2-dimensionale
x und y einer zweidimensionalen
Gaußverteilung folgen, findet man
Gauss-WDF gilt:
all, dass x und y einer zweidimensionalen Gaußverteilung folgen, findet man
2)
Für den Fall, dass x und y einer
Gaußverteilung folgen, findet man
2 ) zweidimensionalen
ρ(1
−
ρ
ρ(1
−
ρ
−2
2
−2
O(n
)
] ρ=
) ρ −−2
ρ(1
−
+ O(n ) +
(5.58)
E[(
ρ] = E[(
ρρ−
2
+
O(n
)
(5.58)
E[(
ρ] = ρ −
ρ(1 − ρ )
2n
2n
2n
+ O(n−2 )
(5.58)
E[(
ρ] = ρ −
1
2n
1
2
2
−2
2 2
−2
2] 2−=
−2
ρ] 1 =
) +
O(n
[(
(1
) (5.59) (5.59)
V [(
ρ] V=[(
(1V−n
ρρ(1
) +ρO(n
) − 1ρ )) +2 2O(n −2
V [(
(5.59)
n
nρ] = n (1 − ρ ) + O(n )
(5.5
(5.5
so asymptotisch
nur asymptotisch
unverzerrt,
obwohl
V(xy
σS,xunverzerrte
, σS,y( unverzerrte
Schätzer sind.
ur
unverzerrt,
obwohl
V(xy , σS,x
, σ, S,y
Sch
ρ
(
ist
also
nur
asymptotisch
unverzerrt,
obwohl
, σS,x
σS,ysind.
unverzerrte
Schätzer
sind.
st also
nur
asymptotisch
unverzerrt,
obwohl
Vxy ,V(σxyS,x
,ätzer
σ, S,y
unverzerrte
Schätzer
sind
d.h.
nur
asymptotisch
unverzerrt,
obwohl
erwartungstreu
sind.
hls arithmetische
das arithmetische
Mittel
ein
unverzerrter,
Sch
ätzer
ür den
Mittelwert
Mittel
eindas
unverzerrter,
konsistenter
Schätzer
für
den fMittelwert
Obwohl
arithmetische
Mittelkonsistenter
ein unverzerrter,
konsistenter
Sch
ätzer für den Mittelwert
S. Lai u.
M. arithmetische
Schumacher
Statistische
Methoden.
der Datenanalyse;
Kapitel
5älle,
2012/2013
bwohl
das
Mittel
ein
unverzerrter,
konsistenter
Sch
ätzer
fWiSe
ür den
Mittelw
undgesamtheit
ist
und
sicherlich
am
meisten
verwendet
wird,
gibt
es
F
denen
gesamtheit
ist
und
sicherlich
am
meisten
verwendet
wird,
gibt
es
F
älle,
in
denen
der Grundgesamtheit ist und sicherlich am meisten verwendet wird,in
gibt
es Falle, in denen
Herunterladen