Kapitel III Induktive Statistik

Werbung
Kapitel III Induktive Statistik
1. Einfuhrung
Das Ziel der induktiven Statistik besteht darin, aus gemessenen Zufallsgroen auf die
zugrunde liegenden Gesetzmaigkeiten zu schlieen. Im Gegensatz dazu spricht man
von deskriptiver Statistik, wenn man sich damit beschaftigt, groe Datenmengen
verstandlich aufzubereiten, beispielsweise durch Berechnung des Mittelwertes oder
anderer abgeleiteter Groen.
DWT
c Susanne Albers und Ernst W. Mayr
1 Einfuhrung
302/462
2. Schatzvariablen
Wir betrachten die Anzahl X von Lesezugrien auf eine Festplatte bis zum ersten
Lesefehler und nehmen an, dass Pr[X = i] = (1 p)i 1 p, setzen also fur X eine
geometrische Verteilung an. Dahinter verbirgt sich die Annahme, dass bei jedem
Zugri unabhangig und mit jeweils derselben Wahrscheinlichkeit p ein Lesefehler
auftreten kann.
Unter diesen Annahmen ist die Verteilung der Zufallsvariablen X eindeutig festgelegt.
Allerdings entzieht sich der numerische Wert des Parameters p noch unserer Kenntnis.
Dieser soll daher nun empirisch geschatzt werden. Statt p konnen wir ebensogut E[X ]
bestimmen, da wir daraus nach den Eigenschaften der geometrischen Verteilung p
mittels p = E[1X ] berechnen konnen.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
303/462
Dazu betrachten wir n baugleiche Platten und die zugehorigen Zufallsvariablen Xi (fur
1 i n), d. h. wir zahlen fur jede Platte die Anzahl von Zugrien bis zum ersten
Lesefehler. Die Zufallsvariablen Xi sind dann unabhangig und besitzen jeweils dieselbe
Verteilung wie X . Wir fuhren also viele Kopien eines bestimmten Zufallsexperiments
aus, um Schlusse auf die Gesetzmaigkeiten des einzelnen Experiments ziehen zu
konnen. Dies ist das Grundprinzip der induktiven Statistik. Die n Messungen heien
Stichproben, und die Variablen Xi nennt man Stichprobenvariablen.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
304/462
Grundprinzip statistischer Verfahren
Wir erinnern an das Gesetz der groen Zahlen (Satz 63) bzw. den Zentralen
Grenzwertsatz (Satz 108). Wenn man ein Experiment genugend oft wiederholt, so
nahert sich der Durchschnitt der Versuchsergebnisse immer mehr dem Verhalten an,
das man im Mittel\ erwarten wurde. Je mehr Experimente wir also durchfuhren, umso
"
genauere und zuverlassigere Aussagen konnen wir uber den zugrunde liegenden
Wahrscheinlichkeitsraum ableiten. Auf diesem Grundprinzip beruhen alle statistischen
Verfahren.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
305/462
Um E[X ] empirisch zu ermitteln, bietet es sich an, aus den Zufallsvariablen Xi das
arithmetische Mittel X zu bilden, das deniert ist durch
n
X
1
Xi :
X :=
n
i=1
Es gilt
E[X ] =
n
n
1X
1X
E[X ] =
E[X ] = E[X ]:
n i=1
i
n i=1
X liefert uns also im Mittel den gesuchten Wert E[X ]. Da wir X zur Bestimmung von
E[X ] verwenden, nennen wir X einen Schatzer fur den Erwartungswert E[X ]. Wegen
der obigen Eigenschaft ist X sogar ein so genannter erwartungstreuer Schatzer.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
306/462
Denition 112
Gegeben sei eine Zufallsvariable X mit der Dichte f (x; ). Eine Schatzvariable oder
kurz Schatzer fur den Parameter der Dichte von X ist eine Zufallsvariable, die aus
mehreren (meist unabhangigen und identisch verteilten) Stichprobenvariablen
zusammengesetzt ist. Ein Schatzer U heit erwartungstreu, wenn gilt
E[U ] = :
Bemerkung:
Die Groe E[U
] nennt man Bias der Schatzvariablen U . Bei erwartungstreuen
Schatzvariablen ist der Bias gleich Null.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
307/462
Der Schatzer X ist also ein erwartungstreuer Schatzer fur den Erwartungswert von X .
Ein wichtiges Ma fur die Gute eines Schatzers ist die mittlere quadratische
Abweichung, kurz MSE fur mean squared error genannt. Diese berechnet sich durch
MSE := E[(U )2 ]. Wenn U erwartungstreu ist, so folgt
MSE = E[(U E[U ])2 ] = Var[U ].
Denition 113
Wenn die Schatzvariable A eine kleinere mittlere quadratische Abweichung besitzt als
die Schatzvariable B , so sagt man, dass A ezienter ist als B .
Eine Schatzvariable heit konsistent im quadratischen Mittel, wenn MSE ! 0 fur
n ! 1 gilt. Hierbei bezeichne n den Umfang der Stichprobe.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
308/462
Fur X erhalten wir wegen der Unabhangigkeit von X1 ; : : : ; Xn
"
n
1X
MSE = Var[X ] = Var
Xi
n
= n12
DWT
c Susanne Albers und Ernst W. Mayr
n
X
i=1
#
i=1
Var[Xi ] = n1 Var[X ]:
2 Schatzvariablen
309/462
Bei jeder Verteilung mit endlicher Varianz folgt MSE = O(1=n) und somit MSE ! 0
fur n ! 1. Der Schatzer X ist also konsistent.
Aus der Konsistenz von X im quadratischen Mittel konnen wir mit Hilfe des Satzes
von Chebyshev (siehe Satz 61) folgende Konsequenz ableiten. Sei " > 0 beliebig, aber
fest. Dann gilt
X]
!0
Pr[jX j "] = Pr[jX E[X ]j "] Var[
2
"
fur n ! 1. Fur genugend groe n liegen also die Werte von X beliebig nahe am
gesuchten Wert = E[X ]. Diese Eigenschaft nennt man auch schwache Konsistenz, da
sie aus der Konsistenz im quadratischen Mittel folgt.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
310/462
Als nachstes betrachten wir eine weitere von X abgeleitete Schatzvariable:
S :=
v
u
u
t
1
n
X
n 1 i=1
(Xi X )2 :
Wir zeigen, dass S 2 ein erwartungstreuer Schatzer fur die Varianz von X ist. Sei
:= E[X ] = E[Xi ] = E[X ].
(
Xi
X )2 = (Xi
= (Xi
+ X )2
)2 + ( X )2 + 2(Xi
)2 + (
Xi
= (
=
DWT
c Susanne Albers und Ernst W. Mayr
n
2
n
Xi
(
X )2
)2 + (
2
n
X
n j =1
X )2
2 Schatzvariablen
)(
(
Xi
2
)(Xj
X
n j 6=i
X)
(
Xi
)
)(Xj
):
311/462
Fur je zwei unabhangige Zufallsvariablen Xi , Xj mit i 6= j gilt
E[(Xi )(Xj )] = E[Xi ] E[Xj ]
= (E[Xi ] ) (E[Xj ] ) = 0 0 = 0:
Daraus folgt
n 2
E[(Xi )2] + E[( X )2]
n
= n n 2 Var[Xi ] + Var[X ]:
E[(Xi X )2 ] =
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
312/462
Wegen Var[Xi ] = Var[X ] und Var[X ] = n1 Var[X ] folgt nun
E[(Xi X )2 ] =
n 1
Var[X ];
n
und somit gilt fur S 2
E[S 2 ] =
1
n
X
E[(Xi X )2 ]
n 1 i=1
= n 1 1 n n n 1 Var[X ] = Var[X ]:
S 2 ist also eine erwartungstreue Schatzvariable fur die Varianz von X .
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
313/462
Die vorangegangene Rechnung erklart, warum man als Schatzer nicht
n
1X
(X
n i=1
i
!
X )2 6= S 2
verwendet, wie man vielleicht intuitiv erwarten wurde.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
314/462
Denition 114
Die Zufallsvariablen
X :=
n
n
1X
1 X
Xi und S 2 :=
(Xi X )2
n
n 1
i=1
i=1
heien Stichprobenmittel bzw. Stichprobenvarianz der Stichprobe X1 ; : : : ; Xn . X und
S 2 sind erwartungstreue Schatzer fur den Erwartungswert bzw. die Varianz.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
315/462
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
Wir betrachten nun ein Verfahren zur Konstruktion von Schatzvariablen fur Parameter
von Verteilungen. Sei
X~ = (X1 ; : : : ; Xn ):
Bei X1 ; : : : ; Xn handelt es sich um unabhangige Kopien der Zufallsvariablen X mit der
Dichte f (x; ). Hierbei sei der gesuchte Parameter der Verteilung. Wir setzen
f (x; ) = Pr[X = x];
wobei ein Parameter der Verteilung ist.
Wenn wir den Parameter explizit angeben wollen, so schreiben wir dafur auch
f (x; ) = Pr [X = x]. Eine Stichprobe liefert fur jede Variable Xi einen Wert xi .
Diese Werte fassen wir ebenfalls zu einem Vektor ~x = (x1 ; : : : ; xn ) zusammen.
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
316/462
Der Ausdruck
L(~x; ) :=
n
Y
i=1
f (xi ; ) =
n
Y
i=1
Pr [Xi = xi ]
= Pr [X1 = x1 ; : : : ; Xn = xn ]
unabh.
entspricht der Wahrscheinlichkeit, dass wir die Stichprobe ~x erhalten, wenn wir den
Parameter mit dem Wert belegen.
Wir betrachten nun eine feste Stichprobe ~x und fassen L(~x; ) somit als Funktion von
auf. In diesem Fall nennen wir L die Likelihood-Funktion der Stichprobe.
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
317/462
Es erscheint sinnvoll, zu einer gegebenen Stichprobe ~x den Parameter so zu wahlen,
dass L(x; ) maximal wird.
Denition 115
Ein Schatzwert b fur den Parameter einer Verteilung f (x; ) heit
Maximum-Likelihood-Schatzwert (ML-Schatzwert) fur eine Stichprobe ~x, wenn gilt
L(~x; ) L(~x; b) fur alle :
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
318/462
Beispiel 116
Wir konstruieren mit der ML-Methode einen Schatzer fur den Parameter p der
Bernoulli-Verteilung. Es gilt Prp [Xi = 1] = p und Prp [Xi = 0] = 1 p. Daraus
schlieen wir, dass Prp [Xi = xi ] = pxi (1 p)1 xi , und stellen die Likelihood-Funktion
n
Y
L(~x; p) = pxi (1 p)1 xi
i=1
auf.
Wir suchen als Schatzer fur p den Wert, an dem die Funktion L maximal wird. Wir
erhalten
n
ln L(~x; p) =
X
i=1
(xi ln p + (1 xi ) ln(1 p))
= nx ln p + (n nx) ln(1 p):
P
Hierbei bezeichnet x das arithmetische Mittel n1 ni=1 xi .
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
319/462
Beispiel (Forts.)
Wir nden das Maximum durch Nullsetzen der Ableitung:
d ln L(~x; p)
dp
= npx n1 npx = 0:
Diese Gleichung hat die Losung p = x.
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
320/462
Beispiel 117
Die Zufallsvariable X sei N (; 2 )-verteilt, und wir suchen Schatzvariablen fur die
Parameter und . Nach Denition der Likelihood-Funktion gilt
L(~x; ; 2 ) =
p1
2
n
n
Y
i=1
exp
(xi )2 :
2 2
Durch Logarithmieren erhalten wir
X
p
ln L(~x; ; 2 ) = n(ln 2 + ln ) +
i=1
n DWT
c Susanne Albers und Ernst W. Mayr
(xi )2 :
2 2
321/462
Beispiel 117
Fur die Nullstellen der Ableitungen ergibt sich
also
n
@ ln L X
= xi2 =! 0;
@
i=1
n
(xi )2 =! 0;
@ ln L
n X
=
+
@
i=1 3
= x und 2 =
n
1X
(x
n i=1
i
)2 :
Wir haben also durch die ML-Methode fast\ das Stichprobenmittel und die
"
Stichprobenvarianz erhalten. Allerdings besitzt der Schatzer fur die Varianz hier den
Vorfaktor n1 statt n 1 1 . Die ML-Schatzvariable fur die Varianz ist somit nicht
erwartungstreu.
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
321/462
3. Kondenzintervalle
Bei der Verwendung von Schatzvariablen geht man davon aus, dass der erhaltene
Schatzwert nahe\ beim gesuchten Parameter liegt. Die Schatzungen werden
"
besser\, je groer die betrachtete Stichprobe ist. Diese Angaben sind aus
"
quantitativer Sicht naturlich unbefriedigend, da nicht erkennbar ist, wie gut man sich
auf den Schatzwert verlassen kann.
Die Losung dieses Problems besteht darin, statt einer Schatzvariablen U zwei Schatzer
U1 und U2 zu betrachten. U1 und U2 werden so gewahlt, dass
Pr[U1 U2 ] 1 :
Die Wahrscheinlichkeit 1 heit Kondenzniveau und kann dem
Sicherheitsbedurfnis\ angepasst werden.
"
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
322/462
Wenn wir fur eine konkrete Stichprobe die Schatzer U1 und U2 berechnen und davon
ausgehen, dass 2 [U1 ; U2 ] ist, so ziehen wir hochstens mit Wahrscheinlichkeit einen
falschen Schluss. [U1 ; U2 ] heit Kondenzintervall.
In vielen Fallen verwendet man nur eine Schatzvariable U und konstruiert mittels
U1 := U und U2 := U + ein symmetrisches Kondenzintervall [U ; U + ].
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
323/462
Sei X eine N (; 2 )-verteilte Zufallsvariable, und seien X1 ; : : : ; Xn n zugehorige
Stichprobenvariablen. Gema der Additivitat der Normalverteilung (siehe Satz 106) ist
2
das Stichprobenmittel X ebenfalls normalverteilt mit X N (; n ). Wir suchen fur X
ein symmetrisches Kondenzintervall.
Nach Satz 93 ist
standardnormalverteilt.
p X Z := n DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
324/462
Fur Z betrachten wir das Kondenzintervall [ c; c] fur ein geeignetes c > 0 und setzen
Pr[ c Z c] =! 1 :
Auosen nach ergibt
Pr X
pcn
X + pcn =! 1 :
Das gesuchte Kondenzintervall lautet also
K = [X
pcn ; X + pcn ] :
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
325/462
Den Parameter c wahlen wir wie folgt:
Pr[ c Z c] = (c) ( c) =! 1 :
Wegen der Symmetrie von gilt ( x) = 1
(x) und wir erhalten
(c) ( c) = 2 (c) 1 =! 1 () (c) = 1 2 ;
also
c= 1 1
2 :
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
326/462
Denition 118
X sei eine stetige Zufallsvariable mit Verteilung FX . Eine Zahl x mit
FX (x ) = heit -Quantil von X bzw. der Verteilung FX .
Denition 119
Fur die Standardnormalverteilung bezeichnet z das -Quantil.
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
327/462
Damit konnen wir das gesuchte Kondenzintervall angeben durch
K= X
z(1 2 ) z(1 2 ) pn ; X + pn :
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
328/462
Herunterladen