9 Statistische Probleme

9
Statistische Probleme
Grundlage aller statistischen Probleme sind probabilistische Modelle mit Parametern, die dem “Statistiker” nicht oder nicht vollständig bekannt sind. Aus Beobachtungsdaten sollen dann Rückschlüsse
auf diese Parameter gezogen werden, die den Grad der Unsicherheit einschränken. Das Grundproblem
ist daher sehr ähnlich zum Problem der “Fragestrategien” des letzten Kapitels, obwohl die Gesichtspunkte etwas anders liegen.
Ein einfaches Beispiel ist eine Binomialverteilung mit Erfolgswahrscheinlichkeit p, wobei p nicht
zum vornherein bekannt ist. Jedermann ist schon solchen Problemen begegnet, z.B. ist sicher schon
jeder beim Würfelspielen nach eine Pechsträhne auf den Gedanken gekommen, ob denn die Wahrscheinlichkeiten für die einzelnen Augenzahlen wirklich dieselben seien. Es ist naheliegend, solche
Zweifel anhand von (langen) Versuchsreihen zu testen.
Man unterscheidet zwei Typen von statistischen Problemen, die miteinander zusammenhängen:
Einerseits gibt es die Testprobleme. Hier geht es darum, eine Hypothese anhand von Daten zu testen.
Eine typische Hypothese wäre etwa, dass der Würfel o.k. ist, die der sogenannten Alternative gegenüber gestellt wird, nämlich dass er gezinkt ist. Ein anderes Beispiel: Man interessiert sich dafür, ob ein
neues Medikament gegenüber älteren eine wie man sagt signifikant besser ist. Man formuliert dann
eine sogenannte 0-Hypothese, die besagt, dass kein Unterschied besteht, bzw. das neue Medikament
höchstens so gut wie das alte ist. Die Hypothese wird dann einem statistischen Test aufgrund von
Daten unterworfen. Je nach Ausgang des Tests wird man die 0-Hypothese verwerfen. Man sagt dann
auch, dass die Daten signifikant nicht mit der 0-Hypothese in Einklang zu bringen sind.
Der zweite Typus von Problemen (die wir jedoch zuerst behandeln) sind Schätzprobleme. Hier
geht es darum, Parameter in einem Modell zu schätzen. Ein typisches Beispiel ist die Schätzung des
Parameters p in einem Bernoulliexperiment.
Das Kapitel gliedert sich in drei Unterabschnitte. In einem ersten diskutieren wir Schätzprobleme,
in einem zweiten Testprobleme, und in einem dritten kommen wir auf Schätzprobleme zurück, nämlich
auf sogenannte Konfidenzschätzungen.
Noch etwas zur Notation: In Abweichung von früheren Gepflogenheiten bezeichnen wir die Wahrscheinlichkeiten der Elementarereignisse mit P (ω) , hauptsächlich um P von Parametern, wie p
des Bernoulli-Experiments, abzugrenzen. Die meisten Wahrscheinlichkeiten in diesem Kapitel werden noch von Parametern abhängen. wir schreiben dann den Parameter als Index, z.B. Pp für das
Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p. n, die Länge des Experiments, ist natürlich
(n)
auch ein Parameter. Wenn wir ihn betonen wollen schreiben wir Pp .
9.1
Einfache Schätzprobleme
Schätzprobleme bestehen einfach darin, dass gewisse Parameter eines Modells aufgrund von erhobenen
Daten geschätzt werden sollen.
Betrachten wir etwa ein Bernoulli-Experiment mit (unbekanntem) Parameter p. Wir gehen davon
aus, dass wir das Zufallsexperiment, wie im Bernoulli-Experiment beschrieben, n-mal unabhängig
wiederholen. Bezeichnet Xn die Anzahl der Erfolge, so wissen wir, dass Xn binomialverteilt mit
Parametern p und n ist. Wir setzen voraus, dass wir n kennen. Eine naheliegende Schätzung von p
ist Xn /n. Es ist üblich, eine derartige Schätzung eines Parameters mit einem “Dach” über dem zu
schätzenden Parameter zu bezeichnen; wir schreiben also
Xn
.
(9.1)
n
Dies ist natürlich eine Zufallsgrösse. Nach der erfolgten “Messung”, d.h. der Realisierung des Zufallsexperimentes, ist p̂n natürlich einfach eine Zahl. Manchmal macht man die Unterscheidung nicht sehr
p̂n :=
1
sorgfältig. Es ist jedoch klar, dass wir uns hauptsächlich für die probabilistischen Aspekte interessieren, d.h. dass wir Eigenschaften von p̂n als Zufallsgrösse diskutieren.
Es ist wichtig, einige grundlegende Annahmen festzuhalten, über deren Berechtigung viel Tinte
verspritzt worden ist: Wir nehmen in diesem Beispiel (und hier fast durchgehend) keinesfalls an,
dass p selbst zufällig ist. Im Gegenteil betrachten wir p als eine feste Zahl, die bloss dem Statistiker
(zunächst) unbekannt ist. Es hat daher keinen Sinn, nach der Wahrscheinlichkeit zu fragen, mit der
p = 1/6 ist. Es ist jedoch sinnvoll zu fragen, mit welcher Wahrscheinlichkeit p̂n sich um weniger als
0.1 von p unterscheidet.
Zunächst einige theoretische Konzepte. Wir betrachten einen Wahrscheinlichkeitsraum (Ω, Pθ ) .
Dabei ist Pθ eine Wahrscheinlichkeit, die noch von einem Parameter θ abhängt, der “unbekannt”
ist. Dieser Parameter kann im Prinzip ziemlich beliebig sein; wir nehmen jedoch an, dass θ =
(θ1 , . . . , θm ) ∈ Rm gilt, meist sogar einfach θ ∈ R. In letzterem Fall nennt man den Parameter
eindimensional. Oft tritt jedoch die Situation ein, dass nicht jeder mögliche Vektor in Rm (oder im
eindimensionalen Fall jede reelle Zahl) tatsächlich ein Parameter ist. Auch im Bernoulli-Experiment
ist ja der Parameter p auf das Intervall [0, 1] eingeschränkt. Die Menge aller Parameterwerte, die
vorkommen können, bezeichnen wir mit Θ ⊂ Rm . Für jeden möglichen Parameter θ ∈ Θ ist also ein
Wahrscheinlichkeitsmass Pθ auf Ω definiert ist. Erwartungswerte bezüglich Pθ schreiben wir als Eθ . Es
werden jedoch oft auch unendlichdimensionale Parametermengen diskutiert. Im Jargon der Statistik
nennt man solche Situationen etwas missverständlich nichtparametrisch.
Definition 9.1
Ein Schätzer ist eine Zufallsvektor θ̂ = θ̂1 , . . . , θ̂m : Ω → Rm . Der Schätzer heisst erwartungstreu (engl.: unbiased), wenn Eθ θ̂i = θi für i = 1, . . . , m und für alle θ ∈ Θ gilt.
Bemerkung 9.2
Manchmal interessiert man sich auch nur für eine Funktion des Parameters, d.h. es ist eine Abbildung
g : Θ → R gegeben, und man möchte einen Schätzer für g (θ) gewinnen. Wir gehen darauf hier jedoch
nicht ein.
Offensichtlich ist unser oben definierter Schätzer (9.1) für den Parameter p des Bernoulli-Experimentes erwartungstreu, denn es gilt
Ep p̂n =
Ep X n
np
=
= p.
n
n
Erwartungstreue ist offensichtlich eine “wünschbare” Eigenschaft eines Schätzers, es ist aber klar,
dass sie nicht das einzige Kriterium eines guten Schätzers sein kann. Viele gute Schätzer sind übrigens
auch gar nicht erwartungstreu. (Man kann übrigens leicht Beispiele angeben, bei denen die Einschränkung auf erwartungstreue Schätzer nur zu ganz unsinnigen Schätzern führt). Ein wichtiges Konzept
ist die sogenannte Konsistenz. Man kann davon jedoch nur sprechen, wenn eine Folge von Schätzern
betrachtet wird. In den meisten Situation hängt der Wahrscheinlichkeitsraum von einem Parameter n
ab, der die “Stichprobengrösse”
genau wie etwa im Bernoulli-Experiment. Es liegen deshalb
beschreibt,
(n)
Wahrscheinlichkeitsräume Ωn , Pθ
vor, wobei die Parametermenge Θ sich jedoch nicht mit n
θ∈Θ
verändert. Wir betrachten dann ebenfalls Folgen von Schätzern θ̂n = θ̂n,1 , . . . , θ̂n,m . Natürlich wird
man von vernünftigen Schätzverfahren erwarten, dass bei “genügend langen Messreihen” der gesuchte
Parameter bestimmt ist.
Definition 9.3
Eine Folge von Schätzern heisst (schwach) konsistent, wenn für jedes ε > 0, für jedes i ∈ {1, . . . , m}
2
und für jeden Parameter θ ∈ Θ
lim Pθ θ̂n,i − θi ≥ ε = 0
n→∞
gilt.
Manchmal sagt man auch einfach, der Schätzer sei konsistent. Konsistenz ist aber immer eine
Eigenschaft von Folgen von Schätzern. Der Zusatz “schwach” in der obigen Definition, den wir jedoch nicht weiter verwenden werden, bezieht sich auf die Form der Limesaussage. Für einen stark
konsistenten Schätzer müsste limn→∞ θ̂n,i = θi , mit Pθ -Wahrscheinlichkeit 1 gelten. Wir werden nicht
weiter auf die Unterscheidung eingehen. Schwache Konsistenz ist offensichtlich das für die “Praxis”
relevante Konzept, denn eine unendliche lange Versuchsreihe lässt sich ohnehin nicht realisieren.
Satz 9.4
In einem Bernoulli-Experiment ist (p̂n )n∈N , definiert durch (9.1) ein konsistenter Schätzer für p.
Beweis. Gesetz der grossen Zahlen.
Es gibt viele Methoden Schätzer zu konstruieren, die alle ihre Vor- und Nachteile haben. Eine beliebte Klasse sind die sogenannten Maximum-Likelihood-Schätzer. Wir nehmen an, dass
die Wahrscheinlichkeiten Pθ auf einer abzählbaren Menge Ω definiert sind, und dass wir ferner
den Parameter θ aufgrund des Wertes einer Zufallsgrösse X : Ω → R schätzen wollen (oder eines Zufallsvektors). Jedes der Wahrscheinlichkeitsmasse Pθ definiert dann eine Verteilung auf X (Ω):
lθ (x) := Pθ (X = x) . Wenn Ω eine abzählbare Menge ist, so ist natürlich auch X (Ω) abzählbar. Zu
x ∈ X (Ω) definieren wir θ̂ (x) so, dass lθ̂(x) (x) maximal ist:
lθ̂(x) (x) = max lθ (x) .
θ∈Θ
Wir gehen davon aus, dass ein solcher Wert θ̂ (x) existiert und eindeutig ist, was natürlich nicht immer
der Fall zu sein braucht. θ̂ definiert dann eine Abbildung X (Ω) → Θ. Setzen wir diese Abbildung mit
der Zufallsgrösse X zusammen, so erhalten wir die Abbildung θ̂ (X) : Ω → Θ. Dies nennt man den
Maximum-Likelihood-Schätzer.
Bemerkung 9.5
Es mag etwas eigenartig erscheinen, dass wir den Schätzer oben über den Umweg einer Zufallsgrösse X
definieren wollen. Tatsächlich können wir natürlich auch einfach versuchen, Pθ (ω) zu maximieren. In
vielen Fällen liegen die Wahrscheinlichkeitsmasse jedoch nur über die Verteilungen von Zufallsgrössen
vor, die uns auch eigentlich nur interessieren. Es ist jedoch klar, dass der Maximum-LikelihoodSchätzer dann von X abhängen kann. In einigen wichtigen Fällen lässt sich jedoch nachweisen, dass
es keine Einschränkung ist, wenn man sich von vornherein auf Schätzer, die über eine (einfache)
Zufallsgrösse X definiert sind, beschränkt. Ein Beispiel ist das Bernoulli-Experiment. Hier kann man
nachweisen, dass man keine Information über p erhalten kann, die man nicht via die Anzahl der
Erfolge Xn gewinnen kann. Man nennt eine Zufallsgrösse, die alle Information über einen Parameter
enthält, eine suffiziente Statistik. Wir wollen das hier jedoch nicht weiter ausführen.
Man kann das Konzept auch auf Zufallsgrössen mit Dichten erweitern: Sei X eine m-dimensionaler
Zufallsvektor mit Dichten fθ , θ ∈ Θ. Für x ∈ Rm definieren wir analog wie oben θ̂ (x) so, dass
fθ (x) maximal ist. θ̂ (X) ist dann wieder eine Zufallsgrösse, die man in diesem Fall ebenfalls als
den Maximum-Likelihood-Schätzer bezeichnet. Wie oben muss natürlich betont werden, dass dieser
Schätzer nicht in jeder Situation existiert. Es ist übrigens auch keinesfalls klar, dass die MaximumLikelihood-Schätzer erwartungstreu sind (ausser in Spezialfällen sind sie es auch nicht). Unter ziemlich
3
allgemeinen Bedingungen kann man jedoch nachweisen, dass sie konsistent sind. Über die Berechtigung des Maximum-Likelihood-Ansatzes ist viel geschrieben und gestritten worden. Die stärkste
theoretische Stütze für die Maximum-Likelihood-Methode ist ein Satz der besagt, dass (unter gewissen Bedingungen), diese Schätzer in einem asymptotischen Sinne (der natürlich noch zu präzisieren
ist) optimal sind. Für eine ausführliche Diskussion von Maximum-Likelihood-Schätzern muss auf die
Spezialvorlesungen über Statistik verwiesen werden. Wir betrachten einige einfach Beispiele.
Beispiele 9.6
a) Bernoulli-Experiment
Der unbekannte Parameter sei p. X sei die Anzahl der Erfolge. Ist n die Anzahl der Versuche
(die wir als bekannt voraussetzen), so ist X (Ω) = {0, . . . , n} . Für x ∈ X (Ω) ist
n x
Pp (X = x) =
p (1 − p)n−x .
x
Um den Maximum-Liklihood-Schätzer zu finden, müssen wir diesen Ausdruck als Funktion in
p nun maximieren. Wir können genausogut natürlich den Logarithmus maximieren:
n
log Pp (X = x) = log
+ x log p + (n − x) log (1 − p) .
x
Der erste Summand hängt nicht von p ab und kann daher aus der Betrachtung weggelassen
werden. Wir finden das Maximum, indem wir nach p differentieren:
d
x n−x
(x log p + (n − x) log (1 − p)) = −
.
dp
p
1−p
Diese Ableitung ist genau dann 0, wenn p = x/n ist. Unser Maximum-Likelihood-Schätzer ist
daher nichts anderes als (9.1).
b) Hypergeometrische Verteilung
Wir betrachten das folgende Problem: Ein Teich enthalte eine Anzahl n von Fischen, wobei
wir n nicht kennen. n ist der unbekannte Parameter in unserem Modell. Um n zu schätzen,
entnimmt jemand dem Teich m Fische, markiert sie und setzt sie wieder aus. Anschliessend
wartet er, bis sich die Fische gut durchmischt (aber nicht vermehrt) haben. Dann entnimmt er
wieder m Fische, von denen er feststellt, dass k ≤ m markiert sind. Wir nehmen an, dass k ≥ 1
ist. Wir wollen nun die Maximum-Likelihood-Schätzung für n herleiten. m ist bekannt, nicht
aber n. Die beobachtete Zufallsgrösse X ist die Anzahl der markierten Fische beim zweiten
Fang. Abhängig von n, n ist X hypergeometrisch verteilt:
m n−m
Pn (X = k) =
k
m−k
n
m
.
Für den Maximum-Likelihood-Schätzer müssen wir dies als Funktion von n maximieren. Nun
gilt
Pn+1 (X = k)
(n + 1 − m)2
=
.
Pn (X = k)
(n − 2m + k + 1) (n + 1)
Dieser Quotient ist genau dann ≥ 1, wenn
(n + 1 − m)2 ≥ (n + 1 − 2m + k) (n + 1)
m2 ≥ k (n + 1) ,
4
2
d.h. wenn n
+2 1 ≤ m /k gilt. Mit anderen Worten: Pn (X = k) ist maximal als Funktion von
n für n = m /k − 1 . Dies ist somit der Maximum-Likelihood Schätzer für n. Man beachte,
dass der Schätzer nicht für alle möglichen Realisierungen von X definiert ist. Pn (X = 0) ist
natürlich positiv. Anderseits ist in diesem Fall der Schätzer nicht definiert (oder wenn man will
= ∞).
Nach welchen Kriterien soll man zwischen guten
und weniger guten Schätzern unterscheiden?
Ein naheliegendes Kriterium ist die Varianz Vθ θ̂ des Schätzers und man wird einen Schätzer mit
kleinerer Varianz vorziehen. Das Problem ist allerdings, dass diese Varianz von θ abhängt. Wir können
hoffen, dass wir einen Schätzer finden, der erstens erwartungstreu ist und zweitens minimale Varianz
unter allen möglichen Schätzern und für jeden möglichen Parameter θ hat. Leider gibt es derartige
Schätzer nicht in jeden Fall (eigentlich nur in wenigen sehr einfachen Fällen). Wir können jedoch
nachweisen, dass unser Schätzer (9.1) diese Eigenschaft hat. Dazu leiten wir in einem Spezialfall eine
wichtige Ungleichung her, nämlich die sogenannte Cramer-Rao-Schranke.
Der Einfachheit halber betrachten wir eine endliche Menge Ω. Für θ ∈ Θ seien Wahrscheinlichkeiten Pθ auf Ω gegeben. Wir nehmen an, dass der Parameter eindimensional ist, und dass ferner für
jedes ω ∈ Ω die Abbildung Θ 3 θ → Pθ (ω) differenzierbar in θ und überall postive ist. Ferner sei ein
Schätzer θ̂ : Ω → Θ gegeben. Wir nehmen im Moment nicht an, dass der Schätzer erwartungstreu ist.
Der Fehler zum Erwartungswert ist dann
b (θ) := Eθ θ̂ − θ.
(9.2)
Proposition 9.7 (Cramer-Rao Schranke)
Unter den obigen Bedingungen gilt für die Varianz V θ̂ des Schätzers die Ungleichung:
V θ̂ ≥
db(θ)
dθ
+1
I (θ)
2
,
wobei I (θ) die sogenannte Fisher-Information ist:
!
d log pθ 2
I (θ) := Eθ
.
dθ
Für einen unverfälschten Schätzer gilt insbesondere
V θ̂ ≥
1
.
I (θ)
Beweis. Differenzieren der Gleichung (9.2) nach θ ergibt
dE
θ̂
X dpθ (ω)
θ
db (θ)
=
−1=
θ̂ (ω) − 1
dθ
dθ
dθ
ω∈Ω
X d log pθ (ω)
d log pθ
=
θ̂ (ω) pθ (ω) − 1 = Eθ
θ̂ − 1,
dθ
dθ
ω∈Ω
wobei
d log pθ
dθ
als Zufallsgrösse aufgefasst wird. Anderseits gilt wegen 1 =
X dpθ (ω)
d log pθ
= Eθ
0=
.
dθ
dθ
ω∈Ω
5
P
ω
pθ (ω) auch
Aus den beiden Gleichungen erhalten wir
db (θ)
d log pθ + 1 = Eθ
θ̂ − b (θ)
dθ
dθ
v
u
2 ! r
u
d
log
p
θ
≤ tEθ
V θ̂ = I (θ) V θ̂ .
dθ
Von besonderem Interesse sind natürlich unverfälschte Schätzer, für die V θ̂ = 1/I (θ) gilt. Diese
haben minimale Varianz unter allen möglichen unverfälschten Schätzern.
Beispiel 9.8
Wir nehmen unser Standardbeispiel: Den Parameter p bei der Binomialverteilung. Ist ω ∈ Ω :=
{0, 1}n , so ist Pp (ω) = pXn (ω) (1 − p)n−Xn (ω) , wobei Xn (ω) wieder die Anzahl der Erfolge bezeichnet.
Es gilt dann
d log Pp (ω)
Xn (ω) n − Xn (ω)
Xn (ω) − np
=
−
=
.
dp
p
1−p
p (1 − p)
Demzufolge ist die Fisher-Information
E (Xn (ω) − np)2
V (Xn )
n
=
I (p) =
2
2 = p (1 − p) .
2
2
p (1 − p)
p (1 − p)
1/I (p) = p (1 − p) /n ist aber gerade die Varianz von p̂n = Xn /n. Demzufolge ist p̂n ein unverfälschter
Schätzer mit minimaler Varianz.
Es muss betont werden, dass in komplizierteren Situation solche unverfälschten Schätzer mit
minimaler Varianz nur selten existieren. Unter relative schwachen Regularitätsannahmen kann man
jedoch nachweisen, dass die Maximum-Likelihood-Schätzer diese Eigenschaft in einem gewissen asymptotischen Sinn (für n → ∞) haben.
Ein wichtiges Beispiel ist die Familie der Normalverteilung
mit Mittel µ ∈ R und Varianz σ 2 > 0.
Der Parameter ist dann zweidimensional: µ, σ 2 ∈ Θ := R × R+ ⊂ R2 . Wir betrachten n unabhängige
Zufallsgrössen X1 , . . . , Xn mit dieser Verteilung. Die Dichte des Zufallsvektors (X1 , . . . , Xn ) ist
1 Xn
2
2 −n/2
fµ,σ2 (x) = 2πσ
exp − 2
(xi − µ)
(9.3)
i=1
2σ
Die Aufgabe ist nun, die Parameter aus diesen Zufallsgrössen zu schätzen. Eine naheliegende Schätzung von µ ist
Pn
Xi
µ̂n := i=1 .
(9.4)
n
Wie wir schon wissen, ist µ̂n selbst wieder normalverteilt mit Erwartungswert
Pn
E(µ,σ2 ) Xi
nµ
E(µ,σ2 ) µ̂n = i=1
=
=µ
n
n
und Varianz
var(µ,σ2 ) µ̂n =
6
nσ 2
σ2
=
.
n2
n
Daraus folgt sehr leicht, dass für jedes ε > 0
lim P(µ,σ2 ) (|µ̂n − µ| ≥ ε) = 0
n→∞
gilt. µ̂n ist also ein erwartungstreuer und konsistenter Schätzer für µ. Was tun mit σ 2 ? Ein naheliegender Schätzer für σ 2 wäre
n
1X
(Xi − µ)2 .
n
i=1
Aus der Linearität des Erwartungswertes folgt sofort:
X
n
n
1
1X
E(µ,σ2 )
E(µ,σ2 ) (Xi − µ)2
(Xi − µ)2 =
i=1
n
n
i=1
= σ2.
Das Problem dabei ist nur, dass wir ja µ nicht kennen und deshalb nicht im Schätzer verwenden
können. Es ist naheliegend, den unbekannten Parameter µ einfach durch seinen Schätzer µ̂n zu ersetzen
und deshalb den Schätzer
!2
Pn
n
n
X
X
j
1X
1
j=1
(Xi − µ̂n )2 =
Xi −
n
n
n
i=1
i=1
zu versuchen. Hier ergibt sich jedoch eine kleine Überraschung bei der Berechnung des Erwartungswertes:

!2 
Pn
X
2 !
Xn
X
X
n
n
j
1
1
1
j=1
=E
Xi −
X2 −
Xi
E
i=1
i=1 i
i=1
n
n
n
n
X
2 !
n
1
= E X12 − E
Xi
i=1
n
P
E X12 = σ 2 + µ2 . Ferner ist n1 ni=1 Xi normalverteilt mit Mittel µ und Varianz σ 2 /n. Demzufolge
gilt

!2 
Pn
2
n
X
X
j
1
σ
(n − 1) σ 2
j=1
2
2
2
=σ +µ −
E
Xi −
+µ =
,
n
n
n
n
i=1
und unser ins Auge gefasster Schätzer ist nicht erwartungstreu. Man kann das jedoch sehr leicht
beheben, indem man den Schätzer leicht modifiziert und einfach
n
σ̂n2 :=
1 X
(Xi − µ̂n )2
n−1
(9.5)
i=1
setzt. Dieser Schätzer ist dann evidenterweise erwartungstreu. Er ist auch konsistent. Der Beweis
dafür sei dem Leser als Übungsaufgabe überlassen.
Was
ist der Maximum-Likelihood-Schätzer für µ, σ 2 ? Dazu müssen wir (9.3) als Funktion von
µ, σ 2 maximieren. Es ist oft günstiger, den Logarithmus zu maximieren, was auf dasselbe hinausläuft.
n
n
1 X
n
log fµ,σ2 (x) = − log (2π) − log σ 2 − 2
(xi − µ)2 .
2
2
2σ
i=1
7
Die partiellen Ableitungen ergeben:
n
∂ log fµ,σ2 (x)
1 X
= 2
(xi − µ) ,
∂µ
σ
i=1
n
∂ log fµ,σ2 (x)
n
1 X
=− 2 + 4
(xi − µ)2 .
∂ (σ 2 )
2σ
2σ
i=1
Man überzeugt sich leicht davon, dass die Lösung von ∇ log fµ,σ2 (x)
= 0 ein eindeutiges Maximum
2
ist. Daraus folgt, dass der Maximum-Likelihood-Schätzer von µ, σ durch
n
µ̂n,M L = µ̂n =
1X
xi ,
n
i=1
2
σ̂n,M
L :=
1
n
n
X
(xi − µ̂n,M L )2 .
i=1
Will man den Schätzer als Zufallsgrösse interpretieren, so muss man die xi natürlich wieder durch
die Zufallsgrössen Xi ersetzen. Wie man sieht, ist das für µ derselbe Schätzer wie oben; für σ 2 erhält
man aber den mit dem falschen Erwartungswert. Für n → ∞ verschwinder der Fehler natürlich.
Es muss betont werden, dass es andere Schätzer von µ und σ 2 gibt, die gegenüber µ̂n und σ̂n2
gewichtige Vorteile haben. Das Hauptproblem z.B. mit µ̂n ist, dass der Schätzer sehr empfindlich auf
auch nur geringfügige Verletzungen der grundlegenden Normalverteilheitsannahme ist. Ist diese nicht
richtig, so kann die Varianz des Schätzers massiv ansteigen. Der Schätzer ist, wie man sagt, nicht
robust. Eine alte Bauernregel verwendet das folgende Verfahren: Wenn der mittlere Jahresertrag (z.B.
von Getreide) aus einer Messreihe von 10 Jahren bestimmt werden soll, so lässt man das beste und
das schlechteste Ergebnis weg und mittelt die acht verbleibenden Werte. Solche Schätzer nennt man
abgeschnittene Mittel (“trimmed means” auf Englisch). Hier die formale Definition: Sei α ∈ (0, 1/2) .
Sind X1 , . . . , Xn die n Zufallsgrössen, so ordnet man sie erst der Grösse nach an. Die entsprechend
der Grösse nach geordneten Grössen bezeichnen wir mit
Xn,1 ≤ Xn,2 ≤ . . . ≤ Xn,n .
(Falls der Vektor (X1 , . . . , Xn ) eine Dichte besitzt, so folgt übrigens sofort, dass alle Xi verschieden
sind, mit Wahrscheinlichkeit 1). Anschliessend bildet man
µ̂n,α
1
:=
n − 2 [αn]
n−[αn]
X
Xn,i .
i=[αn]+1
Man kann leicht nachweisen, dass diese Schätzer ebenfalls erwartungstreu sind. Sind die Xi exakt
normalverteilt, so ist die Varianz von µ̂n,α grösser als die von µ̂n ; wenn α jedoch nicht zu gross ist
(α = 0.1 oder darunter sind typische Werte), so ist der Unterschied jedoch nicht sehr gross. (Die
Berechnung der Varianz von µ̂n,α ist allerdings nicht ganz einfach). Auf der anderen Seite hat µ̂n,α
wesentlich bessere Robustheitseigenschaften. Diese Gesichtspunkte sind in den vergangenen 20-30
Jahren intensiv untersucht worden.
Für spätere Zwecke wollen wir noch die gemeinsame Verteilung unserer beiden Schätzer (9.4) und
(9.5) berechnen. Wir können dabei µ = 0 und σ 2 = 1 annehmen; die anderen Fälle ergeben sich sofort
durch eine Skalierung.
8
Wir betrachten zunächst eine leicht einfachere Situation: Seien ξ1 , . . . , ξn n unabhängige standardnormalverteilte Zufallsgrössen. Wir betrachten die Zufallsgrösse
χ2n :=
n
X
ξi2 .
i=1
Definition 9.9
Die Verteilung von χ2n nennt man die χ2 -Verteilung mit n Freiheitsgraden.
Die Dichte der Chi-Quadrat-Verteilung können wir sehr einfach berechnen:
"
#
Z
Z
n
X
1
P χ2n ≤ x = · · · (2π)−n/2 exp −
x2i dx1 · · · dxn
2
P
i=1
n
i=1
=
Z
x2i ≤x
√
x
(2π)−n/2 sn rn−1 e−r
2 /2
dr
0
wobei sn die Oberfläche der Einheitskugel mit Radius 1 ist, die bekanntlich durch
sn =
2π n/2
Γ (n/2)
gegeben ist, mit Γ als der Gamma-Funktion:
Γ (α) :=
Z
∞
e−x xα−1 dx,
0
Γ (n) = (n − 1)! für ganzzahliges n. Differentiation liefert uns die Dichte der χ2 -Verteilung:
Z √x
n−1
d
1
2
(2π)−n/2 sn rn−1 e−r /2 dr = (2π)−n/2 sn x 2 e−x/2 √ .
dx 0
2 x
Proposition 9.10
Die χ2 -Verteilung mit n Freiheitsgraden hat die Dichte
cn (x) =
1
xn/2−1 e−x/2 , x ≥ 0.
Γ (n/2) 2n/2
Für x < 0 ist die Dichte gleich 0.
Es ist plausibel, dass die Verteilung von σ̂n2 etwas mit der χ2 -Verteilung zu tun hat. Ein Problem
besteht offenbar darin, dass wir die Normalverteilten Zufallsgrössen erst nach einer Zentrierung durch
die Zufallsgrösse µ̂n quadrieren. Diese zufällige Zentrierung führt jedoch
zu einer Reduktion der
Pn nur
√
√
Zahl der Freiheitsgrade, wie wir gleich zeigen werden. nµ̂n =
X
/
n
ist offenbar standard
i
i
normalverteilt, wenn die Xi es sind. Damit haben wir schon Teil a) des folgenden Satzes eingesehen:
Satz 9.11
Seien X1 , . . . , Xn unabhängige und standard-normalverteilte Zufallsgrössen. Dann gilt
a)
√
n
1 X
nµ̂n = √
Xi
n
i=1
ist standard normalverteilt.
9
b)
(n − 1) σ̂n2 =
n
X
(Xi − µ̂n )2
i=1
ist χ2 -verteilt mit n − 1 Freiheitsgraden.
c) µ̂n und σ̂n2 sind unabhängig.
Beweis. Wir beweisen b) und c) zusammen. Sie e1 := √1n , . . . , √1n . Dieser Vektor hat Euklidsche
Länge 1. Wir können diesen Vektor zu einer orthonormierten Basis e2 , . . . , en in Rn ergänzen, und
zwar so, dass die orthogonale Matrix der Basistransformation Determinante 1 hat. Wir betrachten die
Variablentransformation
y (x) = (y1 (x)
durch yi (x) := hx, ei i gegeben ist. Wegen
P
P , . . . , yn (x)) , die √
√
y1 (x) = ni=1 xi / n folgt mit x := ni=1 xi / n = y1 (x) / n :
n
X
(xi − x) =
n
X
=
n
X
2
i=1
x2i − nx2
i=1
2
2
yi (x) − y1 (x) =
i=1
n
X
yi (x)2 .
i=2
√
Daraus folgt für die gemeinsame Verteilung von nµ̂n und (n − 1) σ̂n2 :
Z
Z
√
1
1 Xn
2
2
x dx1 · · · dxn
P
nµ̂n ≤ a, (n − 1) σ̂n ≤ r = · · · √
exp −
P
n/2
2
i=1 i
2
nx≤a, n
i=1 (xi −x) ≤r (2π)
Z
Z
1
1 Xn
2
= ···
y dy1 · · · dyn
exp −
P
n/2
i=1 i
2
2
y1 ≤a, n
i=2 y2 ≤r (2π)
Z a
Z
Z
1
1 Xn
2
√ e−y1 /2 dy1 · · · P
=
exp −
yi2 dy2 · · · dyn .
n
i=2
2
2
2π
−∞
i=2 y2 ≤r
√
√
Daraus ergibt sich, dass nµ̂n und (n − 1) σ̂n2 unabhängig sind, dass die Verteilung von nµ̂n die
Standard-Normalverteilung ist (was wir schon wussten), und dass die Verteilung von (n − 1) σ̂n2 die
χ2 -Verteilung mit n − 1 Freiheitsgraden ist.
9.2
Testprobleme
Die Testtheorie ist eine konzeptionell ziemlich verwirrende Angelegenheit, weniger von der mathematischen Seite her, sondern von den (hoffentlich existierenden) Beziehungen zur “realen Welt”.
Ein Standarproblem ist zu entscheiden, ob z.B. ein neues Medikament eine positive Wirkung hat,
oder keine bzw. eine negative. Nehmen wir an, dass sich die möglicherweise existierende Wirkung
auf eine einfach zu messende eindimensionale Grösse bezieht, z.B. den systolischen Blutdruck. In
der Praxis sind die Probleme natürlich meist weitaus komplexer. Um die Effizienz des Medikaments
zu testen wird eine Gruppe von n Personen untersucht. Deren Bludruck wird vor der Behandlung
gemessen. Die Ergebnisse seien n reelle Zahlen, die als Zufallsgrössen interpretiert werden: U1 , . . . , Un .
Nun wird das Medikament verabreicht und dann wird wieder gemessen. Die Ergebnisse seien nun
V1 , . . . , Vn . Dann bildet man die Differenzen Xi = Ui − Vi und möchte aufgrund dieser Differenzen
nun Rückschlüsse ziehen.
Ohne weiter Annahmen ist das so gut wie unmöglich. Wir setzen daher voraus (was allerdings in
vielen Situationen schon ziemlich fragwürdig ist), dass die Paare (Ui , Vi ) alle unabhängig sind und
10
dieselbe Verteilung besitzen. Dann sind auch die Xi alle unabhängig und haben dieselbe Verteilung.
Wir sind dann daran interessiert, ob µ := EXi = 0 oder nicht ist. Falls man eine Blutdrucksenkung
im Auge hat ist die sinnvolle Alternative, an der man interessiert ist, µ > 0. Man nennt µ = 0 die
0-Hypothese. Dass µ exakt gleich 0 ist, ist natürlich wenig plausibel; es interessiert eigentlich nur,
ob µ ≤ 0 oder µ > 0 ist. Wir formulieren die 0-Hypothese entsprechend, also
0-Hypothese
µ≤0
Alternative
µ>0
Das Problem ist, dass man ohne weitere Voraussetzungen immer noch so gut wie keine vernünftigen
statistischen Aussagen machen kann. Wir setzen daher weiter voraus, dass wir die Verteilung der Xi
bis auf den Parameter µ kennen. Eine beliebte Annahme ist die der Normalverteiltheit der Xi . Die
Normalverteilung hat zwei Parameter: Den Mittelwert µ und die Varianz σ 2 . Wenn wir voraussetzen,
dass nur der Parameter µ unbekannt ist, müssen wir also voraussetzen, dass σ 2 bekannt ist. Das
ist natürlich sehr fragwürdig und tatsächlich werden wir gleich auf diese Annahme verzichten. Im
Moment wollen wir sie jedoch gelten lassen um das Prinzip eines statistischen Tests zu erläutern. Es
ist plausibel, dass wir unsere Entscheidung anhand des Mittelwertes der Messwerte, d.h. anhand von
n
1X
µ̂n :=
Xi
n
i=1
treffen wollen. Weiter ist plausibel, dass ein “zu grosser” µ̂n -Wert und zum Schluss führen wird, dass
die Alternative zutrifft. Wir werden daher einen Wert d > 0 festlegen und uns für die Alternative
entscheiden, wenn µ̂n ≥ d ist.
Nun gibt es offensichtlich zwei Möglichkeiten, wie wir zu einer fehlerhaften Entscheidung kommen
kann. Ist die 0-Hypothese richtig, hat das Medikament also keine Wirkung, so können wir augrund
eines Ausgangs µ̂n ≥ d zu dem falschen Schluss kommen, dass die Alternative richtig ist. Dies nennt
man einen Fehler 1. Art. Anderseits könnte die Alternative richtig sein und wir verwerfen die
0-Hypothese aufgrund eines Ausgangs µ̂n < d nicht. Dies nennt man einen Fehler 2. Art. Die Vorgehensweise ist nun die, dass wir d so wählen, dass die Wahrscheinlichkeit für einen Fehler 1. Art
einen bestimmten vorgegebenen Wert α ∈ (0, 1) nicht überschreitet. α nennt man das Signifikanzniveau. Es ist üblich entweder α = 0.05 oder α = 0.01 zu wählen. Eine Festlegung von α führt nun
ohne Schwierigkeiten zu der Bestimmung von d : Wir wissen ja (oder besser, wir nehmen an, dass wir
wissen), dass die Xi unabhängig und normalverteilt sind, mit Mittel µ und Varianz σ 2 , wobei wir σ 2
ebenfalls kennen. Dann ist µ̂n normalverteilt mit Mittel µ und Varianz σ 2 /n. Es ist leicht zu sehen,
dass Pµ (µ̂n ≥ d) eine ansteigende
Funktion von µ ist. (Mit Pµ bezeichnen wir die Wahrscheinlichkeit
unter den Parametern µ, σ 2 . Da wir σ 2 im Moment als bekannt voraussetzen, lassen wir es in der
Notation weg.) Wenn wir erzwingen wollen, dass Pµ (µ̂n ≥ d) ≤ α für alle µ ≤ 0 ist, so reicht es
deshalb aus, den Fall µ = 0 zu betrachten. Demzufolge ist die Wahrscheinlichkeit für einen Fehler 1.
Art höchstens
√
Z ∞
Z ∞
h n
i
n
1
1 2
2
P0 (µ̂n ≥ d) = √
exp − 2 x dx = √
exp − x dx
2σ
2
2π d√n/σ
2πσ 2 d
√
= 1 − Φ d n/σ ,
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. Sie zα ∈ R die eindeutig definierte
Zahl mit
Φ (zα ) = 1 − α.
(9.6)
11
Ist α < 1/2, was wir stets annehmen wollen, so ist zα > 0. Hier die nummerischen Werte für α = 0.05,
α = 0.01, α = 0.001 : z0.05 = 1.6449, z0.01 = 2.3263, z0.001 = 3.0902. Man nennt zα das obere αQuantil der Nomralverteilung. Wählen wir
σzα
d = d (α, σ, n) := √ ,
n
so erhalten wir
P0 (µ̂n ≥ d) = α.
(9.7)
Wir erhalten somit das folgende Entscheidungsverfahren:
σzα
µ̂n ≥ √ : Verwerfung der 0 − Hypothese
n
σzα
µ̂n < √ : keine Verwerfung der 0 − Hypothese
n
(9.8)
Ein solches Entscheidungsverfahren nennt man einen Test. Die Wahrscheinlichkeit für einen Fehler
√ α kann man jedoch
1. Art ist dabei α. Man nennt den Test einen Niveau-α-Test. Im Falle µ̂n < σz
n
natürlich immer noch den Verdacht haben, dass die 0-Hypothese nicht richtig ist, und dass z.B. eine
grössere Stichprobe zum entsprechenden Schluss geführt hätte. Man sagt dann auch einfach, der
Ausgang sei nicht signifikant (zum vorgegebenen Niveau α).
Ursprünglich hatten wir eigentlich nur verlangt, dass wir in (9.7) ≤ α haben. Es ist jedoch klar,
dass wir für µ > 0 die Wahrscheinlichkeit Pµ (µ̂n ≥ d) möglichst gross haben wollen. Von daher wird
man d so wählen, dass (9.7) gilt. Es ist ziemlich üblich α = 0.01 zu nehmen. In der Praxis wird man
natürlich ausrechnen, zu welchem α das Resultat noch signifikant ist. Im statistischen Jargon nennt
man ein Niveau α = 0.05 “schwach signifikant” und α = 0.001 “hoch signifikant”.
Hier noch eine ganz abstrakte allgemeine Definition, was ein Niveau-α-Test ist.
Sei (Pθ )θ∈Θ eine Familie von Wahrscheinlichkeitsmassen auf Ω. Seien Θ0 , ΘA ⊂ Θ zwei disjunkte
Teilmengen von Θ.
Definition 9.12
Sei α ∈ (0, 1) . Ein Niveau-α-Test für die 0-Hypothese {θ ∈ Θ0 } gegen die Alternative {θ ∈ ΘA } ist
ein Entscheidungsverfahren der Form
• Entscheidung für die Alternative, falls X ≥ z ist
• Keine Ablehnung der 0-Hypothese, falls X < z ist.
Dabei ist X : Ω → R ein Zufallsgrösse (die sogenannte Teststatistik), und z ∈ R ist so gewählt,
dass
sup Pθ (X ≥ z) ≤ α
θ∈Θ0
gilt.
Ein Niveau-α-Test garantiert somit, dass die Wahrscheinlichkeit für einen Fehler 1. Art stets
kleiner als α ist, d.h. die Wahrscheinlichkeit für eine fehlerhafte Annahme der Alternative ist durch
α beschränkt. Dies ist jedoch offensichtlich nur eine Seite der Sache: Man möchte natürlich, dass
die Wahrscheinlichkeit für eine Verwerfung der 0-Hypothese gross ist, sofern die Alternative auch
zutrifft. Ausser in ganz einfachen und artifiziellen Fällen besteht die Alternativen aus einer Vielzahl
12
von Wahrscheinlichkeitsmassen, und man wird davon ausgehen müssen, dass die Wahrscheinlichkeit
für einen Fehler 2. Art vom Parameter θ abhängt (und natürlich von der gewählten Teststatistik).
Wir untersuchen den obigen sehr einfachen gelagerten Fall der Normalverteilung. Der Fehler 2.
Art, bei Vorliegen der Alternative µ > 0 ist natürlich einfach gegeben durch
σzα
Pµ µ̂n < √
.
nσ
Nun ist µ̂n unter Pµ einfach normalverteilt mit Mittel µ und Varianz σ 2 /n, d.h.
!
!
σz
√α − µ
√
µ̂n − µ
µ̂n − µ
σzα
n
Pµ µ̂n < √
= Pµ p
< p
= Pµ p
< zα − nµ/σ
n
σ 2 /n
σ 2 /n
σ 2 /n
√
= Φ zα − nµ/σ ,
µ̂n −µ
die letzte Gleichung weil √
unter Pµ standard-normalverteilt ist. Nun muss man sich daran
2
σ /n
erinnern, dass zα so gewählt war, dass Φ (zα ) = 1 − α ist. Die Funktion
√
[0, ∞) 3 µ → Φ zα − nµ/σ ∈ [0, 1]
ist eine monoton fallende Funktion in µ. Es ist klar, dass für µ “sehr nahe” bei 0, diese Wahrscheinlichkeit für einen Fehler 2. Art immer noch nahe bei 1 − α ist. Wie schnell die Funktion abfällt hängt
natürlich von n ab: Je grösser n ist, desto schneller fällt sie ab. Meist wird übrigens die Funktion
√
1 − Φ (zα − nµ/σ) aufgezeichnet, also die Wahrscheinlichkeit für Ablehnung der 0-Hypothese. Diese
Wahrscheinlichkeit sollte natürlich möglichst gross auf den Alternativen sein. Auf Englisch heisst das
die “power function” in Deutsch meist mit Gütefunktion übersetzt. Unten ist die Gütefunktion in
unserem Beispiel für α = 0.01, n = 10 und n = 100 (bei σ 2 = 1) aufgezeichnet.
Abbildung 1: Gütefunktion bei n = 10
13
Abbildung 2: Gütefunktion bei n = 100
Man wird natürlich nach möglichst “guten” Tests Ausschau halten.
Definition 9.13
Ein Niveau-α-Test für die Hypothese {θ ∈ Θ0 } gegen die Alternative {θ ∈ ΘA } heist UMP-Test (uniformly most powerfull), falls seine Wahrscheinlichkeit für einen Fehler 2. Art höchstens die jedes
anderen Niveau-α-Tests ist, und zwar gleichmässig in θ ∈ ΘA .
Es vesteht sich fast von selbst, dass UMP-Tests in der Regel nicht existieren. Das Problem besteht
darin, dass die Optimalität gleichmässig in allen Alternativen gelten soll. Allerdings ist gerade das
bisher diskutierte Beispiel eine Ausnahme von dieser Regel: Für den Test von {µ ≤ 0} gegen {µ > 0}
ist der oben diskutierte Test tatsächliche UMP.
Ein UMP-Test existiert stets, wenn die 0-Hypothese und die Alternative wie man sagt einfach
sind, d.h. jeweils nur ein Wahrscheinlichkeitsmass enthalten. Das ist der Inhalt des Neyman-Pearson
Lemmas. Wir formulieren es in einer einfachen Situation:
Seien P1 und P0 zwei Wahrscheinlichkeiten auf der abzählbaren Menge Ω. Der Einfachheit halben
nehmen wir an, dass P0 (ω) > 0, P1 (ω) > 0 für alle ω ∈ Ω gelten. Wir wählen als Teststatistik den
sogenannten Likelihoodquotienten:
P1 (ω)
L (ω) :=
∈ R.
P0 (ω)
Der Likelihood-Quotienten-Test für die Hypothese P0 gegen die Alternative P1 ist nun einfach
der Test mit Teststatistik L : Für z > 0 sei
X
α (z) :=
P0 (ω) .
ω:L(ω)≥z
Satz 9.14 (Neyman-Pearson Lemma)
Der Test {L ≥ z} ist UMP zum Niveau α (z) für die 0-Hypothese P0 gegen die Alternative P1 .
Beweis. Wir betrachten den Ablehnungsbereich A := {L (ω) ≥ z} für unseren Likelihood-QuotientenTest und den Ablehungsbereich B ⊂ Ω für einen beliebigen anderen Test zum Niveau α (z) . Dann ist
14
die Güte dieses anderen Tests einfach
X
P1 (ω) =
ω∈B
X
≤
X
P1 (ω) und wir erhalten die Ungleichung
X
P1 (ω) ≤
ω∈B∩Ac
P1 (ω) + z
ω∈B∩A
=
ω∈B
P1 (ω) +
ω∈B∩A
X
P
X
X
P1 (ω) + z
ω∈B c ∩A
X
ω∈B∩A
P0 (ω)
X
P1 (ω)
ω∈B∩Ac
ω∈B∩A
P0 (ω) ≤
X
P1 (ω) +
ω∈B c ∩A
P1 (ω) .
ω∈A
P
P
Die zweite Ungleichung folgt wegen α (z) = ω∈A P0 (ω) ≥ ω∈B P0 (ω) , was einfach die Eigenschaft
ist, dass der zweite Test auch ein Niveau α-Test ist.
Das Neyman-Pearson-Lemma lässt sich auch leicht in allgemeineren Situationen beweisen, z.B.
wenn P0 und P1 die Verteilungen einer Zufallsgrösse (oder eines Zufallsvektors) sind, die beide Dichten
besitzen. Die Ausformulierung und der Beweis seien dem Leser überlassen. Immer gilt dabei die
Voraussetzung, dass die Hypothese und die Alternative einfach sind. Mit Hilfe des Neyman-PearsonLemmas können wir nun leicht nachweisen, dass unser Test µ ≤ 0 gegen µ > 0 UMP ist. Wir
betrachten dazu die einfache Hypothese {µ = 0} gegen die einfache Alternative {µ = µ0 } mit einem
beliebigen µ0 > 0. Nach dem Neyman-Pearson-Lemma ist dafür der Likelihood-Quotienten-Test der
UMP-Test. Nun hat der Zufallsvektor (X1 , . . . , Xn ) die gemeinsame Dichte (9.3). Der Quotient ist
X
n
fµ0 ,σ2 (x)
µ0
nµ2
= exp 2
xi − 20 .
i=1
f0,σ2 (x)
σ
σ
2
(Wir
Pn setzen σ als bekannt voraus). Als Funktion der xi ist das einfach eine monotone Funktion von
i=1 xi . Demzufolge lehnt der Likelihood-Quotienten-Test die 0-Hypothese ab, wenn diese Summe
zu gross wird, wobei die Schranke einfach durch das Niveau α festgelegt wird. Somit ist LikelihoodQuotienten-Test einfach der Test, den wir schon betrachtet haben. Da unser Test somit exakt gleich
dem Likelihood-Quotienten-Test für {µ = 0} gegen {µ = µ0 } für ein belibiges µ0 > 0 ist, und demzufolge UMP für diese Situation, so folgt dass er UMP für {µ = 0} gegen {µ > 0} ist. Es folgt dann
auch sofort, dass er UMP für {µ ≤ 0} gegen {µ > 0} ist.
Es kommt natürlich auch vor, dass man daran interessiert ist, ob ein Medikament überhaupt eine
Wirkung hat, die sich von Placebos unterscheidet, gleichgültig ob diese Wirkung positiv oder negativ
ist. In einem solchen Fall möchte man die 0-Hypothese {µ = 0} gegen die Alternative {µ 6= 0} testen.
Ein natürlicher Test ist einfach der folgende zweiseitige Test: Man lehnt die 0-Hypothese ab, wenn
|µ̂n | zu gross ist. Um das Niveau α zu gewährleisten, muss der Test dann wie folgt aussehen:
σzα/2
|µ̂n | ≥ √ : Verwerfung der 0 − Hypothese
n
σzα/2
|µ̂n | < √ : keine Verwerfung der 0 − Hypothese.
n
(9.9)
Dieser Test ist übrigens evidenterweise nicht mehr UMP. Dies liegt einfach daran, dass unser vorheriger
einseitiger Test auch für unsere Situation ein Niveau-α-Test ist, der für µ > 0 natürlich eine bessere
Güte hat. Allerdings ist die Ablehnungswahrscheinlichkeit für µ < 0 kleiner als α, was sicher nicht
wünschbar oder sinnvoll ist. Jedenfalls ist jedoch klar, dass (9.9) nicht mehr UMP ist. Es ist jedoch
sinnvoll, das UMP-Konzept etwas einzuschränken. Generell wird man natürlich keine Tests in Betracht
ziehen wollen, die für irgendeine Alternative eine Ablehnungswahrscheinlichkeit < α haben.
15
Definition 9.15
Ein Test für die 0-Hypothese Θ0 gegen die Alternative ΘA heisst unverfälscht (englisch “unbiased”),
wenn Pθ (Ablehnung) ≥ α für alle θ ∈ ΘA ist. Ein Test heisst gleichmässig bester unverfälschter
Test, wenn für jedes θ ∈ ΘA die Ablehnungswahrscheinlichkeit maximal unter allen unverfälschten
Tests ist. (Auf Englisch: UMP unbiased).
Man kann nachweisen, dass unser Test (9.9) UMP unbiased ist.
Wir kommen nun noch zu einer wichtigen Modifikation des Tests von {µ ≤ 0} gegen {µ > 0} im
Falle der Normalverteilung. Wir hatten ja bisher angenommen, dass die Varianz σ 2 bekannt ist. Das
ist in der Praxis natürlich völlig unsinnig, und wir lassen diese Voraussetzung nun fallen. Unsere
Parametermenge Θ ist daher
Θ := µ, σ 2 : µ ∈ R, σ 2 > 0 .
Für σ 2 interessieren wir uns eigentlich nicht. (Das nennt man einen “nuisance parameter”). Die 0Hypothese ist daher nach wie vor
Θ0 := µ, σ 2 : µ ≤ 0, σ 2 > 0 ,
und die Alternative
ΘA :=
µ, σ 2 : µ > 0, σ 2 > 0 .
Es ist dann klar, dass wir den Test (9.8) nicht benützen können, da wir σ 2 nicht kennen. Ein naheliegendes Verfahren besteht darin, σ 2 einfach aus den Daten selbst zu schätzen. Wie wir in Abschnitt
9.1 ausgeführt haben, ist
n
1 X
2
(Xi − µ̂n )2
σ̂n :=
n−1
i=1
P
√
√
2
ein vernünftiger Schätzer für σ . Wir ersetzen die Teststatistik nµ̂n /σ = (1/ nσ) ni=1 Xi durch
√
nµ̂n
Tn :=
.
(9.10)
σ̂n
In der englischsprachigen Literatur nennt man das die “ studentized statistics”. Die Bezeichnung
geht auf den Statistiker William Gosset zurück, der seine Arbeiten unter dem Pseudonym “Student”
publiziert hat. Der berühmte t-Test besteht dann einfach darin, dass die 0-Hypothese verworfen wird,
wenn Tn zu gross ist.
Student’s t-Test:
Tn ≥ tα,n−1 : Annahme der Alternative
(9.11)
Tn < tα,n−1 : keine Verwerfung der 0 − Hypothese.
(Der Grund für die Schreibweise tα,n−1 wird gleich ersichtlich werden.) tα,n−1 muss so bestimmt
werden, dass unter der 0-Hypothese P(µ,σ2 ) (Tn ≥ tα,n−1 ) ≤ α ist. Natürlich ist wieder der Fall µ = 0
der Extremfall und wir wollen daher tα,n−1 so bestimmen, dass P(0,σ2 ) (Tn ≥ tα,n−1 ) = α ist. Etwas
lästig erscheint die Anwesenheit von σ 2 , aber es stellt sich zum Glück heraus, dass die Verteilung
von Tn gar nicht von σ 2 abhängt: Ist nämlich Xi normalverteilt mit Mittel 0 und Varianz σ 2 , so
ist Xi /σ standard-normalverteilt. Die Substitution von Xi durch Xi /σ ändert jedoch im Ausdruck
(9.10) gar nichts. Demzufolge ist die Verteilung von Tn von σ 2 unabhängig. Es ist jedoch klar, dass
die Verteilung von n abhängt.
16
Definition 9.16
Sind X1 , . . . , Xn unabhängige und standard-normalverteilte Zufallsgrössen, so heisst die Verteilung
von Tn die t-Verteilung mit n − 1 Freiheitsgraden.
√
√
Gemäss Satz 9.9 sind nµ̂n und σ̂n2 unabhängig, wobei nµ̂n standard normalverteilt und (n − 1) σ̂n2
χ2 -verteilt mit n − 1 Freiheitsgraden sind.
Proposition 9.17
Ist Y standard normalverteilt, ist Z χ2 -verteilt mit n Freiheitsgraden und sind Y und Z unabängig,
so hat die Zufallsgrösse Y /Z die Dichtefunktion
Γ ((n + 1) /2)
fn (t) = √
nπΓ (n/2)
t2
+1
n
−(n+1)/2
.
Beweis. Übungsaufgabe.
Der kritische Wert tα,n−1 ist einfach das obere α-Quantil der t-Verteilung mit n−1 Freiheitsgraden,
also die eindeutig bestimmte Zahl mit
Z ∞
fn−1 (t) dt = α.
tα,n−1
Für n → ∞ konvergiert die t-Veteilung gegen die Standard-Normalverteilung. Insbesondere gilt
lim tα,n−1 = zα ,
n→∞
wobei zα durch (9.6) definiert ist. Wir wollen dies hier nicht beweisen. Die Unterschiede sind jedoch
nicht ganz zu vernachlässigen.
TInv(0.95; 10) = 1. 812 5
Die folgende Tabelle gibt einige Werte für die t-Quantile tα,n bei α = 0.05 und α = 0.01 :
n
10
20
50
100
∞
α = 0.05
1.8125
1.7247
1.6759
1.6602
1.6449
α = 0.01
2.7638
2.5280
2.4033
2.3642
2.3263
Der t-Test ist übrigens auch im einseitigen Fall nicht mehr UMP, jedoch UMP unbiased. Wir
können jedoch auf den Beweis nicht eingehen, der ziemlich aufwendig ist.
Wir diskutieren noch zwei wichtige Varianten des t-Test.
Unter Umstände möchte man auch auf zweiseitige Alternativen testen: Nämlich die 0-Hypothese {µ = 0} gegen die Alternative {µ 6= 0} . In diesem Fall verwirft man die Hypothese, wenn der
Absolutbetrag von Tn zu gross, ist, d.h. wenn Tn ≥ tα/2,n oder Tn ≤ −tα/2,n ist. Da die Verteilung
von Tn unter der 0-Hypothese symmetrisch ist, ist das offensichtlich ein Niveau-α-Test.
Eine weitere Modifikation ist der sogenannte Zweistrichprobentest: Wir sind ja ursprünglich beim
motivierenden Beispiel davon ausgegangen, dass die Xi als Differenzen von zwei Zufallsgrössen Ui und
Vi zustande kommen. Es kommt jedoch oft vor, dass nicht einfach dieselbe Person zweimal - einmal
vor und einmal nach einer Behandlung - gemessen wird, sondern dass zwei Gruppen von Personen
untersucht werden. Typischerweise wird in der klinischen Forschung einer Gruppe das Medikament
und einer zweite Gruppe ein Placebo gegeben (natürlich ohne dass die Versuchspersonen wissen, zu
17
welcher Gruppe sie gehören). Es liegen dann zwei Gruppen von Messungen vor unter Umständen
auch mit unterschiedlicher Stichprobengrösse: Etwa Ui , i = 1, . . . , n und Vi , i = 1, . . . , m. Eine der
Standardannahmen ist, dass die Ui unabhängig und normalverteilt mit Mittel µ1 , Varianz σ 2 und die
Vi normalverteilt mit Mittel µ2 und Varianz σ 2 . Die 0-Hypothese lautet im einseitigen Fall dann etwas
{µ1 ≤ µ2 } gegen die Alternative {µ1 > µ2 } oder im zweiseitigen Fall {µ1 = µ2 } gegen {µ1 6= µ2 } . Als
Teststatistik wird dann
Tn := q
U −V
1
m
+
1
n
r
1
m+n−2
mit
U=
P
n
i=1
,
Ui − U
2
+
n
m
i=1
i=1
Pm
i=1
Vi − V
2 1X
1X
Ui , V =
Vi
n
n
verwendet. Unter der 0-Hypothese µ1 = µ2 ist Tn t-verteilt mit n + m − 2 Freiheitsgraden.
Der t-Test ist vielleicht der am weitesten verbreitete Test überhaupt. Viele mathematische Statistiker stimmen jedoch darin überein, dass man ihn eigentlich nicht verwenden sollte. Der Haupteinwand
gegen ihn besteht darin, dass der Test zwar UMP unverfälscht ist, dass aber diese Eigenschaft sehr
schnell verloren geht, wenn die Voraussetzung der Normalverteiltheit verletzt ist. Die Optimalität des
t-Test ist sehr wenig robust. Es gibt eine Reihe von Alternativen, die sich in dieser Beziehung besser
verhalten.
Wir kommen nochmals auf das Bernoulli-Experiment zurück. Wir nehmen an, dass jemand testen
will, ob die Erfolgswahrscheinlichkeit p = p0 oder p 6= p0 ist. Es ist naheliegend, dafür wieder die
Anzahl der Erfolge Xn zu verwenden und die Hypothese zu verwerfen, wenn |Xn − np0 | zu gross ist.
Da es ziemlich lästig ist, für jedes feste n den Schwellenwert für Ablehnung getrennt auszurechnen
macht man meist eine Asymptotik für n → ∞.pNatürlich kann man den Test dann nur für grosse
n verwenden. Wie wir wissen ist (Xn − np0 ) / np0 (1 − p0 ) unter der 0-Hypothese asymptotisch
standard normalverteilt, d.h. es gilt für jedes x ∈ R :
!
Z x
Xn − np0
1
2
p
√ e−y /2 dy.
lim Pp0
≤ x = Φ (x) :=
n→∞
2π
np0 (1 − p0 )
−∞
Wenn zα das obere α-Quantil von Φ ist: Φ (zα ) = 1 − α, so gilt
!
|Xn − np0 |
lim Pp0 p
≥ zα/2 = α.
n→∞
np0 (1 − p0 )
Der Test mit dem Ablehnungsbereich
|Xn − np0 | ≥ zα/2
p
np0 (1 − p0 )
hat daher asymptotisch das korrekte Niveau.
Wir wollen noch eine wichtige Verallgemeinerung dieses Test distkutieren, den χ2 -Test. Man will
etwa testen, ob ein Würfel auf alle Seiten mit gleicher Wahrscheinlichkeit fällt. Dazu wirft man den
Würfel n mal. Wir bezeichnen mit Ni die Anzahl der Würfe bei denen der Würfel i anzeigt.
Es
ist plausibel, dass wir die 0-Hypothese verwerfen werden, wenn der Vektor Nn1 , . . . , Nn6 zu sehr
von 16 , . . . , 16 abweicht. Eine naheliegende Teststatistik ist der Euklidsche Abstand. Wir fassen das
gleich etwas allgemeiner: Sei p = (p (1) , . . . , p (m)) ein Wahrscheinlichkeitsvektor. Wir betrachten
ein Zufallsexperiment mit m möglichen Ausgängen, der Einfachheit halber bezeichnen wir sie mit
18
1, . . . , m. Dabei hat i die Wahrscheinlichkeit p (i) . Dieses Zufallsexperiment wird nun n mal unabhängig wiederholt. Wir bezeichnen mit N1 , . . . , Nm die Anzahl von Ausgänge des Zufallsexperiments, bei denen i auftritt. Ein geeigneter Wahrscheinlichkeitsraum ist einfach zu konstruieren:
Ω := {ω = (ω1Q
, . . . , ωn ) : ωi ∈ {1, . . . , m}} . Ein Elementarereignis ω hat dann die Wahrscheinlichkeit Pp (ω) = ni=1 p (ωi ) . Damit können wir auch die Verteilung des Vektors N := (N1 , . . . , Nm )
ausrechnen: Für n1 + . . . + nm = n gilt
Pp (N = (n1 , . . . , nm )) = A (n1 , . . . , nm )
m
Y
p (i)ni ,
i=1
wobei A (n1 , . . . , nm ) die Anzahl der Möglichkeiten ist, die n1 Plätze bei denen 1 vorkommt, die
n2 Plätze bei denen 2 vorkommt, etc. in den n Ausgängen des Zufallsexperimentes zu verteilen:
Demzufolge ergibt sich
n
n − n1
n − n1 − n2
n − n1 − . . . − nm−1
A (n1 , . . . , nm ) =
···
n1
n2
n3
nm
n!
= Qm
.
i=1 ni !
Somit erhalten wir
n!
Pp (N = (n1 , . . . , nm )) = Qm
m
Y
i=1 ni ! i=1
p (i)ni .
Dies nennt man die Multinomialverteilung.
Die Verteilung von N1 alleine ist natürlich einfach die Binomialverteilung mit Erfolgswahrscheinlichkeit p1 , und analog für N2 , N3 , . . . . Daraus ergibt sich, dass
Ni − np (i)
p
np (i) (1 − p (i))
asymptotisch standard normalverteilt ist. Wir benötigen den folgenden Satz
Satz 9.18
m
X
(Ni − np (i))2
i=1
np (i)
ist asymptotisch χ2 -verteilt mit m − 1 Freiheitsgraden.
Beweis. Wahrscheinlichkeitstheorie nächstes Semester.
Unter Verwendung dieses Satzes können wir nun sofort einen Niveau-α-Test für die Multinomialverteilung angeben. Wir wollen die 0-Hypothese p = p0 gegen die Alternative p 6= p0 testen (p und p0
sind Wahrscheinlichkeitsvektoren der Länge m). Wir verwerfen die 0-Hypothese, wenn
m
X
(Ni − np (i))2
i=1
np (i)
≥ χ2m−1,α
(9.12)
ist. Dabei ist χ2k,α das obere α-Quantil der χ2 -Verteilung mit k Freiheitsgraden, d.h. die eindeutige
definierte postive Zahl mit
Z ∞
1
xk/2−1 e−x/2 dx = α.
Γ (k/2) 2k/2 χ2k,α
19
(Falls k gerade ist, lässt sich das Integral natürlich explizit ausrechnen). Der Test (9.12) hat für
endliches n natürlich nicht genau das Niveau α; der Unterschied ist für einigermassen grosse n jedoch
vernachlässigbar. Für Leser, die ihre Würfel testen wollen: hier die Quantile for m = 6 :
χ25,0.05 = 11.07, χ25,0.01 = 15.086, χ25,0.001 = 20.515.
Zur Illustration nehmen wir an, sie werfen den Würfel 600 mal und erhalten die folgende Verteilung
der Augenzahlen. 120, 123, 81, 85, 111, 80. Dann ist
m
X
(Ni − np (i))2
202 + 232 + 192 + 152 + 112 + 202
=
= 2.036.
np (i) (1 − p (i))
100
i=1
Somit besteht kein Grund zur Beunruhigung. Wären jedoch alle Zahlen 10 mal grösser, so hätte man
ebenfalls den 10-fachen Wert der Teststatistik. Dann könnte man getrost davon ausgehen, dass der
Würfel gezinkt ist.
9.3
Konfidenzintervalle
Wir kommen kurz zurück zu Schätzproblemen wie in Abschnitt 9.1, aber nun unter einem etwas anderen Gesichtspunkt. Wir nehmen wieder ein parametrisches Modell an, d.h. einen Raum Ω mit einer
Familie von Wahrscheinlichkeitsmassen Pθ , wobei wir für den Moment annehmen, dass θ eindimensional ist. Wichtiger als eine Schätzung θ̂, wie in Abschnitt 9.1 diskutiert,
dass man gewisse
i
h ist meist,
Fehlergrenzen angibt, die θ einschränken. Wir wollen also ein Intervall θ̂− , θ̂+ bestimmen, in dem θ
“mit grosser Wahrscheinlichkeit” liegt. Ein solches Intervall nennt man Konfidenzintervall. Nun muss
man den folgenden konzeptionellen Gesichtspunkt festhalten (der nicht von allen Statistikern geteilt
wird): Wir haben stets angenommen, dass θ nicht zufällig ist, sondern nur dem Statistiker unbekannt
ist. Somit macht es keinen Sinn, eine Wahrscheinlichkeit zu bestimmen, mit der θ irgendwo liegt.
Zufällig sind jedoch die Grenzen θ̂− , θ̂+ unseres Konfidenzintervalles.
Wir suchen also nach Zufalls
h
i
grössen θ̂− , θ̂+ , die die Eigenschaft haben, dass Pθ θ ∈ θ̂− , θ̂+ für alle möglichen Parameter gross
ist. Der Statistiker muss festlegen, wie gross diese Wahrscheinlichkeit sein soll, bzw. wie klein die
Fehlerwahrscheinlichkeit werden soll.
Definition 9.19
h
i
Sei α ∈ (0, 1). Ein Konfidenzintervall zum Konfidenzniveau α ist ein Intervall der Form θ̂α,− , θ̂α,+ ,
wobei θ̂α,− und θ̂α,+ Zufallsgrössen sind, für die
h
i
Pθ θ ∈ θ̂α,− , θ̂α,+ ≥ 1 − α
für alle θ ∈ Θ gilt.
Nun ergibt sich sofort ein direkter Zusammenhang mit der Testtheorie aus dem letzten Abschnitt
9.2: Nehmen wir einmal an, wir wollen die 0-Hypothese {θ = θ0 } gegen die zweiseitige Alternative
{θ 6= θ0 } testen, und wir hätten dazu eine Teststatistik T mit der Eigenschaft, dass die 0-Hypothese
verworfen wird, wenn T ∈
/ A gilt, wobei A eine Teilmenge von R ist. Natürlich hängt A von α und
natürlich auch von θ0 ab. Wir schreiben daher A (α, θ0 ) . Bei einer gegebenen Realisierung von T
können wir die Menge aller θ0 bestimmen, für die die 0-Hypothese nicht verworfen wird:
K (ω) := {θ0 ∈ Θ : T (ω) ∈ A (α, θ0 )} ⊂ Θ.
20
Dies ist natürlich eine zufällige Menge, denn T ist eine Zufallsgrösse. Per Definition eines Niveau-αTests gilt dann
Pθ0 ({ω ∈ Ω : T (ω) ∈ A (α, θ0 )}) ≥ 1 − α
für alle θ0 ∈ Θ. (Den Index 0 können wir uns in Zukunft natürlich wieder sparen). Wenn K (ω) die
Form eines Intervalls hat, was in der Regel der Fall ist, so haben wir genau unser Konfidenzintervall
gefunden. Wir brauchen daher nur die Tests aus dem letzten Abschnitt unter diesem Gesichtspunkt
ausschlachten.
Wir beschränken uns auf den allereinfachsten Fall, nämlich den Parameter p der Binomialverteilung. Sei Xn die Anzahl der Erfolge und X n := Xn /n. Wie wir gesehen hatten, wird die 0-Hypothese
p = p0 im zweiseitigen Fall nicht abgelehnt, wenn
p
p
−zα/2 np0 (1 − p0 ) < Xn − np0 < zα/2 np0 (1 − p0 ),
p
p
p0 (1 − p0 )
p0 (1 − p0 )
√
√
p0 − zα/2
< X n < p0 + zα/2
n
n
gilt. (Allerdings setzen wir hier voraus, dass n schon so gross ist, dass die Normalapproximation
gerechtfertigt ist). Wir müssen nun diese Bedingung nur noch umformen. Da wir n ohnehin als
einigermassen gross voraussetzen müssen, ersetzen wir p0 unter den Wurzelausdrücken durch X n ,
was zu einem Fehler der Ordnung 1/n führen wird, den wir vernachlässigen. Wir erhalten deshalb
das approximative Konfidenzintervall
q
q


Xn 1 − Xn
Xn 1 − Xn
,
√
√
, X n + zα/2
Kn := X n − zα/2
n
n
wobei die Fehler in den Grenzen des Intervalls von der Ordnung O (1/n) sind. Tatsächlich lässt sich
leicht nachweisen, dass für jedes p ∈ (0, 1)
lim Pp (p ∈ Kn ) = 1 − α
n→∞
gilt. Dies sind die üblichen Konfidenzintervalle für den Parameter der Binomialverteilung. Für kleine n sind sie jedoch nicht genau; dann sollte man aber auch nicht die Approximation durch die
Normalverteilung verwenden.
Ein Rechenbeispiel: n = 1000 und 310 Erfolge. Dann ist das 99%-Konfidenzintervall (z0.005 =
2.5758)
!
r
r
0.310 · 0.590
0.310 · 0.590
0.31 − z0.005
, 0.31 + z0.005
= (0.275, 0.345) .
1000
1000
Oft wird jedoch auch nur ein 95%−Konfidenzintervall angegeben, das natürlich enger ist. Meinungsforschungs-Institutionen geben oft noch kleinere Bandbreiten an. Diese werden dadurch erzielt, dass
die Stichprobe nicht ganz zufällig ausgewählt wird, sondern nach teilweise systematischen Gesichtspunkten. Dies birgt jedoch immer die Gefahr, dass auch systematische Fehler eingebaut werden.
21

Zugehörige Unterlagen

Ubungen zum Computerpraktikum Stochastik - staff.uni

9 Statistische Probleme

Zugehörige Unterlagen

Produkte

Unterstützung

9 Statistische Probleme

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können