9 Statistische Probleme

Werbung
9
Statistische Probleme
Grundlage aller statistischen Probleme sind probabilistische Modelle mit Parametern, die dem “Statistiker” nicht oder nicht vollständig bekannt sind. Aus Beobachtungsdaten sollen dann Rückschlüsse
auf diese Parameter gezogen werden, die den Grad der Unsicherheit einschränken. Das Grundproblem
ist daher sehr ähnlich zum Problem der “Fragestrategien” des letzten Kapitels, obwohl die Gesichtspunkte etwas anders liegen.
Ein einfaches Beispiel ist eine Binomialverteilung mit Erfolgswahrscheinlichkeit p, wobei p nicht
zum vornherein bekannt ist. Jedermann ist schon solchen Problemen begegnet, z.B. ist sicher schon
jeder beim Würfelspielen nach eine Pechsträhne auf den Gedanken gekommen, ob denn die Wahrscheinlichkeiten für die einzelnen Augenzahlen wirklich dieselben seien. Es ist naheliegend, solche
Zweifel anhand von (langen) Versuchsreihen zu testen.
Man unterscheidet zwei Typen von statistischen Problemen, die miteinander zusammenhängen:
Einerseits gibt es die Testprobleme. Hier geht es darum, eine Hypothese anhand von Daten zu testen.
Eine typische Hypothese wäre etwa, dass der Würfel o.k. ist, die der sogenannten Alternative gegenüber gestellt wird, nämlich dass er gezinkt ist. Ein anderes Beispiel: Man interessiert sich dafür, ob ein
neues Medikament gegenüber älteren eine wie man sagt signifikant besser ist. Man formuliert dann
eine sogenannte 0-Hypothese, die besagt, dass kein Unterschied besteht, bzw. das neue Medikament
höchstens so gut wie das alte ist. Die Hypothese wird dann einem statistischen Test aufgrund von
Daten unterworfen. Je nach Ausgang des Tests wird man die 0-Hypothese verwerfen. Man sagt dann
auch, dass die Daten signifikant nicht mit der 0-Hypothese in Einklang zu bringen sind.
Der zweite Typus von Problemen (die wir jedoch zuerst behandeln) sind Schätzprobleme. Hier
geht es darum, Parameter in einem Modell zu schätzen. Ein typisches Beispiel ist die Schätzung des
Parameters p in einem Bernoulliexperiment.
Das Kapitel gliedert sich in drei Unterabschnitte. In einem ersten diskutieren wir Schätzprobleme,
in einem zweiten Testprobleme, und in einem dritten kommen wir auf Schätzprobleme zurück, nämlich
auf sogenannte Konfidenzschätzungen.
Noch etwas zur Notation: In Abweichung von früheren Gepflogenheiten bezeichnen wir die Wahrscheinlichkeiten der Elementarereignisse mit P (ω) , hauptsächlich um P von Parametern, wie p
des Bernoulli-Experiments, abzugrenzen. Die meisten Wahrscheinlichkeiten in diesem Kapitel werden noch von Parametern abhängen. wir schreiben dann den Parameter als Index, z.B. Pp für das
Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p. n, die Länge des Experiments, ist natürlich
(n)
auch ein Parameter. Wenn wir ihn betonen wollen schreiben wir Pp .
9.1
Einfache Schätzprobleme
Schätzprobleme bestehen einfach darin, dass gewisse Parameter eines Modells aufgrund von erhobenen
Daten geschätzt werden sollen.
Betrachten wir etwa ein Bernoulli-Experiment mit (unbekanntem) Parameter p. Wir gehen davon
aus, dass wir das Zufallsexperiment, wie im Bernoulli-Experiment beschrieben, n-mal unabhängig
wiederholen. Bezeichnet Xn die Anzahl der Erfolge, so wissen wir, dass Xn binomialverteilt mit
Parametern p und n ist. Wir setzen voraus, dass wir n kennen. Eine naheliegende Schätzung von p
ist Xn /n. Es ist üblich, eine derartige Schätzung eines Parameters mit einem “Dach” über dem zu
schätzenden Parameter zu bezeichnen; wir schreiben also
Xn
.
(9.1)
n
Dies ist natürlich eine Zufallsgrösse. Nach der erfolgten “Messung”, d.h. der Realisierung des Zufallsexperimentes, ist p̂n natürlich einfach eine Zahl. Manchmal macht man die Unterscheidung nicht sehr
p̂n :=
1
sorgfältig. Es ist jedoch klar, dass wir uns hauptsächlich für die probabilistischen Aspekte interessieren, d.h. dass wir Eigenschaften von p̂n als Zufallsgrösse diskutieren.
Es ist wichtig, einige grundlegende Annahmen festzuhalten, über deren Berechtigung viel Tinte
verspritzt worden ist: Wir nehmen in diesem Beispiel (und hier fast durchgehend) keinesfalls an,
dass p selbst zufällig ist. Im Gegenteil betrachten wir p als eine feste Zahl, die bloss dem Statistiker
(zunächst) unbekannt ist. Es hat daher keinen Sinn, nach der Wahrscheinlichkeit zu fragen, mit der
p = 1/6 ist. Es ist jedoch sinnvoll zu fragen, mit welcher Wahrscheinlichkeit p̂n sich um weniger als
0.1 von p unterscheidet.
Zunächst einige theoretische Konzepte. Wir betrachten einen Wahrscheinlichkeitsraum (Ω, Pθ ) .
Dabei ist Pθ eine Wahrscheinlichkeit, die noch von einem Parameter θ abhängt, der “unbekannt”
ist. Dieser Parameter kann im Prinzip ziemlich beliebig sein; wir nehmen jedoch an, dass θ =
(θ1 , . . . , θm ) ∈ Rm gilt, meist sogar einfach θ ∈ R. In letzterem Fall nennt man den Parameter
eindimensional. Oft tritt jedoch die Situation ein, dass nicht jeder mögliche Vektor in Rm (oder im
eindimensionalen Fall jede reelle Zahl) tatsächlich ein Parameter ist. Auch im Bernoulli-Experiment
ist ja der Parameter p auf das Intervall [0, 1] eingeschränkt. Die Menge aller Parameterwerte, die
vorkommen können, bezeichnen wir mit Θ ⊂ Rm . Für jeden möglichen Parameter θ ∈ Θ ist also ein
Wahrscheinlichkeitsmass Pθ auf Ω definiert ist. Erwartungswerte bezüglich Pθ schreiben wir als Eθ . Es
werden jedoch oft auch unendlichdimensionale Parametermengen diskutiert. Im Jargon der Statistik
nennt man solche Situationen etwas missverständlich nichtparametrisch.
Definition 9.1
Ein Schätzer ist eine Zufallsvektor θ̂ = θ̂1 , . . . , θ̂m : Ω → Rm . Der Schätzer heisst erwartungstreu (engl.: unbiased), wenn Eθ θ̂i = θi für i = 1, . . . , m und für alle θ ∈ Θ gilt.
Bemerkung 9.2
Manchmal interessiert man sich auch nur für eine Funktion des Parameters, d.h. es ist eine Abbildung
g : Θ → R gegeben, und man möchte einen Schätzer für g (θ) gewinnen. Wir gehen darauf hier jedoch
nicht ein.
Offensichtlich ist unser oben definierter Schätzer (9.1) für den Parameter p des Bernoulli-Experimentes erwartungstreu, denn es gilt
Ep p̂n =
Ep X n
np
=
= p.
n
n
Erwartungstreue ist offensichtlich eine “wünschbare” Eigenschaft eines Schätzers, es ist aber klar,
dass sie nicht das einzige Kriterium eines guten Schätzers sein kann. Viele gute Schätzer sind übrigens
auch gar nicht erwartungstreu. (Man kann übrigens leicht Beispiele angeben, bei denen die Einschränkung auf erwartungstreue Schätzer nur zu ganz unsinnigen Schätzern führt). Ein wichtiges Konzept
ist die sogenannte Konsistenz. Man kann davon jedoch nur sprechen, wenn eine Folge von Schätzern
betrachtet wird. In den meisten Situation hängt der Wahrscheinlichkeitsraum von einem Parameter n
ab, der die “Stichprobengrösse”
genau wie etwa im Bernoulli-Experiment. Es liegen deshalb
beschreibt,
(n)
Wahrscheinlichkeitsräume Ωn , Pθ
vor, wobei die Parametermenge Θ sich jedoch nicht mit n
θ∈Θ
verändert. Wir betrachten dann ebenfalls Folgen von Schätzern θ̂n = θ̂n,1 , . . . , θ̂n,m . Natürlich wird
man von vernünftigen Schätzverfahren erwarten, dass bei “genügend langen Messreihen” der gesuchte
Parameter bestimmt ist.
Definition 9.3
Eine Folge von Schätzern heisst (schwach) konsistent, wenn für jedes ε > 0, für jedes i ∈ {1, . . . , m}
2
und für jeden Parameter θ ∈ Θ
lim Pθ θ̂n,i − θi ≥ ε = 0
n→∞
gilt.
Manchmal sagt man auch einfach, der Schätzer sei konsistent. Konsistenz ist aber immer eine
Eigenschaft von Folgen von Schätzern. Der Zusatz “schwach” in der obigen Definition, den wir jedoch nicht weiter verwenden werden, bezieht sich auf die Form der Limesaussage. Für einen stark
konsistenten Schätzer müsste limn→∞ θ̂n,i = θi , mit Pθ -Wahrscheinlichkeit 1 gelten. Wir werden nicht
weiter auf die Unterscheidung eingehen. Schwache Konsistenz ist offensichtlich das für die “Praxis”
relevante Konzept, denn eine unendliche lange Versuchsreihe lässt sich ohnehin nicht realisieren.
Satz 9.4
In einem Bernoulli-Experiment ist (p̂n )n∈N , definiert durch (9.1) ein konsistenter Schätzer für p.
Beweis. Gesetz der grossen Zahlen.
Es gibt viele Methoden Schätzer zu konstruieren, die alle ihre Vor- und Nachteile haben. Eine beliebte Klasse sind die sogenannten Maximum-Likelihood-Schätzer. Wir nehmen an, dass
die Wahrscheinlichkeiten Pθ auf einer abzählbaren Menge Ω definiert sind, und dass wir ferner
den Parameter θ aufgrund des Wertes einer Zufallsgrösse X : Ω → R schätzen wollen (oder eines Zufallsvektors). Jedes der Wahrscheinlichkeitsmasse Pθ definiert dann eine Verteilung auf X (Ω):
lθ (x) := Pθ (X = x) . Wenn Ω eine abzählbare Menge ist, so ist natürlich auch X (Ω) abzählbar. Zu
x ∈ X (Ω) definieren wir θ̂ (x) so, dass lθ̂(x) (x) maximal ist:
lθ̂(x) (x) = max lθ (x) .
θ∈Θ
Wir gehen davon aus, dass ein solcher Wert θ̂ (x) existiert und eindeutig ist, was natürlich nicht immer
der Fall zu sein braucht. θ̂ definiert dann eine Abbildung X (Ω) → Θ. Setzen wir diese Abbildung mit
der Zufallsgrösse X zusammen, so erhalten wir die Abbildung θ̂ (X) : Ω → Θ. Dies nennt man den
Maximum-Likelihood-Schätzer.
Bemerkung 9.5
Es mag etwas eigenartig erscheinen, dass wir den Schätzer oben über den Umweg einer Zufallsgrösse X
definieren wollen. Tatsächlich können wir natürlich auch einfach versuchen, Pθ (ω) zu maximieren. In
vielen Fällen liegen die Wahrscheinlichkeitsmasse jedoch nur über die Verteilungen von Zufallsgrössen
vor, die uns auch eigentlich nur interessieren. Es ist jedoch klar, dass der Maximum-LikelihoodSchätzer dann von X abhängen kann. In einigen wichtigen Fällen lässt sich jedoch nachweisen, dass
es keine Einschränkung ist, wenn man sich von vornherein auf Schätzer, die über eine (einfache)
Zufallsgrösse X definiert sind, beschränkt. Ein Beispiel ist das Bernoulli-Experiment. Hier kann man
nachweisen, dass man keine Information über p erhalten kann, die man nicht via die Anzahl der
Erfolge Xn gewinnen kann. Man nennt eine Zufallsgrösse, die alle Information über einen Parameter
enthält, eine suffiziente Statistik. Wir wollen das hier jedoch nicht weiter ausführen.
Man kann das Konzept auch auf Zufallsgrössen mit Dichten erweitern: Sei X eine m-dimensionaler
Zufallsvektor mit Dichten fθ , θ ∈ Θ. Für x ∈ Rm definieren wir analog wie oben θ̂ (x) so, dass
fθ (x) maximal ist. θ̂ (X) ist dann wieder eine Zufallsgrösse, die man in diesem Fall ebenfalls als
den Maximum-Likelihood-Schätzer bezeichnet. Wie oben muss natürlich betont werden, dass dieser
Schätzer nicht in jeder Situation existiert. Es ist übrigens auch keinesfalls klar, dass die MaximumLikelihood-Schätzer erwartungstreu sind (ausser in Spezialfällen sind sie es auch nicht). Unter ziemlich
3
allgemeinen Bedingungen kann man jedoch nachweisen, dass sie konsistent sind. Über die Berechtigung des Maximum-Likelihood-Ansatzes ist viel geschrieben und gestritten worden. Die stärkste
theoretische Stütze für die Maximum-Likelihood-Methode ist ein Satz der besagt, dass (unter gewissen Bedingungen), diese Schätzer in einem asymptotischen Sinne (der natürlich noch zu präzisieren
ist) optimal sind. Für eine ausführliche Diskussion von Maximum-Likelihood-Schätzern muss auf die
Spezialvorlesungen über Statistik verwiesen werden. Wir betrachten einige einfach Beispiele.
Beispiele 9.6
a) Bernoulli-Experiment
Der unbekannte Parameter sei p. X sei die Anzahl der Erfolge. Ist n die Anzahl der Versuche
(die wir als bekannt voraussetzen), so ist X (Ω) = {0, . . . , n} . Für x ∈ X (Ω) ist
n x
Pp (X = x) =
p (1 − p)n−x .
x
Um den Maximum-Liklihood-Schätzer zu finden, müssen wir diesen Ausdruck als Funktion in
p nun maximieren. Wir können genausogut natürlich den Logarithmus maximieren:
n
log Pp (X = x) = log
+ x log p + (n − x) log (1 − p) .
x
Der erste Summand hängt nicht von p ab und kann daher aus der Betrachtung weggelassen
werden. Wir finden das Maximum, indem wir nach p differentieren:
d
x n−x
(x log p + (n − x) log (1 − p)) = −
.
dp
p
1−p
Diese Ableitung ist genau dann 0, wenn p = x/n ist. Unser Maximum-Likelihood-Schätzer ist
daher nichts anderes als (9.1).
b) Hypergeometrische Verteilung
Wir betrachten das folgende Problem: Ein Teich enthalte eine Anzahl n von Fischen, wobei
wir n nicht kennen. n ist der unbekannte Parameter in unserem Modell. Um n zu schätzen,
entnimmt jemand dem Teich m Fische, markiert sie und setzt sie wieder aus. Anschliessend
wartet er, bis sich die Fische gut durchmischt (aber nicht vermehrt) haben. Dann entnimmt er
wieder m Fische, von denen er feststellt, dass k ≤ m markiert sind. Wir nehmen an, dass k ≥ 1
ist. Wir wollen nun die Maximum-Likelihood-Schätzung für n herleiten. m ist bekannt, nicht
aber n. Die beobachtete Zufallsgrösse X ist die Anzahl der markierten Fische beim zweiten
Fang. Abhängig von n, n ist X hypergeometrisch verteilt:
m n−m
Pn (X = k) =
k
m−k
n
m
.
Für den Maximum-Likelihood-Schätzer müssen wir dies als Funktion von n maximieren. Nun
gilt
Pn+1 (X = k)
(n + 1 − m)2
=
.
Pn (X = k)
(n − 2m + k + 1) (n + 1)
Dieser Quotient ist genau dann ≥ 1, wenn
(n + 1 − m)2 ≥ (n + 1 − 2m + k) (n + 1)
m2 ≥ k (n + 1) ,
4
2
d.h. wenn n
+2 1 ≤ m /k gilt. Mit anderen Worten: Pn (X = k) ist maximal als Funktion von
n für n = m /k − 1 . Dies ist somit der Maximum-Likelihood Schätzer für n. Man beachte,
dass der Schätzer nicht für alle möglichen Realisierungen von X definiert ist. Pn (X = 0) ist
natürlich positiv. Anderseits ist in diesem Fall der Schätzer nicht definiert (oder wenn man will
= ∞).
Nach welchen Kriterien soll man zwischen guten
und weniger guten Schätzern unterscheiden?
Ein naheliegendes Kriterium ist die Varianz Vθ θ̂ des Schätzers und man wird einen Schätzer mit
kleinerer Varianz vorziehen. Das Problem ist allerdings, dass diese Varianz von θ abhängt. Wir können
hoffen, dass wir einen Schätzer finden, der erstens erwartungstreu ist und zweitens minimale Varianz
unter allen möglichen Schätzern und für jeden möglichen Parameter θ hat. Leider gibt es derartige
Schätzer nicht in jeden Fall (eigentlich nur in wenigen sehr einfachen Fällen). Wir können jedoch
nachweisen, dass unser Schätzer (9.1) diese Eigenschaft hat. Dazu leiten wir in einem Spezialfall eine
wichtige Ungleichung her, nämlich die sogenannte Cramer-Rao-Schranke.
Der Einfachheit halber betrachten wir eine endliche Menge Ω. Für θ ∈ Θ seien Wahrscheinlichkeiten Pθ auf Ω gegeben. Wir nehmen an, dass der Parameter eindimensional ist, und dass ferner für
jedes ω ∈ Ω die Abbildung Θ 3 θ → Pθ (ω) differenzierbar in θ und überall postive ist. Ferner sei ein
Schätzer θ̂ : Ω → Θ gegeben. Wir nehmen im Moment nicht an, dass der Schätzer erwartungstreu ist.
Der Fehler zum Erwartungswert ist dann
b (θ) := Eθ θ̂ − θ.
(9.2)
Proposition 9.7 (Cramer-Rao Schranke)
Unter den obigen Bedingungen gilt für die Varianz V θ̂ des Schätzers die Ungleichung:
V θ̂ ≥
db(θ)
dθ
+1
I (θ)
2
,
wobei I (θ) die sogenannte Fisher-Information ist:
!
d log pθ 2
I (θ) := Eθ
.
dθ
Für einen unverfälschten Schätzer gilt insbesondere
V θ̂ ≥
1
.
I (θ)
Beweis. Differenzieren der Gleichung (9.2) nach θ ergibt
dE
θ̂
X dpθ (ω)
θ
db (θ)
=
−1=
θ̂ (ω) − 1
dθ
dθ
dθ
ω∈Ω
X d log pθ (ω)
d log pθ
=
θ̂ (ω) pθ (ω) − 1 = Eθ
θ̂ − 1,
dθ
dθ
ω∈Ω
wobei
d log pθ
dθ
als Zufallsgrösse aufgefasst wird. Anderseits gilt wegen 1 =
X dpθ (ω)
d log pθ
= Eθ
0=
.
dθ
dθ
ω∈Ω
5
P
ω
pθ (ω) auch
Aus den beiden Gleichungen erhalten wir
db (θ)
d log pθ + 1 = Eθ
θ̂ − b (θ)
dθ
dθ
v
u
2 ! r
u
d
log
p
θ
≤ tEθ
V θ̂ = I (θ) V θ̂ .
dθ
Von besonderem Interesse sind natürlich unverfälschte Schätzer, für die V θ̂ = 1/I (θ) gilt. Diese
haben minimale Varianz unter allen möglichen unverfälschten Schätzern.
Beispiel 9.8
Wir nehmen unser Standardbeispiel: Den Parameter p bei der Binomialverteilung. Ist ω ∈ Ω :=
{0, 1}n , so ist Pp (ω) = pXn (ω) (1 − p)n−Xn (ω) , wobei Xn (ω) wieder die Anzahl der Erfolge bezeichnet.
Es gilt dann
d log Pp (ω)
Xn (ω) n − Xn (ω)
Xn (ω) − np
=
−
=
.
dp
p
1−p
p (1 − p)
Demzufolge ist die Fisher-Information
E (Xn (ω) − np)2
V (Xn )
n
=
I (p) =
2
2 = p (1 − p) .
2
2
p (1 − p)
p (1 − p)
1/I (p) = p (1 − p) /n ist aber gerade die Varianz von p̂n = Xn /n. Demzufolge ist p̂n ein unverfälschter
Schätzer mit minimaler Varianz.
Es muss betont werden, dass in komplizierteren Situation solche unverfälschten Schätzer mit
minimaler Varianz nur selten existieren. Unter relative schwachen Regularitätsannahmen kann man
jedoch nachweisen, dass die Maximum-Likelihood-Schätzer diese Eigenschaft in einem gewissen asymptotischen Sinn (für n → ∞) haben.
Ein wichtiges Beispiel ist die Familie der Normalverteilung
mit Mittel µ ∈ R und Varianz σ 2 > 0.
Der Parameter ist dann zweidimensional: µ, σ 2 ∈ Θ := R × R+ ⊂ R2 . Wir betrachten n unabhängige
Zufallsgrössen X1 , . . . , Xn mit dieser Verteilung. Die Dichte des Zufallsvektors (X1 , . . . , Xn ) ist
1 Xn
2
2 −n/2
fµ,σ2 (x) = 2πσ
exp − 2
(xi − µ)
(9.3)
i=1
2σ
Die Aufgabe ist nun, die Parameter aus diesen Zufallsgrössen zu schätzen. Eine naheliegende Schätzung von µ ist
Pn
Xi
µ̂n := i=1 .
(9.4)
n
Wie wir schon wissen, ist µ̂n selbst wieder normalverteilt mit Erwartungswert
Pn
E(µ,σ2 ) Xi
nµ
E(µ,σ2 ) µ̂n = i=1
=
=µ
n
n
und Varianz
var(µ,σ2 ) µ̂n =
6
nσ 2
σ2
=
.
n2
n
Daraus folgt sehr leicht, dass für jedes ε > 0
lim P(µ,σ2 ) (|µ̂n − µ| ≥ ε) = 0
n→∞
gilt. µ̂n ist also ein erwartungstreuer und konsistenter Schätzer für µ. Was tun mit σ 2 ? Ein naheliegender Schätzer für σ 2 wäre
n
1X
(Xi − µ)2 .
n
i=1
Aus der Linearität des Erwartungswertes folgt sofort:
X
n
n
1
1X
E(µ,σ2 )
E(µ,σ2 ) (Xi − µ)2
(Xi − µ)2 =
i=1
n
n
i=1
= σ2.
Das Problem dabei ist nur, dass wir ja µ nicht kennen und deshalb nicht im Schätzer verwenden
können. Es ist naheliegend, den unbekannten Parameter µ einfach durch seinen Schätzer µ̂n zu ersetzen
und deshalb den Schätzer
!2
Pn
n
n
X
X
j
1X
1
j=1
(Xi − µ̂n )2 =
Xi −
n
n
n
i=1
i=1
zu versuchen. Hier ergibt sich jedoch eine kleine Überraschung bei der Berechnung des Erwartungswertes:

!2 
Pn
X
2 !
Xn
X
X
n
n
j
1
1
1
j=1
=E
Xi −
X2 −
Xi
E
i=1
i=1 i
i=1
n
n
n
n
X
2 !
n
1
= E X12 − E
Xi
i=1
n
P
E X12 = σ 2 + µ2 . Ferner ist n1 ni=1 Xi normalverteilt mit Mittel µ und Varianz σ 2 /n. Demzufolge
gilt

!2 
Pn
2
n
X
X
j
1
σ
(n − 1) σ 2
j=1
2
2
2
=σ +µ −
E
Xi −
+µ =
,
n
n
n
n
i=1
und unser ins Auge gefasster Schätzer ist nicht erwartungstreu. Man kann das jedoch sehr leicht
beheben, indem man den Schätzer leicht modifiziert und einfach
n
σ̂n2 :=
1 X
(Xi − µ̂n )2
n−1
(9.5)
i=1
setzt. Dieser Schätzer ist dann evidenterweise erwartungstreu. Er ist auch konsistent. Der Beweis
dafür sei dem Leser als Übungsaufgabe überlassen.
Was
ist der Maximum-Likelihood-Schätzer für µ, σ 2 ? Dazu müssen wir (9.3) als Funktion von
µ, σ 2 maximieren. Es ist oft günstiger, den Logarithmus zu maximieren, was auf dasselbe hinausläuft.
n
n
1 X
n
log fµ,σ2 (x) = − log (2π) − log σ 2 − 2
(xi − µ)2 .
2
2
2σ
i=1
7
Die partiellen Ableitungen ergeben:
n
∂ log fµ,σ2 (x)
1 X
= 2
(xi − µ) ,
∂µ
σ
i=1
n
∂ log fµ,σ2 (x)
n
1 X
=− 2 + 4
(xi − µ)2 .
∂ (σ 2 )
2σ
2σ
i=1
Man überzeugt sich leicht davon, dass die Lösung von ∇ log fµ,σ2 (x)
= 0 ein eindeutiges Maximum
2
ist. Daraus folgt, dass der Maximum-Likelihood-Schätzer von µ, σ durch
n
µ̂n,M L = µ̂n =
1X
xi ,
n
i=1
2
σ̂n,M
L :=
1
n
n
X
(xi − µ̂n,M L )2 .
i=1
Will man den Schätzer als Zufallsgrösse interpretieren, so muss man die xi natürlich wieder durch
die Zufallsgrössen Xi ersetzen. Wie man sieht, ist das für µ derselbe Schätzer wie oben; für σ 2 erhält
man aber den mit dem falschen Erwartungswert. Für n → ∞ verschwinder der Fehler natürlich.
Es muss betont werden, dass es andere Schätzer von µ und σ 2 gibt, die gegenüber µ̂n und σ̂n2
gewichtige Vorteile haben. Das Hauptproblem z.B. mit µ̂n ist, dass der Schätzer sehr empfindlich auf
auch nur geringfügige Verletzungen der grundlegenden Normalverteilheitsannahme ist. Ist diese nicht
richtig, so kann die Varianz des Schätzers massiv ansteigen. Der Schätzer ist, wie man sagt, nicht
robust. Eine alte Bauernregel verwendet das folgende Verfahren: Wenn der mittlere Jahresertrag (z.B.
von Getreide) aus einer Messreihe von 10 Jahren bestimmt werden soll, so lässt man das beste und
das schlechteste Ergebnis weg und mittelt die acht verbleibenden Werte. Solche Schätzer nennt man
abgeschnittene Mittel (“trimmed means” auf Englisch). Hier die formale Definition: Sei α ∈ (0, 1/2) .
Sind X1 , . . . , Xn die n Zufallsgrössen, so ordnet man sie erst der Grösse nach an. Die entsprechend
der Grösse nach geordneten Grössen bezeichnen wir mit
Xn,1 ≤ Xn,2 ≤ . . . ≤ Xn,n .
(Falls der Vektor (X1 , . . . , Xn ) eine Dichte besitzt, so folgt übrigens sofort, dass alle Xi verschieden
sind, mit Wahrscheinlichkeit 1). Anschliessend bildet man
µ̂n,α
1
:=
n − 2 [αn]
n−[αn]
X
Xn,i .
i=[αn]+1
Man kann leicht nachweisen, dass diese Schätzer ebenfalls erwartungstreu sind. Sind die Xi exakt
normalverteilt, so ist die Varianz von µ̂n,α grösser als die von µ̂n ; wenn α jedoch nicht zu gross ist
(α = 0.1 oder darunter sind typische Werte), so ist der Unterschied jedoch nicht sehr gross. (Die
Berechnung der Varianz von µ̂n,α ist allerdings nicht ganz einfach). Auf der anderen Seite hat µ̂n,α
wesentlich bessere Robustheitseigenschaften. Diese Gesichtspunkte sind in den vergangenen 20-30
Jahren intensiv untersucht worden.
Für spätere Zwecke wollen wir noch die gemeinsame Verteilung unserer beiden Schätzer (9.4) und
(9.5) berechnen. Wir können dabei µ = 0 und σ 2 = 1 annehmen; die anderen Fälle ergeben sich sofort
durch eine Skalierung.
8
Wir betrachten zunächst eine leicht einfachere Situation: Seien ξ1 , . . . , ξn n unabhängige standardnormalverteilte Zufallsgrössen. Wir betrachten die Zufallsgrösse
χ2n :=
n
X
ξi2 .
i=1
Definition 9.9
Die Verteilung von χ2n nennt man die χ2 -Verteilung mit n Freiheitsgraden.
Die Dichte der Chi-Quadrat-Verteilung können wir sehr einfach berechnen:
"
#
Z
Z
n
X
1
P χ2n ≤ x = · · · (2π)−n/2 exp −
x2i dx1 · · · dxn
2
P
i=1
n
i=1
=
Z
x2i ≤x
√
x
(2π)−n/2 sn rn−1 e−r
2 /2
dr
0
wobei sn die Oberfläche der Einheitskugel mit Radius 1 ist, die bekanntlich durch
sn =
2π n/2
Γ (n/2)
gegeben ist, mit Γ als der Gamma-Funktion:
Γ (α) :=
Z
∞
e−x xα−1 dx,
0
Γ (n) = (n − 1)! für ganzzahliges n. Differentiation liefert uns die Dichte der χ2 -Verteilung:
Z √x
n−1
d
1
2
(2π)−n/2 sn rn−1 e−r /2 dr = (2π)−n/2 sn x 2 e−x/2 √ .
dx 0
2 x
Proposition 9.10
Die χ2 -Verteilung mit n Freiheitsgraden hat die Dichte
cn (x) =
1
xn/2−1 e−x/2 , x ≥ 0.
Γ (n/2) 2n/2
Für x < 0 ist die Dichte gleich 0.
Es ist plausibel, dass die Verteilung von σ̂n2 etwas mit der χ2 -Verteilung zu tun hat. Ein Problem
besteht offenbar darin, dass wir die Normalverteilten Zufallsgrössen erst nach einer Zentrierung durch
die Zufallsgrösse µ̂n quadrieren. Diese zufällige Zentrierung führt jedoch
zu einer Reduktion der
Pn nur
√
√
Zahl der Freiheitsgrade, wie wir gleich zeigen werden. nµ̂n =
X
/
n
ist offenbar standard
i
i
normalverteilt, wenn die Xi es sind. Damit haben wir schon Teil a) des folgenden Satzes eingesehen:
Satz 9.11
Seien X1 , . . . , Xn unabhängige und standard-normalverteilte Zufallsgrössen. Dann gilt
a)
√
n
1 X
nµ̂n = √
Xi
n
i=1
ist standard normalverteilt.
9
b)
(n − 1) σ̂n2 =
n
X
(Xi − µ̂n )2
i=1
ist χ2 -verteilt mit n − 1 Freiheitsgraden.
c) µ̂n und σ̂n2 sind unabhängig.
Beweis. Wir beweisen b) und c) zusammen. Sie e1 := √1n , . . . , √1n . Dieser Vektor hat Euklidsche
Länge 1. Wir können diesen Vektor zu einer orthonormierten Basis e2 , . . . , en in Rn ergänzen, und
zwar so, dass die orthogonale Matrix der Basistransformation Determinante 1 hat. Wir betrachten die
Variablentransformation
y (x) = (y1 (x)
durch yi (x) := hx, ei i gegeben ist. Wegen
P
P , . . . , yn (x)) , die √
√
y1 (x) = ni=1 xi / n folgt mit x := ni=1 xi / n = y1 (x) / n :
n
X
(xi − x) =
n
X
=
n
X
2
i=1
x2i − nx2
i=1
2
2
yi (x) − y1 (x) =
i=1
n
X
yi (x)2 .
i=2
√
Daraus folgt für die gemeinsame Verteilung von nµ̂n und (n − 1) σ̂n2 :
Z
Z
√
1
1 Xn
2
2
x dx1 · · · dxn
P
nµ̂n ≤ a, (n − 1) σ̂n ≤ r = · · · √
exp −
P
n/2
2
i=1 i
2
nx≤a, n
i=1 (xi −x) ≤r (2π)
Z
Z
1
1 Xn
2
= ···
y dy1 · · · dyn
exp −
P
n/2
i=1 i
2
2
y1 ≤a, n
i=2 y2 ≤r (2π)
Z a
Z
Z
1
1 Xn
2
√ e−y1 /2 dy1 · · · P
=
exp −
yi2 dy2 · · · dyn .
n
i=2
2
2
2π
−∞
i=2 y2 ≤r
√
√
Daraus ergibt sich, dass nµ̂n und (n − 1) σ̂n2 unabhängig sind, dass die Verteilung von nµ̂n die
Standard-Normalverteilung ist (was wir schon wussten), und dass die Verteilung von (n − 1) σ̂n2 die
χ2 -Verteilung mit n − 1 Freiheitsgraden ist.
9.2
Testprobleme
Die Testtheorie ist eine konzeptionell ziemlich verwirrende Angelegenheit, weniger von der mathematischen Seite her, sondern von den (hoffentlich existierenden) Beziehungen zur “realen Welt”.
Ein Standarproblem ist zu entscheiden, ob z.B. ein neues Medikament eine positive Wirkung hat,
oder keine bzw. eine negative. Nehmen wir an, dass sich die möglicherweise existierende Wirkung
auf eine einfach zu messende eindimensionale Grösse bezieht, z.B. den systolischen Blutdruck. In
der Praxis sind die Probleme natürlich meist weitaus komplexer. Um die Effizienz des Medikaments
zu testen wird eine Gruppe von n Personen untersucht. Deren Bludruck wird vor der Behandlung
gemessen. Die Ergebnisse seien n reelle Zahlen, die als Zufallsgrössen interpretiert werden: U1 , . . . , Un .
Nun wird das Medikament verabreicht und dann wird wieder gemessen. Die Ergebnisse seien nun
V1 , . . . , Vn . Dann bildet man die Differenzen Xi = Ui − Vi und möchte aufgrund dieser Differenzen
nun Rückschlüsse ziehen.
Ohne weiter Annahmen ist das so gut wie unmöglich. Wir setzen daher voraus (was allerdings in
vielen Situationen schon ziemlich fragwürdig ist), dass die Paare (Ui , Vi ) alle unabhängig sind und
10
dieselbe Verteilung besitzen. Dann sind auch die Xi alle unabhängig und haben dieselbe Verteilung.
Wir sind dann daran interessiert, ob µ := EXi = 0 oder nicht ist. Falls man eine Blutdrucksenkung
im Auge hat ist die sinnvolle Alternative, an der man interessiert ist, µ > 0. Man nennt µ = 0 die
0-Hypothese. Dass µ exakt gleich 0 ist, ist natürlich wenig plausibel; es interessiert eigentlich nur,
ob µ ≤ 0 oder µ > 0 ist. Wir formulieren die 0-Hypothese entsprechend, also
0-Hypothese
µ≤0
Alternative
µ>0
Das Problem ist, dass man ohne weitere Voraussetzungen immer noch so gut wie keine vernünftigen
statistischen Aussagen machen kann. Wir setzen daher weiter voraus, dass wir die Verteilung der Xi
bis auf den Parameter µ kennen. Eine beliebte Annahme ist die der Normalverteiltheit der Xi . Die
Normalverteilung hat zwei Parameter: Den Mittelwert µ und die Varianz σ 2 . Wenn wir voraussetzen,
dass nur der Parameter µ unbekannt ist, müssen wir also voraussetzen, dass σ 2 bekannt ist. Das
ist natürlich sehr fragwürdig und tatsächlich werden wir gleich auf diese Annahme verzichten. Im
Moment wollen wir sie jedoch gelten lassen um das Prinzip eines statistischen Tests zu erläutern. Es
ist plausibel, dass wir unsere Entscheidung anhand des Mittelwertes der Messwerte, d.h. anhand von
n
1X
µ̂n :=
Xi
n
i=1
treffen wollen. Weiter ist plausibel, dass ein “zu grosser” µ̂n -Wert und zum Schluss führen wird, dass
die Alternative zutrifft. Wir werden daher einen Wert d > 0 festlegen und uns für die Alternative
entscheiden, wenn µ̂n ≥ d ist.
Nun gibt es offensichtlich zwei Möglichkeiten, wie wir zu einer fehlerhaften Entscheidung kommen
kann. Ist die 0-Hypothese richtig, hat das Medikament also keine Wirkung, so können wir augrund
eines Ausgangs µ̂n ≥ d zu dem falschen Schluss kommen, dass die Alternative richtig ist. Dies nennt
man einen Fehler 1. Art. Anderseits könnte die Alternative richtig sein und wir verwerfen die
0-Hypothese aufgrund eines Ausgangs µ̂n < d nicht. Dies nennt man einen Fehler 2. Art. Die Vorgehensweise ist nun die, dass wir d so wählen, dass die Wahrscheinlichkeit für einen Fehler 1. Art
einen bestimmten vorgegebenen Wert α ∈ (0, 1) nicht überschreitet. α nennt man das Signifikanzniveau. Es ist üblich entweder α = 0.05 oder α = 0.01 zu wählen. Eine Festlegung von α führt nun
ohne Schwierigkeiten zu der Bestimmung von d : Wir wissen ja (oder besser, wir nehmen an, dass wir
wissen), dass die Xi unabhängig und normalverteilt sind, mit Mittel µ und Varianz σ 2 , wobei wir σ 2
ebenfalls kennen. Dann ist µ̂n normalverteilt mit Mittel µ und Varianz σ 2 /n. Es ist leicht zu sehen,
dass Pµ (µ̂n ≥ d) eine ansteigende
Funktion von µ ist. (Mit Pµ bezeichnen wir die Wahrscheinlichkeit
unter den Parametern µ, σ 2 . Da wir σ 2 im Moment als bekannt voraussetzen, lassen wir es in der
Notation weg.) Wenn wir erzwingen wollen, dass Pµ (µ̂n ≥ d) ≤ α für alle µ ≤ 0 ist, so reicht es
deshalb aus, den Fall µ = 0 zu betrachten. Demzufolge ist die Wahrscheinlichkeit für einen Fehler 1.
Art höchstens
√
Z ∞
Z ∞
h n
i
n
1
1 2
2
P0 (µ̂n ≥ d) = √
exp − 2 x dx = √
exp − x dx
2σ
2
2π d√n/σ
2πσ 2 d
√
= 1 − Φ d n/σ ,
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. Sie zα ∈ R die eindeutig definierte
Zahl mit
Φ (zα ) = 1 − α.
(9.6)
11
Ist α < 1/2, was wir stets annehmen wollen, so ist zα > 0. Hier die nummerischen Werte für α = 0.05,
α = 0.01, α = 0.001 : z0.05 = 1.6449, z0.01 = 2.3263, z0.001 = 3.0902. Man nennt zα das obere αQuantil der Nomralverteilung. Wählen wir
σzα
d = d (α, σ, n) := √ ,
n
so erhalten wir
P0 (µ̂n ≥ d) = α.
(9.7)
Wir erhalten somit das folgende Entscheidungsverfahren:
σzα
µ̂n ≥ √ : Verwerfung der 0 − Hypothese
n
σzα
µ̂n < √ : keine Verwerfung der 0 − Hypothese
n
(9.8)
Ein solches Entscheidungsverfahren nennt man einen Test. Die Wahrscheinlichkeit für einen Fehler
√ α kann man jedoch
1. Art ist dabei α. Man nennt den Test einen Niveau-α-Test. Im Falle µ̂n < σz
n
natürlich immer noch den Verdacht haben, dass die 0-Hypothese nicht richtig ist, und dass z.B. eine
grössere Stichprobe zum entsprechenden Schluss geführt hätte. Man sagt dann auch einfach, der
Ausgang sei nicht signifikant (zum vorgegebenen Niveau α).
Ursprünglich hatten wir eigentlich nur verlangt, dass wir in (9.7) ≤ α haben. Es ist jedoch klar,
dass wir für µ > 0 die Wahrscheinlichkeit Pµ (µ̂n ≥ d) möglichst gross haben wollen. Von daher wird
man d so wählen, dass (9.7) gilt. Es ist ziemlich üblich α = 0.01 zu nehmen. In der Praxis wird man
natürlich ausrechnen, zu welchem α das Resultat noch signifikant ist. Im statistischen Jargon nennt
man ein Niveau α = 0.05 “schwach signifikant” und α = 0.001 “hoch signifikant”.
Hier noch eine ganz abstrakte allgemeine Definition, was ein Niveau-α-Test ist.
Sei (Pθ )θ∈Θ eine Familie von Wahrscheinlichkeitsmassen auf Ω. Seien Θ0 , ΘA ⊂ Θ zwei disjunkte
Teilmengen von Θ.
Definition 9.12
Sei α ∈ (0, 1) . Ein Niveau-α-Test für die 0-Hypothese {θ ∈ Θ0 } gegen die Alternative {θ ∈ ΘA } ist
ein Entscheidungsverfahren der Form
• Entscheidung für die Alternative, falls X ≥ z ist
• Keine Ablehnung der 0-Hypothese, falls X < z ist.
Dabei ist X : Ω → R ein Zufallsgrösse (die sogenannte Teststatistik), und z ∈ R ist so gewählt,
dass
sup Pθ (X ≥ z) ≤ α
θ∈Θ0
gilt.
Ein Niveau-α-Test garantiert somit, dass die Wahrscheinlichkeit für einen Fehler 1. Art stets
kleiner als α ist, d.h. die Wahrscheinlichkeit für eine fehlerhafte Annahme der Alternative ist durch
α beschränkt. Dies ist jedoch offensichtlich nur eine Seite der Sache: Man möchte natürlich, dass
die Wahrscheinlichkeit für eine Verwerfung der 0-Hypothese gross ist, sofern die Alternative auch
zutrifft. Ausser in ganz einfachen und artifiziellen Fällen besteht die Alternativen aus einer Vielzahl
12
von Wahrscheinlichkeitsmassen, und man wird davon ausgehen müssen, dass die Wahrscheinlichkeit
für einen Fehler 2. Art vom Parameter θ abhängt (und natürlich von der gewählten Teststatistik).
Wir untersuchen den obigen sehr einfachen gelagerten Fall der Normalverteilung. Der Fehler 2.
Art, bei Vorliegen der Alternative µ > 0 ist natürlich einfach gegeben durch
σzα
Pµ µ̂n < √
.
nσ
Nun ist µ̂n unter Pµ einfach normalverteilt mit Mittel µ und Varianz σ 2 /n, d.h.
!
!
σz
√α − µ
√
µ̂n − µ
µ̂n − µ
σzα
n
Pµ µ̂n < √
= Pµ p
< p
= Pµ p
< zα − nµ/σ
n
σ 2 /n
σ 2 /n
σ 2 /n
√
= Φ zα − nµ/σ ,
µ̂n −µ
die letzte Gleichung weil √
unter Pµ standard-normalverteilt ist. Nun muss man sich daran
2
σ /n
erinnern, dass zα so gewählt war, dass Φ (zα ) = 1 − α ist. Die Funktion
√
[0, ∞) 3 µ → Φ zα − nµ/σ ∈ [0, 1]
ist eine monoton fallende Funktion in µ. Es ist klar, dass für µ “sehr nahe” bei 0, diese Wahrscheinlichkeit für einen Fehler 2. Art immer noch nahe bei 1 − α ist. Wie schnell die Funktion abfällt hängt
natürlich von n ab: Je grösser n ist, desto schneller fällt sie ab. Meist wird übrigens die Funktion
√
1 − Φ (zα − nµ/σ) aufgezeichnet, also die Wahrscheinlichkeit für Ablehnung der 0-Hypothese. Diese
Wahrscheinlichkeit sollte natürlich möglichst gross auf den Alternativen sein. Auf Englisch heisst das
die “power function” in Deutsch meist mit Gütefunktion übersetzt. Unten ist die Gütefunktion in
unserem Beispiel für α = 0.01, n = 10 und n = 100 (bei σ 2 = 1) aufgezeichnet.
Abbildung 1: Gütefunktion bei n = 10
13
Abbildung 2: Gütefunktion bei n = 100
Man wird natürlich nach möglichst “guten” Tests Ausschau halten.
Definition 9.13
Ein Niveau-α-Test für die Hypothese {θ ∈ Θ0 } gegen die Alternative {θ ∈ ΘA } heist UMP-Test (uniformly most powerfull), falls seine Wahrscheinlichkeit für einen Fehler 2. Art höchstens die jedes
anderen Niveau-α-Tests ist, und zwar gleichmässig in θ ∈ ΘA .
Es vesteht sich fast von selbst, dass UMP-Tests in der Regel nicht existieren. Das Problem besteht
darin, dass die Optimalität gleichmässig in allen Alternativen gelten soll. Allerdings ist gerade das
bisher diskutierte Beispiel eine Ausnahme von dieser Regel: Für den Test von {µ ≤ 0} gegen {µ > 0}
ist der oben diskutierte Test tatsächliche UMP.
Ein UMP-Test existiert stets, wenn die 0-Hypothese und die Alternative wie man sagt einfach
sind, d.h. jeweils nur ein Wahrscheinlichkeitsmass enthalten. Das ist der Inhalt des Neyman-Pearson
Lemmas. Wir formulieren es in einer einfachen Situation:
Seien P1 und P0 zwei Wahrscheinlichkeiten auf der abzählbaren Menge Ω. Der Einfachheit halben
nehmen wir an, dass P0 (ω) > 0, P1 (ω) > 0 für alle ω ∈ Ω gelten. Wir wählen als Teststatistik den
sogenannten Likelihoodquotienten:
P1 (ω)
L (ω) :=
∈ R.
P0 (ω)
Der Likelihood-Quotienten-Test für die Hypothese P0 gegen die Alternative P1 ist nun einfach
der Test mit Teststatistik L : Für z > 0 sei
X
α (z) :=
P0 (ω) .
ω:L(ω)≥z
Satz 9.14 (Neyman-Pearson Lemma)
Der Test {L ≥ z} ist UMP zum Niveau α (z) für die 0-Hypothese P0 gegen die Alternative P1 .
Beweis. Wir betrachten den Ablehnungsbereich A := {L (ω) ≥ z} für unseren Likelihood-QuotientenTest und den Ablehungsbereich B ⊂ Ω für einen beliebigen anderen Test zum Niveau α (z) . Dann ist
14
die Güte dieses anderen Tests einfach
X
P1 (ω) =
ω∈B
X
≤
X
P1 (ω) und wir erhalten die Ungleichung
X
P1 (ω) ≤
ω∈B∩Ac
P1 (ω) + z
ω∈B∩A
=
ω∈B
P1 (ω) +
ω∈B∩A
X
P
X
X
P1 (ω) + z
ω∈B c ∩A
X
ω∈B∩A
P0 (ω)
X
P1 (ω)
ω∈B∩Ac
ω∈B∩A
P0 (ω) ≤
X
P1 (ω) +
ω∈B c ∩A
P1 (ω) .
ω∈A
P
P
Die zweite Ungleichung folgt wegen α (z) = ω∈A P0 (ω) ≥ ω∈B P0 (ω) , was einfach die Eigenschaft
ist, dass der zweite Test auch ein Niveau α-Test ist.
Das Neyman-Pearson-Lemma lässt sich auch leicht in allgemeineren Situationen beweisen, z.B.
wenn P0 und P1 die Verteilungen einer Zufallsgrösse (oder eines Zufallsvektors) sind, die beide Dichten
besitzen. Die Ausformulierung und der Beweis seien dem Leser überlassen. Immer gilt dabei die
Voraussetzung, dass die Hypothese und die Alternative einfach sind. Mit Hilfe des Neyman-PearsonLemmas können wir nun leicht nachweisen, dass unser Test µ ≤ 0 gegen µ > 0 UMP ist. Wir
betrachten dazu die einfache Hypothese {µ = 0} gegen die einfache Alternative {µ = µ0 } mit einem
beliebigen µ0 > 0. Nach dem Neyman-Pearson-Lemma ist dafür der Likelihood-Quotienten-Test der
UMP-Test. Nun hat der Zufallsvektor (X1 , . . . , Xn ) die gemeinsame Dichte (9.3). Der Quotient ist
X
n
fµ0 ,σ2 (x)
µ0
nµ2
= exp 2
xi − 20 .
i=1
f0,σ2 (x)
σ
σ
2
(Wir
Pn setzen σ als bekannt voraus). Als Funktion der xi ist das einfach eine monotone Funktion von
i=1 xi . Demzufolge lehnt der Likelihood-Quotienten-Test die 0-Hypothese ab, wenn diese Summe
zu gross wird, wobei die Schranke einfach durch das Niveau α festgelegt wird. Somit ist LikelihoodQuotienten-Test einfach der Test, den wir schon betrachtet haben. Da unser Test somit exakt gleich
dem Likelihood-Quotienten-Test für {µ = 0} gegen {µ = µ0 } für ein belibiges µ0 > 0 ist, und demzufolge UMP für diese Situation, so folgt dass er UMP für {µ = 0} gegen {µ > 0} ist. Es folgt dann
auch sofort, dass er UMP für {µ ≤ 0} gegen {µ > 0} ist.
Es kommt natürlich auch vor, dass man daran interessiert ist, ob ein Medikament überhaupt eine
Wirkung hat, die sich von Placebos unterscheidet, gleichgültig ob diese Wirkung positiv oder negativ
ist. In einem solchen Fall möchte man die 0-Hypothese {µ = 0} gegen die Alternative {µ 6= 0} testen.
Ein natürlicher Test ist einfach der folgende zweiseitige Test: Man lehnt die 0-Hypothese ab, wenn
|µ̂n | zu gross ist. Um das Niveau α zu gewährleisten, muss der Test dann wie folgt aussehen:
σzα/2
|µ̂n | ≥ √ : Verwerfung der 0 − Hypothese
n
σzα/2
|µ̂n | < √ : keine Verwerfung der 0 − Hypothese.
n
(9.9)
Dieser Test ist übrigens evidenterweise nicht mehr UMP. Dies liegt einfach daran, dass unser vorheriger
einseitiger Test auch für unsere Situation ein Niveau-α-Test ist, der für µ > 0 natürlich eine bessere
Güte hat. Allerdings ist die Ablehnungswahrscheinlichkeit für µ < 0 kleiner als α, was sicher nicht
wünschbar oder sinnvoll ist. Jedenfalls ist jedoch klar, dass (9.9) nicht mehr UMP ist. Es ist jedoch
sinnvoll, das UMP-Konzept etwas einzuschränken. Generell wird man natürlich keine Tests in Betracht
ziehen wollen, die für irgendeine Alternative eine Ablehnungswahrscheinlichkeit < α haben.
15
Definition 9.15
Ein Test für die 0-Hypothese Θ0 gegen die Alternative ΘA heisst unverfälscht (englisch “unbiased”),
wenn Pθ (Ablehnung) ≥ α für alle θ ∈ ΘA ist. Ein Test heisst gleichmässig bester unverfälschter
Test, wenn für jedes θ ∈ ΘA die Ablehnungswahrscheinlichkeit maximal unter allen unverfälschten
Tests ist. (Auf Englisch: UMP unbiased).
Man kann nachweisen, dass unser Test (9.9) UMP unbiased ist.
Wir kommen nun noch zu einer wichtigen Modifikation des Tests von {µ ≤ 0} gegen {µ > 0} im
Falle der Normalverteilung. Wir hatten ja bisher angenommen, dass die Varianz σ 2 bekannt ist. Das
ist in der Praxis natürlich völlig unsinnig, und wir lassen diese Voraussetzung nun fallen. Unsere
Parametermenge Θ ist daher
Θ := µ, σ 2 : µ ∈ R, σ 2 > 0 .
Für σ 2 interessieren wir uns eigentlich nicht. (Das nennt man einen “nuisance parameter”). Die 0Hypothese ist daher nach wie vor
Θ0 := µ, σ 2 : µ ≤ 0, σ 2 > 0 ,
und die Alternative
ΘA :=
µ, σ 2 : µ > 0, σ 2 > 0 .
Es ist dann klar, dass wir den Test (9.8) nicht benützen können, da wir σ 2 nicht kennen. Ein naheliegendes Verfahren besteht darin, σ 2 einfach aus den Daten selbst zu schätzen. Wie wir in Abschnitt
9.1 ausgeführt haben, ist
n
1 X
2
(Xi − µ̂n )2
σ̂n :=
n−1
i=1
P
√
√
2
ein vernünftiger Schätzer für σ . Wir ersetzen die Teststatistik nµ̂n /σ = (1/ nσ) ni=1 Xi durch
√
nµ̂n
Tn :=
.
(9.10)
σ̂n
In der englischsprachigen Literatur nennt man das die “ studentized statistics”. Die Bezeichnung
geht auf den Statistiker William Gosset zurück, der seine Arbeiten unter dem Pseudonym “Student”
publiziert hat. Der berühmte t-Test besteht dann einfach darin, dass die 0-Hypothese verworfen wird,
wenn Tn zu gross ist.
Student’s t-Test:
Tn ≥ tα,n−1 : Annahme der Alternative
(9.11)
Tn < tα,n−1 : keine Verwerfung der 0 − Hypothese.
(Der Grund für die Schreibweise tα,n−1 wird gleich ersichtlich werden.) tα,n−1 muss so bestimmt
werden, dass unter der 0-Hypothese P(µ,σ2 ) (Tn ≥ tα,n−1 ) ≤ α ist. Natürlich ist wieder der Fall µ = 0
der Extremfall und wir wollen daher tα,n−1 so bestimmen, dass P(0,σ2 ) (Tn ≥ tα,n−1 ) = α ist. Etwas
lästig erscheint die Anwesenheit von σ 2 , aber es stellt sich zum Glück heraus, dass die Verteilung
von Tn gar nicht von σ 2 abhängt: Ist nämlich Xi normalverteilt mit Mittel 0 und Varianz σ 2 , so
ist Xi /σ standard-normalverteilt. Die Substitution von Xi durch Xi /σ ändert jedoch im Ausdruck
(9.10) gar nichts. Demzufolge ist die Verteilung von Tn von σ 2 unabhängig. Es ist jedoch klar, dass
die Verteilung von n abhängt.
16
Definition 9.16
Sind X1 , . . . , Xn unabhängige und standard-normalverteilte Zufallsgrössen, so heisst die Verteilung
von Tn die t-Verteilung mit n − 1 Freiheitsgraden.
√
√
Gemäss Satz 9.9 sind nµ̂n und σ̂n2 unabhängig, wobei nµ̂n standard normalverteilt und (n − 1) σ̂n2
χ2 -verteilt mit n − 1 Freiheitsgraden sind.
Proposition 9.17
Ist Y standard normalverteilt, ist Z χ2 -verteilt mit n Freiheitsgraden und sind Y und Z unabängig,
so hat die Zufallsgrösse Y /Z die Dichtefunktion
Γ ((n + 1) /2)
fn (t) = √
nπΓ (n/2)
t2
+1
n
−(n+1)/2
.
Beweis. Übungsaufgabe.
Der kritische Wert tα,n−1 ist einfach das obere α-Quantil der t-Verteilung mit n−1 Freiheitsgraden,
also die eindeutig bestimmte Zahl mit
Z ∞
fn−1 (t) dt = α.
tα,n−1
Für n → ∞ konvergiert die t-Veteilung gegen die Standard-Normalverteilung. Insbesondere gilt
lim tα,n−1 = zα ,
n→∞
wobei zα durch (9.6) definiert ist. Wir wollen dies hier nicht beweisen. Die Unterschiede sind jedoch
nicht ganz zu vernachlässigen.
TInv(0.95; 10) = 1. 812 5
Die folgende Tabelle gibt einige Werte für die t-Quantile tα,n bei α = 0.05 und α = 0.01 :
n
10
20
50
100
∞
α = 0.05
1.8125
1.7247
1.6759
1.6602
1.6449
α = 0.01
2.7638
2.5280
2.4033
2.3642
2.3263
Der t-Test ist übrigens auch im einseitigen Fall nicht mehr UMP, jedoch UMP unbiased. Wir
können jedoch auf den Beweis nicht eingehen, der ziemlich aufwendig ist.
Wir diskutieren noch zwei wichtige Varianten des t-Test.
Unter Umstände möchte man auch auf zweiseitige Alternativen testen: Nämlich die 0-Hypothese {µ = 0} gegen die Alternative {µ 6= 0} . In diesem Fall verwirft man die Hypothese, wenn der
Absolutbetrag von Tn zu gross, ist, d.h. wenn Tn ≥ tα/2,n oder Tn ≤ −tα/2,n ist. Da die Verteilung
von Tn unter der 0-Hypothese symmetrisch ist, ist das offensichtlich ein Niveau-α-Test.
Eine weitere Modifikation ist der sogenannte Zweistrichprobentest: Wir sind ja ursprünglich beim
motivierenden Beispiel davon ausgegangen, dass die Xi als Differenzen von zwei Zufallsgrössen Ui und
Vi zustande kommen. Es kommt jedoch oft vor, dass nicht einfach dieselbe Person zweimal - einmal
vor und einmal nach einer Behandlung - gemessen wird, sondern dass zwei Gruppen von Personen
untersucht werden. Typischerweise wird in der klinischen Forschung einer Gruppe das Medikament
und einer zweite Gruppe ein Placebo gegeben (natürlich ohne dass die Versuchspersonen wissen, zu
17
welcher Gruppe sie gehören). Es liegen dann zwei Gruppen von Messungen vor unter Umständen
auch mit unterschiedlicher Stichprobengrösse: Etwa Ui , i = 1, . . . , n und Vi , i = 1, . . . , m. Eine der
Standardannahmen ist, dass die Ui unabhängig und normalverteilt mit Mittel µ1 , Varianz σ 2 und die
Vi normalverteilt mit Mittel µ2 und Varianz σ 2 . Die 0-Hypothese lautet im einseitigen Fall dann etwas
{µ1 ≤ µ2 } gegen die Alternative {µ1 > µ2 } oder im zweiseitigen Fall {µ1 = µ2 } gegen {µ1 6= µ2 } . Als
Teststatistik wird dann
Tn := q
U −V
1
m
+
1
n
r
1
m+n−2
mit
U=
P
n
i=1
,
Ui − U
2
+
n
m
i=1
i=1
Pm
i=1
Vi − V
2 1X
1X
Ui , V =
Vi
n
n
verwendet. Unter der 0-Hypothese µ1 = µ2 ist Tn t-verteilt mit n + m − 2 Freiheitsgraden.
Der t-Test ist vielleicht der am weitesten verbreitete Test überhaupt. Viele mathematische Statistiker stimmen jedoch darin überein, dass man ihn eigentlich nicht verwenden sollte. Der Haupteinwand
gegen ihn besteht darin, dass der Test zwar UMP unverfälscht ist, dass aber diese Eigenschaft sehr
schnell verloren geht, wenn die Voraussetzung der Normalverteiltheit verletzt ist. Die Optimalität des
t-Test ist sehr wenig robust. Es gibt eine Reihe von Alternativen, die sich in dieser Beziehung besser
verhalten.
Wir kommen nochmals auf das Bernoulli-Experiment zurück. Wir nehmen an, dass jemand testen
will, ob die Erfolgswahrscheinlichkeit p = p0 oder p 6= p0 ist. Es ist naheliegend, dafür wieder die
Anzahl der Erfolge Xn zu verwenden und die Hypothese zu verwerfen, wenn |Xn − np0 | zu gross ist.
Da es ziemlich lästig ist, für jedes feste n den Schwellenwert für Ablehnung getrennt auszurechnen
macht man meist eine Asymptotik für n → ∞.pNatürlich kann man den Test dann nur für grosse
n verwenden. Wie wir wissen ist (Xn − np0 ) / np0 (1 − p0 ) unter der 0-Hypothese asymptotisch
standard normalverteilt, d.h. es gilt für jedes x ∈ R :
!
Z x
Xn − np0
1
2
p
√ e−y /2 dy.
lim Pp0
≤ x = Φ (x) :=
n→∞
2π
np0 (1 − p0 )
−∞
Wenn zα das obere α-Quantil von Φ ist: Φ (zα ) = 1 − α, so gilt
!
|Xn − np0 |
lim Pp0 p
≥ zα/2 = α.
n→∞
np0 (1 − p0 )
Der Test mit dem Ablehnungsbereich
|Xn − np0 | ≥ zα/2
p
np0 (1 − p0 )
hat daher asymptotisch das korrekte Niveau.
Wir wollen noch eine wichtige Verallgemeinerung dieses Test distkutieren, den χ2 -Test. Man will
etwa testen, ob ein Würfel auf alle Seiten mit gleicher Wahrscheinlichkeit fällt. Dazu wirft man den
Würfel n mal. Wir bezeichnen mit Ni die Anzahl der Würfe bei denen der Würfel i anzeigt.
Es
ist plausibel, dass wir die 0-Hypothese verwerfen werden, wenn der Vektor Nn1 , . . . , Nn6 zu sehr
von 16 , . . . , 16 abweicht. Eine naheliegende Teststatistik ist der Euklidsche Abstand. Wir fassen das
gleich etwas allgemeiner: Sei p = (p (1) , . . . , p (m)) ein Wahrscheinlichkeitsvektor. Wir betrachten
ein Zufallsexperiment mit m möglichen Ausgängen, der Einfachheit halber bezeichnen wir sie mit
18
1, . . . , m. Dabei hat i die Wahrscheinlichkeit p (i) . Dieses Zufallsexperiment wird nun n mal unabhängig wiederholt. Wir bezeichnen mit N1 , . . . , Nm die Anzahl von Ausgänge des Zufallsexperiments, bei denen i auftritt. Ein geeigneter Wahrscheinlichkeitsraum ist einfach zu konstruieren:
Ω := {ω = (ω1Q
, . . . , ωn ) : ωi ∈ {1, . . . , m}} . Ein Elementarereignis ω hat dann die Wahrscheinlichkeit Pp (ω) = ni=1 p (ωi ) . Damit können wir auch die Verteilung des Vektors N := (N1 , . . . , Nm )
ausrechnen: Für n1 + . . . + nm = n gilt
Pp (N = (n1 , . . . , nm )) = A (n1 , . . . , nm )
m
Y
p (i)ni ,
i=1
wobei A (n1 , . . . , nm ) die Anzahl der Möglichkeiten ist, die n1 Plätze bei denen 1 vorkommt, die
n2 Plätze bei denen 2 vorkommt, etc. in den n Ausgängen des Zufallsexperimentes zu verteilen:
Demzufolge ergibt sich
n
n − n1
n − n1 − n2
n − n1 − . . . − nm−1
A (n1 , . . . , nm ) =
···
n1
n2
n3
nm
n!
= Qm
.
i=1 ni !
Somit erhalten wir
n!
Pp (N = (n1 , . . . , nm )) = Qm
m
Y
i=1 ni ! i=1
p (i)ni .
Dies nennt man die Multinomialverteilung.
Die Verteilung von N1 alleine ist natürlich einfach die Binomialverteilung mit Erfolgswahrscheinlichkeit p1 , und analog für N2 , N3 , . . . . Daraus ergibt sich, dass
Ni − np (i)
p
np (i) (1 − p (i))
asymptotisch standard normalverteilt ist. Wir benötigen den folgenden Satz
Satz 9.18
m
X
(Ni − np (i))2
i=1
np (i)
ist asymptotisch χ2 -verteilt mit m − 1 Freiheitsgraden.
Beweis. Wahrscheinlichkeitstheorie nächstes Semester.
Unter Verwendung dieses Satzes können wir nun sofort einen Niveau-α-Test für die Multinomialverteilung angeben. Wir wollen die 0-Hypothese p = p0 gegen die Alternative p 6= p0 testen (p und p0
sind Wahrscheinlichkeitsvektoren der Länge m). Wir verwerfen die 0-Hypothese, wenn
m
X
(Ni − np (i))2
i=1
np (i)
≥ χ2m−1,α
(9.12)
ist. Dabei ist χ2k,α das obere α-Quantil der χ2 -Verteilung mit k Freiheitsgraden, d.h. die eindeutige
definierte postive Zahl mit
Z ∞
1
xk/2−1 e−x/2 dx = α.
Γ (k/2) 2k/2 χ2k,α
19
(Falls k gerade ist, lässt sich das Integral natürlich explizit ausrechnen). Der Test (9.12) hat für
endliches n natürlich nicht genau das Niveau α; der Unterschied ist für einigermassen grosse n jedoch
vernachlässigbar. Für Leser, die ihre Würfel testen wollen: hier die Quantile for m = 6 :
χ25,0.05 = 11.07, χ25,0.01 = 15.086, χ25,0.001 = 20.515.
Zur Illustration nehmen wir an, sie werfen den Würfel 600 mal und erhalten die folgende Verteilung
der Augenzahlen. 120, 123, 81, 85, 111, 80. Dann ist
m
X
(Ni − np (i))2
202 + 232 + 192 + 152 + 112 + 202
=
= 2.036.
np (i) (1 − p (i))
100
i=1
Somit besteht kein Grund zur Beunruhigung. Wären jedoch alle Zahlen 10 mal grösser, so hätte man
ebenfalls den 10-fachen Wert der Teststatistik. Dann könnte man getrost davon ausgehen, dass der
Würfel gezinkt ist.
9.3
Konfidenzintervalle
Wir kommen kurz zurück zu Schätzproblemen wie in Abschnitt 9.1, aber nun unter einem etwas anderen Gesichtspunkt. Wir nehmen wieder ein parametrisches Modell an, d.h. einen Raum Ω mit einer
Familie von Wahrscheinlichkeitsmassen Pθ , wobei wir für den Moment annehmen, dass θ eindimensional ist. Wichtiger als eine Schätzung θ̂, wie in Abschnitt 9.1 diskutiert,
dass man gewisse
i
h ist meist,
Fehlergrenzen angibt, die θ einschränken. Wir wollen also ein Intervall θ̂− , θ̂+ bestimmen, in dem θ
“mit grosser Wahrscheinlichkeit” liegt. Ein solches Intervall nennt man Konfidenzintervall. Nun muss
man den folgenden konzeptionellen Gesichtspunkt festhalten (der nicht von allen Statistikern geteilt
wird): Wir haben stets angenommen, dass θ nicht zufällig ist, sondern nur dem Statistiker unbekannt
ist. Somit macht es keinen Sinn, eine Wahrscheinlichkeit zu bestimmen, mit der θ irgendwo liegt.
Zufällig sind jedoch die Grenzen θ̂− , θ̂+ unseres Konfidenzintervalles.
Wir suchen also nach Zufalls
h
i
grössen θ̂− , θ̂+ , die die Eigenschaft haben, dass Pθ θ ∈ θ̂− , θ̂+ für alle möglichen Parameter gross
ist. Der Statistiker muss festlegen, wie gross diese Wahrscheinlichkeit sein soll, bzw. wie klein die
Fehlerwahrscheinlichkeit werden soll.
Definition 9.19
h
i
Sei α ∈ (0, 1). Ein Konfidenzintervall zum Konfidenzniveau α ist ein Intervall der Form θ̂α,− , θ̂α,+ ,
wobei θ̂α,− und θ̂α,+ Zufallsgrössen sind, für die
h
i
Pθ θ ∈ θ̂α,− , θ̂α,+ ≥ 1 − α
für alle θ ∈ Θ gilt.
Nun ergibt sich sofort ein direkter Zusammenhang mit der Testtheorie aus dem letzten Abschnitt
9.2: Nehmen wir einmal an, wir wollen die 0-Hypothese {θ = θ0 } gegen die zweiseitige Alternative
{θ 6= θ0 } testen, und wir hätten dazu eine Teststatistik T mit der Eigenschaft, dass die 0-Hypothese
verworfen wird, wenn T ∈
/ A gilt, wobei A eine Teilmenge von R ist. Natürlich hängt A von α und
natürlich auch von θ0 ab. Wir schreiben daher A (α, θ0 ) . Bei einer gegebenen Realisierung von T
können wir die Menge aller θ0 bestimmen, für die die 0-Hypothese nicht verworfen wird:
K (ω) := {θ0 ∈ Θ : T (ω) ∈ A (α, θ0 )} ⊂ Θ.
20
Dies ist natürlich eine zufällige Menge, denn T ist eine Zufallsgrösse. Per Definition eines Niveau-αTests gilt dann
Pθ0 ({ω ∈ Ω : T (ω) ∈ A (α, θ0 )}) ≥ 1 − α
für alle θ0 ∈ Θ. (Den Index 0 können wir uns in Zukunft natürlich wieder sparen). Wenn K (ω) die
Form eines Intervalls hat, was in der Regel der Fall ist, so haben wir genau unser Konfidenzintervall
gefunden. Wir brauchen daher nur die Tests aus dem letzten Abschnitt unter diesem Gesichtspunkt
ausschlachten.
Wir beschränken uns auf den allereinfachsten Fall, nämlich den Parameter p der Binomialverteilung. Sei Xn die Anzahl der Erfolge und X n := Xn /n. Wie wir gesehen hatten, wird die 0-Hypothese
p = p0 im zweiseitigen Fall nicht abgelehnt, wenn
p
p
−zα/2 np0 (1 − p0 ) < Xn − np0 < zα/2 np0 (1 − p0 ),
p
p
p0 (1 − p0 )
p0 (1 − p0 )
√
√
p0 − zα/2
< X n < p0 + zα/2
n
n
gilt. (Allerdings setzen wir hier voraus, dass n schon so gross ist, dass die Normalapproximation
gerechtfertigt ist). Wir müssen nun diese Bedingung nur noch umformen. Da wir n ohnehin als
einigermassen gross voraussetzen müssen, ersetzen wir p0 unter den Wurzelausdrücken durch X n ,
was zu einem Fehler der Ordnung 1/n führen wird, den wir vernachlässigen. Wir erhalten deshalb
das approximative Konfidenzintervall
q
q


Xn 1 − Xn
Xn 1 − Xn
,
√
√
, X n + zα/2
Kn := X n − zα/2
n
n
wobei die Fehler in den Grenzen des Intervalls von der Ordnung O (1/n) sind. Tatsächlich lässt sich
leicht nachweisen, dass für jedes p ∈ (0, 1)
lim Pp (p ∈ Kn ) = 1 − α
n→∞
gilt. Dies sind die üblichen Konfidenzintervalle für den Parameter der Binomialverteilung. Für kleine n sind sie jedoch nicht genau; dann sollte man aber auch nicht die Approximation durch die
Normalverteilung verwenden.
Ein Rechenbeispiel: n = 1000 und 310 Erfolge. Dann ist das 99%-Konfidenzintervall (z0.005 =
2.5758)
!
r
r
0.310 · 0.590
0.310 · 0.590
0.31 − z0.005
, 0.31 + z0.005
= (0.275, 0.345) .
1000
1000
Oft wird jedoch auch nur ein 95%−Konfidenzintervall angegeben, das natürlich enger ist. Meinungsforschungs-Institutionen geben oft noch kleinere Bandbreiten an. Diese werden dadurch erzielt, dass
die Stichprobe nicht ganz zufällig ausgewählt wird, sondern nach teilweise systematischen Gesichtspunkten. Dies birgt jedoch immer die Gefahr, dass auch systematische Fehler eingebaut werden.
21
Herunterladen