8 Statistische Probleme

Werbung
8
Statistische Probleme
Grundlage aller statistischen Probleme sind probabilistische Modelle mit Parametern,
die dem “Statistiker” nicht oder nicht vollständig bekannt sind. Aus Beobachtungsdaten sollen dann Rückschlüsse auf diese Parameter gezogen werden, die den Grad der
Unsicherheit einschränken. Das Grundproblem ist daher sehr ähnlich zum Problem der
“Fragestrategien” des letzten Kapitels, obwohl die Gesichtspunkte etwas anders liegen.
Ein einfaches Beispiel ist eine Binomialverteilung mit Erfolgswahrscheinlichkeit p;
wobei p nicht zum vornherein bekannt ist. Jedermann ist schon solchen Problemen begegnet, z.B. ist sicher schon jeder beim Würfelspielen nach eine Pechsträhne auf den
Gedanken gekommen, ob denn die Wahrscheinlichkeiten für die einzelnen Augenzahlen
wirklich dieselben seien. Es ist naheliegend, solche Zweifel anhand von (langen) Versuchsreihen zu testen.
Man unterscheidet zwei Typen von statistischen Problemen, die miteinander zusammenhängen: Einerseits gibt es die Testprobleme. Hier geht es darum, eine Hypothese
anhand von Daten zu überprüfen. Eine typische Hypothese wäre etwa, dass der Würfel
o.k. ist, die der sogenannten Alternative gegenüber gestellt wird, die besagen würde,
dass der Würfel gezinkt ist. Ein anderes Beispiel: Man interessiert sich dafür, ob ein
neues Medikament gegenüber älteren wie man sagt signi…kant besser ist. Man formuliert
dann eine sogenannte 0-Hypothese, die besagt, dass kein Unterschied besteht, bzw. das
neue Medikament höchstens so gut wie das alte ist. Die Hypothese wird dann einem
statistischen Test aufgrund von Daten unterworfen. Je nach Ausgang des Tests wird
man die 0-Hypothese verwerfen und die Alternative akzeptieren, nämlich dass das neue
Medikament besser ist. Man sagt dann auch, dass die Daten signi…kant nicht mit der
0-Hypothese in Einklang zu bringen sind.
Der zweite Typus von Problemen (die wir jedoch zuerst behandeln) sind Schätzprobleme. Hier geht es darum, Parameter in einem Modell zu schätzen. Ein typisches
Beispiel ist die Schätzung des Parameters p in einem Bernoulliexperiment.
Das Kapitel gliedert sich in drei Unterabschnitte. In einem ersten diskutieren wir
Schätzprobleme, in einem zweiten Testprobleme, und in einem dritten kommen wir auf
Schätzprobleme zurück, nämlich auf sogenannte Kon…denzschätzungen.
Noch etwas zur Notation: In Abweichung von früheren Gep‡ogenheiten bezeichnen
wir die Wahrscheinlichkeiten der Elementarereignisse mit P (!) ; hauptsächlich um P von
Parametern, wie p des Bernoulli-Experiments, abzugrenzen. Die meisten Wahrscheinlichkeiten in diesem Kapitel werden noch von Parametern abhängen. wir schreiben dann den
Parameter als Index, z.B. Pp für das Bernoulli-Experiment mit Erfolgswahrscheinlichkeit
p. n, die Länge des Experiments, ist natürlich auch ein Parameter. Wenn wir ihn betonen
(n)
wollen schreiben wir Pp :
8.1
Einfache Schätzprobleme
Schätzprobleme bestehen einfach darin, dass gewisse Parameter eines Modells aufgrund
von erhobenen Daten geschätzt werden sollen.
127
Betrachten wir etwa ein Bernoulli-Experiment mit (unbekanntem) Parameter p: Wir
gehen davon aus, dass wir das Zufallsexperiment, wie im Bernoulli-Experiment beschrieben, n-mal unabhängig wiederholen. Bezeichnet Xn die Anzahl der Erfolge, so wissen
wir, dass Xn binomialverteilt mit Parametern p und n ist. Wir setzen voraus, dass wir
n kennen. Eine naheliegende Schätzung von p ist Xn =n: Es ist üblich, eine derartige
Schätzung eines Parameters mit einem “Dach” über dem zu schätzenden Parameter zu
bezeichnen; wir schreiben also
Xn
p^n :=
:
(8.1)
n
Dies ist natürlich eine Zufallsgrösse. Nach der erfolgten “Messung”, d.h. der Realisierung des Zufallsexperimentes, ist p^n natürlich einfach eine Zahl. Manchmal macht man
die Unterscheidung nicht sehr sorgfältig. Es ist jedoch klar, dass wir uns hauptsächlich
für die probabilistischen Aspekte interessieren, d.h. dass wir Eigenschaften von p^n als
Zufallsgrösse diskutieren. Allerdings haben wir uns mit der Schwierigkeit auseinanderzusetzen, dass die Verteilung dieser Zufallsgrösse vom Parameter p abhängt, den wir nicht
kennen.
Es ist wichtig, einige grundlegende Annahmen festzuhalten, über deren Berechtigung
viel Tinte verspritzt worden ist: Wir nehmen in diesem Beispiel (und hier fast durchgehend) keinesfalls an, dass p selbst zufällig ist. Im Gegenteil betrachten wir p als eine
feste Zahl, die bloss dem Statistiker (zunächst) unbekannt ist. Es hat daher keinen Sinn,
nach der Wahrscheinlichkeit zu fragen, mit der p = 1=6 ist. Es ist jedoch sinnvoll zu
fragen, mit welcher Wahrscheinlichkeit p^n sich um weniger als 0:1 von p unterscheidet.13
Zunächst einige theoretische Konzepte. Wir betrachten einen Wahrscheinlichkeitsraum
( ; F; P ) : Dabei sind die P Wahrscheinlichkeitsmasse auf F, die noch von einem Parameter abhängen, der “unbekannt”ist. Für die meisten Beispiele, die wir diskutieren,
nehmen wir an, dass abzählbar ist, sodass wir den allgemeinen masstheoretischen Rahmen nicht brauchen. Der Parameter kann im Prinzip ziemlich beliebig sein; wir nehmen
jedoch an, dass = ( 1 ; : : : ; m ) 2 Rm gilt, meist sogar einfach 2 R: In letzterem Fall
nennt man den Parameter eindimensional. Oft tritt jedoch die Situation ein, dass nicht
jeder mögliche Vektor in Rm (oder im eindimensionalen Fall jede reelle Zahl) tatsächlich ein Parameter ist. Auch im Bernoulli-Experiment ist ja der Parameter p auf das
Intervall [0; 1] eingeschränkt. Die Menge aller Parameterwerte, die vorkommen können,
bezeichnen wir mit
Rm : Für jeden möglichen Parameter 2 ist also ein Wahrscheinlichkeitsmass P auf ( ; F) de…niert. Erwartungswerte bezüglich P schreiben wir
als E : Es werden in der statistischen Literatur oft auch unendlichdimensionale Parametermengen diskutiert. Im Jargon der Statistik nennt man solche Situationen etwas
13
Die “philosphische” Schwierigkeit mit diesem Ansatz ist, dass p als eine Grösse betrachtet wird, die
dem Würfel quasi als physikalische Konstante angeheftet ist, wie etwa die Masse oder die chemische
Zusammensetzung und wir p nur noch messen müssen. Bei einem Würfel mag diese Vorstellung noch gut
angehen; in anderen (wichtigeren) Fällen ist dieser Ansatz natürlich fragwürdig und ist unter Beschuss
gekommen (z.B. von de Finetti). Im Gegensatz dazu geht die sogenannte Bayessche Statistik von einer
Zufallsverteilung der Parameter aus, die durch “subjektive” Einschätzungen des Statistikers zustande
kommt. Wir können auf diese Auseinandersetzungen hier jedoch nicht eingehen und lassen die Bayessche
Statistik hier ausser Betracht.
128
missverständlich nichtparametrisch. Wir gehen jedoch hier nicht auf solche Situationen
ein.
De…nition 8.1
Ein Schätzer ist eine Zufallsvektor ^ = ^1 ; : : : ; ^m :
! Rm : Der Schätzer heisst
erwartungstreu (engl.: unbiased), wenn E ^i = i für i = 1; : : : ; m und für alle 2
gilt.
Bemerkung 8.2
Manchmal interessiert man sich auch nur für eine Funktion des Parameters, d.h. es ist
eine Abbildung g : ! R gegeben, und man möchte einen Schätzer für g ( ) gewinnen.
Wir gehen darauf hier jedoch nicht ein.
O¤ensichtlich ist unser oben de…nierter Schätzer (8.1) für den Parameter p des
Bernoulli-Experimentes erwartungstreu, denn es gilt
Ep p^n =
Ep X n
np
=
= p:
n
n
Erwartungstreue ist o¤ensichtlich eine “wünschbare”Eigenschaft eines Schätzers, es
ist aber klar, dass sie nicht das einzige Kriterium eines guten Schätzers sein kann. Viele
gute Schätzer sind übrigens auch gar nicht erwartungstreu. (Man kann leicht Beispiele angeben, bei denen die Einschränkung auf erwartungstreue Schätzer nur zu ziemlich
unsinnigen Schätzern führt). Ein wichtiges Konzept ist die sogenannte Konsistenz. Man
kann davon jedoch nur sprechen, wenn eine Folge von Schätzern betrachtet wird. In den
meisten Situationen hängt der Wahrscheinlichkeitsraum von einem Parameter n 2 N
ab, der die “Stichprobengrösse” beschreibt, genau wie etwa im Bernoulli-Experiment.
(n)
Es liegen deshalb Wahrscheinlichkeitsräume
vor, wobei die Paramen ; Fn ; P
2
termenge sich jedoch nicht mit n ändert. Wir betrachten dann Folgen von Schätzern
^n = ^n;1 ; : : : ; ^n;m : Natürlich wird man von vernünftigen Schätzverfahren erwarten,
dass bei “genügend langen Messreihen” der gesuchte Parameter durch den Schätzer bestimmt ist.
De…nition 8.3
Eine Folge von Schätzern heisst (schwach) konsistent, wenn für jedes " > 0; für jedes
i 2 f1; : : : ; mg und für jeden Parameter 2
lim P
n!1
^n;i
i
" =0
gilt.
Manchmal sagt man auch einfach, der Schätzer sei konsistent. Konsistenz ist aber
immer eine Eigenschaft von Folgen von Schätzern. Der Zusatz “schwach” in der obigen
De…nition, den wir jedoch nicht weiter verwenden werden, bezieht sich auf die Form der
Limesaussage. Für einen stark konsistenten Schätzer müsste limn!1 ^n;i = i ; mit P Wahrscheinlichkeit 1 gelten. Wir werden nicht weiter auf die Unterscheidung eingehen.
129
Schwache Konsistenz ist o¤ensichtlich das relevante Konzept, denn eine unendliche lange
Versuchsreihe kommt “in der Praxis”ohnehin nicht vor. Eigentlich sollte man natürlich
^n;i
genaue Abschätzungen für P
" für endliche n haben.
i
Satz 8.4
In einem Bernoulli-Experiment ist (^
pn )n2N , de…niert durch (8.1) ein konsistenter Schätzer für p.
Beweis. Dies ist das (schwache) Gesetz der grossen Zahlen. (Satz 3.35)
Es gibt viele Methoden Schätzer zu konstruieren, die alle ihre Vor- und Nachteile
haben. Eine beliebte Klasse sind die sogenannten Maximum-Likelihood-Schätzer.
Der Einfachheit halber nehmen wir an, dass die Wahrscheinlichkeiten P auf einer
abzählbaren Menge
de…niert sind, und dass wir ferner den Parameter aufgrund
des Wertes einer Zufallsgrösse X :
! R schätzen wollen (oder eines Zufallsvektors
X : ! Rk ). Jedes der Wahrscheinlichkeitsmasse P de…niert dann eine Verteilung auf
X ( ): l (x) := P (X = x) : Wenn eine abzählbare Menge ist, so ist natürlich auch
X ( ) abzählbar. Zu x 2 X ( ) de…nieren wir ^ (x) so, dass l^(x) (x) maximal ist:
l^(x) (x) = max l (x) :
2
Wir gehen davon aus, dass ein solcher Wert ^ (x) existiert und eindeutig ist, was natürlich
nicht immer der Fall zu sein braucht. ^ de…niert dann eine Abbildung X ( ) ! : Setzen
wir diese Abbildung mit der Zufallsgrösse X zusammen, so erhalten wir die Abbildung
^ (X) : ! : Dies nennt man den Maximum-Likelihood-Schätzer.
Bemerkung 8.5
Es mag etwas eigenartig erscheinen, dass wir den Schätzer oben über den Umweg einer Zufallsgrösse X de…nieren wollen. Tatsächlich können wir natürlich auch einfach
versuchen, P (!) zu maximieren. In vielen Fällen liegen die Wahrscheinlichkeitsmasse
jedoch nur über die Verteilungen von Zufallsgrössen vor, die uns auch eigentlich nur
interessieren. Es ist jedoch klar, dass der Maximum-Likelihood-Schätzer dann von X
abhängen kann. In einigen wichtigen Fällen lässt sich jedoch nachweisen, dass es keine
Einschränkung ist, wenn man sich von vornherein auf Schätzer, die über eine (einfache)
Zufallsgrösse X de…niert sind, beschränkt. Ein Beispiel ist das Bernoulli-Experiment.
Hier kann man nachweisen, dass man keine Information über p erhalten kann, die man
nicht via die Anzahl der Erfolge Xn gewinnen kann. Man nennt eine Zufallsgrösse, die
alle Information über einen Parameter enthält, eine su¢ ziente Statistik. Die genaue
mathematische De…nition erfordert etwas Sorgfalt; wir wollen das hier nicht weiter ausführen.
Man kann das Konzept auch auf Zufallsgrössen mit Dichten erweitern: Sei X eine mdimensionaler RZufallsvektor mit Dichten f ; 2 ; d.h. für jede Borelmenge A Rm gilt
P (X 2 A) = A f (x) dx: Für x 2 Rm de…nieren wir analog wie oben ^ (x) so, dass f (x)
maximal ist. ^ (X) ist dann wieder eine Zufallsgrösse, die man in diesem Fall ebenfalls als
130
den Maximum-Likelihood-Schätzer bezeichnet. Wie oben muss natürlich betont werden,
dass dieser Schätzer nicht in jeder Situation existiert. Es ist übrigens auch keinesfalls
klar, dass die Maximum-Likelihood-Schätzer erwartungstreu sind (ausser in Spezialfällen sind sie es auch nicht). Unter ziemlich allgemeinen Bedingungen kann man jedoch
nachweisen, dass sie konsistent sind. Über die Berechtigung des Maximum-LikelihoodAnsatzes ist viel geschrieben und gestritten worden. Die stärkste theoretische Stütze für
die Maximum-Likelihood-Methode ist ein Satz der besagt, dass (unter gewissen Bedingungen), diese Schätzer in einem asymptotischen Sinne (der natürlich noch zu präzisieren
ist) optimal sind. Für eine ausführliche Diskussion von Maximum-Likelihood-Schätzern
muss auf die Spezialvorlesungen über Statistik verwiesen werden. Wir betrachten hier
nur einige einfach Beispiele.
Beispiele 8.6
a) Bernoulli-Experiment
Der unbekannte Parameter sei p: X sei die Anzahl der Erfolge. Ist n die Anzahl
der Versuche (die wir als bekannt voraussetzen), so ist X ( ) = f0; : : : ; ng : Für
x 2 X ( ) ist
n x
Pp (X = x) =
p (1 p)n x :
x
Um den Maximum-Liklihood-Schätzer zu …nden, müssen wir diesen Ausdruck als
Funktion in p nun maximieren. Wir können genauso gut natürlich den Logarithmus
maximieren:
log Pp (X = x) = log
n
+ x log p + (n
x
x) log (1
p) :
Der erste Summand hängt nicht von p ab und kann daher aus der Betrachtung
weggelassen werden. Wir …nden das Maximum, indem wir nach p di¤erentieren:
d
(x log p + (n
dp
x) log (1
p)) =
x
p
n
1
x
:
p
Diese Ableitung ist genau dann 0; wenn p = x=n ist. Unser Maximum-LikelihoodSchätzer ist daher nichts anderes als (8.1).
b) Hypergeometrische Verteilung
Wir betrachten das folgende Problem: Ein Teich enthalte eine Anzahl n von Fischen, wobei wir n nicht kennen. n ist der unbekannte Parameter in unserem Modell. Um n zu schätzen, entnimmt jemand dem Teich m Fische, markiert sie und
setzt sie wieder aus. Anschliessend wartet er, bis sich die Fische gut durchmischt
(aber nicht vermehrt) haben. Dann entnimmt er wieder m Fische, von denen er
feststellt, dass k
m markiert sind. Wir nehmen an, dass k
1 ist. Wir wollen nun die Maximum-Likelihood-Schätzung für n herleiten. m ist bekannt, nicht
131
aber n: Die beobachtete Zufallsgrösse X ist die Anzahl der markierten Fische beim
zweiten Fang. Abhängig von n; n ist X hypergeometrisch verteilt:
Pn (X = k) =
m
k
n m
m k
n
m
:
Für den Maximum-Likelihood-Schätzer müssen wir dies als Funktion von n maximieren. Nun gilt
Pn+1 (X = k)
=
Pn (X = k)
(n
Dieser Quotient ist genau dann
(n + 1
(n + 1 m)2
:
2m + k + 1) (n + 1)
1; wenn
m)2
m
2
(n + 1
2m + k) (n + 1)
k (n + 1) ;
d.h. wenn n+1 m2 =k gilt. Mit anderen Worten: Pn (X = k) ist maximal als Funktion von n für n = m2 =k 1 : Dies ist somit der Maximum-Likelihood Schätzer
für n: Man beachte, dass der Schätzer nicht für alle möglichen Realisierungen von
X de…niert ist. Pn (X = 0) ist natürlich positiv. Anderseits ist in diesem Fall der
Schätzer nicht de…niert (oder wenn man will = 1):
Nach welchen Kriterien soll man zwischen guten und weniger guten Schätzern unterscheiden? Ein naheliegendes Kriterium ist die Varianz var ^ des Schätzers und man
wird einen Schätzer mit kleinerer Varianz vorziehen. Das Problem ist allerdings, dass
diese Varianz von abhängt. Wir können ho¤en, dass wir einen Schätzer …nden, der
erstens erwartungstreu ist und zweitens minimale Varianz unter allen möglichen Schätzern und für jeden möglichen Parameter hat. Leider gibt es derartige Schätzer nur in
wenigen sehr einfachen Fällen. Wir können jedoch nachweisen, dass unser Schätzer (8.1)
diese Eigenschaft hat. Dazu leiten wir in einem Spezialfall eine wichtige Ungleichung her,
nämlich die sogenannte Cramer-Rao-Schranke.
Der Einfachheit halber betrachten wir eine endliche Menge : Für 2 seien Wahrscheinlichkeiten P auf gegeben. Wir nehmen an, dass der Parameter eindimensional
ist, und dass ferner für jedes ! 2
die Abbildung
3 ! P (!) di¤erenzierbar in
und überall postive ist. Ferner sei ein Schätzer ^ : !
gegeben. Wir nehmen im
Moment nicht an, dass der Schätzer erwartungstreu ist. Der Fehler zum Erwartungswert
ist dann
b ( ) := E ^
:
(8.2)
Diese Abweichung bezeichnet man auch als den “Bias”.
Proposition 8.7 (Cramer-Rao Schranke)
Unter den obigen Bedingungen gilt für die Varianz var
chung:
var
^
db( )
d
+1
I( )
132
2
;
^ des Schätzers die Unglei-
wobei I ( ) die sogenannte Fisher-Information ist:
2
d log p
d
I ( ) := E
!
:
Für einen unverfälschten Schätzer (d.h. b ( ) = 0) gilt insbesondere
1
:
I( )
^
var
Beweis. Di¤erenzieren der Gleichung (8.2) nach
dE ^
db ( )
=
d
d
1=
ergibt
X dp (!)
^ (!)
d
1
!2
X d log p (!)
^ (!) p (!)
=
d
1=E
!2
wobei
d log p
d
d log p ^
d
als Zufallsgrösse aufgefasst wird. Anderseits gilt wegen 1 =
0=
X dp (!)
=E
d
d log p
d
!2
:
1;
P
!
p (!) auch
Aus den beiden Gleichungen erhalten wir
db ( )
d log p ^
+1=E
d
d
v
u
u
d log p
tE
d
b( )
2
!
var
^ =
r
I ( ) var ^ :
Von besonderem Interesse sind natürlich unverfälschte Schätzer, für die var ^ =
1=I ( ) gilt. Diese haben minimale Varianz unter allen möglichen unverfälschten Schätzern.
Beispiel 8.8
Wir nehmen unser Standardbeispiel: Den Parameter p bei der Binomialverteilung. Ist
! 2 := f0; 1gn ; so ist Pp (!) = pXn (!) (1 p)n Xn (!) ; wobei Xn (!) wieder die Anzahl
der Erfolge bezeichnet. Es gilt dann
d log Pp (!)
Xn (!)
=
dp
p
n
Xn (!)
Xn (!) np
=
:
1 p
p (1 p)
Demzufolge ist die Fisher-Information
E (Xn (!)
I (p) =
p2 (1
np)2
2
p)
=
133
var (Xn )
n
:
2 = p (1
2
p)
p (1 p)
1=I (p) = p (1 p) =n ist aber gerade die Varianz von p^n = Xn =n: Demzufolge ist p^n ein
unverfälschter Schätzer mit minimaler Varianz.
Es muss betont werden, dass in komplizierteren Situation solche unverfälschten Schätzer mit minimaler Varianz nur selten existieren. Unter relative schwachen Regularitätsannahmen kann man jedoch nachweisen, dass die Maximum-Likelihood-Schätzer diese
Eigenschaft in einem gewissen asymptotischen Sinn (für n ! 1) haben.
Ein wichtiges Beispiel ist die Familie der Normalverteilung mit Mittel 2 R und
Varianz 2 > 0: Der Parameter ist dann zweidimensional: ; 2 2
:= R R+
2
R : Wir betrachten n unabhängige Zufallsgrössen X1 ; : : : ; Xn mit dieser Verteilung. Die
Dichte des Zufallsvektors (X1 ; : : : ; Xn ) ist
1 Xn
n=2
f ; 2 (x) = 2 2
exp
(xi
)2
(8.3)
i=1
2 2
Die Aufgabe ist nun, die Parameter aus diesen Zufallsgrössen zu schätzen. Eine naheliegende Schätzung von ist
Pn
Xi
^ n := i=1 :
(8.4)
n
Wie wir schon wissen, ist ^ n selbst wieder normalverteilt mit Erwartungswert
Pn
E( ; 2 ) X i
n
E( ; 2 ) ^ n = i=1
=
=
n
n
und Varianz
2
n 2
var( ; 2 ) ^ n = 2 =
:
n
n
Daraus folgt sehr leicht, dass für jedes " > 0
lim P(
n!1
;
2)
(j^ n
j
") = 0
gilt. ^ n ist also ein erwartungstreuer und konsistenter Schätzer für : Was tun mit
Ein naheliegender Schätzer für 2 wäre
2?
n
1X
(Xi
n
)2 :
i=1
Aus der Linearität des Erwartungswertes folgt sofort:
E(
;
2)
1 Xn
(Xi
i=1
n
n
)2
=
1X
E(
n
;
2)
(Xi
)2
i=1
=
2
:
Das Problem dabei ist nur, dass wir ja nicht kennen und deshalb nicht im Schätzer
verwenden können. Es ist naheliegend, den unbekannten Parameter
einfach durch
seinen Schätzer ^ n zu ersetzen und deshalb den Schätzer
!2
Pn
n
n
X
X
j
1X
1
j=1
(Xi ^ n )2 =
Xi
n
n
n
i=1
i=1
134
zu versuchen. Hier ergibt sich jedoch eine kleine Überraschung bei der Berechnung des
Erwartungswertes:
0
!2 1
!
Pn
2
Xn
Xn
Xn
X
j
1
1
1
j=1
2
A=E
Xi
X
Xi
E@
i=1
i=1 i
i=1
n
n
n
n
!
2
1 Xn
2
= E X1
E
Xi
i=1
n
P
E X12 = 2 + 2 : Ferner ist n1 ni=1 Xi normalverteilt mit Mittel und Varianz
Demzufolge gilt
0
!2 1
Pn
n
2
X
X
j
1
(n 1) 2
j=1
A= 2+ 2
E@
Xi
+ 2 =
;
n
n
n
n
2 =n:
i=1
und unser ins Auge gefasster Schätzer ist nicht erwartungstreu. Man kann das jedoch
beheben, indem man den Schätzer leicht modi…ziert und einfach
^ 2n :=
n
X
1
n
1
^ n )2
(Xi
(8.5)
i=1
setzt. Dieser Schätzer ist dann evidenterweise erwartungstreu. Er ist auch konsistent.
Der Beweis dafür sei dem Leser als Übungsaufgabe überlassen.
Was ist der Maximum-Likelihood-Schätzer für ; 2 ? Dazu müssen wir (8.3) als
Funktion von ; 2 maximieren. Es ist oft günstiger, den Logarithmus zu maximieren,
was auf dasselbe hinausläuft.
log f
;
2
n
log (2 )
2
(x) =
n
log
2
2
2
n
1 X
2
(xi
)2 :
i=1
Die partiellen Ableitungen ergeben:
@ log f
@
@ log f
@(
;
2
(x)
=
n
1 X
2
(xi
);
i=1
2
;
2)
(x)
=
n
n
1 X
+
(xi
2 2 2 4
)2 :
i=1
Man überzeugt sich leicht davon, dass die Lösung von r log f ; 2 (x) = 0 ein eindeutiges
Maximum ist. Daraus folgt, dass der Maximum-Likelihood-Schätzer von ; 2 durch
n
^ n;M L = ^ n =
1X
xi ;
n
i=1
^ 2n;M L
n
1X
:=
xi
n
i=1
135
^ n;M L
2
:
Will man den Schätzer als Zufallsgrösse interpretieren, so muss man die xi natürlich wieder durch die Zufallsgrössen Xi ersetzen. Wie man sieht, ist das für derselbe Schätzer
wie oben; für 2 erhält man aber den mit dem falschen Erwartungswert. Für n ! 1
verschwinder der Fehler natürlich.
Es muss betont werden, dass es andere Schätzer von und 2 gibt, die gegenüber ^ n
und ^ 2n gewichtige Vorteile haben. Das Hauptproblem z.B. mit ^ n ist, dass der Schätzer
sehr emp…ndlich auf auch nur geringfügige Verletzungen der grundlegenden Normalverteilheitsannahme ist. Ist diese nicht richtig, so kann die Varianz des Schätzers massiv
ansteigen. Der Schätzer ist, wie man sagt, nicht robust. Eine alte Bauernregel verwendet das folgende Verfahren: Wenn der mittlere Jahresertrag (z.B. von Getreide) aus einer
Messreihe von 10 Jahren bestimmt werden soll, so lässt man das beste und das schlechteste Ergebnis weg und mittelt die acht verbleibenden Werte. Solche Schätzer nennt man
abgeschnittene Mittel (“trimmed means” auf Englisch). Hier die formale De…nition: Sei
2 (0; 1=2) : Sind X1 ; : : : ; Xn die n Zufallsgrössen, so ordnet man sie erst der Grösse
nach an. Die entsprechend der Grösse nach geordneten Grössen bezeichnen wir mit
Xn;1
Xn;2
:::
Xn;n :
(Falls der Vektor (X1 ; : : : ; Xn ) eine Dichte besitzt, so folgt übrigens sofort, dass alle Xi
verschieden sind, mit Wahrscheinlichkeit 1): Anschliessend bildet man
^ n; :=
n
1
2 [ n]
n [ n]
X
Xn;i :
i=[ n]+1
Man kann leicht nachweisen, dass diese Schätzer ebenfalls erwartungstreu sind. Sind die
Xi exakt normalverteilt, so ist die Varianz von ^ n; grösser als die von ^ n ; wenn
jedoch nicht zu gross ist ( = 0:1 oder darunter sind typische Werte), so ist der Unterschied jedoch nicht sehr gross. (Die Berechnung der Varianz von ^ n; ist allerdings
nicht ganz einfach). Auf der anderen Seite hat ^ n; wesentlich bessere Robustheitseigenschaften. Ein ganz primitives aber praktisch stets präsentes Problem ist etwa, dass
vielleicht einige der erhobenen Daten gänzlich schlecht sind, weil etwa das Messgerät
gerade ausgefallen ist, der Laborant gerade die Messung verpatzt, oder beim Eintrag
der Daten ein Kommafehler passiert. Auf das arithmetische Mittel hat das dann einen
enormen Ein‡uss; das abgeschnittene Mittel ^ n; spürt das jedoch kaum, falls nicht zuviele der Messwerte verdorben sind. Diese Gesichtspunkte sind in den vergangenen 20-30
Jahren intensiv untersucht worden und für fast alle Schätzer sind “robuste” Versionen
entwickelt worden.14
Für spätere Zwecke wollen wir noch die gemeinsame Verteilung unserer beiden Schätzer (8.4) und (8.5) berechnen. Wir können dabei
= 0 und 2 = 1 annehmen; die
anderen Fälle ergeben sich sofort durch eine Skalierung.
14
Zürich war übrigens ein Zentrum der Forschung in robuster Statistik, vor allem mit Peter Huber
und Frank Hampel von der ETH.
136
Wir betrachten zunächst eine etwas einfachere Situation: Seien 1 ; : : : ; n n unabhängige standard-normalverteilte Zufallsgrössen. Wir betrachten die Zufallsgrösse
2
n
:=
n
X
2
i:
i=1
De…nition 8.9
Die Verteilung von
2
n
nennt man die
2 -Verteilung
mit n Freiheitsgraden.
Die Dichte der Chi-Quadrat-Verteilung können wir sehr einfach berechnen:
"
#
Z
Z
n
1X 2
n=2
2
P n x =
(2 )
exp
xi dx1
dxn
2
P
=
Z
n
i=1
p
i=1
x2i x
x
(2 )
n=2
sn rn
1
e
r 2 =2
dr
0
wobei sn die Ober‡äche der Einheitskugel mit Radius 1 ist, die bekanntlich durch
2 n=2
(n=2)
sn =
gegeben ist, mit
als der Gamma-Funktion:
Z 1
( ) :=
e
x
1
x
dx;
0
( (n) = (n
Verteilung:
1)! für ganzzahliges n:) Di¤erentiation liefert uns die Dichte der
d
dx
Z
p
x
(2 )
n=2
sn rn
1
e
r2 =2
dr = (2 )
n=2
sn x
n 1
2
0
e
x=2
2-
1
p :
2 x
Proposition 8.10
Die 2 -Verteilung mit n Freiheitsgraden hat die Dichte
cn (x) =
1
xn=2
(n=2) 2n=2
1
e
x=2
; x
0:
(8.6)
Für x < 0 ist die Dichte gleich 0:
Es ist plausibel, dass die Verteilung von ^ 2n etwas mit der 2 -Verteilung zu tun hat.
Ein Problem besteht o¤enbar darin, dass wir die normalverteilten Zufallsgrössen erst
nach einer Zentrierung durch die Zufallsgrösse ^ n quadrieren. Diese zufällige Zentrierung
führt jedoch nur zu
P einerpReduktion der Zahl der Freiheitsgrade, wie wir gleich zeigen
p
werden. n^ n = ni Xi = n ist o¤enbar standard normalverteilt, wenn die Xi es sind.
Damit haben wir schon Teil a) des folgenden Satzes eingesehen (wir beweisen es jedoch
gleich nochmals).
137
Satz 8.11
Seien X1 ; : : : ; Xn unabhängige und standard-normalverteilte Zufallsgrössen. Dann gilt
a)
p
n
1 X
n^ n = p
Xi
n
i=1
ist standard normalverteilt.
b)
1) ^ 2n =
(n
n
X
^ n )2
(Xi
i=1
ist
2 -verteilt
mit n
1 Freiheitsgraden.
c) ^ n und ^ 2n sind unabhängig.
Beweis. Wir beweisen a), b) und c) zusammen. Sie e1 := p1n ; : : : ; p1n : Dieser Vektor hat Euklidsche Länge 1: Wir können diesen Vektor zu einer orthonormierten Basis
e2 ; : : : ; en in Rn ergänzen, und zwar so, dass die orthogonale Matrix der Basistransformation Determinante 1 hat. Wir betrachten die Variablentransformation
Pn y (x)p=
(y1 (x) ; : : : ; yn (x))
P ; die durch yi (x)p:= hx; ei i gegeben ist. Wegen y1 (x) = i=1 xi / n
folgt mit x := ni=1 xi / n = y1 (x) = n :
n
X
(xi
x)2 =
i=1
n
X
x2i
nx2
i=1
=
n
X
2
2
yi (x)
y1 (x) =
i=1
=
=
Z
Z
1
p
nx a;
y1 a;
a
yi (x)2 :
i=2
Daraus folgt für die gemeinsame Verteilung von
Z
Z
p
2
P
n^ n a; (n 1) ^ n r =
p
Z
n
X
1
p e
2
1) ^ 2n :
n^ n und (n
1
Pn
i=1 (xi
Pn
i=2
y12 =2
(2 )n=2
x)2 r
1
y22 r
dy1
Z
n=2
(2 )
Z
exp
Pn
i=2
y22
exp
1 Xn
x2 dx1
i=1 i
2
1 Xn
y 2 dy1
dyn
i=1 i
2
1 Xn
exp
yi2 dy2
i=2
2
r
p
Daraus ergibt sich, dass n^ n und (n 1) ^ 2n unabhängig sind, dass die Verteilung
p
von n^ n die Standard-Normalverteilung ist (was wir schon wussten), und dass die
Verteilung von (n 1) ^ 2n die 2 -Verteilung mit n 1 Freiheitsgraden ist.
138
dxn
dyn :
8.2
Testprobleme
Die Testtheorie ist eine konzeptionell etwas verwirrende Angelegenheit, weniger in mathematischen Hinsicht, sondern von den (ho¤entlich existierenden) Beziehungen zur “realen Welt”.
Die sich heutezutage weitgehend durchgesetzten Konzepte stammen aus dem Anfang
des 20. Jahrhunderts und basieren auf den Ideen zweier englischen Wissenschaftlern,
Pearson und Fisher, die sich allerdings spinnefeind waren und sich bekämpften. Auf den
(mehr philosophischen) Hintergrund der Auseinandersetzungen können wir hier nicht
eingehen.15
Karl Pearson 1857-1936
Sir Ronald A. Fisher 1890-1962
Ein Standarproblem ist zu entscheiden, ob z.B. ein neues Medikament eine positive
Wirkung hat, oder keine bzw. eine negative. Nehmen wir an, dass sich die möglicherweise existierende Wirkung auf eine einfach zu messende eindimensionale Grösse bezieht,
z.B. den systolischen Blutdruck. In der Praxis sind die Probleme natürlich meist weitaus
komplexer. Um die E¢ zienz des Medikaments zu testen wird eine Gruppe von n Personen untersucht. Deren Bludruck wird vor der Behandlung gemessen. Die Ergebnisse
seien n reelle Zahlen, die als Zufallsgrössen interpretiert werden: U1 ; : : : ; Un : Nun wird
15
Unter dem Ein‡uss der Computer ist jedoch eine Entwicklung in der Statistik im Gange, die etwas
von den hier vorgestellten Konzepten wegführt. Ein Schlagwort dafür ist “data mining”. Überspitzt
ausgedrückt “wühlt”man mit Hilfe des Computers so lange in Daten, bis man “etwas sieht”. Statistikern,
die mit den klassischen Verfahren gross geworden sind, ist das z.T. ein Greuel.
139
das Medikament verabreicht und dann wird wieder gemessen. Die Ergebnisse seien nun
V1 ; : : : ; Vn : Dann bildet man die Di¤erenzen Xi = Ui Vi und möchte aufgrund dieser
Di¤erenzen nun Rückschlüsse ziehen.
Ohne weiter Annahmen ist das so gut wie unmöglich. Wir setzen daher voraus (was
allerdings in vielen Situationen schon ziemlich fragwürdig ist), dass die Paare (Ui ; Vi ) alle
unabhängig sind und dieselbe Verteilung besitzen. Dann sind auch die Xi alle unabhängig
und haben dieselbe Verteilung. Wir sind dann daran interessiert, ob := EXi = 0 oder
nicht ist. Falls man eine Blutdrucksenkung im Auge hat ist die sinnvolle Alternative, an
der man interessiert ist, > 0: Man nennt = 0 die 0-Hypothese. Dass exakt gleich
0 ist, ist natürlich wenig plausibel; es interessiert eigentlich nur, ob
0 oder > 0 ist.
Wir formulieren die 0-Hypothese entsprechend, also
0-Hypothese
0
Alternative
>0
Das Problem ist, dass man ohne weitere Voraussetzungen immer noch so gut wie
keine vernünftigen statistischen Aussagen machen kann. Wir setzen daher weiter voraus,
dass wir die Verteilung der Xi bis auf den Parameter kennen. Eine beliebte Annahme
ist die der Normalverteiltheit der Xi . Die Normalverteilung hat zwei Parameter: Den
Mittelwert
und die Varianz 2 : Wenn wir voraussetzen, dass nur der Parameter
unbekannt ist, müssen wir also voraussetzen, dass 2 bekannt ist. Das ist natürlich sehr
fragwürdig und tatsächlich werden wir gleich auf diese Annahme verzichten. Im Moment
wollen wir sie jedoch gelten lassen um das Prinzip eines statistischen Tests zu erläutern.
Es ist plausibel, dass wir unsere Entscheidung anhand des Mittelwertes der Messwerte,
d.h. anhand von
n
1X
^ n :=
Xi
n
i=1
tre¤en wollen. Weiter ist plausibel, dass ein “zu grosser”^ n -Wert und zum Schluss führen
wird, dass die Alternative zutri¤t. Wir werden daher einen Wert d > 0 festlegen und uns
für die Alternative entscheiden, wenn ^ n d ist.
Nun gibt es o¤ensichtlich zwei Möglichkeiten, wie wir zu einer fehlerhaften Entscheidung kommen kann. Ist die 0-Hypothese richtig, hat das Medikament also keine Wirkung,
so können wir augrund eines Ausgangs ^ n d zu dem falschen Schluss kommen, dass die
Alternative richtig ist. Dies nennt man einen Fehler 1. Art. Anderseits könnte die Alternative richtig sein und wir verwerfen die 0-Hypothese aufgrund eines Ausgangs ^ n < d
nicht. Dies nennt man einen Fehler 2. Art. Die Vorgehensweise ist nun die, dass wir d
so wählen, dass die Wahrscheinlichkeit für einen Fehler 1. Art einen bestimmten vorgegebenen Wert 2 (0; 1) nicht überschreitet. nennt man das Signi…kanzniveau. Es
ist üblich entweder = 0:05 oder = 0:01 zu wählen. Eine Festlegung von führt nun
ohne Schwierigkeiten zu der Bestimmung von d : Wir wissen ja (oder besser, wir nehmen
an, dass wir wissen), dass die Xi unabhängig und normalverteilt sind, mit Mittel und
Varianz 2 ; wobei wir 2 ebenfalls kennen. Dann ist ^ n normalverteilt mit Mittel und
140
Varianz 2 =n: Es ist leicht zu sehen, dass P (^ n d) eine ansteigende Funktion von
ist. (Mit P bezeichnen wir die Wahrscheinlichkeit unter den Parametern ; 2 : Da
wir 2 im Moment als bekannt voraussetzen, lassen wir es in der Notation weg.) Wenn
wir erzwingen wollen, dass P (^ n d)
für alle
0 ist, so reicht es deshalb aus,
den Fall = 0 zu betrachten. Demzufolge ist die Wahrscheinlichkeit für einen Fehler 1.
Art höchstens
p
Z 1
Z 1
h n
i
1
1 2
n
2
p
x dx
x
dx
=
exp
P0 (^ n d) = p
exp
p
2
2
2
2
2 d n=
2
d
p
=1
d n= ;
wobei die Verteilungsfunktion der Standardnormalverteilung ist. Sie z 2 R die eindeutig de…nierte Zahl mit
(z ) = 1
:
(8.7)
Ist < 1=2; was wir stets annehmen wollen, so ist z > 0: Hier die nummerischen Werte
für = 0:05; = 0:01; = 0:001 : z0:05 = 1:6449; z0:01 = 2:3263; z0:001 = 3:0902: Man
nennt z das obere -Quantil der Nomralverteilung. Wählen wir
z
d = d ( ; ; n) := p ;
n
so erhalten wir
P0 (^ n
d) = :
(8.8)
Wir erhalten somit das folgende Entscheidungsverfahren:
z
p : Verwerfung der 0 Hypothese
n
z
^ n < p : keine Verwerfung der 0 Hypothese
n
^n
(8.9)
Ein solches Entscheidungsverfahren nennt man einen Test. Die Wahrscheinlichkeit
für einen Fehler 1. Art ist dabei : Man nennt den Test einen Niveau- -Test. Im
Falle ^ n < pzn kann man jedoch natürlich immer noch den Verdacht haben, dass die
0-Hypothese nicht richtig ist, und dass z.B. eine grössere Stichprobe zum entsprechenden
Schluss geführt hätte. Man sagt dann auch einfach, der Ausgang sei nicht signi…kant
(zum vorgegebenen Niveau ):
Ursprünglich hatten wir eigentlich nur verlangt, dass wir in (8.8)
haben. Es ist
jedoch klar, dass wir für > 0 die Wahrscheinlichkeit P (^ n d) möglichst gross haben
wollen. Von daher wird man d so wählen, dass (8.8) gilt. Es ist ziemlich üblich = 0:01
zu nehmen. In der Praxis wird man natürlich ausrechnen, zu welchem das Resultat
noch signi…kant ist. Im statistischen Jargon nennt man ein Niveau = 0:05 “schwach
signi…kant” und = 0:001 “hoch signi…kant”.
Es ist wichtig zu bemerken, dass die 0-Hypothese und die Alternative nicht ganz
symmetrisch behandelt werden. In der Tat “klebt” der Statistiker gewissermassen an
141
der 0-Hypothese und will diese nur verwerfen, wenn dafür gute Gründe vorliegen. Das
ist für viele Situationen in der Praxis vernünftig. Eine bewährte Behandlungsmethode
in der Medizin aufzugeben und zu einer neuen zu wechseln hat nur dann Sinn, wenn die
neue Methode wirklich “signi…kant” besser ist.16
Hier noch eine ganz abstrakte allgemeine De…nition, was ein Niveau- -Test ist.
Sei (P ) 2 eine Familie von Wahrscheinlichkeitsmassen auf : Seien 0 ; A
zwei disjunkte Teilmengen von :
De…nition 8.12
Sei 2 (0; 1) : Ein Niveau- -Test für die 0-Hypothese f 2
f 2 A g ist ein Entscheidungsverfahren der Form
Entscheidung für die Alternative, falls X
0g
gegen die Alternative
z ist
Keine Ablehnung der 0-Hypothese, falls X < z ist.
Dabei ist X : ! R ein Zufallsgrösse (die sogenannte Teststatistik), und z 2 R
ist so gewählt, dass
sup P (X z)
2
0
gilt.
Ein Niveau- -Test garantiert somit, dass die Wahrscheinlichkeit für einen Fehler 1.
Art stets kleiner als ist, d.h. die Wahrscheinlichkeit für eine fehlerhafte Annahme der
Alternative ist durch beschränkt. Dies ist jedoch o¤ensichtlich nur eine Seite der Sache:
Man möchte natürlich, dass die Wahrscheinlichkeit für eine Verwerfung der 0-Hypothese
gross ist, sofern die Alternative auch zutri¤t. Ausser in ganz einfachen und arti…ziellen
Fällen besteht die Alternative aus einer Vielzahl von Wahrscheinlichkeitsmassen, und
man wird davon ausgehen müssen, dass die Wahrscheinlichkeit für einen Fehler 2. Art
vom Parameter abhängt (und natürlich von der gewählten Teststatistik).
Wir untersuchen den obigen sehr einfachen gelagerten Fall der Normalverteilung
(8.9). Der Fehler 2. Art, bei Vorliegen der Alternative > 0 ist natürlich einfach gegeben
durch
z
P ^n < p
:
n
Nun ist ^ n unter P einfach normalverteilt mit Mittel
!
pz
z
^n
n
p
P ^n < p
=P
< p
=P
2 =n
2 =n
n
p
=
z
n = ;
16
und Varianz
^
pn
2 =n
<z
2 =n;
p
d.h.
n =
!
Eine di¤erenziertere Betrachtungsweise würde jedoch genauer gewichten, welche Schäden durch die
beiden Typen von Fehlern potentiell angerichtet werden.
142
^n
die letzte Gleichung weil p
2
=n
unter P standard-normalverteilt ist. Nun muss man
sich daran erinnern, dass z so gewählt war, dass (z ) = 1
p
[0; 1) 3 !
z
n = 2 [0; 1]
ist. Die Funktion
ist eine monoton fallende Funktion in : Es ist klar, dass für “sehr nahe” bei 0; diese
Wahrscheinlichkeit für einen Fehler 2. Art immer noch nahe bei 1
ist. Wie schnell
die Funktion abfällt hängt natürlich von n ab: Je grösser n ist, desto schneller fällt sie
p
ab. Meist wird übrigens die Funktion 1
(z
n = ) aufgezeichnet, also die Wahrscheinlichkeit für Ablehnung der 0-Hypothese. Diese Wahrscheinlichkeit sollte natürlich
möglichst gross auf den Alternativen sein. Auf Englisch heisst das die “power function”
in Deutsch meist mit Gütefunktion übersetzt. Unten ist die Gütefunktion in unserem
Beispiel für = 0:01; n = 10 und n = 100 (bei 2 = 1) aufgezeichnet.
Gütefunktion bei n = 10
Gütefunktion bei n = 100
Wie man den Graphiken entnimmt, vermag der Test -Werte über etwa 1:5 bei n = 10
sicher zu erkennen und bei n = 100 schon -Werte ab etwa 0:5: Diese Sachverhalte sollten
dem Anwender bekannt sein. Man wird natürlich nach möglichst “guten”Tests Ausschau
halten.
143
De…nition 8.13
Ein Niveau- -Test für die Hypothese f 2 0 g gegen die Alternative f 2 A g heist
UMP-Test (uniformly most powerfull), falls seine Wahrscheinlichkeit für einen Fehler 2.
Art höchstens die jedes anderen Niveau- -Tests ist, und zwar gleichmässig in 2 A :
Es vesteht sich fast von selbst, dass UMP-Tests für die meisten Testprobleme nicht
existieren. Das Problem besteht darin, dass die Optimalität gleichmässig in allen Alternativen gelten soll. Allerdings ist gerade das bisher diskutierte einfache Beispiel eine
Ausnahme von dieser Regel: Für den Test von f
0g gegen f > 0g ist der oben diskutierte Test tatsächliche UMP.
Ein UMP-Test existiert stets, wenn die 0-Hypothese und die Alternative wie man
sagt einfach sind, d.h. jeweils nur ein Wahrscheinlichkeitsmass enthalten. Das ist der
Inhalt des Neyman-Pearson Lemmas. Wir formulieren und beweisen es in einer ganz
einfachen Situation:
Seien P1 und P0 zwei Wahrscheinlichkeiten auf der abzählbaren Menge : Der Einfachheit halben nehmen wir an, dass P0 (!) > 0; P1 (!) > 0 für alle ! 2 gelten. Wir
wählen als Teststatistik den sogenannten Likelihoodquotienten:
P1 (!)
2 R:
P0 (!)
L (!) :=
Der Likelihood-Quotienten-Test für die Hypothese P0 gegen die Alternative P1 ist
nun einfach der Test mit Teststatistik L : Für z > 0 sei
X
P0 (!) :
(z) :=
!:L(!) z
Satz 8.14 (Neyman-Pearson Lemma)
Der Test fL zg ist UMP zum Niveau (z) für die 0-Hypothese P0 gegen die Alternative
P1 :
Beweis. Wir betrachten den Ablehnungsbereich A := fL (!) zg für unseren LikelihoodQuotienten-Test und den Ablehungsbereich B
für einen beliebigen
anderen Test
P
zum Niveau (z) : Dann ist die Güte dieses anderen Tests einfach !2B P1 (!) und wir
erhalten die Ungleichung
X
X
X
X
X
P1 (!) =
P1 (!) +
P1 (!)
P1 (!) + z
P0 (!)
!2B
!2B\Ac
!2B\A
X
P1 (!) + z
!2B\A
=
X
X
!2B\Ac
!2B\A
P0 (!)
!2B c \A
X
!2B\A
P1 (!) +
X
P1 (!)
!2B c \A
P1 (!) :
!2A
P
P
Die zweite Ungleichung folgt wegen (z) = !2A P0 (!)
!2B P0 (!) ; was einfach
die Eigenschaft ist, dass der zweite Test auch ein Niveau -Test ist.
144
Hier die allgemeine Formulierung des Neyman-Pearson Lemmas. Der Beweis ist im
wesentlichen eine Kopie dies obigen und sei dem Leser überlassen:
P0 und P1 seien zwei Wahrscheinlichkeitsmasse auf dem messbaren Raum ( ; F) :
Wir betrachten das Wahrscheinlichkeitsmass Q := (P0 + P1 ) =2: O¤enbar sind P0 und
P1 absolut stetig bezüglich Q und wir setzen
f0 :=
und den Liklihood-Quotienten l :
dP0
dP1
; f1 :=
;
dQ
dQ
! [0; 1] durch
l (!) :=
f1 (!)
;
f0 (!)
wobei wir a=0 = 1 setzen für a > 0: Die Festlegung von 0=0 spielt im untenstehenden
Satz keine Rolle; Sie können 0=0 = 1 setzen.
Satz 8.15
Für z
0 ist der Test fl
P0 (l z) :
zg ein UMP-Test für P0 gegen P1 zum Niveau
(z) :=
Mit Hilfe des Neyman-Pearson-Lemmas können wir nun leicht nachweisen, dass unser
Test
0 gegen > 0 UMP ist. Wir betrachten dazu die einfache Hypothese f = 0g
gegen die einfache Alternative f = 0 g mit einem beliebigen 0 > 0: Nach dem NeymanPearson-Lemma 8.15 ist dafür der Likelihood-Quotienten-Test der UMP-Test. Nun hat
der Zufallsvektor (X1 ; : : : ; Xn ) die gemeinsame Dichte (8.3). Der Quotient ist
f 0 ; 2 (x)
= exp
f0; 2 (x)
0
2
Xn
i=1
xi
n
2
0
2
:
(Wir setzen 2 als P
bekannt voraus). Als Funktion der xi ist das einfach eine monon
tone Funktion von
i=1 xi : Demzufolge lehnt der Likelihood-Quotienten-Test die 0Hypothese ab, wenn diese Summe zu gross wird, wobei die Schranke einfach durch das
Niveau festgelegt wird. Somit ist Likelihood-Quotienten-Test einfach der Test, den wir
schon betrachtet haben. Da unser Test somit exakt gleich dem Likelihood-QuotientenTest für f = 0g gegen f = 0 g für ein belibiges 0 > 0 ist, und demzufolge UMP für
diese Situation, so folgt dass er UMP für f = 0g gegen f > 0g ist. Es folgt dann auch
sofort, dass er UMP für f
0g gegen f > 0g ist.
Es kommt natürlich auch vor, dass man daran interessiert ist, ob ein Medikament
überhaupt eine Wirkung hat, die sich von Placebos unterscheidet, gleichgültig ob diese
Wirkung positiv oder negativ ist. In einem solchen Fall möchte man die 0-Hypothese
f = 0g gegen die Alternative f 6= 0g testen. Ein natürlicher Test ist einfach der folgende zweiseitige Test: Man lehnt die 0-Hypothese ab, wenn j^ n j zu gross ist. Um das
Niveau zu gewährleisten, muss der Test dann wie folgt aussehen:
145
z =2
p : Verwerfung der 0 Hypothese
n
z =2
j^ n j < p : keine Verwerfung der 0 Hypothese:
n
j^ n j
(8.10)
Dieser Test ist evidenterweise nicht mehr UMP. Dies liegt einfach daran, dass unser
vorheriger einseitiger Test auch für unsere Situation ein Niveau- -Test ist, der für > 0
natürlich eine bessere Güte hat. Allerdings ist die Ablehnungswahrscheinlichkeit für <
0 kleiner als ; was sicher nicht wünschbar oder sinnvoll ist. Jedenfalls ist klar, dass (8.10)
nicht mehr UMP ist. Es ist jedoch sinnvoll, das UMP-Konzept etwas einzuschränken.
Generell wird man natürlich keine Tests in Betracht ziehen wollen, die für irgendeine
Alternative eine Ablehnungswahrscheinlichkeit < haben.
De…nition 8.16
Ein Test für die 0-Hypothese 0 gegen die Alternative A heisst unverfälscht (englisch
“unbiased”), wenn P (Ablehnung)
für alle 2 A ist. Ein Test heisst gleichmässig
bester unverfälschter Test, wenn für jedes 2 A die Ablehnungswahrscheinlichkeit
maximal unter allen unverfälschten Tests ist. (Auf Englisch: UMP unbiased).
Man kann nachweisen, dass unser Test (8.10) UMP unbiased ist, worauf wir jedoch
hier nicht weiter eingehen wollen.
Wir kommen nun noch zu einer wichtigen Modi…kation des Tests von f
0g gegen
f > 0g im Falle der Normalverteilung. Wir hatten ja bisher angenommen, dass die
Varianz 2 bekannt ist. Das ist in der Praxis natürlich völlig unsinnig, und wir lassen
diese Voraussetzung nun fallen. Unsere Parametermenge ist daher
:=
2
;
:
2 R;
2
>0 :
Für 2 interessieren wir uns eigentlich nicht. (Das nennt man einen “nuisance parameter”). Die 0-Hypothese ist daher nach wie vor
0
:=
;
2
:
0;
2
>0 ;
A
:=
;
2
:
> 0;
2
>0 :
und die Alternative
Es ist dann klar, dass wir den Test (8.9) nicht benützen können, da wir 2 nicht kennen.
Ein naheliegendes Verfahren besteht darin, 2 einfach aus den Daten selbst zu schätzen.
Wie wir in Abschnitt 8.1 ausgeführt haben, ist
^ 2n :=
ein vernünftiger Schätzer für
durch
2:
1
n
1
n
X
(Xi
^ n )2
i=1
Wir ersetzen die Teststatistik
p
n^ n
Tn :=
:
^n
146
p
P
p
n^ n = = (1= n ) ni=1 Xi
(8.11)
In der englischsprachigen Literatur nennt man das die “studentized statistics”. Die Bezeichnung geht auf den Statistiker William Gosset zurück, der seine Arbeiten unter dem
Pseudonym “Student” publiziert hat. Der berühmte t-Test besteht dann einfach darin,
dass die 0-Hypothese verworfen wird, wenn Tn zu gross ist.
Student’s t-Test:
Tn
t
;n 1
: Annahme der Alternative
Tn < t
;n 1
: keine Verwerfung der 0
(8.12)
Hypothese:
(Der Grund für die Schreibweise t ;n 1 wird gleich ersichtlich werden.) t ;n 1 muss so
bestimmt werden, dass unter der 0-Hypothese P( ; 2 ) (Tn t ;n 1 )
ist. Natürlich
ist wieder der Fall = 0 der Extremfall und wir wollen daher t ;n 1 so bestimmen, dass
P(0; 2 ) (Tn t ;n 1 ) = ist. Etwas lästig erscheint die Anwesenheit von 2 ; aber es stellt
sich zum Glück heraus, dass die Verteilung von Tn gar nicht von 2 abhängt: Ist nämlich
Xi normalverteilt mit Mittel 0 und Varianz 2 ; so ist Xi = standard-normalverteilt. Die
Substitution von Xi durch Xi = ändert jedoch im Ausdruck (8.11) gar nichts. Demzufolge ist die Verteilung von Tn von 2 unabhängig. Es ist jedoch klar, dass die Verteilung
von n abhängt.
De…nition 8.17
Sind X1 ; : : : ; Xn unabhängige und standard-normalverteilte Zufallsgrössen, so heisst die
Verteilung von Tn die t-Verteilung mit n 1 Freiheitsgraden.
p
p
Gemäss Satz 8.10 sind n^ n und ^ 2n unabhängig, wobei n^ n standard normalverteilt und (n 1) ^ 2n 2 -verteilt mit n 1 Freiheitsgraden sind. Die t-Verteilung ist daher
einfach die Verteilung des Quotienten von zwei unabhängigen Zufallsgrössen, der Zähler
normalverteilt und der Nenner 2 -verteilt. Man kann die Dichte der t-Verteilung leicht
berechnen:
Proposition 8.18
Ist Y standard normalverteilt, ist Z 2 -verteilt mit n Freiheitsgraden und sind Y und
Z unabängig, so hat die Zufallsgrösse Y =Z die Dichtefunktion
((n + 1) =2)
fn (t) = p
n (n=2)
t2
+1
n
(n+1)=2
:
Beweis. Übungsaufgabe.
Der kritische Wert t ;n 1 ist einfach das obere -Quantil der t-Verteilung mit n
Freiheitsgraden, also die eindeutig bestimmte Zahl mit
Z 1
fn 1 (t) dt = :
t
1
;n 1
Für n ! 1 konvergiert die t-Veteilung gegen die Standard-Normalverteilung. Insbesondere gilt
lim t ;n 1 = z ;
n!1
147
wobei z durch (8.7) de…niert ist. Wir wollen dies hier nicht beweisen. Die Unterschiede
sind jedoch nicht ganz zu vernachlässigen.
Die folgende Tabelle gibt einige Werte für die t-Quantile t ;n bei
= 0:05 und
= 0:01 :
n
10
20
50
100
1
= 0:05
1:8125
1:7247
1:6759
1:6602
1:6449
= 0:01
2:7638
2:5280
2:4033
2:3642
2:3263
Der t-Test ist übrigens auch im einseitigen Fall nicht mehr UMP, jedoch UMP unbiased. Wir können jedoch auf den Beweis nicht eingehen, der etwas aufwendig ist.
Wir diskutieren noch zwei wichtige Varianten des t-Test.
Unter Umstände möchte man auch auf zweiseitige Alternativen testen: Nämlich
die 0-Hypothese f = 0g gegen die Alternative f 6= 0g : In diesem Fall verwirft man die
Hypothese, wenn der Absolutbetrag von Tn zu gross, ist, d.h. wenn Tn
t =2;n oder
Tn
t =2;n ist. Da die Verteilung von Tn unter der 0-Hypothese symmetrisch ist, ist
das o¤ensichtlich ein Niveau- -Test.
Eine weitere Modi…kation ist der sogenannte Zweistrichprobentest: Wir sind ja ursprünglich beim motivierenden Beispiel davon ausgegangen, dass die Xi als Di¤erenzen
von zwei Zufallsgrössen Ui und Vi zustande kommen. Es kommt jedoch oft vor, dass
nicht einfach dieselbe Person zweimal - einmal vor und einmal nach einer Behandlung
- gemessen wird, sondern dass zwei Gruppen von Personen untersucht werden. Typischerweise wird in der klinischen Forschung einer Gruppe das Medikament und einer
zweite Gruppe ein Placebo gegeben (natürlich ohne dass die Versuchspersonen wissen,
zu welcher Gruppe sie gehören17 ). Es liegen dann zwei Gruppen von Messungen vor unter Umständen auch mit unterschiedlicher Stichprobengrösse: Etwa Ui ; i = 1; : : : ; n und
Vi ; i = 1; : : : ; m: Eine der Standardannahmen ist, dass die Ui unabhängig und normalverteilt mit Mittel 1 , Varianz 2 und die Vi normalverteilt mit Mittel 2 und Varianz
2 : Die 0-Hypothese lautet im einseitigen Fall dann etwas f
1
2 g gegen die Alternative f 1 > 2 g oder im zweiseitigen Fall f 1 = 2 g gegen f 1 6= 2 g : Als Teststatistik
wird dann
mit
Tn := q
1
m
+
1
n
r
U
1
m+n 2
Pn
i=1
V
Ui
U
2
+
n
m
i=1
i=1
Pm
i=1
;
Vi
V
2
1X
1X
Ui ; V =
Vi
U=
n
n
17
Der “Goldstandard” in der klinischen Forschung ist der sogenannte Doppelblindversuch, wo weder
der Patient noch der behandelnde Arzt weiss, wer das Medikament und wer das Placebo erhält. Es
versteht sich von selbst, dass es viele Situationen gibt, wo das nicht gemacht werden kann.
148
verwendet. Unter der 0-Hypothese 1 = 2 ist Tn t-verteilt mit n + m
den.18 Der t-Test ist also im einseitigen Fall:
Tn
t
;n+m 2
: Annahme der Alternative
Tn < t
;n+m 2
: keine Verwerfung der 0
2 Freiheitsgra-
Hypothese;
und im zweiseitigen Fall
jTn j
t
=2;n+m 2
: Annahme der Alternative
jTn j < t
=2;n+m 2
: keine Verwerfung der 0
Hypothese:
Der t-Test ist vielleicht der am weitesten verbreitete Test überhaupt. Viele mathematische Statistiker stimmen jedoch darin überein, dass man ihn eigentlich nicht verwenden
sollte. Der Haupteinwand gegen ihn besteht darin, dass der Test zwar UMP unverfälscht
ist, dass aber diese Eigenschaft sehr schnell verloren geht, wenn die Voraussetzung der
Normalverteiltheit verletzt ist. Die Optimalität des t-Test ist sehr wenig robust. Es gibt
eine Reihe von Alternativen, die sich in dieser Beziehung besser verhalten.19
Wir kommen nochmals auf das Bernoulli-Experiment zurück. Wir nehmen an, dass
jemand testen will, ob die Erfolgswahrscheinlichkeit p = p0 oder p 6= p0 ist. Es ist naheliegend, dafür wieder die Anzahl der Erfolge Xn zu verwenden und die Hypothese zu
verwerfen, wenn jXn np0 j zu gross ist. Da es ziemlich lästig ist, für jedes feste n den
Schwellenwert für Ablehnung getrennt auszurechnen macht man meist eine Asymptotik für n ! 1: Natürlich p
kann man den Test dann nur für grosse n verwenden. Wie
wir wissen ist (Xn np0 ) = np0 (1 p0 ) unter der 0-Hypothese asymptotisch standard
normalverteilt, d.h. es gilt für jedes x 2 R :
!
Z x
Xn np0
1
2
p e y =2 dy:
lim Pp0 p
x = (x) :=
n!1
2
np0 (1 p0 )
1
Wenn z das obere -Quantil von
lim Pp0
n!1
ist:
(z ) = 1
jX
np0 j
p n
np0 (1 p0 )
z
; so gilt
!
=2
= :
Der Test mit dem Ablehnungsbereich
jXn
np0 j
z
=2
18
p
np0 (1
p0 )
Es wird dabei vorausgesetzt, dass die Varianzen der beiden Stichproben gleich (aber nicht bekannt)
sind. Das ist natürlich etwas fragwürdig. Das Problem mit zwei normalverteilten Stichproben unterschiedlicher (und unbekannter) Varianzen ist das sogenannte “Behrens-Fisher-Problem”. Leider brechen
dafür die UMP-Konzepte zusammen.
19
Zur Verteidigung der Verwendung des t-Tests muss man jedoch bemerken, dass es wichtig ist, dass
langjährig standardisierte Verfahren benützt werden. Wenn dies nicht gemacht würde, so könnte jeder
gerade den Test verwenden, der ihm gerade am besten in den Kram passt und dem Missbrauch wäre
Tür und Tor geö¤net.
149
hat daher asymptotisch das korrekte Niveau.
Wir wollen noch eine wichtige Verallgemeinerung dieses Test distkutieren, den 2 Test. Man will etwa testen, ob ein Würfel auf alle Seiten mit gleicher Wahrscheinlichkeit
fällt. Dazu wirft man den Würfel n mal. Wir bezeichnen mit Ni die Anzahl der Würfe
bei denen der Würfel i anzeigt. Es ist plausibel, dass wir die 0-Hypothese verwerfen
werden, wenn der Vektor Nn1 ; : : : ; Nn6 zu sehr von 16 ; : : : ; 16 abweicht. Eine naheliegende Teststatistik ist der Euklidsche Abstand. Wir fassen das gleich etwas allgemeiner:
Sei p = (p (1) ; : : : ; p (m)) ein Wahrscheinlichkeitsvektor. Wir betrachten ein Zufallsexperiment mit m möglichen Ausgängen, der Einfachheit halber bezeichnen wir sie mit
1; : : : ; m: Dabei hat i die Wahrscheinlichkeit p (i) : Dieses Zufallsexperiment wird nun n
mal unabhängig wiederholt. Wir bezeichnen mit N1 ; : : : ; Nm die Anzahl von Ausgänge
des Zufallsexperiments, bei denen i auftritt. Ein geeigneter Wahrscheinlichkeitsraum ist
einfach zu konstruieren: := f! = (! 1 ; : : : ; ! n ) Q
: ! i 2 f1; : : : ; mgg : Ein Elementarereignis ! hat dann die Wahrscheinlichkeit Pp (!) = ni=1 p (! i ) : Damit können wir auch die
Verteilung des Vektors N := (N1 ; : : : ; Nm ) ausrechnen: Für n1 + : : : + nm = n gilt
Pp (N = (n1 ; : : : ; nm )) = A (n1 ; : : : ; nm )
m
Y
p (i)ni ;
i=1
wobei A (n1 ; : : : ; nm ) die Anzahl der Möglichkeiten ist, die n1 Plätze bei denen 1 vorkommt, die n2 Plätze bei denen 2 vorkommt, etc. in den n Ausgängen des Zufallsexperimentes zu verteilen: Demzufolge ergibt sich
A (n1 ; : : : ; nm ) =
=
Somit erhalten wir
n
n n1
n1
n2
n!
Qm
:
i=1 ni !
n
n1
n3
n2
n!
Pp (N = (n1 ; : : : ; nm )) = Qm
i=1 ni !
n
m
Y
n1
:::
nm
nm
1
p (i)ni :
i=1
Dies nennt man die Multinomialverteilung.
Die Verteilung von N1 alleine ist natürlich einfach die Binomialverteilung mit Erfolgswahrscheinlichkeit p1 ; und analog für N2 ; N3 ; : : : . Daraus ergibt sich, dass
Ni
p
np (i)
np (i) (1
p (i))
asymptotisch standard normalverteilt ist. Wir benötigen den folgenden Satz, den wir
hier nicht beweisen können:
Satz 8.19
m
X
(Ni np (i))2
np (i) (1 p (i))
i=1
150
ist asymptotisch
2 -verteilt
lim P
n!1
wobei cm
1
1 Freiheitsgraden, d.h. für jedes x 2 R+ gilt
! Z
m
x
X
(Ni np (i))2
x =
cm 1 (y) dy;
np (i) (1 p (i))
0
mit m
i=1
die Dichte der
2 -Verteilung
mit m
1 Freiheitsgraden ist (8.6).
Unter Verwendung dieses Satzes können wir nun sofort einen Niveau- -Test für die
Multinomialverteilung angeben. Wir wollen die 0-Hypothese p = p0 gegen die Alternative
p 6= p0 testen (p und p0 sind Wahrscheinlichkeitsvektoren der Länge m): Wir verwerfen
die 0-Hypothese, wenn
m
X
(Ni np (i))2
2
(8.13)
m 1;
np (i) (1 p (i))
i=1
2
k;
ist. Dabei ist
das obere -Quantil der 2 -Verteilung mit k Freiheitsgraden, d.h. die
eindeutige de…nierte postive Zahl mit
Z 1
1
xk=2 1 e x=2 dx = :
(k=2) 2k=2 2k;
(Falls k gerade ist, lässt sich das Integral natürlich explizit ausrechnen). Der Test (8.13)
hat für endliches n natürlich nicht genau das Niveau ; der Unterschied ist für einigermassen grosse n jedoch vernachlässigbar. Für Leser, die ihre Würfel testen wollen: hier
die Quantile for m = 6 :
2
5;0:05
= 11:07;
2
5;0:01
= 15:086;
2
5;0:001
= 20:515:
Zur Illustration nehmen wir an, sie werfen den Würfel 600 mal und erhalten die folgende
Verteilung der Augenzahlen. 120; 123; 81; 85; 111; 80: Dann ist
m
X
(Ni np (i))2
202 + 232 + 192 + 152 + 112 + 202
= 3:3925:
=
5
np (i) (1 p (i))
600 36
i=1
Somit besteht kein Grund zur Beunruhigung. Wären jedoch alle Zahlen 10 mal grösser,
so hätte man ebenfalls den 10-fachen Wert der Teststatistik. Dann könnte man getrost
davon ausgehen, dass der Würfel gezinkt oder schlecht verarbeitet ist.
8.3
Kon…denzintervalle
Wir kommen kurz zurück zu Schätzproblemen wie in Abschnitt ??, aber nun unter einem etwas anderen Gesichtspunkt. Wir nehmen wieder ein parametrisches Modell an,
d.h. einen Raum mit einer Familie von Wahrscheinlichkeitsmassen P ; wobei wir für
den Moment annehmen, dass eindimensional ist. Wichtiger als eine Schätzung ^; wie
in Abschnitt ?? diskutiert, ist meist, dass hman gewisse
Fehlergrenzen angibt, die eini
schränken. Wir wollen also ein Intervall ^ ; ^+ bestimmen, in dem “mit grosser
151
Wahrscheinlichkeit”liegt. Ein solches Intervall nennt man Kon…denzintervall. Nun muss
man den folgenden konzeptionellen Gesichtspunkt festhalten (der nicht von allen Statistikern geteilt wird): Wir haben stets angenommen, dass nicht zufällig ist, sondern
nur dem Statistiker unbekannt ist. Somit macht es keinen Sinn, eine Wahrscheinlichkeit zu bestimmen, mit der irgendwo liegt. Zufällig sind jedoch die Grenzen ^ ; ^+
^ ; ^+ ; die die Eiunseres Kon…denzintervalles. Wir
h suchen
i also nach Zufallsgrössen
genschaft haben, dass P
2 ^ ; ^+
für alle möglichen Parameter gross ist. Der
Statistiker muss festlegen, wie gross diese Wahrscheinlichkeit sein soll, bzw. wie klein die
Fehlerwahrscheinlichkeit werden soll.
De…nition 8.20
Sei 2 (0; 1). Ein Kon…denzintervall zum Kon…denzniveau ist ein Intervall der
h
i
Form ^ ; ; ^ ;+ ; wobei ^ ; und ^ ;+ Zufallsgrössen sind, für die
P
für alle
2
gilt.
h
2 ^
;
;^
;+
i
1
Es ergibt sich sofort ein direkter Zusammenhang mit der Testtheorie aus dem letzten
Abschnitt 8.2: Nehmen wir einmal an, wir wollen die 0-Hypothese f = 0 g gegen die
zweiseitige Alternative f 6= 0 g testen, und wir hätten dazu eine Teststatistik T mit
der Eigenschaft, dass die 0-Hypothese verworfen wird, wenn T 2
= A gilt, wobei A eine
Teilmenge von R ist. Natürlich hängt A von
und natürlich auch von 0 ab. Wir
schreiben daher A ( ; 0 ) : Bei einer gegebenen Realisierung von T können wir die Menge
aller 0 bestimmen, für die die 0-Hypothese nicht verworfen wird:
K (!) := f
0
2
: T (!) 2 A ( ;
0 )g
Dies ist natürlich eine zufällige Teilmenge der Parametermenge
fallsgrösse. Per De…nition eines Niveau- -Tests gilt dann
P 0 (f! 2
: T (!) 2 A ( ;
0 )g)
:
, denn T ist eine Zu-
1
für alle 0 2 : (Den Index 0 können wir uns in Zukunft natürlich wieder sparen). Wenn
K (!) die Form eines Intervalls hat, was in der Regel der Fall ist, so haben wir genau
unser Kon…denzintervall gefunden. Wir brauchen daher nur die Tests aus dem letzten
Abschnitt unter diesem Gesichtspunkt ausschlachten.
Wir beschränken uns auf den allereinfachsten Fall, nämlich den Parameter p der
Binomialverteilung. Sei Xn die Anzahl der Erfolge und X n := Xn =n: Wie wir gesehen
hatten, wird die 0-Hypothese p = p0 im zweiseitigen Fall nicht abgelehnt, wenn
p
p
z =2 np0 (1 p0 ) < Xn np0 < z =2 np0 (1 p0 );
p
p
p0 (1 p0 )
p0 (1 p0 )
p
p
p0 z =2
< X n < p0 + z =2
n
n
152
gilt. (Allerdings setzen wir hier voraus, dass n schon so gross ist, dass die Normalapproximation gerechtfertigt ist). Wir müssen nun diese Bedingung nur noch umformen. Da
wir n ohnehin als einigermassen gross voraussetzen müssen, ersetzen wir p0 unter den
Wurzelausdrücken durch X n ; was zu einem Fehler der Ordnung 1=n führen wird, den
wir vernachlässigen. Wir erhalten deshalb das approximative Kon…denzintervall
q
q
0
1
Xn 1 Xn
Xn 1 Xn
A;
p
p
Kn := @X n z =2
; X n + z =2
n
n
wobei die Fehler in den Grenzen des Intervalls von der Ordnung O (1=n) sind. Tatsächlich
lässt sich leicht nachweisen, dass für jedes p 2 (0; 1)
lim Pp (p 2 Kn ) = 1
n!1
gilt. Dies sind die üblichen Kon…denzintervalle für den Parameter der Binomialverteilung. Für kleine n sind sie jedoch nicht genau; dann sollte man aber auch nicht die
Approximation durch die Normalverteilung verwenden.
Ein Rechenbeispiel: n = 1000 und 310 Erfolge. Dann ist das 99%-Kon…denzintervall
(z0:005 = 2:5758)
!
r
r
0:310 0:590
0:310 0:590
; 0:31 + z0:005
= (0:275; 0:345) :
0:31 z0:005
1000
1000
Oft wird jedoch auch nur ein 95% Kon…denzintervall angegeben, das natürlich enger
ist.20
20
Meinungsforschungs-Institutionen geben in der Regel kleinere Bandbreiten an. Diese werden dadurch
erzielt, dass die Stichprobe nicht ganz zufällig ausgewählt wird, sondern mehr systematisch. Zum Beispiel
wird die Stichprobe, die befragt wird, proportional nach Berufsgruppen, Wohnungsorten etc. gewählt. Auf
diese Weise ho¤t man, die Streuung zu reduzieren. Dies birgt jedoch immer die Gefahr, dass systematische
Fehler eingebaut werden.
153
Herunterladen