Vorlesung Einführung in die mathematische Statistik

Werbung
Vorlesung
Einführung in die mathematische Statistik
Prof. A. Antille
Sommersemester 2004
Literatur
P.J. Bickel – K.A. Doksum, Mathematical Statistics: Basic Ideas and Selected
Topics (Holden-Day, 1977).
L. Breiman, Statistics: With a View Toward Applications (Houghton Mifflin,
1973).
B.L. van der Waerden, Mathematische Statistik (Grundlehren der math. Wissenschaften, Bd 87, Springer, 1971).
H. Witting, Mathematische Statistik (Teubner, 1966).
Inhalt
I. Vorbemerkungen, Statistische Modelle, Beispiele
II. Schätztheorie
§ 1 Einige Schätzmethoden
§ 2 Verlustfunktion, Güte einer Schätzung, Optimalitätseigenschaften
§ 3 Vertrauensgebiete
III. Testtheorie
§ 1 Testverfahren, Niveau, Macht, Lemma von Neyman–Pearson
§ 2 Einige wichtige Beispiele von Tests
2
I.
Vorbemerkungen, Statistische Modelle, Beispiele
Im Sprachgebrauch bedeutet “Statistik” die Sammlungen von Daten, welche für den Staat
wichtig sind: Steuerstatistik, Sterbestatistik, Arbeitslosenstatistik, Studentenstatistik etc.
Die mathematische Statistik hat mit Fragen dieser Art wenig oder nichts mehr zu tun.
Wesentliches Merkmal: Der Schritt vom Sammeln von Daten zum Schliessen aus Daten,
bzw. zum Führen von Entscheidungen nach Sichtungen von Daten.
Aufgabe der mathematischen Statistik ist es, mathematische Modelle zu entwickeln, die es
erlauben, aus zufälligen Beobachtungen Entscheidungen abzuleiten. Die wahre Verteilung
der beobachteten Zufallsgrösse ist unbekannt.
Sei X eine Teilmenge von Rn , A eine σ-Algebra von Teilmengen von X, Θ eine Teilmenge
von Rk .
Definition
Ein statistisches Modell ist ein Tripel X , A, (Pθ )θ∈Θ , wobei (Pθ )θ∈Θ eine
Familie von Wahrscheinlichkeiten ist.
Interpretation: Beobachtet wird eine Zufallsgrösse X mit Werten in X . Die Verteilung von
X ist unbekannt. Sie gehört aber der Familie (Pθ )θ∈Θ an. Aufgabe der Statistik ist es, auf
Grund einer Beobachtung von X, Entscheidungen über den wahren Wert von θ, d.h. über
die zugrundeliegende Verteilung von X, abzuleiten.
Θ heisst Parameterraum und X Beobachtungsraum oder Stichprobenraum.
Beispiel 1: Um die Qualität eines Heilverfahrens zu überprüfen, werde es auf n Personen
angewandt. Dabei handle es sich jeweils um unabhängige Wiederholungen ein- und desselben Experiments, wobei nur das Eintreten oder Nichteintreten von Heilerfolg (mit einer
Wahrscheinlichkeit θ, 0 ≤ θ ≤ 1) interessiert. Hier werden Zufallsgrössen X1 , X2 , . . . , Xn
verwendet, die nur zwei Werte annehmen können, nämlich 1 (für Erfolg) und 0 (für Nichterfolg) mit den Wahrscheinlichkeiten θ bzw. 1 − θ. Demgemäss liegt eine Zufallsgrösse
X := (X1 , . . . , Xn ) vor, wobei X1 , X2 , . . . ,Xn unabhängig sind. Das zugrundeliegende statistische Modell ist dann X , A, (Pθ )θ∈[0,1] , wobei
X = x := (x1 , x2 , . . . , xn ) : xi ∈ {0, 1} , A = P(X ) und
n
n
P
P
xi
n−
Pθ ({x}) = θi=1 (1 − θ)
xi
i=1
, ∀x ∈ X.
Typische Fragen: 1. Wie gross ist der wahre Wert von θ (Schätzproblem!) ?
2. Ist der wahre Wert grösser als (z.B.) 0,65 (Testproblem!) ?
Mögliche Entscheidungen für Frage 1: Alle Werte im Intervall [0, 1],
Mögliche Entscheidungen für Frage 2: Ja oder nein.
Beispiel 2: n Messungen einer Länge θ ergeben x1 , x2 , . . . , xn . Die Vorstellung ist die, dass
diese Werte so zustandekommen, dass zur wahren Länge θ ein jeweils unabhängiger zufälliger
Messfehler hinzukommt. Der Vektor x := (x1 , x2 , . . . , xn ) kann als als eine Beobachtung
eines Zufallsvektors X := (X1 , . . . , Xn ) interpretiert werden. Ferner gilt Xi = θ + Zi ,
3
i = 1, 2, . . . , n, wobei die Zufallsgrössen (zufällige Messfehler) Z1 , Z2 , . . . , Zn unabhängig
sind.
Typische Frage: Wie gross ist die Länge? (Schätzproblem!)
n
P
Falls E(Zi ) = 0, ist es üblich X̄n := n1
Xi , den Mittelwert der Beobachtungen X1 , . . . , Xn ,
i=1
als Schätzer zu nehmen. Für grosse Werte von n ist dieses Schätzverfahren (Entscheidungsverfahren), wegen der Gesetze der grossen Zahlen, sicher sinnvoll. Ob man es besser machen
kann, ist eine andere Frage.
Würde man die Zufallsgrössen Z1 , Z2 , . . . , Zn normalverteilt N (0, σ 2 ) (σ 2 bekannt) voraussetzen, wäre dann das zugrundeliegende statistische Modell: X , A, (Pθ )θ∈R , wobei X = Rn ,
n
2
n Z − P (xi −θ)
2σ2
1
i=1
dx1 dx2 . . . dxn ,
e
A = βRn = Borel’sche σ-Algebra und Pθ (A) = √
2πσ
A
∀ A ∈ A.
Beispiel 3:
(Schätzproblem)
X1 , X2 , . . . , Xn seien wie im Beispiel 1. Würde man nur X :=
A = P(X ),
Xi beobachten, dann
i=1
wäre das zugrundeliegende Modell:
(X , A, (Pθ )θ∈[0,1] ,
n
P
wobei X = {0, 1, . . . , n},
Pθ ({x}) =
(X ist B(n, θ) verteilt!).
x
θ (1 − θ)n−x , ∀ x ∈ X
n
x
Beispiel 4: (Schätzproblem)
Eine “unendlich grosse” Urne enthält θ (unbekannt) Kugeln. Die Kugeln seien von 1 bis θ
durchnumeriert. n Kugeln werden der Reihe nach zufällig (mit Zurücklegen) ausgewählt.
X := (X1 , . . . , Xn ) sei der Vektor der beobachteten Nummer. Das entsprechende Modell ist
dann X , A, (Pθ )θ∈{1,2,...,} , wobei
X = {x := (x1 , . . . , xn ) : xi ∈ {1, 2, 3, . . .}} , A = P(X )
und Pθ ({x}) = θ1n , ∀ x ∈ X mit xi ∈ {1, 2, . . . , θ}.
Gesucht ist eine Schätzung für die Anzahl der Kugeln.
n sei gross. Was meinen Sie über die zwei folgenden Vorschläge?:
1. T (X1 ,2 , . . . , Xn ) := max{X1 , X2 , . . . , Xn },
2. S(X1 , X2 , . . . , Xn ) := 2X̄n − 1, wobei X̄n :=
n
1X
Xi .
n i=1
Begründung für den zweiten Vorschlag:
Die Zufallsgrössen X1 , . . . , Xn sind i.i.d. Also ist X̄n ≈ E(X1 ) =
der grossen Zahlen und somit θ ≈ 2X̄n − 1.
θ+1
wegen der Gesetze
2
4
Beispiel 5: (Testproblem)
Ein Angler fängt in seinem gewohnten Teich an einem Nachmittag durchschnittlich 6 Fische.
Ein Freund überredet ihn, in einem anderen Teich zu angeln. Dort fängt er aber in der
gleichen Zeit nur 4 Fische. Lohnt es sich für ihn, wenigstens noch einmal einen Versuch mit
dem zweiten Teich zu machen?
Für diese Situation können wir folgendes mathematische Modell betrachten: Sei X die, beim
zweiten Versuch, Anzahl der gefangenen Fische.
Teich 1: X ist Poisson-verteilt mit Parameter λ1 = 6,
Teich 2: X ist Poisson-verteilt, aber mit unbekanntem λ2 .
Das statistische Problem liegt gerade darin, dass λ2 unbekannt ist. Wenn λ2 bekannt wäre,
wüsste der Angler, wohin er nächsten Sonntag geht. Bekannt ist aber nur der Beobachtungswert X = 4, das von verschiedenen λ herrühren kann.
Wir werden später sehen (III), dass sich dieses Problem als Testproblem deuten lässt.
Ein Testproblem ist folgendermassen beschaffen: Es soll eine Entscheidung zwischen zwei
Möglichkeiten getroffen werden.
Beispiel 6: (Vertrauensintervalle)
X sei wie im Beispiel 2. Als Schätzer für die Länge haben wir X̄n erwähnt. X̄n ist eine
Zufallsgrösse. In der Praxis ist aber die Wahrscheinlichkeit Null, dass X̄n den wahren Wert
liefert. Für grosse Werte von n weiss man nur, dass der wahre Wert in der Nähe von X̄n
liegt. Um ein Gefühl für die Güte von X̄n zu haben, könnte man so verfahren: Man gibt sich
eine Zahl β in der Nähe von 1 vor, z.B. β = 0, 99. Dann sucht man ein um X̄n symmetrisches
Intervall I(X), das den wahren Wert mit einer Wahrscheinlichkeit = 0, 99 enthält (falls ein
Intervall überhaupt existiert!). Ein solches Intervall heisst Vertrauensintervall vom Niveau
0, 99. Je “kleiner” I(X), desto besser ist der Schätzer X̄n . Vertrauensintervalle werden wir
im Kapitel II, § 3 besprechen.
II
Schätztheorie
§ 1
Einige Schätzmethoden
X1 , X2 , . . . , Xn seien i.i.d. reelle diskrete Zufallsgrössen (d.h. mit Werten in einer abzählbaren
Teilmenge E = {e1 , e2 , . . .}) oder Zufallsgrössen mit einer Dichte. Beobachtet wird der Zufallsvektor X := (X1 , . . . , Xn ). Die Verteilung von X gehöre einer Familie (Pθ )θ∈Θ⊆Rk von
Wahrscheinlichkeiten an. mk (θ) sei der k–te Moment von X1 unter Pθ , d.h.
i) mk (θ) :=
∞
P
i=1
ii) mk (θ) :=
R
eki Pθ (X1 = ei ) falls
xk gθ (x)dx (falls
R
∞
P
i=1
|ei |k Pθ (X1 = ei ) < ∞) im diskreten Fall und
|x|k gθ (x)dx < ∞) im Falle, wo X1 die Dichte gθ besitzt.
Die Verteilung von X ist unbekannt und wir möchten sie schätzen. Da die Verteilung durch
den Parameter θ eindeutig bestimmt ist, besteht die Aufgabe darin, dass man den wahren
Wert θ0 von θ schätzt.
5
1.1.
Die Methode der Momente
Nehmen wir nun an, dass q(θ) = h m1 (θ), . . . , mr (θ) , wobei h eine stetige Funktion ist.
Methode der Momente: Als Schätzer für q(θ0 ) wählt man Tn (X) := h M1 (X), . . . , Mr (X) ,
n
P
wo Mk (X) := n1
Xik , d.h. man ersetzt in der Funktion h die Momente mk (θ) durch die
i=1
sogenannten empirischen Momente Mk (X).
Dieses Schätzverfahren beruht auf den starken Gesetzen der grossen Zahlen: Falls mi (θ0 )
f.s.
existiert, gilt Mi (X) = Mi (X1 , . . . , Xn ) −→ mi (θ0 ) und wegen der Stetigkeit von h,
n→∞
f.s.
Tn (X) −→ h m1 (θ0 ), . . . , mr (θ0 ) = q(θ0 ) .
n→∞
Beispiel 1: X1 , X2 , . . . , Xn seien i.i.d. mit einer Normalverteilung
N (µ, σ 2 ). Hier ist
2
2
θ := (µ, σ ) ∈ Θ = R × R+ . Da θ = m1 (θ), m2 (θ) − m1 (θ) , bekommen wir als Schätzer
für θ,
n
1X
Tn (X1 , X2 , . . . , Xn ) = M1 (X), M2 (X) − M12 (X) = X̄n ,
(Xi − X̄n )2 ,
n i=1
n
wobei X̄n :=
1X
Xi .
n
!‘=1
Beachte:
1
n
n
X
i=1
n
Xi2 − (X̄n )2 =
1X
(Xi − X̄n )2 .
n i=1
Beispiel 2: X1 , . . . , Xn seien wie im Kapitel I, Beispiel 1. Die Methode liefert der Schätzer
Tn (X) = X̄n , denn θ = m1 (θ).
Wäre die Grösse ψ(θ) := θ(1 − θ) relevant, könnte man Sn (X) := Tn (X) 1 − Tn (X) =
X̄n (1 − X̄n ) als Schätzer von ψ(θ) vorschlagen.
2
Bemerkung: ψ(θ) = Varθ (X1 ) = Eθ (X12 ) − Eθ (X1 ) = m2 (θ) − m21 (θ).
n
1X
Also ist Tn (X) = M2 (X) − M12 (X) =
(Xi − X̄n )2 .
n i=1
Beispiel 3:
X1 , X2 , . . . , Xn seien wie im Kapitel I, Beispiel 2.
θ i
P
θ(θ + 1)
θ+1
=
=
. Also ist θ = 2m1 (θ) − 1. Die Methode der
2θ
2
i=1 θ
Momente liefert dann den Schätzer
Es gilt Eθ (X1 ) =
S(X1 , . . . , Xn ) := 2M1 (X) − 1 = 2X̄n − 1.
Beachte: Die Schätzung S(X1 , . . . , Xn ) ist sinnlos, wenn 2X̄n − 1 < max{X1 , . . . , Xn }.
6
1.2.
Die Maximum–Likelihood Methode
A. Diskreter Fall:
X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Werten in E = {x1 , x2 , . . .} und möglichen
Wahrscheinlichkeiten Pθ ({xi }), θ ∈ Θ ⊆ Rk (statistisches Modell!)
Die Maximum–Likelihood Methode:
Als Schätzer für θ wählt man den (einen) Wert θ̂n so, dass
L(X1 , X2 , . . . , Xn ; θ̂n ) = maxL(X1 , X2 , . . . , Xn , θ),
θ∈Θ
wobei
L(x1 , . . . , xn ; θ) := Pθ ({x1 }) . . . Pθ ({xn }), ∀(x1 , . . . , xn ) ∈ E n := E
. . × E} .
| × .{z
n−mal
Begründung: Wenn X1 = x1 , . . . , Xn = xn beobachtet wurden, ist die Wahrscheinlichkeit dafür
Pθ ({x1 }) · Pθ ({x2 }) . . . · Pθ ({xn }) = L(x1 , x2 , . . . , xn ; θ).
Falls dieser Wert sehr klein ist bei einem θ, ist die Beobachtung unwahrscheinlich. Die
Methode besteht darin, dass man als Schätzer denjenigen Wert θ̂n wählt, für welchen
die Beobachtung am wahrscheinlichsten ist.
Beispiel 1: X1 , X2 , . . . , Xn seien wie im Kapitel I, Beispiel 1. In diesem Fall ist
E = {0, 1}. Ferner gilt
n
P
xi
n−
L(x1 , . . . , xn ; θ) = θi=1 (1 − θ)
n
P
i=1
xi
, ∀ x = (x1 , . . . , xn ) ∈ E n .
Gesucht ist nun der Wert θ̂n , für welchen L(x1 , . . . , xn ; θ) maximal wird:
L(x1 , . . . , xn ; θ) maximal ⇐⇒ ln L(x1 , . . . , xn ; θ) maximal.
Eine notwendige Bedingung dafür ist:
n
n
n
n
X
X
X
X
d ln(θ)
d ln(1 − θ)
1
1
d ln(L)
=(
xi )
+ (n −
xi )
=(
xi ) − (n −
xi )
= 0.
dθ
dθ
dθ
θ
1
−
θ
i=1
i=1
i=1
i=1
Der Maximum-Likelihood Schätzer ist also θ̂n = X̄n .
Beispiel 2: X1 , X2 , . . . , Xn seien wie im Kapitel I, Beispiel 4. Mit E = {1, 2, . . .}
1
gilt Pθ ({x}) = n für alle x = (x1 , . . . , xn ) ∈ E n , falls max{x1 , . . . , xn } ≤ θ und
θ
Pθ ({x}) = 0 sonst. Somit ist der Maximum-Likelihood Schätzer θ̂n = max{X1 , . . . , Xn }.
B. Der Fall mit einer Dichte
X1 , X2 , . . . , Xn seien i.i.d. reelle Zufallsgrössen mit einer Dichte gθ , wo θ ∈ Θ ⊆ Rk .
Man definiert L als
L(x1 , . . . , xn ; θ) =
n
Y
i=1
gθ (xi ), ∀ x = (x1 , . . . , xn ) ∈ Rn .
7
Maximum-Likelihood Methode: Man wählt denjenigen Wert θ̂n , für welchen L(X1 , . . . , Xn ; θ)
maximal wird.
Beispiel 1: X1 , . . . , Xn seien i.i.d. und normalverteilt N (µ, σ 2 ) mit θ := (µ, σ 2 ) ∈
R × R+ . In diesem Fall ist
L(x1 , x2 , . . . , xn ; θ) =
1
√
2πσ
2
e
−
n
P
(xi −µ)2
2σ2
i=1
.
Gesucht ist der maximale Wert von L (als Funktion von θ): L maximal ⇐⇒ ln(L)
maximal. Eine notwendige Bedingung dafür ist:
∂
ln(L) = 0,
∂µ
∂
b)
ln(L) = 0.
∂σ
a)
Eine einfache Rechnung (siehe Übungen) liefert dann die Lösungen µ̂n = x̄n , σ̂ 2 =
P
1
(xi − x̄n )2 . Der Maximum-Likelihood Schätzer θ̂n ist also
n
!
n
1X
2
θ̂n = X̄n ,
(Xi − X̄n ) .
n i=1
Bemerkung: Man sollte noch verifizieren, dass an der Stelle θ̂n , L(X1 , . . . , Xn ; θ) den
maximalen Wert annimmt. Dies ist aber trivial. (Warum?)
Beispiel 2: X1 , . . . , Xn seien i.i.d. mit der Dichte gθ := 12 e−|x−θ|, θ ∈ R.
n
P
n
1 − i=1 |xi −θ|
1 Y −|xi −θ|
L(x1 , . . . , xn ; θ) = n
e
= ne
.
2 i=1
2
Der Maximum-Likelihood Schätzer ist also der Wert θ̂n , für welchen die Summe
n
P
|Xi − θ| minimal wird, den sogenannten Zentralwert oder Median (siehe Übungen).
i=1
Dieses Beispiel zeigt, dass der Maximum-Likelihood Schätzer nicht immer eindeutig
bestimmt ist (n gerade!).
Bemerkungen: Wie die Methode der Momente (siehe 1.1., Beispiel 3, oben), kann die
Maximum-Likelihood Methode zu unvernünftigen Schätzungen führen: X1 , X2 , . . . , Xn ,
Y1 , Y2 , . . . , Yn seien unabhängige reelle Zufallsgrössen, wobei Xk , Yk , normalverteilt
N (µk , σ 2 ) sind, k = 1, . . . , n (µk , σ 2 , unbekannt). Als Schätzer für µk , σ 2 bekommen
wir
n
1 X
Xk + Yk
(Xk − Yk )2 .
, k = 1, 2, . . . , n und σ̂n2 =
µ̂k =
2
4n
k=1
2
Eσ0 (Xk − Yk ) =
2σ02 ,
wobei
σ02
2
der wahre Wert von σ ist. Wegen der Gesetze der
σ2
grossen Zahlen konvergiert aber σ̂n2 fast sicher gegen 0 .
2
8
1.3.
Die Methode der kleinsten Quadrate
Oft stellt sich das Problem, eine Gerade, Parabel oder eine andere “einfache” Funktion einer
gegebenen Menge von Messwerten anzupassen. Z.B. kann in Abhängigkeit von einer Grösse
x eine Grösse y gemessen worden sein, und nun liegen n Messpunkte (x1 , y1 ), . . . , (xn , yn )
vor. Wenn diese Punkte relativ gut auf einer Geraden liegen, kann man einen linearen
Zusammenhang der beobachteten Grössen vermuten, der nur durch Messfehler zi gestört
ist. Dann wäre yi = α + βxi + zi (i = 1, . . . , n).
In anderen Fällen könnte etwa aus Naturgesetzen ein Ansatz yi = α + βxi + γx2i + zi geboten
sein, in dem nur noch α, β, γ unbekannt sind.
Allgemeiner nehmen wir an, θ1 , . . . , θp seien unbekannte Parameter, und für bekannte Funktionen ϕi sei δi = ϕi (θ1 , . . . , θp ) (i = 1, . . . , n) der wahre zu messende Wert bei der i–ten
Messung und yi = δi + zi der tatsächlich beobachtete Wert, also zi der Messfehler. Im
Beispiel der Geraden wäre θ1 = α, θ2 = β und ϕi (θ1 , θ2 ) = θ1 + θ2 xi .
Man fragt, welche Parameter am besten zu den yi passen.
Methode der kleinsten Quadrate: Die Methode besagt, man solle die θk so bestimmen, dass
n
P
Q :=
(yi − δi )2 minimal wird. Dies ist als ad hoc Ansatz ohne jede Statistik formulierbar
i=1
und wird oft angewandt.
In dieser Vorlesung nehmen wir an, dass die zi Realisierungen von Zufallsgrössen Zi sind,
wobei die Zi unabhängig sind mit E(Zi ) = 0, ∀ i. So ist y = (y1 , . . . , yn ) die Realisierung
von Y = (Y1 , Y2 , . . . , Yn ) mit Yi = δi + Zi .
Das allgemeine lineare Regressionsmodell
Definition: Das Regressionsmodell Yi = ϕi (θ1 , . . . , θp ) + Zi , i = 1, . . . , n, heisst linear,
falls sich ϕi (θ1 , . . . , θp ) schreiben lässt als
ϕi (θ1 , . . . , θp ) =
p
X
xij θj
mit bekannten Zahlen xij .
j=1
In Matrixschreibweise lässt sich das lineare Modell so darstellen:
Y = Xθ + Z,
wobei Y = (Y1 , . . . , Yn )T ,
θ = (θ1 , . . . , θp )T
(C T bedeudet die transponierte Matrix). X = (xij ) ist die bekannte n × p Matrix.
Beachte: Die Methode der kleinsten Quadrate besteht darin, dass man den (einen) Wert θ̂
sucht, für welchen Q(θ̂) = minp Q(θ) mit
θ∈R
Q(θ) := kY − Xθk2 :=
(Euklidische Norm des Vektors Y − Xθ).
n
X
i=1

Yi −
p
X
j=1
2
xij θj 
9
Satz:
Wenn p ≤ n und Rang(X) = p, dann ist θ̂ die einzige Lösung des Gleichungssystems
(X T X)θ = X T Y
(Normalgleichungen).
Die Lösung lässt sich also explizit schreiben als
θ̂ = (X T X)−1 X T Y.
Beweis. Für i = 1, 2, . . . , p, bezeichne αi (∈ Rn ) den i–ten Spaltenvektor der Matrix X. Mit
p
P
η := Xθ gilt Y = η + Z =
θi αi + Z. Vp sei der durch die Vektoren α1 , . . . , αp gespannte
Unterraum von Rn , d.h.
i=1
Vp =
Die Dimension von Vp ist gleich p.
(
p
X
i=1
)
λi αi : λi ∈ R, ∀ i .
η̂ sei die orthogonale Projektion von Y auf Vp . Dann gilt kY − η̂k2 = min kY − ηk2 . Da
η∈Vp
η̂ ∈ Vp , gibt es eindeutig bestimmte Zahlen θ̂1 , θ̂2 , . . . , θ̂p so, dass
η̂ =
p
X
θ̂i αi .
i=1
Diese Zahlen sind die einzigen Lösungen der Normalgleichungen, denn
αTi (Y − η̂) = αTi (Y − X θ̂) = 0 für i = 1, 2, . . . , p (η̂ ist die orthogonale Projektion) ⇐⇒
X T (Y − X θ̂) = 0 ⇐⇒ X T Y = X T X θ̂
Bemerkung: Um den Wert θ̂ zu bestimmen, hätten wir auch die partiellen Ableitungen von Q(θ) nach θ1 , . . . , θp Null setzen können. Die so erhaltenen Gleichungen sind die
Normalgleichungen.
– Ein Beispiel wird in der Vorlesung angegeben.
10
§2
Verlustfunktion, Güte einer Schätzung, Optimalitätseigenschaften
Wie im § 1 wird in diesem Abschnitt ein Zufallsvektor X = (X1 , . . . , Xn ) beobachtet, wobei
die {Xj } i.i.d. mit Verteilung (Pθ )θ∈Θ⊆Rk . Zu schätzen ist der unbekannte Parameter θ
oder eine reelle bekannte Funktion h von θ. X , A, (Pθ )θ∈Θ bezeichne das zugrundeliegende
statistische Modell.
2.1
Verlustfunktion, Güte einer Schätzung
Definitionen
Eine Schätzfunktion oder kurz eine Schätzung für h(θ) ist eine Abbildung
von X in h(Θ), wobei h(Θ) := {h(θ): θ ∈ Θ}.
δ sei eine Schätzung für h(θ). Ihre Risikofunktion R(θ, δ) ist definiert als R(θ, δ) := Eθ δ(X)−
2
h(θ) , θ ∈ Θ.
δ heisst erwartungstreu oder biasfrei, falls Eθ δ(X) = h(θ), ∀ θ ∈ Θ.
δ(X) = δ(X1 , . . . , Xn ) =: δn (X) heisst konsistent, falls Pθ |δn (X) − h(θ)| > ε −→ 0, d.h.
n→∞
P
θ
falls δn (X) −→
h(θ), ∀ θ ∈ Θ.
n→∞
Die Funktion L(u, t) := (u − t)2 , u, t ∈ h(Θ) heisst Verlustfunktion. Die Risikofunktion ist
also nichts anderes als R(δ, θ) = Eθ L(δ(X), h(θ)) , d.h. R(δ, θ) ist der erwartete Verlust.
Spieltheoretische Interpretation von statistischen Entscheidungsproblemen
Der Spieler Nr. I sei der “Statistiker”;
der Spieler Nr. II sei die “Natur”.
Die Natur wählt einen Zustand h(θ) mit θ ∈ Θ.
Der Statistiker wählt eine Strategie, d.h. eine Schätzfunktion δ.
Wird X = x beobachtet, dann wird die Entscheidung δ(x) getroffen. Der Statistiker verliert
dann die Summe L δ(x), h(θ) .
Die Risikofunktion R(δ, θ) ist also der erwartete Verlust, wenn
δ die Strategie des ersten
Spielers ist, und wenn der zweite Spieler den Zustand θ h(θ) wählt.
Bemerkung:
R(δ, θ) ist ein Mass für die Güte der Schätzung δ. Je kleiner R(δ, θ), desto
besser ist die Strategie δ.
δ1 , δ2 seien zwei Schätzer für h(θ).
Definitionen:
δ1 ist besser als δ2 an der Stelle θ, falls R(δ1 , θ) < R(δ2 , θ).
δ1 ist überall besser als δ2 , falls R(δ1 , θ) < R(δ2 , θ) für alle θ ∈ Θ.
δ1 ist zulässig, falls kein δ existiert, so dass R(δ, θ) ≤ R(δ1 , θ), ∀ θ mit R(δ, θ) < R(δ, θ) für
mindestens ein Element von Θ.
11
δ ∗ heisst minimax, falls sup R(δ ∗ , θ) = min sup R(δ, θ).
θ∈Θ
δ
θ∈Θ
Beachte: Falls δ erwartungstreu für h(θ) ist, gilt
2
R(δ, θ) = Eθ δ(X) − h(θ) = Varθ ( δ(X) .
Beispiele:
1. Beispiel 1, II.1.1.
Ist h(θ) = h(µ, σ 2 ) = µ, haben wir den Schätzer δ(X) = X n :=
δ ist erwartungstreu und R(δ, θ) = Varθ ( δ(X) =
1
n2
n
P
i=1
1
n
P
Xi vorgeschlagen.
i=1
Varθ (Xi ) =
1 2
nσ .
Nach dem
schwachen Gesetz der grossen Zahl ist δn (X) = δ(X1 , . . . , Xn ) konsistent.
2. Beispiel 2, II.1.1.
δ(X) = X n ist eine erwartungstreue Schätzung für die unbekannte Wahrscheinlichkeit
θ. In diesem Fall gilt R(δ, θ) = Varθ (X n ) = n1 Varθ (X1 ) = n1 θ(1 − θ). Die Schätzung
X n ist konsistent.
3. Beobachtet wird der Zufallsvektor X = (X1 , . . . , Xn ), wobei X1 , . . . , Xn , i.i.d. Zufallsgrössen mit gleichförmiger Verteilung auf dem Intervall [0, θ], θ > 0. Die MaximumLikelihood Methode liefert den Schätzer T (X) = max(X1 , X2 , . . . , Xn ). Wir betrachten die folgenden erwartungstreuen Schätzer für θ: δ1 (X) := n+1
n T (X), δ2 (X) := 2X n .
In den Übungen wird man zeigen, dass
Varθ δ1 (X) =
θ2
n(n + 2)
und
δ1 ist also immer eine bessere Strategie als δ2 .
θ2
Varθ δ2 (X) =
.
3·n
Bemerkung 1:
Man kann zeigen, dass δ1 unter allen biasfreien Schätzungen (für θ)
diejenige ist, die überall die kleinste Varianz hat.
Bemerkung 2:
Wir werden später zeigen, dass δ(X) im ersten Beispiel 1 unter allen
erwartungstreuen Schätzungen überall die kleinste Varianz hat.
Bemerkung 3:
In den Beispielen 1 und 2 besitzt der Schätzer X n wegen des Zentralgrenzwertsatzes die folgende Eigenschaft:
√
n(X n − µ)
Beispiel 1: Pθ a <
< b −→ Φ(b) − Φ(a), ∀ a, b,
n→∞
σ
!
√
n(X n − θ)
< b −→ Φ(b)−Φ(a), ∀ a, b und 0 < θ < 1.
Beispiel 2: Pθ a < p
n→∞
θ(1 − θ)
12
Die Fisher Information
X sei eine Zufallsgrösse mit Werten in E := {e1 , e2 , . . .} ⊆ Rn (diskreter Fall) oder ein
Zufallsvektor mit einer Dichte.
Im diskreten Fall sei das statistische Modell (E, P(E), (Pθ )θ∈Θ⊆R ) und wenn eine Dichte
existiert (Rn , βRn , (pθ )θ∈Θ⊆R ), wobei Pθ ({ei }) := Pθ (X = ei ), i = 1, 2, . . . und pθ (x), x ∈ Rn
dPθ
∂
die Dichte ist. Sehr oft existieren
und
pθ (x). Nehmen wir an, es sei der Fall. Dann
dθ
∂θ
können wir die sogenannte Fisher Information definieren:
Definition:
(Fisher Information)
1. I(Pθ ) :=
∞
X
i=1
2. I(pθ ) :=
"
Z "
#2
dPθ
dθ ({ei })
Pθ ({ei })
∂
∂θ (pθ (x))
pθ (x)
#2
Pθ ({ei }) (diskreter Fall),
pθ (x)dx .
Diese Grössen werden im folgenden Abschnitt eine wichtige Rolle spielen (siehe Cramer-Rao
Ungleichung, unten).
Beispiele (für die Beweise siehe die Übungen)
i) X habe die Dichte pθ (x) =
I(pθ ) =
1
.
nσ 2
1
√
2πδ
n
e−
P
(xi −θ)2
2σ2
(σ 2 bekannt). Dann gilt
n
P
xi
e−nθ θi=1
, (x1 , x2 , . . . , xn ) ∈ {0, 1, 2, . . .}n ,
ii) X habe die Verteilung Pθ {(x1 , x2 , . . . , xn )} =
x1 !x2 ! . . . xn !
n
θ > 0. Dann gilt I(Pθ ) = .
θ
n
n
P
P
n−
xi
xi
iii) Falls X die Verteilung Pθ {(x1 , . . . , xn )} = θi=1 (1 − θ) i=1 mit
n
.
(x1 , . . . , xn ) ∈ {0, 1}n und 0 < θ < 1 besitzt, dann gilt I(Pθ ) =
θ(1 − θ)
13
2.2.
Die Cramer-Rao Ungleichung
(x)
X sei ein Zufallsvektor mit Werten in Rn . Die Dichte von X gehöre einer Familie {pθ }θ∈Θ
von Dichten an, wobei Θ eine offene Teilmenge von Rk ist. Zu schätzen ist eine reelle
Funktion h(θ).
Satz 1: (Cramer-Rao
Ungleichung) T (X) sei eine biasfreie Schätzung für h(θ) mit
Eθ T 2 (X) < ∞, ∀ θ ∈ Θ.
Voraussetzungen:
1. Aθ := {x : pθ (x) > 0} hängt nicht von θ ab.
2. Die Dichte pθ (x) ist für alle x nach θ differenzierbar
Z pθ+∆ (x) − pθ (x) p0θ (x)
−
∆pθ (x)
pθ (x)
2
∂
p0θ (x) :=
pθ (x) und es gilt
∂θ
pθ (x)dx −→ 0, ∀ θ ∈ Θ,
∆→0
3. 0 < I(pθ ) < ∞, ∀ θ ∈ Θ.
4. Man darf immer unter dem Integralzeichen ableiten.
Behauptung: R(θ, T ) := Eθ
h
2 i
(h0 (θ))2
.
T (X) − h(θ)
= Varθ T (X) ≥
I(pθ )
Beweis: Da T (X) biasfrei ist, gilt für alle reelle Zahlen a,
(1)
(2)
Z
Z
T (x) − a pθ+∆ (x)dx = h(θ + ∆) − a und
T (x) − a pθ (x)dx = h(θ) − a .
Indem man (2) von (1) substrahiert, erhält man
(3)
Z
T (x) − a pθ+∆ (x) − pθ (x) dx = h(θ + ∆) − h(θ).
Wegen Voraussetzung 1. gilt dann
(4)
Z
T (x) − a
pθ+∆(x) − pθ (x)
∆pθ (x)
pθ (x)dx =
h(θ + ∆) − h(θ)
, ∀ ∆ 6= 0.
∆
Ersetzt man in (4) a durch h(θ), dann erhält man (Schwarz’sche Ungleichung)
(5)
h(θ + ∆) − h(θ)
∆
2
≤ Varθ T (X) ·
Z pθ+∆ (x) − pθ (x)
∆pθ (x)
2
pθ (x)dx, ∀ ∆ 6= 0.
Lässt man ∆ gegen 0 streben, bekommen wir (wegen Voraussetzungen 2. und 3.)
14
2
(6) h0 (θ) ≤ Varθ T (X) I(pθ ) :
2
Z p0θ (x)
w∆ (x) −
pθ (x)dx −→ 0.
∆→0
pθ (x)
Z
2
Daraus folgt, dass {w∆ } eine Cauchy-Folge ist, d.h.
0.
w∆ (x)−w∆0 (x) pθ (x)dx −→
∆,∆0 →0
Z
0
h(θ + ∆) − h(θ) h(θ + ∆ ) − h(θ)
−
,
Da
T (x) − h(θ) w∆ (x) − w∆0 (x) pθ (x)dx =
∆
∆0
gilt dann
Z
h(θ + ∆) − h(θ) h(θ + ∆0 ) − h(θ) 2
2
−
≤ Varθ T (X) ·
0.
w∆ (x)−w∆0 (x) pθ (x)dx −→
∆,∆0 →0
∆
∆0
h(θ + ∆) − h(θ)
ist also eine Cauchy-Folge. Da R vollständig ist, konvergiert dann
∆
h(θ + ∆) − h(θ)
. Der Limes ist natürlich h0 (θ).
die Folge
∆
pθ+∆ (x) − pθ (x)
Wegen 2. gilt mit w∆ (x) :=
,
∆pθ (x)
Beachte: Voraussetzung 4. haben wir im Beweis nicht benützt. Wir werden sie aber
brauchen, um den folgenden Satz zu beweisen:
Satz 2:
X = (X1 , . . . , Xn ) sei ein Zufallsvektor, wobei die {Xj } i.i.d. sind mit Dichte (gθ )θ∈Θ⊆R
. Wie oben, sei h(θ) zu schätzen. T (X) sei ein biasfreier Schätzer mit
Eθ T 2 (X) < ∞.
Behauptung: Falls die Familie {gθ } die Voraussetzungen vom Satz 1 erfüllt, so ist das
auch der Fall für die Dichten pθ des Vektors X.
Ferner gilt: I(pθ ) = n I(gθ ) und somit
2
h0 (θ)
Varθ T (X) ≥
.
n I(gθ )
Beweis: Wir zeigen nur, dass I(pθ ) = n I(gθ ) :
I(pθ )
=
Z = E
p0θ (x)
pθ (x)
2
pθ (x)dx =
n
h X
g 0 (Xi )
θ
!2
i
=
Z
n
X
n
X
g 0 (xi )
θ
i=1
E
"
gθ (xi )
!2
gθ0 (Xi )
gθ (Xi )
n
Y
gθ (xi )dx1 dx2 . . . dxn
i=1
2 #
+
X
E
gθ0 (Xi ) gθ0 (Xj )
·
gθ (Xi ) gθ (Xj )
gθ (Xi )
i=1
i6=j
0
0
X
gθ (Xj )
gθ (Xi )
+
E
(wegen der Unabhängigkeit)
E
gθ (Xi )
gθ (Xj )
i6=j
0
Z 0
gθ (x)
gθ (Xi )
=
= n I(gθ ), denn E
gθ (x)dx
gθ (Xi )
gθ (x)
Z
0
Z
=
gθ0 (x)dx =
gθ (x)dx
(wegen Voraussetzung 4!)
i=1
= 0.
= n I(gθ )
15
Bemerkung:
Unter denselben Voraussetzungen ist die Cramer-Rao Ungleichung auch
im diskreten Fall gültig. Die Dichten (Integrale) werden einfach durch die Wahrscheinlichkeiten (Summen) ersetzt.
Beispiele:
1. X := (X1 , . . . , Xn ) mit X1 , . . . , Xn i.i.d. und normalverteilt N (θ, σ02 ), σ02 bekannt. X̄n
σ2
ist erwartungstreu für θ mit Varθ (X̄n ) = n0 . Nun gilt
2
gθ (x) = √
I(pθ ) = n I(gθ ) mit
(x−θ)
−
1
2
e 2σ0 .
2πσ0
√
(x − θ)2
gθ0 (x)
∂
x−θ
2πσ
)
und
−
ln(
.
=
ln gθ (x) =
0
2
2σ0
gθ (x)
∂θ
σ02
Z
1
1
1
Also ist I(gθ ) = 4 (x − θ)2 gθ (x)dx = 2 und deswegen gilt Varθ (X̄n ) =
,
σ0
σ0
n I(gθ )
d.h. X̄n ist unter allen biasfreien Schätzungen für θ, diejenige mit der kleinsten
Varianz.
ln gθ (x) = −
2. X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Werten in {0, 1} und Qθ ({Xi = 1}) = θ,
0 < θ < 1.
X̄n ist biasfrei mit Varθ (X̄n ) = n1 θ(1 − θ).
I(Pθ ) = n I(Qθ ), wobei
0
2
2
0
Qθ ({Xi = 1})
Qθ ({Xi = 0})
I(Qθ ) =
Qθ ({Xi = 1}) +
Qθ ({Xi = 1})
Qθ ({Xi = 0})
1
−1 2
1
Qθ ({Xi = 0}) = ( )2 · θ + (
) (1 − θ) =
.
θ
1−θ
θ(1 − θ)
n
. Wir haben Gleichheit in der Ungleichung von Cramer-Rao,
Also ist I(Pθ ) =
θ(1 − θ)
d.h. X̄n ist unter allen linearen Schätzern derjenige mit der kleinsten Varianz.
3. X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit gleichförmiger Verteilung auf dem Intervall [0, θ], θ > 0. Sie haben gezeigt, dass T (X1 , . . . , Xn ) := n+1
n · max{X1 , . . . , Xn }
θ2
1
biasfrei ist mit Varθ (T ) =
. Ferner gilt gθ (x) = 1[0,θ] (x). Also ist
n(n + 2)
θ
1
gθ0 (x)
= − 1[0,θ](x) und somit
gθ (x)
θ
1
I(gθ ) =
θ
Zθ
1
1
dx = 2 .
θ2
θ
0
Daraus folgt
I(pθ ) =
n
θ2
und Varθ (T ) <
1
.
I(pθ )
In diesem Fall ist die Cramer-Rao Ungleichung nicht gültig.
Beachte: die erste Voraussetzung vom Satz 1 ist nicht erfüllt. Man kann aber trotzdem
zeigen, dass T (X1 , . . . , Xn ) unter allen biasfreien Schätzungen die beste ist. Der Beweis ist
nicht einfach und wird deshalb nicht in dieser Vorlesung vorgeführt.
16
2.3.
Asymptotische Eigenschaften von Maximum-Likelihood Schätzungen
X1 , X2 , . . . sei eine Folge von i.i.d. reellen Zufallsgrössen mit Dichte gθ , wobei θ ∈ Θ ⊆ R.
n
Q
Man definiert die Funktion Ln als Ln (x1 , . . . , xn ) =
gθ (xi ) (= Dichte des Vektors X =
i=1
n g 0 (X )
P
i
θ
= 0 besitzt eine einzige Lösung
(X1 , . . . , Xn )). Nehmen wir an, die Gleichung
g
(X
i)
i=1 θ
∂
θ̂n = θ̂n (X1 , . . . , Xn ) und dies für alle n. ( gθ0 (Xi ) :=
gθ (Xi ) )
∂θ
θ̂n ist die sogenannte Maximum-Likelihood Schätzung für θ (aus der Stichprobe (X1 , . . . , Xn )
hergeleitet).
Unter sehr schwachen Voraussetzungen über die möglichen Dichten gθ kann man zeigen,
Pθ
dass θ̂n konsistent ist:
θ̂n −→
θ, d.h. falls θ der wahre Wert ist, dann konvergiert θ̂n in
n→∞
Wahrscheinlichkeit gegen θ.
Definition:
Y, Y1 , Y2 , . . . seien Zufallsgrössen mit stetigen Verteilungsfunktionen. Die
Folge Y1 , Y2 , . . . konvergiert in Verteilung gegen Y , falls
lim P (a < Yn < b) = P (a < Y < b), ∀ a, b.
n→∞
U (θ) sei eine Zufallsgrösse mit Normalverteilung N (0, I(g1θ ) ). Unter schwachen Bedingungen
n√
o
über {gθ } kann man zeigen, dass die Folge
n(θ̂n − θ) in Verteilung gegen U (θ) konvergiert, falls θ der wahre Wert ist. Dies bedeutet, dass für grosse Werte von n die Zufallsgrösse
1
) verteilt ist. Grob gesagt: Asymptotisch ist die Cramer-Rao
θ̂n − θ angenähert N (0, n I(g
θ)
Schranke erreicht.
Beweisskizze für die asymptotische Normalität
Per Definition hat man
n
X
h(θ̂n , Xi ) = 0,
wobei h(θ, x) :=
i=1
gθ0 (x)
.
gθ (x)
Ist die Funktion h nach θ differenzierbar, dann gilt, falls θ der wahre Wert ist,
n
0=
n
n
1X 0
1X
1X
h(θ̂n − θ + θ, Xi ) ∼
h(θ, Xi ) +
h (θ, Xi )(θ̂n − θ)
=
n i=1
n i=1
n i=1
(θ̂n − θ ist “klein”). Also ist
√
n(θ̂n − θ) ∼
=
√1
n
− n1
n
P
i=1
n
P
i=1
h(θ, Xi )
=:
h0 (θ, Xi )
In
.
IIn
Asymptotisches Verhalten von IIn
∂
h (θ, x) =
∂θ
0
gθ0 (x)
gθ (x)
=
gθ00 (x)gθ (x) − (gθ0 (x))2
.
gθ2 (x)
17
Also gilt
Eθ h (θ, Xi ) =
0
=
2
Z 0
gθ (x)
gθ00 (x)gθ (x)
gθ (x)dx −
gθ (x)dx
gθ2 (x)
gθ (x)
00
Z
Z
00
− I(gθ ) = −I(gθ ).
gθ (x)dx
gθ (x)dx − I(gθ ) =
Z
Nach dem schwachen Gesetz der grossen Zahlen konvergiert also IIn in Wahrscheinlichkeit
gegen −I(gθ ).
Asymptotisches Verhalten von In
Es gilt
Z
Z
Z 0
0
gθ (x)
gθ (x)dx = gθ0 (x)dx =
gθ (x)dx = 0
Eθ h(θ, Xi ) =
gθ (x)
2
Z 0
gθ (x)
gθ (x)dx = I(gθ ).
und Eθ h2 (θ, Xi ) = Varθ h(θ, Xi ) =
gθ (x)
Nach dem Zentralgrenzwertsatz
Konvergiert In in Verteilung gegen eine Zufallsgrösse U ∗ (θ),
die N 0, I(gθ ) verteilt ist.
√
Aus den obigen Überlegungen folgt, dass n(θ̂n − θ) in Verteilung gegen die Zufallsgrösse
U ∗ (θ)
1
U (θ) :=
konvergiert. Die letztere ist aber N (0,
) verteilt.
−I(gθ )
I(gθ )
18
2.4.
Einige Eigenschaften der Kleinsten-Quadrat-Schätzung (KQ-Schätzung)
Wie in 1.3. betrachten wir das allgemeine lineare Regressionsmodell:
Y = Xθ + Z,
wobei θ der unbekannte Parameter ist (Y ∈ Rn , θ ∈ Rp ).
Definition
Falls U eine zufällige Matrix ist, ist die ErwartungE(U ) von U definiert als
die Matrix der Erwartungen der Elemente Uij von U , d.h. E(U ) ij := E(Uij ).
In diesem Abschnitt machen wir die folgenden Voraussetzungen:
1. p < n,
2. Rang(X) = p,
3. E(Z) = 0 und Cov(Z) := E
n × n Identitätsmatrix.)
h
T i
Z − E(Z) Z − E(Z)
= E[ZZ T ] = σ 2 In (In ist die
Beachte Falls die Komponenten Z1 , Z2 , . . . , Zn von Z i.i.d. Zufallsgrössen sind mit E(Zi ) =
0 und Var(Zi ) = σ 2 , ist die dritte Voraussetzung erfüllt. Die KQ-Schätzung θ̂ für θ ist
θ̂ = (X T X)−1 X T Y
(siehe 1.3).
Satz 1
Unter den gemachten Voraussetzungen gilt
a) Eθ,σ2 (θ̂) = θ, ∀θ, σ 2 , d.h. θ̂ ist biasfrei,
−1 2
b) Covθ,σ2 (θ̂) = X T X
· σ , ∀θ, σ 2 .
Beweis
“a)”: Eθ,σ2 (θ̂) = Eθ,σ2 (X T X)−1 X T Y = (X T X)−1 X T Eθ,σ2 (Y ) (Linearität der Erwartung!)
= (X T X)−1 X T Eθ,σ2 (Xθ + Z) = (X T X)−1 X T Xθ = θ,
h
i
“b)”: Covθ,σ2 (θ̂) = Eθ,σ2 (θ̂ − θ)(θ̂ − θ)T =
h
T i
Eθ,σ2 (X T X)−1 X T Y − θ (X T X)−1 X T Y − θ
h
T i
= Eθ,σ2 (X T X)−1 X T (Y − Xθ) (X T X)−1 X T (Y − Xθ)
= Eθ,σ2 (X T X)−1 X T ZZ T X(X T X)−1
= (X T X)−1 X T Eθ,σ2 (ZZ T )X(X T X)−1
= σ 2 (X T X)−1 X T X(X T X)−1 = σ 2 (X T X)−1 .
Die Diagonalelemente der Matrix Covθ,σ2 (θ̂) geben Information über die Güte der Schätzungen
θ̂i , i = 1, . . . , p. Es ist also notwendig, einen Schätzer für den unbekannten Parameter σ 2 zu
haben. Eine Möglichkeit ist durch den folgenden Satz gegeben:
19
Satz 2
kY − X θ̂k2
ist eine biasfreie Schätzung für σ 2 , d.h. Eθ,σ2 (σ̂ 2 ) = σ 2 , ∀θ, σ 2 .
σ̂ 2 :=
n−p
Beweis Führe im y–Raum (Beobachtungsraum) ein neues orthogonales Koordinatensystem
ein mit den ersten p orthonormierten Basisvektoren in dem von “idealen” Messwerten Xθ
aufgespannten Unterraum Vp . Seien V1∗ , . . . , Vn∗ die Koordinaten des Punktes Y im neuen
System. Da V ∗ = ΓY mit Γ ortogonal, gilt:
1. δθ,σ2 := Eθ,σ2 (V ∗ ) = ΓEθ,σ2 (Y ) mit (δθ,σ2 )i = 0 für i > p,
T
∗
2. Covθ,σ2 (V ) = Eθ,σ2 Γ Y − E(Y ) Γ Y − E(Y )
= Eθ,σ2 ΓZZ T ΓT = Γσ 2 In ΓT = σ 2 In ,
3. kY − X θ̂k2 = kΓY − ΓX θ̂k2 (Γ ist orthogonal!) =
n
P
i=p+1
Vi∗2 .
Daraus folgt:
Eθ,σ2 (kY − X θ̂k2 ) =
n
X
Eθ,σ2 (Vi∗2 ) =
n
X
Varθ,σ2 (Vi∗2 ) (wegen 1.).
i=p+1
i=p+1
Also gilt
Eθ,σ2 (kY − X θ̂k2 ) = (n − p)σ 2
Sei ψ(θ) :=
p
P
(wegen 2.).
λi θi mit λ1 , λ2 , . . . , λp bekannt.
i=1
Definition 1
Die KQ-Schätzung ψ̂ für ψ ist definiert als ψ̂(Y ) =
p
P
λi θ̂i .
i=1
Definition 2
Ein Schätzer T (Y ) für ψ heisst linear, falls T sich schreiben lässt als
T (Y ) =
n
X
di Yi ,
i=1
wobei d1 , . . . , dn Konstanten sind.
Bemerkung
Die KQ-Schätzung ψ̂ für ψ ist linear. Es gilt weiter Eθ,σ2 (ψ̂) = ψ(θ),
2
∀θ, σ , d.h. ψ̂ ist biasfrei.
Satz 3 (Gauss-Markov)
n
P
ψ(θ) :=
λi θi sei irgend eine Linearform in den unbekannten Parametern.
i=1
20
Behauptung
Unter allen linearen biasfreien Schätzungen für ψ(θ) ist ψ̂ diejenige mit
der kleinsten Varianz.
n
P
Beweis Wenn ψ̃ =
ci Yi irgend eine lineare Schätzung von ψ ist, dann ist ψ̃ auch in den
i=1
v ∗ –Koordinaten linear:
ψ̃ =
n
X
di Vi∗ .
i=1
Erwartungstreue ergibt
ψ(θ) = Eθ,σ2 (ψ̃) =
p
X
di Eθ,σ2 (Vi∗ ), denn Eθ,σ2 (Vi∗ ) = 0 für i > p.
i=1
Die Beobachtungsgleichungen können auch im v ∗ –System ausgedrückt werden; sie lauten
etwa
p
X
x0ij θj + Zi0 mit x0ij = 0 für i > p.
Vi∗ =
j=1
Also ist Eθ,σ2 (Vi∗ ) =
Pp
ψ(θ) =
j=1
p
X
x0ij θj , und Einsetzen ergibt
λj θj =
p
X
di
i=1
j=1
p
X
x0ij θj
=
p
p
X
X
j=1
j=1
di x0ij
i=1
!
θj , ∀θ.
Koeffizientenvergleich bestimmt d1 , . . . , dp eindeutig (während die dp+1 , . . . , dn beliebig sind),
denn die Matrix (x0ij ) hat Rang p.
Wir haben Varθ,σ2 (ψ̃) =
. . . = dn = 0 setzen.
n
P
i=1
d2i Varθ,σ2 (Vi∗ ) = σ 2
n
P
i=1
d2i ; das wird minimal, wenn wir dp+1 =
Die so bestimmte lineare erwartungstreue Schätzung kleinster Varianz ψ̃ =
p
P
k=1
dk Vk∗ fällt
∗
aber mit der KQ-Schätzung ψ̂ zusammen, denn auch diese ignoriert die Werte von Vp+1
, . . . , Vn∗ ,
und d1 , . . . , dp sind durch die Erwartungstreue eindeutig bestimmt.
Wenn die Messungen verschiedene Varianzen σi2 := Var(Zi ) besitzen, soll
Bemerkung
man
Beweis
Yi =
Ersetze
p
X

2
p
n
X
X
1 
Q(θ) :=
Yi −
xij θj 
2
σ
i=1 i
j=1
xij θj + Zi durch
j=1
Beispiel
(siehe Übungen.)
s
1
Yi
σi2
!
=
p
X
j=1
s
minimalisieren.
1
xij
σi2
!
θj +
s
1
Zi , i = 1, . . . , n.
σi2
21
§3
Vertrauensgebiete: Vertrauensintervalle für die Erwartung
Im Beispiel 1 (Seite 2) haben wir als Schätzer für die Erfolgswahrscheinlichkeit θ,
n
1X
Xi vorgeschlagen. Ist n hinreichend gross, wissen wir (starkes Gesetz der
X̄n :=
n i=1
grossen Zahlen!), dass mit grosser Wahrscheinlichkeit |X̄n − θ| klein ist. Dies legt es nahe zu
versuchen, ein kleines Intervall I(X) (siehe Beispiel 6, Seite 4) um den Schätzer X̄n herum
festzulegen, indem man θ vermuten darf. Man könnte etwa fordern, dass z.B. P (I(X)
enthält den wahren Wert θ) ≥ 0, 95.
Allgemein liege ein statistisches Modell X , A, (Pθ )θ∈Θ vor und es sei g(θ) (∈ R) zu
schätzen. Beobachtet wird also eine Zufallsgrösse X mit Werten in X .
Definition
Ein zufälliges Gebiet C(X) mit der Eigenschaft
Pθ C(X) enthält g(θ) ≥ 1 − α, ∀θ ∈ Θ,
heisst Vertrauensgebiet für g(θ) zum Niveau 1 − α.
Oft ist C(X) ein zufälliges Intervall. Man spricht dann von einem Vertrauensintervall zum
Niveau 1 − α.
Es ist wichtig, sich diese Definition genau anzusehen, damit die Angabe von C(X) nicht
falsch interpretiert wird: Nicht g(θ) ist zufällig, sondern X und damit C(X). Wird X = x
beobachtet, ist dann C(x) ein festes Gebiet und es gilt: entweder g(θ) ∈ C(x) oder nicht,
aber {θ : g(θ) ∈ C(x)} ist kein Ereignis. Die Aussage über das Niveau 1 − α ist vielmehr
eine Aussage über die gesamte Familie {C(x) : x ∈ X }, d.h. über die Vorschrift, nach der
das Gebiet aus der Beobachtung bestimmt wird. Wenn wir für jedes x das Gebiet C(x) als
Vertrauensgebiet angeben, wird — was auch immer θ ∈ Θ ist — das zufällige Gebiet in ca.
95 % der Fälle g(θ) enthalten (falls α = 0, 05 ist).
Beispiel 1 X := (X1 , X2 , . . . , Xn ) mit X1 , . . . , Xn i.i.d. Zufallsgrössen. Nehmen wir an,
X1 sei N (θ, σ 2 ) verteilt mit σ 2 bekannt.
n
1X
Xi ist eine biasfreie Schätzung für θ.
X̄n :=
n i=1
√
n(X̄n − θ)
Falls θ der wahre Wert ist, dann besitzt
eine N (0, 1) Verteilung.
σ
∗
1
0 < α < 1 sei vorgegeben. ξα∗ sei diejenige Zahl, für welche √
2π
ξα∗
Zξα
∗
−ξα
u2
e− 2 du = 1 − α. (Z.B.
für α = 0, 05 ist
≈ 1, 96.)
√
σξα∗
σξα∗
n(X̄n − θ) ∗
√
√
Dann gilt Pθ ≤
ξ
=
1
−
α,
∀θ.
Also
ist
I(X)
:=
,
X̄
+
X̄
−
n
n
α
σ
n
n
ein Vertrauensintervall für die Erwartung θ zum Niveau 1 − α.
22
X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Normalverteilung N (θ, σ 2 ), wobei
n
1 P
(Xi − X̄n )2 (X̄n wie im Beispiel 1). Falls θ
σ 2 unbekannt ist. Wir definieren Vn2 := n−1
Beispiel 2
i=1 √
n −θ)
eine Student-Verteilung mit n−1
der wahre Wert ist, kann man zeigen, dass Tn := n(X̄
Vn
Freiheitsgraden ist. fn−1 sei die Dichte dieser Verteilung und 0 < α < 1 sei vorgegeben. Man
t∗
α,n−1
R
∗
bestimmt dann die Zahl tα,n−1 , für welche
fn−1 (x)dx = 1 − α. (Dazu benützt man
t∗
α,n−1
eine Tabelle für die Student-Verteilung; z.B. für n = 7 und α = 0, 05 ist t∗0,05, 6 = 2, 365.)
Mit dieser Wahl von t∗α,n−1 gilt
Pθ (|Tn | ≤ t∗α,n−1 ) = 1 − α, ∀ θ, σ 2
und somit ist I(X) :=
zum Niveau 1 − α.
Vn
Vn
X̄n − √ t∗α,n−1 , X̄n + √ t∗α,n−1 ein Vertrauensintervall für θ
n
n
Beispiel 3 X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Pθ (Xi = 1) = θ und Pθ (Xi =
0) = 1 − θ, 0 < θ < 1. X̄n ist eine erwartungstreue Schätzung
für θ. Für hinreichend
√
n(X̄n − θ)
angenähert N (0, 1)–
grosse n besagt der Zentralgrenzwertsatz, dass Vn := p
θ(1 − θ)
verteilt ist (falls θ der wahre Wert ist!). ξα∗ sei wie im Beispiel 1 definiert. Dann gilt
Pθ (|Vn | ≤ ξα∗ ) ≈ 1 − α, d.h.
"
#
!
p
p
θ(1 − θ)ξα∗
θ(1 − θ)ξα∗
√
√
Pθ
X̄n −
enthält θ ≈ 1 − α.
, X̄n +
n
n
1
, ∀θ, gilt
4
∼
ξ∗
ξ∗
enthält θ ≥1 − α, ∀θ.
Pθ X̄n − √α , X̄n + √α
2 n
2 n
∼
ξ∗
ξ∗
ein Vertrauensintervall zum Niveau ≥1 − α.
Somit ist I(X̄n ) := X̄n − √α , X̄n + √α
2 n
2 n
Da θ(1 − θ) ≤
23
III
§1
Testtheorie
Testverfahren, Niveau, Macht.
X sei eine Zufallsgrösse und X , A, (Pθ )θ∈Θ das zugrundeliegende statistische Modell. Von
einem Testproblem spricht man, wenn man auf grund des beobachteten Wertes x der Zufallsgrösse X entscheiden soll, ob Pθ einer bestimmten echten Teilmenge H von Θ angehört
oder nicht.
Ein Test ist eine Entscheidungsregel, die für jeden möglichen Wert von x festlegt, ob man
sich für die Hypothese “θ ∈ H” oder für die Alternative “θ ∈ Θ−H” = “θ ∈ H c ” entscheiden
soll. Man nennt auch kurz H die Hypothese und K := H c die Alternative. Die Entscheidung
dH für die Hypothese nennt man “Annahme” der Hypothese, und die Entscheidung dK für
die Alternative nennt man Verwerfen der Hypothese. Ein Test ist also (bis auf weiteres)
beschrieben durch Angabe der Menge R derjenigen x, für welche die Hypothese verworfen
werden soll. R wird Verwerfungsbereich oder kritischer Bereich des Tests genannt.
Innerhalb des gewählten Modells sind also zwei Arten von Fehlern möglich:
Ist θ ∈ H und wird die Hypothese verworfen, so spricht man von einem Fehler erster Art.
Ist θ ∈ K und wird die Hypothese “angenommen”, so spricht man von einem Fehler zweiter
Art.
Praktisch gibt man R meist mit Hilfe von einer Funktion ϕ(x) an, der sogenannten Testfunktion, die X in {0, 1} ([0, 1]) abbildet:
Ist ϕ(x) = 1, dann lehnt man die Hypothese ab.
Ist ϕ(x) = 0, dann wird die Hypothese “angenommen”.
Bemerkung: Die Nullhypothese ist damit nicht bewiesen; sie ist bloss nicht widerlegt. Es ist
möglich, dass wir einen Fehler 2. Art mit grosser Wahrscheinlichkeit begehen. Siehe unten.
Falls ϕ, X in [0, 1] abbildet, dann lehnt man die Hypothese mit Wahrscheinlichkeit ϕ(x) ab
(falls x beobachtet wurde). Der Test heisst dann randomisiert.
Bisher haben wir das Testsproblem so formuliert, dass H und K völlig symmetrische Rollen
spielen. In konkreten Fragestellungen gibt es aber gewöhnlich eine Asymmetrie. Ist man z.B.
daran interessiert, ob sich irgendwelche Daten innerhalb einer etablierten Theorie erklären
lassen oder auf neue Effekte hindeuten, so sollte man auf neue Effekte erst schliessen, wenn
wirklich deutliche Hinweise darauf vorliegen. Soll ein gebräuchliches Medikament durch
ein neues ersetzt werden, so wird man bei unklaren Vergleichswerten vorerst bei den alten
Medikamenten bleiben. In beiden Fällen erscheint ein vorschneller Wechsel nicht ratsam.
Im Zweifel kann man sich ja gewöhnlich weitere Daten verschaffen.
In der Formulierung des Testproblems trägt man dem so Rechnung, dass man als Hypothese die Verteilung (oder die Verteilungen) wählt, die der etablierten Theorie bzw. reiner
Zufälligkeit entsprechen.
Man zieht nur Verwerfungsbereiche R (d.h. Bereich der Form {x : ϕ(x) = 1}) in Betracht,
für die die Wahrscheinlichkeit eines Fehlers erster Art durch eine vorgegebene Zahl α > 0 begrenzt ist. Dadurch erreicht man, dass man neue Effekte oder wesentliche Vorteile des neuen
Medikamentes nur dann behauptet, wenn wirklich die Daten deutlich dafür sprechen. Leider
lässt sich die Wahrscheinlichkeit eines Fehlers zweiter Art (beim festen Stichprobenumfang)
nicht simultan in gleicher Weise begrenzen.
Quantitative Aussagen erhält man durch Betrachtung der Gütefunktion
24
β(θ) := Pθ ϕ(X) = 1 = Eθ ϕ(X) des Tests ϕ, die jedem θ die Verwerfungswahrscheinlichkeit unter Pθ zuordnet.
Definition
Wir sagen, dass der Test ϕ das Niveau α hat, falls
sup β(θ) ≤ α.
θ∈H
Beachte β(θ) ≤ α, ∀θ ∈ H bedeutet: Die Wahrscheinlichkeit eines Fehlers erster Art ist
maximal α.
Für θ ∈ K heisst β(θ) die Macht des Tests in θ.
Beachte Ist die Macht β(θ) nahe bei 1, so ist die Wahrscheinlichkeit 1 − β(θ) eines Fehlers
zweiter Art klein.
Beispiel
Angenommen, jemand behauptet, er habe eine Methode gefunden, um das
Zahlenverhältnis (∼ 1 : 1) zwischen Kuh- und Stierkälbern zugunsten der ersten zu verschieben. Eine landwirtschaftliche Organisation ist interessiert, aber skeptisch, und möchte
das Verfahren zuerst ausprobieren, z.B. in n = 20 Fällen; dabei kommen X Kuhkälber
heraus.
X = 20 würde sie wohl überzeugen. Nehmen wir aber an, sie entschliesst sich, das Verfahren
zu empfehlen, falls X ≥ 15. Was bedeutet das?
X ist binomial B(20, θ) verteilt, d.h.
n x
Pθ (X = x) =
θ (1 − θ)n−x ,
x
Hypothese H: θ =
1
2
x = 0, 1, . . . , 20.
(“Behandlung wirkungslos”),
Alternative K: θ ≥ 0, 7 (“Behandlung wirtschaftlich interessant”)
ϕ(x) = 1, falls x ≥ 15 und ϕ(x) = 0 sonst.
In diesem Beispiel ist β( 12 )
20
20
20
1
+
+ ...+
≈ 0, 021 und P0,7 (X ≥ 15) ≈ 0, 416 ,
= P1/2 (X ≥ 15) = ( )20
2
15
16
20
d.h. das Niveau des Tests ϕ ist gleich 0, 021 und die Macht an der Stelle θ = 0, 7 beträgt
0, 416.
Bemerkung
Würde man nach einem Test ϕ∗ suchen, so dass β ∗ ( 21 ) = 0, 05 und β ∗ (0, 7) =
0, 90, so müsste die Anzahl n von Versuchen grösser als 52 sein und ϕ∗ (x) = 1, falls x ≥ 33.
Für kleinere n geht es nicht.
25
§2
2.1
Einige Beispiele von wichtigen Tests
Ein einfacher Test mit Hilfe des Zentralgrenzwertsatzes
Es wird immer wieder behauptet, die Wahrscheinlichkeit einer Knabengeburt sei grösser als
die Wahrscheinlichkeit einer Mädchengeburt. Ist das wirklich so?
Wir versuchen die folgende Hypothese H zu testen:
Wahrscheinlichkeit p einer Knabengeburt = 0,5. Die Alternative K sei p > 0, 5. Wir testen
also einseitig (zweiseitig würde die Alternative K ∗ : p 6= 0, 5 bedeuten). Die Wahl der
Alternative bedeutet, dass wir praktisch sicher sind, dass p < 0, 5 nicht in Frage kommt.
Wir benützen als Beobachtungen die Zahlen, die ein zwischen 1969 und 1972 zufällig ausgewählter Jahrgang des Statistischen Jahrbuches der Schweiz liefert. Dieses nennt für 1972,
n = 910 342 Geburten mit x = 470 179 Knabengeburten. Diese Zahl stellt einen Wert einer
Zufallsgrösse X dar.
Unter der Hypothese (p = 21 ) ist X, B(910 342, 21 ) verteilt. Es ist aber hier einfacher mit der
X−n
Normal-Approximation zu arbeiten. Wir wissen, dass (unter H) Y := 1 √ 2 angenähert
2 n
eine Standard Normalverteilung besitzt. Sei α (das Niveau) = 5 % und ξ0,05 die Zahl, für
ξ0,05
R
x2
e− 2 dx = 0.95. Es ist naheliegend, die Hypothese zu verwerfen, falls der
welche √12π
−∞
Beobachtete Wert x von X zu gross ist, d.h. falls y(x) zu gross ist. Tut man das, falls
y(x) ≥ ξ0,05 (Verwerfungsbereich), dann hat unser Test das Niveau 5 %. In diesem Beispiel
ist y ≈ 10 und aus einer Tabelle der Normalverteilung liest man ξ0,05 = 1, 645.
Der Test lehnt also die Hypothese ab. Die Abweichung ist sogar hochsignifikant, denn auch
für das Niveau α = 1 % (ξ0,01 = 2, 326), würden wir die Hypothese verwerfen.
Eine Bemerkung über den sogenannten p–Wert (p–value) Wenn man bei einem
Testproblem ein Software benützt, liefert ein Computer immer im output den sogenannten
p–value. Diese Zahl wollen wir im oberen Beispiel erklären.
Die Länge der Stichprobe war n = 91342 und der beobachtete Wert der Zufallsgrösse X
gleich x = 47179.
Definition:
Der p–value ist die Wahrscheinlichkeit, dass die normalisierte Zufallsgrösse Y = Y (X) den
beobachteten Wert y(x), unter H, überschreitet. Man bezeichne diese Wahrscheinlichkeit
mit αy(x) .
Interpretation:
Falls für ein vorgegebenes Niveau α die Ungleichung α ≥ αy(x) gilt, lehnt man (zum Niveau
α) die Hypothese ab.
Man kann also die jetzt bei statistischen Auswertungen von den Computern berechneten
p–Werte als Entscheidungsanweisungen für den Statistiker auffassen, der α fest gewählt hat.
Je nach Wahl von α wird die Anweisung zu verschiedenen Entscheidungen führen.
Achtung:
Kritisch an der Verwendung von p–Werten ist vor allem, dass sie leicht fehlinterpretiert
26
werden. Nicht ganz so offensichtlich ist im Falle αy(x) = 0, 023 darauf zu schliessen, dass H
zum Niveau 0, 023 abzulehnen ist. Das Niveau soll ja nicht vom Ergebnis x abhängen.
Ist die Hypothese einfach (= 21 ), so ist die folgende Intepretation richtig: αy(x) ist die
Wahrscheinlichkeit (unter H) dafür, dass Y (X) ≥ y(x) ist, also die Wahrscheinlichkeit,
dass die Teststatistik Y (X) einen mindestens so grossen Wert annimmt wie den aktuell
beobachteten.
2.2
Beispiel 2.1
Fortsetzung
Im Beispiel 2.1 könnte man dieselbe Hypothese p =
testen (zweiseitige Situation).
1
2
gegen die Alternative K ∗ : p 6=
1
2
Wir betrachten dieselben Zufallsgrössen X und Y wie im Beispiel 2.1 und dieselben Beobachtungen aus dem Jahre 1972. In diesem Falle ist es naheliegend, die Hypothese abzulehnen,
falls Y zu gross ist (p > 12 ) oder zu klein ist (p < 21 ), d.h. falls |Y | (absoluter Betrag) zu
gross ist.
Bemerkung: Unter der Hypothese hat Y wieder angenähert eine Standard Normalverteilung,
∗
die um 0 symmetrisch ist. Sei α (das Niveau) = 5 % vorgegeben, und sei ξ0,05
die Zahl, für
welche
√1
2π
∗
ξ0,05
R
∗
−ξ0,05
e−
x2
2
∗
dx = 0, 95. Man lehnt dann die Hypothese ab, falls |y| ≥ ξ0,05
. Aus
∗
einer Tabelle der Normalverteilung liest man ξ0,05
= 1, 96. Da |y| ∼
= 10, lehnt der Test die
∗
Hypothese ab. Wie vorher würde man auch zum Niveau 1 % ablehnen, da ξ0,01
= 2, 576.
∗
Bemerkung: Im Beispiel 2.2 (wie auch im Beispiel 2.1) ist
die Alternative K zusammenge1
setzt. Alle möglichen Werte p in der Menge (0, 1) − 2 sind theoretisch möglich für K ∗ .
Die Macht des Tests hängt also von der Alternative ab. Sie wurde definiert als
∗
,
β(p) := Pp |Y | ≥ ξ0,05
wenn das Niveau 5 % beträgt und p ∈ K ∗ .
Wenn p ∈ K ∗ nahe bei der Hypothese p = 21 liegt, steht die Macht an dieser Stelle sehr nahe
bei 5 %. Die Wahrscheinlichkeit eines Fehlers 2. Art ist dann in diesem Fall sehr gross und
man muss sehr vorsichtig sein:
Da α (das Niveau) frei wählbar ist, hat man eine Kontrolle über die Wahrscheinlichkeit eines
Fehlers 1. Art (≤ α), ber keine über die Wahrscheinlichkeit eines Fehlers 2. Art. Deshalb
sagt man, ein Test ist signifikant, wenn die Hypothese abgelehnt wird. Wenn nicht, ist die
Hypothese nicht bewiesen, sie ist einfach nicht widerlegt.
2.3
Vergleich von zwei Wahrscheinlichkeiten bei unabhängigen Stichproben
Auf zwei verschiedenen Anlagen wird dasselbe Objekt hergestellt. Man vermutet, dass die
Wahrscheinlichkeiten an Ausschussstücken bei diesen beiden Anlagen verschieden sind und
will dies durch Stichproben überprüfen. n1 = 200 Objekte der ersten Anlage weisen x = 5
fehlerhafte Stücke auf; n2 = 100 Objekte der zweiten Anlage zeigen total y = 10 fehlerhafte
Exemplare. Sind die beiden Ausschusswahrscheinlichkeiten p1 , p2 wirklich verschieden?
Das statistische Modell für dieses Problem: Beobachtet werden n1 + n2 unabhängige Zufallsgrössen X1 , X2 , . . . , Xn1 , Y1 , Y2 , . . . , Yn2 , wobei Xi = 1 (Yi = 1), falls das i–te Objekt aus
der ersten (zweiten) Anlage fehlerhaft ist, = 0 sonst. Relevant für uns sind die Zufallsgrössen
27
X :=
n1
P
i=1
Fällen.
Xi , Y :=
n2
P
Yj , d.h. die totalen Anzahlen von fehlerhaften Objekten in beiden
j=1
Als Hypothese wählen wir p1 = p2 =: p.
Wir müssen zunächst p schätzen. Nach den Gesetzen der grossen Zahlen, für n1 + n2 gross,
ist, unter der Hypothese, p̂ := nX+Y
sehr nahe bei p. Das wird unsere Schätzung für p sein.
1 +n2
Nach dem Zentralgrenzwertsatz ist die Differenz nX1 − nY2 angenähert normalverteilt mit
Erwartung p1 − p2 = 0 (unter der Hypothese) und Varianz p(1 − p)( n11 + n12 ) (unter der
Hypothese).
Somit ist, im Falle, wo p1 = p2 = p,
X/n1 − Y /n2
U := q
p(1 − p)( n11 + n12 )
angenähert standard normalverteilt.
Dasselbe gilt auch, wenn man für p unsern Schätzer p̂ einführt, d.h. für
X/n1 − Y /n2
.
V := q
p̂(1 − p̂)( n11 + n12 )
Hier ist der Test zweiseitig. So, zum Niveau 5 %, lehnt man die Hypothese ab, falls der
∗
beobachtete Wert v von V so ist, dass |v| ≥ ξ0,05
= 1.96 (siehe Beispiel 2.2).
Für v erhalten wir mit unsern Beobachtungen (x = 5, y = 10, p̂ = 0, 05) den Wert v = −2, 8.
Der Test lehnt also die Hypothese ab.
2.4
Der Vorzeichentest für kleine gepaarte Stichproben
Bei einer Person sei der diastolische Blutdruck durch Pd bezeichnet und der systolische
Blutdruck durch Ps . Der “mittlere” Blutdruck wird dann definiert als 32 Pd + 31 Ps .
An 18 zufällig ausgewählten Studenten wurde der mittlere Blutdruck zweimal gemessen,
einmal liegend und einmal stehend. Man beobachtet also 18 Paare (xi , yi ) von Zahlen.
Das statistische Modell für dieses Experiment besteht aus 18 i.i.d. Zufallsvektoren Zi :=
(Xi , Yi ).
Der Vorzeichen Test: Wir betrachten die Differenzen Zi := Yi −Xi . Wenn bei der Messung
die Lage des Studenten auf seinen mittleren Blutdruck keinen Einfluss hätte, würde wohl
P (Zi > 0) = P (Zi < 0) = 21 gelten (Wertepaare mit Differenz 0 lassen wir zum voraus
weg und zählen sie nicht mit!). Man könnte aber vermuten, dass P (zi > 0) > 21 ist.
Deshalb wählen wir als Hypothese H : P (Zi > 0) = P (Zi < 0) = 21 und als Alternative
P (Zi > 0) > 21 . (Ein Test ist signifikant, nur wenn er die Hypothese ablehnt!)
Sei V die Anzahl der positiven Zi ’s, d.h. V :=
18
P
I(Zi > 0), wobei I die Indikatorfunktion
i=1
ist. Der (einseitige) Vorzeichen Test lehnt die Hypothese ab, wenn der beobachtete Wert v
von V zu gross ist.
28
Das Verfahren:
α sei vorgegeben. Man bestimmt dann die kleinste ganze Zahl cα so, dass PH (V ≥ cα ) ≤ α.
Der Vorzeichen-Test lehnt die Hypothese ab, falls v (beobachteter Wert von V ) ≥ cα .
Tabelle (beobachtete Differenzen)
Im Jahre 1975 wurden im physiologischen Institut die folgenden Differenzen zi der mittleren
Blutdrucke beobachtet:
Student
1
2
3
4
5
6
7
8
9
Differenz
1 32
1 32
2 32
4 31
−2 32
−3 31
−8 31
−1 32
5 13
Student
10
11
12
13
14
15
16
17
18
Differenz
5
−5
1 32
1 32
3 31
5
1
3
1 32
−5
Sei α = 5 %. In einer Tabelle für die Binomialverteilung B(n, p) für n klein (n ≤ 40), die
man zum Beispiel im Buch von E.L. Lehmann “Nonparametrics”: Statistical Methods based
on ranks, Holden Day (1975), finden kann, liest man, dass die kleinste Zahl c0,05 , für welche
PH (V ≥ c0,0.5 ) ≤ 0, 05, gleich 13 ist. Unsere Stichprobe liefert für V den Wert v = 12. Die
Hypothese wird also nicht abgelehnt.
Bemerkung: Wäre die Länge n der Stichprobe (in unseremBeispiel n = 18) viel grösser, dann
würde man die Zufallsgrösse V so normalisieren, dass die Normal Approximation anwendbar
ist (etwa wie im Beispiel 2.1).
2.5
Der χ2 –Anpassungstest
Das Testproblem: Es werden n unabhängige, untereinander gleiche Teilexperimente ausgeführt. Diese haben r ≥ 2 mögliche Ausgänge und der i–te Ausgang hat Wahrscheinlichkeit
pi . Der Parameter θ := (p1 , p2 , . . . , pr ) ist unbekannt. Wir nehmen an, dass alle pi positiv
sind. Für einen vorgegebenen Wahrscheinlichkeitsvektor π := (π1 , π2 , . . . , πr ) ist zu testen,
ob θ = π ist.
Das zugehörige statistische Modell: Beobachtet wird ein Zufallsvektor X := (N1 , N2 , . . . , Nr ),
wobei Ni die Anzahl der Auftreten des i–ten Ausganges (bei den n Wiederholungen des Experimentes) darstellt.
r
P
Beachte, dass
Ni = n und dass der Vektor X eine Multinomialverteilung mit Parametern
i=1
n,p1 , . . . , pr besitzt.
Beispiel: n Würfe mit einem Würfel. Mögliche Ausgänge: {1}, {2}, . . . , {6}. Man könnte
sich die folgende Frage stellen: Ist der Würfel symmetrisch, d.h. ist (p1 , p2 , . . . , p6 ) =
( 61 , 16 , . . . , 61 ) =: π ?
Zurück zum allgemeinen Testproblem. Der χ2 –Anpassungstest
29
Falls n gross ist, ist Nni , unter der Hypothese, nahe bei πi (Gesetz der grossen Zahlen!).
Wenn man N1 = n1 , . . . , Nr = nr beobachtet hat, scheint es vernünftig, die beobachtete
absolute Häufigkeit ni mit den, unter der Hypothese θ = π, erwarteten Häufigkeiten nπi zu
r
P
vergleichen. Man würde also die Hypothese θ = π ablehnen, falls z.B.
(ni − nπi )2 zu gross
i=1
ist. Man benützt indessen einen besonders gut brauchbaren Wert, wenn man die Quadrate
der Unterschiede noch normiert:
Definition: Die χ2 –Statistik ist definiert als
χ2 =
r
X
(Ni − nπi )2
i=1
nπ
.
Definition (χ2 –Quadrat Anpassungstest)
Man kann zeigen (aber das ist schon höhere Statistik), dass für relative grosse Werte von
n, etwa nπi ≥ 3, ∀ i, die Statistik χ2 (X) = χ2 (N1 , N2 , . . . , Nr ), unter der Hypothese θ = π,
angenähert eine χ2 –Quadrat Verteilung mit r − 1 = Anzahl der möglichen Ausgänge −1
Freiheitsgraden besitzt.
Der χ2 –Anpassungstest: Sei α vorgegeben und hm die Dichte der χ2 –Quadrat Verteilung mit m Freiheitsgraden, m = 1, 2, 3, . . .. Man bestimmt dann die Zahl ηα so, dass
η
Rα
hr−1 (x)dx = 1 − α. Der χ2 –Quadrat Anpassungstest zum Niveau α lehnt die Hypothese
0
θ = π ab, falls χ2 (n1 , n2 , . . . , nr ) ≥ ηα , wobei n1 , n2 , . . . , nr die beobachteten Werte von
N1 , . . . , Nr sind.
Eine Anwendung
Es wird vermutet, dass bei Pferderennen auf einer kreisförmigen Rennbahn die Startpositionen einen Einfluss auf die Gewinnchancen hat. In n = 144 Rennen hatten die Sieger die
Startpositionen 1, 2, . . . , 8 = r mit den folgenden Häufigkeiten n1 = 29, n2 = 19, n3 = 18,
n4 = 25, n5 = 17, n6 = 10, n7 = 15, n8 = 11. Man teste die Hypothese, dass alle Positionen
die gleiche Siegwahrscheinlichkeit besitzen zum Niveau 0, 05.
Lösung:
θi sei die Siegwahrscheinlichkeit mit Start position i. Hier ist die Hypothese (θ1 , . . . , θ8 ) = ( 18 , . . . , 81 ). Die Anzahl der Freiheitsgrade beträgt 8 − 1 = 7. Aus einer Tabelle für die χ2 –Quadrat Verteilung liest man η0,05 = 14.07. Hier bekommt man
χ2 (29, 19, 18, 25, 17, 10, 15, 11) = 16, 333. Also lehnt der Test die Hypothese ab.
2.6
Der χ2 –Anpassungstest in einem komplizierteren Falle
Jemand hat 100 Messungen einer chemischen Grösse gemacht. Die Resultate seien
x1 , x2 , . . . , x100 . Da bei jeder Messung ein zufälliger Fehler auftritt, können die Zahlen
x1 , x2 , . . . , x100 als n100 Beobachtungen einer Zufallsgrösse X betrachtet werden. Wegen des
Zentralgrenzwertsatzes könnte man sich fragen, ob X eine Normalverteilung besitzt. Dies
wird unsere Hypothese H sein.
Ein mögliches Verfahren, um H zu testen:
30
1. Die Parameter µ und σ 2 , unter H, sind unbekannt. Als Schätzer für µ wählen wir
100
100
1 P
1 P
x̄100 := 100
xi und für σ 2 , s2100 := 100
(xi − x̄100 )2 .
i=1
i=1
2. Nehmen wir an, x̄100 = 37, 54, s100 = 2, 81.
3. Man wählt dann z.B. 5 Intervalle I1 , I2 , I3 , I4 , I5 um x̄100 aus und bezeichnet mit nk
die Anzahl der xi , die im k–ten Intervall fallen.
Die Situation sei die folgende:
Intervalle (Klassen)
beobachtete Häufigkeiten
I1 = [29, 5, 32, 5]
n1 = 4
I2 = [32, 5, 35, 5]
n2 = 17
I3 = [35, 5, 38, 5]
n3 = 43
I4 = [38, 5, 41, 5]
n4 = 29
I5 = [41, 5, 44, 5]
n5 = 7
4. Y sei N (x̄100 , s2100 ) = N (37, 54; (2, 81)2) verteilt und sei pi := P (Y ∈ Ii ), i =
1, 2, . . . , 5. Die, unter der Hypothese, erwarteten Häufigkeiten sind dann durch 100pi ,
i = 1, . . . , 5, gegeben.
Wir bekommen also die folgende Tabelle (siehe die Übungen für die Bestimmung der
pi !):
Intervalle
beobachtete Häufigkeiten
pi
erwartete Häufigkeiten
I1
4
0, 035
3, 5
I2
17
0, 196
19, 6
I3
43
0, 400
40, 0
I4
29
0, 288
28, 8
I5
7
0, 072
7, 2
Totale
100
1
100
5. Man lehnt die Hypothese ab, falls die Chiquadrat-Statistik X 2 :=
0, 648 zu gross ist:
5
P
i=1
Das vorgegebene Niveau sei α. Man bestimmt dann die Zahl ηα so, dass
(ni −100pi )2
100pi
η
Rα
=
h2 (x)dx =
0
1 − α und lehnt die Hypothese ab, falls 0, 648 ≥ ηα . Wenn α = 5 %, dann ist z.B.
η0,05 = 5, 99 und die Hypothese wird nicht abgelehnt.
Bemerkung: In diesem Beispiel ist die Anzahl der Freiheitsgrade = 5 − 1 − 2 =
Anzahl der Intervalle (Klassen) −1 − Anzahl der geschätzten Parameter (µ, σ 2 !).
31
2.7
Der χ2 –Test als Unabhängigkeitstest
Wenn man am Montag die Zeitungen liest, so hat man oft den Eindruck, am Wochenende (Sa,
So) sei der Anteil der Verkehrsunfälle mit tödlichem Ausgang, bezogen auf die Gesamtzahl
der Verkehrsunfälle, grösser als während der Woche.
Als Hypothese nehmen wir an, der Anteil mit tödlichem Ausgang sei vom Wochentag unabhängig. Zum Testen ziehen wir eine Verkehrsstatistik mit n = 1350 876 Unfällen heran.
Anzahl Verkehrsunfälle
mit tödlichem Ausgang
A
Anzahl Verkehrsunfälle
ohne tödlichen Ausgang
Ac
Totale
Wochenende
B
n11 = 20 808
n12 = 450 708
n1· = 480 516
Woche (Mo-Fr)
Bc
n21 = 40 680
n22 = 820 680
n2· = 870 360
Totale
n·1 = 70 488
n·2 = 1280 388
n = 1350 876
Es liegen hier also vier Klassen vor, die wir in einer sogenannten Vierfeldertafel (oder 2 × 2
Kontingenz-Tafel) dargestellt haben.
Das zugehörige statistische Modell
Beobachtet wurde ein Zufallsvektor (N11 , N12 , N21 , N22 ), wobei die Zufallsgrössen
N11 (N12 , N21 , N22 ) die totale Anzahl der Auftreten des Ereignisses
A ∩ B(Ac ∩ B, A ∩ B c , Ac ∩ B c ) darstellt (Ac bedeutet das Komplement von A!).
Nun seien θ11 = P (A∩B), θ12 = P (B ∩Ac ), θ21 = P (A∩B c ), θ22 = P (Ac ∩B c ), p1 = P (B),
q1 = P (B c ), p2 = P (A), q2 = P (Ac ). Alle diese Zahlen sind natürlich a priori unbekannt.
Mann könnte sie aber mit Hilfe der Kontingenz-Tafel schätzen.
Der χ2 –Test für Unabhängigkeit
Wäre die Hypothese richtig, dann würden die Ereignisse A, Ac , B, B c unabhängig sein. In
diesem Fall würde dann das folgende gelten:
θ11 = p1 p2 ,
θ12 = p1 q2 ,
θ21 = q1 p2 ,
θ22 = q1 q2 ,
(C und D sind unabhängig, falls P (C ∩ D) = P (C)P (D) !).
Beachte, dass p1 + q1 = 1, p2 + q2 = 1 gilt.
Statt vier Paramter zu schätzen, bleiben, unter der Hypothese, nur 2 zu schätzen, etwa p1
und p2 . Nach dem schwachen Gesetz der grossen Zahlen kann p1 (p2 ) durch die relative
12
21
Häufigkeit p̂1 : nn1· = n11 +N
(p̂2 : nn·1 = n11 +n
) geschätzt werden.
n
n
32
Die Idee ist jetzt die folgende: Man vergleicht die beobachteten Häufigkeiten (siehe Tafel)
nij mit den, unter der Hypothese, erwarteten Häufigkeiten
n̂11 := nn1· · nn·1 · n, n̂12 := nn1· 1 − nn1· n, n̂21 := nn·1 1 − nn1· n,
n̂22 := 1 −
n1·
n
1−
n·1
n
n.
Der χ2 –Test für Unabhängigkeit lehnt die Hypothese ab, falls
χ2 (n11 , n12 , n21 , n22 ) :=
(n11 − n̂11 )2
(n12 − n̂12 )2
(n21 − n̂21 )2
(n22 − n̂22 )2
+
+
+
n̂11
n̂12
n̂21
n̂22
zu gross ist.
Bestimmung des Ablehnungsbereichs:
Ersetzt man in der Definition der n̂ij die Grössen n1· , n·1 durch die Zufallsvariablen N1· ,
N·2 , dann bekommt man Zufallsgrössen N̂ij für die erwarteten Häufigkeiten.
Man kann dann zeigen, dass
χ2 (N11 , N12 , N21 , N22 ) :=
(N11 − N̂11 )2
N̂11
+
(N12 − N̂12 )2
N̂12
+
(N21 − N̂21 )2
N̂21
+
(N22 − N̂22 )2
N̂22
,
unter der Hypothese, angenähert eine χ2 –Verteilung mit ν = 4 − 1 − 2 = 1 = Anzahl von
Klassen −1− Anzahl der geschätzten Parameter (p1 und p2 !) besitzt. (Der Beweis ist nicht
so einfach!)
Zurück zum Beispiel
Die boebachteten Fälle liefern
χ2 (2808, 45708, 4680, 82680) = 10.43.
Als Niveau wähle man 5 %.
Analog wie im Beispiel 2.5 bestimmt man mit Hilfe einer Tabelle die Zahl η0,05 so, dass
η0,05
R
h1 (x)dx = 0, 95. Man bekommt in diesem Fall 3, 84.
0
Der χ2 –Test für Unabhängigkeit lehnt also zum Niveau 5 % die Hypothese ab, da
χ2 (2808, 45708, 4680, 82680) = 10, 43 > 3, 84.
2.7 Testen eines Mittelwertes bei unbekannter Varianz:
Der einseitige Student-Test
An einer Frauenklinik hat man während längerer Zeit das Geburtsgewicht der lebend und
reif geborenen Mädchen bestimmt und gemittelt. Das Resultat, 3200 g := µ0 , betrachtet
man als Erwartung.
Einige Jahre später, führen weitere Beobachtungen zur Vermutung, dass die Erwartung µ
nicht mehr 3200 g betrage, dass aber µ > µ0 .
Die Hypothese sei µ = µ0 und die Alternative µ > µ0 .
33
Um die Hypothese zu testen, will man bei den 25 nächsten Geburten von lebenden, reif
geborenen Mädchen das Gewicht messen.
Das zugehörige statistische Model:
Beobachtet wird der Zufallsvektor X = (X1 , . . . , X25 ), wobei Xi das Gewicht bei i–ter
Geburt ist. Man kann hier annehmen, dass die Zufallsgrössen Xi ’s, i.i.d. normal-verteilt
N (µ, σ 2 ) sind mit unbekannten Parametern µ, σ 2 .
Aus der Schätztheorie wissen wir, dass X̄25 :=
gute Schätzungen für µ und σ 2 sind.
Bemerkung
Die emprische Varianz ist Sn2 :=
1
25
25
P
i=1
1
25
1
24
2
Xi und V25
:=
25
P
i=1
25
P
i=1
(Xi − X̄25 )2 sehr
2
(Xi − X̄25 )2 . Für V25
hat man die
Summe der Quadrate durch 24 dividiert. Der Grund dafür ist die folgende
Behauptung
Unter der Hypothese µ = µ0 hat die Statistik T =
Student-Verteilung mit 24 Freiheitsgraden.
X̄25 − µ0
genau eine
V25 /5
(Darüber werden wir in den Übungen sprechen, aber nur für Mathematiker und Physiker!)
Wir bezeichnen mit fm die Dichte der Student-Verteilung mit m Freiheitsgraden (siehe
“Einführung in die Wahrscheinlichkeitstheorie”) und, für 0 < α < 1, mit tα,m die Zahl, für
tα,m
R
welche
fm (x)dx = 1 − α.
−∞
Die Idee: Der Test von Student (einseitig) lehnt die Hypothese ab, falls der beobachtete
Wert t von T zu gross ist.
Zurück zum Beispiel
Nehmen wir an, wir haben X1 = x1 , . . ., X25 = x25 beobachtet, und das folgende erhalten:
25
x̄25 − 3200
1 P
x2 = 3470 g, v25 = 408 g. Dann bekommen wir t =
x̄25 = 25
= 3, 31.
408/5
i=1
α sei 5 %.
Aus einer Tabelle für die Student-Verteilung liest man t0,05, 24 = 1, 711.
Folgerung: Der Student-Test lehnt die Hypothese ab, da 3, 31 > 1, 711.
Der Test ist sogar hoch signifikant, weil er auch zum Niveau 1 % ablehnt: t0,01,24 = 2, 492.
2.8
Beispiel 2.7: Fortsetzung.
Der zweiseitige Student-Test
Die Bezeichnungen sind dieselben, wie unter 2.7.
Die Hypothese ist wie oben, d.h. µ = µ0 = 3200 g. Wir betrachten aber jetzt als Alternative
t∗
α,m
R
∗
∗
K : µ 6= µ0 . Für 0 < α < 1 vorgegeben, sei tα,m die Zahl für welche
fm (x)dx = 1 − α.
−t∗
α,m
Definition
Der zweiseitige Student-Test für H gegen K ∗ lehnt die Hypothese zum Niveau α ab, falls
x̄25 − 3200
≥ t∗α, 24 ist .
|t| =
408/5
34
Wäre z.B. α = 5 %, dann würde man in einer Tabelle für die Student-Verteilung mit 24
Freiheitsgraden t∗0,05, 24 = 2, 06 finden. Da |t| = 3, 31, lehnt also der Student-Test die
Hypothese ab. Wie vorher würde der Test die Hypothese auch zum Niveau 1 %
(t∗0,01, 24 = 2, 80!) ablehnen.
2.9
Testen von zwei Mittelwerten bei unbekannter Varianz
Der einseitige (zweiseitige) Student-Test für zwei unabhängige Stichproben
Häufig stellt sich das Problem des qualitativen Vergleiches von zwei Methoden, z.B. des
Vergleiches von zwei Behandlungsmethoden A und B. Man hat dann zwei Reihen von Zufallsgrössen (Messungen) X1 , . . . , Xn1 (Methode A) und Y1 , . . . Yn2 (Methode B), die alle
unabhängig sind. Weiter nimmt man häufig an, X1 , . . . , Xn1 seien N (µ1 , σ12 )–verteilt und
Y1 , . . . , Yn2 seien N (µ2 , σ22 )–verteilt.
Wir wollen hier die Hypothese µ1 = µ2 gegen die Alternative K : µ2 > µ1 (einseitiger Fall)
oder die Hypothese µ1 = µ2 gegen die Alternative K ∗ : µ1 6= µ2 (zweiseitiger Fall) testen.
Im folgenden werden wir annehmen, dass σ12 = σ22 =: σ 2 ist.
(Den Fall, wo die Varianzen verschieden sind, werden wir in der Vorlesung kurz besprechen.)
Man definiere
n2
P
Xi , Ȳn2 := n12
Yj und
i=1
j=1
)
(
n1
n2
P
P
1
2
2
2
(Xi − X̄n1 ) +
(Yj − Ȳn2 ) .
= Vn := n1 +n2 −2
X̄n1 :=
Vn21 +n2
1
n1
n1
P
i=1
j=1
Dann kann man den folgenden Satz beweisen:
Satz (ohne Beweis)
Unter der Hypothese µ1 = µ2 besitzt die Statistik
T (X1 , . . . , Xn1 , Y1 , . . . , Yn2 ) :
eine Student-Verteilung mit n1 + n2 − 2 Graden.
X̄n1 − Ȳn2
q
Vn n11 + n12
tα,n und t∗α,m seien wie unter 2.7 und 2.8 definiert.
Definition
Wenn man X1 = x1 , . . . , Xn1 = xn1 , Y1 = y1 , . . . , Yn2 = yn2 beobachtet hat,
lehnt, zum Niveau α, der einseitige Student-Test (zweiseitige Student-Test) die Hypothese
ab, falls
T (x1 , . . . , xn1 , y1 , . . . , yn2 ) ≥ tα,n1 +n2 −2 |T (x1 , . . . , xn2 , y1 , . . . , yn2 )| ≥ t∗α,n1 +n2 −2
Beispiel
Schweinemast mit zwei verschiedenen Futtermitteln A und B. Beobachtet wurden bei 14 zufällig ausgewählten Schweinen die Gewichtszunahme (in kg) während einer
bestimmten Periode. Dabei waren 7 Schweine mit A gefüttert worden, die anderen mit B.
Hier sind die Resultate:
35
Gruppe A
Gruppe B
x
33,17
66,25
26,08
43,79
46,22
55,81
54,50
y
53,77
53,13
37,75
73,45
58,25
61,14
38,80
1
2
3
4
5
6
7
Dann bekommen wir
T (x1 , . . . , x7 , y1 , . . . , y7 ) = 1, 023 .
Wir haben hier 12 Freiheitsgrade für die Student-Verteilung. Aus einer Tabelle liest man,
für α = 5 %, t0,05, 12 = 1, 782. Also wird die Hypothese µ1 = µ2 gegen µ2 > µ1 nicht
abgelehnt. Für den zweiseitigen Fall (µ1 6= µ2 ) hat man t∗0,05, 12 = 2, 179. Also wird hier
auch die Hypothese nicht abgelehnt.
2.10 Ein anderer Test zum Vergleich von zwei Mittelwerten:
Der Wilcoxon-Test oder Mann-Whitney U –Test
Der Einfachheit halber betrachten wir dasselbe Problem und dasselbe Beispiel wie unter 2.9.
(Der Wilcoxon-Test ist für sehr allgemeine Situationen anwendbar. Man braucht z.B. nicht
wie beim Student-Test eine Normalverteilung für die Zufallsgrössen vorauszusetzen.)
Es werden also n = n1 + n2 unabhängige Zufallsgrössen X1 , . . . , Xn1 , Y1 , . . . , Yn2 mit den
Xi ’s i.i.d. N (µ1 , σ 2 ) verteilt und den Yj ’s i.i.d. N (µ2 , σ 2 ) verteilt, beobachtet.
Als Hypothese nehmen wir wie vorher µ1 = µ2 (es gibt also keinen Unterschied zwischen den
Futtermitteln A und B!) und als Alternativen, einmal K : µ2 > µ1 (einseitig) und einmal
K ∗ : µ1 6= µ2 (zweiseitig).
Das Verfahren
Man ordnet alle Xi , Yj gemeinsam der Grösse nach an. Jeder Zufallsgrösse ordnet man
dann ihren Rang in der gesamten Stichprobe zu.
Ri sei der Rang von Xi , i = 1, . . . , n1 .
Qj sei der Rang von Yj , j = 1, . . . , n2 ,.
Beachte: Die Ränge sind Zufallsgrössen.
U1 (U2 ) sei die Summe der Ränge der Xi (Yj ), also U1 :=
n1
P
i=1
Ri , U2 :=
n2
P
Qj .
j=1
Die Idee im einseitigen Fall (zweiseitigen Fall): Man lehnt die Hypothese ab, falls der
beobachtete Wert u2 von U2 zu gross ist (falls u2 zu gross oder zu klein ist).
Illustration anhand des Beispiels von 2.9.
36
Die geordnete Stichprobe sieht so aus:
x
26,08
x
33,17
y
37,71
y
38,80
x
43,79
x
46,22
y
53,13
y
53,77
x
54,50
x
55,81
y
58,25
y
61,14
x
66,25
y
73,45
Die Ränge der yj sind {3, 4, 7, 8, 11, 12, 14}.
Die Summe u2 dieser Ränge ist also u2 = 59.
Aus einer Tabelle für die Wilcoxon Statistik
liest man, für den einseitigen Fall, dass, unter
!
7
P
Qj ≥ 59 = 0, 22789 (siehe z.B. Lehmann “Nonparametrics”:
der Hypothese, PH U2 :=
j=1
Statistical methods based on ranks).
Der Wert α59 = 0, 22789 ist der sogenannte p–Wert, der im Abschnitt 2.1 erklärt wurde.
Wählt man α = 5 %, dann gilt α < α59 . Deshalb lehnt der Wilcoxon-Test die Hypothese
µ1 = µ2 nicht ab (siehe 2.1).
Auch im zweiseitigen Fall wird die Hypothese nicht abgelehnt.
Bemerkung
Für grosse Werte von n1 und n2 (siehe oben: Das Verfahren), normiert
n2
P
Qj so, dass, unter der Hypothese, eine Approximation durch die
man die Statistik U2 =
j=1
Standard-Normal-Verteilung möglich ist. (Siehe z.B. Lehmann “Nonparametrics”: Statistical methods based on ranks.)
2.11 Vergleich zweier unabhängiger binomial-verteilter Zufallsgrössen (siehe
Abschnitt 2.3)
Wir betrachten dieselbe Situation wie unter 2.3. Wie dort seien X, Y zwei unabhängige
binomial-verteilte Zufallsgrössen mit Parametern n1 , p1 bzw. n2 , p2 . Wie vorher sei die
Hypothese H: p1 = p2 = p, wobei p unbekannt ist.
Der χ2 –Test für die Hypothese H
Nehmen wir an, wir haben X = x und Y = y beobachtet. Die Resultate können wir in einer
Tafel zusammenfassen:
Anlage 1
Anlage 2
Totale
x
y
x+y
n1 − x
n2 − y
n1 + n2 − x − y
Total = n1
Total = n2
n = n1 + n2
Das Verfahren
1. Unter der Hypothese schätzt man p durch
x+y
n1 +n2
=: p̂.
37
2. Die erwartete Häufigkeit der fehlerhaften Stücke bei der Anlage 1 (Anlage 2) ist durch
x̂ := n1 p̂ (ŷ := n2 p̂) gegeben.
3. Die χ2 –Statistik ist dann
χ2 :=
(x − x̂)2
(y − ŷ)2
(n1 − x − (n1 − x̂))2
(n2 − y − (n2 − ŷ))2
+
+
+
.
x̂
ŷ
n1 − x̂
n2 − ŷ
4. Die Anzahl von Freiheitsgraden ist gleich v := 4 − 1 − 1 = 2 = Dimension der Tafel
−1−Anzahl der geschätzten Parameter (p!).
5. Sei 0 < α < 1 vorgegeben. Sei ηα die Zahl, für welche
η
Rα
0
6. Der χ2 –Test lehnt die Hypothese ab, falls χ2 ≥ ηα .
h2 (x)dx = 1 − α.
Beispiel (siehe 2.3)
n1 = 200, x = 5, n2 = 100, y = 10.
χ2 ist dann gleich 7.85 und η0,05 = 5, 9991.
Der χ2 –Test lehnt also die Hypothese ab.
Bemerkung Auf dieselbe Weise kann man den χ2 –Test benützen, um zwei unabhängige
multinomial-verteilte Zufallsgrössen zu vergleichen:
Beispiel Man würfelt mit einem Würfel A, n1 –mal und mit einem Würfel B, n2 –mal. Sei
PA ({i}) =: pi = Wahrscheinlichkeit bei einem Wurf mit A, i zu bekommen, i = 1, 2, . . . , 6.
qi := PB ({i}) sei analog definiert.
Frage Gilt pi = qi =: wi , i = 1, 2, . . . , 6, wobei die wi unbekannt sind? D.h. besitzen die
beiden Würfel dieselben probabilistischen Eigenschaften?
Das Verfahren, um die Hypothese H : pi = qi , ∀ i, zu testen:
Man definiere nk1 := Anzahl von k bei den n1 Würfen mit A und nk2 := Anzahl von k bei
den n2 Würfen mit B. Das sind die beobachteten Häufigkeiten, k = 1, 2, . . . , 6.
i2
Man schätzt, unter der Hypothese, wi durch ŵi : nni11 +n
+n2 , i = 1, . . . , 6. Die erwarteten
Häufigkeiten sind dann durch n̂k1 := n1 ŵk und n̂k2 := n2 ŵk gegeben, k = 1, 2, . . . , 6.
Die χ2 –Statistik ist dann definiert als
2
χ =
6
X
(ni1 − n̂i1 )2
i=1
n̂i1
+
6
X
(ni2 − n̂i2 )2
i=1
n̂i2
.
Die Anzahl von Freiheitsgraden ist gleich 12 − 1 − 5 = 6 = Dimension der Tafel (der nik ,
(i = 1, . . . , 6, k = 1, 2) −1− Anzahl der geschätzten Parameter (w1 , w2 , . . . , w5 !).
Der χ2 –Test lehnt die Hypothese zum Niveau α ab, falls χ2 ≥ ηα , wo ηα so ist, dass
η
Rα
h6 (x)dx = 1 − α .
0
Herunterladen