Vorlesung Einführung in die mathematische Statistik

Vorlesung
Einführung in die mathematische Statistik
Prof. A. Antille
Sommersemester 2004
Literatur
P.J. Bickel – K.A. Doksum, Mathematical Statistics: Basic Ideas and Selected
Topics (Holden-Day, 1977).
L. Breiman, Statistics: With a View Toward Applications (Houghton Mifflin,
1973).
B.L. van der Waerden, Mathematische Statistik (Grundlehren der math. Wissenschaften, Bd 87, Springer, 1971).
H. Witting, Mathematische Statistik (Teubner, 1966).
Inhalt
I. Vorbemerkungen, Statistische Modelle, Beispiele
II. Schätztheorie
§ 1 Einige Schätzmethoden
§ 2 Verlustfunktion, Güte einer Schätzung, Optimalitätseigenschaften
§ 3 Vertrauensgebiete
III. Testtheorie
§ 1 Testverfahren, Niveau, Macht, Lemma von Neyman–Pearson
§ 2 Einige wichtige Beispiele von Tests
2
I.
Vorbemerkungen, Statistische Modelle, Beispiele
Im Sprachgebrauch bedeutet “Statistik” die Sammlungen von Daten, welche für den Staat
wichtig sind: Steuerstatistik, Sterbestatistik, Arbeitslosenstatistik, Studentenstatistik etc.
Die mathematische Statistik hat mit Fragen dieser Art wenig oder nichts mehr zu tun.
Wesentliches Merkmal: Der Schritt vom Sammeln von Daten zum Schliessen aus Daten,
bzw. zum Führen von Entscheidungen nach Sichtungen von Daten.
Aufgabe der mathematischen Statistik ist es, mathematische Modelle zu entwickeln, die es
erlauben, aus zufälligen Beobachtungen Entscheidungen abzuleiten. Die wahre Verteilung
der beobachteten Zufallsgrösse ist unbekannt.
Sei X eine Teilmenge von Rn , A eine σ-Algebra von Teilmengen von X, Θ eine Teilmenge
von Rk .
Definition
Ein statistisches Modell ist ein Tripel X , A, (Pθ )θ∈Θ , wobei (Pθ )θ∈Θ eine
Familie von Wahrscheinlichkeiten ist.
Interpretation: Beobachtet wird eine Zufallsgrösse X mit Werten in X . Die Verteilung von
X ist unbekannt. Sie gehört aber der Familie (Pθ )θ∈Θ an. Aufgabe der Statistik ist es, auf
Grund einer Beobachtung von X, Entscheidungen über den wahren Wert von θ, d.h. über
die zugrundeliegende Verteilung von X, abzuleiten.
Θ heisst Parameterraum und X Beobachtungsraum oder Stichprobenraum.
Beispiel 1: Um die Qualität eines Heilverfahrens zu überprüfen, werde es auf n Personen
angewandt. Dabei handle es sich jeweils um unabhängige Wiederholungen ein- und desselben Experiments, wobei nur das Eintreten oder Nichteintreten von Heilerfolg (mit einer
Wahrscheinlichkeit θ, 0 ≤ θ ≤ 1) interessiert. Hier werden Zufallsgrössen X1 , X2 , . . . , Xn
verwendet, die nur zwei Werte annehmen können, nämlich 1 (für Erfolg) und 0 (für Nichterfolg) mit den Wahrscheinlichkeiten θ bzw. 1 − θ. Demgemäss liegt eine Zufallsgrösse
X := (X1 , . . . , Xn ) vor, wobei X1 , X2 , . . . ,Xn unabhängig sind. Das zugrundeliegende statistische Modell ist dann X , A, (Pθ )θ∈[0,1] , wobei
X = x := (x1 , x2 , . . . , xn ) : xi ∈ {0, 1} , A = P(X ) und
n
n
P
P
xi
n−
Pθ ({x}) = θi=1 (1 − θ)
xi
i=1
, ∀x ∈ X.
Typische Fragen: 1. Wie gross ist der wahre Wert von θ (Schätzproblem!) ?
2. Ist der wahre Wert grösser als (z.B.) 0,65 (Testproblem!) ?
Mögliche Entscheidungen für Frage 1: Alle Werte im Intervall [0, 1],
Mögliche Entscheidungen für Frage 2: Ja oder nein.
Beispiel 2: n Messungen einer Länge θ ergeben x1 , x2 , . . . , xn . Die Vorstellung ist die, dass
diese Werte so zustandekommen, dass zur wahren Länge θ ein jeweils unabhängiger zufälliger
Messfehler hinzukommt. Der Vektor x := (x1 , x2 , . . . , xn ) kann als als eine Beobachtung
eines Zufallsvektors X := (X1 , . . . , Xn ) interpretiert werden. Ferner gilt Xi = θ + Zi ,
3
i = 1, 2, . . . , n, wobei die Zufallsgrössen (zufällige Messfehler) Z1 , Z2 , . . . , Zn unabhängig
sind.
Typische Frage: Wie gross ist die Länge? (Schätzproblem!)
n
P
Falls E(Zi ) = 0, ist es üblich X̄n := n1
Xi , den Mittelwert der Beobachtungen X1 , . . . , Xn ,
i=1
als Schätzer zu nehmen. Für grosse Werte von n ist dieses Schätzverfahren (Entscheidungsverfahren), wegen der Gesetze der grossen Zahlen, sicher sinnvoll. Ob man es besser machen
kann, ist eine andere Frage.
Würde man die Zufallsgrössen Z1 , Z2 , . . . , Zn normalverteilt N (0, σ 2 ) (σ 2 bekannt) voraussetzen, wäre dann das zugrundeliegende statistische Modell: X , A, (Pθ )θ∈R , wobei X = Rn ,
n
2
n Z − P (xi −θ)
2σ2
1
i=1
dx1 dx2 . . . dxn ,
e
A = βRn = Borel’sche σ-Algebra und Pθ (A) = √
2πσ
A
∀ A ∈ A.
Beispiel 3:
(Schätzproblem)
X1 , X2 , . . . , Xn seien wie im Beispiel 1. Würde man nur X :=
A = P(X ),
Xi beobachten, dann
i=1
wäre das zugrundeliegende Modell:
(X , A, (Pθ )θ∈[0,1] ,
n
P
wobei X = {0, 1, . . . , n},
Pθ ({x}) =
(X ist B(n, θ) verteilt!).
x
θ (1 − θ)n−x , ∀ x ∈ X
n
x
Beispiel 4: (Schätzproblem)
Eine “unendlich grosse” Urne enthält θ (unbekannt) Kugeln. Die Kugeln seien von 1 bis θ
durchnumeriert. n Kugeln werden der Reihe nach zufällig (mit Zurücklegen) ausgewählt.
X := (X1 , . . . , Xn ) sei der Vektor der beobachteten Nummer. Das entsprechende Modell ist
dann X , A, (Pθ )θ∈{1,2,...,} , wobei
X = {x := (x1 , . . . , xn ) : xi ∈ {1, 2, 3, . . .}} , A = P(X )
und Pθ ({x}) = θ1n , ∀ x ∈ X mit xi ∈ {1, 2, . . . , θ}.
Gesucht ist eine Schätzung für die Anzahl der Kugeln.
n sei gross. Was meinen Sie über die zwei folgenden Vorschläge?:
1. T (X1 ,2 , . . . , Xn ) := max{X1 , X2 , . . . , Xn },
2. S(X1 , X2 , . . . , Xn ) := 2X̄n − 1, wobei X̄n :=
n
1X
Xi .
n i=1
Begründung für den zweiten Vorschlag:
Die Zufallsgrössen X1 , . . . , Xn sind i.i.d. Also ist X̄n ≈ E(X1 ) =
der grossen Zahlen und somit θ ≈ 2X̄n − 1.
θ+1
wegen der Gesetze
2
4
Beispiel 5: (Testproblem)
Ein Angler fängt in seinem gewohnten Teich an einem Nachmittag durchschnittlich 6 Fische.
Ein Freund überredet ihn, in einem anderen Teich zu angeln. Dort fängt er aber in der
gleichen Zeit nur 4 Fische. Lohnt es sich für ihn, wenigstens noch einmal einen Versuch mit
dem zweiten Teich zu machen?
Für diese Situation können wir folgendes mathematische Modell betrachten: Sei X die, beim
zweiten Versuch, Anzahl der gefangenen Fische.
Teich 1: X ist Poisson-verteilt mit Parameter λ1 = 6,
Teich 2: X ist Poisson-verteilt, aber mit unbekanntem λ2 .
Das statistische Problem liegt gerade darin, dass λ2 unbekannt ist. Wenn λ2 bekannt wäre,
wüsste der Angler, wohin er nächsten Sonntag geht. Bekannt ist aber nur der Beobachtungswert X = 4, das von verschiedenen λ herrühren kann.
Wir werden später sehen (III), dass sich dieses Problem als Testproblem deuten lässt.
Ein Testproblem ist folgendermassen beschaffen: Es soll eine Entscheidung zwischen zwei
Möglichkeiten getroffen werden.
Beispiel 6: (Vertrauensintervalle)
X sei wie im Beispiel 2. Als Schätzer für die Länge haben wir X̄n erwähnt. X̄n ist eine
Zufallsgrösse. In der Praxis ist aber die Wahrscheinlichkeit Null, dass X̄n den wahren Wert
liefert. Für grosse Werte von n weiss man nur, dass der wahre Wert in der Nähe von X̄n
liegt. Um ein Gefühl für die Güte von X̄n zu haben, könnte man so verfahren: Man gibt sich
eine Zahl β in der Nähe von 1 vor, z.B. β = 0, 99. Dann sucht man ein um X̄n symmetrisches
Intervall I(X), das den wahren Wert mit einer Wahrscheinlichkeit = 0, 99 enthält (falls ein
Intervall überhaupt existiert!). Ein solches Intervall heisst Vertrauensintervall vom Niveau
0, 99. Je “kleiner” I(X), desto besser ist der Schätzer X̄n . Vertrauensintervalle werden wir
im Kapitel II, § 3 besprechen.
II
Schätztheorie
§ 1
Einige Schätzmethoden
X1 , X2 , . . . , Xn seien i.i.d. reelle diskrete Zufallsgrössen (d.h. mit Werten in einer abzählbaren
Teilmenge E = {e1 , e2 , . . .}) oder Zufallsgrössen mit einer Dichte. Beobachtet wird der Zufallsvektor X := (X1 , . . . , Xn ). Die Verteilung von X gehöre einer Familie (Pθ )θ∈Θ⊆Rk von
Wahrscheinlichkeiten an. mk (θ) sei der k–te Moment von X1 unter Pθ , d.h.
i) mk (θ) :=
∞
P
i=1
ii) mk (θ) :=
R
eki Pθ (X1 = ei ) falls
xk gθ (x)dx (falls
R
∞
P
i=1
|ei |k Pθ (X1 = ei ) < ∞) im diskreten Fall und
|x|k gθ (x)dx < ∞) im Falle, wo X1 die Dichte gθ besitzt.
Die Verteilung von X ist unbekannt und wir möchten sie schätzen. Da die Verteilung durch
den Parameter θ eindeutig bestimmt ist, besteht die Aufgabe darin, dass man den wahren
Wert θ0 von θ schätzt.
5
1.1.
Die Methode der Momente
Nehmen wir nun an, dass q(θ) = h m1 (θ), . . . , mr (θ) , wobei h eine stetige Funktion ist.
Methode der Momente: Als Schätzer für q(θ0 ) wählt man Tn (X) := h M1 (X), . . . , Mr (X) ,
n
P
wo Mk (X) := n1
Xik , d.h. man ersetzt in der Funktion h die Momente mk (θ) durch die
i=1
sogenannten empirischen Momente Mk (X).
Dieses Schätzverfahren beruht auf den starken Gesetzen der grossen Zahlen: Falls mi (θ0 )
f.s.
existiert, gilt Mi (X) = Mi (X1 , . . . , Xn ) −→ mi (θ0 ) und wegen der Stetigkeit von h,
n→∞
f.s.
Tn (X) −→ h m1 (θ0 ), . . . , mr (θ0 ) = q(θ0 ) .
n→∞
Beispiel 1: X1 , X2 , . . . , Xn seien i.i.d. mit einer Normalverteilung
N (µ, σ 2 ). Hier ist
2
2
θ := (µ, σ ) ∈ Θ = R × R+ . Da θ = m1 (θ), m2 (θ) − m1 (θ) , bekommen wir als Schätzer
für θ,
n
1X
Tn (X1 , X2 , . . . , Xn ) = M1 (X), M2 (X) − M12 (X) = X̄n ,
(Xi − X̄n )2 ,
n i=1
n
wobei X̄n :=
1X
Xi .
n
!‘=1
Beachte:
1
n
n
X
i=1
n
Xi2 − (X̄n )2 =
1X
(Xi − X̄n )2 .
n i=1
Beispiel 2: X1 , . . . , Xn seien wie im Kapitel I, Beispiel 1. Die Methode liefert der Schätzer
Tn (X) = X̄n , denn θ = m1 (θ).
Wäre die Grösse ψ(θ) := θ(1 − θ) relevant, könnte man Sn (X) := Tn (X) 1 − Tn (X) =
X̄n (1 − X̄n ) als Schätzer von ψ(θ) vorschlagen.
2
Bemerkung: ψ(θ) = Varθ (X1 ) = Eθ (X12 ) − Eθ (X1 ) = m2 (θ) − m21 (θ).
n
1X
Also ist Tn (X) = M2 (X) − M12 (X) =
(Xi − X̄n )2 .
n i=1
Beispiel 3:
X1 , X2 , . . . , Xn seien wie im Kapitel I, Beispiel 2.
θ i
P
θ(θ + 1)
θ+1
=
=
. Also ist θ = 2m1 (θ) − 1. Die Methode der
2θ
2
i=1 θ
Momente liefert dann den Schätzer
Es gilt Eθ (X1 ) =
S(X1 , . . . , Xn ) := 2M1 (X) − 1 = 2X̄n − 1.
Beachte: Die Schätzung S(X1 , . . . , Xn ) ist sinnlos, wenn 2X̄n − 1 < max{X1 , . . . , Xn }.
6
1.2.
Die Maximum–Likelihood Methode
A. Diskreter Fall:
X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Werten in E = {x1 , x2 , . . .} und möglichen
Wahrscheinlichkeiten Pθ ({xi }), θ ∈ Θ ⊆ Rk (statistisches Modell!)
Die Maximum–Likelihood Methode:
Als Schätzer für θ wählt man den (einen) Wert θ̂n so, dass
L(X1 , X2 , . . . , Xn ; θ̂n ) = maxL(X1 , X2 , . . . , Xn , θ),
θ∈Θ
wobei
L(x1 , . . . , xn ; θ) := Pθ ({x1 }) . . . Pθ ({xn }), ∀(x1 , . . . , xn ) ∈ E n := E
. . × E} .
| × .{z
n−mal
Begründung: Wenn X1 = x1 , . . . , Xn = xn beobachtet wurden, ist die Wahrscheinlichkeit dafür
Pθ ({x1 }) · Pθ ({x2 }) . . . · Pθ ({xn }) = L(x1 , x2 , . . . , xn ; θ).
Falls dieser Wert sehr klein ist bei einem θ, ist die Beobachtung unwahrscheinlich. Die
Methode besteht darin, dass man als Schätzer denjenigen Wert θ̂n wählt, für welchen
die Beobachtung am wahrscheinlichsten ist.
Beispiel 1: X1 , X2 , . . . , Xn seien wie im Kapitel I, Beispiel 1. In diesem Fall ist
E = {0, 1}. Ferner gilt
n
P
xi
n−
L(x1 , . . . , xn ; θ) = θi=1 (1 − θ)
n
P
i=1
xi
, ∀ x = (x1 , . . . , xn ) ∈ E n .
Gesucht ist nun der Wert θ̂n , für welchen L(x1 , . . . , xn ; θ) maximal wird:
L(x1 , . . . , xn ; θ) maximal ⇐⇒ ln L(x1 , . . . , xn ; θ) maximal.
Eine notwendige Bedingung dafür ist:
n
n
n
n
X
X
X
X
d ln(θ)
d ln(1 − θ)
1
1
d ln(L)
=(
xi )
+ (n −
xi )
=(
xi ) − (n −
xi )
= 0.
dθ
dθ
dθ
θ
1
−
θ
i=1
i=1
i=1
i=1
Der Maximum-Likelihood Schätzer ist also θ̂n = X̄n .
Beispiel 2: X1 , X2 , . . . , Xn seien wie im Kapitel I, Beispiel 4. Mit E = {1, 2, . . .}
1
gilt Pθ ({x}) = n für alle x = (x1 , . . . , xn ) ∈ E n , falls max{x1 , . . . , xn } ≤ θ und
θ
Pθ ({x}) = 0 sonst. Somit ist der Maximum-Likelihood Schätzer θ̂n = max{X1 , . . . , Xn }.
B. Der Fall mit einer Dichte
X1 , X2 , . . . , Xn seien i.i.d. reelle Zufallsgrössen mit einer Dichte gθ , wo θ ∈ Θ ⊆ Rk .
Man definiert L als
L(x1 , . . . , xn ; θ) =
n
Y
i=1
gθ (xi ), ∀ x = (x1 , . . . , xn ) ∈ Rn .
7
Maximum-Likelihood Methode: Man wählt denjenigen Wert θ̂n , für welchen L(X1 , . . . , Xn ; θ)
maximal wird.
Beispiel 1: X1 , . . . , Xn seien i.i.d. und normalverteilt N (µ, σ 2 ) mit θ := (µ, σ 2 ) ∈
R × R+ . In diesem Fall ist
L(x1 , x2 , . . . , xn ; θ) =
1
√
2πσ
2
e
−
n
P
(xi −µ)2
2σ2
i=1
.
Gesucht ist der maximale Wert von L (als Funktion von θ): L maximal ⇐⇒ ln(L)
maximal. Eine notwendige Bedingung dafür ist:
∂
ln(L) = 0,
∂µ
∂
b)
ln(L) = 0.
∂σ
a)
Eine einfache Rechnung (siehe Übungen) liefert dann die Lösungen µ̂n = x̄n , σ̂ 2 =
P
1
(xi − x̄n )2 . Der Maximum-Likelihood Schätzer θ̂n ist also
n
!
n
1X
2
θ̂n = X̄n ,
(Xi − X̄n ) .
n i=1
Bemerkung: Man sollte noch verifizieren, dass an der Stelle θ̂n , L(X1 , . . . , Xn ; θ) den
maximalen Wert annimmt. Dies ist aber trivial. (Warum?)
Beispiel 2: X1 , . . . , Xn seien i.i.d. mit der Dichte gθ := 12 e−|x−θ|, θ ∈ R.
n
P
n
1 − i=1 |xi −θ|
1 Y −|xi −θ|
L(x1 , . . . , xn ; θ) = n
e
= ne
.
2 i=1
2
Der Maximum-Likelihood Schätzer ist also der Wert θ̂n , für welchen die Summe
n
P
|Xi − θ| minimal wird, den sogenannten Zentralwert oder Median (siehe Übungen).
i=1
Dieses Beispiel zeigt, dass der Maximum-Likelihood Schätzer nicht immer eindeutig
bestimmt ist (n gerade!).
Bemerkungen: Wie die Methode der Momente (siehe 1.1., Beispiel 3, oben), kann die
Maximum-Likelihood Methode zu unvernünftigen Schätzungen führen: X1 , X2 , . . . , Xn ,
Y1 , Y2 , . . . , Yn seien unabhängige reelle Zufallsgrössen, wobei Xk , Yk , normalverteilt
N (µk , σ 2 ) sind, k = 1, . . . , n (µk , σ 2 , unbekannt). Als Schätzer für µk , σ 2 bekommen
wir
n
1 X
Xk + Yk
(Xk − Yk )2 .
, k = 1, 2, . . . , n und σ̂n2 =
µ̂k =
2
4n
k=1
2
Eσ0 (Xk − Yk ) =
2σ02 ,
wobei
σ02
2
der wahre Wert von σ ist. Wegen der Gesetze der
σ2
grossen Zahlen konvergiert aber σ̂n2 fast sicher gegen 0 .
2
8
1.3.
Die Methode der kleinsten Quadrate
Oft stellt sich das Problem, eine Gerade, Parabel oder eine andere “einfache” Funktion einer
gegebenen Menge von Messwerten anzupassen. Z.B. kann in Abhängigkeit von einer Grösse
x eine Grösse y gemessen worden sein, und nun liegen n Messpunkte (x1 , y1 ), . . . , (xn , yn )
vor. Wenn diese Punkte relativ gut auf einer Geraden liegen, kann man einen linearen
Zusammenhang der beobachteten Grössen vermuten, der nur durch Messfehler zi gestört
ist. Dann wäre yi = α + βxi + zi (i = 1, . . . , n).
In anderen Fällen könnte etwa aus Naturgesetzen ein Ansatz yi = α + βxi + γx2i + zi geboten
sein, in dem nur noch α, β, γ unbekannt sind.
Allgemeiner nehmen wir an, θ1 , . . . , θp seien unbekannte Parameter, und für bekannte Funktionen ϕi sei δi = ϕi (θ1 , . . . , θp ) (i = 1, . . . , n) der wahre zu messende Wert bei der i–ten
Messung und yi = δi + zi der tatsächlich beobachtete Wert, also zi der Messfehler. Im
Beispiel der Geraden wäre θ1 = α, θ2 = β und ϕi (θ1 , θ2 ) = θ1 + θ2 xi .
Man fragt, welche Parameter am besten zu den yi passen.
Methode der kleinsten Quadrate: Die Methode besagt, man solle die θk so bestimmen, dass
n
P
Q :=
(yi − δi )2 minimal wird. Dies ist als ad hoc Ansatz ohne jede Statistik formulierbar
i=1
und wird oft angewandt.
In dieser Vorlesung nehmen wir an, dass die zi Realisierungen von Zufallsgrössen Zi sind,
wobei die Zi unabhängig sind mit E(Zi ) = 0, ∀ i. So ist y = (y1 , . . . , yn ) die Realisierung
von Y = (Y1 , Y2 , . . . , Yn ) mit Yi = δi + Zi .
Das allgemeine lineare Regressionsmodell
Definition: Das Regressionsmodell Yi = ϕi (θ1 , . . . , θp ) + Zi , i = 1, . . . , n, heisst linear,
falls sich ϕi (θ1 , . . . , θp ) schreiben lässt als
ϕi (θ1 , . . . , θp ) =
p
X
xij θj
mit bekannten Zahlen xij .
j=1
In Matrixschreibweise lässt sich das lineare Modell so darstellen:
Y = Xθ + Z,
wobei Y = (Y1 , . . . , Yn )T ,
θ = (θ1 , . . . , θp )T
(C T bedeudet die transponierte Matrix). X = (xij ) ist die bekannte n × p Matrix.
Beachte: Die Methode der kleinsten Quadrate besteht darin, dass man den (einen) Wert θ̂
sucht, für welchen Q(θ̂) = minp Q(θ) mit
θ∈R
Q(θ) := kY − Xθk2 :=
(Euklidische Norm des Vektors Y − Xθ).
n
X
i=1

Yi −
p
X
j=1
2
xij θj 
9
Satz:
Wenn p ≤ n und Rang(X) = p, dann ist θ̂ die einzige Lösung des Gleichungssystems
(X T X)θ = X T Y
(Normalgleichungen).
Die Lösung lässt sich also explizit schreiben als
θ̂ = (X T X)−1 X T Y.
Beweis. Für i = 1, 2, . . . , p, bezeichne αi (∈ Rn ) den i–ten Spaltenvektor der Matrix X. Mit
p
P
η := Xθ gilt Y = η + Z =
θi αi + Z. Vp sei der durch die Vektoren α1 , . . . , αp gespannte
Unterraum von Rn , d.h.
i=1
Vp =
Die Dimension von Vp ist gleich p.
(
p
X
i=1
)
λi αi : λi ∈ R, ∀ i .
η̂ sei die orthogonale Projektion von Y auf Vp . Dann gilt kY − η̂k2 = min kY − ηk2 . Da
η∈Vp
η̂ ∈ Vp , gibt es eindeutig bestimmte Zahlen θ̂1 , θ̂2 , . . . , θ̂p so, dass
η̂ =
p
X
θ̂i αi .
i=1
Diese Zahlen sind die einzigen Lösungen der Normalgleichungen, denn
αTi (Y − η̂) = αTi (Y − X θ̂) = 0 für i = 1, 2, . . . , p (η̂ ist die orthogonale Projektion) ⇐⇒
X T (Y − X θ̂) = 0 ⇐⇒ X T Y = X T X θ̂
Bemerkung: Um den Wert θ̂ zu bestimmen, hätten wir auch die partiellen Ableitungen von Q(θ) nach θ1 , . . . , θp Null setzen können. Die so erhaltenen Gleichungen sind die
Normalgleichungen.
– Ein Beispiel wird in der Vorlesung angegeben.
10
§2
Verlustfunktion, Güte einer Schätzung, Optimalitätseigenschaften
Wie im § 1 wird in diesem Abschnitt ein Zufallsvektor X = (X1 , . . . , Xn ) beobachtet, wobei
die {Xj } i.i.d. mit Verteilung (Pθ )θ∈Θ⊆Rk . Zu schätzen ist der unbekannte Parameter θ
oder eine reelle bekannte Funktion h von θ. X , A, (Pθ )θ∈Θ bezeichne das zugrundeliegende
statistische Modell.
2.1
Verlustfunktion, Güte einer Schätzung
Definitionen
Eine Schätzfunktion oder kurz eine Schätzung für h(θ) ist eine Abbildung
von X in h(Θ), wobei h(Θ) := {h(θ): θ ∈ Θ}.
δ sei eine Schätzung für h(θ). Ihre Risikofunktion R(θ, δ) ist definiert als R(θ, δ) := Eθ δ(X)−
2
h(θ) , θ ∈ Θ.
δ heisst erwartungstreu oder biasfrei, falls Eθ δ(X) = h(θ), ∀ θ ∈ Θ.
δ(X) = δ(X1 , . . . , Xn ) =: δn (X) heisst konsistent, falls Pθ |δn (X) − h(θ)| > ε −→ 0, d.h.
n→∞
P
θ
falls δn (X) −→
h(θ), ∀ θ ∈ Θ.
n→∞
Die Funktion L(u, t) := (u − t)2 , u, t ∈ h(Θ) heisst Verlustfunktion. Die Risikofunktion ist
also nichts anderes als R(δ, θ) = Eθ L(δ(X), h(θ)) , d.h. R(δ, θ) ist der erwartete Verlust.
Spieltheoretische Interpretation von statistischen Entscheidungsproblemen
Der Spieler Nr. I sei der “Statistiker”;
der Spieler Nr. II sei die “Natur”.
Die Natur wählt einen Zustand h(θ) mit θ ∈ Θ.
Der Statistiker wählt eine Strategie, d.h. eine Schätzfunktion δ.
Wird X = x beobachtet, dann wird die Entscheidung δ(x) getroffen. Der Statistiker verliert
dann die Summe L δ(x), h(θ) .
Die Risikofunktion R(δ, θ) ist also der erwartete Verlust, wenn
δ die Strategie des ersten
Spielers ist, und wenn der zweite Spieler den Zustand θ h(θ) wählt.
Bemerkung:
R(δ, θ) ist ein Mass für die Güte der Schätzung δ. Je kleiner R(δ, θ), desto
besser ist die Strategie δ.
δ1 , δ2 seien zwei Schätzer für h(θ).
Definitionen:
δ1 ist besser als δ2 an der Stelle θ, falls R(δ1 , θ) < R(δ2 , θ).
δ1 ist überall besser als δ2 , falls R(δ1 , θ) < R(δ2 , θ) für alle θ ∈ Θ.
δ1 ist zulässig, falls kein δ existiert, so dass R(δ, θ) ≤ R(δ1 , θ), ∀ θ mit R(δ, θ) < R(δ, θ) für
mindestens ein Element von Θ.
11
δ ∗ heisst minimax, falls sup R(δ ∗ , θ) = min sup R(δ, θ).
θ∈Θ
δ
θ∈Θ
Beachte: Falls δ erwartungstreu für h(θ) ist, gilt
2
R(δ, θ) = Eθ δ(X) − h(θ) = Varθ ( δ(X) .
Beispiele:
1. Beispiel 1, II.1.1.
Ist h(θ) = h(µ, σ 2 ) = µ, haben wir den Schätzer δ(X) = X n :=
δ ist erwartungstreu und R(δ, θ) = Varθ ( δ(X) =
1
n2
n
P
i=1
1
n
P
Xi vorgeschlagen.
i=1
Varθ (Xi ) =
1 2
nσ .
Nach dem
schwachen Gesetz der grossen Zahl ist δn (X) = δ(X1 , . . . , Xn ) konsistent.
2. Beispiel 2, II.1.1.
δ(X) = X n ist eine erwartungstreue Schätzung für die unbekannte Wahrscheinlichkeit
θ. In diesem Fall gilt R(δ, θ) = Varθ (X n ) = n1 Varθ (X1 ) = n1 θ(1 − θ). Die Schätzung
X n ist konsistent.
3. Beobachtet wird der Zufallsvektor X = (X1 , . . . , Xn ), wobei X1 , . . . , Xn , i.i.d. Zufallsgrössen mit gleichförmiger Verteilung auf dem Intervall [0, θ], θ > 0. Die MaximumLikelihood Methode liefert den Schätzer T (X) = max(X1 , X2 , . . . , Xn ). Wir betrachten die folgenden erwartungstreuen Schätzer für θ: δ1 (X) := n+1
n T (X), δ2 (X) := 2X n .
In den Übungen wird man zeigen, dass
Varθ δ1 (X) =
θ2
n(n + 2)
und
δ1 ist also immer eine bessere Strategie als δ2 .
θ2
Varθ δ2 (X) =
.
3·n
Bemerkung 1:
Man kann zeigen, dass δ1 unter allen biasfreien Schätzungen (für θ)
diejenige ist, die überall die kleinste Varianz hat.
Bemerkung 2:
Wir werden später zeigen, dass δ(X) im ersten Beispiel 1 unter allen
erwartungstreuen Schätzungen überall die kleinste Varianz hat.
Bemerkung 3:
In den Beispielen 1 und 2 besitzt der Schätzer X n wegen des Zentralgrenzwertsatzes die folgende Eigenschaft:
√
n(X n − µ)
Beispiel 1: Pθ a <
< b −→ Φ(b) − Φ(a), ∀ a, b,
n→∞
σ
!
√
n(X n − θ)
< b −→ Φ(b)−Φ(a), ∀ a, b und 0 < θ < 1.
Beispiel 2: Pθ a < p
n→∞
θ(1 − θ)
12
Die Fisher Information
X sei eine Zufallsgrösse mit Werten in E := {e1 , e2 , . . .} ⊆ Rn (diskreter Fall) oder ein
Zufallsvektor mit einer Dichte.
Im diskreten Fall sei das statistische Modell (E, P(E), (Pθ )θ∈Θ⊆R ) und wenn eine Dichte
existiert (Rn , βRn , (pθ )θ∈Θ⊆R ), wobei Pθ ({ei }) := Pθ (X = ei ), i = 1, 2, . . . und pθ (x), x ∈ Rn
dPθ
∂
die Dichte ist. Sehr oft existieren
und
pθ (x). Nehmen wir an, es sei der Fall. Dann
dθ
∂θ
können wir die sogenannte Fisher Information definieren:
Definition:
(Fisher Information)
1. I(Pθ ) :=
∞
X
i=1
2. I(pθ ) :=
"
Z "
#2
dPθ
dθ ({ei })
Pθ ({ei })
∂
∂θ (pθ (x))
pθ (x)
#2
Pθ ({ei }) (diskreter Fall),
pθ (x)dx .
Diese Grössen werden im folgenden Abschnitt eine wichtige Rolle spielen (siehe Cramer-Rao
Ungleichung, unten).
Beispiele (für die Beweise siehe die Übungen)
i) X habe die Dichte pθ (x) =
I(pθ ) =
1
.
nσ 2
1
√
2πδ
n
e−
P
(xi −θ)2
2σ2
(σ 2 bekannt). Dann gilt
n
P
xi
e−nθ θi=1
, (x1 , x2 , . . . , xn ) ∈ {0, 1, 2, . . .}n ,
ii) X habe die Verteilung Pθ {(x1 , x2 , . . . , xn )} =
x1 !x2 ! . . . xn !
n
θ > 0. Dann gilt I(Pθ ) = .
θ
n
n
P
P
n−
xi
xi
iii) Falls X die Verteilung Pθ {(x1 , . . . , xn )} = θi=1 (1 − θ) i=1 mit
n
.
(x1 , . . . , xn ) ∈ {0, 1}n und 0 < θ < 1 besitzt, dann gilt I(Pθ ) =
θ(1 − θ)
13
2.2.
Die Cramer-Rao Ungleichung
(x)
X sei ein Zufallsvektor mit Werten in Rn . Die Dichte von X gehöre einer Familie {pθ }θ∈Θ
von Dichten an, wobei Θ eine offene Teilmenge von Rk ist. Zu schätzen ist eine reelle
Funktion h(θ).
Satz 1: (Cramer-Rao
Ungleichung) T (X) sei eine biasfreie Schätzung für h(θ) mit
Eθ T 2 (X) < ∞, ∀ θ ∈ Θ.
Voraussetzungen:
1. Aθ := {x : pθ (x) > 0} hängt nicht von θ ab.
2. Die Dichte pθ (x) ist für alle x nach θ differenzierbar
Z pθ+∆ (x) − pθ (x) p0θ (x)
−
∆pθ (x)
pθ (x)
2
∂
p0θ (x) :=
pθ (x) und es gilt
∂θ
pθ (x)dx −→ 0, ∀ θ ∈ Θ,
∆→0
3. 0 < I(pθ ) < ∞, ∀ θ ∈ Θ.
4. Man darf immer unter dem Integralzeichen ableiten.
Behauptung: R(θ, T ) := Eθ
h
2 i
(h0 (θ))2
.
T (X) − h(θ)
= Varθ T (X) ≥
I(pθ )
Beweis: Da T (X) biasfrei ist, gilt für alle reelle Zahlen a,
(1)
(2)
Z
Z
T (x) − a pθ+∆ (x)dx = h(θ + ∆) − a und
T (x) − a pθ (x)dx = h(θ) − a .
Indem man (2) von (1) substrahiert, erhält man
(3)
Z
T (x) − a pθ+∆ (x) − pθ (x) dx = h(θ + ∆) − h(θ).
Wegen Voraussetzung 1. gilt dann
(4)
Z
T (x) − a
pθ+∆(x) − pθ (x)
∆pθ (x)
pθ (x)dx =
h(θ + ∆) − h(θ)
, ∀ ∆ 6= 0.
∆
Ersetzt man in (4) a durch h(θ), dann erhält man (Schwarz’sche Ungleichung)
(5)
h(θ + ∆) − h(θ)
∆
2
≤ Varθ T (X) ·
Z pθ+∆ (x) − pθ (x)
∆pθ (x)
2
pθ (x)dx, ∀ ∆ 6= 0.
Lässt man ∆ gegen 0 streben, bekommen wir (wegen Voraussetzungen 2. und 3.)
14
2
(6) h0 (θ) ≤ Varθ T (X) I(pθ ) :
2
Z p0θ (x)
w∆ (x) −
pθ (x)dx −→ 0.
∆→0
pθ (x)
Z
2
Daraus folgt, dass {w∆ } eine Cauchy-Folge ist, d.h.
0.
w∆ (x)−w∆0 (x) pθ (x)dx −→
∆,∆0 →0
Z
0
h(θ + ∆) − h(θ) h(θ + ∆ ) − h(θ)
−
,
Da
T (x) − h(θ) w∆ (x) − w∆0 (x) pθ (x)dx =
∆
∆0
gilt dann
Z
h(θ + ∆) − h(θ) h(θ + ∆0 ) − h(θ) 2
2
−
≤ Varθ T (X) ·
0.
w∆ (x)−w∆0 (x) pθ (x)dx −→
∆,∆0 →0
∆
∆0
h(θ + ∆) − h(θ)
ist also eine Cauchy-Folge. Da R vollständig ist, konvergiert dann
∆
h(θ + ∆) − h(θ)
. Der Limes ist natürlich h0 (θ).
die Folge
∆
pθ+∆ (x) − pθ (x)
Wegen 2. gilt mit w∆ (x) :=
,
∆pθ (x)
Beachte: Voraussetzung 4. haben wir im Beweis nicht benützt. Wir werden sie aber
brauchen, um den folgenden Satz zu beweisen:
Satz 2:
X = (X1 , . . . , Xn ) sei ein Zufallsvektor, wobei die {Xj } i.i.d. sind mit Dichte (gθ )θ∈Θ⊆R
. Wie oben, sei h(θ) zu schätzen. T (X) sei ein biasfreier Schätzer mit
Eθ T 2 (X) < ∞.
Behauptung: Falls die Familie {gθ } die Voraussetzungen vom Satz 1 erfüllt, so ist das
auch der Fall für die Dichten pθ des Vektors X.
Ferner gilt: I(pθ ) = n I(gθ ) und somit
2
h0 (θ)
Varθ T (X) ≥
.
n I(gθ )
Beweis: Wir zeigen nur, dass I(pθ ) = n I(gθ ) :
I(pθ )
=
Z = E
p0θ (x)
pθ (x)
2
pθ (x)dx =
n
h X
g 0 (Xi )
θ
!2
i
=
Z
n
X
n
X
g 0 (xi )
θ
i=1
E
"
gθ (xi )
!2
gθ0 (Xi )
gθ (Xi )
n
Y
gθ (xi )dx1 dx2 . . . dxn
i=1
2 #
+
X
E
gθ0 (Xi ) gθ0 (Xj )
·
gθ (Xi ) gθ (Xj )
gθ (Xi )
i=1
i6=j
0
0
X
gθ (Xj )
gθ (Xi )
+
E
(wegen der Unabhängigkeit)
E
gθ (Xi )
gθ (Xj )
i6=j
0
Z 0
gθ (x)
gθ (Xi )
=
= n I(gθ ), denn E
gθ (x)dx
gθ (Xi )
gθ (x)
Z
0
Z
=
gθ0 (x)dx =
gθ (x)dx
(wegen Voraussetzung 4!)
i=1
= 0.
= n I(gθ )
15
Bemerkung:
Unter denselben Voraussetzungen ist die Cramer-Rao Ungleichung auch
im diskreten Fall gültig. Die Dichten (Integrale) werden einfach durch die Wahrscheinlichkeiten (Summen) ersetzt.
Beispiele:
1. X := (X1 , . . . , Xn ) mit X1 , . . . , Xn i.i.d. und normalverteilt N (θ, σ02 ), σ02 bekannt. X̄n
σ2
ist erwartungstreu für θ mit Varθ (X̄n ) = n0 . Nun gilt
2
gθ (x) = √
I(pθ ) = n I(gθ ) mit
(x−θ)
−
1
2
e 2σ0 .
2πσ0
√
(x − θ)2
gθ0 (x)
∂
x−θ
2πσ
)
und
−
ln(
.
=
ln gθ (x) =
0
2
2σ0
gθ (x)
∂θ
σ02
Z
1
1
1
Also ist I(gθ ) = 4 (x − θ)2 gθ (x)dx = 2 und deswegen gilt Varθ (X̄n ) =
,
σ0
σ0
n I(gθ )
d.h. X̄n ist unter allen biasfreien Schätzungen für θ, diejenige mit der kleinsten
Varianz.
ln gθ (x) = −
2. X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Werten in {0, 1} und Qθ ({Xi = 1}) = θ,
0 < θ < 1.
X̄n ist biasfrei mit Varθ (X̄n ) = n1 θ(1 − θ).
I(Pθ ) = n I(Qθ ), wobei
0
2
2
0
Qθ ({Xi = 1})
Qθ ({Xi = 0})
I(Qθ ) =
Qθ ({Xi = 1}) +
Qθ ({Xi = 1})
Qθ ({Xi = 0})
1
−1 2
1
Qθ ({Xi = 0}) = ( )2 · θ + (
) (1 − θ) =
.
θ
1−θ
θ(1 − θ)
n
. Wir haben Gleichheit in der Ungleichung von Cramer-Rao,
Also ist I(Pθ ) =
θ(1 − θ)
d.h. X̄n ist unter allen linearen Schätzern derjenige mit der kleinsten Varianz.
3. X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit gleichförmiger Verteilung auf dem Intervall [0, θ], θ > 0. Sie haben gezeigt, dass T (X1 , . . . , Xn ) := n+1
n · max{X1 , . . . , Xn }
θ2
1
biasfrei ist mit Varθ (T ) =
. Ferner gilt gθ (x) = 1[0,θ] (x). Also ist
n(n + 2)
θ
1
gθ0 (x)
= − 1[0,θ](x) und somit
gθ (x)
θ
1
I(gθ ) =
θ
Zθ
1
1
dx = 2 .
θ2
θ
0
Daraus folgt
I(pθ ) =
n
θ2
und Varθ (T ) <
1
.
I(pθ )
In diesem Fall ist die Cramer-Rao Ungleichung nicht gültig.
Beachte: die erste Voraussetzung vom Satz 1 ist nicht erfüllt. Man kann aber trotzdem
zeigen, dass T (X1 , . . . , Xn ) unter allen biasfreien Schätzungen die beste ist. Der Beweis ist
nicht einfach und wird deshalb nicht in dieser Vorlesung vorgeführt.
16
2.3.
Asymptotische Eigenschaften von Maximum-Likelihood Schätzungen
X1 , X2 , . . . sei eine Folge von i.i.d. reellen Zufallsgrössen mit Dichte gθ , wobei θ ∈ Θ ⊆ R.
n
Q
Man definiert die Funktion Ln als Ln (x1 , . . . , xn ) =
gθ (xi ) (= Dichte des Vektors X =
i=1
n g 0 (X )
P
i
θ
= 0 besitzt eine einzige Lösung
(X1 , . . . , Xn )). Nehmen wir an, die Gleichung
g
(X
i)
i=1 θ
∂
θ̂n = θ̂n (X1 , . . . , Xn ) und dies für alle n. ( gθ0 (Xi ) :=
gθ (Xi ) )
∂θ
θ̂n ist die sogenannte Maximum-Likelihood Schätzung für θ (aus der Stichprobe (X1 , . . . , Xn )
hergeleitet).
Unter sehr schwachen Voraussetzungen über die möglichen Dichten gθ kann man zeigen,
Pθ
dass θ̂n konsistent ist:
θ̂n −→
θ, d.h. falls θ der wahre Wert ist, dann konvergiert θ̂n in
n→∞
Wahrscheinlichkeit gegen θ.
Definition:
Y, Y1 , Y2 , . . . seien Zufallsgrössen mit stetigen Verteilungsfunktionen. Die
Folge Y1 , Y2 , . . . konvergiert in Verteilung gegen Y , falls
lim P (a < Yn < b) = P (a < Y < b), ∀ a, b.
n→∞
U (θ) sei eine Zufallsgrösse mit Normalverteilung N (0, I(g1θ ) ). Unter schwachen Bedingungen
n√
o
über {gθ } kann man zeigen, dass die Folge
n(θ̂n − θ) in Verteilung gegen U (θ) konvergiert, falls θ der wahre Wert ist. Dies bedeutet, dass für grosse Werte von n die Zufallsgrösse
1
) verteilt ist. Grob gesagt: Asymptotisch ist die Cramer-Rao
θ̂n − θ angenähert N (0, n I(g
θ)
Schranke erreicht.
Beweisskizze für die asymptotische Normalität
Per Definition hat man
n
X
h(θ̂n , Xi ) = 0,
wobei h(θ, x) :=
i=1
gθ0 (x)
.
gθ (x)
Ist die Funktion h nach θ differenzierbar, dann gilt, falls θ der wahre Wert ist,
n
0=
n
n
1X 0
1X
1X
h(θ̂n − θ + θ, Xi ) ∼
h(θ, Xi ) +
h (θ, Xi )(θ̂n − θ)
=
n i=1
n i=1
n i=1
(θ̂n − θ ist “klein”). Also ist
√
n(θ̂n − θ) ∼
=
√1
n
− n1
n
P
i=1
n
P
i=1
h(θ, Xi )
=:
h0 (θ, Xi )
In
.
IIn
Asymptotisches Verhalten von IIn
∂
h (θ, x) =
∂θ
0
gθ0 (x)
gθ (x)
=
gθ00 (x)gθ (x) − (gθ0 (x))2
.
gθ2 (x)
17
Also gilt
Eθ h (θ, Xi ) =
0
=
2
Z 0
gθ (x)
gθ00 (x)gθ (x)
gθ (x)dx −
gθ (x)dx
gθ2 (x)
gθ (x)
00
Z
Z
00
− I(gθ ) = −I(gθ ).
gθ (x)dx
gθ (x)dx − I(gθ ) =
Z
Nach dem schwachen Gesetz der grossen Zahlen konvergiert also IIn in Wahrscheinlichkeit
gegen −I(gθ ).
Asymptotisches Verhalten von In
Es gilt
Z
Z
Z 0
0
gθ (x)
gθ (x)dx = gθ0 (x)dx =
gθ (x)dx = 0
Eθ h(θ, Xi ) =
gθ (x)
2
Z 0
gθ (x)
gθ (x)dx = I(gθ ).
und Eθ h2 (θ, Xi ) = Varθ h(θ, Xi ) =
gθ (x)
Nach dem Zentralgrenzwertsatz
Konvergiert In in Verteilung gegen eine Zufallsgrösse U ∗ (θ),
die N 0, I(gθ ) verteilt ist.
√
Aus den obigen Überlegungen folgt, dass n(θ̂n − θ) in Verteilung gegen die Zufallsgrösse
U ∗ (θ)
1
U (θ) :=
konvergiert. Die letztere ist aber N (0,
) verteilt.
−I(gθ )
I(gθ )
18
2.4.
Einige Eigenschaften der Kleinsten-Quadrat-Schätzung (KQ-Schätzung)
Wie in 1.3. betrachten wir das allgemeine lineare Regressionsmodell:
Y = Xθ + Z,
wobei θ der unbekannte Parameter ist (Y ∈ Rn , θ ∈ Rp ).
Definition
Falls U eine zufällige Matrix ist, ist die ErwartungE(U ) von U definiert als
die Matrix der Erwartungen der Elemente Uij von U , d.h. E(U ) ij := E(Uij ).
In diesem Abschnitt machen wir die folgenden Voraussetzungen:
1. p < n,
2. Rang(X) = p,
3. E(Z) = 0 und Cov(Z) := E
n × n Identitätsmatrix.)
h
T i
Z − E(Z) Z − E(Z)
= E[ZZ T ] = σ 2 In (In ist die
Beachte Falls die Komponenten Z1 , Z2 , . . . , Zn von Z i.i.d. Zufallsgrössen sind mit E(Zi ) =
0 und Var(Zi ) = σ 2 , ist die dritte Voraussetzung erfüllt. Die KQ-Schätzung θ̂ für θ ist
θ̂ = (X T X)−1 X T Y
(siehe 1.3).
Satz 1
Unter den gemachten Voraussetzungen gilt
a) Eθ,σ2 (θ̂) = θ, ∀θ, σ 2 , d.h. θ̂ ist biasfrei,
−1 2
b) Covθ,σ2 (θ̂) = X T X
· σ , ∀θ, σ 2 .
Beweis
“a)”: Eθ,σ2 (θ̂) = Eθ,σ2 (X T X)−1 X T Y = (X T X)−1 X T Eθ,σ2 (Y ) (Linearität der Erwartung!)
= (X T X)−1 X T Eθ,σ2 (Xθ + Z) = (X T X)−1 X T Xθ = θ,
h
i
“b)”: Covθ,σ2 (θ̂) = Eθ,σ2 (θ̂ − θ)(θ̂ − θ)T =
h
T i
Eθ,σ2 (X T X)−1 X T Y − θ (X T X)−1 X T Y − θ
h
T i
= Eθ,σ2 (X T X)−1 X T (Y − Xθ) (X T X)−1 X T (Y − Xθ)
= Eθ,σ2 (X T X)−1 X T ZZ T X(X T X)−1
= (X T X)−1 X T Eθ,σ2 (ZZ T )X(X T X)−1
= σ 2 (X T X)−1 X T X(X T X)−1 = σ 2 (X T X)−1 .
Die Diagonalelemente der Matrix Covθ,σ2 (θ̂) geben Information über die Güte der Schätzungen
θ̂i , i = 1, . . . , p. Es ist also notwendig, einen Schätzer für den unbekannten Parameter σ 2 zu
haben. Eine Möglichkeit ist durch den folgenden Satz gegeben:
19
Satz 2
kY − X θ̂k2
ist eine biasfreie Schätzung für σ 2 , d.h. Eθ,σ2 (σ̂ 2 ) = σ 2 , ∀θ, σ 2 .
σ̂ 2 :=
n−p
Beweis Führe im y–Raum (Beobachtungsraum) ein neues orthogonales Koordinatensystem
ein mit den ersten p orthonormierten Basisvektoren in dem von “idealen” Messwerten Xθ
aufgespannten Unterraum Vp . Seien V1∗ , . . . , Vn∗ die Koordinaten des Punktes Y im neuen
System. Da V ∗ = ΓY mit Γ ortogonal, gilt:
1. δθ,σ2 := Eθ,σ2 (V ∗ ) = ΓEθ,σ2 (Y ) mit (δθ,σ2 )i = 0 für i > p,
T
∗
2. Covθ,σ2 (V ) = Eθ,σ2 Γ Y − E(Y ) Γ Y − E(Y )
= Eθ,σ2 ΓZZ T ΓT = Γσ 2 In ΓT = σ 2 In ,
3. kY − X θ̂k2 = kΓY − ΓX θ̂k2 (Γ ist orthogonal!) =
n
P
i=p+1
Vi∗2 .
Daraus folgt:
Eθ,σ2 (kY − X θ̂k2 ) =
n
X
Eθ,σ2 (Vi∗2 ) =
n
X
Varθ,σ2 (Vi∗2 ) (wegen 1.).
i=p+1
i=p+1
Also gilt
Eθ,σ2 (kY − X θ̂k2 ) = (n − p)σ 2
Sei ψ(θ) :=
p
P
(wegen 2.).
λi θi mit λ1 , λ2 , . . . , λp bekannt.
i=1
Definition 1
Die KQ-Schätzung ψ̂ für ψ ist definiert als ψ̂(Y ) =
p
P
λi θ̂i .
i=1
Definition 2
Ein Schätzer T (Y ) für ψ heisst linear, falls T sich schreiben lässt als
T (Y ) =
n
X
di Yi ,
i=1
wobei d1 , . . . , dn Konstanten sind.
Bemerkung
Die KQ-Schätzung ψ̂ für ψ ist linear. Es gilt weiter Eθ,σ2 (ψ̂) = ψ(θ),
2
∀θ, σ , d.h. ψ̂ ist biasfrei.
Satz 3 (Gauss-Markov)
n
P
ψ(θ) :=
λi θi sei irgend eine Linearform in den unbekannten Parametern.
i=1
20
Behauptung
Unter allen linearen biasfreien Schätzungen für ψ(θ) ist ψ̂ diejenige mit
der kleinsten Varianz.
n
P
Beweis Wenn ψ̃ =
ci Yi irgend eine lineare Schätzung von ψ ist, dann ist ψ̃ auch in den
i=1
v ∗ –Koordinaten linear:
ψ̃ =
n
X
di Vi∗ .
i=1
Erwartungstreue ergibt
ψ(θ) = Eθ,σ2 (ψ̃) =
p
X
di Eθ,σ2 (Vi∗ ), denn Eθ,σ2 (Vi∗ ) = 0 für i > p.
i=1
Die Beobachtungsgleichungen können auch im v ∗ –System ausgedrückt werden; sie lauten
etwa
p
X
x0ij θj + Zi0 mit x0ij = 0 für i > p.
Vi∗ =
j=1
Also ist Eθ,σ2 (Vi∗ ) =
Pp
ψ(θ) =
j=1
p
X
x0ij θj , und Einsetzen ergibt
λj θj =
p
X
di
i=1
j=1
p
X
x0ij θj
=
p
p
X
X
j=1
j=1
di x0ij
i=1
!
θj , ∀θ.
Koeffizientenvergleich bestimmt d1 , . . . , dp eindeutig (während die dp+1 , . . . , dn beliebig sind),
denn die Matrix (x0ij ) hat Rang p.
Wir haben Varθ,σ2 (ψ̃) =
. . . = dn = 0 setzen.
n
P
i=1
d2i Varθ,σ2 (Vi∗ ) = σ 2
n
P
i=1
d2i ; das wird minimal, wenn wir dp+1 =
Die so bestimmte lineare erwartungstreue Schätzung kleinster Varianz ψ̃ =
p
P
k=1
dk Vk∗ fällt
∗
aber mit der KQ-Schätzung ψ̂ zusammen, denn auch diese ignoriert die Werte von Vp+1
, . . . , Vn∗ ,
und d1 , . . . , dp sind durch die Erwartungstreue eindeutig bestimmt.
Wenn die Messungen verschiedene Varianzen σi2 := Var(Zi ) besitzen, soll
Bemerkung
man
Beweis
Yi =
Ersetze
p
X

2
p
n
X
X
1 
Q(θ) :=
Yi −
xij θj 
2
σ
i=1 i
j=1
xij θj + Zi durch
j=1
Beispiel
(siehe Übungen.)
s
1
Yi
σi2
!
=
p
X
j=1
s
minimalisieren.
1
xij
σi2
!
θj +
s
1
Zi , i = 1, . . . , n.
σi2
21
§3
Vertrauensgebiete: Vertrauensintervalle für die Erwartung
Im Beispiel 1 (Seite 2) haben wir als Schätzer für die Erfolgswahrscheinlichkeit θ,
n
1X
Xi vorgeschlagen. Ist n hinreichend gross, wissen wir (starkes Gesetz der
X̄n :=
n i=1
grossen Zahlen!), dass mit grosser Wahrscheinlichkeit |X̄n − θ| klein ist. Dies legt es nahe zu
versuchen, ein kleines Intervall I(X) (siehe Beispiel 6, Seite 4) um den Schätzer X̄n herum
festzulegen, indem man θ vermuten darf. Man könnte etwa fordern, dass z.B. P (I(X)
enthält den wahren Wert θ) ≥ 0, 95.
Allgemein liege ein statistisches Modell X , A, (Pθ )θ∈Θ vor und es sei g(θ) (∈ R) zu
schätzen. Beobachtet wird also eine Zufallsgrösse X mit Werten in X .
Definition
Ein zufälliges Gebiet C(X) mit der Eigenschaft
Pθ C(X) enthält g(θ) ≥ 1 − α, ∀θ ∈ Θ,
heisst Vertrauensgebiet für g(θ) zum Niveau 1 − α.
Oft ist C(X) ein zufälliges Intervall. Man spricht dann von einem Vertrauensintervall zum
Niveau 1 − α.
Es ist wichtig, sich diese Definition genau anzusehen, damit die Angabe von C(X) nicht
falsch interpretiert wird: Nicht g(θ) ist zufällig, sondern X und damit C(X). Wird X = x
beobachtet, ist dann C(x) ein festes Gebiet und es gilt: entweder g(θ) ∈ C(x) oder nicht,
aber {θ : g(θ) ∈ C(x)} ist kein Ereignis. Die Aussage über das Niveau 1 − α ist vielmehr
eine Aussage über die gesamte Familie {C(x) : x ∈ X }, d.h. über die Vorschrift, nach der
das Gebiet aus der Beobachtung bestimmt wird. Wenn wir für jedes x das Gebiet C(x) als
Vertrauensgebiet angeben, wird — was auch immer θ ∈ Θ ist — das zufällige Gebiet in ca.
95 % der Fälle g(θ) enthalten (falls α = 0, 05 ist).
Beispiel 1 X := (X1 , X2 , . . . , Xn ) mit X1 , . . . , Xn i.i.d. Zufallsgrössen. Nehmen wir an,
X1 sei N (θ, σ 2 ) verteilt mit σ 2 bekannt.
n
1X
Xi ist eine biasfreie Schätzung für θ.
X̄n :=
n i=1
√
n(X̄n − θ)
Falls θ der wahre Wert ist, dann besitzt
eine N (0, 1) Verteilung.
σ
∗
1
0 < α < 1 sei vorgegeben. ξα∗ sei diejenige Zahl, für welche √
2π
ξα∗
Zξα
∗
−ξα
u2
e− 2 du = 1 − α. (Z.B.
für α = 0, 05 ist
≈ 1, 96.)
√
σξα∗
σξα∗
n(X̄n − θ) ∗
√
√
Dann gilt Pθ ≤
ξ
=
1
−
α,
∀θ.
Also
ist
I(X)
:=
,
X̄
+
X̄
−
n
n
α
σ
n
n
ein Vertrauensintervall für die Erwartung θ zum Niveau 1 − α.
22
X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Normalverteilung N (θ, σ 2 ), wobei
n
1 P
(Xi − X̄n )2 (X̄n wie im Beispiel 1). Falls θ
σ 2 unbekannt ist. Wir definieren Vn2 := n−1
Beispiel 2
i=1 √
n −θ)
eine Student-Verteilung mit n−1
der wahre Wert ist, kann man zeigen, dass Tn := n(X̄
Vn
Freiheitsgraden ist. fn−1 sei die Dichte dieser Verteilung und 0 < α < 1 sei vorgegeben. Man
t∗
α,n−1
R
∗
bestimmt dann die Zahl tα,n−1 , für welche
fn−1 (x)dx = 1 − α. (Dazu benützt man
t∗
α,n−1
eine Tabelle für die Student-Verteilung; z.B. für n = 7 und α = 0, 05 ist t∗0,05, 6 = 2, 365.)
Mit dieser Wahl von t∗α,n−1 gilt
Pθ (|Tn | ≤ t∗α,n−1 ) = 1 − α, ∀ θ, σ 2
und somit ist I(X) :=
zum Niveau 1 − α.
Vn
Vn
X̄n − √ t∗α,n−1 , X̄n + √ t∗α,n−1 ein Vertrauensintervall für θ
n
n
Beispiel 3 X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Pθ (Xi = 1) = θ und Pθ (Xi =
0) = 1 − θ, 0 < θ < 1. X̄n ist eine erwartungstreue Schätzung
für θ. Für hinreichend
√
n(X̄n − θ)
angenähert N (0, 1)–
grosse n besagt der Zentralgrenzwertsatz, dass Vn := p
θ(1 − θ)
verteilt ist (falls θ der wahre Wert ist!). ξα∗ sei wie im Beispiel 1 definiert. Dann gilt
Pθ (|Vn | ≤ ξα∗ ) ≈ 1 − α, d.h.
"
#
!
p
p
θ(1 − θ)ξα∗
θ(1 − θ)ξα∗
√
√
Pθ
X̄n −
enthält θ ≈ 1 − α.
, X̄n +
n
n
1
, ∀θ, gilt
4
∼
ξ∗
ξ∗
enthält θ ≥1 − α, ∀θ.
Pθ X̄n − √α , X̄n + √α
2 n
2 n
∼
ξ∗
ξ∗
ein Vertrauensintervall zum Niveau ≥1 − α.
Somit ist I(X̄n ) := X̄n − √α , X̄n + √α
2 n
2 n
Da θ(1 − θ) ≤
23
III
§1
Testtheorie
Testverfahren, Niveau, Macht.
X sei eine Zufallsgrösse und X , A, (Pθ )θ∈Θ das zugrundeliegende statistische Modell. Von
einem Testproblem spricht man, wenn man auf grund des beobachteten Wertes x der Zufallsgrösse X entscheiden soll, ob Pθ einer bestimmten echten Teilmenge H von Θ angehört
oder nicht.
Ein Test ist eine Entscheidungsregel, die für jeden möglichen Wert von x festlegt, ob man
sich für die Hypothese “θ ∈ H” oder für die Alternative “θ ∈ Θ−H” = “θ ∈ H c ” entscheiden
soll. Man nennt auch kurz H die Hypothese und K := H c die Alternative. Die Entscheidung
dH für die Hypothese nennt man “Annahme” der Hypothese, und die Entscheidung dK für
die Alternative nennt man Verwerfen der Hypothese. Ein Test ist also (bis auf weiteres)
beschrieben durch Angabe der Menge R derjenigen x, für welche die Hypothese verworfen
werden soll. R wird Verwerfungsbereich oder kritischer Bereich des Tests genannt.
Innerhalb des gewählten Modells sind also zwei Arten von Fehlern möglich:
Ist θ ∈ H und wird die Hypothese verworfen, so spricht man von einem Fehler erster Art.
Ist θ ∈ K und wird die Hypothese “angenommen”, so spricht man von einem Fehler zweiter
Art.
Praktisch gibt man R meist mit Hilfe von einer Funktion ϕ(x) an, der sogenannten Testfunktion, die X in {0, 1} ([0, 1]) abbildet:
Ist ϕ(x) = 1, dann lehnt man die Hypothese ab.
Ist ϕ(x) = 0, dann wird die Hypothese “angenommen”.
Bemerkung: Die Nullhypothese ist damit nicht bewiesen; sie ist bloss nicht widerlegt. Es ist
möglich, dass wir einen Fehler 2. Art mit grosser Wahrscheinlichkeit begehen. Siehe unten.
Falls ϕ, X in [0, 1] abbildet, dann lehnt man die Hypothese mit Wahrscheinlichkeit ϕ(x) ab
(falls x beobachtet wurde). Der Test heisst dann randomisiert.
Bisher haben wir das Testsproblem so formuliert, dass H und K völlig symmetrische Rollen
spielen. In konkreten Fragestellungen gibt es aber gewöhnlich eine Asymmetrie. Ist man z.B.
daran interessiert, ob sich irgendwelche Daten innerhalb einer etablierten Theorie erklären
lassen oder auf neue Effekte hindeuten, so sollte man auf neue Effekte erst schliessen, wenn
wirklich deutliche Hinweise darauf vorliegen. Soll ein gebräuchliches Medikament durch
ein neues ersetzt werden, so wird man bei unklaren Vergleichswerten vorerst bei den alten
Medikamenten bleiben. In beiden Fällen erscheint ein vorschneller Wechsel nicht ratsam.
Im Zweifel kann man sich ja gewöhnlich weitere Daten verschaffen.
In der Formulierung des Testproblems trägt man dem so Rechnung, dass man als Hypothese die Verteilung (oder die Verteilungen) wählt, die der etablierten Theorie bzw. reiner
Zufälligkeit entsprechen.
Man zieht nur Verwerfungsbereiche R (d.h. Bereich der Form {x : ϕ(x) = 1}) in Betracht,
für die die Wahrscheinlichkeit eines Fehlers erster Art durch eine vorgegebene Zahl α > 0 begrenzt ist. Dadurch erreicht man, dass man neue Effekte oder wesentliche Vorteile des neuen
Medikamentes nur dann behauptet, wenn wirklich die Daten deutlich dafür sprechen. Leider
lässt sich die Wahrscheinlichkeit eines Fehlers zweiter Art (beim festen Stichprobenumfang)
nicht simultan in gleicher Weise begrenzen.
Quantitative Aussagen erhält man durch Betrachtung der Gütefunktion
24
β(θ) := Pθ ϕ(X) = 1 = Eθ ϕ(X) des Tests ϕ, die jedem θ die Verwerfungswahrscheinlichkeit unter Pθ zuordnet.
Definition
Wir sagen, dass der Test ϕ das Niveau α hat, falls
sup β(θ) ≤ α.
θ∈H
Beachte β(θ) ≤ α, ∀θ ∈ H bedeutet: Die Wahrscheinlichkeit eines Fehlers erster Art ist
maximal α.
Für θ ∈ K heisst β(θ) die Macht des Tests in θ.
Beachte Ist die Macht β(θ) nahe bei 1, so ist die Wahrscheinlichkeit 1 − β(θ) eines Fehlers
zweiter Art klein.
Beispiel
Angenommen, jemand behauptet, er habe eine Methode gefunden, um das
Zahlenverhältnis (∼ 1 : 1) zwischen Kuh- und Stierkälbern zugunsten der ersten zu verschieben. Eine landwirtschaftliche Organisation ist interessiert, aber skeptisch, und möchte
das Verfahren zuerst ausprobieren, z.B. in n = 20 Fällen; dabei kommen X Kuhkälber
heraus.
X = 20 würde sie wohl überzeugen. Nehmen wir aber an, sie entschliesst sich, das Verfahren
zu empfehlen, falls X ≥ 15. Was bedeutet das?
X ist binomial B(20, θ) verteilt, d.h.
n x
Pθ (X = x) =
θ (1 − θ)n−x ,
x
Hypothese H: θ =
1
2
x = 0, 1, . . . , 20.
(“Behandlung wirkungslos”),
Alternative K: θ ≥ 0, 7 (“Behandlung wirtschaftlich interessant”)
ϕ(x) = 1, falls x ≥ 15 und ϕ(x) = 0 sonst.
In diesem Beispiel ist β( 12 )
20
20
20
1
+
+ ...+
≈ 0, 021 und P0,7 (X ≥ 15) ≈ 0, 416 ,
= P1/2 (X ≥ 15) = ( )20
2
15
16
20
d.h. das Niveau des Tests ϕ ist gleich 0, 021 und die Macht an der Stelle θ = 0, 7 beträgt
0, 416.
Bemerkung
Würde man nach einem Test ϕ∗ suchen, so dass β ∗ ( 21 ) = 0, 05 und β ∗ (0, 7) =
0, 90, so müsste die Anzahl n von Versuchen grösser als 52 sein und ϕ∗ (x) = 1, falls x ≥ 33.
Für kleinere n geht es nicht.
25
§2
2.1
Einige Beispiele von wichtigen Tests
Ein einfacher Test mit Hilfe des Zentralgrenzwertsatzes
Es wird immer wieder behauptet, die Wahrscheinlichkeit einer Knabengeburt sei grösser als
die Wahrscheinlichkeit einer Mädchengeburt. Ist das wirklich so?
Wir versuchen die folgende Hypothese H zu testen:
Wahrscheinlichkeit p einer Knabengeburt = 0,5. Die Alternative K sei p > 0, 5. Wir testen
also einseitig (zweiseitig würde die Alternative K ∗ : p 6= 0, 5 bedeuten). Die Wahl der
Alternative bedeutet, dass wir praktisch sicher sind, dass p < 0, 5 nicht in Frage kommt.
Wir benützen als Beobachtungen die Zahlen, die ein zwischen 1969 und 1972 zufällig ausgewählter Jahrgang des Statistischen Jahrbuches der Schweiz liefert. Dieses nennt für 1972,
n = 910 342 Geburten mit x = 470 179 Knabengeburten. Diese Zahl stellt einen Wert einer
Zufallsgrösse X dar.
Unter der Hypothese (p = 21 ) ist X, B(910 342, 21 ) verteilt. Es ist aber hier einfacher mit der
X−n
Normal-Approximation zu arbeiten. Wir wissen, dass (unter H) Y := 1 √ 2 angenähert
2 n
eine Standard Normalverteilung besitzt. Sei α (das Niveau) = 5 % und ξ0,05 die Zahl, für
ξ0,05
R
x2
e− 2 dx = 0.95. Es ist naheliegend, die Hypothese zu verwerfen, falls der
welche √12π
−∞
Beobachtete Wert x von X zu gross ist, d.h. falls y(x) zu gross ist. Tut man das, falls
y(x) ≥ ξ0,05 (Verwerfungsbereich), dann hat unser Test das Niveau 5 %. In diesem Beispiel
ist y ≈ 10 und aus einer Tabelle der Normalverteilung liest man ξ0,05 = 1, 645.
Der Test lehnt also die Hypothese ab. Die Abweichung ist sogar hochsignifikant, denn auch
für das Niveau α = 1 % (ξ0,01 = 2, 326), würden wir die Hypothese verwerfen.
Eine Bemerkung über den sogenannten p–Wert (p–value) Wenn man bei einem
Testproblem ein Software benützt, liefert ein Computer immer im output den sogenannten
p–value. Diese Zahl wollen wir im oberen Beispiel erklären.
Die Länge der Stichprobe war n = 91342 und der beobachtete Wert der Zufallsgrösse X
gleich x = 47179.
Definition:
Der p–value ist die Wahrscheinlichkeit, dass die normalisierte Zufallsgrösse Y = Y (X) den
beobachteten Wert y(x), unter H, überschreitet. Man bezeichne diese Wahrscheinlichkeit
mit αy(x) .
Interpretation:
Falls für ein vorgegebenes Niveau α die Ungleichung α ≥ αy(x) gilt, lehnt man (zum Niveau
α) die Hypothese ab.
Man kann also die jetzt bei statistischen Auswertungen von den Computern berechneten
p–Werte als Entscheidungsanweisungen für den Statistiker auffassen, der α fest gewählt hat.
Je nach Wahl von α wird die Anweisung zu verschiedenen Entscheidungen führen.
Achtung:
Kritisch an der Verwendung von p–Werten ist vor allem, dass sie leicht fehlinterpretiert
26
werden. Nicht ganz so offensichtlich ist im Falle αy(x) = 0, 023 darauf zu schliessen, dass H
zum Niveau 0, 023 abzulehnen ist. Das Niveau soll ja nicht vom Ergebnis x abhängen.
Ist die Hypothese einfach (= 21 ), so ist die folgende Intepretation richtig: αy(x) ist die
Wahrscheinlichkeit (unter H) dafür, dass Y (X) ≥ y(x) ist, also die Wahrscheinlichkeit,
dass die Teststatistik Y (X) einen mindestens so grossen Wert annimmt wie den aktuell
beobachteten.
2.2
Beispiel 2.1
Fortsetzung
Im Beispiel 2.1 könnte man dieselbe Hypothese p =
testen (zweiseitige Situation).
1
2
gegen die Alternative K ∗ : p 6=
1
2
Wir betrachten dieselben Zufallsgrössen X und Y wie im Beispiel 2.1 und dieselben Beobachtungen aus dem Jahre 1972. In diesem Falle ist es naheliegend, die Hypothese abzulehnen,
falls Y zu gross ist (p > 12 ) oder zu klein ist (p < 21 ), d.h. falls |Y | (absoluter Betrag) zu
gross ist.
Bemerkung: Unter der Hypothese hat Y wieder angenähert eine Standard Normalverteilung,
∗
die um 0 symmetrisch ist. Sei α (das Niveau) = 5 % vorgegeben, und sei ξ0,05
die Zahl, für
welche
√1
2π
∗
ξ0,05
R
∗
−ξ0,05
e−
x2
2
∗
dx = 0, 95. Man lehnt dann die Hypothese ab, falls |y| ≥ ξ0,05
. Aus
∗
einer Tabelle der Normalverteilung liest man ξ0,05
= 1, 96. Da |y| ∼
= 10, lehnt der Test die
∗
Hypothese ab. Wie vorher würde man auch zum Niveau 1 % ablehnen, da ξ0,01
= 2, 576.
∗
Bemerkung: Im Beispiel 2.2 (wie auch im Beispiel 2.1) ist
die Alternative K zusammenge1
setzt. Alle möglichen Werte p in der Menge (0, 1) − 2 sind theoretisch möglich für K ∗ .
Die Macht des Tests hängt also von der Alternative ab. Sie wurde definiert als
∗
,
β(p) := Pp |Y | ≥ ξ0,05
wenn das Niveau 5 % beträgt und p ∈ K ∗ .
Wenn p ∈ K ∗ nahe bei der Hypothese p = 21 liegt, steht die Macht an dieser Stelle sehr nahe
bei 5 %. Die Wahrscheinlichkeit eines Fehlers 2. Art ist dann in diesem Fall sehr gross und
man muss sehr vorsichtig sein:
Da α (das Niveau) frei wählbar ist, hat man eine Kontrolle über die Wahrscheinlichkeit eines
Fehlers 1. Art (≤ α), ber keine über die Wahrscheinlichkeit eines Fehlers 2. Art. Deshalb
sagt man, ein Test ist signifikant, wenn die Hypothese abgelehnt wird. Wenn nicht, ist die
Hypothese nicht bewiesen, sie ist einfach nicht widerlegt.
2.3
Vergleich von zwei Wahrscheinlichkeiten bei unabhängigen Stichproben
Auf zwei verschiedenen Anlagen wird dasselbe Objekt hergestellt. Man vermutet, dass die
Wahrscheinlichkeiten an Ausschussstücken bei diesen beiden Anlagen verschieden sind und
will dies durch Stichproben überprüfen. n1 = 200 Objekte der ersten Anlage weisen x = 5
fehlerhafte Stücke auf; n2 = 100 Objekte der zweiten Anlage zeigen total y = 10 fehlerhafte
Exemplare. Sind die beiden Ausschusswahrscheinlichkeiten p1 , p2 wirklich verschieden?
Das statistische Modell für dieses Problem: Beobachtet werden n1 + n2 unabhängige Zufallsgrössen X1 , X2 , . . . , Xn1 , Y1 , Y2 , . . . , Yn2 , wobei Xi = 1 (Yi = 1), falls das i–te Objekt aus
der ersten (zweiten) Anlage fehlerhaft ist, = 0 sonst. Relevant für uns sind die Zufallsgrössen
27
X :=
n1
P
i=1
Fällen.
Xi , Y :=
n2
P
Yj , d.h. die totalen Anzahlen von fehlerhaften Objekten in beiden
j=1
Als Hypothese wählen wir p1 = p2 =: p.
Wir müssen zunächst p schätzen. Nach den Gesetzen der grossen Zahlen, für n1 + n2 gross,
ist, unter der Hypothese, p̂ := nX+Y
sehr nahe bei p. Das wird unsere Schätzung für p sein.
1 +n2
Nach dem Zentralgrenzwertsatz ist die Differenz nX1 − nY2 angenähert normalverteilt mit
Erwartung p1 − p2 = 0 (unter der Hypothese) und Varianz p(1 − p)( n11 + n12 ) (unter der
Hypothese).
Somit ist, im Falle, wo p1 = p2 = p,
X/n1 − Y /n2
U := q
p(1 − p)( n11 + n12 )
angenähert standard normalverteilt.
Dasselbe gilt auch, wenn man für p unsern Schätzer p̂ einführt, d.h. für
X/n1 − Y /n2
.
V := q
p̂(1 − p̂)( n11 + n12 )
Hier ist der Test zweiseitig. So, zum Niveau 5 %, lehnt man die Hypothese ab, falls der
∗
beobachtete Wert v von V so ist, dass |v| ≥ ξ0,05
= 1.96 (siehe Beispiel 2.2).
Für v erhalten wir mit unsern Beobachtungen (x = 5, y = 10, p̂ = 0, 05) den Wert v = −2, 8.
Der Test lehnt also die Hypothese ab.
2.4
Der Vorzeichentest für kleine gepaarte Stichproben
Bei einer Person sei der diastolische Blutdruck durch Pd bezeichnet und der systolische
Blutdruck durch Ps . Der “mittlere” Blutdruck wird dann definiert als 32 Pd + 31 Ps .
An 18 zufällig ausgewählten Studenten wurde der mittlere Blutdruck zweimal gemessen,
einmal liegend und einmal stehend. Man beobachtet also 18 Paare (xi , yi ) von Zahlen.
Das statistische Modell für dieses Experiment besteht aus 18 i.i.d. Zufallsvektoren Zi :=
(Xi , Yi ).
Der Vorzeichen Test: Wir betrachten die Differenzen Zi := Yi −Xi . Wenn bei der Messung
die Lage des Studenten auf seinen mittleren Blutdruck keinen Einfluss hätte, würde wohl
P (Zi > 0) = P (Zi < 0) = 21 gelten (Wertepaare mit Differenz 0 lassen wir zum voraus
weg und zählen sie nicht mit!). Man könnte aber vermuten, dass P (zi > 0) > 21 ist.
Deshalb wählen wir als Hypothese H : P (Zi > 0) = P (Zi < 0) = 21 und als Alternative
P (Zi > 0) > 21 . (Ein Test ist signifikant, nur wenn er die Hypothese ablehnt!)
Sei V die Anzahl der positiven Zi ’s, d.h. V :=
18
P
I(Zi > 0), wobei I die Indikatorfunktion
i=1
ist. Der (einseitige) Vorzeichen Test lehnt die Hypothese ab, wenn der beobachtete Wert v
von V zu gross ist.
28
Das Verfahren:
α sei vorgegeben. Man bestimmt dann die kleinste ganze Zahl cα so, dass PH (V ≥ cα ) ≤ α.
Der Vorzeichen-Test lehnt die Hypothese ab, falls v (beobachteter Wert von V ) ≥ cα .
Tabelle (beobachtete Differenzen)
Im Jahre 1975 wurden im physiologischen Institut die folgenden Differenzen zi der mittleren
Blutdrucke beobachtet:
Student
1
2
3
4
5
6
7
8
9
Differenz
1 32
1 32
2 32
4 31
−2 32
−3 31
−8 31
−1 32
5 13
Student
10
11
12
13
14
15
16
17
18
Differenz
5
−5
1 32
1 32
3 31
5
1
3
1 32
−5
Sei α = 5 %. In einer Tabelle für die Binomialverteilung B(n, p) für n klein (n ≤ 40), die
man zum Beispiel im Buch von E.L. Lehmann “Nonparametrics”: Statistical Methods based
on ranks, Holden Day (1975), finden kann, liest man, dass die kleinste Zahl c0,05 , für welche
PH (V ≥ c0,0.5 ) ≤ 0, 05, gleich 13 ist. Unsere Stichprobe liefert für V den Wert v = 12. Die
Hypothese wird also nicht abgelehnt.
Bemerkung: Wäre die Länge n der Stichprobe (in unseremBeispiel n = 18) viel grösser, dann
würde man die Zufallsgrösse V so normalisieren, dass die Normal Approximation anwendbar
ist (etwa wie im Beispiel 2.1).
2.5
Der χ2 –Anpassungstest
Das Testproblem: Es werden n unabhängige, untereinander gleiche Teilexperimente ausgeführt. Diese haben r ≥ 2 mögliche Ausgänge und der i–te Ausgang hat Wahrscheinlichkeit
pi . Der Parameter θ := (p1 , p2 , . . . , pr ) ist unbekannt. Wir nehmen an, dass alle pi positiv
sind. Für einen vorgegebenen Wahrscheinlichkeitsvektor π := (π1 , π2 , . . . , πr ) ist zu testen,
ob θ = π ist.
Das zugehörige statistische Modell: Beobachtet wird ein Zufallsvektor X := (N1 , N2 , . . . , Nr ),
wobei Ni die Anzahl der Auftreten des i–ten Ausganges (bei den n Wiederholungen des Experimentes) darstellt.
r
P
Beachte, dass
Ni = n und dass der Vektor X eine Multinomialverteilung mit Parametern
i=1
n,p1 , . . . , pr besitzt.
Beispiel: n Würfe mit einem Würfel. Mögliche Ausgänge: {1}, {2}, . . . , {6}. Man könnte
sich die folgende Frage stellen: Ist der Würfel symmetrisch, d.h. ist (p1 , p2 , . . . , p6 ) =
( 61 , 16 , . . . , 61 ) =: π ?
Zurück zum allgemeinen Testproblem. Der χ2 –Anpassungstest
29
Falls n gross ist, ist Nni , unter der Hypothese, nahe bei πi (Gesetz der grossen Zahlen!).
Wenn man N1 = n1 , . . . , Nr = nr beobachtet hat, scheint es vernünftig, die beobachtete
absolute Häufigkeit ni mit den, unter der Hypothese θ = π, erwarteten Häufigkeiten nπi zu
r
P
vergleichen. Man würde also die Hypothese θ = π ablehnen, falls z.B.
(ni − nπi )2 zu gross
i=1
ist. Man benützt indessen einen besonders gut brauchbaren Wert, wenn man die Quadrate
der Unterschiede noch normiert:
Definition: Die χ2 –Statistik ist definiert als
χ2 =
r
X
(Ni − nπi )2
i=1
nπ
.
Definition (χ2 –Quadrat Anpassungstest)
Man kann zeigen (aber das ist schon höhere Statistik), dass für relative grosse Werte von
n, etwa nπi ≥ 3, ∀ i, die Statistik χ2 (X) = χ2 (N1 , N2 , . . . , Nr ), unter der Hypothese θ = π,
angenähert eine χ2 –Quadrat Verteilung mit r − 1 = Anzahl der möglichen Ausgänge −1
Freiheitsgraden besitzt.
Der χ2 –Anpassungstest: Sei α vorgegeben und hm die Dichte der χ2 –Quadrat Verteilung mit m Freiheitsgraden, m = 1, 2, 3, . . .. Man bestimmt dann die Zahl ηα so, dass
η
Rα
hr−1 (x)dx = 1 − α. Der χ2 –Quadrat Anpassungstest zum Niveau α lehnt die Hypothese
0
θ = π ab, falls χ2 (n1 , n2 , . . . , nr ) ≥ ηα , wobei n1 , n2 , . . . , nr die beobachteten Werte von
N1 , . . . , Nr sind.
Eine Anwendung
Es wird vermutet, dass bei Pferderennen auf einer kreisförmigen Rennbahn die Startpositionen einen Einfluss auf die Gewinnchancen hat. In n = 144 Rennen hatten die Sieger die
Startpositionen 1, 2, . . . , 8 = r mit den folgenden Häufigkeiten n1 = 29, n2 = 19, n3 = 18,
n4 = 25, n5 = 17, n6 = 10, n7 = 15, n8 = 11. Man teste die Hypothese, dass alle Positionen
die gleiche Siegwahrscheinlichkeit besitzen zum Niveau 0, 05.
Lösung:
θi sei die Siegwahrscheinlichkeit mit Start position i. Hier ist die Hypothese (θ1 , . . . , θ8 ) = ( 18 , . . . , 81 ). Die Anzahl der Freiheitsgrade beträgt 8 − 1 = 7. Aus einer Tabelle für die χ2 –Quadrat Verteilung liest man η0,05 = 14.07. Hier bekommt man
χ2 (29, 19, 18, 25, 17, 10, 15, 11) = 16, 333. Also lehnt der Test die Hypothese ab.
2.6
Der χ2 –Anpassungstest in einem komplizierteren Falle
Jemand hat 100 Messungen einer chemischen Grösse gemacht. Die Resultate seien
x1 , x2 , . . . , x100 . Da bei jeder Messung ein zufälliger Fehler auftritt, können die Zahlen
x1 , x2 , . . . , x100 als n100 Beobachtungen einer Zufallsgrösse X betrachtet werden. Wegen des
Zentralgrenzwertsatzes könnte man sich fragen, ob X eine Normalverteilung besitzt. Dies
wird unsere Hypothese H sein.
Ein mögliches Verfahren, um H zu testen:
30
1. Die Parameter µ und σ 2 , unter H, sind unbekannt. Als Schätzer für µ wählen wir
100
100
1 P
1 P
x̄100 := 100
xi und für σ 2 , s2100 := 100
(xi − x̄100 )2 .
i=1
i=1
2. Nehmen wir an, x̄100 = 37, 54, s100 = 2, 81.
3. Man wählt dann z.B. 5 Intervalle I1 , I2 , I3 , I4 , I5 um x̄100 aus und bezeichnet mit nk
die Anzahl der xi , die im k–ten Intervall fallen.
Die Situation sei die folgende:
Intervalle (Klassen)
beobachtete Häufigkeiten
I1 = [29, 5, 32, 5]
n1 = 4
I2 = [32, 5, 35, 5]
n2 = 17
I3 = [35, 5, 38, 5]
n3 = 43
I4 = [38, 5, 41, 5]
n4 = 29
I5 = [41, 5, 44, 5]
n5 = 7
4. Y sei N (x̄100 , s2100 ) = N (37, 54; (2, 81)2) verteilt und sei pi := P (Y ∈ Ii ), i =
1, 2, . . . , 5. Die, unter der Hypothese, erwarteten Häufigkeiten sind dann durch 100pi ,
i = 1, . . . , 5, gegeben.
Wir bekommen also die folgende Tabelle (siehe die Übungen für die Bestimmung der
pi !):
Intervalle
beobachtete Häufigkeiten
pi
erwartete Häufigkeiten
I1
4
0, 035
3, 5
I2
17
0, 196
19, 6
I3
43
0, 400
40, 0
I4
29
0, 288
28, 8
I5
7
0, 072
7, 2
Totale
100
1
100
5. Man lehnt die Hypothese ab, falls die Chiquadrat-Statistik X 2 :=
0, 648 zu gross ist:
5
P
i=1
Das vorgegebene Niveau sei α. Man bestimmt dann die Zahl ηα so, dass
(ni −100pi )2
100pi
η
Rα
=
h2 (x)dx =
0
1 − α und lehnt die Hypothese ab, falls 0, 648 ≥ ηα . Wenn α = 5 %, dann ist z.B.
η0,05 = 5, 99 und die Hypothese wird nicht abgelehnt.
Bemerkung: In diesem Beispiel ist die Anzahl der Freiheitsgrade = 5 − 1 − 2 =
Anzahl der Intervalle (Klassen) −1 − Anzahl der geschätzten Parameter (µ, σ 2 !).
31
2.7
Der χ2 –Test als Unabhängigkeitstest
Wenn man am Montag die Zeitungen liest, so hat man oft den Eindruck, am Wochenende (Sa,
So) sei der Anteil der Verkehrsunfälle mit tödlichem Ausgang, bezogen auf die Gesamtzahl
der Verkehrsunfälle, grösser als während der Woche.
Als Hypothese nehmen wir an, der Anteil mit tödlichem Ausgang sei vom Wochentag unabhängig. Zum Testen ziehen wir eine Verkehrsstatistik mit n = 1350 876 Unfällen heran.
Anzahl Verkehrsunfälle
mit tödlichem Ausgang
A
Anzahl Verkehrsunfälle
ohne tödlichen Ausgang
Ac
Totale
Wochenende
B
n11 = 20 808
n12 = 450 708
n1· = 480 516
Woche (Mo-Fr)
Bc
n21 = 40 680
n22 = 820 680
n2· = 870 360
Totale
n·1 = 70 488
n·2 = 1280 388
n = 1350 876
Es liegen hier also vier Klassen vor, die wir in einer sogenannten Vierfeldertafel (oder 2 × 2
Kontingenz-Tafel) dargestellt haben.
Das zugehörige statistische Modell
Beobachtet wurde ein Zufallsvektor (N11 , N12 , N21 , N22 ), wobei die Zufallsgrössen
N11 (N12 , N21 , N22 ) die totale Anzahl der Auftreten des Ereignisses
A ∩ B(Ac ∩ B, A ∩ B c , Ac ∩ B c ) darstellt (Ac bedeutet das Komplement von A!).
Nun seien θ11 = P (A∩B), θ12 = P (B ∩Ac ), θ21 = P (A∩B c ), θ22 = P (Ac ∩B c ), p1 = P (B),
q1 = P (B c ), p2 = P (A), q2 = P (Ac ). Alle diese Zahlen sind natürlich a priori unbekannt.
Mann könnte sie aber mit Hilfe der Kontingenz-Tafel schätzen.
Der χ2 –Test für Unabhängigkeit
Wäre die Hypothese richtig, dann würden die Ereignisse A, Ac , B, B c unabhängig sein. In
diesem Fall würde dann das folgende gelten:
θ11 = p1 p2 ,
θ12 = p1 q2 ,
θ21 = q1 p2 ,
θ22 = q1 q2 ,
(C und D sind unabhängig, falls P (C ∩ D) = P (C)P (D) !).
Beachte, dass p1 + q1 = 1, p2 + q2 = 1 gilt.
Statt vier Paramter zu schätzen, bleiben, unter der Hypothese, nur 2 zu schätzen, etwa p1
und p2 . Nach dem schwachen Gesetz der grossen Zahlen kann p1 (p2 ) durch die relative
12
21
Häufigkeit p̂1 : nn1· = n11 +N
(p̂2 : nn·1 = n11 +n
) geschätzt werden.
n
n
32
Die Idee ist jetzt die folgende: Man vergleicht die beobachteten Häufigkeiten (siehe Tafel)
nij mit den, unter der Hypothese, erwarteten Häufigkeiten
n̂11 := nn1· · nn·1 · n, n̂12 := nn1· 1 − nn1· n, n̂21 := nn·1 1 − nn1· n,
n̂22 := 1 −
n1·
n
1−
n·1
n
n.
Der χ2 –Test für Unabhängigkeit lehnt die Hypothese ab, falls
χ2 (n11 , n12 , n21 , n22 ) :=
(n11 − n̂11 )2
(n12 − n̂12 )2
(n21 − n̂21 )2
(n22 − n̂22 )2
+
+
+
n̂11
n̂12
n̂21
n̂22
zu gross ist.
Bestimmung des Ablehnungsbereichs:
Ersetzt man in der Definition der n̂ij die Grössen n1· , n·1 durch die Zufallsvariablen N1· ,
N·2 , dann bekommt man Zufallsgrössen N̂ij für die erwarteten Häufigkeiten.
Man kann dann zeigen, dass
χ2 (N11 , N12 , N21 , N22 ) :=
(N11 − N̂11 )2
N̂11
+
(N12 − N̂12 )2
N̂12
+
(N21 − N̂21 )2
N̂21
+
(N22 − N̂22 )2
N̂22
,
unter der Hypothese, angenähert eine χ2 –Verteilung mit ν = 4 − 1 − 2 = 1 = Anzahl von
Klassen −1− Anzahl der geschätzten Parameter (p1 und p2 !) besitzt. (Der Beweis ist nicht
so einfach!)
Zurück zum Beispiel
Die boebachteten Fälle liefern
χ2 (2808, 45708, 4680, 82680) = 10.43.
Als Niveau wähle man 5 %.
Analog wie im Beispiel 2.5 bestimmt man mit Hilfe einer Tabelle die Zahl η0,05 so, dass
η0,05
R
h1 (x)dx = 0, 95. Man bekommt in diesem Fall 3, 84.
0
Der χ2 –Test für Unabhängigkeit lehnt also zum Niveau 5 % die Hypothese ab, da
χ2 (2808, 45708, 4680, 82680) = 10, 43 > 3, 84.
2.7 Testen eines Mittelwertes bei unbekannter Varianz:
Der einseitige Student-Test
An einer Frauenklinik hat man während längerer Zeit das Geburtsgewicht der lebend und
reif geborenen Mädchen bestimmt und gemittelt. Das Resultat, 3200 g := µ0 , betrachtet
man als Erwartung.
Einige Jahre später, führen weitere Beobachtungen zur Vermutung, dass die Erwartung µ
nicht mehr 3200 g betrage, dass aber µ > µ0 .
Die Hypothese sei µ = µ0 und die Alternative µ > µ0 .
33
Um die Hypothese zu testen, will man bei den 25 nächsten Geburten von lebenden, reif
geborenen Mädchen das Gewicht messen.
Das zugehörige statistische Model:
Beobachtet wird der Zufallsvektor X = (X1 , . . . , X25 ), wobei Xi das Gewicht bei i–ter
Geburt ist. Man kann hier annehmen, dass die Zufallsgrössen Xi ’s, i.i.d. normal-verteilt
N (µ, σ 2 ) sind mit unbekannten Parametern µ, σ 2 .
Aus der Schätztheorie wissen wir, dass X̄25 :=
gute Schätzungen für µ und σ 2 sind.
Bemerkung
Die emprische Varianz ist Sn2 :=
1
25
25
P
i=1
1
25
1
24
2
Xi und V25
:=
25
P
i=1
25
P
i=1
(Xi − X̄25 )2 sehr
2
(Xi − X̄25 )2 . Für V25
hat man die
Summe der Quadrate durch 24 dividiert. Der Grund dafür ist die folgende
Behauptung
Unter der Hypothese µ = µ0 hat die Statistik T =
Student-Verteilung mit 24 Freiheitsgraden.
X̄25 − µ0
genau eine
V25 /5
(Darüber werden wir in den Übungen sprechen, aber nur für Mathematiker und Physiker!)
Wir bezeichnen mit fm die Dichte der Student-Verteilung mit m Freiheitsgraden (siehe
“Einführung in die Wahrscheinlichkeitstheorie”) und, für 0 < α < 1, mit tα,m die Zahl, für
tα,m
R
welche
fm (x)dx = 1 − α.
−∞
Die Idee: Der Test von Student (einseitig) lehnt die Hypothese ab, falls der beobachtete
Wert t von T zu gross ist.
Zurück zum Beispiel
Nehmen wir an, wir haben X1 = x1 , . . ., X25 = x25 beobachtet, und das folgende erhalten:
25
x̄25 − 3200
1 P
x2 = 3470 g, v25 = 408 g. Dann bekommen wir t =
x̄25 = 25
= 3, 31.
408/5
i=1
α sei 5 %.
Aus einer Tabelle für die Student-Verteilung liest man t0,05, 24 = 1, 711.
Folgerung: Der Student-Test lehnt die Hypothese ab, da 3, 31 > 1, 711.
Der Test ist sogar hoch signifikant, weil er auch zum Niveau 1 % ablehnt: t0,01,24 = 2, 492.
2.8
Beispiel 2.7: Fortsetzung.
Der zweiseitige Student-Test
Die Bezeichnungen sind dieselben, wie unter 2.7.
Die Hypothese ist wie oben, d.h. µ = µ0 = 3200 g. Wir betrachten aber jetzt als Alternative
t∗
α,m
R
∗
∗
K : µ 6= µ0 . Für 0 < α < 1 vorgegeben, sei tα,m die Zahl für welche
fm (x)dx = 1 − α.
−t∗
α,m
Definition
Der zweiseitige Student-Test für H gegen K ∗ lehnt die Hypothese zum Niveau α ab, falls
x̄25 − 3200
≥ t∗α, 24 ist .
|t| =
408/5
34
Wäre z.B. α = 5 %, dann würde man in einer Tabelle für die Student-Verteilung mit 24
Freiheitsgraden t∗0,05, 24 = 2, 06 finden. Da |t| = 3, 31, lehnt also der Student-Test die
Hypothese ab. Wie vorher würde der Test die Hypothese auch zum Niveau 1 %
(t∗0,01, 24 = 2, 80!) ablehnen.
2.9
Testen von zwei Mittelwerten bei unbekannter Varianz
Der einseitige (zweiseitige) Student-Test für zwei unabhängige Stichproben
Häufig stellt sich das Problem des qualitativen Vergleiches von zwei Methoden, z.B. des
Vergleiches von zwei Behandlungsmethoden A und B. Man hat dann zwei Reihen von Zufallsgrössen (Messungen) X1 , . . . , Xn1 (Methode A) und Y1 , . . . Yn2 (Methode B), die alle
unabhängig sind. Weiter nimmt man häufig an, X1 , . . . , Xn1 seien N (µ1 , σ12 )–verteilt und
Y1 , . . . , Yn2 seien N (µ2 , σ22 )–verteilt.
Wir wollen hier die Hypothese µ1 = µ2 gegen die Alternative K : µ2 > µ1 (einseitiger Fall)
oder die Hypothese µ1 = µ2 gegen die Alternative K ∗ : µ1 6= µ2 (zweiseitiger Fall) testen.
Im folgenden werden wir annehmen, dass σ12 = σ22 =: σ 2 ist.
(Den Fall, wo die Varianzen verschieden sind, werden wir in der Vorlesung kurz besprechen.)
Man definiere
n2
P
Xi , Ȳn2 := n12
Yj und
i=1
j=1
)
(
n1
n2
P
P
1
2
2
2
(Xi − X̄n1 ) +
(Yj − Ȳn2 ) .
= Vn := n1 +n2 −2
X̄n1 :=
Vn21 +n2
1
n1
n1
P
i=1
j=1
Dann kann man den folgenden Satz beweisen:
Satz (ohne Beweis)
Unter der Hypothese µ1 = µ2 besitzt die Statistik
T (X1 , . . . , Xn1 , Y1 , . . . , Yn2 ) :
eine Student-Verteilung mit n1 + n2 − 2 Graden.
X̄n1 − Ȳn2
q
Vn n11 + n12
tα,n und t∗α,m seien wie unter 2.7 und 2.8 definiert.
Definition
Wenn man X1 = x1 , . . . , Xn1 = xn1 , Y1 = y1 , . . . , Yn2 = yn2 beobachtet hat,
lehnt, zum Niveau α, der einseitige Student-Test (zweiseitige Student-Test) die Hypothese
ab, falls
T (x1 , . . . , xn1 , y1 , . . . , yn2 ) ≥ tα,n1 +n2 −2 |T (x1 , . . . , xn2 , y1 , . . . , yn2 )| ≥ t∗α,n1 +n2 −2
Beispiel
Schweinemast mit zwei verschiedenen Futtermitteln A und B. Beobachtet wurden bei 14 zufällig ausgewählten Schweinen die Gewichtszunahme (in kg) während einer
bestimmten Periode. Dabei waren 7 Schweine mit A gefüttert worden, die anderen mit B.
Hier sind die Resultate:
35
Gruppe A
Gruppe B
x
33,17
66,25
26,08
43,79
46,22
55,81
54,50
y
53,77
53,13
37,75
73,45
58,25
61,14
38,80
1
2
3
4
5
6
7
Dann bekommen wir
T (x1 , . . . , x7 , y1 , . . . , y7 ) = 1, 023 .
Wir haben hier 12 Freiheitsgrade für die Student-Verteilung. Aus einer Tabelle liest man,
für α = 5 %, t0,05, 12 = 1, 782. Also wird die Hypothese µ1 = µ2 gegen µ2 > µ1 nicht
abgelehnt. Für den zweiseitigen Fall (µ1 6= µ2 ) hat man t∗0,05, 12 = 2, 179. Also wird hier
auch die Hypothese nicht abgelehnt.
2.10 Ein anderer Test zum Vergleich von zwei Mittelwerten:
Der Wilcoxon-Test oder Mann-Whitney U –Test
Der Einfachheit halber betrachten wir dasselbe Problem und dasselbe Beispiel wie unter 2.9.
(Der Wilcoxon-Test ist für sehr allgemeine Situationen anwendbar. Man braucht z.B. nicht
wie beim Student-Test eine Normalverteilung für die Zufallsgrössen vorauszusetzen.)
Es werden also n = n1 + n2 unabhängige Zufallsgrössen X1 , . . . , Xn1 , Y1 , . . . , Yn2 mit den
Xi ’s i.i.d. N (µ1 , σ 2 ) verteilt und den Yj ’s i.i.d. N (µ2 , σ 2 ) verteilt, beobachtet.
Als Hypothese nehmen wir wie vorher µ1 = µ2 (es gibt also keinen Unterschied zwischen den
Futtermitteln A und B!) und als Alternativen, einmal K : µ2 > µ1 (einseitig) und einmal
K ∗ : µ1 6= µ2 (zweiseitig).
Das Verfahren
Man ordnet alle Xi , Yj gemeinsam der Grösse nach an. Jeder Zufallsgrösse ordnet man
dann ihren Rang in der gesamten Stichprobe zu.
Ri sei der Rang von Xi , i = 1, . . . , n1 .
Qj sei der Rang von Yj , j = 1, . . . , n2 ,.
Beachte: Die Ränge sind Zufallsgrössen.
U1 (U2 ) sei die Summe der Ränge der Xi (Yj ), also U1 :=
n1
P
i=1
Ri , U2 :=
n2
P
Qj .
j=1
Die Idee im einseitigen Fall (zweiseitigen Fall): Man lehnt die Hypothese ab, falls der
beobachtete Wert u2 von U2 zu gross ist (falls u2 zu gross oder zu klein ist).
Illustration anhand des Beispiels von 2.9.
36
Die geordnete Stichprobe sieht so aus:
x
26,08
x
33,17
y
37,71
y
38,80
x
43,79
x
46,22
y
53,13
y
53,77
x
54,50
x
55,81
y
58,25
y
61,14
x
66,25
y
73,45
Die Ränge der yj sind {3, 4, 7, 8, 11, 12, 14}.
Die Summe u2 dieser Ränge ist also u2 = 59.
Aus einer Tabelle für die Wilcoxon Statistik
liest man, für den einseitigen Fall, dass, unter
!
7
P
Qj ≥ 59 = 0, 22789 (siehe z.B. Lehmann “Nonparametrics”:
der Hypothese, PH U2 :=
j=1
Statistical methods based on ranks).
Der Wert α59 = 0, 22789 ist der sogenannte p–Wert, der im Abschnitt 2.1 erklärt wurde.
Wählt man α = 5 %, dann gilt α < α59 . Deshalb lehnt der Wilcoxon-Test die Hypothese
µ1 = µ2 nicht ab (siehe 2.1).
Auch im zweiseitigen Fall wird die Hypothese nicht abgelehnt.
Bemerkung
Für grosse Werte von n1 und n2 (siehe oben: Das Verfahren), normiert
n2
P
Qj so, dass, unter der Hypothese, eine Approximation durch die
man die Statistik U2 =
j=1
Standard-Normal-Verteilung möglich ist. (Siehe z.B. Lehmann “Nonparametrics”: Statistical methods based on ranks.)
2.11 Vergleich zweier unabhängiger binomial-verteilter Zufallsgrössen (siehe
Abschnitt 2.3)
Wir betrachten dieselbe Situation wie unter 2.3. Wie dort seien X, Y zwei unabhängige
binomial-verteilte Zufallsgrössen mit Parametern n1 , p1 bzw. n2 , p2 . Wie vorher sei die
Hypothese H: p1 = p2 = p, wobei p unbekannt ist.
Der χ2 –Test für die Hypothese H
Nehmen wir an, wir haben X = x und Y = y beobachtet. Die Resultate können wir in einer
Tafel zusammenfassen:
Anlage 1
Anlage 2
Totale
x
y
x+y
n1 − x
n2 − y
n1 + n2 − x − y
Total = n1
Total = n2
n = n1 + n2
Das Verfahren
1. Unter der Hypothese schätzt man p durch
x+y
n1 +n2
=: p̂.
37
2. Die erwartete Häufigkeit der fehlerhaften Stücke bei der Anlage 1 (Anlage 2) ist durch
x̂ := n1 p̂ (ŷ := n2 p̂) gegeben.
3. Die χ2 –Statistik ist dann
χ2 :=
(x − x̂)2
(y − ŷ)2
(n1 − x − (n1 − x̂))2
(n2 − y − (n2 − ŷ))2
+
+
+
.
x̂
ŷ
n1 − x̂
n2 − ŷ
4. Die Anzahl von Freiheitsgraden ist gleich v := 4 − 1 − 1 = 2 = Dimension der Tafel
−1−Anzahl der geschätzten Parameter (p!).
5. Sei 0 < α < 1 vorgegeben. Sei ηα die Zahl, für welche
η
Rα
0
6. Der χ2 –Test lehnt die Hypothese ab, falls χ2 ≥ ηα .
h2 (x)dx = 1 − α.
Beispiel (siehe 2.3)
n1 = 200, x = 5, n2 = 100, y = 10.
χ2 ist dann gleich 7.85 und η0,05 = 5, 9991.
Der χ2 –Test lehnt also die Hypothese ab.
Bemerkung Auf dieselbe Weise kann man den χ2 –Test benützen, um zwei unabhängige
multinomial-verteilte Zufallsgrössen zu vergleichen:
Beispiel Man würfelt mit einem Würfel A, n1 –mal und mit einem Würfel B, n2 –mal. Sei
PA ({i}) =: pi = Wahrscheinlichkeit bei einem Wurf mit A, i zu bekommen, i = 1, 2, . . . , 6.
qi := PB ({i}) sei analog definiert.
Frage Gilt pi = qi =: wi , i = 1, 2, . . . , 6, wobei die wi unbekannt sind? D.h. besitzen die
beiden Würfel dieselben probabilistischen Eigenschaften?
Das Verfahren, um die Hypothese H : pi = qi , ∀ i, zu testen:
Man definiere nk1 := Anzahl von k bei den n1 Würfen mit A und nk2 := Anzahl von k bei
den n2 Würfen mit B. Das sind die beobachteten Häufigkeiten, k = 1, 2, . . . , 6.
i2
Man schätzt, unter der Hypothese, wi durch ŵi : nni11 +n
+n2 , i = 1, . . . , 6. Die erwarteten
Häufigkeiten sind dann durch n̂k1 := n1 ŵk und n̂k2 := n2 ŵk gegeben, k = 1, 2, . . . , 6.
Die χ2 –Statistik ist dann definiert als
2
χ =
6
X
(ni1 − n̂i1 )2
i=1
n̂i1
+
6
X
(ni2 − n̂i2 )2
i=1
n̂i2
.
Die Anzahl von Freiheitsgraden ist gleich 12 − 1 − 5 = 6 = Dimension der Tafel (der nik ,
(i = 1, . . . , 6, k = 1, 2) −1− Anzahl der geschätzten Parameter (w1 , w2 , . . . , w5 !).
Der χ2 –Test lehnt die Hypothese zum Niveau α ab, falls χ2 ≥ ηα , wo ηα so ist, dass
η
Rα
h6 (x)dx = 1 − α .
0

Zugehörige Unterlagen

Ergänzung: Korrelations

Blatt 9

Blatt 12

Vorlesung Einführung in die mathematische Statistik

Zugehörige Unterlagen

Produkte

Unterstützung

Vorlesung Einführung in die mathematische Statistik

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können