Mathematische Statistik - Skripte/Vorlesungsmitschriebe von Ingo Bürk

Werbung
Ingo Bürk
Skript vom Sommersemester 2011
Mathematische Statistik
Statistical thinking will one day be as necessary for efficient citizenship as the ability to read or write.
H. G. Wells
Universität Stuttgart
2011
Dieses Skript entstand im Rahmen der Vorlesung „Mathematische Statistik“ bei Hr. Prof. Dr.
Ingo Steinwart als Vorlesungsmitschrieb.
Es kann nicht garantiert werden, dass dieses Dokument fehlerfrei ist und der Autor übernimmt
für möglicherweise entstandene Schäden jeglicher Art keine Haftung. Dieser Mitschrieb ist
kein offizielles Dokument der Universität Stuttgart, Mitarbeiter eben dieser tragen daher
ebenfalls keine Verantwortung.
Dieses Werk ist unter dem Lizenzvertrag „Creative Commons Attribution-NonCommercialShareAlike 3.0 Germany“ lizenziert. Um die Lizenz anzusehen, gehen Sie bitte auf die Webseite
http://creativecommons.org/licenses/by-nc-sa/3.0/de/ oder schicken Sie einen Brief an:
Creative Commons,
171 Second Street,
Suite 300,
San Francisco,
California 94105, USA.
Mit freundlichen Grüßen
Ingo Bürk
Inhaltsverzeichnis
5
Vorwort
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
10
13
19
2 Punktschätzungen
2.1 Grundlagen . . . . . . . . . . . . . . . . . . .
2.2 Optimalität von Schätzern . . . . . . . . . .
2.3 Konstruktionsmethoden für Punktschätzer
Momentenmethode . . . . . . . . . . . .
Maximum-Likelihood-Schätzer . . . . .
2.4 Bayes-Schätzer . . . . . . . . . . . . . . . . .
2.5 Cramér-Rao-Ungleichung . . . . . . . . . . .
2.6 Weitere Eigenschaften von Schätzern . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
28
35
35
37
44
49
53
3 Konfidenzintervalle
3.1 Grundlegende Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Einige exakte Berechnungen für Konfidenzintervalle . . . . . . . . . . . . . . . .
3.3 Asymptotische Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
57
62
66
1 Einführung
1.1 Motivation . . . . . . . . . . . . . . . .
1.2 Einfache Stichprobenfunktionen . .
Exakte Berechnungen statt CLT
1.3 Die empirische Verteilungsfunktion
.
.
.
.
.
.
.
.
.
.
.
.
4 Statistische Tests
4.1 Qualitätsmerkmale für Tests . . . . . . . . . . .
4.2 Existenz gleichmäßig bester Tests . . . . . . . .
4.3 Zweistichprobentests . . . . . . . . . . . . . . .
4.4 Eine Anwendung von Tests . . . . . . . . . . . .
4.4.1 Informelle Beschreibung des Problems
4.4.2 Formale Beschreibung des Problems . .
4.4.3 Informelle Wahl der Hypothesen . . . .
4.4.4 Test auf einem Datensatz . . . . . . . .
4.4.5 Test auf vielen Datensätzen I . . . . . .
4.4.6 Test auf vielen Datensätzen II . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
72
77
94
96
96
96
97
97
99
100
Abbildungsverzeichnis
103
Stichwortverzeichnis
105
3
Vorwort
Die Statistik ist ein Teilgebiet der Stochastik und bildet gewissermaßen den Gegensatz zur
Wahrscheinlichkeitstheorie. Die Statistik lässt sich in drei Gebiete gliedern:
• In der deskriptiven Statistik werden vorliegende Daten möglichst gut beschrieben und
zusammengefasst
• In der mathematischen Statistik – auch induktive Statistik genannt – versucht man, aus
dem Datensaz einer Stichprobe Informationen zu den Eigenschaften der Grundgesamtheit
abzuleiten
• In der explorativen Statistik werden die beiden anderen Gebiete gewissermaßen vereint; sie
kombiniert die Methoden, um Zusammenhänge oder auch Unterschiede zwischen Datensätzen zu ermitteln und diese zu bewerten
Wir werden uns hier mit dem zweiten Gebiet – also der mathematischen Statistik – beschäftigen. Wir werden also annehmen, dass wir einen Satz von Daten zur Verfügung haben, die
einem zufälligen, aber unbekannten Mechanismus unterliegen und werden diese Daten nutzen, um diesen zufälligen Mechanismus zu untersuchen und Eigenschaften in Erfahrung zu
bringen.
Beschreibung von
Ereignissen
W-Theorie
Beschreibung und
Modellierung von
zufälligen Prozessen
Realität mit „zufälligen“
Beobachtungen
• Axiomatische
Beschreibung von
Zufall
• Begriffe
Statistik
Analyse von zufälligen
Beobachtungen
Stochastik
Abbildung 0.1: Übersicht der Zusammenhänge zwischen Stochastik, Wahrscheinlichkeitstheorie und Statistik.
5
1
Einführung
In diesem ersten Kapitel wollen wir uns mit den Grundlagen der mathematischen
Statistik befassen und die wichtigsten Begriffe kennenlernen.
1.1 Motivation
Wir werden an dieser Stelle einige Grundannahmen und Bezeichnungsweisen einführen, die
wir das gesamte Kapitel über hinweg beibehalten werden. Sofern nichts anders vermerkt,
beziehen wir uns also immer auf diese Konventionen.
Formal gehen wir von einem Datensatz x = ( x1 , . . . , xn ) ∈ X aus, wir können x also als Beobachtung einer Zufallsvariablen X : (Ω, A 0 , P 0 ) → (X , sA ) betrachten, d. h. es existiert ein ω ∈ Ω mit
0
x = X (ω). Ferner gehen wir davon aus, dass die Verteilung P := P X
von X unbekannt ist.
Unser Ziel ist es nun, Eigenschaften dieser Verteilung P in Erfahrung zu bringen. Im Allgemeinen haben wir dafür Vorwissen über P vermöge einer Menge P von Wahrscheinlichkeitsmaßen
auf X , d. h. wir wissen, dass P ∈ P gilt. „Vorwissen“ kann hier aber auch bedeuten, dass wir
einfach nur hoffen/annehmen, dass dies tatsächlich zutrifft.
Definition 1.1.1 Statistischer Raum
Sei (X , A ) ein Messraum und P eine Menge von Wahrscheinlichkeitsmaßen auf X .
Dann heißt (X , A , P ) statistischer Raum.
Bemerkungen:
• Häufig sind die Beobachtungen unabhängig und identisch verteilt generiert, d. h. X = X̃ n ,
N
A = 1n A˜ = A˜n und
(
)
n
O
n
P ⊂ P̃ :=
P̃ mit P̃ ist Wahrscheinlichkeitsmaß auf (X̃ , A˜) .
1
Zudem werden die „Rohdaten“ ( x1 , . . . , xn ) häufig zunächst vorverarbeitet. Wir werden hierauf später mit dem Begriff der Stichprobenfunktion zurückkommen.
7
1 Einführung
• Häufig liegt P in parametrischer Form vor – d. h. P = {Pϑ : ϑ ∈ Θ} –, wobei typischerweise Θ ⊂
Rk gilt. In diesem Fall heißt P k-dimensional-parametrisch oder auch nur k-parametrisch.
Ein Beispiel hierfür wäre
P = {N n (µ, σ2 ) : µ ∈ R, σ2 > 0}.
In diesem Fall ist unser Vorwissen vergleichsweise groß und die entsprechenden Fragestellungen entstammen dem bereich der parametrischen Statistik.
• Liegt keine einfache Parametrisierung vor, so spricht man in der Fachliteratur auch von der
nicht-parametrischen Statistik. Ein Beispiel hierfür ist
©
ª
P = P̃ n : P̃ ist ein Wahrscheinlichkeitsmaß auf (X̃ , A˜) .
Hier ist unsere einzige Information über die Elemente von P also, dass sie i. i. d. sind. Ist X
groß genug, so liegt nahe, dass keine einfache Parametrisierung existieren wird. Ein zweites
Beispiel wäre
©
ª
P = P̃ n : P̃ ist ein Wahrscheinlichkeitsmaß auf (X̃ , A˜) und P̃ ¿ µ ,
wobei µ ein vorgegebenes Referenzmaß ist.
• In der robusten Statistik stellt man sich die Frage, was passiert, wenn bei den Methoden
der parametrischen Statistik bereits die grundlegende Annahme P ∈ P falsch ist und wie
man Methoden findet, die sich robust gegenüber solcher Verletzungen der Modellannahmen
verhalten.
In diesem Buch werden wir uns allerdings vor allem mit der klassischen parametrischen
Statistik beschäftigen.
Beispiel 1.1.2
Zur Behandlung einer Krankheit wurde eine neue Heilmethode (I) entwickelt. Bis jetzt wurde
Heilmethode (II) benutzt, von welcher wir wissen, dass sie in 75% aller Fälle anschlägt. In
einer Kurzzeitstudie wurde Heilmethode (I) bei 100 Patienten gestetet, wobei bei 80 Personen
ein Behandlungserfolg eintrat. Für die statistische Modellierung können wir verschiedene
Ansätze verfolgen:
• Arbeiten auf den Rohdaten: Wähle X = {0, 1}100 , wobei 1 einem Behandlungserfolg entspricht, während 0 für das Fehlschlagen der Heilmethode steht. Wir nehmen an, dass
die Behandlungsausgänge unabhängig (eine recht realistische Annahme) und identisch
verteilt sind (diese Annahme muss im Einzelfall gerechtfertigt werden). Die Annahmen
ergeben P = {B100 ( p, 1) : p ∈ [0, 1]}, wobei B( p, 1) die Binomialverteilung ist, d. h. es gilt
B( p, 1)({1}) = p. Das Problem bei dieser Modellierung ist eine mögliche Informationsflut, die
einen sehr hohen Aufwand erzeugt.
8
1.1 Motivation
• Vorverarbeitung der Rohdaten: Bezeichnen x1 , . . . , x100 die einzelnen Ausgänge, so betrachten
P
0
wir nicht ( x1 , . . . , x100 ), sondern x0 := 100
i =1 x i ∈ {0, . . . , 100} =: X . Mit X und P wie oben
betrachten wir nun die Abbildung
T: X →X0
( x1 , . . . , x100 ) 7→
100
X
mit
x i =: x0 .
i =1
Für P ∈ P gilt T P = B( p, 100), daher setzen wir P 0 := {B( p, 100) : p ∈ [0, 1]}, d. h. wir haben
unsere Rohdaten in x0 ∈ X 0 zusammengefasst. Die zusammensetzende Funktion T ist eine
Stichprobenfunktion. Zu beachten ist, dass wir – obwohl wir i. i. d. generierte Rohdaten
voraussetzen – keine Produktmaße auf X 0 mehr vorfinden. Einige typische Fragestellungen in der parametrischen Statistik sind die folgenden Beispiele:
i) Schätzproblem: Versuche den wahren, aber unbekannten Parameter p im vorherigen
Beispiel 1.1.2 zu schätzen.
ii) Bereichsschätzung: Versuche einen Bereich – d. h. typischerweise ein Intervall I – zu
schätzen, so dass p ∈ I liegt.
iii) Testproblem: Versuche zu entscheiden, ob das wahre p zum Beispiel größer als 0.75 ist.
9
1 Einführung
1.2 Einfache Stichprobenfunktionen
Im Folgenden nehmen wir an, dass x = ( x1 , . . . , xn ) ∈ Rn = X ist. Ferner sei P eine Teilmenge
aller P n , wobei P ein Wahrscheinlichkeitsmaß auf R ist und X i : Rn → R sei die i -te Projektion,
d. h. es gilt X = ( X 1 , . . . , X n ) = idRn und x ist die Realisierung der Zufallsvariablen X und
besteht aus i. i. d. generierten Beobachtungen, da die X 1 , . . . , X n i. i. d. bezüglich aller P n ∈ P
sind.
Definition 1.2.1 Arithmetisches Mittel, Stichprobenmittel
Betrachte die Funktion T : Rn → R, die durch
T ( x ) :=
n
1X
xi
n i=1
mit x ∈ Rn
definiert ist. Dann heißt:
i) xn := T ( x) das arithmetische Mittel der Stichprobe ( x1 , . . . , xn ) =: x.
ii) X n := T ◦ X das Stichprobenmittel der Zufallsstichprobe X := ( X 1 , . . . , X n ).
Lemma 1.2.2
Für alle Wahrscheinlichkeitsmaße P auf R, für welche entweder X 1 ∈ L 1 (P n ) oder
X 1 ∈ L 2 (P n ) gilt, gelten die Eigenschaften:
i) EP n X n = EP n X 1 .
ii) VarP n X n = n1 VarP n X 1 .
Beweis: Beide Aussagen lassen sich elementar beweisen. Es gilt
EP n X n = EP n
n
1X
1
X i = EP n X i = EP n X 1
n i=1
n
und
VarP n X n = VarP n
n
n
1X
1 X
1
VarP n X i = VarP n X 1 .
Xi = 2
n i=1
n
n i=1
Bemerkungen:
• Der Wert µ := EP n X 1 ist häufig unbekannt. In diesem Fall besagt i), dass bei der Schätzung
von µ durch X n kein systematischer Fehler auftritt. Diese Eigenschaft werden wir später
erwartungstreu nennen.
10
1.2 Einfache Stichprobenfunktionen
2
• Mit Hilfe der Markovschen Ungleichung kann VarP n X n = n1 VarP n X 1 =: σn als Maß für die
Streuung der Schätzung von µ durch X n angesehen werden, da für alle ε > 0 gilt:
Pn
¯
³n¯
o´ σ2
¯
¯
¯ X n − µ¯ ≥ ε ≤ 2
ε n
• Dert Wert von σ ist im Allgemeinen aber unbekannt. Auf diese Problematik werden wir
später noch eingehen.
Lemma 1.2.3
Es gelten die beiden folgenden Aussagen:
i) Gilt X 1 ∈ L 1 (P ∞ ), so folgt
³
´
P ∞ lim X n = µ = 1.
n→∞
ii) Gilt überdies sogar X 1 ∈ L 2 (P ∞ ), so folgt
Ã(
)!
p Xn − µ
∞
lim P
≤ t = Φ( t),
n
n→∞
σ
wobei σ2 := VarP ∞ X 1 und Φ die Verteilungsfunktion von N (0, 1) ist. Letztere ist
gegeben durch
1
Φ( t ) = p
2π
ˆ
t
s2
e − 2 d s.
−∞
Beweis:
i) Die Folge ( X i ) i∈N ist i. i. d. bezüglich P ∞ , betrachte dazu das kanonische Modell für i. i. d.
Zufallsvariablen. Dann folgt die Aussage aus dem SLLN von Kolmogorov.
ii) Es ist X i ∈ L 2 (P ∞ ) und die X i sind i. i. d. generiert. Ferner gilt
p X n − µ p n1
n
= n
σ
Pn
i =1 X i − µ
σ
=p
1
n
X
( X i − µ).
nσ2 i=1
Dann folgt mit dem CLT und der Tatsache, dass Konvergenz in Verteilung äquivalent
zur Konvergenz der Verteilungsfunktion ist der Rest der Aussage.
Bemerkungen:
• Aussage i) besagt, dass der zu schätzende Wert µ Grenzwert eines Schätzers X n ist. Diese
Eigenschaft nennt man Konsistenz.
11
1 Einführung
• Ist σ2 := VarP ∞ X 1 bekannt, so kann die Streuung der Schätzung approximiert werden. Es
ist
¯
¯
)
(
¯
¯ X − µ ¯ εp n
n¯
o
p
¯
¯
¯ n
¯
n¯
¯ X n − µ¯ > ε =
¯>
¯ σ ¯
σ
(
p ) (
p )
p Xn − µ ε n
p Xn − µ
ε n
<−
t
>
,
=
n
n
σ
σ
σ
σ
woraus mit Φ(− t) = 1 − Φ( t) schließlich folgt:
µ p ¶¶
µ
µ p ¶¶
¯
³n¯
o´ ii) µ εp n ¶ µ
ε n
ε n
¯
∞ ¯
P
+ 1−Φ
= 2 1−Φ
¯ X n − µ¯ > ε ≈ Φ −
σ
σ
σ
Hier gilt es zu beachten, dass die Approximation eigentlich eine gleichmäßige Konvergenz
in ii) benötigt. Dies ist erfüllt, falls X 1 ∈ L 3 (P ∞ ) gilt (Satz von Berry-Essen).
Definition 1.2.4 Stichprobenvarianz
Betrachte die Funktion T : Rn → R, die durch
T ( x) :=
n
1 X
( x i − x n )2
n − 1 i=1
definiert ist. Dann heißt:
i) s2n := T ( x) die Stichprobenvarianz der Stichprobe x = ( x1 , . . . , xn ).
ii) S 2n := T ◦ X die Stichprobenvarianz der Zufallsstichprobe X = ( X 1 , . . . , X n ).
Lemma 1.2.5
Es sei X 1 ∈ L 2 (P ∞ ) und σ2 := VarP ∞ X 1 . Dann folgt:
i) Erwartungstreue: ES 2n = σ2 .
³
´
ii) Konsistenz: P ∞ lim S 2n = σ2 = 1.
n→∞
Beweis: Für X i0 := X i − µ mit µ := E X 1 gilt E X i0 = 0 und E X n0 = 0. Wir zeigen als erstes
S 0n2 = S 2n . Es gilt
S 0n2
Ã
!2
n
n
n
n
X
X
1 X
1
1
1 X
0
2
=
( X i − X n0 ) =
( X i − µ) −
( X i − µ) =
( X i − X n )2
n − 1 i=1
n − 1 i=1
n i=1
n − 1 i=1
= S 2n .
12
1.2 Einfache Stichprobenfunktionen
Wir können also ohne Einschränkung annehmen, dass E X i = 0 ist, d. h. µ = 0 und E X n = 0.
Nun folgt
n
n
n
1 X
1X
1 X
2n
n
2
2
Xn ·
Xn
S 2n =
( X i2 − 2 X i X n + X n ) =
X i2 −
Xi +
n − 1 i=1
n − 1 i=1
n−1
n i=1
n−1
n
1 X 2
2
=
( X i − X n ).
(*)
n − 1 i=1
i) Aus (*) folgt nun mit unseren obigen Annahmen
n
n
1 X
1 X
2
(E X i2 − E X n ) =
(Var X i − Var X n )
ES 2n =
n − 1 i=1
n − 1 i=1
¶
µ
¶
n µ
1
n
1
1.2.2 1 X
=
Var X i − Var X i =
1−
Var X 1 = Var X 1
n − 1 i=1
n
n−1
n
= σ2 .
ii) Ferner gilt
(*)
lim S 2n = lim
n→∞
n→∞
!
Ã
´
n ³
n
X
1 X
1
n
2
2
X 2 − X n = lim
X i2 − X n
n→∞ n − 1 n
n − 1 i=1 i
i =1
= E X 12 − (E X 1 )2
= Var X 1 .
Korollar 1.2.6
Es sei X 1 ∈ L 2 (P ∞ ), µ := E X 1 und σ2 := Var X 1 . Dann folgt für alle t ∈ R
!
Ã
p
X
−
µ
n
≤ t = Φ( t),
lim P ∞ n
n→∞
Sn
wobei Φ die Verteilungsfunktion von N (0, 1) ist.
Beweis: Es gilt nach Lemma 1.2.5, dass S n → σ P ∞ -fast sicher konvergiert und damit
insbesondere auch in Verteilung. Nun folgt die Aussage aus dem CLT und der folgenden
multiplikativen Version des Satzes von Slutsky1 : Es gelte Yn → Y und Z n → c ∈ R jeweils in
Verteilung, dann folgt Yn Z n → cY in Verteilung.
Exakte Berechnungen statt CLT
Wir nehmen nun an, dass die Zufallsvariablen X i i. i. d. sind und dass X i ∼ N (µ, σ2 ) gilt, wobei
µ ∈ R und σ2 > 0 ist. Unser Ziel ist es, die Wahrscheinlichkeiten aus Lemma 1.2.3 und Korollar
1.2.6 exakt auszurechnen.
1 Zu finden als Satz II.9.9 im Wahrscheinlichkeitstheorie-Skript
13
1 Einführung
X −µ
1. Fall: Der Wert von σ2 > 0 sei bekannt. Dann gilt X i − µ ∼ N (0, σ2 ) und damit iσ ∼ N (0, 1).
P
X −µ
Wir betrachten nun die Summe, für die dann schließlich ni=1 iσ ∼ N (0, n) gilt2 . Dann ist
n
p Xn − µ
1 X
=p
( X i − µ) ∼ N (0, 1)
n
σ
nσ2 i=1
und für die Wahrscheinlichkeit gilt damit
µ p ¶¶
ε n
P ({| X n − µ| > ε}) = 2 1 − Φ
,
σ
µ
wobei wir diese Gleichung bereits in der Rechnung im Anschluss an Lemma 1.2.3 hergeleitet
hatten.
Lemma 1.2.7
Sei X i i. i. d. und X i ∼ N (µ, σ2 ) mit µ ∈ R und σ2 > 0. Dann gilt für alle n ≥ 1 und ε > 0
µ
µ p ¶¶
ε n
P ({| X n − µ| > ε} = 2 1 − Φ
,
σ
wobei Φ die Verteilungsfunktion von N (0, 1) ist.
2. Fall: Der Wert von σ2 > 0 sei nun unbekannt. Für diesen Fall müssen wir zunächst einige
neue Begriffe einführen.
Definition 1.2.8 Gammafunktion
Die Funktion Γ : (0, ∞) → (0, ∞), die durch
ˆ
∞
Γ( p) =
y p−1 e− y d y
0
gegeben ist, heißt Gammafunktion.
Für die Gammafunktion gelten folgende Eigenschaften, die an dieser Stelle nicht bewiesen
werden:
i) Γ( p + 1) = p · Γ( p)
ii) Γ(1) = 1
iii) Γ( n + 1) = n! für n ∈ N
iv) Für alle p > 0 und b > 0 gilt die Identität
ˆ
Γ( p) = b
p
0
2 Vgl. Faltungen im Wahrscheinlichkeitstheorie-Skript.
14
∞
e−b y y p−1 d y.
1.2 Einfache Stichprobenfunktionen
Aus diesen Eigenschaften folgt leicht, dass die durch
y 7→ 1(0,∞) ( y) ·
b p −b y p−1
e
y
Γ( p)
definierte Funktion Dichte eines Wahrscheinlichkeitsmaßes auf R ist.
Definition 1.2.9 Gammaverteilung
Das Lebesgue-absolut stetige Wahrscheinlichkeitsmaß mit der Dichte
y 7→ 1(0,∞) ( y) ·
b p −b y p−1
e
y
Γ( p)
heißt Gammaverteilung mit den Parametern b > 0 und p > 0. Wir schreiben hierfür
Γ( b, p).
Lemma 1.2.10
Sei b > 0, p > 0 und X ∼ Γ( b, p). Dann gelten die folgenden Aussagen:
i) Die charakteristische Funktion ϕ X ( t) := E e itX mit t ∈ R gammaverteilter Zufallsvariablen hat die Gestalt
1
ϕ X ( t) = ¡
¢p
1 − it
b
( t ∈ R).
ii) Für k ∈ N gilt für die k-ten Momente
EX k =
p · ( p + 1) · . . . · ( p + k − 1)
bk
.
Daraus folgt, dass für alle k ∈ N auch X ∈ L k gilt
iii) Es sei X 1 ∼ Γ( b, p 1 ) und X 2 ∼ Γ( b, p 2 ) für unabhängige Zufallsvariablen X 1 und X 2 .
Dann gilt X 1 + X 2 ∼ Γ( b, p 1 + p 2 ).
Beweis:
i) Der Beweis dieser Eigenschaft erfolgt im Wesentlichen über den Identitätssatz für holomorphe Funktionen. Da dieser Gegenstand der Höheren Analysis ist werden wir den
Beweis hier nicht führen.
ii) Die k-te Ableitung von ϕ X ist
ϕ(k)
( t) =
X
p · ( p + 1) · . . . · ( p + k − 1)
bk
1
· ik · ¡
¢ p+ k .
1 − it
b
15
1 Einführung
Nach Satz II.4.7 des Wahrscheinlichkeitstheorie-Skriptes gilt E X k = i −k ϕ(k)
(0). Dies
X
entspricht genau der Identität, die wir zeigen wollen.
iii) Nach Satz II.4.8 des Wahrscheinlichkeitstheorie-Skriptes gilt ϕ X 1 + X 2 ( t) = ϕ X 1 ( t)ϕ X 2 ( t).
Durch Einsetzen und Anwendung des Eindeutigkeitssatzes für charakteristische Funktionen folgt dann die Aussage.
Korollar 1.2.11
Für die Exponentialverteilung exp(λ) mit λ > 0, welche für y ∈ R die Dichte f λ ( y) =
1(0,∞) ( y) · λ e−λ y besitzt, gelten die beiden folgenden Aussagen:
i) exp(λ) = Γ(λ, 1).
ii) Für unabhängige Yi ∼ exp(λ) gilt
∼ Γ(λ, n).
Pn
i =1 Yi
Beweis: Der Beweis erfolgt durch simples Nachrechnen.
Satz 1.2.12
Seien X 1 , . . . , X n unabhängige Zufallsvariablen mit X i ∼ N (0, 1). Dann gilt
µ
¶
n
X
1 n
2
Xi ∼ Γ ,
.
2 2
i =1
¡
¢
Die Verteilung Γ 12 , n2 heißt Chi-Quadrat-Verteilung mit n Freiheitsgraden. Wir schrei¡
¢
ben hierfür χ2n := Γ 12 , n2 . Die χ2n -Verteilung hat die Lebesgue-Dichte
y
n
y 2 −1 e− 2
y 7→ 1(0,∞) ( y) · n ¡ n ¢ .
22 Γ 2
1
2
2
2 , 2 zu zeigen, da die X 1 , . . . , X n unabhängig
t2
ϕ( t) = p1 e− 2 mit t ∈ R. Dann gilt für X := X 1 :
2π
Beweis: Es genügt X 12 ∼ Γ
Dichte von N (0, 1), also
¡1
¢
p
p
P ( X 2 ≤ a) = P (− a ≤ X ≤ a) =
ˆ
a
ˆ
ˆ
p
ˆ
a
ϕ( t) d t +
0
a
0
p
− a
p
p
1
1
=
p ϕ( s) d s +
p ϕ(− s) d s
0 2 s
0 2 s
ˆ a
µˆ a
¶
1
1 −s
1 −s
=p
p e 2 ds +
p e 2 ds
2π 0 2 s
0 2 s
ˆ a
1
s
1
=p
s− 2 e − 2 d s
2π 0
t=± s
16
ϕ( t) d t
sind. Sei ϕ die
1.2 Einfache Stichprobenfunktionen
1
s
p1 s− 2 e− 2
2π
s>0
0
s≤0
(
2
Die Verteilung von X hat damit die Dichte
, da die Verteilungsfunktionen
1
y
Maße eindeutig bestimmen. Dies entspricht y 7→ 1(0,∞) ( y) p1 y− 2 e− 2 für y ∈ R. Da Γ
2π
¡
¢
gilt3 folgt die Behauptung, denn die Dichte von Γ 12 , 21 ist
¡ 1 ¢ 21
1
¡1¢
2
=
p
π
1
y 7→ 1(0,∞) ( y) 2¡ 1 ¢ e− 2 y y− 2 .
Γ 2
Satz 1.2.13
Es seien X 1 , . . . , X n ∼ N (µ, σ2 ) unabhängige Zufallsvariablen. Dann gelten die folgenden
Aussagen:
³
´
2
i) X n ∼ N µ, σn .
ii)
(n−1)S 2n
σ2
∼ χ2n−1 = Γ
¢
n−1
,
2 2 .
¡1
iii) X n und S 2n sind unabhängig.
Beweis: Der Beweis des Satzes ist relativ kompliziert und wird daher an dieser Stelle nicht
geführt.
Definition 1.2.14 Student- t-Verteilung
Sei n ∈ N. Dann heißt die durch die Lebesguedichte
¡ 1¢
Γ n+
1
f ( x) = ¡ n2 ¢ ·
´ n+1
³
p
Γ 2
2
2
nπ 1 + xn
mit x ∈ R
gegebene Verteilung auf R die Student- t-Verteilung mit n Freiheitsgraden. Wir schreiben
dafür t n .
Satz 1.2.15
Es seien X ∼ N (0, 1) und Y ∼ χ2n unabhängige Zufallsvariablen. Dann gilt:
X
q ∼ tn
Y
n
3 Dies ist ein Ergebnis aus der Analysis.
17
1 Einführung
Kurz: Formal nicht ganz korrekt lässt sich dies als „
N (0,1)
r
χ2
n
n
= t n “ merken.
Beweis: Da der Beweis umfangreich und aufwändig ist wird er hier nicht geführt.
Korollar 1.2.16
Es seien X 1 , . . . , X n ∼ N (µ, σ2 ) unabhängige Zufallsvariablen. Dann gilt:
´
p ³
n Xn − µ
∼ t n−1
Sn
Beweis: Wir verwenden Satz 1.2.13, der uns sagt, dass X n und S 2n unabhängig sind. Nun ist
p X n −µ
n σ ∼ N (0, 1), wie wir im Wesentlichen schon im Beweis von Lemma 1.2.7 gezeigt haben.
Satz 1.2.13 sagte uns ferner, dass
(n−1)S 2n
σ2
∼ χ2n−1 gilt. Mit Satz 1.2.15 folgt nun
p ³ X n −µ ´
n σ
t n−1 ∼ r
(n−1)S 2n
σ2
·
1
n−1
´
p ³
n Xn − µ
=
Sn
.
Die nötige Unabhängigkeit folgt aus den obigen Überlegungen.
Bemerkungen:
• Die Aussage des Korollars 1.2.16 kann benutzt werden, um zu berechnen, wie weit X n von
µ mit vorgegebener Wahrscheinlichkeit abweicht, falls σ2 unbekannt ist.
• Die in diesem Abschnitt auftretenden Verteilungsfunktionen haben keine geschlossene
Formel. Man greift daher auf Tabellen, R, MatLab und andere Software zurück.
18
1.3 Die empirische Verteilungsfunktion
1.3 Die empirische Verteilungsfunktion
Nachdem wir uns mit einigen Grundbegriffen beschäftigt haben wollen wir uns nun eine
komplexere Stichprobenfunktion anschauen.
Definition 1.3.1 Empirische Verteilungsfunktion
Wir werden den Begriff der empirischen Verteilungsfunktion für Stichproben und für
Zufallsvariablen einführen:
• Es seien x1 , . . . , xn ∈ R. Dann heißt die Funktion
F n : R → [0, 1]
n
1X
t 7→
1(−∞,t] ( x i ) für t ∈ R
n i=1
die empirische Verteilungsfunktion zu der Stichprobe x1 , . . . , xn .
• Es seien X 1 , . . . , X n : (Ω, A , P ) → R unabhängig und identisch verteilte Zufallsvariablen. Dann heißt
F n ( t, ω) :=
n
1X
1(−∞,t] ( X i (ω))
n i=1
für t ∈ R und ω ∈ Ω
die empirische Verteilungsfunktion zu der Zufallsstichprobe X 1 , . . . , X n . Für ein festes
ω ∈ Ω ist dies eine Funktion F (·, ω) : R → [0, 1].
Die Funktionen t 7→ F n ( t) und t 7→ F n ( t, ω) für festes ω ∈ Ω sind Verteilungsfunktionen. Das zu
P
t 7→ F n ( t) zugehörige Maß heißt empirisches Maß und ist durch n1 ni=1 δ{ x i } gegeben, wobei δ{ x i }
das Dirac-Maß im Punkt x i ist.
x1
x2
x3
x4
Abbildung 1.1: Skizzenhafte Darstellung einer empirischen Verteilungsfunktion
19
1 Einführung
Satz 1.3.2 Glivenko-Cantelli
Es seien (Ω, A , P ) ein Wahrscheinlichkeitsraum, X i : Ω → R i. i. d. Zufallsvariablen und
F die Verteilungsfunktion von X 1 . Dann gilt
µ½
¾¶
P ω ∈ Ω : lim sup |F n ( t, ω) − F ( t)| = 0 = 1.
n→∞ t∈R
Mit anderen Worten konvergiert F n → F also P -fast sicher gleichmäßig.
Beweis: Für t ∈ R definieren wir die Zufallsvariablen Yn ( t) := 1(−∞,t] ( X n ) und Z n ( t) :=
1(−∞,t) ( X n ). Dann gilt, dass sowohl Yn als auch Z n jeweils i. i. d. sind. Ferner gilt
EYn ( t) = EP X n 1(−∞,t] = P X n ((−∞, t]) = F ( t)
und
−
F ( t0 ).
E Z n ( t) = EP X n 1(−∞,t) = P X 1 ((−∞, t)) = F ( t ) := lim
0
t %t
Mit dem SLLN für festes t ∈ R folgt dann
n
1X
Yi ( t) −→ EY1 ( t) = F ( t) und
n i=1
n
1X
F n ( t − , ω) =
Z n ( t) −→ E Z1 ( t) = F ( t− ),
n i=1
F n ( t, ω) =
wobei die Konvergenz jeweils P -fast sicher gilt. Unser Ziel ist es nun, die Monotonie und
rechtsseitige Stetigkeit zu verwenden, um aus diesen beiden Aussagen gleichmäßige Konvergenz zu folgern.n Definiere dazu oR := R ∪ {±∞} mit F (−∞) := 0 und F (∞) := 1. Für ein m ∈ N sei
j
ferner x j := inf x ∈ R : F ( x) ≥ m mit j = 0, . . . , m. Für eben solche j gilt dann:
i) Für x ∈ [ x j−1 , x j ) gilt
Stetigkeit von F .
ii) Für x ∈ [ x j−1 , x j ) folgt
j −1
m
j −1
m
≤ F ( x) <
j
m.
≤ F ( x− ) <
Dies folgt aus x j > x ≥ x j−1 und der rechtsseitigen
j
m,
wobei dies aus F ( x) ≤ F ( x− ) und x < x j folgt.
Wir definieren nun ferner
R n ( ω ) :=
max
j =1,...,m−1
n
|F n ( x j , ω) − F ( x j )| + |F n ( x−j , ω) − F ( x−j )|
o
.
Wegen den obigen Gleichungen gilt dann R n → 0 P -fast sicher. Für x ∈ [ x j−1 , x j ) folgt nun
ii)
F n ( x, ω) ≤ F ( x−j , ω) ≤ F ( x−j ) + R n (ω) ≤
i)
j
1
+ R n (ω) ≤ F ( x) + + R n (ω)
m
m
und
F n ( x, ω) ≥ F ( x j−1 , ω) ≥ F ( x j−1 ) − R n (ω) ≥
j−1
1
− R n (ω) ≥ F ( x) − − R n (ω).
m
m
Setzt man dies zusammen, so folgt insgesamt also sup x∈R |F n ( x, ω) − F ( x)| ≤
P -fast sicher.
20
1
m
+ R n (ω) → 0
1.3 Die empirische Verteilungsfunktion
Korollar 1.3.3
Sei (Ω, A , P ) ein Wahrscheinlichkeitsraum, X i : Ω → R i. i. d. Zufallsvariablen und P n,ω :=
1 Pn
n i =1 δ{ X i (ω)} das empirische Maß zu den Beobachtungen X 1 (ω), . . . , X n (ω). Für I :=
{(−∞, a] : a ∈ R} gilt dann
µ½
¾¶
P ω ∈ Ω : lim sup |P n,ω ( A ) − P X 1 ( A )| = 0 = 1.
n→∞ A ∈ I
Beweis: Für ein Intervall A ∈ I gilt
P n,ω ( A ) = P n,ω ((−∞, a]) =
n
n
1X
1X
δ{ X i (ω)} ((−∞, a]) =
1(−∞,a] ( X i (ω)) = F n ( t, ω).
n i=1
n i=1
Da zudem P X 1 ( A ) = F (a) gilt folgt die Aussage dann aus Satz 1.3.2.
Bemerkung: Es gibt noch andere Familien I ⊂ B , für welche die Aussage des Korollars 1.3.3
gilt. Beispiele hierfür sind {(−∞, a) : a ∈ R}, {[a, b] : a, b ∈ R}, sowie alle anderen Familien von
Intervallen, {[a, b] ∪ [ c, d ] : a, b, c, d ∈ R} und viele weiterer solcher Konstruktionen. Für I = B
gilt die Aussage jedoch nicht.
i
Eine genauere Beschreibung, wann dies für allgemeine, nicht notwendigerweise R-wertige Zufallsvariablen gilt, kann mit der so genannten
VC-Dimension von I gegeben werden.
21
2
Punktschätzungen
In diesem Kapitel wollen wir verschiedene Schätzer konstruieren und kennenlernen,
um einen unbekannten Parameter aus der Grundgesamtheit zu schätzen. Mit solchen
Punktschätzern werden in der Statistik viele grundlegende Größen geschätzt.
2.1 Grundlagen
Im Folgenden sei, sofern nicht anders erwähnt, stets das Modell gemeint, das wir nun beschreiben. Es sei wie gewohnt X = Rn und P eine Teilmenge aller P n , wobei P ein Wahrscheinlichkeitsmaß auf R ist. Ferner sei X i : Rn → R die i -te Projektion, so dass X := ( X 1 , . . . , X n ) aus
i. i. d. Zufallsvariablen besteht und P Xn = P gilt. Zusätzlich nehmen wir nun aber an, dass
i
Θ ⊂ Rm eine messbare Menge ist und wir eine Familie (Pϑ )ϑ∈Θ von Wahrscheinlichkeitsmaßen auf R haben, wobei für ϑ1 6= ϑ2 auch Pϑ1 6= Pϑ2 gelten soll. Wir schränken uns dann auf
P = {Pϑn : ϑ ∈ Θ} ein.
Unser Ziel ist es nun, den Parameter ϑ∗ zu schätzen, wobei wir von X i ∼ Pϑ∗ für ein „wahres“ –
aber unbekanntes – ϑ∗ ausgehen. Dazu suchen wir Verfahren, die gute Schätzungen für jedes
ϑ ∈ Θ liefern. Wir führen an dieser Stelle zudem die Schreibweisen Eϑ := EPϑ bzw. Eϑ := EP n
ϑ
und Varϑ := VarPϑ ein, wobei sich aus dem Zusammenhang ergeben wird, was genau gemeint
ist.
Definition 2.1.1 Schätzer
Eine Borel-messbare Funktion Θ̂ : Rn → Rm heißt Schätzer.
Die Idee hinter einem Schätzer ist die folgende: Ist ( x1 , . . . , xn ) ∈ Rn , so schätzt Θ̂( x1 , . . . , xn ) den
Parameter. Zu beachten ist hierbei, dass wir nicht Θ̂ ∈ Θ fordern, obwohl dies typischerweise
dennoch gilt. In diesem Fall heißt Θ̂ ◦ X := Θ̂( X 1 , . . . , X n ) Schätzung unserer Zufallsstichprobe
X 1, . . . , X n.
23
2 Punktschätzungen
Der Begriff des Schätzers ist damit natürlich sehr allgemein. Der nächste Schritt besteht daher
darin, Eigenschaften festzulegen, die wir von einem guten Schätzer erwarten. Wir wollen also
Eigenschaften festlegen, mit denen wir gute von schlechten Schätzern unterscheiden können.
Definition 2.1.2 Erwartungstreue
Es sei Θ̂ ein integrierbarer Schätzer (d. h. es gilt EPϑn |Θ̂( X 1 , . . . , X n )| < ∞ für alle ϑ ∈ Θ
bzw. – äquivalent hierzu – es gilt Θ̂ ◦ X ∈ L 1 (Pϑn )). Dann heißt Θ̂:
i) erwartungstreu oder unverzerrt genau dann, wenn Eϑ Θ̂( X 1 , . . . , X n ) = ϑ für alle
ϑ ∈ Θ gilt.
ii) asymptotisch erwartungstreu genau dann, wenn lim Eϑ Θ̂( X 1 , . . . , X n ) = ϑ für alle
n→∞
ϑ ∈ Θ gilt.
Es ist klar, dass aus Erwartungstreue auch asymptotische Erwartungstreue folgt.
Einige Beispiele sind:
• Das arithmetische Mittel X n ist ein erwartungstreuer Schätzer für den Erwartungswert.
Sei Θ ⊂ R und Eϑ X 1 = ϑ, dann folgt die Unverzerrtheit aus Lemma 1.2.2.
• Die Stichprobenvarianz S 2n ist ein erwartungstreuer Schätzer für die Varianz. Es sei Θ ⊂ R
und Varϑ X 1 = ϑ; die Erwartungstreue folgt dann aus Lemma 1.2.5.
P
1 2
2
• Wir definieren Θ̂( x1 , . . . , xn ) := n1 ni=1 ( x i − xn )2 , dann ist Θ̂ ◦ X = n−
n S n . Da S n unverzerrt
1
n−1
ist, aber n−
n 6= 1 gilt, ist Θ̂ nicht erwartungstreu. Wegen n → 1 ist der Schätzer jedoch
asymptotisch erwartungstreu.
• Kombination von Schätzern: Die Kombination ( X n , S 2n ) ist ein erwartungstreuer Schätzer
für (Erwartungswert, Varianz). Formal heißt das für Θ ⊂ R2 , dass (Eϑ X 1 , Varϑ X 1 ) = ϑ für
alle ϑ ∈ Θ gilt.
Definition 2.1.3 Verzerrung/Bias
Es sei Θ̂ ein integrierbarer Schätzer. Dann heißt
¡
¢
Biasϑ Θ̂ := Eϑ Θ̂ ◦ X − ϑ
die Verzerrung oder der Bias bezüglich ϑ.
Beispiel
1 2
1
1 2
Wir wollen den Bias für Θ̂ ◦ X := n−
n S n berechnen. Es gilt Biasϑ Θ̂ = − n Varϑ X 1 = − n σ mit
σ2 := Varϑ X 1 , d. h. Θ̂ unterschätzt den zu schätzenden Parameter σ2 systematisch. Man leitet
sich das wie folgt her:
Eϑ
24
n−1 2
n−1 2
1
S n − σ2 =
σ − σ2 = − σ2
n
n
n
2.1 Grundlagen
Uns stellt sich nun aber das Problem, dass wir im Allgemeinen nicht erwarten können, dass
unser Schätzer exakte Schätzungen liefert, d. h. im Allgemeinen gilt Θ̂( X 1 , . . . , X n ) 6= ϑ für
X i ∼ Pϑ mit ϑ ∈ Θ. Die Frage ist nun also, wie wir solche Abweichungen beschreiben können.
Definition 2.1.4 Verlustfunktion
Eine messbare Funktion L : Θ × Rm → [0, ∞) heißt Verlustfunktion.
Wir können dies so interpretieren, dass L(ϑ, Θ̂) die Abweichung der Schätzung θ̂ ∈ Rm von
dem Parameter ϑ schätzt. Je kleiner L(ϑ, θ̂ ) ist, desto besser ist die Schätzung. Oft gilt daher
zusätzlich L(ϑ, θ̂ ) = 0 für ϑ = θ̂ .
Wir wollen uns nun ein Beispiel für eine Verlustfunktion anschauen, die wir immer wieder benötigen werden. Genauer gesagt ist es vorläufig die einzige Verlustfunktion, die uns
beschäftigen wird.
Beispiel
Gauß- oder Least-Squares-Verlustfunktion
Wir betrachten die Funktion L : R × R → [0, ∞) mit L(ϑ, Θ̂) := (ϑ − Θ̂)2 und nennen sie Verlustfunktion der kleinsten Quadrate. Wir können diese Funktion problemlos auf m Dimensionen
°
°2 P
2
verallgemeinern vermöge °ϑ − Θ̂°2 = m
i =1 (ϑ i − Θ̂ i ) , wobei ϑ = (ϑ1 , . . . , ϑ m ) und Θ̂ = (Θ̂1 , . . . , Θ̂ m )
ist. Definition 2.1.5 Risiko/Erwarteter Verlust
Es sei Θ̂ : Rn → Rm ein Schätzer und L : Θ × Rm → [0, ∞) eine Verlustfunktion. Dann
heißt die Abbildung
ˆ
R (ϑ, Θ̂) :=
L(ϑ, Θ̂ ◦ X ) dPϑn
der erwartete Verlust oder das Risiko des Schätzers Θ̂.
Zu beachten ist, dass R (ϑ, Θ̂) = ∞ durchaus vorkommen kann. Wir können eine Risikofunktion
so interpretieren, dass sie den durchschnittlichen Verlust angibt, wenn wir Θ̂ sehr häufig auf
Beobachtungen der Länge n anwenden. Dieser erwartete Verlust sollte natürlich möglichst
klein sein.
Satz 2.1.6
Es sei Θ̂ : Rn → R ein integrierbarer Schätzer und L die Verlustfunktion der kleinsten
Quadrate. Dann gilt für alle ϑ ∈ Θ:
¡
¢2
R (ϑ, Θ̂) = Varϑ Θ̂ ◦ X + Biasϑ Θ̂
25
2 Punktschätzungen
Beweis: Für den Beweis betrachte
ˆ
(ϑ − Θ̂ ◦ X )
dPϑn
ˆ
ˆ
Θ̂ ◦ X
(Θ̂ ◦ X )2 dPϑn
ˆ
µˆ
¶2 µˆ
¶2 ˆ
2
n
n
n
= ϑ − 2ϑ Θ̂ ◦ X dPϑ +
Θ̂ ◦ X dPϑ −
Θ̂ ◦ X dPϑ + (Θ̂ ◦ X )2 dPϑn
ˆ
µˆ
¶2
2
n
n
= ϑ − 2ϑ Θ̂ ◦ X dPϑ +
Θ̂ ◦ X dPϑ
|
{z
}
R (ϑ, Θ̂) =
2
dPϑn +
2
= ϑ − 2ϑ
=(Biasϑ Θ̂)2
õˆ
−
Θ̂ ◦ X dPϑn
|
ˆ
¶2
−
!
(Θ̂ ◦ X )2 dPϑn .
{z
}
=− Varϑ Θ̂◦ X
Damit haben wir genau die gewünschte Identität.
Bemerkungen:
• Die Güte eines Schätzers bezüglich der Verlustfunktion der kleinsten Quadrate wird also
durch den Bias und die Varianz beschrieben.
• Ist Θ̂ unverzerrt, so lässt sich die Güte allein durch die Varianz berechnen.
Beispiel
Für den Schätzer S 2n gilt R (ϑ, S 2n ) = Varϑ S 2n , da S 2n wie wir wissen unverzerrt ist. Für
1 Pn
2
n i =1 ( x i − x n ) gilt hingegen
n−1 2
n Sn
=
¶ µ
¶
µ
¶
µ
n−1 2
n−1 2
n−1 2 2
2
Sn =
Sn
R ϑ,
Varϑ S n + Biasϑ
n
n
n
µ
¶
n−1 2
1
=
Varϑ S 2n + 2 (Varϑ X 1 )2 .
n
|n
{z
}
| {z }
≥0=(Biasϑ S 2n )2
<1
Die Frage ist nun, welche dieser beiden Abschätzungen überwiegt. Sei z. B. X i ∼ N (µ, σ2 ),
σ4
dann kann gezeigt werden, dass Varσ2 S 2n = n2−
1 ist. Damit folgt
¶
¶ µ
n−1 2
n − 1 2 2σ 4
1
(2 n − 1)σ4 (2 n − 1)( n − 1) 2σ4
R σ ,
Sn =
+ 2 σ4 =
=
·
n
n
n−1 n
n2
2{z
n2
|
} n−1
µ
2
<1
< Varσ2 S 2n
= R (σ
2
, S 2n ).
Wir können uns nun fragen, ob diese Abschätzung immer gilt. Dafür definieren wir den
Exass-Kurtosis von Verteilungen als
κϑ :=
26
Eϑ ( X 1 − Eϑ X 1 )4
σ4ϑ
− 3.
2.1 Grundlagen
Auf genauere Herleitungen und dergleichen wollen wir hier ebenso verzichten wie auf den
Nachweis dieser Gleichung:
¶
µ
κϑ
2
2
2
4
Zϑ := Varϑ S n = σϑ
+
n−1 n
¢
¡
1 2
2
Nun gilt R ϑ, n−
n S n ≤ R (ϑ, S n ) genau dann, wenn
µ
n−1
n
¶2
Zϑ2 +
µ
µ
¶ ¶
1 4
1 4
n − 1 2 2 2n − 1 2
2
σ ≤ Zϑ ⇐⇒ 2 σϑ ≤ 1 −
Zϑ =
Zϑ
n
n2 ϑ
n
n2
µ
¶
2
κϑ
4
4
⇐⇒ σϑ ≤ (2 n − 1)σϑ
+
n−1 n
2n − 1
4n − 2 1 − 3n
⇐⇒ κϑ
≥ 1−
=
n
n−1
n−1
n
3
1 − 3n
·
%− .
⇐⇒ κϑ ≥
n − 1 2n − 1
2
¡
¢
1 2
Damit können wir nun folgern, dass für κϑ ≥ − 32 für alle n ≥ 2 folgt, dass R ϑ, n−
Sn <
n
¡
¢
R ϑ, S 2n gilt. Umgekehrt gilt für κϑ < − 32 , dass es ein n 0 gibt, so dass für alle n ≥ n 0 die
¡
¢
¡
¢
1 2
2
umgekehrte Abschätzung R ϑ, n−
n S n > R ϑ, S n gilt. Wir geben hier noch einige Beispiele
für den Exass-Kurtosis:
• Für N (µ, σ2 ) gilt κ = 0.
• Für die Gleichverteilung auf [a, b] ist κ = −1.2.
• Für B(1, p) ist κ =
p=
1
2,
1−6p(1− p)
p(1− p) .
Damit gilt κ < − 23 genau für p ∈
2
3, 3
¡1
¢
. Insbesondere gilt für
dass κ = −2 ist. Man kann zeigen, dass κ ≥ −2 für alle Verteilungen gilt. 27
2 Punktschätzungen
2.2 Optimalität von Schätzern
Wir wollen nun davon ausgehen, dass wir 1-dimensionale Schätzprobleme vorliegen haben, es
gilt also Θ ⊂ R. Ferner sei L stets die Verlustfunktion der kleinsten Quadrate. Wir stellen uns
nun die Frage, wann ein Schätzer gleichmäßig besser bezüglich des erwarteten Verlustes ist als
alle anderen Schätzer. Die erste Beobachtung ist, dass es im Allgemeinen keinen gleichmäßig
besten Schätzer gibt. Im folgenden Satz fassen wir dies genauer:
Satz 2.2.1
Es sei Θ ⊂ R messbar mit |Θ| ≥ 2 und (Pϑ )ϑ∈Θ sei derart, dass es ϑ1 6= ϑ2 aus Θ mit
Pϑ2 ¿ Pϑ1 gibt, d. h. aus Pϑ1 ( N ) = 0 folgt auch Pϑ2 ( N ) = 0 für alle messbaren N ⊂ R.
Dann gilt für die Verlustfunktion der kleinsten Quadrate, dass es für alle Schätzer
Θ̂ : Rn → R einen Schätzer Θ̂0 : Rn → R und ein ϑ ∈ Θ mit R (ϑ, Θ̂0 ) < R (ϑ, Θ̂) gibt.
Beweis: Wir betrachten
Θ̂ i : Rn → R mit Θ̂ i ( x) := ϑ i für i ∈ {1, 2} und alle x ∈ Rn .
´ die Schätzer
Dann gilt R (ϑ i , Θ̂ i ) = (ϑ i − Θ̂ i ( x))2 dPϑn ( x) = 0. Es sei nun Θ̂ : Rn → R ein beliebiger Schätzer.
i
Wäre R (ϑ1 , Θ̂1 ) < R (ϑ1 , Θ̂), so wären wir bereits fertig. Es sei daher nun R (ϑ1 , Θ̂1 ) ≥ R (ϑ1 , Θ̂).
Wegen R (ϑ1 , Θ̂1 ) = 0, R (ϑ1 , Θ̂) ≥ 0 und
ˆ
0 = R (ϑ1 , Θ̂1 ) = R (ϑ1 , Θ̂) =
(ϑ1 − Θ̂)2 dPϑn1
| {z }
≥0
folgt Pϑn -fast sicher auch Θ̂ = ϑ1 . Da ferner Pϑ2 ¿ Pϑ1 ist folgt mit dem Satz von Radon1
´
Nikodym, dass Pϑ2 eine Dichte f bezüglich Pϑ1 hat, d. h. es gilt Pϑ2 ( A ) = A f dPϑ1 . Mit dem
N
Satz von Fubini folgt dann, dass 1n f ( x) := f ( x1 ) · . . . · f ( xn ) eine Dichte von Pϑn bezüglich Pϑn ist.
2
1
Wenden wir wieder den Satz von Radon-Nikodym an, so folgt Pϑn ¿ Pϑn . Dann folgt Pϑn -fast
sicher Θ̂ = ϑ1 und damit schließlich
2
1
2
ˆ
R (ϑ2 , Θ̂) =
(ϑ2 − Θ̂)2 dPϑn2 = (ϑ2 − ϑ1 )2 > 0 = R (ϑ2 , Θ̂2 ).
Bemerkungen:
• Dieses Ergebnis gilt auch für allgemeinere Verlustfunktionen und mehrdimensionale Parametermengen, wenn ein paar technische Modifikationen vorgenommen werden. Insbesondere sollte angenommen werden, dass L(ϑ, ϑ) < L(ϑ, ϑ0 ) für alle ϑ 6= ϑ0 ist.
• Der Beweis funktioniert, da die Schätzer Θ̂ i den Parameter ϑ i „kennen“. Gegen solche
Schätzer hat es keinen Sinn zu vergleichen.
In einem ersten Ansatz können wir konstante Schätzer ausschließen und die Eingangsfrage
erneut stellen. Wir werden in Korollar 2.2.3 sehen, dass dieser Ansatz das Problem jedoch
nicht löst.
28
2.2 Optimalität von Schätzern
Satz 2.2.2
Es sei Θ ⊂ R und Θ̂1 , Θ̂2 : Rn → R seien quadrat-integrierbare Schätzer, d. h. es gilt
Eϑ Θ̂2i < ∞ für alle ϑ ∈ Θ und i ∈ {1, 2}. Ferner seien Θ̂1 und Θ̂2 unterschiedlich, d. h.
Eϑ (Θ̂1 − Θ̂2 )2 > 0 für alle ϑ ∈ Θ. Dann gilt für alle ϑ ∈ Θ und alle α ∈ (0, 1):
R (ϑ, αΘ̂1 + (1 − α)Θ̂2 ) < αR (ϑ, Θ̂) + (1 − α)R (ϑ, Θ̂).
Mit anderen Worten bedeutet dies, dass R (ϑ, ·) eine strikt konvexe Abbildung ist.
Beweis: Wir definieren h : [0, 1] → [0, ∞) durch h(α) := R (ϑ, αΘ̂1 +(1−α)Θ̂2 ) und wollen zeigen,
dass h strikt konvex ist, denn dann folgt
h(α) = h(α · 1 + (1 − α) · 0) < α h(1) + (1 − α) h(0) = αR (ϑ, Θ̂1 ) + (1 − α)R (ϑ, Θ̂2 ).
Aus der Analysis wissen wir, dass es bereits genügt, zu zeigen, dass h zweimal stetig differenzierbar mit stetigen Fortsetzungen auf den Rändern [0, 1] ist und dass h00 (α) > 0 für alle
α ∈ (0, 1) gilt. Mit Hilfe der trinomischen Formel (a + b + c)2 = a2 + b2 + c2 + 2ab + 2ac + 2 bc
erhalten wir nun
ˆ
h(α) =
ˆ
¡
¢2
ϑ − αΘ̂1 − (1 − α)Θ̂2 dPϑn
ϑ2 + α2 Θ̂21 + (1 − α)2 Θ̂22 − 2ϑαΘ̂1 − 2ϑ(1 − α)Θ̂2 + 2α(1 − α)Θ̂1 Θ̂2 dPϑn .
=
Da dies im Wesentlichen ein Polynom ist, folgt nun
ˆ
2αΘ̂21 − 2(1 − α)Θ̂22 − 2ϑΘ̂1 + 2ϑΘ̂2 + 2(1 − 2α)Θ̂1 Θ̂2 dPϑn .
0
h (α) =
Nochmaliges Ableiten liefert
ˆ
00
h (α) =
ˆ
2Θ̂21 + 2Θ̂22 − 4Θ̂1 Θ̂2
dPϑn
=2
¡
¢2
Θ̂1 − Θ̂2 dPϑn > 0.
Korollar 2.2.3
Es sei Θ ⊂ R, L die Verlustfunktion der kleinsten Quadrate und Θ̂ : Rn → R ein Schätzer
mit R (ϑ, Θ̂) > 0 für ein ϑ ∈ Θ, d. h. Θ̂ ist Pϑn -fast sicher nicht konstant. Dann gibt es einen
Schätzer Θ̂0 : Rn → R mit 0 < R (ϑ, Θ̂0 ) < R (ϑ, Θ̂).
Mit anderen Worten ist Θ̂0 also ein nicht-konstanter Schätzer, der echt besser als Θ̂ ist.
Ist Θ ferner beschränkt und Θ̂ unverzerrt, so können für Θ̂0 für beliebiges ε > 0 so wählen,
dass | Biasϑ0 Θ̂0 | ≤ ε für alle ϑ0 ∈ Θ gilt.
29
2 Punktschätzungen
Beweis: Wir setzen Θ̂ϑ ( x) := 0 für alle x ∈ Rn und Θ̂0 := (1 − α)Θ̂ + αΘ̂ϑ für ein α ∈ (0, 1). Mit
Satz 2.2.2, der die Konvexität behandelte, folgt nun
R (ϑ, Θ̂0 ) < (1 − α)R (ϑ, Θ̂) + α R (ϑ, Θ̂ϑ ) < R (ϑ, Θ̂).
| {z }
=0
Wäre R (ϑ, Θ̂0 ) = 0, so folgt ferner Pϑn -fast sicher Θ̂0 = 0 und daraus wiederum Pϑn -fast sicher ϑ =
(1 − α)Θ̂ + αϑ. Dann wäre aber ϑ = Θ̂ und wir erhielten einen Widerspruch zur vorausgesetzten
nicht-Konstantheit.
Für die zweite Aussage des Korollars betrachten wir
¡
¢
¡
¢
Biasϑ0 Θ̂0 = Eϑ0 (1 − α)Θ̂ + αϑ − ϑ0 = Eϑ0 (1 − α)Θ̂ − (1 − α)ϑ0 +α(ϑ − ϑ0 ) = α(ϑ − ϑ0 ).
|
{z
}
=Biasϑ0 Θ̂=0
Wir können α nun klein genug wählen und erhalten so die Aussage des Korollars.
Bemerkungen:
• Aus dem zweiten Teil des Beweises erhalten wir auch die Aussage Biasϑ Θ̂0 = 0.
• Das Korollar gilt auch für alle anderen strikt konvexen Verlustfunktionen, da sich die
strikte Konvexität von L auf R (ϑ, ·) überträgt. Dies ist technisch ein wenig aufwendiger,
konzeptionell aber analog beweisbar.
Das Fazit dieser Arbeit ist nun, dass wir die Klasse der betrachteten Schätzer deutlich weiter
einschränken müssen, wenn wir die Existenz gleichmäßig bester Schätzer garantieren wollen.
Dies führt uns zur nun folgenden Definition 2.2.4.
Definition 2.2.4 Bester unverzerrter Schätzer
Es sei Θ̂∗ : Rn → R ein unverzerrter, quadrat-integrierbarer Schätzer. Dann heißt Θ̂∗
bester unverzerrter Schätzer genau dann, wenn R (ϑ, Θ̂∗ ) ≤ R (ϑ, Θ̂) für alle unverzerrten
Schätzer Θ̂ : Rn → R und alle ϑ ∈ Θ gilt.
Nach Satz 2.1.6 ist dies äquivalent dazu, dass Varϑ Θ̂∗ ≤ Varϑ Θ̂ für alle Schätzer Θ̂ : Rn →
R und alle ϑ ∈ Θ gilt.
Damit haben wir zunächst den Begriff des besten unverzerrten Schätzers definiert, müssen
uns nun also fragen, ob es einen solchen Schätzer Θ̂∗ überhaupt gibt und falls ja, ob dieser
eindeutig ist.
Satz 2.2.5
Es sei Θ ⊂ R messbar und (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen. Dann
gibt es höchstens einen besten unverzerrten Schätzer Θ̂∗ .
30
2.2 Optimalität von Schätzern
¡
¢2
Beweis: Es seien Θ̂∗ und Θ̂× zwei beste unverzerrte Schätzer mit Eϑ Θ̂∗ − Θ̂× > 0 für
ein ϑ ∈ Θ. Damit sind diese beiden Schätzer insbesondere nicht gleich. Wir definieren nun
Θ̂ := 12 Θ̂∗ + 12 Θ̂× und sehen, dass Θ̂ ebenfalls quadrat-integrierbar und unverzerrt ist. Aus der
Optimalität folgt R (ϑ, Θ̂∗ ) ≤ R (ϑ, Θ̂× ) und ebenso die umgekehrte Ungleichung. Mit Satz 2.2.2
folgt nun
1
1
1
1
R (ϑ, Θ̂) < R (ϑ, Θ̂∗ ) + R (ϑ, Θ̂× ) = R (ϑ, Θ̂∗ ) + R (ϑ, Θ̂∗ ) = R (Θ, Θ̂∗ ).
2
2
2
2
Dies steht jedoch im Widerspruch zur Optimalität von Θ̂∗ .
Definition 2.2.6 Nullschätzer
Ein integrierbarer Schätzer 0̂ : Rn → R heißt Nullschätzer für ein ϑ0 ∈ Θ genau dann,
wenn die folgenden beiden Bedingungen erfüllt sind:
³
´
i) 0̂ ∈ L 2 Pϑn , das heißt Eϑ0 0̂2 < ∞.
0
ii) Eϑ 0̂ = 0 für alle ϑ ∈ Θ.
Ferner heißt 0̂ Nullschätzer genau dann, wenn 0̂ Nullschätzer für alle ϑ ∈ Θ ist.
Bemerkungen:
³
´
• Die Menge der Nullschätzer bezüglich ϑ0 ist ein linearer Teilraum von L 2 Pϑn , da Eϑ0
0
linear ist.
³
´
• Sind Θ̂, Θ̂0 ∈ L 2 Pϑn unverzerrte Schätzer, so ist 0̂ := Θ̂ − Θ̂0 ein Nullschätzer für ϑ0 . Umge0
³
´
n
kehrt gilt auch: Ist Θ̂ ∈ L 2 Pϑ unverzerrt und 0̂ ein Nullschätzer, so ist Θ̂0 := Θ̂ + t0̂ für alle
0
t ∈ R unverzerrt.
Satz 2.2.7 Satz von Rao
³
´
Es sei Θ̂ : Rn → R ein unverzerrter Schätzer und ϑ0 ∈ Θ derart, dass Θ̂ ∈ L 2 Pϑn gilt.
0
Dann sind folgende Aussagen äquivalent:
³
´
i) Es gilt R (ϑ0 , Θ̂) ≤ R (ϑ0 , Θ̂0 ) für alle unverzerrten Schätzer Θ̂0 ∈ L 2 Pϑn .
0
ii) Es gilt Eϑ0 Θ̂0̂ = 0 für alle Nullschätzer 0̂ bezüglich ϑ0 .
Insbesondere ist Θ̂ bester unverzerrter Schätzer genau dann, wenn Eϑ Θ̂0̂ = 0 für alle
Nullschätzer 0̂ und alle ϑ ∈ Θ gilt.
Beweis: Für die Richtung
³
´ von i) nach ii) sei t ∈ R und 0̂ ein Nullschätzer bezüglich ϑ0 . Dann
n
0
ist Θ̂ := Θ̂ + t0̂ ∈ L 2 Pϑ unverzerrt. Damit gilt R (ϑ0 , Θ̂) = Varϑ0 Θ̂ und R (ϑ0 , Θ̂0 ) = Varϑ0 Θ̂0 .
0
31
2 Punktschätzungen
¡
¡
¢
¢
Für t > 0 gilt nach Voraussetzung zudem 0 ≤ t−1 Varϑ0 Θ̂ + t0̂ − Varϑ0 Θ̂ . Überdies gilt auch
die allgemeine Formel
Var( X + Y ) = E( X − E X + Y − EY )2
= Var X + Var Y + 2 E(( X − E X )(Y − EY )) ,
|
{z
}
=:Cov(X ,Y )
wobei Cov( X , Y ) die wie hier definierte Kovarianz bezeichnet. Damit folgt nun
¡
¢
0 ≤ t−1 Varϑ0 Θ̂ + t2 Varϑ0 0̂ + 2 t Cov(Θ̂, 0̂) − Varϑ0 Θ̂
= 2 Cov(Θ̂, 0̂) + t Varϑ0 0̂.
Für t & 0 folgt dann Cov(Θ̂, 0̂) ≥ 0. Analog gilt für t < 0 auch 0 ≥ 2 Cov(Θ̂, 0̂) + t Varϑ0 0̂ und
damit Cov(Θ̂, 0̂) ≤ 0. Insgesamt erhalten wir also
¡¡
¢¡
¢¢
0 = Cov(Θ̂, 0̂) = Eϑ0 Θ̂ − Eϑ0 Θ̂ 0̂ − Eϑ0 0̂ = Eϑ0 Θ̂0̂ − ϑ0 Eϑ0 0̂
(*)
= Eϑ0 Θ̂0̂.
³
´
Für die Richtung von ii) nach i) sei Θ̂0 ∈ L 2 Pϑn unverzerrt. Dann ist 0̂ := Θ̂0 − Θ̂ ein Nullschät0
zer und wegen Varϑ0 ≥ 0 folgt:
¡
¢
Varϑ0 Θ̂0 = Varϑ0 Θ̂ + 0̂ = Varϑ0 Θ̂ + Varϑ0 0̂ + 2 Cov(Θ̂, 0̂)
(*)
≥ Varϑ0 Θ̂ + 2Eϑ0 Θ̂0̂ = Varϑ0 Θ̂.
Beispiel 2.2.8 Anwendung des Satzes von Rao
Es sei Pϑ := B(1, ϑ) für ϑ ∈ [0, 1]. Dann ist X n bester unverzerrter Schätzer für ϑ.
Beweis: Zunächst ist nach Lemma 1.2.2 klar, dass X n quadrat-integrierbar und unverzerrt
ist. Unser Ziel ist es, Satz 2.2.7 anzuwenden. Dazu sei 0̂ : Rn → R ein Nullschätzer und
h : [0, 1] → R mit h(ϑ) := Eϑ 0̂ für ϑ ∈ [0, 1]. Offensichtlicherweise folgt daraus h(ϑ) = 0 und
damit auch h0 (ϑ) = 0 für alle ϑ ∈ [0, 1]. Andererseits gilt
Pn
Pn
X
h(ϑ) = 0̂( x)ϑ i=1 x i (1 − ϑ)n− i=1 x i ,
x∈{0,1}n
woraus wir dann für die Ableitung das Folgende erhalten:
µ
¶
X
nxn n − nxn nxn
0
0 = h (ϑ) = 0̂( x)
θ (1 − ϑ)n−nxn
−
ϑ
1−ϑ
x∈{0,1}n
³
´
n
=
Eϑ X n − ϑ 0̂
ϑ(1 − ϑ)
n
=
Eϑ X n 0̂
ϑ(1 − ϑ)
Damit sind wir für ϑ ∈ (0, 1) fertig. Die beiden Randpunkte können separat elementar betrachtet werden, dies führen wir hier jedoch nicht aus.
32
2.2 Optimalität von Schätzern
Dies beendet unser Beispiel. Bemerkungen:
i) Die entwickelte Theorie benötigt keine reellen Beobachtungen. Alles bleibt unverändert
für allgemeine x i ∈ X .
ii) Satz 2.2.7 liefert noch für einige andere Schätzer die Optimalität. Der Satz liefert uns
jedoch lediglich ein Kriterium zur Verifizierung der Optimalität, nicht jedoch zur Konstruktion optimaler Schätzer.
iii) Die Bedingung ii) des Satzes besagt, dass der beste unverzerrte Schätzer orthogonal zu
den Nullschätzern ist.
iv) Die Existenz bester unverzerrter Schätzer ist eher unüblich als üblich.
Satz 2.2.9 Satz von Chapman-Robbins
Es seien ϑ0 6= ϑ ∈ Θ und Pϑ ¿ Pϑ0 . Ferner sei f die Dichte von Pϑ bezüglich Pϑ0 und
N
f n := 1n f , das heißt f n ( x) = f ( x1 ) · . . . · f ( xn ), sowei Θ̂ : Rn → R ein erwartungstreuer
Schätzer. Dann gilt
R (ϑ0 , Θ̂) = Varϑ0 (Θ̂) ≥
Beweis: Wir betrachten zunächst
ˆ
ϑ − ϑ0 = Eϑ (Θ̂) − Eϑ0 (Θ̂) =
wobei der letzte Schritt wegen
Ungleichung folgt nun
n
ˆ
Θ̂ f − Θ̂
´
(ϑ − ϑ0 )2
.
Varϑ0 ( f n )
dPϑn0
=
ˆ
n
Θ̂( f − 1)
dPϑn0
=
¡
Θ̂ − ϑ0
¢¡
¢
f n − 1 dPϑn0 ,
f n − 1 dPϑn = 0 folgt. Durch Anwendung der Cauchy-Schwartz0
³
¡
¢2 ´ 12 ³
¢1 ¡
¡
¢2 ´ 12 ¡
¢1
≤ Eϑ0 Θ̂ − ϑ0
Eϑ0 f n − 1
= Varϑ0 Θ̂ 2 Varϑ0 f n 2 .
Durch Quadrieren erhalten wir dann das Gewünschte.
Korollar 2.2.10
Es seien die selben Voraussetzungen wie im vorausgehenden Satz 2.2.9 gegeben. Ferner
sei Θ̂ : Rn → R ein unverzerrter Schätzer, für welchen die Gleichheit
(ϑ − ϑ0 )2
Varϑ0 Θ̂ =
Varϑ0 f n
gelte. Dann ist Θ̂ bester unverzerrter Schätzer für ein ϑ.
33
2 Punktschätzungen
Beweis: Die Gültigkeit der Aussage des Korollars ist klar, wenn ein Schätzer, wie vorausgesetzt, die untere Schranke des vorausgehenden Satzes annimmt.
Im Allgemeinen wird die untere Schranke nicht angenommen. Notwendig zum Annehmen
der Schranke ist Θ̂ − ϑ0 = c( f n − 1) mit c ∈ R, da dann die Cauchy-Schwartz-Ungleichung eine
echte Gleichung wird.
34
2.3 Konstruktionsmethoden für Punktschätzer
2.3 Konstruktionsmethoden für Punktschätzer
Wir wollen nun verschiedene Verfahren kennenlernen, um Schätzer zu konstruieren und diese
näher untersuchen.
Momentenmethode
Die erste Methode zur Konstruktion von Punktschätzern, die wir hier einführen wollen, ist die
Momentenmethode nach Karl Pearson (*1857 – †1936).
Dazu sei Θ ⊂ Rm für ein m ∈ R und Eϑ | X i |r < ∞ für ein r ≥ m und alle ϑ ∈ Θ. Ferner seien die
Funktionen g k : Θ → R mit g k (ϑ) := Eϑ X 1k für k ∈ {1, . . . , r } bekannt. Dann ist unser Ansatz wie
folgt:
P
• Für x = ( x1 , . . . , xn ) ∈ Rn betrachten wir die k-ten empirischen Momente m̂ k ( x) = n1 ni=1 x ki .
• Wir setzen m̂ k ( x) = g k (ϑ) für k = 1, . . . , r und versuchen dieses Gleichungssystem zu lösen.
• Wir betrachten nun die Abbildung g := ( g 1 , . . . , g r ) : Θ → Rr mit g(Θ) := { g(ϑ) : ϑ ∈ Θ} und
m̂ := ( m̂ 1 , . . . , m̂ r ) : Rr → Rr .
Definition 2.3.1 Momentenschätzer
Falls m̂( x) ⊂ g(Θ) für alle x ∈ Rn gilt und g injektiv ist nennen wir
Θ̂ = g−1 ◦ m̂ : Rr → Θ
einen Momentenschätzer, falls Θ̂ zudem messbar ist.
Bemerkungen:
• Die Voraussetzung m̂( x) ⊂ g(Θ) sichert, dass das Gleichungssystem mindestens eine Lösung
hat.
• Die Injektivität von g macht es möglich, das Gleichungssystem sogar eindeutig zu lösen.
• Falls g−1 stetig ist, so ist Θ̂ ein Momentenschätzer, der überdies konsistent ist, denn es gilt
dann Pϑ∞ -fast sicher
m̂ k ◦ X = m̂ k ( X 1 , . . . , X n ) =
n
1X
X ik ,
n i=1
woraus Eϑ X 1k = g k (ϑ) und damit wiederum m̂ ◦ X → g(ϑ) Pϑ∞ -fast sicher folgt. Dann folgt
Pϑ∞ -fast sicher aber auch Θ̂( X ) = g−1 ◦ m̂( X ) → ϑ.
Beispiel
Normalverteilung
Es sei Θ = R × (0, ∞) und Pϑ = N (µ, σ2 ) für ϑ = (µ, σ2 ). Dann ist m = 2 und r = 2. Ferner ist
35
2 Punktschätzungen
g 1 (µ, σ2 ) = E(µ,σ2 ) X 1 = µ und g 2 (µ, σ2 ) = E(µ,σ2 ) X 12 = σ2 + µ2 . Damit erhalten wir das folgende
Gleichungssystem:
i)
ii)
n
1X
xi = µ
n i=1
n
1X
x2i = µ2 + σ2
n i=1
Daraus folgt nun
Ã
!
Ã
!2
n
n
n
n
1X
1X
1 X
1X
2
2
2
σ =
xi −
xi =
x i − xn =
( x i − xn )2 ,
n i=1
n i=1
n i=1
n i=1
2
wobei wir die letzte Gleichheit ³bereits im Beweis
von Lemma 1.2.5 gezeigt hatten. Damit ist
´
n−1 2
der Momentenschätzer durch X n , n S n gegeben. Insbesondere ist dieser Schätzer nicht
erwartungstreu. Beispiel
Binomialverteilung
Wir betrachten nun Θ = N × [0, 1] und Pϑ = B( k, p) für ϑ = ( k, p). Mit anderen Worten bedeutet
dies, dass wir weder p noch k kennen. Es ist m = r = 2, g 1 ( k, p) = k p und g 2 ( k, p) = k p(1 − p) +
k2 p2 . Damit ist das Gleichungssystem gegeben durch:
i)
ii)
n
1X
xi = k p
n i=1
n
1X
x2 = k p(1 − p) + k2 p2
n i=1 i
P
Das Einsetzen der ersten in die zweite Gleichung liefert n1 ni=1 x2i = xn (1 − p) + xn 2 , was äquiva2
1 2
1 Pn
2
lent zu n−
n s n = n i =1 ( x i − x n ) = x n (1 − p) ist. Damit erhalten wir

 xn − n−n 1 s2n
xn > 0
xn
p=
.
 0 := 0
sonst
0
Ferner ist k =
xn
p.
Für X n 6= 0 erhalten wir damit den Momentenschätzer
Ã
Xn
2
1 2
X n − n−
n Sn
,
1 2
X n − n−
n Sn
Xn
!
. Bemerkungen:
• Es gibt Familien (Pϑ )ϑ∈Θ , für die das Gleichungssystem für r = m nicht eindeutig lösbar ist.
• Es kann vorkommen, dass m( x) ∉ g(Θ) ist. In diesem Fall ergibt die Momentenmethode
keinen Sinn und kann nicht angewendet werden.
36
2.3 Konstruktionsmethoden für Punktschätzer
Maximum-Likelihood-Schätzer
Der nächste Schätzer, den wir konstruieren wollen, ist der Maximum-Likelihood-Schätzer.
Dieser stellt eine der wichtigsten Methoden zur Gewinnung von Schätzern dar und wurde
erstmals von Gauss erwähnt, später dann von Fisher (*1890 – †1962) weiterentwickelt.
Wir gehen davon aus, dass Θ ⊂ Rm ist und die Pϑ Wahrscheinlichkeitsmaße auf R sind. Diese
zweite Annahme ist nicht notwendig, der Einfachheit halber treffen wir sie dennoch. Ferner
existiere ein Maß µ auf R mit den folgenden Eigenschaften:
i) Es gilt Pϑ ¿ µ.
ii) Jedes Pϑ besitze eine „kanonische“ Dichte f (·, ϑ) bezüglich µ, das heißt zum Beispiel:
a) µ sei das Zählmaß auf C ⊂ R und C sei abzählbar. Dann ist
(
Pϑ ({ x}) x ∈ C
f ( x, ϑ) =
.
0
sonst
b) Sei µ das Lebesguemaß und die Pϑ haben die stetige Dichte f (·, ϑ) bezüglich µ. Dann
ist dies die kanonische Dichte.
Definition 2.3.2 Likelihood-Funktion
Es sei f (·, ϑ) die kanonische Dichte von Pϑ bezüglich µ. Dann heißt für
L : Rn × Θ → [0, ∞)
L( x1 , . . . , xn , ϑ) := L( x, ϑ) :=
n
Y
f ( x i , ϑ) mit x ∈ Rn , ϑ ∈ Θ
i =1
die Abbildung ϑ 7→ L( x, ϑ) die Likelihood-Funktion der Stichprobe x ∈ Rn .
Zu beachten ist, dass L hier für likelihood und nicht für loss steht. Diese doppelte NamensgeN
bung ist in der Fachliteratur jedoch üblich. Da L(·, ϑ) = ni=1 f (·, ϑ) gilt ist die i. i. d.-Annahme
fest in L eingebaut.
Definition 2.3.3 Maximum-Likelihood-Schätzer
Es sei f (·, ϑ) die kanonische Dichte von Pϑ und L : Rn × Θ → [0, ∞) wie in Definition 2.3.2
die Likelihood-Funktion. Dann heißt ein Schätzer Θ̂ : Rn → R Maximum-LikelihoodSchätzer (MLE, engl. maximum-likelihood estimator) genau dann, wenn für alle x ∈ Rn
und alle ϑ ∈ Θ gilt:
L( x, ϑ) ≤ L( x, Θ̂( x))
(MLE 1)
Der Maximum-Likelihood-Schätzer nimmt für jede Beobachtung also einen Parameter Θ̂( x)
an, für welchen der Wert der Dichte in x maximal wird. Die Idee ist nun: Je größer die Dichte
37
2 Punktschätzungen
in x ist, desto wahrscheinlicher ist x. In diesem Sinne wählt der MLE den Parameter aus, für
welchen die Beobachtung von x am „wahrscheinlichsten“ ist.
Bemerkungen:
• Im Allgemeinen ist der Maximum-Likelihood-Schätzer nicht eindeutig.
• Ferner existiert im Allgemeinen auch nicht unbedingt ein Maximum-Likelihood-Schätzer,
zum Beispiel wenn L stetig und Θ offen ist, sowie das Maximum auf dem Rand von Θ
angenommen wird.
• Das Optimierungsproblem (MLE 1) ist manchmal analytisch lösbar, wofür wir gleich ein
Beispiel sehen werden. Häufig ist dies aber auch nicht der Fall. Man kann dann auf
numerische Optimierung zurückgreifen, die zum Teil jedoch sehr aufwendig werden kann.
• Zur Vereinfachung von (MLE 1) wird häufig der Logarithmus von L betrachtet:
log L( x, ϑ) = log
n
Y
f ( x i , ϑ) =
i =1
n
X
log f ( x i , ϑ)
i =1
Man sieht dann, dass Θ̂ ein Maximum-Likelihood-Schätzer ist genau dann, wenn für alle
x ∈ Rn und ϑ ∈ Θ die folgende Optimierungsbedingung gilt:
log L( x, ϑ) ≤ log L( x, Θ̂( x))
(MLE 2)
Wie man sieht wurde aus dem Produkt in (MLE 1) dabei eine Summe in (MLE 2). Dies
ist sowohl analytisch als auch numerisch häufig einfacher handhabbar. Wir nennen den
Logarithmus ϑ 7→ log L( x, ϑ) der Likelihood-Funktion auch die log-Likelihood-Funktion der
Stichprobe x ∈ Rn .
Beispiel
Glühbirnen
Es gibt drei Hersteller von Glühbirnen, die jeweils einen Ausschussanteil von ϑ1 := 0.09,
ϑ2 := 0.11 und ϑ := 0.12 haben. Wir erhalten eine Lieferung von zehn Glühbirnen, von denen
jedoch eine defekt ist. Mit Hilfe des Maximum-Likelihood-Schätzers wollen wir nun schätzen,
von welchem Hersteller die Lieferung stammt.
Dazu betrachten wir die i -te Projektion π i : {0, 1}10 → {0, 1} und die B(1, ϑ)10 -Verteilung auf
P
{0, 1}10 . Unsere Beobachtung ist dann ni=1 π i , wobei dies eine B(10, ϑ)-verteilte Zufallsvariable
ist und daher folgende Dichte besitzt:
à !
10 k
f ( k, ϑ) =
ϑ (1 − ϑ)10−k mit k ∈ {0, . . . , 10}
k
In unserem Fall haben wir n = 1 Beobachtung, welche den Wert k = 1 annimmt. Wir berechnen
für die ϑ i also jeweils die zugehörige Dichte und erhalten folgende Tabelle:
38
θ
f (1, θ )
0.09
0.11
0.12
0.3851
0.3854
0.3798
2.3 Konstruktionsmethoden für Punktschätzer
Das Maximum wird für ϑ = ϑ2 = 0.11 angenommen, dies ist also unser Schätzer und wir gehen
davon aus, dass der zweite Hersteller geliefert hat. Beispiel
Binomialverteilung I
Es sei Θ = [0, 1] und Pϑ = B(1, ϑ) für ϑ ∈ Θ. Damit haben wir für ϑ ∈ Θ folgende Dichte gegeben:
(Q
n
xi
1− x i
x ∈ {0, 1}n
i =1 ϑ (1 − ϑ)
f ( x, ϑ) =
0
sonst
Wir betrachten nun die einzelnen Fälle:
i) Ist x = 0, so nimmt L( x, ·) das Maximum bei ϑ = 0 an.
ii) Für x = (1, . . . , 1) nimmt L( x, ·) das Maximum bei ϑ = 1 an.
iii) Für x ∉ {0, 1}n erzielt jedes ϑ das Maximum.
iv) Ist hingegen x ∈ {0, 1}n , aber sowohl x 6= 0, als auch x 6= (1, . . . , 1), so gilt 0 <
Damit ist
Ã
!
Ã
!
n
n
X
X
ϑ 7→ log L( x, ϑ) =
x i log ϑ + n −
x i log(1 − ϑ)
i =1
Pn
i =1 x i
< n.
i =1
eine stetige Funktion, für welche gilt:
lim log L( x, ϑ) = lim log L( x, ϑ) = −∞
ϑ→0
ϑ→1
Damit ist klar, dass log L( x, ·) ein Maximum besitzt. Ferner gilt nun
!
Ã
!
Ã
n
n
X
X
∂
1 !
1
xi
log L( x, ϑ) =
xi
− n−
= 0.
∂ϑ
ϑ
1−ϑ
i =1
i =1
(*)
P
b
Eine Gleichung der Form at − 1−
= 0 ist genau für t = a+a b erfüllt. Mit a = ni=1 x i und
t
P
P
b = n − ni=1 x i folgt, dass (*) die eindeutige Lösung ϑ = n1 ni=1 x i = xn besitzt. Damit ist
X n der Maximum-Likelihood-Schätzer. Beispiel
Binomialverteilung II
Es sei Θ = [0, 1] und Pϑ = B( m, ϑ) für ϑ ∈ Θ und ein festes, bekanntes m ≥ 1. Die Dichte ist dann
gegeben durch
(¡ ¢
m x
ϑ (1 − ϑ)m− x x ∈ {0, . . . , m}
f ( x, ϑ) = x
.
0
sonst
Wir betrachten nun die log-Likelihood-Funktion, die wie folgt gegeben ist:
Ã
!
Ã
!
à à !!
n
n
n m
X
X
Y
log L( x, ϑ) =
x i log ϑ + nm −
x i log(1 − ϑ) + log
i =1
i =1
i =1 x i
Die Rechnung verläuft analog zum vorausgehenden Beispiel und liefert den Maximum1
Likelihood-Schätzer m
X n. 39
2 Punktschätzungen
Beispiel
Normalverteilung
Es sei Θ = R × (0, ∞) und Pϑ = N (µ, σ2 ) für ϑ = (µ, σ2 ). Für ϑ ∈ Θ ist die Dichte dann für x ∈ Rn
wie folgt gegeben:
µ
¶
1
1 ( x − µ )2
2
f ( x, µ, σ ) = p
exp −
2 σ2
2πσ2
Wieder betrachten wir hier die log-Likelihood-Funktion
õ
µ
¶n n
¶!
n
Y
1 ( x i − µ)2
1
n
1 X
2
2
exp −
( x i − µ )2 .
log(2
πσ
)
−
log L( x, µ, σ ) = log p
=
−
2
2
2
2 σ
2
2σ i=1
2πσ
i =1
Differenzieren nach µ liefert für die beiden ersten Ableitungen
∂
∂µ
log L( x, µ, σ2 ) =
n
n ( x n − µ) !
1 X
(
x
−
µ
)
=
= 0,
i
σ2 i=1
σ2
sowie
∂2
∂µ2
log L( x, µ, σ2 ) = −
n
< 0.
σ2
Damit ist für jedes σ2 > 0 und x ∈ Rn die Funktion µ 7→ log L( x, µ, σ2 ) bei µ = xn maximal, das
heißt die µ-Komponente des Maximum-Likelihood-Schätzers ist X n . Wir betrachten nun die
Abbildung σ2 7→ log L( x, xn , σ2 ), für die gilt:
lim log L( x, xn , σ2 ) = lim log L( x, xn , σ2 ) = −∞
σ2 →0
σ2 →∞
Da auch diese Abbildung stetig ist muss sie ein Maximum annehmen. Differenzieren nach der
Varianz liefert
n
∂
n
1 X
!
2
( x i − xn )2 = 0.
log
L
(
x,
x
,
σ
)
=
−
+
n
2
2
4
∂σ
2σ
2σ i=1
P
1 2
Löst man diese Gleichung nach der Varianz, so erhält man σ2 = n1 ni=1 ( x i − xn )2 = n−
n s n . Damit
³
´
1 2
erhalten wir also schließlich den Maximum-Likelihood-Schätzer X n , n−
n Sn . Beispiel
Gleichverteilung
Es sei Θ = (0, ∞) und Pϑ die Gleichverteilung auf [0, ϑ]. Für ϑ ∈ Θ ist die Dichte dann wie folgt
gegeben:
f ( x, ϑ) =
1
· 1[0,ϑ] ( x)
ϑ
Die Likelihood-Funktion ist somit L( x, ϑ) = ϑ−n · 1[0,ϑ]n ( x). Für ϑ ≥ max i x i gilt dann L( x, ϑ) =
ϑ−n . Diese Funktion ist für steigendes ϑ monoton fallend. Für ϑ < max i x i gilt hingegen
L( x, ϑ) = 0. Damit liegt das Maximum bei ϑ = max i x i und wir erhalten max i X i als MaximumLikelihood-Schätzer. 40
2.3 Konstruktionsmethoden für Punktschätzer
Satz 2.3.4
Gilt log f (·, ϑ) ∈ L 1 (Pϑ0 ) für alle ϑ, ϑ0 ∈ Θ und Pϑ 6= Pϑ0 für ϑ 6= ϑ0 , so gilt für alle ϑ, ϑ0 ∈ Θ
mit ϑ 6= ϑ0 folgende Abschätzung:
Eϑ log f (·ϑ) > Eϑ log f (·, ϑ0 )
Beweis: Mit den Logarithmus-Rechenregeln erhalten wir
Eϑ log f (·, ϑ0 ) − Eϑ log f (·, ϑ) = Eϑ log
f (· , ϑ 0 )
.
f (· , ϑ )
Es gilt log t < t − 1 für t 6= 1. Wir betrachten nun Pϑ ( f (·, ϑ) = f (·, ϑ0 )). Wäre dies 1, so wären die
Dichten fast-überall gleich, was unseren Voraussetzungen jedoch widerspräche. Es gibt also
eine nicht-Nullmenge, auf denen sie echt verschieden sind und wir erhalten
µ
< Eϑ
ˆ
=
¶ ˆ µ
¶
f (· , ϑ 0 )
f (· , ϑ 0 )
−1 =
− 1 f (·, ϑ) dµ
f (· , ϑ )
f (· , ϑ )
f (·, ϑ0 ) − f (·, ϑ) dµ
= 1−1
= 0.
Satz 2.3.5
Es sei Θ ⊂ Rm kompakt und die kanonischen Dichten f (·, ϑ) erfüllen die folgenden
Bedingungen:
i) Es gilt log f (·, ϑ) ∈ L 1 (Pϑ0 ) für alle ϑ, ϑ0 ∈ Θ.
ii) Die Funktionen log f ( x, ·) : Θ → R sind für x ∈ R gleichmäßig gleichgradig
stetig,
das
°
°
heißt für alle ε > 0 existiert ein δ > 0, so dass für alle ϑ, ϑ0 ∈ Θ mit °ϑ − ϑ0 ° < δ und
alle x ∈ R gilt: | log f ( x, ϑ) − log f ( x, ϑ0 )| < ε.
Dann gilt für jeden Maximum-Likelihood-Schätzer Θ̂n
Θ̂n −→ ϑ
Pϑ∞ -fast sicher für alle ϑ ∈ Θ.
41
2 Punktschätzungen
Mit anderen Worten bedeutet dies, dass der Maximum-Likelihood-Schätzer konsistent ist.
Satz 2.3.4 besagte also, dass ϑ das MLE-Optimierungsproblem für „ n = ∞“ löst, während Satz
2.3.5 uns nun sagt, dass die Lösung für „ n < ∞“ gegen die Lösung für „ n = ∞“ konvergiert.
Beweis: Wir fixieren ϑ ∈ Θ und x ∈ R∞ . Nun definieren wir die folgenden beiden Abbildungen:
n
1X
log f ( x i , ϑ0 )
n i=1
F x,n : Θ → R
mit
ϑ0 7→
F: Θ→R
mit
ϑ0 7→ Eϑ log f (·, ϑ0 )
Wir wollen zunächst zeigen, dass F und F x,n
stetig sind. Sei dazu ε > 0 und δ > 0
° gleichmäßig
°
gemäß ii). Dann folgt für alle ϑ0 , ϑ00 ∈ Θ mit °ϑ0 − ϑ00 ° < δ
|F (ϑ0 ) − F (ϑ00 )| ≤ Eϑ | log f (·, ϑ0 ) − log f (·, ϑ00 )| ≤ ε.
Man kann dies analog für F x,n zeigen. Nun wollen wir die eigentliche Behauptung beweisen.
S
Sei also δ > 0 gegeben. Da Θ kompakt ist existiert
ein endliches
N ⊂ Θ mit Θ ⊂ ϑ∈ N B(ϑ, δ).
°
°
Dies bedeutet, dass für alle ϑ0 ∈ Θ ein ϑ00 ∈ N mit °ϑ0 − ϑ00 ° < δ existiert. Daraus folgt mit dem
ersten Teil, dass |F (ϑ0 ) − F (ϑ00 )| ≤ ε und analog |F x,n (ϑ0 ) − F x,n (ϑ00 )| ≤ ε gilt. Ferner sichert das
starke Gesetz der großen Zahlen (SLLN) für alle ϑ00 ∈ N
F x,n (ϑ00 ) =
n
1X
log f ( x i , ϑ00 ).
n i=1
°
°
Damit folgt Pϑ∞ -fast sicher Eϑ log f (·, ϑ00 ) = F (ϑ00 ). Sei nun ϑ0 ∈ Θ und ϑ00 ∈ N mit °ϑ0 − ϑ00 ° < δ,
dann gilt
|F x,n (ϑ0 ) − F (ϑ0 )| ≤ |F x,n (ϑ0 ) − F x,n (ϑ00 )| +|F x,n (ϑ00 ) − F (ϑ00 )| + |F (ϑ00 ) − F (ϑ0 ) ,
|
{z
}
|
{z
}
≤ε
≤ε
also gilt
|F x,n (ϑ0 ) − F (ϑ0 )| ≤ 2ε + |F x,n (ϑ00 ) − F (ϑ00 )|.
Sei nun x ∈ R∞ mit |F x,n (ϑ00 ) − F (ϑ00 )| → 0. Wir wissen bereits, dass dies Pϑ∞ -fast alle sind. Für
hinreichend große n und alle ϑ0 ∈ Θ folgt damit
|F x,n (ϑ0 ) − F (ϑ0 )| ≤ 3ε.
Mit Satz 2.3.4 und dieser Abschätzung folgt dann
F (ϑ) ≥ F (Θ̂( x)) ≥ F x,n (Θ̂( x)) − 3ε
MLE
≥ F x,n (ϑ) − 3ε ≥ F (ϑ) − 6ε.
Das heißt für hinreichend große n gilt |F (ϑ) − F (Θ̂( x)| ≤ 6ε. Für ϑn := Θ̂( x) gilt daher F (ϑn ) →
F (ϑ). Wir müssen nun noch zeigen, dass ϑn → ϑ gilt. Dazu nehmen wir an, dass dies nicht der
Fall ist. Dann existiert ein ρ > 0 und eine Teilfolge ϑn k mit |ϑn k − ϑ| > ρ . Da Θ kompakt ist,
ist Θ insbesondere auch folgenkompakt. Es existiert also ein ϑ ∈ Θ und eine Teilfolge ϑn k mit
l
³
´
ϑn k → ϑ. Damit gilt F (ϑ) ← F ϑn k ← F (ϑ). Also muss F (ϑ) = F (ϑ) gelten. Mit Satz 2.3.4 folgt
l
l
ϑ = ϑ, was einen Widerspruch zu |ϑn k − ϑ| > ρ darstellt. Damit ist der Satz bewiesen.
l
42
2.3 Konstruktionsmethoden für Punktschätzer
Bemerkungen:
i) Der Beweis von Satz 2.3.5 benutzt eine gleichmäßige Version des starken Gesetzes der
großen Zahlen (SLLN). Diese wurde durch die Kompaktheit von Θ und die gleichmäßig gleichgradige Stetigkeit der log-Dichten erreicht. Weder die Kompaktheit noch die
gleichmäßig gleichgradige Stetigkeit sind für Satz 2.3.5 jedoch notwendig.
ii) Die Annahme Θ ⊂ Rm ist nicht notwendig. Satz 2.3.5 hätte ohne Modifikationen auch
für beliebige kompakte metrische Räume Θ bewiesen werden können. Der MaximumLikelihood-Schätzer ist also auch für nicht-klassische parametrische Annahmen konsistent.
iii) Die Voraussetzung, dass Pϑ ein Maß auf R ist, wurde ebenfalls nicht verwendet, es kann
also auch hier verallgemeinert werden.
43
2 Punktschätzungen
2.4 Bayes-Schätzer
Bis jetzt haben wir bei der Bewertung von Schätzern verlangt, dass gute Schätzer gleichmäßig
optimal sind (engl. worst-case scenario). Wir wollen dies ändern, indem wir annehmen, dass
bestimmte ϑ ∈ Θ in einem gewissen Sinne „wahrscheinlicher“ oder „wichtiger“ sind.
Es sei Θ ⊂ Rm und (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R. Ferner haben Pϑ
wie bei den Maximum-Likelihood-Schätzern eine kanonische Dichte bezüglich eines Maßes µ
auf R. Zudem gebe es einen Wahrscheinlichkeitsraum (Ω, A , ν) und eine messbare Abbildung
Θ̃ : Ω → Θ, deren Verteilung das Bildmaß Q = Θ̃ν sei. Wir nennen Q die a-priori-Verteilung von
ϑ. Weiter nehmen wir an, dass Q eine kanonische Dichte q bezüglich eines Maßes µ̃ auf Θ
besitzt.
Die Idee ist nun, mit zufälligen Parametern ϑ = Θ̃(ω) zu arbeiten. Die Verteilung Q beschreibt
die Wahrscheinlichkeit der Parameter ϑ bevor wir die Daten gesehen haben. Daher modelliert
Q das Vorwissen über die Wahrscheinlichkeit von ϑ ∈ Θ.
Im Folgenden bezeichne L, sofern nicht anders angegeben, stets die Likelihood-Funktion
Q
vermöge L( x, ϑ) := ni=1 f ( x i , ϑ) für alle x ∈ Rn und ϑ ∈ Θ. Wir wollen annehmen, dass L : Rn ×
Θ → [0, ∞) messbar ist.
Definition 2.4.1 A-posteriori-Wahrscheinlichkeitsdichte
´
Für x ∈ Rn schreiben wir f ( x) := L( x, ϑ) q(ϑ) dµ̃(ϑ). Ist f ( x) > 0, so nennen wir q x : Θ →
L(x,ϑ)q(ϑ)
[0, ∞) vermöge q x (ϑ) := f (x) die a-posteriori-Wahrscheinlichkeitsdichte von Θ beim
Vorliegen der Beobachtung x.
Falls f ( x) = 0 ist, so kann man beispielsweise q x (ϑ) := 0 setzen, dieser Fall tritt jedoch fastsicher nicht ein.
´
f (x)
Die Abbildung q x ist tatsächlich eine Dichte, wie man durch q x (ϑ) dµ̃ = f (x) = 1 leicht
nachrechnen kann. Das Produkt L( x, ϑ) q(ϑ) beschreibt die infinitesimale Wahrscheinlichkeit
für die Beobachtung ( X , ϑ) und die Abbildung f ( x) ist die Randdichte von x bezüglich der
gemeinsamen Verteilung von ( x, Θ̃), sie beschreibt also gewissermaßen die Wahrscheinlichkeit
von x. Damit können wir q x so interpretieren, dass diese Abbildung die Wahrscheinlichkeit
von „ϑ unter der Bedingung x“ beschreibt.
Sind µ und µ̃ Zählmaße, so stimmt diese Interpretation mit dem elementaren Begriff der
bedingten Wahrscheinlichkeit überein, im anderen Fall stimmt dies zwar prinzipiell auch,
benötigt jedoch einige technische Anstrengungen.
44
2.4 Bayes-Schätzer
Definition 2.4.2 Bayes-Schätzer
Es sei Θ ⊂ R, das heißt m = 1. Falls alle auftretenden Integrale existieren, nennen wir
die Abbildung Θ̂ : Rn → R, die durch
ˆ
Θ̂( x) :=
Θ
ϑ q x (ϑ) dµ̃(ϑ)
gegeben ist und gewissermaßen den „Erwartungswert des Maßes q x dµ̃“ beschreibt, einen
Bayes-Schätzer.
Für höhere Dimensionen m > 1 kann man den Begriff analog komponentenweise definieren.
Da q x dµ̃ die Wahrscheinlichkeit von ϑ unter der Bedingung x beschreibt, gibt der BayesSchätzer das mittlere ϑ bezüglich dieser Verteilung zurück.
Wir können nun die Frage stellen, in welchem Sinne der Bayes-Schätzer optimal ist. Dazu
wollen wir unsere Begriffe für das Risiko und die Optimalität von Schätzern verbessern. Bisher
vergleichen wir die Schätzer punktweise, Abbildung 2.1 illustriert aber, dass es durchaus
passieren kann, dass ein Schätzer an manchen Punkt besser, an anderen Punkten schlechter
als ein anderer Schätzer ist.
R (·, Θ̂1 )
R (·, Θ̂2 )
glm. bester Schätzer
Θ
Abbildung 2.1: Schätzer können punktweise besser und schlecht als andere Schätzer sein,
gleichmäßig beste Schätzer sind hingegen überall besser. Aufgetragen sind
hier die Risikofunktionen.
Die Idee ist daher nun, dass wir die Schätzer nicht mehr punktweise mit Hilfe der Risikofunktionen vergleichen, sondern die Fläche unter eben diesen betrachten. Damit können wir zwei
Schätzer immer vergleichen.
45
2 Punktschätzungen
Definition 2.4.3 Gemittelter quadratischer Verlust
Sei Θ ⊂ R und Θ̂ : Rn → R ein quadrat-integrierbarer Schätzer. Dann heißt die Abbildung
ˆ
R (Θ̂) :=
Θ
ˆ ˆ
R (ϑ, Θ̂) q(ϑ)dµ̃(ϑ) =
Θ
Rn
¡
¢2
ϑ − Θ̂( x) dPϑn ( x) q(ϑ)dµ̃(ϑ)
der über Q = qdµ̃ gemittelte quadratische Verlust des Schätzers Θ̂.
Wir wollen nun zeigen, dass der Bayes-Schätzer bezüglich dieses neuen Risikobegriffs optimal
ist.
Satz 2.4.4
´
Sei Θ ⊂ R und Θ ϑ2 dQ (ϑ) < ∞. Ferner sei der Bayes-Schätzer Θ̂ quadrat-integrierbar.
Dann ist Θ̂ der einzige quadrat-integrierbare Schätzer, der den über Q gemittelten
quadratischen Verlust minimiert, das heißt für alle quadrat-integrierbaren Schätzer Θ̂0
gilt R (Θ̂) ≤ R (Θ̂0 ), wobei Gleichheit genau dann herrscht, wenn µn -fast sicher für alle
x ∈ Rn mit f ( x) > 0 auch Θ̂( x) = Θ̂0 gilt.
Beweis: Wir betrachten zunächst das Risiko
ˆ ˆ
R (Θ̂ ) =
0
=
ˆΘ ˆR
Θ
Tonelli
=
n
n
¡
¢2
ϑ − Θ̂0 ( x) dPϑn ( x) q(ϑ)dµ̃(ϑ)
¡
¢2
ϑ − Θ̂0 ( x) L( x, ϑ) dµn q(ϑ)dµ̃(ϑ)
ˆRˆ
¡
¢2
ϑ − Θ̂0 ( x) L( x, ϑ) q(ϑ) dµ̃( x) dµn ( x),
Rn Θ
|
{z
}
h x (t)
wobei wir t := Θ̂0 ( x) setzen. Nun wollen wir h x (·) für jedes x minimieren und benötigen dafür
die entsprechenden Ableitungen. Im Wesentlichen haben wir dies jedoch bereits im Beweis
von Satz 2.2.2 erledigt und es gilt
d
d
h x ( t) =
dt
dt
ˆ
ˆ
2
Θ
(ϑ − t) L( x, ϑ) q(ϑ) dµ̃(ϑ) =
Θ
(2 t − 2ϑ)L( x, ϑ) q(ϑ) dµ̃(ϑ)
!
= 0.
Daraus erhalten wir nun folgende Gleichung:
ˆ
ˆ
t
L( x, ϑ) q(ϑ) dµ̃(ϑ) =
{z
}
|
Θ
f (x)
46
Θ
ϑL( x, ϑ) q(ϑ) dµ̃(ϑ)
2.4 Bayes-Schätzer
Für f ( x) > 0 können wir durch diesen Ausdruck dividieren und erhalten damit
ˆ
L( x, ϑ) q(ϑ)
t= ϑ
dµ̃(ϑ) =
f ( x)
Θ
|
{z
}
ˆ
Θ
ϑ q x (ϑ) dµ̃(ϑ) = Θ̂( x).
q x (ϑ )
Für die zweite Ableitung erhalten wir zudem
d2
h x ( t) = 2
d t2
ˆ
Θ
L( x, ϑ) q(ϑ) dµ̃(ϑ) = 2 · f ( x) > 0.
Damit besitzt h x (·) also genau ein globales Maximum, das bei Θ̂( x) angenommen wird.
i
Normalerweise wird Q als Vorwissen über mögliche ϑ interpretiert. Typischerweise ist ein Kritikpunkt am Bayes-Schätzer-Ansatz die Frage,
woher wir ein derart präzies Vorwissen haben. Man kann hierauf z. B.
antworten, dass die Wahl von Q den Schätzer wenig beeinflusst, dies
stimmt jedoch nur zum Teil. Da diesbezüglich ein langer Streit zwischen
den Verfechtern existiert, wird in der Fachwelt auch von Bayesions und
Frequentists gesprochen.
In einer alternativen Betrachtungsweise beschreibt Q unsere Gewichtung, das heißt an welchen Stellen wir gutes Verhalten eher sehen wollen und Stellen, an denen uns gutes Verhalten
weniger interessiert. Diese Betrachtungsweise gibt Freiheit bei der Wahl von Q und appelliert
nicht an ein etwaiges Vorwissen. Eine Möglichkeit wäre es so zum Beispiel für Q die Gleichverteilung auf Θ zu wählen, das heißt wir erachten das Verhalten unseres Schätzers für überall
gleich wichtig (engl. uninformed prior).
Beispiel
Binomialverteilung
Es sei Pϑ := B( m, ϑ) auf R mit ϑ ∈ [0, 1] und m ≥ 1. Dann existiert eine kanonische Dichte
vermöge
(¡ ¢
m k
ϑ (1 − ϑ)m−k k = 0, . . . , m
f ( k, ϑ) = k
.
0
sonst
Dies ist die kanonische Dichte bezüglich des Zählmaßes auf N0 . Nun sei µ̃ die Gleichverteilung
auf [0, 1], dann ist q(ϑ) := 1 für alle ϑ ∈ [0, 1] die kanonische Dichte bezüglich des Lebesguemaßes auf [0, 1]. Ferner sei n = 1, dann entspricht unsere Situation der Summenbildung
nach m-maligen Werfen einer unfairen Münze und wir erhalten die Likelihood-Funktion
L( k, ϑ) = f ( k, ϑ), sowie dementsprechend L( k, ϑ) q(ϑ) = f ( k, ϑ). Für k = 0, . . . , m gilt dann
ˆ 1
ˆ 1
ˆ 1Ã !
m k
f ( k) =
L( k, ϑ) q(ϑ) dϑ =
f ( k, ϑ) dϑ =
ϑ (1 − ϑ)m−k dϑ
k
0
0
0
à !
m ( m − k)! k!
m!
( m − k)! k!
=
=
·
( m − k)! k! ( m + 1)!
k ( m + 1)!
=
1
.
m+1
47
2 Punktschätzungen
Für den Bayes-Schätzer folgt damit nun
ˆ
Θ̂( k) =
ˆ
1
ϑ q k (ϑ) dϑ =
0
=
0
1
L( k, ϑ) q(ϑ)
ϑ·
dϑ = ( m + 1)
f ( k)
ˆ 1Ã !
0
m k+1
ϑ
(1 − ϑ)m−k dϑ
k
k+1
.
m+2
Mit einfachen algebraischen Umformungen führt dies auch zu
=
k 1
2
m
2
1
m
· + ·
=
· xm +
· .
m+2 m 2 m+2 m+2
m+2 2
Dabei ist xm als arithmetisches Mittel ein gleichmäßig bester Schätzer, und da 12 der Erwartungswert von µ̃ ist, ist der Bayes-Schätzer gewissermaßen eine Mischung zwischen diesen
beiden Größen. Wir wollen an dieser Stelle festhalten, dass die bis jetzt verwendeten Optimalitätsbegriffe
wirklich verschieden sind:
• Nach Beispiel 2.2.8 ist X n gleichmäßig bester unverzerrter Schätzer für p ∈ [0, 1] von der
Familie B(1, p).
n
2
1
Xn +
· der Bayes-Schätzer.
n+2
n+2 2
Ferner ist der Bayes-Schätzer im Allgemeinen nicht erwartungstreu. Die Konsistenz des
Bayes-Schätzers hängt stark von der konkreten Situation ab.
• Im vorausgehenden Beispiel war
48
2.5 Cramér-Rao-Ungleichung
2.5 Cramér-Rao-Ungleichung
In diesem Kapitel wollen wir uns damit beschäftigen, die Chapman-Robbins-Ungleichung zu
verbessern.
Satz 2.5.1
Es sei (Pϑ )ϑ∈Θ eine Familie von Verteilungen auf R, wobei Θ ⊂ R offen sei. Ferner habe
Q
Pϑ die kanonische Dichte f (·, ϑ) bezüglich des Maßes µ und es sei L( x, ϑ) := ni=1 f ( x i , ϑ)
mit x ∈ Rn und ϑ ∈ Θ die Likelihood-Funktion, für welche folgende Eigenschaften gelten:
i) Die Menge B := { x ∈ R : f ( x, ϑ) > 0} sei unabhängig von ϑ ∈ Θ.
ii) Die Abbildung f ( x, ·) : Θ → [0, ∞) sei für alle x ∈ R differenzierbar.
ˆ
∂
iii) Es gelte
B
∂
f ( x, ϑ) dµ( x) =
∂ϑ
ˆ
f ( x, ϑ) dµ( x) = 0.
∂ϑ
B
Dann gilt für jeden quadrat-integrierbaren Schätzer Θ̂n , für welchen die Ableitung
∂
E Θ̂ existiert und der die Gleichung
∂ϑ ϑ n
ˆ
∂
∂ϑ
Eϑ Θ̂n =
Bn
Θ̂n ( x)
∂
∂ϑ
L( x, ϑ) dµn ( x)
(*)
erfüllt, die Cramér-Rao-Ungleichung:
¡
Varϑ Θ̂n ≥
Hierbei ist zu beachten, dass Eϑ
¡
n · Eϑ
¢2
∂
f (· , ϑ )
∂ϑ
¢2
∂
E Θ̂
∂ϑ ϑ n
¡
¢2
∂
log f (·, ϑ)
∂ϑ
von n unabhängig ist.
∂
Beweis: Wir setzen φϑ ( x) := ∂ϑ
log L( x, ϑ) · 1B n ( x). Für ϑ ∈ Θ gilt dann
Ã
Varϑ φϑ = Varϑ
n
X
=
i =1
Mit der Regel (log f )0 =
Eϑ
∂
∂ϑ
f0
f
∂
∂ϑ
Varϑ
log
n
Y
!
Ã
f ( X i , ϑ) · 1B n ( x) = Varϑ
i =1
∂
∂ϑ
log f ( X i , ϑ) = n · Varϑ
∂
∂ϑ
!
n ∂
X
log f ( X i , ϑ)
i =1 ∂ϑ
log f ( X 1 , ϑ).
folgt nun
ˆ
∂
log f (·, ϑ) =
B
∂ϑ
ˆ
∂
log f ( x, ϑ) f ( x, ϑ) dµ( x) =
B
∂ϑ
f ( x, ϑ) dµ( x)
iii)
= 0.
49
2 Punktschätzungen
Damit erhalten wir für die Varianz
µ µ
¶2 µ
¶2 ¶
∂
∂
Varϑ φϑ = n · Varϑ
log f (·, ϑ) = n Eϑ
log f (·, ϑ) − Eϑ
log f (·, ϑ)
∂ϑ
∂ϑ
∂ϑ
µ
¶2
∂
= n · Eϑ
log f (·, ϑ) .
∂ϑ
∂
Wir verwenden nun die Cauchy-Schwartz-Ungleichung und erhalten
¡
¡
¢¢2
¡
¢2
Eϑ (φϑ − Eϑ φϑ ) Θ̂n − En Θ̂n ≤ Eϑ (φϑ − Eϑ φϑ )2 · Eϑ Θ̂n − Eϑ Θ̂n
µ
¶2
∂
= n · Eϑ
log f (·, ϑ) · Varϑ Θ̂n .
∂ϑ
(**)
Damit folgt schließlich
¡
¢
Eϑ (φϑ − Eϑ φϑ ) Θ̂n − Eϑ Θ̂n = Eϑ φϑ Θ̂n − Eϑ φϑ Eϑ Θ̂n = Eϑ φϑ Θ̂n
ˆ
∂
=
log L( x, ϑ) · Θ̂n ( x)L( x, ϑ) dµn ( x).
B n ∂ϑ
Durch eine vollständige Induktion und mit Hilfe der Kettenregel folgt
ˆ
=
(*)
=
Bn
∂
∂ϑ
Θ̂n ( x)
∂
∂ϑ
L( x, ϑ) dµn ( x)
Eϑ Θ̂n .
Verbindet man dies noch mit (**), so erhalten wir die Aussage und sind fertig.
Korollar 2.5.2
Unter den Voraussetzungen des Satzes 2.5.1 gilt für jeden quadrat-integrierbaren und
erwartungstreuen Schätzer, der (*) aus diesem Satz erfüllt, die folgende Abschätzung:
Varϑ Θ̂n ≥
1
n · Eϑ
¡
¢2
∂
log f (·, ϑ)
∂ϑ
Die Risiken solcher Schätzer können also nicht schneller als
1
n
gegen 0 konvergieren.
Beweis: Es gilt wegen der Erwartungstreue Eϑ Θ̂n = ϑ. Daraus folgt
können Satz 2.5.1 anwenden.
∂
E Θ̂
∂ϑ ϑ n
= 1 und wir
Ist Θ̂n ein erwartungstreuer Schätzer, sind alle Voraussetzung von Satz 2.5.1 beziehungsweise
von Korollar 2.5.2 erfüllt und gilt zusätzlich, dass die Schranke im Korollar 2.5.2 für alle ϑ ∈ Θ
angenommen wird, so folgt, dass Θ̂n gleichmäßig bester erwartungstreuer Schätzer ist.
50
2.5 Cramér-Rao-Ungleichung
Beispiel 2.5.3 Normalverteilung
Es seien X i ∼ N (µ, σ2 ) Zufallsvariablen
mit bekanntem σ2 > 0, aber unbekanntem µ ∈ R.
³
´
(x−µ)2
∂
f ( x, µ) = p 1 2 ·
Dann ist f ( x, µ) = p 1 2 exp − 2σ2 und wir erhalten für die Ableitung ∂µ
2
πσ
2πσ
³
´
(x−µ)2
exp − 2σ2 . Nun gilt B = R und wenn µ das Lebesguemaß ist, so erhalten wir
ˆ
ˆ
¶
µ
1
1
µ
µ
µ
∂
( x − µ)2
f ( x, µ) d x = 2 p
d x − 2 = 2 − 2 = 0.
x exp −
2
2
∂µ
σ
2σ
σ
σ
σ
| 2πσ
{z
}
x−µ
·
σ2
Eµ X 1 =µ
Damit sind die Voraussetzungen
³ i)–iii)
´ von Satz 2.5.1 erfüllt. Ferner betrachten wir X n als
σ2
Schätzer. Klar ist, dass X n ∼ N µ, n gilt. Damit ist X n quadrat-integrierbar und erwartungs∂
Eµ X n = 1. Damit fehlt noch die Gleichung (*) aus Satz 2.5.1. Um diese
treu und wir erhalten ∂µ
zu zeigen führen wir eine Induktion über n durch. Für den Induktionsanfang mit n = 1 gilt
ˆ
x
R
∂
∂µ
ˆ
x−µ
x · 2 f ( x, µ) d x
R ˆ σ
ˆ
¶
µ
1
2
= 2
x f ( x, µ) d x − µ
x f ( x, µ) d x
σ
R
R
1
= 2 Varµ X 1
σ
= 1.
f ( x, µ) d x =
Damit kommen wir zum Induktionsschritt. Die Induktionsvoraussetzung lautet
ˆ Ãn !
X
∂
xi
L n ( x, µ) dn x = n.
n
∂µ
R i =1
(IV)
Wir wollen zunächst die Ableitung im Integranden näher untersuchen. Es gilt
∂
∂µ
L n+1 ( x, µ) =
=
+1
∂ nY
∂µ
∂
∂µ
i =1
f ( x i , µ) =
∂ ¡
∂µ
¢
L n ( x, µ) · f ( xn+1 , µ)
L n ( x, µ) f ( xn+1 , µ) + L n ( x, µ)
∂
∂µ
f ( xn+1 , µ).
Ferner gilt nun
Ã
!
Ã
!µ
¶
n
n
X
X
∂
∂
∂
xi
L n+1 ( x, µ) =
xi
L n ( x, µ) f ( xn+1 , µ) + L n ( x, µ) f ( xn+1 , µ) .
∂µ
∂µ
∂µ
i =1
i =1
Für das Integral erhalten wir dann mit dem Satz von Fubini
Ã
!
ˆ
ˆ
ˆ Ãn !
n
X
X
∂
∂
xi
L n+1 ( x, µ) dn+1 x =
f ( xn+1 , µ)
xi
L n ( x, µ) dn x d xn+1
∂µ
∂µ
Rn+1 i =1
R
Rn i =1
|
{z
}
=n
ˆ Ãn !
ˆ
X
∂
f ( xn+1 , µ) d xn+1 dn x
+
x i L n ( x, µ)
n
∂µ
R i =1
|R
{z
}
=0
= n.
51
2 Punktschätzungen
Wir betrachten nun noch den anderen Summanden. Es gilt
ˆ
ˆ
µ
¶
∂
∂
∂
n+1
xn+1 L n+1 ( x, µ) d
xn+1
x=
L n ( x, µ) · f ( xn+1 , µ) + L n ( x, µ) f ( xn+1 , µ) dn+1 x
n+1
∂µ
∂µ
∂µ
Rn+1
ˆR
ˆ
∂
=
xn+1 f ( xn+1 , µ)
L n ( x, µ) dn x d xn+1
n ∂µ
R
R
=1
ˆ
zˆ
+
R
n
L n ( x, µ)
|R
xn+1
}|
∂
{
f ( xn+1 , µ) d xn+1 dn x .
∂µ
{z
}
=1
Wir überprüfen nun den ersten Summanden in diesem letzten Ausdruck. Für das innere
Integral gilt für alle n ≥ 1
ˆ
∂
Rn
∂µ
L n ( x, µ) dn x = 0.
Dies lässt sich z. B. mittels einer vollständigen Induktion beweisen. Der Induktionsanfang
∂
∂
∂
L n+1 = ∂µ
L n f + L n ∂µ
f . Inentspricht hier (**) und für den Induktionsschritt gilt skizzenhaft ∂µ
´
´
∂
∂
tegriert man über diesen Ausdruck, so wird ∂µ
L n f = 0 und L n ∂µ
f = 0. Insgesamt erhalten
wir damit also
ˆ
∂
xn+1 L n+1 ( x, µ) dn+1 x = 1.
∂µ
Rn+1
Damit folgt die Gleichung (*) aus Satz 2.5.1. Wir haben nun also alle Voraussetzungen des
Satzes bzw. des folgenden Korollars 2.5.2 erfüllt und erhalten die folgende Abschätzung:
1
´
³
Varµ X n ≥
∂
log f (·, µ)2
n · Eµ ∂µ
Wir wollen nun noch zeigen, dass hier sogar die Gleichheit gilt. Wir betrachten dazu zunächst
µ
¶
∂
∂
1
( x − µ )2
x−µ
2
log f ( x, µ) =
− log 2πσ −
=
.
∂µ
∂µ
2
2σ 2
σ2
Damit folgt dann
µ
Eµ
∂
∂µ
log f (·, µ)
¶2
=
ˆ ³
x − µ ´2
R
ˆ
1
σ4
1
= 2.
σ
σ2
( x − µ)2 f ( x, µ) d x =
=
2
f ( x, µ) d x
R
1
1 2
Var
X
=
σ
µ
1
σ4
σ4
2
Damit erhalten wir nun Varµ X n ≥ σn . Es gilt aber auch Varµ X n = n1 Varµ X 1 = σn , daher ist
die Cramér-Rao-Ungleichung exakt und damit ist X n gleichmäßig bester, erwartungstreuer
Schätzer. An dieser Stelle wollen wir noch anmerken, dass die Voraussetzungen des Satzes 2.5.1 im
Allgemeinen wirklich notwendig sind.
52
2.6 Weitere Eigenschaften von Schätzern
2.6 Weitere Eigenschaften von Schätzern
Alle Annahmen und Notationen seien wie im vorausgehenden Kapitel gegeben. Unser erstes
Ziel ist es nun, die Verteilung von Θ̂n − ϑ für n → ∞ zu untersuchen.
Satz 2.6.1
Es sei (Pϑ )ϑ∈Θ eine Familie von Verteilungen auf R mit kanonischer Dichte f (·, ϑ) bezüglich µ. Ferner sei Θ ⊂ R offen. Zudem gelten die folgenden Eigenschaften:
i) Die Menge B := { x ∈ R : f ( x, ϑ) > 0} ist unabhängig von ϑ.
ii) Für ϑ 6= ϑ0 gilt Pϑ 6= Pϑ0 .
iii) Die Abbildung f ( x, ·) : Θ → [0, ∞) ist dreimal stetig differenzierbar.
iv) Für k ∈ {1, 2} gilt die Gleichung
∂k
∂ϑk
ˆ
ˆ
∂k
f ( x, ϑ) dµ( x) =
B
B
∂ϑk
f ( x, ϑ) dµ( x).
Für k = 1 soll das Integral dabei zusätzlich den Wert 0 annehmen.
v) Für alle ϑ0 ∈ Θ existiere ein c ϑ0 > 0 und ein g ϑ0 : B → [0, ∞) mit Eϑ0 | g ϑ0 | < ∞, so
dass für alle x ∈ B n folgende Ungleichung gilt:
¯ 3
¯
¯ ∂
¯
¯
¯ ≤ g ϑ ( x)
log
f
(
x,
ϑ
)
0
¯ ∂ϑ3
¯
Wir definieren nun die Fisher-Information I (ϑ) := Eϑ
i) I (ϑ) = Varϑ
∂
∂ϑ
¡
¢2
∂
.
log
f
(
·
,
ϑ
)
∂ϑ
Dann gilt:
log f (·, ϑ) für alle ϑ ∈ Θ.
ii) Ist I (ϑ) ∈ (0, ∞) für alle ϑ ∈ Θ, so folgt für jeden (schwach) konsistenten MaximumLikelihood-Schätzer Θ̂n und alle ϑ ∈ Θ
p
¡
¢
nI (ϑ) Θ̂n − ϑ −→ N (0, 1) in Verteilung.
Es gilt hierbei folgende Punkte zu beachten:
i) Die Konsistenz des Maximum-Likelihood-Schätzers wurde in Satz 2.3.4 untersucht.
ii) Dieses Ergebnis erlaubt es uns, abzuschätzen, wie weit Θ̂n von ϑ mit einer gewissen
Wahrscheinlichkeit entfernt ist. Die Rechnung verläuft analog zum zentralen Grenzwertsatz (CLT). Für die konkrete Anwendung müsste eigentlich die Fisher-Information
I (ϑ) bekannt sein, hierauf kann aber verzichtet werden, wenn zum Beispiel I (ϑ) ∈ [a, b]
bekannt ist.
53
2 Punktschätzungen
p
iii) Als grobe Interpretation könnte man Varϑ nI (ϑ)Θ̂n ≈ 1 sagen, das heißt Varϑ Θ̂n ≈
( nI (ϑ))−1 . Dies ist gerade die Cramér-Rao-Schranke für unverzerrte Schätzer. Man spricht
hier von asymptotischer Effizienz, das heißt für große n kommt der Schätzer nahe an den
besten Schätzer heran.
Beweis: Für die erste Aussage verweisen wir an dieser Stelle auf den Beweis von Satz
Q
2.5.1. Für die zweite Aussage des Satzes setzen wir l n (ϑ) := l n ( x, ϑ) := log ni=1 f ( x i , ϑ) und
(i)
(1)
l (i)
n (ϑ) := l n ( x, ϑ) für die i -te Ableitung bezüglich ϑ. Für die Taylorreihe von l n (Θ̂ n ( x)) um ϑ ∈ Θ
gilt
1
(1)
(2)
2 (3) ∗
l (1)
n (Θ̂ n ( x)) = l n (ϑ) + (Θ̂ n ( x) − ϑ) l n (ϑ) + (Θ̂ n ( x) − ϑ) l n (ϑ ).
2
(*)
Dabei liegt ϑ∗ zwischen ϑ und Θ̂n ( x) und wird geeignet gewählt. Ferner gilt aber auch
l (1)
n (Θ̂ n ( x)) = 0 nach Definition des Maximum-Likelihood-Schätzers. Damit erhalten wir
¢
p ¡
n Θ̂n ( x) − ϑ = −
p1 l (1)
(ϑ)
n n
(3) ∗
1 (2)
1
n l n (ϑ) + n (Θ̂ n ( x) − ϑ) l n (ϑ )
.
Wir wollen nun die folgenden drei Schritte beweisen:
a) p
1
nI (ϑ)
l (1)
n (ϑ) → N (0, 1) in Verteilung.
b) l (2)
n (ϑ) → I (ϑ) in Wahrscheinlichkeit.
µ
∞
c) Es existiert ein c > 0, so dass Pϑ lim
¯
¯
¶
¯ 1 (3) ∗ ¯
¯ l (ϑ )¯ < c = 1 gilt.
¯
n→∞ ¯ n n
Für a) betrachten wir
Ã
!
n
n ∂
1 (1)
1 X
1 ∂ X
l
log
f
(
x
,
ϑ
)
=
log f ( x i , ϑ).
(
ϑ
)
=
p n
p
p
i
n
n ∂ϑ i=1
n i=1 ∂ϑ
∂
Ferner gilt Eϑ ∂ϑ
log f (·, ϑ) = 0, siehe hierzu den Beweis von Satz 2.5.1, und überdies I (ϑ) =
∂
Varϑ ∂ϑ log f (·, ϑ). Mit dem zentralen Grenzwertsatz CLT folgt dann p 1 l (1)
(ϑ) → N (0, 1) in
nI(ϑ) n
Verteilung, womit a) bewiesen ist. Für b) betrachten wir
à ∂
!2
n ∂2
n
n
f ( x i , ϑ)
1 (2)
1X
1X
1X
∂ϑ
− l n (ϑ) = −
log
f
(
x
,
ϑ
)
=
−
i
n
n i=1 ∂ϑ2
n i=1 f ( x i , ϑ)
n i=1


2
à ∂
!2
∂2
f
(
·
,
ϑ
)
f
(
·
,
ϑ
)
2
SLLN

−→ Eϑ ∂ϑ
− Eϑ  ∂ϑ
f (·, ϑ)
f (·, ϑ)
 2
2
∂
f
(
·
,
ϑ
)
2
 .
= I (ϑ) − Eϑ  ∂ϑ
f (·, ϑ)
54
∂2
∂ϑ2
f ( x i , ϑ)
f ( x i , ϑ)
2.6 Weitere Eigenschaften von Schätzern
Für den hinteren Term gilt nun aber gerade
∂2
∂ϑ
 2

Eϑ
f (·, ϑ)
f (·, ϑ)
2
ˆ
∂2
 =
B
∂ϑ2
iv)
f ( x, ϑ) dµ( x) =
∂2
∂ϑ2
ˆ
|B
f ( x, ϑ) dµ( x) = 0.
{z
}
=1
Damit kommen wir nun zu c). Wegen v) gilt für |ϑ∗ − ϑ| < c ϑ
¯
¯
n
X
¯ 1 (3)
¯
¯ l ( x i , ϑ∗ )¯ ≤ 1
g ϑ ( x i ) −→ Eϑ g ϑ =: c < ∞,
n
¯n
¯ n
i =1
(**)
wobei diese Konvergenz Pϑ∞ -fast sicher gilt. Ferner liegt ϑ∗ zwischen Θ̂n ( x) und ϑ und es gilt
|Θ̂n ( x) − ϑ| → 0 in Wahrscheinlichkeit Pϑ∞ . Damit folgt, dass (**) mit einer Wahrscheinlichkeit
gilt, die gegen 1 konvergiert, woraus Aussage c) folgt. Ferner gilt nun
p
nI (ϑ)(Θ̂n ( x) − ϑ) = −
p 1
l (1) (ϑ)
nI(ϑ) n
I (ϑ) −→
(3) ∗
1 (2)
1
l
(
Θ̂
(
x
)
−
ϑ
)
l
(
ϑ
)
+
(
ϑ
)
n
n
n
n
N (0, 1)
I (ϑ) = N (0, 1).
I (ϑ) + 0
Dies gilt wegen der multiplikativen Fassung des Satzes von Slutzky1 .
1 Siehe hierzu Korollar 1.2.6.
55
3
Konfidenzintervalle
Bisher haben wir Punktschätzer verwendet, die den wahren und unbekannten Parameter schätzen, ihn im Allgemeinen jedoch nicht sicher treffen. In diesem Kapitel
wollen wir nicht mehr einen einelnen Punkt, sondern ein Intervall schätzen.
Für die Approximation des wahren, unbekannten Parameters ϑ haben wir im vorherhigen
Kapitel im Wesentlichen drei Eigenschaften kennengelernt:
i) Konsistenz: Θ̂n → ϑ Pϑ∞ -fast sicher.
ii) Erwartungstreue: Eϑ Θ̂n = ϑ.
iii) Mittlere quadratische Abweichung:
´¡
Θ̂n − ϑ
¢2
dPϑn .
Wir werden in diesem Kapitel wenn nicht anders angegeben stets davon ausgehen, dass
Θ ⊂ R gilt und (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R ist. Wie bisher sei
X i : Rn → R die i -te Projektion für X = ( X 1 , . . . , X n ) und Pϑn die erzeugende Verteilung.
3.1 Grundlegende Definitionen
Definition 3.1.1 Konfidenzintervall
Es seien Θ : Rn → R ∪ {−∞} und Θ : Rn → R ∪ {∞} Stichprobenfunktionen mit Θ( x) ≤ Θ( x)
für alle x ∈ Rn . Für γ ∈ [0, 1] heißt das zufällige Intervall [Θ, Θ] Konfidenzintervall zum
Niveau γ genau dann, wenn für alle ϑ ∈ Θ gilt:
³n
h
io´
Pϑn x ∈ Rn : ϑ ∈ Θ( x), Θ( x)
≥γ
Konstruiert man zu einer Beobachtung x ∈ Rn ein Konfidenzintervall [Θ( x), Θ( x)], so bedeutet
die Ungleichung aus Definition 3.1.1 nicht, dass ϑ ∈ [Θ( x), Θ( x)] mit einer Wahrscheinlichkeit
größer als γ gilt, da sowohl ϑ, als auch Θ( x) und Θ( x) keine Zufallsvariablen sind und damit
der Wahrscheinlichkeitsbegriff keinen Sinn ergibt. Die Ungleichung bedeutet vielmehr, dass
57
3 Konfidenzintervalle
bei vielen Wiederholungen mit einer Wahrscheinlichkeit von 100 · γ% damit zu rechnen ist,
dass ϑ ∈ [Θ( x), Θ( x)] gilt.
Da wir in der Regel möglichst kleine Konfidenzintervalle haben wollen, führen wir noch die
folgende Definition ein.
Definition 3.1.2 Minimales Konfidenzintervall
Ein Konfidenzintervall [Θ, Θ] heißt minimal zum Niveau γ ∈ [0, 1] genau dann, wenn gilt:
inf Pϑn
³n
ϑ∈Θ
h
io´
x ∈ Rn : ϑ ∈ Θ( x), Θ( x)
=γ
Definition 3.1.3 Asymptotisches Konfidenzintervall
Für Θn , Θn : Rn → R gelte die Abschätzung
lim Pϑn
n→∞
³n
h
io´
x ∈ R n : ϑ ∈ Θ n ( x ), Θ n ( x )
≥ γ.
Dann nennen wir [Θn , Θn ] asymptotisches Konfidenzintervall.
Definition 3.1.4 α-Quantil
Es sei P ein Wahrscheinlichkeitsmaß auf R und α ∈ [0, 1]. Dann definieren wir das
α-Quantil von P wie folgt:
q α := { t ∈ R : P ((−∞, t]) ≥ α und P ([ t, ∞)) ≥ 1 − α}
qα
Abbildung 3.1: Für P = N (0, 1) und α = 0.5 ergibt sich das Quantil q 0.5 = 0.
Wie wir in Abbildung 3.2 sehen können ist q α im Allgemeinen nicht einelementig. Ferner ist
q α ein beschränktes und abgeschlossenes Intervall für α ∈ (0, 1). Ist q α = [ q∗min,α , q∗max,α ], so
³³
´´
gilt P q∗min,α , q∗max,α = 0.
58
3.1 Grundlegende Definitionen
1
2
0
qα
1
¡
¢
Abbildung 3.2: Für P = B 1, 21 und α = 12 ergibt sich das nicht einelementige Quantil q 0.5 =
[0, 1].
Lemma 3.1.5
Ist P atomlos, d. h. es gilt P ({ t}) = 0 für alle t ∈ R, so gilt
q α = { t ∈ R : P ((−∞, t]) = α} .
Beweis: Die Eigenschaft P ([ t, ∞)) ≥ 1 − α ist äquivalent zu P ((−∞, t)) ≤ α. Da P atomlos ist,
ist dies äquivalent zu P ((−∞, t]) ≤ α.
Lemma 3.1.6
Sei P ein Wahrscheinlichkeitsmaße auf R mit der Verteilungsfunktion F . Ferner sei für
α ∈ (0, 1) das α-Quantil durch q α = [ q∗min,α , q∗max,α ] gegeben. Dann gilt für das sogenannte
verallgemeinerte Inverse von F :
F −1 (α) := inf {F ( t) ≥ α} = min {F ( t) ≥ α}
=
t∈R
q∗min,α
t∈R
³
´
³
´
Beweis: Es gilt F q∗min,α = P (−∞, q∗min,α ] ≥ α. Daraus folgt F −1 (α) ≤ q∗min,α . Nun wollen
wir zeigen, dass das Infimum gleich dem Minimum ist. Dazu sei t n & F −1 (α) mit F ( t n ) ≥ α. Als
Verteilungsfunktion ist F stetig und wir erhalten F (F −1 (α)) ≥ α.
Wir müssen nun noch die Abschätzung „≥“ zeigen. Angenommen, es gilt F −1 (α) < q∗min,α ,
dann muss F −1 (α) ∉ q α gelten. Wegen F (F −1 (α)) = P ((−∞, F −1 (α)]) ≥ α folgt dann, dass
P ((−∞, F −1 (α)) > α ist. Da (−∞, F −1 (α) − n−1 ] % (−∞, F −1 (α)) gilt, folgt, dass es ein n ≥ 1
mit P ((−∞, F −1 (α) − n−1 ]) ≥ α gibt. Wegen F −1 (α) − n−1 < F −1 (α) erhalten wir dann einen
Widerspruch zu unserer Annahme, dass F −1 (α) der kleinste Wert mit F ( t) ≥ α ist.
59
3 Konfidenzintervalle
Korollar 3.1.7
Sei P ein Wahrscheinlichkeitsmaß auf R, welches eine Lebesgue-Dichte h besitzt, für
welche die Menge { h > 0} ein Intervall ist. Für α ∈ (0, 1) gelten dann folgende Aussagen:
i) Es ist q∗min,α = q∗max,α .
ii) q∗min,α ist die eindeutige Lösung der Gleichung F ( s) = α.
In diesem Fall schreiben wir q∗α := q∗min,α = q∗max,α .
Beweis:
i) Angenommen, es gilt q∗min,α < q∗max,α , dann folgt
0=P
³
´
( q∗min,α , q∗max,α )
ˆ
=
q∗max,α
q∗min,α
h dλ.
Da h ≥ 0 gilt, folgt h( x) = 0 für λ-fast alle x ∈ ( q∗min,α , q∗max,α ). Da { h > 0} n. V. ein Intervall
ist, folgt { h > 0} ⊂ [ q∗max,α , ∞) oder { h > 0} ⊂ (−∞, q∗min,α ]. Betrachten wir z. B. den ersten
Fall, so folgt
³
´ ˆ
∗
α ≤ P (−∞, q min,α ] =
q∗min,α
h dλ = 0.
−∞
Damit wäre α = 0, was im Widerspruch zu α ∈ (0, 1) steht. Der andere Fall verläuft analog.
ii) Diese Aussage folgt direkt aus Lemma 3.1.5, Lemma 3.1.6 und i).
Beispiel 3.1.8 Normalverteilung
³ 2´
´s
Sei ϕ( t) := p1 exp − t2 die Dichte von N (0, 1) und Φ( s) := −∞ ϕ( t) d t für s ∈ R die Verteilungs2π
funktion von N (0, 1). Dann ist mit Korollar 3.1.7 q∗α die eindeutige Lösung von Φ( s) = α, das
heißt es gilt Φ( q∗α ) = α, da {ϕ > 0} = R gilt. Ferner gilt:
i) Es ist q α = − q 1−α wegen Φ( s) = 1 − Φ(− s) für alle s ∈ R.
ii) Die Abbildung α 7→ q α ist strikt monoton wachsend, da Φ strikt monoton wächst.
iii) Es ist q∗0.5 = 0.
Die Quantile q∗α können in Tabellen nachgeschlagen oder mit Hilfe von Programmen wie R
numerisch berechnet werden. Für α ∈ (0, 1) und X ∼ N (0, 1) gilt
³
´
³
´
³
´
³
´
³ ´
α α
P q∗α ≤ X ≤ q∗1− α = P X ≤ q∗1− α − P X ≤ q∗α = Φ q∗1− α − Φ q∗α = 1 − −
2
2
2
2
2
2
2 2
= 1 − α. 60
3.1 Grundlegende Definitionen
Beispiel 3.1.9 Quantile von χ2n
Die χ2n -Verteilung mit n Freiheitsgraden besitzt für y ∈ R nach Satz 1.2.12 die folgende
Lebesguedichte:
n
y
y 2 −1 e− 2
h( y) := 1[0,∞) ( y) · n ¡ n ¢
22 Γ 2
Im genannten Satz wurde zudem gezeigt, dass für i. i. d. Zufallsvariablen X 1 , . . . , X n ∼ N (0, 1)
P
die Eigenschaft ni=1 X i2 ∼ χ2n gilt. Nun ist Korollar 3.1.7 anwendbar, da { h > 0} = [0, ∞) ein
Intervall ist. Die Berechnung der Quantile ist auch hier nur mit Hilfe von Tabellen oder mit
numerischen Methoden möglich. Beispiel 3.1.10 Quantile von t n
Die Student- t-Verteilung mit n Freiheitsgraden besitzt für y ∈ R die folgende Lebesguedichte:
¡ 1¢
Γ n+
1
h( y) := ¡ n2 ¢ ·
³
´ n+1
p
Γ 2
y2 2
nπ 1 + n
In diesem Fall gilt { h > 0} = R und damit ist Korollar 3.1.7 anwendbar. Ferner ist h symmetrisch
um 0 und wir erhalten wie in Beispiel 3.1.8 folgende Aussagen:
i) Es gilt q α = − q 1−α .
ii) Die Abbildung α 7→ q α ist strikt monoton wachsend.
iii) Es gilt q 0.5 = 0. 61
3 Konfidenzintervalle
3.2 Einige exakte Berechnungen für Konfidenzintervalle
Wir wollen für einige Beispiele nun exakte Berechnungen durchführen.
Konfidenzintervalle für N (µ, σ2 ) – I
Wir gehen davon aus, dass wir i. i. d. Zufallsvariablen X i ∼ N (µ, σ2 ) haben, wobei µ unbekannt
p X −µ
und σ2 bekannt ist. Im Beweis von Lemma 1.2.7 haben wir bereits gesehen, dass n nσ ∼
N (0, 1) gilt. Für α ∈ (0, 1) und das α-Quantil von N (0, 1), also q α , folgt mit Beispiel 3.1.8:
Ã
!
p
X
−
µ
n
Pµn − q 1− α2 ≤ n
≤ q 1− α = 1 − α
2
σ
µ
¶
σ
σ
n
⇐⇒ Pµ X n − p q 1− α ≤ µ ≤ X n + p q 1− α = 1 − α
2
2
n
n
Damit definieren wir nun:
σ
Θn ( X ) := X n − p q 1− α2
n
σ
Θn ( X ) := X n + p q 1− α2
n
Daraus folgt, dass [Θn , Θn ] ein minimales Konfidenzintervall zum Niveau 1 − α für den Para2σ
meter µ ist. Die Länge des Konfidenzintervalls ist p
q α und wir stellen fest, dass dies keine
n 1− 2
Zufallsvariable ist. Damit kann a-priori sichergestellt werden, dass die Länge unterhalb eines
Schwellwertes ε > 0 liegt, das heißt Θn − Θn ≤ ε, und zwar indem man zum Beispiel das n wie
folgt wählt:
n≥
µ 2σ q
1− α2
¶2
ε
Als
wollen wir asymmetrische Konfidenzintervalle betrachten. Dazu seien α1 , α2 ∈
£ 1nächstes
¢
0, 2 und α := α1 + α2 ∈ (0, 1) (insbesondere muss also α1 α2 > 0 sein). Die Verteilungsfunktion
von N (0, 1) sei Φ. Dann gilt
Ã
!
p Xn − µ
n
Pµ q α2 ≤ n
≤ q 1−α1 = Φ( q 1−α1 ) − Φ( q α2 ) = 1 − α1 − α2 = 1 − α.
σ
Dies ergibt ein asymmetrisches Konfidenzintervall [Θn , Θn ] zum Niveau 1 − α vermöge
σ
Θn := X n − p q 1−α1
n
σ
Θn := X n + p q α2 .
n
³
i
Für α1 = 0 ergibt sich insbesondere ein einseitiges Konfidenzintervall −∞, X n + pσn q α . Analog
h
´
ergibt sich für α2 = 0 das einseitige Konfidenzintervall X n − pσn q 1−α , ∞ .
62
3.2 Einige exakte Berechnungen für Konfidenzintervalle
1
1
2
1
2
1
Abbildung 3.3: Darstellung von s 7→ Φ( s) und der Umkehrfunktion, die sich anschaulich als
Spiegelung an der ersten Winkelhalbierenden ergibt.
Nun wollen wir die Länge der asymmetrischen Konfidenzintervalle betrachten. Diese beträgt
Θn − Θn = pσn ( q 1−α1 − q 1−α−α1 ) und wir wollen untersuchen, wann diese Länge minimal wird.
In Abbildung 3.3 sehen wir,
s 7→ Φ( s) auf [0, ∞) strikt konkav und damit ¡α 7→¤ q α als
£ 1 dass
¢
Umkehrfunktion für α ∈ 2 , 1 strikt konvex ist. Damit ist auch α 7→ q 1−α auf 0, 12 strikt
konvex und es folgt
1
1
q 1−α+α1 + q 1−α1 ≥ q 1 (1−α+α1 )+ 1 (1−α1 ) = q 1−α2 .
2
2
2
2
Die Gleichheit herrscht dabei genau dann, wenn 1 − α + α1 = 1 − α1 , also α1 = α2 ist. Damit folgt,
dass α1 7→ q 1−α+α1 + q 1−α1 ein eindeutiges Minimum bei α1 = α2 annimmt und für α1 = α2 = α2
ist die Länge des Konfidenzintervalls daher minimal. Interessiert man sich also für möglichst
kleine Konfidenzintervalle, so sollte man auf symmetrische Konfidenzintervalle zurückgreifen.
Ist hingegen nur die obere Schranke des Konfidenzintervalls wichtig, so ist das einseitige
Konfidenzintervall für α1 = 0 besser, da die rechte Intervallgrenze zum Niveau 1 − α kleiner
ist als die rechte Intervallgrenze des symmetrischen Konfidenzintervalls.
Konfidenzintervalle für N (µ, σ2 ) – II
Wieder seien i. i. d. Zufallsvariablen X i ∼ N (µ, σ2 ) gegeben, diesmal seien jedoch sowohl µ, als
auch σ2 unbekannt. Unser Ziel ist es ein Konfidenzintervall für µ zu finden.
p
n(X −µ)
n
In Korollar 1.2.16 haben wir gesehen, dass
∼ t n−1 gilt, wobei S 2n =
Sn
ist. Wir schreiben nun t n−1,α für das α-Quantil von t n−1 . Es gilt
Ã
1 Pn
2
n−1 i =1 ( X i − X n )
p
!
n
(
X
−
µ
)
n
Pµn,σ2 t n−1, α2 ≤
≤ t n−1,1− α = 1 − α
2
Sn
µ
¶
Sn
Sn
n
= 1 − α.
⇐⇒ Pµ,σ2 X n − t n−1,1− α p ≤ µ ≤ X n + t n−1,1− α p
2
2
n
n
{z
}
{z
}
|
|
Θn (X )
Θn (X )
63
3 Konfidenzintervalle
Damit erhalten wir das minimale symmetrische Konfidenzintervall [Θn , Θn ] für µ zum Niveau
1 − α. Die Länge des Konfidenzintervalls ist in diesem Fall jedoch wirklich eine Zufallsvariable:
Θn − Θn =
2 t n−1,1− α2
Sn
p
n
¢
£
Für das asymmetrische Konfidenzintervall seien wieder α1 , α2 ∈ 0, 12 und α := α1 + α2 ∈ (0, 1).
Dann folgt mit einer der selben Rechnung wie im ersten Beispiel
Ã
!
p
n
(
X
−
µ
)
n
Pµn,σ2 t n−1,1−α2 ≤
≤ t n−1,1−α1 = 1 − α.
Sn
Daraus erhalten wir dementsprechend für die Grenzen des Konfidenzintervalls:
Sn
Θn ( X ) := X n − t n−1,1−α1 p
n
Sn
Θn ( X ) := X n + t n−1,1−α2 p
n
³
i
Sn
Im Speziellen erhält man für α1 = 0 das Konfidenzintervall −∞, X n + t n−1,1−α p
und für α2 =
n
h
´
Sn
0 das Konfidenzintervall X n − t n−1,1−α p
, ∞ . Die Längenbetrachtungen verlaufen analog
n
zum ersten Beispiel.
Konfidenzintervalle für N (µ, σ2 ) – III
Wieder seien i. i. d. Zufallsvariablen X i ∼ N (µ, σ2 ) gegeben und beide Parameter seien unbekannt. Nun suchen wir ein Konfidenzintervall für σ2 .
£
¢
(n−1)S 2
In Satz 1.2.13 haben wir gesehen, dass σ2 n ∼ χ2n−1 gilt. Für α1 , α2 ∈ 0, 12 und α := α1 + α2 ∈
(0, 1) folgt damit für das α-Quantil q α von χ2n−1
µ
¶
( n − 1)S 2n
n
Pµ,σ2 q α2 ≤
≤ q 1−α1 = 1 − α
σ2
¶
µ
( n − 1)S 2n
( n − 1)S 2n
n
2
≤σ ≤
= 1 − α.
⇐⇒ Pµ,σ2
q 1−α1
q α2
Dementsprechend setzen wir die Intervallgrenzen wie folgt:
Θ n :=
( n − 1)S 2n
q 1−α1
Θ n :=
( n − 1)S 2n
.
q α2
Damit ist [Θn , Θn ] ein Konfidenzintervall zum Niveau 1 − α. Die Länge berechnet sich dann
wie folgt:
µ
¶
1
1
2
Θn − Θn = ( n − 1) · S n
−
q α2 q 1−α1
64
3.2 Einige exakte Berechnungen für Konfidenzintervalle
Damit gilt nun
Eµ,σ2 (Θn − Θn ) = ( n − 1)σ
2
µ
¶
1
1
−
.
q α2 q 1−α1
Wir wollen nun unsere Annahme ändern und davon ausgehen, dass der Erwartungswert µ
P
bekannt ist. Wir betrachten die Stichprobenfunktion S̃ 2n := n1 ni=1 ( X i − µ)2 . Da σ1 ( X i − µ) ∼
N (0, 1) gilt, folgt aus der Definition der χ2n -Verteilung, dass σn2 S̃ 2n ∼ χ2n gilt. Analog zur obigen
Rechnung ergeben sich dann
Θ̃n ( X ) :=
n S̃ 2n
q 1−α1
n S̃ 2n
˜
Θn ( X ) :=
.
q α2
Dabei ist q α das α-Quantil
von χ´ 2n . Es gilt zu beachten, dass es vorkommen kann, dass die
³
˜
Länge Θn − Θ̃n = n S̃ 2n q1α − q1−1α größer ist als Θn − Θn . Eine Begründung hierfür ist, dass
2
1
sehr große oder kleine Beobachtungen x i von xn in S 2n kompensiert werden. Dieser Effekt tritt
bei S̃ 2n jedoch nicht auf.
65
3 Konfidenzintervalle
3.3 Asymptotische Konfidenzintervalle
Bis jetzt konnten wir die Wahrscheinlichkeiten für die auftretenden Konfidenzintervalle exakt
bestimmen. Als nächstes betrachten wir Situationen, in denen dies nicht möglich ist und
bestimmen diese Wahrscheinlichkeiten daher asymptotisch. Das Mittel der Wahl für diese
Aufgabe ist der zentrale Grenzwertsatz (CLT).
Satz 3.3.1
Sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R mit der Eigenschaft
Eϑ X 1 = ϑ für alle ϑ ∈ Θ, d. h. der Erwartungswert parametrisiert die Familie. Für α ∈ (0, 1)
bezeichne q α das α-Quantil von N (0, 1). Ferner setzen wir
q 1− α2 S n
p
n
α
q 1− S n
.
Θn := X n + p2
n
Θ n := X n −
Dann ist [Θn , Θn ] ein asymptotisches Konfidenzintervall für ϑ zum Niveau 1 − α.
Beweis: Wir betrachten
!
Ã
Ã
!
q 1− α2 S n
q 1− α2
p Xn − µ
n
n
≤ ϑ ≤ Xn + p
lim P X n − p
= lim Pϑ − q 1− α ≤ n
≤ q 1− α
2
2
n→∞ ϑ
n→∞
Sn
n
n
!
Ã
p Xn − µ
≤ q 1− α
n
= lim Pϑn
2
n→∞
Sn
Ã
!
p
X
−
µ
n
− lim Pϑn
n
≤ − q 1− α .
2
n→∞
Sn
Mit Korollar 1.2.6 erhalten wir
= Φ( q 1− α − Φ(− q 1− α )
2
2
= 1 − α.
Dies funktioniert auch ohne S n , falls die Varianz vom Erwartungswert abhängt, das heißt falls
Varϑ X 1 = h(Eϑ X 1 ) für alle ϑ ∈ Θ ist.
Beispiel 3.3.2 Poissonverteilung
Es sei Pois(λ) die Poissonverteilung zum Parameter λ > 0, das heißt die Verteilung auf N0 , die
k
für k ∈ N0 durch die Zähldichte h( k) := λk! e−λ gegeben ist. Es seien nun i. i. d. Zufallsvariablen
66
3.3 Asymptotische Konfidenzintervalle
X i ∼ Pois(λ) mit unbekanntem λ gegeben. Es gilt Eλ X 1 = Varλ X 1 = λ. Mit dem CLT folgt für
das α-Quantil q α von N (0, 1)
!
Ã
p
X
−
λ
n
≤ q 1− α = 1 − α.
(*)
lim P n − q 1− α2 ≤ n p
2
n→∞ λ
λ
Wir formen den inneren Ausdruck zunächst um und setzen q := q 1− α2 :
⇐⇒
⇐⇒
p Xn − λ
− q 1− α ≤ n p
≤ q 1− α
2
2
λ
¯
¯
¯p X − λ ¯
¯
¯
n
¯ n p
¯ ≤ q 1− α2
¯
λ ¯
Ã
!2
p Xn − λ
n p
≤ q21− α
2
λ
2
λ q21− α
⇐⇒
(λ − X n ) ≤
⇐⇒
λ2 − 2λ X n −
2
n
λ q2
2
+ Xn ≤ 0
n
¶ µ
¶2
q2
q2
X n q2
q4
2
≤
λ − 2λ X n +
+ Xn +
+ 2
2n
2n
n
4n
s
¯
2 ¯¯
2
4
¯
¯λ − X n − q ¯ ≤ X n q + q
¯
2n ¯
n
4 n2
µ
⇐⇒
⇐⇒
Damit erhalten wir für die Grenzen des Konfidenzintervalls:
s
q21− α
X n q2
q4
2
Θ n := X n +
−
+ 2
2n
n
4n
s
2
q 1− α
X n q2
q4
2
Θ n := X n +
+
+ 2
2n
n
4n
(**)
(**)
Dies ist ein asymptotisches Konfidenzintervall für λ zum Niveau 1 − α. Die Länge des Intervalls
beträgt
v
u
u X n q2 α q4 α
t
1− 2
1− 2
Θn − Θn = 2
+
.
n
4 n2
q
p
Eine Variante wäre es, λ durch X n zu ersetzen. Da das starke Gesetz der großen Zahq
p
len (SLLN) ergibt, dass X n → λ = Eλ X 1 ist, folgt auch X n → λ Pλ∞ -fast sicher. Mit dem
zentralen Grenzwertsatz CLT und der multiplikativen Fassung des Satzes von Slutzky folgt


p Xn − λ


lim Pλn − q 1− α2 ≤ n q
≤ q 1− α  = 1 − α.
2
n→∞
Xn
(***)
67
3 Konfidenzintervalle
Jetzt ist die entsprechende Umformung einfacher durchzuführen:
− q 1− α ≤
2
q
⇐⇒
⇐⇒
p Xn − λ
n q
≤ q 1− α
2
Xn
q
X n q 1− α2
X n q 1− α2
≤ Xn − λ ≤
p
p
n
n
q
q
X n q − 1 − α2
X n q − 1 − α2
≤ λ ≤ Xn +
Xn −
p
p
n
n
{z
}
{z
}
|
|
−
Θn
Θn
Dann ist [Θn , Θn ] ein asymptotisches Konfidenzintervall für λ zum Niveau 1 − α. Die Länge
des Konfidenzintervalls berechnet sich zu
q
X n q 1− α2
.
Θn − Θn = 2
p
n
Es gilt zu beachten, dass es vorkommen kann, dass Θn < 0 in (*) gilt. Dies ist zu konservativ
geschätzt, da λ > 0 ist. Wir setzen daher Θ0n := max{0, Θn } und erhalten so nach wie vor
ein Konfidenzintervall [Θ0n , Θn ] für λ zum Niveau 1 − α. Es kann gezeigt werden, dass die
Länge dieses korrigierten Konfidenzintervalls stets kleiner als die des durch (**) definierten
q
Konfidenzintervalls ist. Der Grund hierfür ist, dass Ausreißer in X 1 , . . . , X n durch X n im
Nenner von (***) besser kompensiert werden als durch den deterministischen Wert λ in (*). Beispiel 3.3.3 Bernoulli-Verteilung
Es seien i. i. d. Zufallsvariablen X i ∼ B(1, p) für unbekanntes p ∈ (0, 1) gegeben. Dann gilt
E p X 1 = p und Var p X 1 = p(1 − p). Der zentrale Grenzwertsatz CLT mit der wohlbekannten
Rechnung ergibt dann
Ã
!
p
X
−
p
n
lim P n − q 1− α2 ≤ n p
≤ q 1− α = 1 − α.
2
n→∞ p
p(1 − p)
68
3.3 Asymptotische Konfidenzintervalle
Dann erhalten wir mit q := q 1− α2 :
¯
¯
¯p
¯
X
−
p
¯
¯
n
¯ np
¯ ≤ q 1− α2
¯
p(1 − p) ¯
p(1 − p) 2
⇐⇒
( X n − p )2 ≤
q
n
p(1 − p) 2
2
q
⇐⇒
p2 − 2 pX n + X n ≤
n
µ
¶
µ
¶
q2
q2
2
⇐⇒
p2 1 +
− 2p Xn +
+ Xn ≤ 0
n
2n
q2
2
p − 2p
X n + 2n
Xn
2
≤0
q2
1+ n
2 
2

2
q2
q2
X n + 2n
nX n + 2
 ≤
 − nX n
p −
q2
n+2
n + q2
1+ n
¯
¯ v
u
¯
2
q2 ¯ u
1 2
¯
nX n + 2 ¯ t nq2 X n
nq2 X n
4q
¯p −
¯≤ −
+
+
¯
n + q2 ¯¯
( n + q 2 )2 ( n + q 2 )2 ( n + q 2 )2
¯
¯
¯
s
¯
q2 ¯
¯
nX n + 2 ¯
q2
q
¯p −
¯≤
nX
(1
−
X
)
+
n
n
¯
2
n + q2 ¯¯ n + q2
¯
⇐⇒
⇐⇒
⇐⇒
⇐⇒
1+
q2
n
+
Damit erhalten wir für die Grenzen des Konfidenzintervalls:


v
u
2
2
u
q 1− α 
 q 1− α2
t
1
2 

α
+
nX
Θ n :=
−
q
nX
(1
−
X
)
+
n
n
n
1
−
2
4 
n + q2  2
1− α2

Θ n :=
1
n + q21− α
2
2
 q 1− α2

 2
+ nX n + q 1− α
2
v
u
u
t
nX n (1 − X n ) +
q21− α
2



4 
Dann ist [Θn , Θn ] ein asymptotisches Konfidenzintervall für p zum Niveau 1 − α.
Als Variante betrachten wir nun X n → p P ∞
p -fast sicher. Mit dem Satz von Slutzky erhalten
wir dann


p
Xn − p


lim P pn − q 1− α2 ≤ n q
≤ q 1− α  = 1 − α.
2
X n (1 − X n )
n→∞
Für das Konfidenzintervall erhalten wir dann die folgenden Grenzen:
q 1− α2 q
Θn := X n − p
X n (1 − X n )
n
q 1− α2 q
Θn := X n + p
X n (1 − X n )
n
69
3 Konfidenzintervalle
Dies ist ein asymptotisches Konfidenzintervall für p zum Niveau 1 − α. Da es vorkommen
kann, dass Θn ( x) < 0 oder Θn ( x) > 1 gilt, können wir wieder die folgende Korrektur vornehmen:
Θ0n := max{0, Θn }
0
Θn := min{1, Θn }. 70
4
Statistische Tests
Bisher haben wir versucht, den unbekannten Parameter für die Verteilung der Grundgesamtheit zu schätzen. Dabei haben wir sowohl versucht, ihn exakt zu schätzen, als
auch lediglich Bereiche anzugeben, in welchen er mit einer gewissen Wahrscheinlichkeit liegt. In diesem Kapitel wollen wir Verfahren entwickeln, um zu entscheiden, in
welchem „Gebiet“ der Parameter liegt.
Wir gehen davon aus, dass Θ ⊂ Rm gilt, wobei oft m = 1 sein wird. Ferner sei (Pϑ )ϑ∈Θ eine
Familie von Wahrscheinlichkeitsmaßen auf R. Dies ist zwar nicht notwendig, aber oft eine
hilfreiche zusätzliche Annahme. Wie bisher seien X i : Rn → R die i -ten Projektionen und
X = ( X 1 , . . . , X n ) ∼ Pϑn , wobei ϑ unbekannt ist. Zudem sei die Parametrisierung der Familie
injektiv, das heißt es gilt Pϑ 6= Pϑ0 für alle ϑ 6= ϑ0 .
Zusätzlich wollen wir in diesem Kapitel davon ausgehen, dass Θ = Θ0 t Θ1 gilt, das heißt es
ist Θ0 ∩ Θ1 = ;, wobei beide Mengen nicht leer sein sollen. Damit bilden sie eine Partition von
Θ. Wir wollen nun nicht mehr den Wert des unbekannten Parameters ϑ schätzen, sondern
entscheiden, ob ϑ ∈ Θ0 oder ϑ ∈ Θ1 gilt.
Für dieses Kapitel führen wir folgende Sprechweisen ein:
• Nullhypothese H0 : Der wahre Parameter liegt in Θ0 .
• Alternativhypothese H1 : Der wahre Parameter liegt in Θ1 .
• Einfache Hypothese: Die betrachtete Menge Θ i ist einelementig.
• Einseitiges Testproblem: Es gilt m = 1 und Θ, Θ0 und Θ1 sind Intervalle.
• Zweiseitiges Testproblem: Es gilt m = 1, Θ ist ein Intervall und Θ0 oder Θ1 ist ein Intervall,
die jeweils andere aber nicht.
71
4 Statistische Tests
4.1 Qualitätsmerkmale für Tests
Definition 4.1.1 Statistischer Test
Ein statistischer Test ist eine messbare Funktion ϕ : Rn → [0, 1]. Gilt ϕ( x) ∈ {0, 1} für alle
x ∈ Rn , so heißt ϕ nicht-randomisierter Test. Andernfalls sprechen wir gelegentlich auch
von randomisierten Tests.
Das Bild ϕ( x) eines statistischen Tests beschreibt die Wahrscheinlichkeit, mit der sich der Test
ϕ bei der Beobachtung x für H1 entscheidet.
Gilt ϕ( x) = 0, so bedeutet dies, dass sich ϕ mit der Wahrscheinlichkeit 0 für H1 , also mit
Wahrscheinlichkeit 1 für die Nullhypothese H0 , entscheidet. Ist hingegen ϕ( x) = 1, so entscheidet sich der Test mit Wahrscheinlichkeit 1 für die Alternativhypothese. Für ϕ( x) =: p ∈ (0, 1)
entscheidet sich der Test zufällig mit Wahrscheinlichkeit p für H1 .
Ist ϕ nicht-randomisiert, so heißt K := {ϕ = 1} kritischer Bereich von ϕ und es gilt ϕ = 1K .
Beim Anwenden eines Tests können folgende Fehler auftreten:
H0 richtig
H1 richtig
Entscheidung für H0
Entscheidung für H1
–
Fehler zweiter Art
Fehler erster Art
–
Falsche Modellannahmen werden als Fehler dritter Art bezeichnet, diese liegen jedoch außerhalb der mathematischen Beschreibung unseres Modells.
Es ist offensichtlich, dass wir, falls möglich, an Tests interessiert sind, welche die Wahrscheinlichkeiten für Fehler erster und zweiter Art möglichst gering halten. Im Allgemeinen gibt es
jedoch keinen Test, der beide Wahrscheinlichkeiten gleichzeitig minimiert. Betrachte zum
Beispiel ϕ i ( x) := i für alle x ∈ Rn mit i ∈ {0, 1}. Diese verhindern jeweils den Fehler einer Art,
machen im Allgemeinen dafür den Fehler der anderen Art.
Eine mögliche Lösung dieser Problematik wäre eine gewichtete Summe der Fehler als Optimierungsziel. Im Allgemeinen geben Probleme aus der Praxis jedoch keinen Anhaltspunkt,
wie die Gewichte zu bestimmen sind.
Die asymmetrische Betrachtung versucht einen der beiden Fehler durch einen Schwellwert α
zu kontrollieren und danach die Wahrscheinlichkeit des anderen Fehlers zu minimieren.
72
4.1 Qualitätsmerkmale für Tests
Definition 4.1.2 Gütefunktion
Es sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen. Für einen Test ϕ : Rn → [0, 1]
heißt die Abbildung βϕ : Θ → [0, 1] vermöge
ˆ
βϕ (ϑ) := EP n ϕ =
ˆ
=
ϑ
ˆ
Rn
R
{0,1}
n
ϕ( x) dPϑn ( x)
1{1} ( y) dQ ϕ(x) ( y) dPϑn ( x)
mit Q ϕ(x) := B(1, ϕ( x)) Gütefunktion von ϕ.
Sei µ das Maß auf Rn × {0, 1}, das wie folgt gegeben ist:
ˆ
µ ( A ) :=
Rn
ˆ
{0,1}
1 A ( x, y) dQ ϕ(x) ( y) dPϑn ( x)
Dann beschreibt µ die Wahrscheinlichkeit für Kombinationen von Beobachtungen x und Entscheidungen y des Tests ϕ. Die Wahrscheinlichkeiten dafür, welche Fehler ϕ macht, die wir
weiter oben bereits angesprochen haben, werden bezüglich µ beschrieben. Die Wahrscheinlichkeit, dass¯ϕ Fehler erster Art macht, ist so z. B. µ(Rn × {1}) = βϕ (ϑ). Die eingeschränkte
Abbildung βϕ ¯Θ1 heißt die Macht (engl. power) von ϕ.
1
βϕ (ϑ)
Θ0
Θ1
Abbildung 4.1: Darstellung einer Gütefunktion.
Wie man in Abbildung 4.1 sehen kann, sollte die Gütefunktion auf Θ0 möglichst klein und
auf Θ1 möglichst groß sein. Ideal wäre daher ein Test ϕ mit βϕ = 1Θ1 , dies ist im Allgemeinen
aber nicht möglich, zum Beispiel wenn es ein B ⊂ R, ϑ0 ∈ Θ0 und ϑ1 ∈ Θ1 mit Pϑ0 (B) > 0 und
Pϑ1 (B) > 0 gibt, denn für x ∈ B muss sich der Test entscheiden.
73
4 Statistische Tests
Definition 4.1.3 (Unverfälschter) Test zum Niveau α
Es sei (Pϑ )ϑ∈Θ eine Familie von Verteilungen auf R und α ∈ [0, 1]. Ein Test ϕ heißt:
i) Test zum Niveau α genau dann, wenn βϕ (ϑ) ≤ α für alle ϑ ∈ Θ0 gilt, das heißt α
kontrolliert die Wahrscheinlichkeit für Fehler erster Art.
ii) unverfälschter Test zum Niveau α genau dann, wenn ϕ ein Test zum Niveau α ist
und zusätzlich βϕ (ϑ) ≥ α für alle ϑ ∈ Θ1 gilt.
1
βϕ (ϑ)
α
α∗
α0
Θ0
Θ1
Abbildung 4.2: Illustration verschiedener α für den Zusammenhang zwischen Gütefunktionen und (unverfälschter) Tests zum Niveau α.
Wir betrachten nun Abbildung 4.2, die eine Erweiterung von Abbildung 4.1 darstellt. Der Test
ϕ ist unverfälscht zum Niveau α∗ und ein nicht unverfälschter Test zum Niveau α, jedoch
kein Test zum Niveau α0 .
Definition 4.1.4 Konsistenz
Sei (Pϑ )ϑ∈Θ eine Familie von Verteilungen auf R und α ∈ [0, 1]. Eine Folge von Tests
ϕn : Rn → [0, 1] zum Niveau α heißt konsistent genau dann, wenn für alle ϑ ∈ Θ1 gilt:
lim βϕn (ϑ) = 1
n→∞
∞
Diese Eigenschaft ist im Allgemeinen schwächer als P∞
-fast sichere Konvergenz von ϕn ( x)
gegen 1. Eine Illustration findet sich in Abbildung 4.3.
74
4.1 Qualitätsmerkmale für Tests
1
α
Θ0
Θ1
Abbildung 4.3: Illustration einer konsistenten Folge statistischer Tests.
Definition 4.1.5 Besserer/Gleichmäßig bester Test
Es sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R und α ∈ [0, 1]. Ferner
sei ϕ ein Test zum Niveau α. Dann definieren wir:
i) Ein Test ϕ0 zum Niveau α heißt nicht besser als ϕ genau dann, wenn βϕ (ϑ) ≥ βϕ0 (ϑ)
für alle ϑ ∈ Θ1 gilt.
ii) Der Test ϕ heißt gleichmäßig bester Test zum Niveau α genau dann, wenn jeder
Test ϕ0 zum Niveau α nicht besser als ϕ ist.
Die naheliegende Frage ist, ob es einen gleichmäßig besten Test zum Niveau α gibt. Diese
Frage werden wir im nächsten Abschnitt behandeln.
Exkursion: p-Werte
Die sogenannten p-Werte tauchen sehr häufig in der Praxis auf, sind jedoch aus mathematischer Sicht eher problematisch. Aus diesem Grund wollen wir dieses Thema hier nur kurz
ansprechen.
Wir nehmen an, die Hypothesen H0 und H1 seien einfach, das heißt es gilt Θ = {ϑ0 , ϑ1 }. Weiter
sei T : Rn → R eine Stichprobenfunktion und ϕ : Rn → {0, 1} ein nicht-randomisierter Test, der
für k ∈ R wie folgt gegeben sei:
(
1 für T ( x) ≥ k
ϕ( x) :=
0 für T ( x) < k
Mit dieser Wahl gilt ϕ = 1[k,∞) ◦ T . Solche Tests werden tatsächlich oft verwendet. Sei nun
α ∈ [0, 1] mit α = Pϑn (T ≥ k) = Pϑn (ϕ = 1) = βϕ (ϑ0 ). In der Praxis wird α eigentlich vorgegeben
0
0
und k dann durch die obige Gleichung bestimmt. Ferner sei x ∈ Rn eine Beobachtung, wir
setzen dann t := T ( x). Dann nennen wir
¡©
ª¢
p := Pϑn0 (T ≥ t) = Pϑn0 x0 ∈ Rn : T ( x0 ) ≥ t .
75
4 Statistische Tests
den p-Wert des Tests zu der Beobachtung x. Insbesondere hängt p wirklich von der Beobachtung ab und ist daher eigentlich eine Zufallsvariable.
Wir nehmen nun ferner an, dass die Verteilungsfunktion des Bildmaßes von Pϑn unter T streng
0
monoton steigend ist. Dann gilt p ≤ α genau dann, wenn
Pϑn0 (T ≥ t) ≤ Pϑn0 (T ≥ k)
⇐⇒
t≥k
⇐⇒
T ( x) ≥ k
⇐⇒
ϕ( x) = 1.
Mit anderen Worten entscheidet sich ϕ genau dann für H1 , wenn p( x) ≤ α gilt. Wir wollen nun
auf einige typische Fehler in Verbindung mit p-Werten eingehen:
• Man berechnet den p-Wert anhand der Beobachtung x und passt das Niveau α nachträglich
an.
• Oft wird der p-Wert derart fehlinterpretiert, dass man davon ausgeht, er stelle die Wahrscheinlichkeit dafür dar, dass H0 wahr ist. Dies ist nicht der Fall und es gibt viele Argumente,
um dies zu widerlegen. Das einfachste Argument ist jedoch, dass wir für Hypothesen gar
keinen Wahrscheinlichkeitsbegriff haben.
• Eine andere gängige Fehlinterpretation ist, dass der p-Wert die Wahrscheinlichkeit für
einen Fehler erster Art angebe. Auch dies ist falsch, da bereits α diese Wahrscheinlichkeit
angibt.
Es gibt noch viele weitere Beispiele für Fehlinterpretationen und Missverständnisse der
p-Werte, auf die wir hier nicht eingehen.
76
4.2 Existenz gleichmäßig bester Tests
4.2 Existenz gleichmäßig bester Tests
In diesem Kapitel wollen wir uns, wie der Titel bereits nahelegt, mit der Frage beschäftigen,
wann es gleichmäßig beste Tests zum Niveau α gibt, die wir in Definition 4.1.5 eingeführt
haben. Das Vorgehen ähnelt dabei dem zur Untersuchung der Existenz gleichmäßig bester
Schätzer.
Dazu wollen wir zuerst ein fundamentales Lemma behandeln. Da dieses sehr wichtig ist,
werden wir es in aller Allgemeinheit formulieren und uns nicht auf R beschränken.
Lemma 4.2.1 Neyman-Pearson-Lemma für einfache Testprobleme
Es sei Θ = {ϑ0 , ϑ1 } und Θ0 = {ϑ0 }. Ferner seien Pϑ0 und Pϑ1 Wahrscheinlichkeitsmaße auf
X , sowie µ ein σ-endliches Maß auf X mit Pϑ i =: P i ¿ µ für i ∈ {0, 1}. Ferner seien f 0
und f 1 die Dichten der P i bezüglich µ und α ∈ [0, 1]. Dann gibt es ein k ∈ [0, ∞] und ein
γ ∈ [0, 1], so dass der Test ϕ : X → [0, 1], der durch



1 für f 1 ( x) > k f 0 ( x)
ϕ( x) := γ für f 1 ( x) = k f 0 ( x)


0 für f ( x) < k f ( x)
1
0
definiert ist, gleichmäßig bester Test zum Niveau α ist.
Dabei wollen wir anmerken, dass ein solches Maß µ, wie im Lemma gefordert, immer existiert,
da man zum Beispiel µ := 12 (P0 + P1 ) wählen kann. Ferner haben wir im Lemma für die
Definition von ϕ implizit die Konvention 0 · ∞ = ∞ · 0 := 0 verwendet. In unserer üblichen
Vorgehensweise ist X = Rn und P i = Pϑn . Der Beweis des Lemmas wird uns zudem eine
i
Konstruktionsmethode für die Parameter k und γ liefern, der Test ϕ kann also konstruiert
werden.
Beweis: Wir betrachten zwei Fälle, wobei zunächst α = 0 sein soll. Dann setzen wir k := ∞
und γ := 0, damit folgt ϕ( x) > 0 genau dann, wenn ϕ( x) = 1 ist. Dies ist genau dann der Fall,
wenn f 1 ( x) > 0 und f 0 ( x) = 0 gilt. Dann gilt
ˆ
βϕ (ϑ0 ) =
ˆ
f 0 dµ = 0 = α,
1 dP0 =
{ f 1 >0}∩{ f 0 =0}
{ f 1 >0}∩{ f 0 =0}
sowie
ˆ
βϕ (ϑ1 ) =
ˆ
f 1 dµ .
1 dP1 =
{ f 1 >0}∩{ f 0 =0}
{ f 1 >0}∩{ f 0 =0}
Sei nun ϕ0 ein Test zum Niveau α = 0, dann folgt
ˆ
0 = βϕ0 (ϑ0 ) =
0
ϕ dP0 =
ˆ
ϕ0 f 0 dµ.
77
4 Statistische Tests
Da ϕ0 f 0 ≥ 0 gilt, folgt ϕ0 f 0 = 0 µ-fast überall. Damit folgt
ˆ
ˆ
ˆ
0
βϕ0 (ϑ1 ) =
0
ϕ dP1 =
ˆ
0
ϕ f 1 dµ +
{ f 1 >0}∩{ f 0 =0}
{ f 1 =0}∩{ f 0 >0}
|
ˆ
ϕ0 f 1 dµ
ϕ f 1 dµ =
{z
=0
{ f 1 >0}∩{ f 0 =0}
}
f 1 dµ
≤
{ f 1 >0}∩{ f 0 =0}
= βϕ (ϑ1 ).
Damit ist ϕ wirklich gleichmäßig bester Test. Nun betrachten wir den zweiten Fall mit α > 0.
Dazu definieren wir die Zufallsvariable Y : X → [0, ∞) vermöge
( f (x)
1
f 0 ( x) > 0
Y ( x) := f 0 (x)
.
0
sonst
Ferner sei F die Verteilungsfunktion von Y bezüglich P0 , das heißt F ( t) := P0 (Y ≤ t) für t ∈ R.
Die erste Möglichkeit ist nun, dass es ein k ∈ [0, ∞) mit 1 − α = F ( k) gibt. Dann setzen wir
γ := 0 und es gilt
1 − α = P0 (Y ≤ k) − γ · P0 (Y = k).
Die zweite Möglichkeit ist, dass es kein solches k ∈ [0, ∞) mit 1 − α = F ( k) gibt. Da F monoton
steigend und rechtsseitig stetig ist, folgt die Existenz eines k ∈ [0, ∞) mit der folgenden
Eigenschaft:
sup F ( k0 ) ≤ 1 − α < F ( k)
k0 < k
Da nun supk0 <k F ( k0 ) = supk0 <k P0 (Y ≤ k0 ) = P0 (Y < k) gilt, folgt P0 (Y ≤ k) − P0 (Y = k) ≤ 1 − α <
P0 (Y ≤ k) und insbesondere P0 (Y = k) > 0. Nun definieren wir den Parameter γ wie folgt:
γ :=
P0 (Y ≤ k) − 1 + α
P 0 (Y = k )
Dies heißt, dass 1 − α = P0 (Y ≤ k) − γP0 (Y = k) gilt. Zunächst wollen wir zeigen, dass γ ∈ [0, 1]
gilt. Dazu betrachten wir 1 − α < P0 (Y ≤ k), denn daraus folgt γ > 0. Außerdem ist P0 (Y ≤
k) − P0 (Y = k) ≤ 1 − α, woraus wir γ ≤ 1 erhalten. Damit folgt γ ∈ (0, 1] ⊂ [0, 1]. Insgesamt gibt
es also immer ein k ∈ [0, ∞) und ein γ ∈ [0, 1], für die folgende Gleichung gilt:
1 − α = P0 (Y ≤ k) − γP0 (Y = k)
(*)
Ein solches Paar ( k, γ) benutzen wir nun in der Definition des Tests ϕ. Es gilt dann
ˆ
βϕ (ϑ0 ) =
ˆ
ϕ f 0 dµ =
ˆ
ϕ f 0 dµ
{ f 0 >0}
ˆ
ϕ f 0 dµ +
=
{ f 0 >0}∩{ f 1 > k f 0 }
ϕ f 0 dµ
{ f 0 >0}∩{ f 1 = k f 0 }
= P0 (Y > k) + γP0 (Y = k)
= 1 − P0 (Y ≤ k) + γP0 (Y = k)
(*)
= α,
78
4.2 Existenz gleichmäßig bester Tests
also ist ϕ gleichmäßig bester Test zum Niveau α. Sei ϕ0 ein Test zum Niveau α. Ist ϕ( x) > ϕ0 ( x),
so folgt ϕ( x) > 0 und damit f 1 ( x) ≥ k f 0 ( x). Ist hingegen ϕ( x) < ϕ0 ( x), so folgt ϕ( x) < 1 und damit
f 1 ( x) ≤ k f 0 ( x). In beiden Fällen, und für ϕ( x) = ϕ0 ( x) sowieso, gilt daher
(ϕ( x) − ϕ0 ( x))( f 1 ( x) − k f 0 ( x)) ≥ 0.
(**)
Durch Integrieren erhalten wir nun
ˆ
(**)
0≤
ˆ
(ϕ( x) − ϕ0 ( x))( f 1 ( x) − k f 0 ( x)) dµ( x)
ˆ
ϕ dP1 −
=
ˆ
0
ϕ dP1 − k
ˆ
ϕ dP0 + k ϕ0 dP0
| {z }
| {z }
=α
≤α
≤ βϕ (ϑ1 ) − βϕ0 (ϑ1 ).
Damit folgt also βϕ0 (ϑ1 ) ≤ βϕ (ϑ1 ) und wir haben alles gezeigt.
Bis jetzt hatten wir die Randomisierung eigentlich nur als mögliche Erweiterung des TestBegriffs gesehen. Der Beweis des Neyman-Pearson-Lemma 4.2.1 zeigt nun, dass die Randomisierung uns die Möglichkeit gibt, Tests zu konstruieren, die ein beliebiges, vorgegebenes
Niveau α exakt erreichen, wie es in Abbildung 4.4 illustriert wird. Ohne Randomisierung ist
dies an den Sprungstellen der Verteilungsfunktion von Y nicht möglich, wie wir später an
Beispielen noch sehen werden.
randomisiert
1
nicht randomisiert
α
Θ0
Θ1
Abbildung 4.4: Mit Hilfe randomisierter Tests kann ein vorgegebenes Niveau exakt erreicht
werden.
Als nächstes wollen wir das Neyman-Pearson-Lemma 4.2.1 auf einseitige Tests verallgemeinern.
79
4 Statistische Tests
Definition 4.2.2 Monotoner Dichtequotient
Sei Θ ⊂ R, (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R und T : Rn → R eine
messbare Abbildung. Dann hat die Familie (Pϑ )ϑ∈Θ einen monotonen Dichtequotienten
in T genau dann, wenn die folgenden Bedingungen erfüllt sind:
i) Es gilt Pϑ 6= Pϑ0 für alle ϑ 6= ϑ0 .
ii) Es existiert ein σ-endliches Maß µ auf R, so dass alle Pϑ eine Dichte f ϑ bezüglich µ
besitzen, es gilt also Pϑ ¿ µ.
iii) Für alle ϑ0 , ϑ1 ∈ Θ mit ϑ0 < ϑ1 existiert eine streng monoton wachsende Funktion
g ϑ0 ,ϑ1 : R → R, so dass für Pϑn - und Pϑn -fast alle x ∈ Rn gilt:
0
1
Nn
N1n
f ϑ1 ( x )
1 f ϑ0 ( x )
= g ϑ0 ,ϑ1 (T ( x))
Wir hatten bereits im Neyman-Pearson-Lemma 4.2.1 gesehen, dass sich optimale Tests für
H1 := {ϑ1 } und nicht für H0 := {ϑ0 } entscheiden, falls
Nn
f ϑ1 ( x )
≥ f∗
N1n
1 f ϑ0 ( x )
für ein geeignetes f ∗ ∈ R gilt. Diese Ordnung wird durch g ϑ0 ,ϑ1 beibehalten. Die Abbildung T
werden wir zur Konstruktion optimaler Tests benutzen, da sie von ϑ0 und ϑ1 unabhängig ist.
Satz 4.2.3
Sei Θ ⊂ R, (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R mit monotonem
Dichtequotienten in T und ϑ0 ∈ Θ. Wir setzen Θ0 := {ϑ ∈ Θ : ϑ ≤ ϑ0 } und Θ1 := {ϑ ∈ Θ : ϑ >
ϑ0 }. Für α ∈ (0, 1) gibt es dann ein k ∈ [0, ∞) und ein γ ∈ [0, 1], so dass der Test ϕ vermöge



1 für T ( x) > k
ϕ( x) := γ für T ( x) = k


0 für T ( x) < k
ein gleichmäßig bester Test zum Niveau α ist.
Tatsächlich gilt diese Aussage für jedes k ∈ [0, ∞) und jedes γ ∈ [0, 1], welche die folgende
Gleichung erfüllen:
1 − α = Pϑn0 (T ≤ k) − γPϑn0 (T = k)
Falls Pϑn (T = k) = 0 gilt, so ist jedes γ erlaubt und k ist dann das 1 − α-Quantil der
0
Verteilung von T bezüglich Pϑn .
0
80
(*)
4.2 Existenz gleichmäßig bester Tests
Mit anderen Worten lassen sich optimale Tests häufig mit Hilfe von Quantilen bestimmen.
Beweis: Die Existenz von k und γ, die (*) erfüllen, lässt sich völlig analog zum Beweis des
Neyman-Pearson-Lemmas 4.2.1 führen, wenn man Y durch T ersetzt. Nun gilt für das Niveau
von ϕ für ϑ0 :
ˆ
βϕ (ϑ0 ) =
ˆ
ϕ
dPϑn0
ˆ
ϕ
=
ˆ
dPϑn0 +
ϕ
{T > k}
{T = k}
n
n
= P ϑ0 ( T > k ) + γ P ϑ0 ( T = k )
= 1 − Pϑn0 (T ≤ k) + γPϑn0 (T = k)
dPϑn0 +
{T < k}
ϕ dPϑn0
(*)
=α
Nun wollen wir das Niveau für Θ0 betrachten. Sei ϑ00 , ϑ01 ∈ Θ mit ϑ00 < ϑ01 . Ferner sei ϕ0 ein
Test mit βϕ0 (ϑ00 ) ≤ βϕ (ϑ00 ). Sei außerdem g ϑ0 ,ϑ0 gemäß der Definition 4.2.2 gegeben und setze
0
1
Nn
f := g ϑ0 ,ϑ0 ( k). Ist ϕ( x) > ϕ ( x), so folgt ϕ( x) > 0 und damit T ( x) ≥ k, woraus wiederum
∗
0
0
1
1 f ϑ0 (x)
1
1 f ϑ0 (x)
0
Nn
∗
=
g ϑ0 ,ϑ0 (T ( x)) ≥ g ϑ0 ,ϑ0 ( k) = f folgt, wobei die Monotonie von g verwendet wurde. Ist hingegen
0
0
1
1
Nn
ϕ( x) < ϕ ( x), so folgt ϕ( x) < 1, damit T ( x) ≤ k und damit
0
Ã
(ϕ( x) − ϕ0 ( x))
n
O
f ϑ0 ( x ) − f
n
O
∗
1
1
1 f ϑ0 (x)
1
1 f ϑ0 (x)
0
Nn
≤ f ∗ . Insgesamt gilt also
!
f ϑ0 ( x) ≥ 0,
0
1
wobei dies auch für ϕ( x) = ϕ0 ( x), also immer gilt. Durch Integrieren erhalten wir nun:
Ã
!
ˆ
n
n
O
O
0
∗
0 ≤ (ϕ( x) − ϕ ( x))
f ϑ0 − f
f ϑ 0 dµ n
ˆ
=
ϕ
dPϑn0 −
1
1
1
ˆ
0
ϕ
dPϑn0 −
1
ˆ
f
∗
= βϕ (ϑ01 ) − βϕ0 (ϑ01 ) − f ∗ βϕ (ϑ00 ) +
{z
|
≤0
0
1
ˆ
ϕ
dPϑn0 +
0
∗
βϕ0 (ϑ00 )
f
f
∗
ϕ0 dPϑn0
0
}
≤ βϕ (ϑ01 ) − βϕ0 (ϑ01 )
Damit gilt also βϕ0 (ϑ01 ) ≤ βϕ (ϑ01 ). Daraus folgt nun, dass ϕ ein gleichmäßig bester Test zum
Niveau βϕ (ϑ00 ) für die Hypothesen H00 := {ϑ00 } und H10 := {ϑ01 } ist. Wir betrachten nun den Test
ϕ0 ( x) := βϕ (ϑ00 ), der im ersten Augenblick nur bedingt sinnvoll erscheint, da er unabhängig von
x ∈ Rn ist. Er erfüllt βϕ0 (ϑ00 ) = βϕ (ϑ00 ) und es gilt wegen (*):
βϕ (ϑ01 ) ≥ βϕ0 (ϑ01 )
ˆ
=
ϕ0 dPϑn0 = βϕ (ϑ00 )
1
Damit ist ϑ 7→ βϕ (ϑ) eine monoton wachsende Abbildung. Für ϑ00 ∈ Θ0 folgt nun insbesondere
βϕ (ϑ00 ) ≤ βϕ (ϑ0 ) = α. Damit ist ϕ also ein Test zum Niveau α. Ferner hat die Rechnung um
81
4 Statistische Tests
(*) gezeigt, dass für ϑ1 > ϑ0 und für einen Test ϕ0 mit βϕ0 (ϑ00 ) ≤ α für alle ϑ00 ∈ Θ0 , woraus
insbesondere βϕ0 (ϑ0 ) ≤ α = βϕ (ϑ0 ) folgt, gilt, dass βϕ (ϑ1 ) ≥ βϕ0 (ϑ1 ) ist. Nun ist ϑ1 > ϑ0 genau
dann der Fall, wenn ϑ1 ∈ Θ1 gilt. Damit ist ϕ tatsächlich gleichmäßig bester Test zum Niveau
α.
Als nächstes beschäftigen wir uns mit der Frage, ob und welche Familien überhaupt einen
monotonen Dichtequotienten besitzen.
Definition 4.2.4 Einparametrige Exponentialfamilie
Es seien T : Rn → R, h : Rn → [0, ∞), C : Θ → (0, ∞) und ξ : Θ → R, wobei T und h zudem
messbar und Θ ⊂ R sein sollen. Ferner sei µ ein endliches Maß auf Rn . Dann definieren
wir für ϑ ∈ Θ und x ∈ R
f ϑ ( x) := C (ϑ) h( x) · eξ(ϑ)T(x) .
´
Ist C so gewählt, dass f ϑ dµ = 1 für alle ϑ ∈ Θ gilt, so heißt die Familie (Pϑ )ϑ∈Θ mit
Pϑ = f ϑ dµ einparametrige Exponentialfamilie.
Wir werden im Folgenden die Bezeichnungen der Abbildungen in der Definition 4.2.4 verwenden, ohne sie jedesmal wieder explizit zu definieren.
Lemma 4.2.5
Sei (Pϑ )ϑ∈Θ eine einparametrige Exponentialfamilie und ξ streng monoton wachsend.
P
Dann besitzt (Pϑ )ϑ∈Θ einen monotonen Dichtequotienten in x 7→ n1 ni=1 T ( x i ).
Beweis: Für ϑ0 < ϑ1 gilt
Ã
!
Qn ξ(ϑ1 )T(x i )
Nn
n
n
n
X
e
h
(
x
)
C
(
ϑ
)
C
(
ϑ
)
1
1
· Q1n ξ(ϑ )T(x ) = n
= n
· N1n
exp
(ξ(ϑ1 ) − ξ(ϑ0 ))T ( x i ) .
N1n
0
i
f
(
x
)
C
(
ϑ
)
h
(
x
)
C
(
ϑ
e
0
0)
i =1
1 ϑ0
1
1
Nn
f ϑ1 ( x )
n
C (ϑ 1 )
Wir setzen nun g ϑ0 ,ϑ1 ( y) := C
n (ϑ ) exp ( n(ξ(ϑ1 ) − ξ(ϑ0 )) · y). Für y =
0
Nn
N1n
f ϑ1 ( x )
1 f ϑ0 ( x )
1 Pn
n i =1 T ( x i )
gilt dann
= g ϑ0 ,ϑ1 ( y).
Da ξ(ϑ1 ) > ξ(ϑ0 ) gilt ist g ϑ0 ,ϑ1 auch wirklich streng monoton wachsend.
Für einparametrige Exponentialfamilien gibt es viele Beispiele, von denen wir einige später
noch kennenlernen werden. Zunächst werden wir uns mit zweiseitigen Tests beschäftigen, für
welche wir zwei verschiedene Ansätze verfolgen werden. Der erste Ansatz ist ein theoretischer,
der zweite ein pragmatischer Ansatz.
82
4.2 Existenz gleichmäßig bester Tests
Im Folgenden schreiben wir Φ := Φ1 = {ϕ : X → [0, 1] | ϕ messbar} für die Menge aller Tests,
sowie Φα := {ϕ : X → [0, 1] | ϕ ist Test zum Niveau α} für α ∈ [0, 1]. Wir wollen im Folgenden
ferner allgemeine Räume Θ und allgemeine Familien (Pϑ )ϑ∈Θ zulassen. Zudem sei Θ0 , Θ1 eine
beliebige Partition von Θ.
Definition 4.2.6 Maxmin-Test
Sei α ∈ [0, 1]. Ein Test ϕ∗ ∈ Φα heißt Maxmin-Test zum Niveau α genau dann, wenn gilt:
inf βϕ∗ (ϑ) = sup inf βϕ (ϑ)
ϑ∈Θ1
ϕ∈Φα ϑ∈Θ1
Der Ausdruck infϑ∈Θ1 βϕ (ϑ) beschreibt das schlechstmöglichste Verhalten für Fehler zweiter
Arten eines Tests ϕ. Eine Interpretation findet sich in Abbildung 4.5. Es gilt zu beachten, dass
aus der Tatsache, dass ϕ∗ ein Maxmin-Test zum Niveau α ist, nicht folgt, dass ϕ∗ gleichmäßig
bester Test ist.
1
α
Θ0
Θ1
Abbildung 4.5: Illustration für das schlechstmöglichste Verhalten Fehler zweiter Art. Der
rote Test ist besser als der schwarze Test, der wiederum gleich gut wie der
blaue Test ist.
Lemma 4.2.7
Für α ∈ [0, 1] gelten die folgenden Aussagen:
i) Ist ϕ∗ ∈ Φα gleichmäßig bester Test zum Niveau α, so folgt, dass ϕ∗ unverfälscht
ist (vgl. Definition 4.1.3).
ii) Ist ϕ∗ ∈ Φα gleichmäßig bester Test zum Niveau α, so folgt, dass ϕ∗ ein MaxminTest zum Niveau α ist.
83
4 Statistische Tests
iii) Ist ϕ∗ ∈ Φα ein Maxmin-Test zum Niveau α, so folgt, dass ϕ∗ unverfälscht ist (vgl.
Definition 4.1.3).
Beweis: Die erste Aussage i) folgt unmittelbar aus ii) und iii). Für iii) betrachten wir ϕ( x) := α
für alle x ∈ X . Dann gilt
inf βϕ∗ (ϑ) = sup inf βϕ0 (ϑ) ≥ inf βϕ (ϑ) = α.
ϑ∈Θ1
ϕ0 ∈Φα ϑ∈Θ1
ϑ∈Θ1
nach Konstruktion von ϕ. Für ii) führen wir einen Widerspruchsbeweis. Angenommen, ϕ∗ ist
kein Maxmin-Test, dann gilt
inf βϕ∗ (ϑ) < sup inf βϕ (ϑ).
ϑ∈Θ1
ϕ∈Φα ϑ∈Θ1
Dann muss also ein ϕ ∈ Φα mit infϑ∈Θ1 βϕ∗ (ϑ) < infϑ∈Θ1 βϕ (ϑ) existieren. Da aber ϕ∗ nach
Voraussetzung gleichmäßig bester Test ist, gilt βϕ∗ (ϑ) ≥ βϕ (ϑ) für alle ϑ ∈ Θ1 . Dann folgt
βϕ∗ (ϑ) ≥ infϑ0 ∈Θ1 βϕ (ϑ0 ) für alle ϑ ∈ Θ1 und daraus wiederum infϑ∈ϑ1 βϕ∗ (ϑ) ≥ infϑ∈Θ1 βϕ (ϑ), dies
stellt jedoch einen Widerspruch dar. Damit ist alles gezeigt.
Satz 4.2.8
Sei µ ein σ-endliches Maß auf (X , B ). Dann existiert zu jeder Folge (ϕn ) ⊂ Φ eine Teilfolge
(ϕn k ) ⊂ Φ und ein ϕ∗ ∈ Φ, so dass für alle f ∈ L 1 (µ) gilt:
ˆ
lim
k→∞
ˆ
ϕ n k f dµ =
ϕ∗ f dµ
Wir sagen daher auch, dass Φ schwach folgenkompakt ist. Den Beweis werden wir hier
allerdings nicht führen, er lässt sich zum Beispiel in [Witt85, Satz 2.14, S. 205] finden.
Die Menge Φ ist eine beschränkte und abgeschlossene Menge in
L ∞ (µ) := { f : X → R | f messbar und µ-fast überall beschränkt}.
Da im Allgemeinen dim L ∞ (µ) = ∞ gilt, können wir den Satz von Heine-Borel nicht anwenden,
Φ ist also nicht kompakt in L ∞ (µ). Jedes g´∈ L ∞ (µ) liefert eine stetige, lineare und R-wertige
Funktion auf L 1 (µ) vermöge L 1 (µ) 3 f 7→ f g dµ. Man kann zeigen, dass dies alle stetigen,
linearen und R-wertigen Funktionen liefert. Mit anderen Worten heißt dies, dass L ∞ (µ) der
Dualraum von L 1 (µ) ist. Umgekehrt gilt, dass jedes f ∈ ´L 1 (µ) eine stetige, lineare und Rwertige Funktion auf L ∞ (µ) liefert vermöge L ∞ (µ) 3 g 7→ f g dµ. Dies sind im Allgemeinen
jedoch nicht alle solche Funktionen.
Sei nun w∗ die kleinste Topologie auf L ∞ (µ) bezüglich welcher alle wie eben definierte
Funktionen noch stetig sind, die sogenannte Schwach-*-Topologie (engl. weak). Man kann
zeigen, dass jede beschränkte, w∗ -abgeschlossene Menge in L ∞ (µ) w∗ -kompakt ist. Da Φ
84
4.2 Existenz gleichmäßig bester Tests
w∗ -abgeschlossen ist, ist Φ auch w∗ -kompakt. Die w∗ -Topologie besitzt im Allgemeinen jedoch
keine abzählbare Umgebungsbasis und daher ist Satz 4.2.8 eine echte Verschärfung der
w∗ -Kompaktheit.
Satz 4.2.9
Es sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf X und Θ 6= ; eine beliebige
Menge. Ferner sei µ ein σ-endliches Maß auf X mit Pϑ ¿ µ und Θ = Θ0 t Θ1 eine Partition.
Dann gibt es zu jedem α ∈ [0, 1] einen Maxmin-Test ϕ∗ zum Niveau α.
Beweis: Wir setzen zunächst s := supϕ∈Φα infϑ∈Θ1 βϕ (ϑ). Dann existiert eine Folge (ϕn ) ⊂ Φα
mit infϑ∈Θ1 βϕn (ϑ´) → s. Aus Satz
´ ∗ 4.2.8 folgt nun die Existenz einer Teilfolge (ϕn k ) und eines
∗
Tests ϕ ∈ Φ mit ϕn k dµ → ϕ f dµ für alle f ∈ L 1 (µ). Wir betrachten nun die Dichte f ϑ von
Pϑ bezüglich µ. Klar ist, dass f ϑ ∈ L 1 (µ) gilt, daher gilt
ˆ
βϕ∗ (ϑ) =
ˆ
∗
ϕ f ϑ dµ = lim
k→∞
ϕn k f ϑ dµ = lim βϕn (ϑ)
k→∞
k
(*)
für alle ϑ ∈ Θ. Für ϑ ∈ Θ0 folgt wegen βϕn k (ϑ) ≤ α, dass βϕ∗ (ϑ) ≤ α ist, das heißt ϕ∗ ist ein Test
zum Niveau α. Für ϑ ∈ Θ1 folgt ferner
(∗)
s = lim inf
βϕn (ϑ0 ) ≤ lim βϕn (ϑ) = βϕ∗ (ϑ),
k
k
0
n→∞ ϑ ∈Θ1
k→∞
daher folgt infϑ∈Θ1 βϕ∗ (ϑ) ≥ s. Da ϕ∗ ein Test zum Niveau α ist, gilt natürlich auch
inf βϕ∗ (ϑ) ≤ sup inf βϕ (ϑ) = s.
ϑ∈Θ1
ϕ∈Φα ϑ∈Θ1
Korollar 4.2.10
Sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf X und µ ein σ-endliches
Maß auf X mit Pϑ ¿ µ für alle ϑ ∈ Θ. Ferner sei Θ1 := {ϑ1 } und Θ0 := Θ \{ϑ1 } für ein ϑ1 ∈ Θ.
Dann gibt es zu jedem α ∈ [0, 1] einen gleichmäßig besten Test ϕ∗ zum Niveau α.
Beweis: Sei ϕ∗ ein Maxmin-Test zum Niveau α nach Satz 4.2.9. Dann gilt für ϑ1 :
βϕ∗ (ϑ1 ) = inf βϕ∗ (ϑ) = sup inf βϕ (ϑ) = sup βϕ (ϑ1 )
ϑ∈Θ1
ϕ∈Φα ϑ∈Θ1
ϕ∈Φα
Damit folgt, dass ϕ∗ gleichmäßig bester Test zum Niveau α ist.
Im Allgemeinen gibt es jedoch keinen gleichmäßig besten Test zum Niveau α für Θ0 := {ϑ0 }
gegen Θ1 := Θ \ {ϑ0 }. Wir werden dies noch näher betrachten.
Als nächstes wollen wir verallgemeinerte zweiseitige Tests für Exponentialfunktionen betrachten.
85
4 Statistische Tests
Satz 4.2.11
Sei Θ ⊂ R ein Intervall (Pϑ )ϑ∈Θ eine einparametrige Exponentialfamilie auf Rn (vgl.
Definition 4.2.4) und Θ1 := {ϑ ∈ Θ : ϑ1 < ϑ < ϑ2 }, sowie Θ0 := Θ \ Θ1 für beliebige ϑ1 < ϑ2
aus dem Inneren Θ◦ von Θ.
Falls ξ streng monoton wachsend und stetig ist (womit auch ξ−1 stetig ist), gibt es zu
jedem α ∈ (0, 1) einen gleichmäßig besten Test ϕ∗ zum Niveau α vermöge



1 falls T ( x) ∈ ( c 1 , c 2 )
∗
ϕ ( x) := δ i falls T ( x) = c i für i = 1, 2 ,


0 sonst
wobei c i und δ i für i = 1, 2 durch die Gleichungen
βϕ∗ (ϑ i ) = Pϑ i (T ∈ ( c 1 , c 2 )) + δ1 Pϑ i (T = c 1 ) + δ2 Pϑ i (T = c 2 ) = α
bestimmt sind.
Der Beweis des Satzes findet sich in [Witt85, Korollar 2.71, S. 261]. Mit einigen wenigen
zusätzlichen Annahmen, die nahezu immer erfüllt sind, gibt es zudem ein ϑ∗ ∈ Θ1 , so dass
ϑ 7→ βϕ∗ (ϑ) streng monoton wachsend für ϑ < ϑ∗ und streng monoton fallend für ϑ > ϑ∗ ist.
Dies wird in Abbildung 4.6 veranschaulicht.
1
α
Θ0
ϑ1
Θ1
ϑ∗
ϑ2
Θ0
Abbildung 4.6: Strenge Monotonie der Gütefunktion in der Erweiterung von Satz 4.2.11.
Wir wollen uns nun anschauen, was bei Tests passiert, bei denen die Rollen von Θ0 und Θ1
vertauscht sind. Dazu verweisen zunächst wir auf die Beobachtung in [Witt85, S. 256], die
im Wesentlichen folgendes besagt: Selbst bei einparametrigen Exponentialfamilien aus Satz
4.2.11 gibt es keine gleichmäßig besten Tests zum Niveau α ∈ (0, 1), wenn die Hypothesen
Θ0 := [ϑ1 , ϑ2 ] und Θ1 := Θ \ Θ0 betrachtet werden. Wir müssen uns daher auf eine kleinere
Familie einschränken.
86
4.2 Existenz gleichmäßig bester Tests
Definition 4.2.12 Gleichmäßig bester Test unter allen unverfälschten Tests
Sei (Pϑ )ϑ∈Θ eine Familie von Verteilungen und Φ0α := {ϕ ∈ Φα | ϕ ist unverfälscht}. Dann
heißt ein Test ϕ∗ ∈ Φ0α gleichmäßig bester Test zum Niveau α unter allen unverfälschten
Tests zum Niveau α genau dann, wenn für alle ϕ ∈ Φ0α und alle ϑ ∈ Θ1 gilt:
βϕ∗ (ϑ) ≥ βϕ (ϑ)
i
In der Fachliteratur wird ϕ∗ oft auch als gleichmäßig bester unverfälschter Test bezeichnet. Hierbei ist zu beachten, dass diese Bezeichnung zwar
üblich ist, aber eine andere Bedeutung suggeriert. Es ist also darauf zu
achten, dass damit ein Test im Sinne der Definition 4.2.12 gemeint ist.
Wir werden diese Bezeichnung ebenfalls verwenden.
Zunächst ist mit Lemma 4.2.7 klar, dass ein gleichmäßig bester Test ϕ∗ zum Niveau α auch ein
gleichmäßig bester unverfälschter Test zum Niveau α ist. Die Umkehrung gilt im Allgemeinen
jedoch nicht. Dies folgt aus den bisherigen Beobachtungen und dem folgenden Satz 4.2.13.
Satz 4.2.13
Sei (Pϑ )ϑ∈Θ eine einparametrige Exponentialfamilie wie in Satz 4.2.11, insbesondere ist
ξ strikt monoton wachsend und stetig. Für ϑ1 , ϑ2 ∈ Θ◦ mit ϑ1 < ϑ2 sei Θ0 := {ϑ ∈ Θ : ϑ ∈
[ϑ1 , ϑ2 ]} und Θ1 := {ϑ ∈ Θ : ϑ ∉ [ϑ1 , ϑ2 ]}. Dann gibt es zu jedem α ∈ (0, 1) einen gleichmäßig
besten unverfälschten Test ϕ∗ zum Niveau α vermöge



1 falls T ( x) ∉ ( c 1 , c 2 )
∗
ϕ ( x) := δ i falls T ( x) = c i für i = 1, 2 ,


0 sonst
wobei c i und δ i für i = 1, 2 durch die Gleichungen
βϕ∗ (ϑ i ) = Pϑ i (T ∉ ( c 1 , c 2 )) + δ1 Pϑ i (T = c 1 ) + δ2 Pϑ i (T = c 2 ) = α
gegeben sind.
Der Beweis findet sich in [Witt85, Satz 2.69, S. 257].
87
4 Statistische Tests
Beispiel 4.2.14 Normalverteilung
Sei Pµ = N n (µ, σ2 ) mit bekannter Varianz σ2 > 0 und unbekanntem Erwartungswert µ ∈ R.
Für die Dichte von Pµ gilt
!
Ã
µ
¶
n
n
Y
1
( x i − µ)2
1 X
2
2
2 − n2
(x − 2xi µ + µ )
f µ ( x) =
exp −
= (2πσ ) exp − 2
p
2
2σ2
2σ i=1 i
i =1 2πσ
!
!
Ã
Ã
¶
µ
n
n
1 X
n µ2
µ X
2 − n2
2
= (2πσ ) exp − 2 exp − 2
x exp 2
xi .
2σ
2σ i=1 i
σ i=1
|
{z
}|
{z
}
=:C(µ)
=:h(x)
p
nµ
1 Pn
Ferner setzen wir T ( x) := σp
x
und
ξ
(
µ
)
:
=
. Daraus folgt, dass (Pµ ) eine einparaσ
n i =1 i
metrige Exponentialfamilie und ξ streng monoton wachsend und stetig ist. Damit sind die
Voraussetzungen der Sätze 4.2.11 und 4.2.13 erfüllt. Wir wollen exemplarisch Satz 4.2.11 anwenden und betrachten daher das Testproblem Θ0 := R \ (µ1 , µ2 ) und Θ1 := (µ1 , µ2 ) für µ1 , µ2 ∈ R
mit µ1 < µ2 . Da Pµ (T = c) = 0 für alle c ∈ R und µ ∈ R gilt, vereinfachen sich die zu lösenden
Gleichungen aus Satz 4.2.11 zu Pµ i (T ∈ ( c 1 , c 2 )) = α für i = 1, 2. Der resultierende, gleichmäßig
beste Test ist dann für x ∈ R gegeben durch
ϕ∗ ( x) := 1(c1 ,c2 ) (T ( x)).
Wir müssen daher
nur noch das obige Gleichungssystem lösen.
³ pEs gilt,
´ dass T normalverteilt
p
nµ
nµ
nµ
mit ET = σpn = σ und Var T = 1. Daraus folgt, dass T ∼ N σ , 1 ist. Damit gilt
ˆ
c2
 ³
p
t−
´ 
nµ 2
σ

1
1

Pµ (T ∈ ( c 1 , c 2 )) = p
exp −
 dt = p
2
2π c1
2π
p ¶
p ¶
µ
µ
nµ
nµ
− Φ c1 +
,
= Φ c2 +
σ
σ
ˆ
p
nµ
σ
c2 +
p
c1 +
nµ
σ
µ 2¶
t
exp −
dt
2
wobei Φ die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist. Damit ist unser
Gleichungssystem für i = 1, 2 gegeben durch
p ¶
p ¶
µ
µ
nµ
nµ
Φ c2 +
− Φ c1 +
= α.
(*)
σ
σ
Wir betrachten zunächst den Fall µ1 = −µ2 =: µ. Sei c > 0 mit
Φ( c + µ̃) − Φ(− c + µ̃) = α,
wobei µ̃ =:
(**)
p
nµ
σ
ist. Dann gilt
Φ( c − µ̃) − Φ(− c − µ̃) = 1 − Φ(− c + µ̃) − 1 + Φ( c + µ̃) = Φ( c + µ̃) − Φ(− c + µ̃) = α.
Für c 2 := c und c 1 := − c wird daher das Gleichungssystem (*) gelöst.
daher
³h p Wir müssen
i´
p
nµ
nµ
lediglich noch (**) lösen. Dies entspricht der Suche nach c mit N (0, 1)
−
c,
+
c
= α.
σ
σ
Dies ist ein Problem, das numerisch gelöst werden muss.
88
4.2 Existenz gleichmäßig bester Tests
Wir kommen nun zum allgemeinen Fall für ein beliebiges Intervall (µ1 , µ2 ). Unser Ansatz ist
es, das Intervall so zu verschieben, dass es symmetrisch um die Null liegt, also die Form (−µ, µ)
hat. Dazu setzen wir µ1 − a = −µ und µ2 − a = µ und erhalten a = 12 (µ1 + µ2 ) und µ = 12 (µ2 − µ1 ).
Nun wenden wir die oben erarbeitete Lösung für den Spezialfall auf die Daten x − a an, wobei
a := (a, . . . , a) ∈ Rn sei. Wir erhalten dann den Test
ϕ∗ ( x) = 1(− c,c) (T ( x) − a),
wobei c > 0 wieder wie oben gewählt ist, das heißt c löst die Gleichung
Ã" p µ2 −µ1
#!
p µ2 −µ1
n 2
n 2
N (0, 1)
− c,
+ c = α. σ
σ
Beispiel 4.2.15
Es sei Pµ,σ2 := N n (µ, σ2 ), sowohl der Erwartungswert µ, als auch die Varianz σ2 seien also
unbekannt. Wir betrachten Θ := R × (0, ∞) mit den Hypothesen Θ0 := {µ0 } × (0, ∞) und Θ1 :=
p x −µ
Θ \ Θ0 . Ferner sei T : Rn → R vermöge T ( x) := n ns 0 und q 1− α das 1 − α2 -Quantil der t n−1 n
2
Verteilung. Korollar 1.2.15 und Beispiel 3.1.10 liefern
³
´
³
´
³
´
α
α
α
P µ , σ 2 | T | ≥ q 1− 2 = P µ , σ 2 − T ≥ q 1− 2 + P µ , σ 2 T ≥ q 1− 2
³³
i´
³h
´´
α
α
= P T −∞, − q 1−
+ P T q 1− , ∞
2
2
i´
³³
´´
³³
= P T −∞, q α + 1 − P T −∞, q 1− α
2
2
³
α
α´
= +1− 1−
2
2
= α.
Wir führen nun eine Konstruktion analog zu der von einparametrigen Exponentialfamilien
durch. Der Test ist dann gegeben vermöge
(
1 falls |T ( x)| ≥ q 1− α2
∗
ϕ ( x) :=
.
0 sonst
Dieser Test heißt Student- t-Test und ist ein gleichmäßig bester Test zum Niveau α. Der Beweis
für diese Eigenschaft findet sich in [Rasch95, S. 338]. Auch andere typische Hypothesen bzw.
Testprobleme, die wir bereits kennengelernt haben, sind durch diesen Test behandelbar, wenn
der Test entsprechend modifiziert wird. Als nächstes wollen wir uns ein paar Beispiele von Familien mit monotonem Dichtequotienten
anschauen.
Beispiel 4.2.16 Binomialverteilung
Die Dichte der Binomialverteilung B( n, p) ist für x ∈ {0, . . . , n} und p ∈ (0, 1) gegeben durch
à !
à !
à !
µ
¶
n x
n
n
p
n− x
n x
−x
n
f p ( x) =
p (1 − p)
=
(1 − p) p (1 − p) =
(1 − p) exp x ln
.
x
x
x
1− p
89
4 Statistische Tests
Daher ist B( n, p)¡eine
einparametrige Exponentialfamilie vermöge der Abbildungen C ( p) :=
p
n¢
n
(1 − p) , h( x) := x 1{0,...,n} ( x), ξ( p) := ln 1− p und T ( x) := x. Die Voraussetzung p ∉ {0, 1} ist
wirklich nötig. Betrachten wir nun zum Beispiel das einseitige Testproblem Θ := (0, p 0 ] und
Θ := ( p 0 , 1) für ein p 0 ∈ (0, 1), so ist der zugehörige gleichmäßig beste Test zum Niveau α
gegeben durch


falls x > k

1
∗
∗
ϕ ( x) := γ
falls x = k ,


0
falls x < k
wobei k und γ∗ durch
1 − α = B( n, p 0 )({0, . . . , k}) − γ∗ B( n, p 0 )({ k})
à !
à !
k
X
n
n k
=
p 0i
(1 − p 0 )n− i − γ∗
p 0 (1 − p 0 )n−k
i
k
i =0
(*)
bestimmt werden. Dies ist ein numerisches Problem, das man zum Beispiel mit Hilfe von
Quantilfunktionen in R lösen kann. Ein anderer, einfacher Ansatz ist es, zunächst das kleinste
k mit
à !
k n
X
1−α ≤
p 0i (1 − p 0 )n− i
i
i =0
zu finden und dann γ∗ durch die Gleichung (*) zu ermitteln. Falls n besonders groß ist, kann
man für den ersten Schritt B( n, p) approximieren. Ist np20 klein, so approximiert man mittels
einer Poissonverteilung, ist np 0 (1 − p 0 ) ≥ 0.9, so verwendet man die Standardnormalverteilung.
Andere Testprobleme werden analog behandelt, sind zum Teil jedoch aufwändiger. Beispiel 4.2.17 Poissonverteilung
Die Dichte der Poissonverteilung ist für λ > 0 und x ∈ N0 gegeben durch
f λ ( x) =
λx
x!
e−λ = e−λ ·
1 x ln λ
·e
.
x!
1
Setzen wir C (λ) := e−λ , h( x) := x!
1N0 ( x), ξ(λ) := ln λ und T ( x) := x, so sehen wir, dass auch dies
eine einparametrige Exponentialfamilie ist. Wir betrachten wieder die Hypothesen Θ0 := (0, λ0 ]
und Θ1 := (λ0 , ∞), wobei, wenn die Poissonverteilung als Approximation von B( n, p) verwendet
wird, λ0 := np 0 gesetzt wird. Der zugehörige gleichmäßig beste Test zum Niveau α ist dann
gegeben durch


falls x > k

1
∗
∗
ϕ ( x) := γ
falls x = k ,


0
falls x < k
90
4.2 Existenz gleichmäßig bester Tests
wobei k und γ∗ durch
1 − α = Pois(λ)({0, . . . , k}) − γ∗ Pois(λ)({ k})
=e
−λ0
k λi
X
0
i =0
i!
∗ −λ0
−γ e
λ0k
k!
(*)
bestimmt werden. Auch dies kann wieder numerisch gelöst werden, allerdings kommt es
beim naiven Ansatz über die Implementierung von Schleifen zu numerischen Instabilitäten,
auf die man achten muss. In diesem Fall ist die Verwendung von Quantil-Funktionen daher
vorzuziehen. Beispiel 4.2.18 Normalverteilung I - unbekannter Erwartungswert
Die Dichte der Normalverteilung ist für σ2 > 0 gegeben durch
¶
¶
µ
¶
µ
µ
³ µx ´
1
( x − µ)2
µ2
1
x2
.
=
exp
−
exp
f µ ( x) = p
exp −
exp
−
p
2σ 2
2σ2
2σ 2
σ2
2πσ2
2πσ2
´
³
µ2
Den Fall n = 1 haben wir in Beispiel 4.2.14 bereits kennengelernt. Mit C (µ) := p 1 2 exp − 2σ2 ,
2πσ
´
³
2
µ
h( x) := exp − 2xσ2 , ξ(µ) := σ2 und T ( x) := x ist dies dann eine einparametrige Exponentialfamilie. Für die Hypothesen Θ0 := (−∞, µ0 ] und Θ1 := (µ0 , ∞) bei gegebenem µ0 ∈ R erhalten wir
dann den zugehörigen gleichmäßig besten Test zum Niveau α vermöge
(
1 falls x > k
∗
ϕ ( x) =
.
0 falls x < k
In diesem Test brauchen wir den Fall x = k nicht zu betrachten, da dies nur auf einer Nullmenge
eintritt. Der Parameter k wird durch
1 − α = N (µ0 , σ2 )((−∞, k])
bestimmt. Mit einer einfachen Transformation1 erhalten wir
µ
¶
k − µ0
2
N (µ0 , σ )((−∞, k]) = Φ
,
σ
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. Ist nun α 7→ q α die Quank−µ
tilfunktion von N (0, 1), so folgt q 1−α = σ 0 genau dann, wenn k = µ0 + σ q 1−α gilt. Beispiel 4.2.19 Gauß-Test
Wir wollen nun den Gauß-Test als Approximation für den Test bei binomialverteilten BeobP
achtungen betrachten. Es gilt, dass B( n, p) die Verteilung der Summe ni=1 Yi von n unabhängigen und B(1, p)-verteilten Zufallsvariablen ist. Mit dem zentralen Grenzwertsatz CLT und
Var Yi = p(1 − p) folgt
Ã
!
n
X
1
(Yi − p) → N (0, 1).
p
np(1 − p) i=1
1 Wir verweisen hierfür auf die Wahrscheinlichkeitstheorie-Vorlesung.
91
4 Statistische Tests
Für a ∈ R gilt daher
Ã
P p
Wählen wir nun k := np 0 + a
p
(Yi − p) ≤ a ≈ Φ(a).
np(1 − p) i=1
np 0 (1 − p 0 ), so folgt wegen
1
p
!
n
X
1
n
X
(Yi − p 0 ) ≤ a ⇐⇒
np 0 (1 − p 0 ) i=1
n
X
Yi ≤ k,
i =1
dass für den Erwartungswert µ0 := np 0 und die Varianz σ2 := np 0 (1 − p 0 ) von B( n, p 0 )
Ã
!
n
X
B( n, p 0 )({0, . . . , k}) = P
Yi ≤ k
i =1
Ã
!
k − µ0
≈Φ p
≈Φ
σ
np 0 (1 − p 0 )
k − np 0
µ
¶
gilt. Wird im Binomialtest-Problem nun obige Approximation von B( n, p) verwendet, so muss
k durch
à !
∗ n
1 − α = B( n, p 0 )({0, . . . , k}) − γ
p k (1 − p 0 )n−k
k 0
µ
¶
k − µ0
≈Φ
σ
bestimmt werden, das heißt es gilt k = µ0 + σ q 1−α . Mit anderen Worten bedeutet dies, dass
der Gauß-Test für bekannte Varianz eine Approximation des gleichmäßig besten Tests der
Binomialverteilung darstellt, falls µ0 := np 0 und σ2 := np 0 (1 − p 0 ) verwendet wird. Beispiel 4.2.20 Normalverteilung II - unbekannte Varianz
Diesmal nehmen wir an, dass der Erwartungswert µ bekannt, die Varianz σ2 > 0 jedoch
unbekannt ist. Die Dichte ist wieder gegeben durch
µ
¶
( x − µ)2
exp −
,
f µ ( x) = p
2σ 2
2πσ2
1
1
,
2πσ2
wodurch die Normalverteilung für σ > 0 mit C (σ) := p
h( x) := 1, ξ(σ) := − 2σ1 2 und T ( x) :=
( x − µ)2 zu einer einparametrigen Exponentialfamilie wird, wobei ξ offenbar streng monoton
wachsend ist. Für die Hypothesen Θ0 := (0, σ0 ] und Θ1 := (σ0 , ∞) ist der zugehörige gleichmäßig
beste Test zum Niveau α gegeben durch
(
1 falls ( x − µ)2 > k
ϕ∗ ( x) =
,
0 falls ( x − µ)2 ≤ k
92
4.2 Existenz gleichmäßig bester Tests
wobei der Parameter k durch
1 − α = N (µ, σ20 )({T ≤ k})
bestimmt werden kann. Nun gilt
ˆ
1
=q
2πσ20
1
=q
2πσ20
1
=p
2π
Ã
= Fχ2
1
Ã
{(x−µ)2 ≤ k}
ˆ
{ x2 ≤ k }
ˆ
exp −
Ã
exp −
( x − µ)2
x2
2σ20
!
dx
!
2σ20
dx
µ 2¶
x
dx
exp −
2
{σ20 x2 ≤ k}
!
k
,
σ20
wobei Fχ2 die Verteilungsfunktion der χ2n -Verteilung mit n = 1 ist. Sei nun q 1−α das 1 − α1
Quantil der χ21 -Verteilung. Wir setzen σk2 := q 1−α , was äquivalent zu k = σ20 q 1−α ist. Damit
0
µ ¶
erhalten wir, dass 1 − α = Fχ2 σk2 erfüllt ist. Der Test ist somit gegeben durch
1
∗
0
ϕ ( x) =
(
1
0
falls ( x − µ)2 > σ20 q 1−α
sonst
. 93
4 Statistische Tests
4.3 Zweistichprobentests
Häufig müssen zwei Produkte miteinander verglichen werden, um zum Beispiel zu überprüfen,
ob Produkt A die selben Eigenschaften wie Produkt B hat, oder ob Produkt A signifikant
besser ist als Produkt B. Ein typisches Beispiel hierfür ist der Vergleich von neuen mit alten
Medikamenten in der Medizin. Wir wollen uns jetzt mit entsprechenden statistischen Tests
beschäftigen.
Zunächst wollen wir davon ausgehen, dass wir Zufallsvariablen X i ∼ N (µ1 , σ21 ) haben, die
wir n 1 -mal beobachten. Außerdem seien Zufallsvariablen Yi ∼ N (µ2 , σ22 ) gegeben, die wir
n 2 -mal beobachten. Ferner wollen wir vorerst davon ausgehen, dass X 1 , . . . , X n1 , Y1 , . . . , Yn2
unabhängig sind.
Gilt n 1 = n 2 , so sind die Zufallsvariablen X i − Yi =: Z i unabhängig und normalverteilt. In
diesem Fall sind die Testprobleme auf die Beispiele des vorherhigen Kapitels zurückführbar,
da wir uns darauf beschränken können, nur die Z i zu betrachten.
Beispiel 4.3.1 Gleichheit des Erwartungswertes
Wir betrachten den Fall, dass σ21 = σ22 =: σ2 unbekannt sei mit Θ := R2 × (0, ∞). Dann sei
Θ0 := {(µ1 , µ2 , σ2 ) ∈ Θ | µ1 = µ2 } und Θ1 := Θ \ Θ0 . Wir betrachten T : Rn ∼
= (Rn1 , Rn2 ) → R mit
n := n 1 + n 2 vermöge
r
n 1 n 2 xn1 − yn2
T ( x, y) :=
·
,
n 1 + n 2 s n1 +n2
¡P
¢
P
wobei s n1 +n2 := n1 +1n2 −2 ni=11 ( x i − xn )2 + ni=21 ( yi − yn )2 ist. Ferner sei q 1− α2 das 1 − α2 -Quantil
der t n1 +n2 −2 -Verteilung. Wir betrachten nun den so genannten Zweistichproben- t-Test
ϕ∗ ( x, y) :=
(
1
0
falls |T ( x, y)| > q 1− α2
sonst
.
Dieser Test ist ein Test zum Niveau α. Der Beweis hierfür findet sich in [Rasch95, S. 340 ff.]. Beispiel 4.3.2 Einseitiger (vergleichender) Test
Der Parameterraum Θ sei wie in Beispiel 4.3.1 gegeben. Nun betrachten wir jedoch die
Hypothesen Θ0 := {(µ1 , µ2 , σ2 ) ∈ Θ | µ1 ≥ µ2 } und Θ1 := Θ \ Θ0 . Wir betrachten T : Rn1 +n2 → R
wie in Beispiel 4.3.1 und q 1− α2 sei das 1 − α2 -Quantil der t n1 +n2 −2 -Verteilung. Dann ist der durch
ϕ∗ ( x, y) :=
(
1
0
falls T ( x, y) < − q 1−α = q α
sonst
gegebene Test ein gleichmäßig bester unverfälschter Test zum Niveau α (vgl. Definition 4.2.12).
Auch dies ist ein Zweistichproben- t-Test. Die entsprechenden Beweise finden sich in [Rasch95,
S. 340 ff.]. 94
4.3 Zweistichprobentests
Wir wollen nun einige Details der beiden Beispiel 4.3.1 und 4.3.2 diskutieren. Die Einschränkung σ1 = σ2 ist in der Praxis oft schwer zu rechtfertigen, insbesondere, da wir annehmen, die
Varianzen seien gleich, ohne sie jedoch zu kennen. Sind die Varianzen σ21 6= σ22 jedoch beide
bekannt, so kann man den Zweistichproben-Gauß-Test anwenden, der durch die Stichprobenfunktion T : Rn1 +n2 → R vermöge
xn − yn2
T ( x, y) := r 1
σ21
n1
σ2
+ n22
beschrieben wird. Betrachtet man zum Beispiel die Hypothese H0 := {µ1 ≥ µ2 }, so ist der
zugehörige Test gegeben durch
(
1 falls T ( x, y) < q α
∗
ϕ ( x, y) :=
,
0 sonst
wobei q α das α-Quantil der Standardnormalverteilung ist. Auch dies sind gleichmäßig beste
unverfälschte Tests zum Niveau α.
Wir haben bisher den Fall mit unbekannten Varianzen σ21 6= σ22 nicht behandelt. Man kann
hier zwar Tests konstruieren, die das Niveau α erreichen, es ist jedoch deutlich schwieriger
einen gleichmäßig besten Tests zu finden, weshalb dies meist nur approximativ lösbar ist. Ein
Ansatz findet sich in [Rasch95, S. 343 ff.].
Außerdem ist es oft so, dass X 1 , . . . , X n1 , Y1 , . . . , Yn2 nicht unabhängig sind, zum Beispiel für
n 1 = n 2 sind dann aber die Zufallsvariablen Z i := X i − Yi unabhängig. Dies führt zu Tests mit
verbundenen Stichproben, beispielsweise wenn in einer Medikamentenstudie die Patienten
erst das erste und dann das zweite Medikament einnehmen.
In der Praxis liegen oft Hypothesen der Form {µ1 ≥ µ2 + a} mit einem a ∈ R vor. Diese Situation
lässt sich durch eine Translation auf die obigen Beispiele zurückführen.
95
4 Statistische Tests
4.4 Eine Anwendung von Tests
In diesem Kapitel wollen wir uns ein ausführliches Beispiel anschauen, bei welchem verschiedene der bisher kennengelernten Techniken zum Einsatz kommen.
4.4.1 Informelle Beschreibung des Problems
Es seien A und B zwei Algorithmen, die zu Datensätzen D = (( x1 , y1 ), . . . , ( xn , yn )) ∈ ( X ×{−1, 1})n
Funktionen f A , f B : X → {−1, 1} ausgeben, wobei X eine Menge ist. Diese Funktionen sollen für
einen neuen Eingabewert x den „zugehörigen“ Ausgabewert y durch f A ( x) und f B ( x) richtig
beschreiben.
Die Frage, mit der wir uns letztlich beschäftigen wollen, lautet: Welcher Algorithmus produziert die besseren Funktionen? Wir werden dabei jedoch nicht darauf eingehen, wie man diese
Algorithmen konkret konstruieren kann.
Die betrachteten Algorithmen sind so genannte Lernalgorithmen, welche die unbekannte
Eingabe-Ausgabe-Beziehung zwischen x und y anhand von D „lernen“. Solche Algorithmen
werden zunehmend interessant, da sehr komplexe Daten an Bedeutung gewinnen. Wir wollen
an dieser Stelle einige Beispielanwendungen auflisten:
• Textanalyse, maschinelle Sprachverarbeitung
– Methoden zur Textkategorisierung (handelt es sich um Politik, Sport, Boulevard, . . . ?)
– Spam-Filter
• Bildanalyse
– Optical Character Recognition (Handschrifterkennung)
– Image Classification
• Bioinformatik
• Ingenieurswesen
4.4.2 Formale Beschreibung des Problems
Wir haben ein völlig unbekanntes Wahrscheinlichkeitsmaß P auf X × {−1, 1} und einen Datensatz D ∼ P n . Jedes neue Paar ( x, y) ist ebenfalls P -verteilt und unabhängig, das heißt
alle Daten sind i. i. d. Ist f : X → {−1, 1}, so heißt R P ( f ) := P ({( x, y) : f ( x) 6= y}) der mittlere
Klassifikationsfehler beziehungsweise Klassifikationsrisiko. Ist ( x10 , y10 ), . . . , ( x0n0 , yn0 0 ) eine Folge
96
4.4 Eine Anwendung von Tests
von zukünftigen Beobachtungen, so gilt mit dem starken Gesetz der großen Zahlen P ∞ -fast
sicher
n0
1 X
1{ f (x0 )6= y0 } → R P ( f ).
i
i
n0 i=1
Die Funktion f B ist besser als f A genau dann, wenn R P ( f B ) < R P ( f A ) gilt.
Unser Ziel ist es nun, zu entscheiden, ob der Algorithmus B besser ist als der Algorithmus
A . Es gilt zu beachten, dass „Ist B besser als A ?“ und „Ist f B besser als f A ?“ unterschiedliche
Fragen sind und wir oben nur für die Entscheidungsfunktionen definiert haben, was wir unter
dem Begriff „besser“ verstehen. Dies wird zu verschiedenen Testproblemen führen.
4.4.3 Informelle Wahl der Hypothesen
Wir betrachten A als einen älteren, bereits bekannten Algorithmus, während B ein neuer
Algorithmus ist, von dem wir testen wollen, ob er besser als A ist.
Im Sinne des wissenschaftlichen Fortschritts sollte das Testergebnis „B ist besser als A “
fundiert sein. Dies muss bei der Wahl der Hypothesen berücksichtigt werden. Dazu wählen
folgenden Ansatz:
H0 : B ist nicht besser als A
H1 : B ist besser als A
Ist ϕ ein Test zum Niveau α, so gilt, dass die Wahrscheinlichkeit für Fehler erster Art (also
dafür, dass H0 wahr ist, während ϕ das Gegenteil sagt) kleiner oder gleich α ist. Wir können
also durch α dafür sorgen, dass das Testergebnis „B ist besser als A “ fundiert ist, wir haben
jedoch im Allgemeinen keine Kontrolle über die Wahrscheinlichkeit für Fehler zweiter Art
und daher wissen wir nicht hinreichend sicher, ob das Testergebnis „B ist nicht besser als A “
stimmt.
Diese Beobachtung gilt für jedes Testproblem, bei welchem die Fehler zweiter Art nicht
kontrolliert werden können. Tests zum Niveau α können also nur mit hinreichender Sicherheit
die Nullhypothese widerlegen, nicht jedoch bestätigen.
4.4.4 Test auf einem Datensatz
Wir nehmen zunächst an, dass wir genau einen Trainingsdatensaz D und einen Testdatensatz
D 0 := (( x10 , y10 ), . . . , ( x0n , yn0 )) haben. Präziser formuliert lautet unsere Frage nun: Hat B mit Hilfe
von D die bessere Entscheidunsfunktion erzeugt?
Dazu sei p A := R P ( f A ) und p B := R P ( f B ), wobei p A , p B ∈ [0, 1] unbekannt sind. Für das
empirische Risiko
n0
1 X
R D 0 ( f ) := 0
1{ f (x0 )6= y0 }
i
i
n i=1
97
4 Statistische Tests
gilt nun R D 0 ( f A ) ∼ B( n0 , p A ) und R D 0 ( f B ) ∼ B( n0 , p B ). Nach dem zentralen Grenzwertsatz
sind beide Zufallsvariablen (in D 0 ) approximativ normalverteilt und diese Tatsache werden
wir nutzen. Wir können die Varianzen n0 p A (1 − p A ) und n0 p B (1 − p B ) jedoch nicht als gleich
voraussetzen und können daher nicht auf die Beispiele in Kapitel 4.3 zurückgreifen.
Nach dem zentralen Grenzwertsatz ist D 0 7→ R D 0 ( f A ) − R D 0 ( f B ) jedoch normalverteilt. Dazu
betrachten wir einen Student- t-Test und es sei µ := p A − p B , Θ0 := {(µ, σ2 ) : µ ≤ 0, σ2 > 0}, wobei
µ ≤ 0 äquivalent zu p A ≤ p B ist und daher auch dazu, dass B nicht besser als A ist, diese
Hypothese entspricht also der bereits informell eingeführten Version. Entsprechend sei Θ1 :=
{(µ, σ2 ) : µ > 0, σ2 > 0}. Zudem betrachten wir die Zufallsvariablen z i := 1{ f A (x0 )6= y0 } − 1{ f B (x0 )6= y0 }
i
i
i
i
P 0
und s2n := n01−1 ni=1 ( z i − z n0 )2 . Ferner sei
T ( z) :=
p
n0
z n0 p 0 R D 0 ( f A ) − R D 0 ( f B )
= n
.
s n0
s n0
Ist q 1−α das 1 − α-Quantil der t n0 −1 -Verteilung, so ist der Student- t-Test unseres Problems
gegeben durch
(
1 falls T ( z) > q 1−α
ϕ∗ ( z) =
.
0 sonst
Mit anderen Worten muss R D 0 ( f A ) also deutlich größer als R D 0 ( f B ) sein um die Nullhypothese
zu widerlegen. Wie gut kontrolliert dieser Test nun Fehler zweiter Art? Sei dazu µ0 := p A − p B >
P 0
0
0
0
0. Mit s2n = n0n−1 n10 ni=1 ( z i − z n0 )2 = n0n−1 VarD 0 id ≤ n2n
0 −1 gilt dann
!
Ã
!
Ã
p
p
n 0 µ0
n 0 µ0
≥ x = P µ0 ,σ2 T ≥ x +
P µ0 ,σ2 T −
s n0
s n0
Ã
!
p
n0 − 1
≤ P µ0 ,σ 2 T ≥ x + p
µ0 .
2
p
Wir setzen nun x := q 1−α −
n0 −1
p
µ0
2
und erhalten damit
βϕ∗ (µ0 , σ2 ) = Pµ0 ,σ2 (T ≥ q 1−α )
Ã
!
p
n 0 µ0
≥ P µ0 , σ 2 T −
≥x
s n0
= P T ([ x, ∞)) = 1 − P T ((−∞, x]).
Die Wahrscheinlichkeit für Fehler zweiter Art, falls µ0 wahr ist, ist damit
ÃÃ
#!
p
n0 − 1
2
1 − βϕ∗ (µ0 , σ ) ≤ P T ((−∞, x]) = t n−1 −∞, q 1−α − p
µ0 .
2
Für n0 → ∞ gilt
p
n0 −1
p
µ0
2
→ ∞ und damit geht die Fehlerwahrscheinlichkeit gegen Null.
Wir haben unsere Eingangsfrage damit jedoch noch nicht beantwortet, da wir bis jetzt lediglich
einen Test konstruiert haben, der entscheidet, ob B auf einem einzelnen Testdatensatz besser
98
4.4 Eine Anwendung von Tests
als A ist. Wie können wir nun entscheiden, ob B besser als A für alle von P generierten
Datensätze ist?
Es gilt zu beachten, dass die Verteilungen der Zufallsvariablen D 7→ R P ( f A,D ) und D 7→
R P ( f B,D ) völlig unbekannt sind.
4.4.5 Test auf vielen Datensätzen I
Bis jetzt haben wir noch nicht definiert, was wir darunter verstehen, dass B auf einer Verteilung P besser als A ist. Eine Möglichkeit hierfür ist es, ein n ∈ N zu fixieren und zu sagen,
dass B für P und n besser als A ist genau dann, wenn ED ∼P n R P ( f B,D ) < ED ∼P n R P ( f A,D ) gilt.
Mit anderen Worten ist das dann der Fall, wenn das mittlere Risiko von B kleiner als das
mittlere Risiko von A ist.
Wir schreiben p A := ED ∼P n R P ( f A,D ) und analog p B . Zudem wählen wir m-mal einen Trainingsdatensatz D i der Länge n und m-mal einen Testdatensatz D 0i der Länge n0 , wobei alles
identisch und unabhängig verteilt sei. Wir betrachten die Zufallsvariablen z i := R D 0 ( f B,D i ) −
i
P
1 Pm
2
(
z
−
z
)
.
Man
sieht,
dass
approximativ
normalverteilt
R D 0 ( f A,D i ) und s2m := m1−1 m
z
m
i =1 i
m i =1 i
i
ist, daher wollen wir einen t-Test auf z i konstruieren. Wir müssen zuvor nachprüfen, dass die
Erwartungswerte der z i den Erwartungswerten unserer Definition von „besser“ entsprechen.
Dazu betrachten wir
Ã
!
´
n0 ³
1 X
ED i ∼P n ,D 0 ∼P n0 ( z i ) = ED i ∼P n ED 0 ∼P n0 0
1{ f B,D (x0 )6= y0 } − 1{ f A,D (x0 )6= y0 }
j
j
i j
i j
i
i
n j=1
³
´
n0
1 X
E(x0 ,y0 )∼P 1{ f B,D (x0 )6= y0 } − 1{ f A,D (x0 )6= y0 }
= ED i ∼P n 0
j
j
i j
i j
n j=1 | j j
{z
}
R P ( f B,D i )−R P ( f A,D i )
= pB − p A .
Daher ergibt es Sinn, den t-Test anzuwenden, um zu entscheiden, ob E z i ≤ 0 gilt. Dazu wählen
wir Θ0 := {(µ, σ2 ) : µ ≤ 0, σ2 > 0} und Θ1 := {(µ, σ2 ) : µ > 0, σ2 > 0}, wobei µ = E z i = p B − p A ist.
p m
Unsere Testgröße ist T ( z) = m szm
, wobei z = ( z1 , . . . , z m ) ist. Dann ist unser Test gegeben
durch
(
1 falls T ( z) > q 1−α
ϕ∗ ( z) =
,
0 sonst
wobei q 1−α das 1 − α-Quantil von t m−1 ist.
Ein Vorteil dieser Methode ist, dass sie immer anwendbar ist, ein Nachteil ist jedoch, dass
sehr viele Daten benötigt werden. In der Praxis wird häufig ein bootstrap approach (dt.
Stiefelschlaufen-Ansatz) durchgeführt: Man hat einen nicht besonders großen Datensatz
vorliegen und zerlegt diesen m-mal zufällig in Trainings- und Testdatensatz, wobei Wiederholungen erlaubt sind. Bootstrapping funktioniert in vielen statistischen Problemen und ist ein
oft verwendetes Werkzeug.
99
4 Statistische Tests
4.4.6 Test auf vielen Datensätzen II
Die Erwartungswerte ED ∼P n (R P ( f D )) werden relativ stark durch Extremwertverhalten beeinflusst. Die Frage ist also, ob wir wirklich an mittleren Risiken interessiert sind. Als Alternative
sagen wir daher, dass B besser als A ist genau dann, wenn P n (D : R P ( f B,D ) < R P ( f A,D )) > 12
gilt, das heißt in mindestens der Hälfte aller D ist B besser als A . Etwas pragmatischer ist die
0
Bedingung P n+n ((D, D 0 ) : R D 0 ( f B,D ) < R D 0 ( f A,D )) > 12 , mit der wir uns nun auseinandersetzen
wollen.
Dies kann durch den so genannten Vorzeichentest überprüft werden. Dazu sei
¢ 1
0¡
H0 : P n+n R D 0 ( f B,D ) ≥ R D 0 ( f A,D ) ≥ ,
2
¢ 1
¢
0¡
0¡
1
H1 : P n+n R D 0 ( f B,D ) ≥ R D 0 ( f A,D ) < ⇔ P n+n R D 0 ( f B,D ) < R D 0 ( f A,D ) > .
2
2
Diese Hypothesen sind nicht mehr parametrisch. Wir setzen nun z i := R D 0 ( f B,D i ) − R D 0 ( f A,D i )
i
i
P
und T ( z) := m
i =1 1{ z i ≥0} ∼ B( m, p), wobei p unbekannt ist. Die Nullhypothese besagt nun,
dass p ≥ 12 ist. Dies wird nun wie im Beispiel 4.2.19 getestet. Es sei p 0 := 12 und k := mp 0 +
p
p
m
+
mp 0 (1 − p 0 ) q 1−α = m
2
2 q 1−α , wobei q 1−α das 1 − α-Quantil der Standardnormalverteilung
ist. Dann ist der Test gegeben durch
(
1 falls T ( z) < k
∗
ϕ ( z ) :=
.
0 sonst
Mit anderen Worten bedeutet dies, dass die Nullhypothese abgelehnt wird, wenn nicht genügend Erfolge von A gezählt werden.
Bis jetzt haben wir nur die Frage beantwortet, ob B besser als A für ein festes P ist. Eigentlich
wollen wir dies aber für viele, unbekannte P wissen. Darunter fallen zum Einen ähnliche
Verteilungen, die typisch für anwendungsnahe Betrachtungen sind, andererseits auch für
unterschiedliche Verteilungen, die typisch für Mehrzweckalgorithmen sind.
100
Literaturverzeichnis
[Witt85] H. Witting, Mathematische Statistik I, 1. Auflage, 1985
[Leh98]
E. L. Lehmann und G. Casella, Theory of Point Estimation, 2nd edition, 1998
[Leh05]
E. L. Lehmann und J. P. Romano, Testing Statistical Hypotheses, 3rd edition, 2005
[Rasch95] D. Rasch, Mathematische Statistik, 1. Auflage, 1995
[Schlitt96] R. Schlittgen, Statistische Referenz, 1. Auflage, 1996
101
Abbildungsverzeichnis
0.1 Übersicht der Zusammenhänge zwischen Stochastik, Wahrscheinlichkeitstheorie
und Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.1 Skizze einer empirischen Verteilungsfunktion . . . . . . . . . . . . . . . . . . . .
19
2.1 Gegenüberstellung beser und gleichmäßig bester Schätzer . . . . . . . . . . . . .
45
3.1 α-Quantil für die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 α-Quantil für die Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Verteilungsfunktion und Umkehrfunktion der Standardnormalverteilung . . .
58
59
63
4.1 Darstellung einer Gütefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Illustration verschiedener α für den Zusammenhang zwischen Gütefunktionen
und (unverfälschter) Tests zum Niveau α . . . . . . . . . . . . . . . . . . . . . . .
4.3 Illustration einer konsistenten Folge statistischer Tests . . . . . . . . . . . . . .
4.4 Erreichen eines vorgegebenen Niveaus durch Verwendung randomisierter Tests
4.5 Illustration des schlechstmöglichsten Verhaltens Fehler zweiter Art . . . . . . .
4.6 Strenge Monotonie der Gütefunktion in der Erweiterung von Satz 4.2.11 . . . .
73
74
75
79
83
86
103
Stichwortverzeichnis
a-posteriori-Wahrscheinlichkeitsdichte, 44
a-priori-Verteilung, 44
Arithmetisches Mittel, 10
Atomlosigkeit, 59
Bayes-Schätzer, 45
Bias, 24
Chi-Quadrat-Verteilung, 16
Cramér-Rao-Ungleichung, 49
Einparametrige Exponentialfamilie, 82
Empirische Verteilungsfunktion, 19
Empirisches Maß, 19
Erwarteter Verlust, 25
Erwartungstreue, 10, 12, 24
Asymptotische, 24
Exass-Kurtosis, 26
Exponentialfamilie
einparametrige, 82
Fisher-Information, 53
Gütefunktion, 73
Gammafunktion, 14
Gammaverteilung, 15
Gemittelter quadratischer Verlust, 46
Klassifikationsrisiko, 96
Konfidenzintervall, 57
asymptotisches, 58
minimales, 58
Konsistenz, 11, 12, 74
Kovarianz, 32
Lemma
von Neyman-Pearson, 77
Lernalgorithmus, 96
Likelihood-Funktion, 37
log-Likelihood-Funktion, 38
Maximum-Likelihood-Schätzer, 37
Maxmin-Test, 83
mittlerer Klassifikationsfehler, 96
Momentenmethode, 35
Momentenschätzer, 35
Monotoner Dichtequotient, 80
Nullschätzer, 31
p-Wert, 76
Quantil, 58
Risiko, 25
Satz
von Chapman-Robbins, 33
von Glivenko-Cantelli, 20
von Rao, 31
Schätzer, 23
Bayes-Schätzer, 45
bester unverzerrter, 30
Maximum-Likelihood-Schätzer, 37
Momentenschätzer, 35
Nullschätzer, 31
Schätzung, 23
Statistischer Raum, 7
Statistischer Test, 72
besserer, 75
gleichmäßig bester, 75
gleichmäßig bester unter allen unverfälschten, 87
konsistente Folge, 74
kritischer Bereich, 72
Macht, 73
Maxmin-Test, 83
nicht-randomisierter, 72
randomisierter, 72
Student- t-Test, 89
105
Stichwortverzeichnis
unverfälschter, 74
zum Niveau α, 74
Zweistichproben- t-Test, 94
Zweistichproben-Gauß-Test, 95
Stichprobenmittel, 10
Stichprobenvarianz, 12
Student- t-Test, 89
Student- t-Verteilung, 17
Unverzerrtheit, 24
Verlustfunktion, 25
der kleinsten Quadrate, 25
Verzerrung, 24
Zufallsstichprobe, 10
Zweistichproben- t-Test, 94
Zweistichproben-Gauß-Test, 95
106
Herunterladen