Mathematische Statistik WS0910 - Lehrstuhl für Mathematik VIII

Werbung
Mathematische
Statistik
Lehrstuhl für Mathematische Statistik
Universität Würzburg
Prof. Dr. Michael Falk
Vorwort
Dieses Skript entstand aus der Vorlesung Mathematische Statistik I und
”
II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis Sommersemester 2008 an der Julius-Maximilians-Universität Würzburg gehalten
hat.
Basierend auf meinen Aufzeichnungen zu dieser Vorlesung habe ich das vorliegende Skript für Herrn Prof. Dr. Falk erstellt. Ich möchte mich auch bei
Johannes Hain bedanken, da er dieses Skript nochmals Korrektur gelesen
hat.
Im Folgenden wird eine Einführung in die grundlegenden Begriffe und Werkzeuge der Mathematischen Statistik gegeben. Des Weiteren werden fundamentale Sätze der Mathematischen Statistik besprochen und mit Beispielen
erläutert.
Stefan Englert
Würzburg, September 2008
1
Inhaltsverzeichnis
1 GRUNDLAGEN
1.1 Ausgangssituation statistischer Entscheidungen . . . . . .
1.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Elementare Testverfahren unter Normalverteilungsannahme
1.4 Punktschätzverfahren . . . . . . . . . . . . . . . . . . . . .
1.5 Bereichsschätzungen . . . . . . . . . . . . . . . . . . . . .
1.6 Randomisierte Entscheidungsverfahren . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
5
5
8
9
14
16
19
2 EXISTENZ OPTIMALER TESTS
2.1 Struktureigenschaften des Raumes Φ aller Testfunktionen . . .
2.2 Das Fundamentallemma von Neyman-Pearson . . . . . . . . .
2.3 Das verallgemeinerte Fundamentallemma von Neyman-Pearson
2.4 Exponentialfamilien . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Einseitige Tests bei monotonem Dichtequotienten . . . . . . .
2.6 Gleichmäßig beste Tests in einparametrigen Exponentialfamilien
26
26
35
39
45
51
55
3 REDUKTION STATISTISCHER ENTSCHEIDUNGEN
3.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Bedingte Erwartungswerte und bedingte Wahrscheinlichkeiten
3.3 Suffiziente σ-Algebren und suffiziente Statistiken . . . . . . . .
3.4 Einige Anwendungen in der Statistik . . . . . . . . . . . . . .
3.5 Vollständigkeit . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Die Ungleichung von Cramér-Rao und
die Fisher-Information . . . . . . . . . . . . . . . . . . . . . .
60
60
62
69
78
79
2
84
Problemstellung
Unter Mathematischer Statistik versteht man die Untersuchung von Mathematischen Modellen sowie die Herleitung bzw. Begründung von Verfahren
zur Auswertung von Beobachtungsdaten.
Ein Beispiel zur Erläuterung der Grundproblematik: Zur Heilung einer bestimmten Krankheit wurde eine neue Behandlungsmethode M2 entwickelt.
Um eine Aussage über ihre Qualität zu erhalten, wurde diese bei 10 Patienten
angewendet. Dabei trat in 8 Fällen ein Heilerfolg ein, in 2 Fällen ergab sich
ein Mißerfolg. Läßt sich nun aufgrund dieser 10 Überprüfungen bereits sagen,
dass die neue Methode M2 häufiger zum Erfolg führt als die herkömmliche
Methoden M1, deren Heilungschance erfahrungsgemäß 65% beträgt?
Der für die Statistik spezifische Aspekt ist die Tatsache, dass das Eintreten
von Erfolg oder Nichterfolg bei einer einzelnen Überprüfung nicht nur von
der Qualität der Heilmethode (dann wäre die Entscheidung klar!), sondern
auch von sehr vielen anderen uns unzugänglichen und in der Gesamtentwicklung unübersehbaren Einflüssen abhängt, so dass wir das Ergebnis nicht
voraussagen können und daher als zufallsabhängig betrachten. Bei unserer
Aussage über die Güte von M3 müssen wir daher die Zufallsabhängigkeit der
10 Ergebnisse berücksichtigen.
Die Verwendung der Wahrscheinlichkeitstheorie ermöglicht es, solche auch
gefühlsmäßig unsicheren Entscheidungen zum Gegenstand mathematischer
Überlegungen zu machen. Das geschieht dadurch, dass wir die Beobachtungen (Ergebnisse) als Realisierungen von Zufallsvariablen auffassen und damit
unterstellen, dass sich der Vorgang durch eine Wahrscheinlichkeitsverteilung
beschreiben lässt (Grundannahme der Mathematischen Statistik).
Im obigen Beispiel werden wir Zufallsvariablen X1 , . . . , X10 verwenden, die
jeweils nur die beiden Werte 1 (für Heilerfolg) und 0 (für Mißerfolg) mit
den Wahrscheinlichkeiten ϑ bzw. 1 − ϑ annehmen können. Die Xi sind dann
B(1, ϑ)–verteilte Zufallsvariablen, wobei durch den uns unbekannten Parameter ϑ die Güte des neu entwickelten Medikamentes angegeben wird:
M2 ist besser als M1 ⇔ ϑ > 0, 65.
Besonders einfach wird die Behandlung dieses Modells, wenn wir zusätzlich
voraussetzen, dass die X1 , . . . , X10 stochastisch unabhängig sind (d.h. die
Versuchsausführungen beeinflussen sich nicht gegenseitig). Dann ist die Verteilung von (X1 , . . . , X10 )Pdas Produktmaß B(1, ϑ)10 /{0, 1}10 und damit die
Anzahl der Erfolge, also i≤10 Xi , B(10, ϑ)–verteilt.
Eine Aussage über die unbekannte Verteilung von X = (X1 , . . . , X10 ) bzw.
den unbekannten Verteilungsparameter aufgrund einer zufallsabhängigen Beobachtung (im obigen Beispiel also aufgrund des beobachteten Tupels (x1 , . . . ,
3
P
x10 ) mit i≤10 xi = 8)) heißt eine statistische Entscheidung. Folglich ist eine
Vorschrift anzugeben, aus der zu jedem möglichen Versuchsausgang die zu
treffende Entscheidung abzulesen ist.
Ein Beispiel für eine derartige Entscheidungsvorschrift in obiger Situation ist
die folgende:
Die Entscheidung M2 ist besser als M1 (d.h. ϑ > 0, 65) wird
genau dann getroffen, wenn 8 oder mehr Heilerfolge eintreten.
Durch die Verwendung mathematischer Methoden wird die Unsicherheit statistischer Entscheidungen nicht aufgehoben! Man kann sie aber durch die
Verwendung wahrscheinlichkeitstheoretischer Hilfsmittel quantitativ erfassen, d.h. Wahrscheinlichkeiten für Fehlentscheidungen können (exakt) angegeben werden.
Im obigen Beispiel ist es etwa durchaus möglich, wenn auch nur mit der kleinen Wahrscheinlichkeit 0, 610 , dass im Fall ϑ = 0, 6 bei allen 10 Versuchspersonen ein Heilerfolg eintritt. In diesem Fall liefert aber die oben angegebene
Entscheidungsvorschrift die Entscheidung M2 ist besser als M1, obwohl sie
falsch ist!
Darüber hinaus ermöglicht es die Wahrscheinlichkeitstheorie, unter allen Entscheidungsfunktionen diejenigen zu bestimmen, die ein vorgegebenes Optimalitätskriterium erfüllen. Derartige optimale Lösungen sind natürlich für die
Praxis von größter Bedeutung. Tatsächlich ist die Bestimmung optimaler
statistischer Entscheidungsverfahren ein wesentlicher Gegenstand der Mathematischen Statistik.
4
Kapitel 1
GRUNDLAGEN
1.1
Ausgangssituation statistischer Entscheidungen
Jeder statistischen Entscheidung liegt ein Datenmaterial x1 , . . . , xn zugrunde. Dieses denken wir uns zu einer Beobachtung x = (x1 , . . . , xn ) zusammengefaßt, die wir als Realisierung einer Zufallsgröße X : (Ω, A, P) → (X , B)
auffassen. (X , B) heißt auch Stichprobenraum, x Stichprobe. Also:
(Ω, A, P) ist ein Wahrscheinlichkeitsraum,
(X , B) ist ein meßbarer Raum,
X : (Ω, A) → (X , B) ist meßbare Abbildung,
x = X(ω).
Mit der Verteilung P := P ∗ X von X, d.h.
P (B) := (P ∗ X)(B) = P(X −1 (B)),
B ∈ B,
ist (X , B, P ) ebenfalls ein Wahrscheinlichkeitsraum.
Im Gegensatz zur Wahrscheinlichkeitstheorie ist es ein spezifischer Aspekt
der Mathematischen Statistik, dass die zugrundeliegende Verteilung P als
unbekannt anzusehen und aufgrund der Beobachtung x eine Aussage über
P zu machen ist. Häufig wird man jedoch gewisse Vorinformationen darüber
haben, welche Verteilungen überhaupt in Frage kommen.
Definition 1.1.1. Unter einer Verteilungsannahme versteht man die Auszeichnung einer Klasse P von Verteilungen über einem Stichprobenraum
(X , B). Dann heißt (X , B, P) ein statistischer Raum.
Aus technischen Gründen indiziert man die Elemente P ∈ P häufig durch
einen Parameter ϑ. Die Gesamtheit Θ der zugelassenen Parameterwerte heißt
Parameterraum. Es gilt also
P = {Pϑ : ϑ ∈ Θ}.
5
Ist X eine Zufallsgröße mit Verteilung Pϑ , so schreiben wir für den Erwartungswert, Varianz, Verteilungsfunktion, Dichte etc. von X
Eϑ , σϑ2 , Fϑ , fϑ
etc.
Eine Verteilungsklasse P = {Pϑ : ϑ ∈ Θ} heißt k–parametrig, wenn sie sich
zwanglos“ durch einen k–dimensionalen Parameter ϑ parametrisieren läßt.
”
So ist etwa die Familie der eindimensionalen Normalverteilungen
P = {N (µ, σ 2 ) : µ ∈ R, σ 2 > 0}
eine zwei-parametrige Klasse mit Parameter ϑ = (µ, σ 2 ).
Allgemeiner interessiert von einer Verteilungsklasse P oft nur der Wert κ(P )
eines Funktionals
κ: P→K
der unbekannten Verteilung P , etwa der Mittelwert von P .
Ist speziell die Verteilungsklasse parametrisiert, so fassen wir κ als eine Abbildung von Θ nach K auf. Wir schreiben also
κ(ϑ) : Θ → K
d.h. κ(ϑ) statt κ(Pϑ ).
In den meisten Anwendungen ist Θ eine Teilmenge des Rk .
Erscheint im Rahmen des konkreten Problems eine solche parametrische
Verteilungsannahme als zu einschneidend, so wird man z.B. bei Problemen
mit einer stetigen Verteilung typischerweise alle bzgl. des n–dimensionalen
Lebesgue-Maßes λn absolut stetigen Wahrscheinlichkeitsmaße auf (Rn , Bn )
(also alle Wahrscheinlichkeitsverteilungen auf der Borel–σ–Algebra Bn des
Rn mit einer Dichte bzgl. λn ) bei der Verteilungsannahme zulassen müssen.
Man spricht in diesem Fall von einer nichtparametrischen Verteilungsannahme.
Neben der Verteilungsannahme ist noch die Gesamtheit der Aussagen anzugeben, zwischen denen entschieden werden soll. Die Gesamtheit ∆ dieser Aussagen, versehen mit einer σ–Algebra D heißt der Entscheidungsraum
(∆, D). Die Elemente d von ∆ heißen Entscheidungen. Aufgabe ist es also,
ein statistisches Entscheidungsverfahren anzugeben, d.h. eine Vorschrift, die
jeder möglichen Beobachtung x ∈ X eindeutig eine Entscheidung
d = e(x) ∈ ∆
zuordnet.
Definition 1.1.2. Eine (nicht-randomisierte) Entscheidungsfunktion e ist
eine B, D–meßbare Abbildung des Stichprobenraumes (X , B) in den Entscheidungsraum (∆, D). Deren Gesamtheit bezeichnen wir mit E.
6
Je nach der Struktur des Entscheidungsraumes unterscheidet man zwischen
verschiedenen Grundtypen statistischer Entscheidungsverfahren. Die beiden
wichtigsten sind die Tests und die Schätzverfahren.
In den folgenden Abschnitten wollen wir diese Entscheidungsverfahren näher
untersuchen. Dabei gehen wir stets von einer parametrischen Verteilungsannahme P = {Pϑ : ϑ ∈ Θ} aus.
Wir verstehen dann unter einer Hypothese H stets eine Aussage (Annahme)
über den Parameter ϑ. Dabei werden wir H mit derjenigen Teilmenge des
Parameterraumes Θ, für die H gilt, identifizieren.
Definition 1.1.3. Gegeben sei eine Verteilungsannahme P = {Pϑ : ϑ ∈ Θ}
und ein Entscheidungsraum (∆, D). Dann heißt eine Funktion
L : Θ × ∆ → [0, ∞)
Verlustfunktion, falls gilt:
∀ϑ ∈ Θ : L(ϑ, ·) ist D, B–meßbar.
Bemerkung 1.1.4. L(ϑ, d) drückt den Verlust (Schaden) aus, den man bei
Treffen der Entscheidung d und gleichzeitigem Vorliegen von Pϑ erleidet.
Definition 1.1.5. Es sei L eine Verlustfunktion. Dann heißt die Funktion
R : Θ × E → [0, ∞], definiert durch
Z
R(ϑ, e) :=
L(ϑ, e(x)) Pϑ (dx),
X
Risikofunktion (erwarteter Verlust) bzgl. L und e.
R(ϑ, e) ist also der erwartete Verlust bei Vorliegen von Pϑ und Entscheidungsfunktion e.
In der folgenden Definition legen wir Optimalitätskriterien für Entscheidungsfunktionen fest.
Definition 1.1.6.
(i) e∗ heißt gleichmäßig beste (n.r.) Entscheidungsfunktion, falls
∀ϑ ∈ Θ : R(ϑ, e∗ ) = min R(ϑ, e).
e∈E
(ii) ẽ heißt eine Mini-Max Lösung bzgl. E, falls
sup R(ϑ, ẽ) = min sup R(ϑ, e).
e∈E ϑ∈Θ
ϑ∈Θ
7
1.2
Tests
Aufgrund einer vorliegenden Beobachtung x ∈ X soll zwischen zwei Aussagen
entschieden werden:
ϑ ∈ H oder ϑ ∈ K,
wobei
Θ = H ∪ K,
H ∩ K = ∅.
Bezeichen wir die Entscheidungen für H bzw. K mit dH bzw. dK , so definieren
wir mit
∆ := {dH , dK }, D := Potenzmenge von ∆
einen Entscheidungsraum.
Dann ist eine Abbildung e : X → ∆ genau dann eine (n.r.) Entscheidungsfunktion, wenn gilt
S := {x ∈ X : e(x) = dK } = e−1 ({dk }) ∈ B,
(⇔ S c ∈ B). Dies ist gerade die Meßbarkeit von e.
Definition 1.2.1. Eine Entscheidungsfunktion der Form
dK , falls x ∈ S,
e(x) =
x ∈ X,
dH , falls x ∈ S c ,
mit S ∈ B, heißt (n.r.) Test für das Entscheidungsproblem H gegen K.
Man wird natürlich versuchen, S ∈ B bzw. e so zu wählen, dass möglichst
wenige Fehlentscheidungen getroffen werden.
Zwei Arten von Fehlern sind dabei möglich:
Fehler 1. Art:
Fehler 2. Art:
Entscheidung für K, obwohl H richtig ist,
Entscheidung für H, obwohl K richtig ist.
Die übliche (unsymmetrische) Vorgehensweise ist die folgende: Man versucht
unter allen (n.r.) Tests mit einer vorgegebenen Irrtumswahrscheinlichkeit α ∈
(0, 1) für den Fehler 1. Art einen solchen zu bestimmen, der die Wahrscheinlichkeit für den Fehler 2. Art minimiert: Gesucht ist also S ∗ ∈ B mit
S ∗ ∈ γα := {S ∈ B : ∀ϑ ∈ H : Pϑ (S) ≤ α}
(1.2.2)
∀ϑ ∈ K : Pϑ (S ∗c ) = inf Pϑ (S c ).
(1.2.3)
und
S∈γα
8
Äquivalent zu (1.2.3) ist
∀ϑ ∈ K : Pϑ (S ∗ ) = sup Pϑ (S).
(1.2.4)
S∈γα
Die Elemente der Klasse γα , d.h. Tests S ∈ B mit der Eigenschaft
∀ϑ ∈ H : Pϑ (S) ≤ α
(1.2.5)
heißt n.r. Test zum Niveau α. α ∈ [0, 1] heißt Irrtumswahrscheinlichkeit oder
Wahrscheinlichkeit für den Fehler 1. Art, 1 − α heißt Sicherheitswahrscheinlichkeit.
Man bezeichnet H auch als Nullhypothese oder Hypothese und K als Gegenhypothese oder Alternative. Man nennt
S := {x ∈ X : e(x) = dK } =: {e = dK }
die kritische Region und
S c = {e = dH }
den Annahmebereich des Tests e.
1.3
Elementare Testverfahren unter Normalverteilungsannahme
Im Folgenden seinen X1 , . . . , Xn unabhängige und identisch N (µ, σ 2 )-verteilte
Zufallsvariablen, (X , B) = (Rn , Bn ). Dabei bezeichnet
Z
(x − µ)2
1
2
√ exp −
dx,
N (µ, σ )(B) =
2σ 2
2π
B
B ∈ B, µ ∈ R, σ > 0, die Normalverteilung auf (R, B) mit Mittelwert µ und
Varianz σ 2 .
Wir unterscheiden im Folgendem verschiedene Fälle:
(i) Es sei µ unbekannt, σ 2 bekannt. Die parametrische Verteilungsannahme
lautet in diesem Fall
P = {Pϑ = N (µ, σ 2 )n : ϑ = µ ∈ Θ}, Θ = R
Zu vorgegebenen Niveau, d.h. Fehlerwahrscheinlichkeit 1. Art α ∈ (0, 1),
ist ein (einseitiger) Test für H : ϑ ≥ ϑ0 gegen K : ϑ ≤ ϑ0 zu finden.
Dabei ist ϑ0 ∈ R fest vorgegeben. Aufgrund des starken Gesetzes der
großen Zahlen gilt
n
T (X1 , . . . , Xn ) :=
1X
n→∞
Xi −→ E(X1 ) = µ P − f.s.
n i=1
9
Es ist daher sinnvoll, H abzulehnen, falls aufgrund vorliegender Beobachtungen
x = (x1 , . . . xn ) = (X1 (ω), . . . Xn (ω))
die Statistik T (X1 , . . . , Xn ) zu klein“ ist, d.h. T (X1 , . . . , Xn ) ≤ γ <
”
ϑ0 . Dabei ist γ so zu wählen, dass die Wahrscheinlichkeit für den Fehler
1. Art nicht größer als α ist, d.h.
sup Pϑ (T (X1 , . . . Xn ) ≤ γ) ≤ α.
(1.3.1)
ϑ∈H
Nach dem Faltungstheorem der Normalverteilung gilt für ϑ ∈ Θ
!
n
X
Pϑ
Xi ∈ B = N (nµ, nσ 2 )(B), B ∈ B
i=1
⇒ Pϑ
n1/2
!
!
n
1X
Xi − µ /σ ∈ B = N (0, 1)(B)
n i=1
d.h.
Pϑ n1/2 (T (X1 , . . . Xn ) − µ)/σ ∈ B = N (0, 1)(B).
Daher gilt für alle t ∈ R und T = T (X1 , . . . , Xn ) und ϑ ∈ Θ
tσ
1/2 T − ϑ
Pϑ T ≤ ϑ + 1/2 = Pϑ n ·
≤ t = Φ(t), B = (−∞; t]
n
σ
wobei
Z t
1
exp −x2 /2 dx
Φ(t) = √
2π −∞
die Verteilungsfunktion der Standardnormalverteilung ist.
Für ϑ ∈ H erhalten wir nun
P ϑ T ≤ ϑ0 +
tσ
n1/2
≤
=
sup Pϑ
ϑ∈H
tσ
− (ϑ − ϑ0 )
n1/2 | {z }
≥0
tσ
Pϑ T ≤ ϑ + 1/2
n
Φ(t),
P ϑ T ≤ ϑ +
=
ϑ≥ϑ0
d.h.


tσ
T ≤ ϑ0 + 1/2
n
≤ Φ(t)
Wählen wir also t ∈ R so, dass Φ(t) = α, d.h. t = Φ−1 (α) =: uα , so
haben wir (1.3.1) mit der Wahl γ := ϑ0 + uα σn−1/2 erfüllt. Dabei ist
uα das α-Quantil der Standardnormalverteilung.
10
Die kritische Region unseres Tests ist also die Menge
n
uα σ o
C = x ∈ Rn : T (x) ≤ ϑ0 + 1/2
n
Dieser Test heißt auch Gauss-Test.
(ii) Es sei σ 2 unbekannt, µ hingegeen bekannt. Die Verteilungsannahme
lautet in diesem Fall
P = Pϑ = N (µ, σ 2 )n : ϑ = σ 2 ∈ Θ , Θ = (0, ∞),
Gesucht ist nun ein einseitiger Test zum Niveau α für H : ϑ ≥ ϑ0 gegen
K : ϑ < ϑ0 . Dabei ist ϑ0 > 0 vorgegeben.
Das Starke Gesetz der großen Zahlen leifert
n
1X
n→∞
(Xi −µ)2 −→ E (X1 − µ)2 = σ 2
T̂ := T̂ (X1 , . . . Xn ) :=
n i=1
P−f.s.
Wir werden daher H ablehnen, falls aufgrund einer vorliegenden Beobachtung
x = (x1 , . . . xn ) = (X1 (ω), . . . , Xn (ω))
die Testgröße T̂ (x) zu klein“ wird, d.h. T̂ (x) ≤ γ ≤ ϑ0 . Dabei ist γ
”
so festzulegen, dass
sup Pϑ T̂ ≤ γ ≤ α.
(1.3.2)
ϑ∈H
Wir gehen wie folgt vor: P
Ist Xi N (µ, σ 2 )-verteilt, so ist (Xi − µ)/σ
N (0, 1)-verteilt. Damit ist ni=1 (Xi −µ)2 /σ 2 nach Definition χ2 -verteilt
mit n Freiheitsgraden, i. Z. χ2n .
Bezeichnen wir mit Fχ2n die Verteilungsfunktion der χ2 -Verteilung mit
n Freiheitsgraden und setzen wir noch
cα,n := Fχ−1
2 (α),
n
so gilt mit γ := cα,n · ϑ0 /n für alle ϑ ∈ H = [ϑ0 , ∞)
Pϑ T̂ ≤ γ
!
n
1 X
c
·
ϑ
α,n
0
= Pϑ
·
(Xi − µ)2 ≤
n i=1
n


n
2
X
Xi − µ
ϑ0 


√
= Pϑ 
≤ cα,n

ϑ
ϑ
|{z}
i=1
≤1
!
n
X Xi − µ 2
√
≤ Pϑ
≤ cα,n
ϑ
i=1
= Fχ2n (cα,n )
= α,
11
d.h. (1.3.2) ist erfüllt. Die kritische Region unseres Tests ist also die
Menge
cα,n · ϑ0
n
C = x ∈ R : T̂ (x) ≤
n
(iii) Es sei nun µ und σ 2 unbekannt.
Die Verteilungsannahme lautet nun
P = Pϑ = N (µ, σ 2 )n : ϑ = (µ, σ 2 ) ∈ Θ , Θ = R × (0, ∞).
Das starke Gesetz der großen Zahlen liefert mit X n :=
S2
1
n
Pn
i=1
S 2 (X1 , . . . Xn )
n
2
1 X
Xi − X n
n − 1 i=1
:=
:=
Xi
(1.3.3)
n
2
1 X
(Xi − µ) + (µ − X n )
n − 1 i=1








!


n


X
n
1
2
2
(Xi − µ) − X n − µ
− 1} 
n i=1
| {z }


|n {z


n→∞


{z
}
−→ 0

|
n→∞
=
=
−→ 1
n→∞
−→ σ 2
n→∞ 2
−→ σ
P − f.s.,
falls Xi die Verteilung Pϑ besitzen mit ϑ = (µ, σ 2 ).
Insbesondere gilt
Eϑ (S 2 ) = σ 2
Obige Konvergenzaussage nehmen wir zur Grundlage für die Definition
von Tests für die beiden Entscheidungsprobleme.
(a) H : σ 2 ≥ σ02 gegen K : σ 2 < σ02 , wobei σ02 > 0 fest vorgegeben ist
(b) H : µ ≤ µ0 gegen K : µ > µ0 , wobei µ0 ∈ R fest vorgegeben ist
Zu (a): Die Konvergenzaussage (1.3.3) legt es nahe H abzulehnen, falls
aufgrund einer vorliegenden Beobachtung
x = (x1 , . . . xn ) = (X1 (ω), . . . , Xn (ω))
gilt:
S 2 (x) ≤ γ < σ02 ,
12
wobei γ so zu wählen ist, dass
sup Pϑ S 2 ≤ γ ≤ α.
(1.3.4)
ϑ∈H
Beachte dabei dass H = R × [σ02 , ∞).
Nun ist (n − 1) · S 2 /σ 2 χ2n−1 -verteilt (siehe etwa Theorem 2.2.1 in Falk
et. al. (2002)). Setzen wir daher γ := cα,n−1 σ02 /(n − 1), so gilt für alle
ϑ∈H


σ 2 
n − 1 2
0

Pϑ (S 2 ≤ γ) = Pϑ 
S
≤
c
α,n−1

 σ2
σ
| {z }
≤1
n−1 2
≤ Pϑ
S ≤ cα,n−1
σ2
= α
d.h. (1.3.4) ist erfüllt. Die kritische Region unseres Tests ist also die
Menge
cα,n−1 · σ02
n
2
C = x ∈ R : S (x) ≤
n−1
P
Zu (b): Da die Verteilung von T = n1 nn−1 (Xi − µ) von σ 2 abhängt
und im vorliegenden Fall σ 2 unbekannt ist liegt es wegen (1.3.3) nahe
die Stichprobenfunktion
t(x1 , . . . xn ) :=
n1/2 · (T (x1 , . . . , xn ) − µ)
(S 2 (x1 , . . . , xn ))1/2
zu verwenden. Als Entscheidungsregel verwenden wir:
H wird abgelehnt, falls aufgrund einer vorliegenden Beobachtung x =
(x1 , . . . xn )
n1/2 (T (x) − µ0 )
≥ γ > 0.
t0 (x) =
(S 2 (x))1/2
Dabei ist γ so zu wählen, dass
sup Pϑ (t0 ≥ γ) ≤ α
ϑ∈H
Beachte, dass H = (−∞, µ0 ] × (0, ∞).
Es gilt
1/2
t(x) = (n − 1)
13
T (x)−µ
σ
1/2 ,
n−1 2
S
(x)
2
σ
(1.3.5)
wobei n1/2 (T (X1 , . . . Xn ) − µ) /σ N (0, 1)-verteilt ist und
((n − 1)/σ 2 )S 2 (X1 , . . . Xn ) χ2n−1 -verteilt ist, falls X1 , . . . Xn unabhängig
und identisch N (µ, σ 2 ).
Diese beiden Zufallsvariablen sind stochastisch unabhängig und die Verteilung von t(X1 , . . . Xn ) ist die (Studentsche) t-Verteilung mit n − 1
Freiheitsgraden, i.Z. tn−1 (s. Falk et al. (2002), Theorem 2.2.1).
Ist nun γ := d1−α,n−1 := t−1
n−1 (1 − α) das 1 − α-Quantil der tn−1 Verteilung, so erhalten wir für alle ϑ ∈ H




µ − µ0


Pϑ (t0 ≥ γ) = Pϑ t + n1/2 2 1/2 ≥ γ 
(S )


| {z }
≤0
≤
=
=
=
=
Pϑ (t ≥ γ)
tn−1 ([γ, ∞))
tn−1 ([d1−α,n−1 , ∞))
1 − (1 − α)
α,
d.h. (1.3.5) ist erfüllt. Die kritische Region dieses (Einstichproben) tTests ist
C := {x ∈ Rn : t0 (x) ≥ d1−α,n−1 } .
1.4
Punktschätzverfahren
Bei vorgegebenem Stichprobenraum (X , B) und zugrundegelegter Verteilungsannahme P = {Pϑ : ϑ ∈ Θ} soll aufgrund einer vorliegenden Beobachtung
x ∈ X der zugrundeliegende Parameter ϑ ∈ Θ oder allgemein der Wert κ(ϑ)
einer (reellen) Funktion κ auf Θ geschätzt werden.
Definition 1.4.1. Eine meßbare Abbildung κ̂ des Stichprobenraumes (X , B)
in den (meßbaren) Wertebereich der Funktion κ heißt eine Schätzfunktion,
genauer eine Punktschätzfunktion für κ(ϑ), kurz κ̂ : (X , B) → (R, B).
Bei einer stetig verteilten Schätzfunktion wird jeder spezielle Wert, insbesondere der zugrundeliegende Wert κ(ϑ) mit Wahrscheinlichkeit 0 angenommen
Pϑ (κ̂ = κ(ϑ)) = 0
Man trifft in diesem Fall somit fast sicher (= mit Wahrscheinlichkeit 1) eine
Fehlentscheidung.
14
Bei der Wahl einer Schätzfunktion κ̂ sollte daher die Größe des erwarteten
Fehlers berücksichtigt werden. Im Folgenden setzen wir vorraus dass κ : Θ →
R.
Definition 1.4.2. κ̂ : (X , B) → (R, B) heißt erwartungstreu oder unverzerrt
(engl. unbiased), falls
∀ϑ ∈ Θ :
Eϑ (κ̂) = κ(ϑ)
Definition 1.4.3. κˆ∗ heißt erwartungstreue Schätzfunktion mit Minimalvarianz, falls
(i) κˆ∗ ∈ K̂ := {κ̂ : ∀ϑ ∈ Θ : Eϑ (κ̂) = κ(ϑ)},
(ii) ∀ϑ ∈ Θ V arϑ (κˆ∗ ) = Eϑ (κˆ∗ − µ)2 = inf κ̂∈K̂ V arϑ (κ̂).
Die Bedeutung der Minimalvarianz lässt sich wie folgt motivieren. Es sei
L : Θ × R → [0, ∞) eine Verlustfunktion mit den beiden Eigenschaften
∀ϑ ∈ Θ : L(ϑ, ·) ist zweimal stetig diffbar
∀ϑ ∈ Θ : L(ϑ, κ(ϑ)) = 0
Damit wird für eine beliebige erwartungstreue Schätzfunktion κ̂ von κ nach
der Taylorformel gelten:
L(ϑ, κ̂) = L(ϑ, κ̂) − L(ϑ, κ(ϑ))
∂
∂2
(κ̂ − κ(ϑ))2
L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + 2 L(ϑ, ξ)
=
∂κ
∂ κ
2
∂
∂2
(κ̂ − κ(ϑ))2
≈
L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + 2 L(ϑ, κ(ϑ))
∂κ
∂ κ
2
∂
L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + const(ϑ) · (κ̂ − κ(ϑ))2
=
∂κ
wobei ξ zwischen κ̂ und κ liegt und const(ϑ) unabhängig von κ̂ ist. Es folgt:
Rϑ (κ̂) = Eϑ (L(ϑ, κ̂))
∂
2
≈ Eϑ
L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + const(ϑ) · (κ̂ − κ(ϑ))
∂κ
∂
=
L(ϑ, κ(ϑ)) Eϑ (κ̂ − κ(ϑ)) +const(ϑ) · Eϑ (κ̂ − κ(ϑ))2
|
{z
}
∂κ
=0
= const(ϑ) · V arϑ (κ̂)
Ein erwartungstreuer Schätzer mit Minimalvarianz wird also tendenziell jedes
Risiko minimieren. Das erklärt die Bedeutung der Minimalvarianz.
15
Beispiel 1.4.4. Es seinen X1 , . . . Xn unabhängige und identisch N (µ, σ 2 )verteilte Zufallsvariablen, wobei µ und σ 2 unbekannt sind.
Es gilt also (X , B, P) = (Rn , Bn , P = {Pϑ = N (µ, σ 2 )n : ϑ = (µ, σ 2 ) ∈
Θ}), Θ = R × (0, ∞). Gesucht ist eine Schätung für κ(ϑ) = µ.
Das Gesetz der großen Zahlen legt die Schätzfunktion
n
1X
xi ,
κ̂ =
n i=1
x = (x1 , . . . , xn ) ∈ Rn , für κ(ϑ) nahe.
Tatsächlich ist κ̂ erwartungstreu:
n
1X
Xi
n i=1
∀ϑ ∈ Θ : Eϑ (κ̂(X1 , . . . Xn )) = Eϑ
!
= µ = κ(ϑ).
Wir werden in Kapitel 3 zeigen, dass κ̂ auch 1.4.3 (ii) erfüllt, also ein Schätzer
mit Minimalvarianz ist. Zum Nachweis wird dabei wesentlich von der Normalverteilungsannahme Gebrauch gemacht.
Beispiel 1.4.5. Es seien X1 , . . . , Xn unabhängige und identisch verteilte
Zufallsvariablen mit σ 2 := V ar(X1 ) < ∞. Setze
n
1X
(xi − x)2 ,
κˆ1 (x) :=
n i=1
n
1 X
κˆ2 (x) :=
(xi − x)2 ,
n − 1 i=1
n
1X
x = (x1 , . . . xn ) ∈ R , x =
xi .
n i=1
n
Dann liefert κˆ2 (X1 , . . . , Xn ) eine erwartungstreue Schätzfunktion für σ 2 ,
κˆ1 (X1 , . . . , Xn ) aber nicht.
1.5
Bereichsschätzungen
Der Vorteil der in 1.4 betrachteten Schätzverfahren präzise Aussagen in Form
von Punktschätzungen zu liefern bedingt gleichzeitig, dass in (nahezu) allen
Fällen f.s. Fehlentscheidungen getroffen werden.
Eine Alternative zur Punktschätzung besteht in der Bereichsschätzung (Konfidenzbereich) d.h. in der Angabe einer Abbildung
K : X → Potenzmenge von Θ
16
derart, dass K(·)(⊂ Θ) mit einer vorgegebenen Mindestwahrscheinlichkeit
1 − α den zugrundeliegenden Parameter enthält
∀ϑ ∈ Θ : Pϑ (x ∈ X : ϑ ∈ K(x)) ≥ 1 − α
Beispiel 1.5.1. Es seien X1 , . . . , Xn unabhängige und identisch N (µ, σ02 )verteilte Zufallsvariablen mit bekanntem σ02 > 0 und unbekanntem µ ∈ R
(X , B) = (Rn , Bn ), P = {Pϑ = N (µ, σ02 )n , ϑ = µ ∈ Θ = R}
P
Setze T (x) := n1 ni=1 xi , x = (x1 , . . . xn ) ∈ X .
Da mit T = T (X1 , . . . , Xn ) unter ϑ die Größe n1/2 (T − µ)/σ0 N (0, 1)-verteilt
ist, gilt für ein beliebiges α ∈ (0, 1)
1/2 T − µ
∀ϑ ∈ Θ : Pϑ −uα/2 ≤ n
≤ uα/2 = 1 − α
σ0
wobei uα/2 = Φ−1 1 − α2
oder
σ0 uα/2
σ0 uα/2 ∀ϑ ∈ Θ : Pϑ T −
≤
µ
≤
T
+
=1−α
1/2
n1/2

 n
i
h
σ0 uα/2
σ0 uα/2
.
;
T
+
= Pϑ |{z}
ϑ ∈ T−
n1/2
n1/2
=µ
Dies bedeutet, dass
σ0 uα/2
σ0 uα/2 i
K(x) := T (x) −
; T (x) +
n1/2
n1/2
h
x ∈ Rn , eine Bereichsschätzung ist mit der Eigenschaft
Pϑ (ϑ ∈ K(X1 , . . . , Xn )) = 1 − α,
ϑ ∈ Θ. Man nennt T − σ0 uα/2 n−1/2 ; T + σ0 uα/2 n−1/2 Konfidenzintervall
(Vertrauensintervall) für den Parameter ϑ zum Niveau 1 − α.
Beispiel 1.5.2. Es seien X1 , . . . , Xn unabhängige und N (µ, σ 2 )-verteilte Zufallsvariablen, wobei µ und σ 2 > 0 unbekannt sind, d.h. Θ = R × (0, ∞).
Die Zufallsvariable
T (X1 , . . . , Xn ) − µ
t(X1 , . . . , Xn ) := n1/2 p
S 2 (X1 , . . . , Xn )
17
ist nach Abschnitt 1.3 t-verteilt mit n − 1-Freiheitsgraden, i.Z. tn−1 .
Für α ∈ (0, 1) sei tα/2 := d1− α2 ,n das 1 − α2 -Quantil der tn−1 -Verteilung, d.h.
Pϑ (t(X1 , . . . , Xn ) ≤ tα/2 ) = 1 −
α
.
2
Dann gilt ∀ϑ = (µ, σ 2 ) ∈ Θ:
Pϑ −tα/2 ≤ t(X1 , . . . , Xn ) ≤ tα/2
= Pϑ t(X1 , . . . , Xn ) ≤ tα/2 − Pϑ t(X1 , . . . , Xn ) ≤ −tα/2
α α
=1− −
2
2
=1−α
oder ∀ϑ = (µ, σ 2 ) ∈ Θ:
tα/2 (S 2 )1/2
tα/2 (S 2 )1/2
Pϑ T −
≤µ≤T+
n1/2
n1/2
=1−α
tα/2 (S 2 )1/2
tα/2 (S 2 )1/2
= Pϑ µ ∈ T −
;T +
n1/2
n1/2
d.h. T − tα/2 (S 2 )1/2 n−1/2 ; T + tα/2 (S 2 )1/2 n−1/2 ist ein Konfidenzintervall für
den Parameter κ(ϑ) = µ zum Niveau 1 − α.
Definition 1.5.3. Eine Abbildung
K : X → Potenzmenge von Θ
heißt Bereichsschätzfunktion zum Konfidenzniveau 1 − α oder Konfidenzbereich zum Niveau 1 − α :⇔
∀ϑ ∈ Θ : Pϑ (x ∈ X : ϑ ∈ K(x)) ≥ 1 − α
Bemerkung 1.5.5.
muss gelten
(1.5.4)
(i) Damit die Wahrscheinlichkeit in (1.5.4) erklärt ist,
∀ϑ ∈ Θ : A(ϑ) := {x ∈ X : ϑ ∈ K(x)} ∈ B
(ii) Im Fall von Bereichsschätzungen ist der Entscheidungsraum die Potenzmenge von Θ. Er enthält im Gegensatz zu den bisher beobachteten
Entscheidungsverfahren i.a. mehrere richtige Entscheidungen.
(iii) Ist Θ ein Intervall in R und ist für alle x ∈ X K(x) ein Intervall in
R, so heißt K als Lösung von (1.5.4) ein Konfidenzintervall für ϑ zum
Niveau 1 − α.
18
Satz 1.5.6 (Dualitätsprinzip). Es sei P = {Pϑ : ϑ ∈ Θ} eine beliebige
Familie von Wahrscheinlichkeitsmaßen auf dem Stichprobenraum (X , B) und
α ∈ (0, 1). Dann gilt:
(i) Ist K ein Konfidenzbereich zum Niveau 1 − α, so ist für jedes ϑ0 ∈ Θ
die Menge X \A(ϑ0 ) = {x ∈ X : ϑ0 ∈
/ K(x)} die kritische Region eines
Tests zum Niveau α für das Problem Hϑ0 : ϑ = ϑ0 gegen Kϑ0 : ϑ 6= ϑ0 .
(ii) Ist für jedes ϑ0 ∈ Θ C(ϑ0 ) die kritische Region eines Tests zum Niveau
α für das Entscheidungsproblem Hϑ0 : ϑ = ϑ0 gegen Kϑ0 : ϑ 6= ϑ0 , so
wird durch die Festsetzung K(x) := {ϑ0 ∈ Θ : x ∈ C(ϑ0 )c }, x ∈ X , ein
Konfidenzbereich zum Niveau 1 − α definiert.
Beweisskizze: Zu (i):
Pϑ0 (X \A(ϑ0 )) = Pϑ0 (x ∈ X : ϑ0 ∈
/ K(x))
= 1 − Pϑ0 (x ∈ X : ϑ0 ∈ K(x)) ≤ α
{z
}
|
≥1−α
Zu (ii): ϑ ∈ K(x) ⇔ x ∈ C(ϑ)c ; wähle als K(x) alle ϑ mit der Eigenschaft:
aufgrund von x wird ϑ nicht verworfen, d.h.
Pϑ (x ∈ X : ϑ ∈ K(x)) = Pϑ (x ∈ X : x ∈ C(ϑ)c )
= 1 − Pϑ (x ∈ X : x ∈ C(ϑ)) ≥ 1 − α
{z
}
|
≤α
2
1.6
Randomisierte Entscheidungsverfahren
Der in Definition 1.2.1 auf Seite 8 eingeführte Begriff der nichtrandomisierten
Entscheidungsfunktion reicht für die im Folgenden zu entwickelnde Theorie
i.a. nicht aus, denn mit zwei Entscheidungsfunktionen e1 , e2 benötigen wir
auch eine solche, bei der aufgrund einer Beobachtung x mit der Wahrscheinlichkeit γ = γ(x) die Entscheidung e1 (x) und mit der Wahrscheinlichkeit
1 − γ die Entscheidung e2 (x) getroffen wird.
Ob man sich also für e1 (x) oder e2 (x) entscheidet, hängt somit von dem
Ausgang eines Hilfsexperimentes ab, nämlich davon, ob bei diesem ein Ereignis, welches die Wahrscheinlichkeit γ besitzt, eingetreten ist oder nicht. Die
Ausführung eines solchen (Zusatz-) Experiments heißt Randomisieren nach
einer B(1, γ)-Verteilung.
19
Definition 1.6.1. Gegeben seien der Stichprobenraum (X , B) und der Entscheidungsraum (∆, D). Eine randomisierte Entscheidungsfunktion ist dann
eine Übergangswahrscheinlichkeit oder Markoffscher Kern von (X , B) nach
(∆, D), d.h. eine Abbildung δ : X × D → [0, 1] mit den Eigenschaften
(i) ∀x ∈ X :
δ(x, ·) ist ein Wahrscheinlichkeitsmaß auf D
(ii) ∀D ∈ D :
δ(·, D) ist B, B-meßbar.
Die Zahl δ(x, D) ist dabei wie folgt zu interpretieren: Bei Vorliegen der Beobachtung x ∈ X ist eine Entscheidung zu treffen, welche mit der Wahrscheinlichkeit δ(x, D) zur Menge D ∈ D gehört.
Das bedeutet: Um in einer konkreten Situation zu einer Entscheidung zu
gelangen, hat man zunächst die Beobachtung x ∈ X zu gewinnen und dann
mit diesem Wert x ein Hilfsexperiment mit (∆, D) als Stichprobenraum und
δ(x, ·) als Wahrscheinlichkeitsverteilung durchzuführen. Der Ausgang dieses
Hilfsexperimentes ist dann die tatsächlich zu treffende Entscheidung. Die
Ausführung eines Hilfsexperimentes heißt Randomisieren nach der Verteilung
δ(x, ·).
Eine nicht randomisierte Entscheidungsfunktion kann mit der randomisierten
Entscheidungsfunktion δe (x, D) := 1D (e(x)) identifiziert werden: Bei Verwendung dieser Entscheidungsfunktion ist für alle x ∈ X mit Wahrscheinlichkeit
1 die Entscheidung e(x) zu treffen sofern {e(x)} ∈ D. [δe (x, {e(x)}) = 1].
Im Folgenden verzichten wir daher auf den Zusatz randomisiert“.
”
Bei einem Testproblem besteht der Entscheidungsraum ∆ nur aus den beiden
Elementen dH und dK , so dass in diesem Fall eine Entscheidungsfunktion
δ : X × Potenzmenge von {dH , dK } → [0, 1] bereits durch ϕ(x) := δ(x, {dK })
völlig bestimmt ist.
Im Spezialfall eines nicht randomisierten Tests e ergibt sich ϕ(x) = 1S (x),
x ∈ X wobei S = {x ∈ X : e(x) = dk } die kritische Region von e ist.
Definition 1.6.2. Unter einer Testfunktion oder kurz Test ϕ versteht man
eine (B, B)-meßbare Abbildung ϕ : X → [0, 1].
Dabei ist ϕ(x) die Wahrscheinlichkeit dafür, dass bei Vorliegen der Beobachtung x ∈ X die Entscheidung dK getroffen wird, d.h. ϕ(x) =: δ(x, {dK }).
Der Spezialfall ϕ = 1S mit S ∈ B entspricht dann dem nicht randomisierten
Test e(x) = dK , falls x ∈ S und e(x) = dH , falls x ∈ S c .
[δ(x, {dK }) = ϕ(x) ⇒ δ(x, {dH }) = 1 − δ(x, {dK }) = 1 − ϕ(x), δ(·, {dK }) =
ϕ(·) ist B, B-meßbar, δ(x, ·) ist Wahrscheinlichkeitsmaß]
20
Bei zugrundeliegender Verteilungsannahme P = {Pϑ : ϑ ∈ Θ} und einer
Entscheidungsfunktion δ : X × D → [0, 1] (Markoffscher Kern) wird durch
die Festsetzung
∀D ∈ D
Qϑ,δ (D) := (Pϑ ⊗ δ)(D)
Z
:=
δ(x, D)Pϑ (dx)
(1.6.3)
X
= Eϑ (δ(·, D)) ∈ [0, 1]
ein Wahrscheinlichkeitsmaß Qϑ,δ auf D definiert.
Denn es gilt
(i)
Z
Qϑ,δ (∆) =
δ(x, ∆)Pϑ (dx)
X
= Pϑ (X )
= 1.
(ii) Es seinen D ∈ D, n ∈ N paarweise disjunkt. Dann folgt aus dem Satz
der monotenen Konvergenz:
!
!
Z
[
[
Dn Pϑ (dx)
Qϑ,δ
Dn
=
δ x,
X
n∈N
=
n∈N
Z X
δ(x, Dn )Pϑ (dx)
X n∈N
Z
=
lim
m
X
X m→∞ n=1
|
=
=
=
lim
m→∞
lim
m→∞
X
↑
Z X
m
X n=1
m Z
X
n=1
δ(x, Dn ) Pϑ (dx)
| {z }
≥0
{z
}
δ(x, Dn )Pϑ (dx)
δ(x, Dn )Pϑ (dx)
X
Qϑ,δ (Dn ).
n∈N
Qϑ,δ (D) lässt sich als Wahrscheinlichkeit dafür interpretieren, dass bei zugrundeliegender Verteilung Pϑ eine in der oben beschreibenen zweistufigen
21
Weise (durch Randomisieren nach der Verteilung δ(x, ·) bei vorliegender Beobachtung x) gewonnene Entscheidung d zur Menge D gehört.
Im Spezialfall eines Tests ϕ ist Qϑ,δ bereits durch
Z
δ(x, {dK })Pϑ (dx)
Qϑ,δ ({dK }) =
X
Z
=
ϕ(x)Pϑ (dx)
X
∈ [0, 1]
= Eϑ (ϕ)
eindeutig definiert;
Qϑ,δ ({dH }) = 1 − Qϑ,δ ({dH })
= 1 − Eϑ (ϕ)
= Eϑ (1 − ϕ)
Somit ist Eϑ (ϕ) die Wahrscheinlichkeit mit der unter der Verteilung Pϑ die
Entscheidung dK , d.h. Verwerfen der Hypothese, getroffen wird.
Die Abbildung β : Θ → [0, 1] definiert durch
∀ϑ ∈ Θ : β(ϑ) := Eϑ (ϕ)
heißt Gütefunktion (power function) des Tests ϕ.
Im Spezialfall ϕ = 1S (eines nichtrandomisierten Tests) gilt:
β(ϑ) = Pϑ (S).
Die Wahrscheinlichkeit für den Fehler erster Art ist (für ein beliebiges ϕ)
Eϑ (ϕ), ϑ ∈ H, die Wahrscheinlichkeit für den Fehler zweiter Art ist 1 −
Eϑ (ϕ) = Eϑ (1 − ϕ), ϑ ∈ K.
Ein Test ϕ für H gegen K mit der Eigenschaft
∀ϑ ∈ H : Eϑ (ϕ) ≤ α
(1.6.4)
heißt Test zum Niveau α. Im Folgenden bezeichnen wir mit Φ die Gesamtheit
aller Tests, d.h. Φ = {ϕ : X → [0, 1] : ϕ ist B, B-meßbar }.
Definition 1.6.5. Es sei Φ1 ⊂ Φ. Ein Test ϕ∗ heißt gleichmäßig bester Test
bzgl. Φ1 für H gegen K, falls
ϕ ∗ ∈ Φ1
∀ϑ ∈ K : Eϑ (ϕ∗ ) = sup Eϑ (ϕ)
ϕ∈Φ1
22
(1.6.6)
(1.6.7)
Lemma 1.6.8. Es sei Φ1 ⊂ Φ2 ⊂ Φ und ϕ∗ ∈ Φ1 . Ist ϕ∗ ein gleichmäßig
bester Test bzgl. Φ2 , dann ist ϕ∗ auch ein gleichmäßig bester Test bzgl. Φ1 .
Beweis: ∀ϑ ∈ K : Eϑ (ϕ∗ ) = supϕ∈Φ2 Eϑ (ϕ) ≥ supϕ∈Φ1 Eϑ (ϕ) ≥ Eϑ (ϕ∗ ). 2
Für α ∈ (0, 1) sei Φα := {ϕ ∈ Φ : ∀ϑ ∈ H : Eϑ (ϕ) ≤ α} die Gesamtheit aller
Tests zum Niveau α.
Ein gleichmäßig bester Test bzgl. Φα heißt dann gleichmäßig bester Test zum
Niveau α für H gegen K.
Wir werden in Kapitel 2 sehen, dass ein gleichmäßig bester Test zum Niveau
α bei vielen einseitigen Testproblemen H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 existiert,
wobei Θ ⊂ R.
Bei zweiseitigen Testproblemen H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 ist man hingegen häufig gezwungen Φα durch eine kleinere Klasse von Testfunktionen zu
ersetzen. Dabei nimmt man zumeist die Klasse aller unverfälschten Tests zum
Niveau α. Ein Test ϕ zum Niveau α für H gegen K heißt dabei unverfälscht,
falls
∀ϑ ∈ K : Eϑ (ϕ) ≥ α
(1.6.9)
d.h. bei Verwendung von ϕ ist unter K die Entscheidung für K mindestens
so wahrscheinlich wie unter der Hypotese H (∀ϑ ∈ H : Eϑ (ϕ) ≤ α).
Ein gleichmäßig bester Test bzgl.
Φuα := {ϕ ∈ Φα : ∀ϑ ∈ K : Eϑ (ϕ) ≥ α}
heißt gleichmäßig bester unverfälschter Test zum Niveau α für H gegen K.
Lemma 1.6.10. Jeder gleichmäßig beste Test ϕ∗ zum Niveau α ist unverfälscht und somit ein gleichmäßig bester unverfälschter Test zum Niveau
α.
Beweis: Wegen ϕα := α ∈ Φα gilt gem. (1.6.7, S. 22)
∀ϑ ∈ K : Eϑ (ϕ∗ ) = α.
Wegen Φuα ⊂ Φα folgt die Behauptung somit aus Lemma 1.6.8.
2
Eine weitere Möglichkeit zur Auszeichnung optimaler Tests ist die Folgende:
Gibt es keinen gleichmäßig besten (unverfälschten) Test zum Niveau α für
H gegen K, so liegt es nahe, unter allen Tests zum Niveau α einen solchen
zu bestimmen, der die maximale Wahrscheinlichkeit für den Fehler zweiter
Art minimiert. Dies ist gleichbedeutend damit inf ϑ∈K Eϑ (ϕ) unter allen Tests
ϕ ∈ Φα zu maximieren.
23
Definition 1.6.11. ϕ∗ ∈ Φα heißt Maximin-Test zum Niveau α für H gegen
K :⇔ inf ϑ∈K Eϑ (ϕ∗ ) = supϕ∈Φα inf ϑ∈K Eϑ (ϕ).
Offenbar ist jeder Maximin-Test zum Niveau α ein unverfälschter Test zum
Niveau α.
Im nächsten Kapitel werden wir sehen, dass ein optimaler nicht-randomisierter
Test ϕ = 1S ∗ für das Problem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 mit ϑ, ϑ0 ∈ Θ ⊂ R
häufig von der Form ist
1S ∗ = 1{T >c} ,
(1.6.12)
wobei T eine Stichprobenfunktion ist und die Konstante c ∈ R durch die
Forderungen
∀ϑ ∈ H : Pϑ (T > c) ≤ α,
∀ϑ ∈ K : Pϑ (T > c) = sup Pϑ (S)
(1.6.13)
S∈γα
bestimmt wird.
Dabei wird c möglichst klein gewählt, ohne dass die Fehlerwahrscheinlichkeit
erster Art das Niveau α übersteigt. Diese Konstante c heißt dann kritischer
Wert und die Stichprobenfunktion T : (X , B) → (R, B) heißt Prüfgröße bzw.
Teststatistik für den Parameter ϑ.
Suchen wir hingegen für dasselbe Entscheidungsproblem einen optimalen
Test innerhalb der größeren Klasse der randomisierten Tests, d.h. suchen
wir für das einseitige Testproblem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 einen
gleichmäßig besten Test ϕ∗ zum Niveau α, so wird ϕ∗ häufig von der Form

 1, falls T (x) > c
γ, falls T (x) = c
ϕ∗ (x) =
(1.6.14)

0, falls T (x) < c
mit γ ∈ [0, 1]. Randomisierte Entscheidungen werden nur auf der Menge
{x ∈ X : T (x) = c} getroffen. Da diese Menge bei stetig verteiltem T
die Wahrscheinlichkeit 0 besitzt, erhält man (optimale) randomisierte Tests
vornehmlich im Fall diskreter Verteilungen.
Die Gütefunktion des Tests (1.6.14) ist
β(ϑ) = Eϑ (ϕ∗ ) = Pϑ (T > c) + γ Pϑ (T = c) ϑ ∈ Θ
so dass aufgrund der Optimalitätskriterien (1.6.6) und (1.6.7) (mit Φ1 := Φα )
der kritische Wert c möglichst klein und nach dieser Festsetzung γ möglichst
groß zu wählen ist, ohne dass das Niveau α überschritten wird.
24
Besteht nun unsere Verteilungsannahme aus diskreten Verteilungen Pϑ , etwa
Binomial- oder Hypergeometrischen Verteilungen, so wird bei Verwenden des
nicht randomisierten Tests (1.6.12), wobei c gemäß (1.6.13) festgelegt ist, das
zugelassene Niveau α i.a. nicht erreicht.
Bei Verwendung des randomisierten Tests (1.6.14) kann hingegen durch geeignete Wahl von c und γ das zugelassene Niveau α erreicht werden. Durch
Zulassen randomisierter Tests erzielt man somit einen Gewinn an Schärfe
(power), d.h. des Wertes der Gütefunktion auf der Alternative.
25
Kapitel 2
EXISTENZ OPTIMALER
TESTS
2.1
Struktureigenschaften des Raumes Φ aller Testfunktionen
Es seien µ, ν Maße auf dem Stichprobenraum (X , B).
Das Maß ν heißt absolut stetig bzgl. µ, i.Z. ν µ :⇔
µ(B) = 0 ⇒ ν(B) = 0 , B ∈ B
Wir sagen, dass eine Menge M von Maßen auf (X , B) durch µ dominiert
wird, i.Z. M µ :⇔
∀ν ∈ M : ν µ.
Ist µ ein Maß auf B und
f ∈ L1 (X , B, µ) =
Z
|h(x)|µ(dx) < ∞
h : (X , B) → (R, B) :
X
mit f ≥ 0, so wird durch die Festlegung
Z
Z
ν(B) :=
f dµ :=
f · 1B dµ , B ⊂ B,
B
X
ein endliches Maß ν auf B definiert mit ν µ.
Definition 2.1.1. Ein Maß µ auf (X , B) heißt σ-endliches
S Maß, wenn paarweise disjunkte X1 , X2 , · · · ∈ B existieren mit X = i∈N Xi , µ(Xi ) < ∞,
i ∈ N.
26
Satz 2.1.2 (Radon-Nikodym). Es sei µ ein σ-endliches Maß auf (X , B)
und ν/B sei ein endliches Maß mit ν µ. Dann existiert f ∈ L1 (X , B, µ),
f ≥ 0, mit
Z
ν(B) =
f dµ.
(2.1.3)
B
Die Funktion f ist durch (2.1.3) µ–f.ü. eindeutig bestimmt, d.h. falls f1 ≥ 0,
f2 ≥ 0 Funktionen sind mit (2.1.3), so gilt µ(f1 6= f2 ) = 0, und heißt ( Radondν
oder auch dν = f dµ
Nikodym) Dichte von ν bzgl. µ, i.Z. f ∈ dµ
Beweis: Siehe etwa Bauer, H. (1992): Wahrscheinlichkeitstheorie und Grundzüge
der Maßtheorie, De Gruyter, Berlin, Satz 17.10.
2
Lemma 2.1.4. Es sei µ, ν endliche Maße auf (X , B) mit der Eigenschaft
dν
ν(B) ≤ µ(B), B ∈ B. Dann existiert ein f ∈ dµ
mit 0 ≤ f ≤ 1.
Beweis: Offenbar gilt ν µ. Also existiert nach dem Satz von Radondν
Nikodym f0 ∈ dµ
. Setzte B0 := {f0 > 1}. Dann gilt
Z
Z
0 = ν(B0 ) − ν(B0 ) ≥
f0 dµ − µ(B0 ) =
f0 − 1 dµ ≥ 0
B0
B0
Z
⇒
B0
f − 1 dµ = 0
| 0{z }
>0
⇒ µ(B0 ) = 0
Damit erfüllt f := f0 · 1B0C die Behauptung.
2
Definition 2.1.5. Es sei µ/B ein endliches Maß. Eine Menge B0 ∈ B heißt
ein µ-Atom :⇔ µ(B0 ) > 0 und ∀B ∈ B mit B ⊂ B0 gilt µ(B) = 0 oder
µ(B) = µ(B0 ). µ heißt atomlos, falls kein µ-Atom existiert.
Satz 2.1.6 (Ljapunoff ). Es seinen µ1 , . . . , µn endliche atomlose Maße auf
B. Dann ist die Menge C := {(µ1 (B), . . . , µn (B)) : B ∈ B} ⊂ Rn eine
kompakte und konvexe Teilmenge des Rn .
Beweis: J. Lindenstrauss (1966), Joural of Math. and Mech. (Indiana University Mathematics Journal) 15, 971–972.
2
27
Satz 2.1.7. Es sei µ/B ein σ-endliches Maß. Dann existiert zu jeder Folge
(ϕn )n∈N ⊂ Φ eine Teilfolge (ϕnk )k∈N und ein Test ϕ0 ∈ Φ derart, dass
Z
Z
∀f ∈ L1 (X , B, µ) : lim
ϕnk f dµ = ϕ0 f dµ
(2.1.8)
k→∞
i.z. ϕnk * ϕ0 bzgl µ.
Man sagt auch, Φ sei schwach folgenkompakt, und man nennt eine Folge
(ϕn )n∈N ⊂ Φ schwach konvergent gegen ϕ0 ∈ Φ, falls ϕn * ϕ0 bzgl. µ gilt.
Beweis: Witting, H. (1985) Mathematische Statistik, Teubner, Satz 2.14 2
Bemerkung 2.1.9. Es sei µ/B ein endliches Maß, ϕn * ϕ0 bzgl. µ. Dann gilt
Z
Z
∀g ∈ Lb (X , B) : lim
ϕn · g dµ =
ϕ0 · g dµ
n→∞
X
X
mit Lb (X , B) := {f : (X , B) → (R, B) : f ist beschränkt}.
Im Folgenden bezeichne Φ0 := Menge aller nicht-randomisierten Test = {1B :
B ∈ B} und Φ00 := Menge aller Tests mit endlichem Wertebereich = {ϕ ∈
Φ : |ϕ(X )| < ∞}. Offenbar sind Φ0 und Φ00 konvexe Mengen.
Lemma 2.1.10. Es seien P1 , . . . , Pk Wahrscheinlichkeitsmaße auf B. Setze
M := {(E1 (ϕ), . . . , Ek (ϕ)) : ϕ ∈ Φ}
R
mit Ei (ϕ) := EPi (ϕ) = X ϕ dPi , ϕ ∈ Φ, 1 ≤ i ≤ k. Dann gilt
(i) M ⊂ [0, 1]k
(ii) α ∈ [0, 1] :
(α, . . . , α) ∈ M
| {z }
k−mal
(iii) M ist konvex
(iv) (α1 , . . . , αk ) ∈ M ⇒ (1 − α1 , . . . , 1 − αk ) ∈ M
(v) M ist kompakt
(vi) Ist (α1 , . . . , αk ) ein Extremalpunkt von M, so existiert ein ϕ0 ∈ Φ0 mit
αi = Ei (ϕ0 ) für i = 1, . . . , k
(vii) M = {(E1 (ϕ), . . . , Ek (ϕ)) : ϕ ∈ Φ00 }
28
(viii) Sind P1 , . . . Pk sämtlich atomlos, so gilt M = {(E1 (ϕ), . . . , Ek (ϕ)) : ϕ ∈
Φ0 }
Bemerkung 2.1.11. Es sei L ein linearer Raum, K eine konvexe Teilmenge von
L. Ein Punkt x0 ∈ L heißt Extremalpunkt von K, wenn aus x0 = λx+(1−λ)y
und x, y ∈ K und 0 ≤ λ ≤ 1 folgt : x = y = x0 , d.h. wenn x0 kein innerer
Punkt einer ganzen in K verlaufenden Strecke ist.
Es gilt der Satz von Minkovski: M ⊂ Rn sei kompakt und konvex, dann ist
M identisch mit der konvexen Hülle der Menge der Extremalpunkte, d.h.
( n
)
n
X
X
M =
λi ei : λi ≥ 0,
λi = 1, ei Extremalpunkt
i=1
i=1
\
=
A.
A ist konvexe M enge, A ⊃ M enge der Extremalpunkte von M
Beweis:[von 2.1.10]
(i) Klar
(ii) Setze ϕα := α ∈ Φ, α ∈ [0, 1]
(iii) Es seien (α1 , . . . , αk ), (β1 , . . . , βk ) ∈ M , λ ∈ (0, 1) ⇒ ∃ϕ, ψ ∈ Φ :
αi = Ei (ϕ), βi = Ei (ψ), 1 ≤ i ≤ k.
Es gilt: λϕ + (1 − λ)ψ ∈ Φ ⇒ λ(α1 , . . . , αk ) + (1 − λ)(β1 , . . . , βk ) =
(Ei (λϕ + (1 − λ)ψ)ki=1 ∈ M
(iv) Ist offensichtlich, da ϕ ∈ Φ ⇒ 1 − ϕ ∈ Φ
(v) Wir zeigen dass M folgenkompakt ist, d.h. jede Folge in M besitzt eine
konvergente Teilfolge, deren Limes wiederum in M liegt. Dann ist M
kompakt.
(n)
(n)
Für n ∈ N sei (α1 , . . . , αk ) ∈ M , d.h. es existiert eine Folge (ϕn )n∈N ⊂
(n)
Φ mit αi = Ei (ϕn ), 1 ≤ i ≤ k, n ∈ N. Setze
µ :=
k
X
Pi
i=1
[d.h. µ(B) = P1 (B) + · · · + Pk (B) für B ∈ B].
2.1.7
⇒ µ ist endlichesR Maß auf B R⇒ ∃ Teilfolge (ϕnj )j∈N von (ϕn )n∈N und
∃ϕ0 ∈ Φ : limj∈N ϕnj g dµ = ϕ0 g dµ, g ∈ Lb (X , B).
2.1.4
Offenbar gilt Pi ≤ µ, 1 ≤ i ≤ k ⇒ ∃gi ∈ dPi /dµ mit 0 ≤ gi ≤ 1, 1 ≤
i ≤ k. Es gilt also
Z
Z
lim Ei (ϕnj ) = lim ϕnj gi dµ = ϕ0 gi dµ = Ei (ϕ0 )
j∈N
j∈N
29
1 ≤ i ≤ k, d.h.
(nj )
lim(α1
j∈N
(n )
(0)
(0)
, . . . , αk j ) = (α1 , . . . , αk ) := (E1 (ϕ(0) ), . . . , Ek (ϕ(0) )) ∈ M
Also ist M ⊂ Rk folgenkompakt.
(vi) Es sei (α1 , . . . , αk ) ein Extremalpunkt von M .
⇒ ∃ϕ ∈ Φ mit αi = Ei (ϕ), 1 ≤ i ≤ k. Setze für ∈ (0, 1/2)
A := {x ∈ X : ≤ ϕ(x) ≤ 1 − },
ϕ0 := ϕ − · 1A
ϕ00 := ϕ + · 1A
Dann gilt A ∈ B; ϕ0 , ϕ00 ∈ Φ und ϕ = 12 · ϕ0 + 12 · ϕ00 .
⇒ αi = Ei (ϕ) = 12 Ei (ϕ0 ) + 12 Ei (ϕ00 ), 1 ≤ i ≤ k, d.h.
1
1
(α1 , . . . , αk ) = (E1 (ϕ0 ), . . . , Ek (ϕ0 )) + (E1 (ϕ00 ), . . . , Ek (ϕ00 )).
2
2
Da (α1 , . . . , αk ) Extremalpunkt ist folgt αi = Ei (ϕ) = Ei (ϕ0 ) = Ei (ϕ00 )
⇒
S Pi (A ) = 0 für 1 ≤ i ≤ k. Da {x ∈ X : 0 ≤ ϕ(x) ≤ 1} =
∈(0,1)∩Q A folgt Pi (0 < ϕ < 1) = 0 für 1 ≤ i ≤ k.
Für ϕ0 := 1{ϕ=1} gilt daher αi = Ei (ϕ) = Ei (ϕ · 1{ϕ>0} ) = Ei (ϕ ·
1{ϕ=1} ) = Ei (1{ϕ=1} ) = Ei (ϕ0 ) für 1 ≤ i ≤ k.
(vii) Da M konvex und kompakt ist, ist M identisch mit der konvexen Hülle
(vi)
seiner Extremalpunkte
P (Satz von Minkovski). Sei (α1 , . . . , αk ) ∈ M ⇒
∃c1 , . . . cn ∈ [0, 1], ni=1 ci = 1, ∃B1 , . . . , Bn ∈ B:
(α1 , . . . , αk ) =
n
X
cj (P1 (Bj ), . . . Pk (Bj )) = (E1 (ϕ), . . . , Ek (ϕ))
j=1
mit ϕ :=
Pn
j=1 cj
· 1Bj ∈ Φ00 .
(viii) Wir setzen den Beweisteil (vii) fort. Sind P1 , . . . , Pk atomlos, so existiert
nach 2.1.6 ein B ∈ B mit
n
X
cj (P1 (Bj ), . . . , Pk (Bj )) = (P1 (B), . . . , Pk (B))
j=1
d.h. (α1 , . . . , αk ) = (E1 (1B ), . . . , Ek (1B )).
2
30
Bemerkung 2.1.12. Ohne die Voraussetzung der Atomlosigkeit von Pi , 1 ≤
i ≤ k ist (viii) i.a. nicht richtig.
Satz 2.1.13. Es sei P = {Pϑ : ϑ ∈ Θ} eine beliebige Familie von Wahrscheinlicheitsmaßen auf (X , B) mit P µ, µ ein σ-endliches Maß. Dann
existiert eine abzählbare Teilfamilie {Pϑn : n ∈ N} von P, so dass P P̂ :=
P
−n
P ϑn .
n∈N 2
Beweis: O.B.d.A. sei |Θ| =
S∞. Da µ σ-endlich ist, existieren Bn ∈ B, n ∈ N,
mit Bn ∩ Bm = ∅, n 6= m, n∈N Bn = X und µ(Bn ) < ∞.
Setze für B ∈ B
X 1 µ(B ∩ Bn )
ν(B) :=
2n µ(Bn )
n∈N
0
wobei N0 = {n ∈ N : µ(Bn ) > 0}.
Dann ist ν ein endliches Maß auf (X , B) mit P ν. Denn:
ν(B) = 0 ⇒ µ(B ∩ Bn ) = 0, n ∈ N




[



B
= µ
B
∩
n




n∈N
| {z }
=X
!
[
=µ
(B ∩ Bn )
⇒ µ(B)
n∈N
=
X
µ(B ∩ Bn ) = 0
n∈N
⇒ ∀ϑ ∈ Θ : Pϑ (B) = 0.
Es sei für ϑ ∈ Θ nun fϑ ∈ dPϑ /dν (Satz von Radon-Nikodym), ferner sei
C1 := {B ∈ B : ∃ϑ ∈ Θ : B ⊂ {fϑ > 0}} sowie C2 := Gesamtheit aller
abzählbaren Vereinigungen von Mengen aus C1 . Setze
ρ := sup ν(C) < ∞
C∈C2
und
S wähle Folge (Cn )n∈N ⊂ C2 mit limn∈N ν(Cn ) = ρ. Dann ist C0 :=
≤ ν(C0 ), n ∈ N. Da C0 ∈ C2 ,
n∈N Cn ∈ C2 mit ν(C0 ) = ρ, denn ν(Cn ) S
existiert eine Folge (Dn )n∈N ⊂ C1 mit C0 = n∈N Dn . Somit: ∀n ∈ N ∃ϑn ∈
Θ : Dn ⊂ {fϑn > 0}.
Dann gilt:
∀ϑ ∈ Θ, ∀B ∈ B : Pϑ (B) = Pϑ (B ∩ C0 ∩ {fϑ > 0})
31
(2.1.14)
Denn:
Pϑ (B) = Pϑ (B ∩ {fϑ = 0}) + Pϑ (B ∩ {fϑ > 0})
= Pϑ (B ∩ {fϑ = 0}) + Pϑ (B ∩ {fϑ > 0} ∩ C0 )
+Pϑ (B ∩ {fϑ > 0} ∩ C0c ),
wobei
Z
Pϑ (B ∩ {fϑ = 0}) =
fϑ dν = 0.
B∩{fϑ =0}
Pϑ (B ∩ {fϑ > 0} ∩ C0c )
Zu zeigen bleibt also, dass
wäre nicht der Fall, d.h. es gelte
= 0 ist. Angenommen, dies
Pϑ (B ∩ {fϑ > 0} ∩ C0c ) > 0 ⇒ ν(B ∩ {fϑ > 0} ∩ C0c ) > 0
und damit
ν ( C0 ∪(B ∩ {fϑ > 0} ∩ C0c )) = ν(C0 ) + ν(B ∩ {fϑ > 0} ∩ C0c ) > ν(C0 ) = ρ,
|{z} |
{z
}
∈C2
|
∈C1
{z
∈C2
}
d.h. wir haben einen Widerspruch zur Definition von ρ. Also gilt 2.1.14.
Ferner gilt
Pϑn (B) = 0 ⇒ ∀ϑ ∈ Θ : ν(B ∩ {fϑ > 0} ∩ {fϑn > 0}) = 0.
(2.1.15)
Denn:
0 = Pϑn (B) ≥ Pϑn (B ∩ {fϑ > 0} ∩ {fϑn > 0})
Z
fϑn dν ≥ 0.
=
B∩{fϑ >0}∩{fϑn >0}
Da auf dem Integrationsbereich der Integrand fϑn strikt positiv ist, das Integral aber gleich 0 ist, muss ν(B ∩ {fϑ > 0} ∩ {fϑn > 0}) = 0 gelten.
Es sei nun P̂ (B) = 0. Zu zeigen ist
∀ϑ ∈ Θ Pϑ (B) = 0.
Da P̂ (B) = 0 ⇒ ∀n ∈ N Pϑn (B) = 0
!
⇒ ∀ϑ ∈ Θ : ν(B ∩ C0 ∩ {fϑ > 0})
=
ν
B ∩ {fϑ > 0} ∩
[
Dn
n∈N
!
=
ν
[
(B ∩ {fϑ > 0} ∩ Dn )
n∈N

≤
X
≤
X
n∈N
n∈N
2.1.15
=
32
0.
ν B ∩ {fϑ > 0} ∩

Dn 
|{z}
⊂{fϑn >0}
ν (B ∩ {fϑ > 0} ∩ {fϑn > 0})
Also gilt ∀ϑ ∈ Θ : ν(B ∩ C0 ∩ {fϑ > 0}) = 0 und damit auch ∀ϑ ∈ Θ :
Pϑ (B ∩ C0 ∩ {fϑ > 0}) = 0, da ∀ϑ ∈ Θ Pϑ ν. Die Behauptung folgt nun
aus (2.1.14).
2
Satz 2.1.16. Es sei P = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) mit P µ, µ σ-endliches Maß auf (X , B). Es sei
P = H ∪ K, H ∩ K = ∅, H, K 6= ∅. Dann existiert ein Maximin-Test zum
Niveau α für H gegen K.
Beweis: Setze
s := sup inf Eϑ (ϕ).
ϕ∈Φα ϑ∈K
Es existiert eine Folge (ϕn )n∈N ⊂ Φα mit limn∈N inf ϑ∈K Eϑ (ϕn ) = s. Aufgrund von Satz 2.1.7 existieren eine Teilfolge (ϕnk )k∈N und ϕ∗ ∈ Φ mit der
Eigenschaft
Z
Z
∀f ∈ L1 (X , B, µ) : lim ϕnk · f dµ = ϕ∗ · f dµ.
k∈N
Hieraus folgt speziell für f = fϑ ∈ dPϑ /dµ, ϑ ∈ Θ:
Z
Z
lim ϕnk · f dµ = lim ϕnk dPϑ
k∈N
k∈N
= lim Eϑ (ϕnk )
k∈N
= Eϑ (ϕ∗ ).
Für ϑ ∈ H folgt hieraus, dass ϕ∗ ∈ Φα . Andererseits gilt wegen
lim inf Eϑ (ϕn ) = s
n∈N ϑ∈K
auch
s = lim inf Eϑ (ϕnk ) ≤ lim Eϑ (ϕnk ) = Eϑ (ϕ∗ ), ϑ ∈ K
k∈N ϑ∈K
k∈N
d.h.
inf Eϑ (ϕ∗ ) ≥ s.
ϑ∈K
Nach Definition von s und wegen ϕ∗ ∈ Φα gilt aber auch inf ϑ∈K Eϑ (ϕ∗ ) ≤ s.
Also gilt
inf Eϑ (ϕ∗ ) = sup inf Eϑ (ϕ), ϕ∗ ∈ Φα ,
ϑ∈K
ϕ∈Φα ϑ∈K
d.h. ϕ∗ ist ein Maximin-Test zum Niveau α.
2
Im folgenden werden wir mittels Satz 2.1.7 für den Fall einer einfachen Alternative K, d.h. |K| = 1, die Existenz bester Tests bzgl. gewisser Teilmengen
Φ̃ von Φ nachweisen.
33
Wir setzen im Folgenden voraus: Die Verteilungsannahme ist P = {Pϑ : ϑ ∈
Θ}, ϑ1 ∈ Θ ist fest gewählt, K := {ϑ1 }, H := Θ\{ϑ1 }. Wir setzen
Φ̃ := {ϕ ∈ Φ :
∀ϑ ∈ H :
Eϑ (ϕ) ∈ Fϑ },
(2.1.17)
wobei Fϑ für jedes ϕ ∈ H eine abgeschlossene Teilmenge von [0, 1] ist.
Beispiel 2.1.18. Es sei α ∈ [0, 1].
(i) Fϑ := [0, α], ϑ ∈ H ⇒ Φ̃ = Φα
(ii) Fϑ := {α}, ϑ ∈ H ⇒ Φ̃ = {ϕ ∈ Φ : Eϑ (ϕ) = α, ϑ ∈ H}.
Satz 2.1.19. Es gelte P µ, wobei µ ein σ-endliches Maß auf (X , B) ist.
Dann existiert ein bester Test bzgl. der durch 2.1.17 definierten Klasse Φ̃ für
H = Θ\{ϑ1 } gegen K = {ϑ1 }. Insbesondere gibt es aber einen besten Test
zum Niveau α für H gegen K.
Beweis: Setze
s := sup Eϑ1 (ϕ) ⇒ ∃ Folge(ϕn )n∈N ⊂ Φ̃ : s = lim Eϑ1 (ϕn ).
n∈N
ϕ∈Φ̃
Mit Satz 2.1.7 folgt
∃ Teilfolge(ϕnk )k∈N ⊂ (ϕn )n∈N ∃ϕ∗ ∈ Φ : ∀f ∈ L1 (X , B, µ) :
Z
Z
lim ϕnk f dµ = ϕ∗ f dµ.
k∈N
Speziell für f = fϑ ∈ dPϑ /dµ, ϑ ∈ Θ, folgt:
lim Eϑ (ϕnk ) = Eϑ (ϕ∗ ),
k∈N
insbesondere also Eϑ1 (ϕ∗ ) = limk∈N Eϑ1 (ϕnk ) = s. Da Fϑ abgeschlossen ist
für ϑ ∈ H, folgt auch Eϑ (ϕ∗ ) ∈ Fϑ , ϑ ∈ H, d.h. ϕ∗ ∈ Φ̃.
2
34
2.2
Das Fundamentallemma von Neyman-Pearson
In diesem Abschnitt betrachten wir die binäre Verteilungsannahme P =
{Pϑ0 , Pϑ1 }, d.h. Θ = {ϑ0 , ϑ1 }. Nach Satz 2.1.19 existiert für das Testproblem H = {ϑ0 } gegen K = {ϑ1 } stets ein Test zum Niveau α; man beachte,
dass P µ = Pϑ0 + Pϑ1 . Ziel dieses Abschnitts ist es, solche besten Tests zu
konstruieren.
Im Folgenden sei µ ein P dominierendes endliches Maß und pi ∈ dPϑi /dµ,
i = 0, 1.
Definition 2.2.1. (i) ϕ∗ ∈ Φ heißt trennscharf für (Pϑ0 , Pϑ1 ), wenn ϕ∗
bester Test zum Niveau α∗ := Eϑ0 (ϕ∗ ) für H = {ϑ0 } gegen K = {ϑ1 }
ist [most powerful].
Äquivalent: ∀ϕ ∈ Φ : Falls Eϑ0 (ϕ) ≤ Eϑ0 (ϕ∗ ) ⇒ Eϑ1 (ϕ) ≤ Eϑ1 (ϕ∗ )
(ii) ϕ∗ ∈ Φ heißt eigentlich trennscharf für (Pϑ0 , Pϑ1 ), wenn für alle ϕ ∈ Φ
gilt:
Falls Eϑ0 (ϕ) ≤ Eϑ0 (ϕ∗ ) und Eϑ1 (ϕ) ≥ Eϑ1 (ϕ∗ ) ⇒ Eϑi (ϕ) = Eϑi (ϕ∗ ),
i = 0, 1.
Bemerkung 2.2.2. ϕ∗ eigentlich trennscharf für (Pϑ0 , Pϑ1 ) ⇒ ϕ∗ trennscharf
für (Pϑ0 , Pϑ1 ).
Definition 2.2.3. ϕ∗ ∈ Φ heißt Test vom Neyman-Pearson Typ für (Pϑ0 , Pϑ1 )
:⇔ ∃γ ∈ [0, ∞) :
1, falls p1 (x) > γp0 (x)
∗
ϕ (x) =
x ∈ X.
(2.2.4)
0, falls p1 (x) < γp0 (x)
Lemma 2.2.5 (Neyman-Pearson, Teil 1). ∀α ∈ (0, 1] ∃ϕ∗ ∈ Φ vom
NP-Typ für (Pϑ0 , Pϑ1 ) mit Eϑ0 (ϕ∗ ) = α.
Beweis: Setze für γ ∈ [0, ∞) die Menge Xγ := {p1 > γp0 } und t(γ) :=
Pϑ0 (Xγ ). Die Abbildung t : [0, ∞) → [0, 1] ist monoton fallend und rechtsseitig stetig, denn:
γ1 ≤ γ2 ⇒ Xγ1 ≥ Xγ2 ⇒ t(γ1 ) ≥ t(γ2 ),
n∈N
γn ↓ γ0 ⇒ Xγ0 =
[
n∈N
Xγn ⇒ t(γ0 ) = lim t(γn )
n∈N
|{z}
↑ in n
(aufsteigende Stetigkeit eines Wahrscheinlichkeitsmaßes).
35
Sei nun γα := inf{γ ∈ [0, ∞) : t(γ) ≤ α}. Beachte, dass {γ ∈ [0, ∞) : t(γ) ≤
α} =
6 ∅; denn angenommen diese Menge wäre leer. Dann folgte für beliebiges
n ∈ N mit γ = n, dass
0 < α < Pϑ0 (p1 > np0 )
= Pϑ0 (p0 > 0 und p1 /p0 > n) + Pϑ0 (p0 = 0 und p1 > np0 )
{z
}
|
=0
= Pϑ0 (p0 > 0 und p1 /p0 > n).
n∈N
Andererseits gilt aber {p0 > 0 und p1 /p0 > n} ↓ ∅
⇒ limn∈N Pϑ0 (p0 > 0 und p1 /p0 > n) = 0, (absteigende Stetigkeit eines
Wahrscheinlichkeitsmaßes), Widerspruch.
Es folgt t(γα ) ≤ α ≤ t(γα − 0) := lim↓0 t(γα − ), wobei t(0 − 0) := 1 gesetzt
wird. Setzte nun für ein beliebiges x ∈ X

falls p1 (x) > γα p0 (x)
 1,
α−t(γα )
∗
δα := t(γα −0)−t(γα ) , falls p1 (x) = γα p0 (x)
ϕ (x) :=

0,
falls p1 (x) < γα p0 (x)
Wobei δα := 0 gesetzt wird falls t(γα − 0) = t(γα ) (= α). Dann ist ϕ∗ ein
Test vom NP1 -Typ und es gilt
Eϑ0 (ϕ∗ ) =
=
=
=
Pϑ0 (Xγα ) + δα Pϑ0 (p1 = γα p0 )
t(γα ) + δα (Pϑ0 (p1 ≥ γα p0 ) − Pϑ0 (p1 > γα p0 ))
t(γα ) + δα (t(γα − 0) − t(γα ))
α.
2
Lemma 2.2.6 (Neyman-Pearson, Teil 2). Es gilt:
(i) Jeder Test ϕ∗ von NP-Typ für (Pϑ0 , Pϑ1 ) ist trennscharf.
(ii) Ist nun entweder die in der Darstellung 2.2.4 auftretende Konstante γ
positiv oder ist im Fall von γ = 0 ϕ∗ von der speziellen Form
1, falls p1 (x) > 0
∗
ϕ (x) =
(2.2.7)
0, falls p1 (x) = 0, p0 (x) > 0
dann ist ϕ∗ sogar eigentlich trennscharf.
1
NP = Neyman-Pearson
36
Beweis: ∀ϕ ∈ Φ:
(ϕ∗ − ϕ) · (p1 − γp0 ) ≥ 0
Z
⇒
(ϕ∗ − ϕ) · (p1 − γp0 ) dµ ≥ 0
Z
Z
Z
Z
∗
∗
⇒
ϕ p1 dµ − ϕp1 dµ ≥ γ ·
ϕ p0 dµ − ϕp0 dµ
d.h. aus der Definition von p0 und p1 folgt, dass
Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ) ≥ γ · (Eϑ0 (ϕ∗ ) − Eϑ0 (ϕ))
{z
} |{z} |
{z
}
|
≥0
⇐
≥0
(2.2.8)
≥0
⇒ (i)
Zu (ii): Es sei nun ϕ ∈ Φ gegeben mit Eϑ0 (ϕ) ≤ Eϑ0 (ϕ∗ ) und Eϑ1 (ϕ) ≥
Eϑ1 (ϕ∗ ). Es folgt wegen 2.2.8
0 ≥ Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ) ≥ γ · (Eϑ0 (ϕ∗ ) − Eϑ0 (ϕ)) ≥ 0
⇒ Eϑ1 (ϕ∗ ) = Eϑ1 (ϕ) und außerdem Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ) im Fall γ > 0. Zu
zeigen bleibt also Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ) falls ϕ∗ von der Form 2.2.7 ist.
Wegen Eϑ1 (ϕ) = Eϑ1 (ϕ∗ ) gilt:
0 = Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ)
Z
=
(ϕ∗ − ϕ)p1 dµ
Z
Z
∗
=
(ϕ − ϕ)p1 dµ +
(ϕ∗ − ϕ)p1 dµ
{p >0}
{p1 =0}
Z 1
=
(1 − ϕ)p1 dµ
{p1 >0}
Z
=
(1 − ϕ)p1 dµ
{p1 >0}∩{1−ϕ>0}
Pϑ µ
0
⇒ µ({p1 > 0} ∩ {1 − ϕ > 0}) = 0 ⇒
Pϑ0 ({p1 > 0} ∩ {1 − ϕ > 0}) = 0
Hieraus folgt nun
Pϑ0 (ϕ∗ > ϕ) = Pϑ0 ({p1 > 0} ∩ {ϕ∗ > ϕ}) + Pϑ0 ({p1 = 0} ∩ {ϕ∗ > ϕ})
= Pϑ0 ({p1 > 0} ∩ {1 − ϕ > 0})
= 0,
denn
Pϑ0 ({p1 = 0} ∩ {ϕ∗ > ϕ}) = Pϑ0 ({p1 = 0} ∩ {ϕ∗ > ϕ} ∩ {p0 = 0})
+P ({p = 0} ∩ {ϕ∗ > ϕ} ∩ {p0 > 0})
Z ϑ0 1
p0 dµ = 0.
=
{p1 =0}∩{ϕ∗ >ϕ}∩{p0 =0}
37
Wir erhalten also ϕ∗ ≤ ϕ Pϑ0 -f.ü.
⇒ Eϑ0 (ϕ∗ ) ≤ Eϑ0 (ϕ) ⇒ Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ),
denn Eϑ0 (ϕ∗ ) ≥ Eϑ0 (ϕ) war vorausgesetzt.
2
Lemma 2.2.9 (Neyman-Pearson, Teil 3). Es gilt:
(i) Jeder für (Pϑ0 , Pϑ1 ) trennscharfe Test ϕ0 mit Eϑ0 (ϕ0 ) > 0 ist µ-f.ü.
vom NP-Typ für (Pϑ0 , Pϑ1 ).
(ii) Ist ϕ0 darüber hinaus eigentlich trennscharf für (Pϑ0 , Pϑ1 ), so ist γ > 0
oder ϕ0 ist µ-f.ü. von der Form 2.2.7 auf Seite 36.
Beweis: Es sei ϕ0 ∈ Φ trennscharf für (Pϑ0 , Pϑ1 ) mit Eϑ0 (ϕ0 ) > 0. Nach
Lemma 2.2.5 existiert ein Test ϕ∗ vom NP-Typ mit Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ0 ). Nach
Lemma 2.2.6 (i) ist ϕ∗ ebenfalls trennscharf für (Pϑ0 , Pϑ1 ), d.h. Eϑ1 (ϕ∗ ) =
Eϑ1 (ϕ0 ).
Da (ϕ∗ − ϕ0 )(p1 − γp0 ) ≥ 0 und
Z
Z
Z
∗
∗
(ϕ − ϕ0 )(p1 − γp0 ) dµ =
ϕ p1 dµ − ϕ0 p1 dµ −
Z
Z
∗
ϕ p0 dµ − ϕ0 p0 dµ
γ
= Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ0 ) − γ (Eϑ0 (ϕ∗ ) − Eϑ0 (ϕ0 ))
= 0
⇒ (ϕ∗ − ϕ0 )(p1 − γp0 ) = 0 µ-f.ü., d.h. µ-f.ü. gilt
p1 (x) > γ · p0 (x) ⇒ ϕ0 (x) = ϕ∗ (x) = 1
p1 (x) < γ · p0 (x) ⇒ ϕ0 (x) = ϕ∗ (x) = 0
Also ist ϕ0 µ-f.ü. vom NP-Typ für (Pϑ0 , Pϑ1 ).
Zu (ii): Es ist zu zeigen, dass im Fall γ = 0 ϕ0 µ-f.ü. die Form besitzt:
1,
p1 (x) > 0
ϕ0 (x) =
0,
p1 (x) = 0, p0 (x) > 0
Da ϕ0 wegen (i) µ-f.ü. vom NP-Typ mit γ = 0 ist, gilt für µ-f.a. x ∈ X :
p1 (x) > 0 ⇒ ϕ0 (x) = 1.
Sei nun ϕ∗ := 1{p1 >0} und M := {p0 > 0, p1 = 0}; es bleibt zu zeigen, dass
ϕ0 /M = 0 µ-f.ü.. Angenommen, dies sei nicht der Fall, d.h.
µ({ϕ0 > 0} ∩ M ) > 0.
38
Es folgt
Z
Z
∗
p0 dµ =
Eϑ0 (ϕ ) =
{p1 >0}
p0 dµ
{p1 >0,p0 >0}
Z
ϕ0 p0 dµ
=
{p0 >0,p1 >0}
Z
Z
ϕ0 p0 dµ +
<
{p0 >0,p1 >0}
ϕ0 p0 dµ
{p0 >0,p1 =0}=M
Z
ϕ0 p0 dµ = Eϑ0 (ϕ0 )
=
{p0 >0}
Andererseits gilt aber
Z
Eϑ1 (ϕ0 ) =
Z
ϕ0 p1 dµ =
Z
ϕ0 p1 dµ =
{p1 >0}
p1 dµ
{p1 >0}
= Eϑ1 (ϕ∗ )
Damit erhalten wir einen Widerspruch zur eigentlichen Trennschärfe von ϕ0 ,
wonach aus Eϑ0 (ϕ∗ ) ≤ Eϑ0 (ϕ0 ) und Eϑ1 (ϕ∗ ) ≥ Eϑ1 (ϕ0 ) eigentlich
Eϑi (ϕ∗ ) = Eϑi (ϕ0 ) i = 0, 1
folgen müsste.
2
Korollar 2.2.10. Es sei ϕ0 ein bester Test zum Niveau α ∈ (0, 1) für H =
{ϑ0 } gegen K = {ϑ1 }. Falls Pϑ0 6= Pϑ1 , so gilt Eϑ1 (ϕ0 ) > α.
2.3
Das verallgemeinerte Fundamentallemma
von Neyman-Pearson
In diesem Abschnitt untersuchen wir die Frage nach der Existenz bester
Tests im Fall einer zusammengesetzten Hypothese H = {ϑ1 , . . . , ϑk } gegen
eine einfache Alternative K = {ϑk+1 }, ϑk+1 6= ϑi , 1 ≤ i ≤ k, k ∈ N. Ferner
sei µ ein endliches Maß auf (X , B) mit {Pϑ1 , . . . , Pϑk+1 } µ, etwa µ :=
Pϑ1 + · · · + Pϑk+1 , sowie pi ∈ dPϑi /dµ, i = 1,2, . . . , k+1.
Schließlich seinen α(k) := (α1 , . . . , αk ) ∈ (0, 1)k .
Wir betrachten folgende zwei Teilklassen von Φ:
Φ̃α(k) := {ϕ ∈ Φ : Eϑi (ϕ) = αi , 1 ≤ i ≤ k} =
6 ∅ (dies sei vorausgesetzt)
Φα(k) := {ϕ ∈ Φ : Eϑi (ϕ) ≤ αi , 1 ≤ i ≤ k} =
6 ∅
39
Definition 2.3.1. Ein Test ϕ∗ heißt vom NP-Typ für (H, K), falls γ1 , . . . , γk ∈
R existieren mit
P
1, falls pk+1 (x) > ki=1 γi pi (x)
∗
P
ϕ (x) =
x ∈ X.
(2.3.2)
0, falls pk+1 (x) < ki=1 γi pi (x)
Satz 2.3.3 (Verallgemeinertes Fundamentallemma von Neyman-Peason).
Es gilt:
(i) Es existiert stets ein bzgl. Φ̃α(k) bester Test für H gegen K.
(ii) Ist ϕ̃ ∈ Φ̃α(k) µ-f.ü. vom NP-Typ für (H, K), so ist ϕ̃ bester Test bzgl.
Φ̃α(k) für H gegen K.
(iii) Ist α(k) ein innerer Punkt der Menge M (k) := {(Eϑ1 (ϕ), . . . , Eϑk (ϕ)) :
ϕ ∈ Φ}, so ist ein bzgl. Φ̃α(k) bester Test für H gegen K µ-f.ü. vom
NP-Typ für (H, K).
Beweis: Behauptung (i) folgt unmittelbar aus Satz 2.1.19 auf Seite 34 mit
Fϑi = {αi }, 1 ≤ i ≤ k.
Zu (ii): Zu zeigen ist
Eϑk+1 (ϕ̃) = sup Eϑk+1 (ϕ)
ϕ∈Φ̃α(k)
Sei dann ϕ ∈ Φ̃α(k) beliebig vorgegeben. Da ϕ̃ µ-f.ü. vom NP-Typ ist, existieren γ1 , . . . , γk ∈ R, sodass µ-f.ü. gilt:
(ϕ̃ − ϕ) ·
pk+1 −
k
X
!
≥0
γi pi
i=1
Z
⇒
Z
ϕ̃pk+1 dµ −
ϕpk+1 dµ ≥
k
X
Z
γi
Z
ϕ̃pi dµ −
i=1
⇒ Eϑk+1 (ϕ̃) − Eϑk+1 (ϕ) ≥
k
X
γi (Eϑi (ϕ̃) − Eϑi (ϕ))
i=1
=
k
X
γi (αi − αi )
i=1
=0
⇒ Eϑk+1 (ϕ̃) ≥ Eϑk+1 (ϕ)
40
ϕpi dµ
Zu (iii): Es sei ϕ̃ ein bester Test bzgl. Φ̃α(k) für H gegen K. Setze M (k+1) :=
{(Eϑ1 (ϕ), . . . , Eϑk+1 (ϕ)) : ϕ ∈ Φ}, I := {α ∈ [0, 1] : (α1 , . . . , αk , α) ∈
M (k+1) }.
Es ist I 6= ∅, da z.B. Eϑk+1 (ϕ̃) ∈ I. Annahme: I enthalte wenigstens zwei
Elemente.
Da nach Lemma 2.1.10 M (k+1) kompakt und daher abgeschlossen ist, ist auch
I ⊂ [0, 1] abgeschlossen und daher kompakt. Also existiert
αk+1 := max{α : α ∈ I} ∈ I.
Da ϕ̃ bester Test bzgl. Φ̃α(k) ist, folgt, Eϑk+1 (ϕ̃) = αk+1 und
α(k+1) := (α1 , . . . , αk , αk+1 ) ∈ ∂M (k+1) = topologischer Rand von M (k+1) .
Da M (k+1) nach Lemma 2.1.10 außerdem konvex ist, existiert eine durch
α(k+1) gehende Hyperebene H, so das M (k+1) ganz auf einer Seite dieser
Hyperebene liegt, d.h.
(
)
k+1
X
α(k+1) ∈ H := (t1 , . . . , tk+1 ) ∈ Rk+1 :
γi (ti − αi ) = 0
i=1
für gewisse reelle Zahlen γ1 , . . . , γk+1 und
∀(β1 , . . . , βk+1 ) ∈ M (k+1) :
k+1
X
γi (βi − αi ) ≥ 0
i=1
(Satz von der Existenz einer Stützhyperebene).
Pk
Dann ist γk+1 6= 0. Denn andernfalls wäre
i=1 γi (βi − αi ) ≥ 0 für alle
(k)
(k)
(β1 , . . . , βk ) ∈ M , d.h. P
M
liegt ganz auf einer Seite der Hyperebene
H0 := {(t1 , . . . , tk ) ∈ Rk : ki=1 γi (ti − αi ) = 0}. Andererseits ist α(k) ∈ H0
und daher α(k) ∈ ∂M (k) im Widerspruch dazu, dass α(k) immer ein innerer
Punkt von M (k) ist. Also folgt γk+1 6= 0.
Da nun für α ∈ I gilt: (α1 , . . . , αk , α) ∈ M (k+1) und somit
0≤
k
X
i=1
γi (αi − αi ) + γk+1 (α − αk+1 ) = γk+1 (α − αk+1 ),
|{z} | {z }
6=0
folgt γk+1 < 0 (αk+1 ist maximales Element in I).
41
<0
o.E. sei γk+1 = −1. Es folgt:
∀ϕ ∈ Φ : (Eϑ1 (ϕ), . . . , Eϑk+1 (ϕ)) ∈ M (k+1)
⇒
k+1
X
γi (Eϑi (ϕ) − αi ) ≥ 0
i=1
⇒ Eϑk+1 (ϕ) −
k
X
γi Eϑi (ϕ) ≤ αk+1 −
i=1
Z
⇒
ϕ·
pk+1 −
= Eϑk+1 (ϕ̃) −
k
X
γi αi
i=1
k
X
!
dµ ≤ αk+1 −
γi pi
i=1
k
X
k
X
γi αi
i=1
γi Eϑi (ϕ̃)
i=1
Z
=
ϕ̃ pk+1 −
k
X
!
γi pi
dµ.
i=1
P
Setzen wir zur Abkürzung h := pk+1 − ki=1 γi pi und ϕ∗ := 1{h>0} , so haben
wir gezeigt, dass für alle ϕ ∈ Φ gilt
Z
Z
ϕ · h dµ ≤ ϕ̃ · h dµ
Da außerdem
Z
Z
ϕ∗ · h dµ,
Z
ϕ∗ · h dµ
ϕ · h dµ ≤
folgt
Z
ϕ̃ · h dµ =
bzw.
Z
(ϕ∗ − ϕ̃) · h dµ = 0
{z
}
|
≥0
⇒ (ϕ∗ − ϕ̃) · h = 0 µ-f.ü., d.h. ϕ̃ ist µ-f.ü. vom NP-Typ.
2
Lemma 2.3.4. Ist ϕ∗ ∈ Φ̃α(k) vom NP-Typ für (H, K) wobei γi ≥ 0, 1 ≤ i ≤
k, so ist ϕ∗ sogar bester Test bzgl. der größeren Klasse Φα(k) für H gegen K.
Beweis: Zu zeigen ist Eϑk+1 (ϕ∗ ) = supϕ∈Φ (k) Eϑk+1 (ϕ). Es sei also ϕ ∈ Φα(k)
α
beliebig. Nach Voraussetzung existieren γi ≥ 0, 1 ≤ i ≤ k, so dass
!
k
X
γi pi ≥ 0.
(ϕ∗ − ϕ) pk+1 −
i=1
42
Analog zum Beweis von Satz 2.3.3 (ii) folgt


k
X
Eϑk+1 (ϕ∗ ) − Eϑk+1 (ϕ) ≥
γi Eϑi (ϕ∗ ) − Eϑi (ϕ) ≥ 0
| {z } | {z }
i=1
=αi
≤αi
und daraus die Behauptung.
2
Definition 2.3.5. Wahrscheinlichkeitsmaße P1 , . . . , Pk auf (X , B) heißen
linear unabhängig :⇔
∀B ∈ B :
k
X
γi Pi (B) = 0 ⇒ γi = 0, 1 ≤ i ≤ k.
i=1
Bemerkung 2.3.6. Es seien P1 , . . . , Pk Wahrscheinlichkeitsmaße auf (X , B),
µ/B ein endliches Maß mit {P1 , . . . , Pk } µ und pi ∈ dPi /dµi , 1 ≤ i ≤ k.
Dann gilt:
P1 , . . . , Pk sind linear unabhängig
" k
#
X
⇔
γi pi = 0 µ-f.ü. ⇒ γi = 0, 1 ≤ i ≤ k
i=1
Lemma 2.3.7. Es gilt:
(i) Sind Pϑ1 , . . . , Pϑk linear unabhängig und ist α ∈ (0, 1), so ist (α, . . . , α)
∈ (0, 1)k innerer Punkt von M (k) = {(Eϑ1 (ϕ), . . . , Eϑk (ϕ)) : ϕ ∈ Φ}.
(ii) Sind Pϑ1 , . . . , Pϑk , Pϑk+1 linear unabhängig und ist für ein α ∈ (0, 1)
der Vektor (α, . . . , α) innerer Punkt von M (k) , so existiert ϕ ∈ Φ mit
Eϑi (ϕ) = α, 1 ≤ i ≤ k und Eϑk+1 (ϕ) > α.
Beweis: Zu (ii): Zu zeigen ist ∃ϕ̂ ∈ Φ̂ := {ϕ ∈ Φ : Eϑi (ϕ) = α, 1 ≤ i ≤ k}
mit Eϑk+1 (ϕ̂) > α. Angenommen, dies wäre nicht der Fall, dann wäre ϕα :=
α (∈ Φ̂) ein bester Test bzgl. Φ̂ für H = {ϑ1 , . . . , ϑk } gegen K = {ϑk+1 }.
Also ist
Satz 2.3.3 ϕα µ-f.ü. vom NP-Typ. Wegen 0 < α < 1 folgt
Pnach
k
pk+1 − i=1 γi pi = 0 µ-f.ü. für gewisse Zahlen γ1 , . . . , γk , im Widerspruch zur
linearen Unabhängigkeit von Pϑ1 , . . . , Pϑk+1 .
Zu (i): Durch vollständige Induktion nach k:
k = 1: M (1) = {Eϑ1 (ϕ) : ϕ ∈ Φ} = [0, 1], d.h. α ∈ (0, 1) ist innerer Punkt
von M (1)
43
k − 1 → k: Pϑ1 , . . . , Pϑk linear unabhängig.
Dann sind auch Pϑ1 , . . . , Pϑi−1 , Pϑi+1 , . . . , Pϑk linear unabhängig ⇒ (α, . . . , α)
∈ (0, 1)k−1 ist innerer Punkt von M (k−1) nach Induktionvorraussetzung. Nach
(ii) (für k statt k+1 und Pϑi statt Pϑi+1 ) folgt für j = 1, . . . , i − 1, i + 1, . . . , k:
∃ϕi ∈ Φ : Eϑj (ϕi ) = α, Eϑi (ϕi ) > α
∃ϕ0i ∈ Φ : Eϑj (ϕ0i ) = α, Eϑi (ϕ0i ) < α
(2.3.8)
(2.3.9)
Denn durch Anwendung von 2.3.8 auf 1 − α statt α erhält man ψi ∈ Φ, so
dass ϕ0i := 1 − ψi 2.3.9 erfüllt. Führt man diesen Schritt nun für i = 1, . . . , k
durch, so liegt das k-Tupel (α, . . . , α) im Inneren der konvexen Hülle der 2k
Punkte
(α, . . . , α, Eϑi (ϕi ), α, . . . , α) , (α, . . . , α, Eϑi (ϕ0i ), α, . . . , α) , 1 ≤ i ≤ k.
Da jeder dieser 2k Punkte zu M (k) gehört und M (k) konvex ist, ist das k–
Tupel (α, . . . , α) innerer Punkt von M (k) .
2
Beispiel 2.3.10. Es sei (X , B) = (R, B), Pϑi = N (µi , σ 2 ) i = 1, 2, 3 mit
bekanntem σ 2 > 0 und µ1 < µ3 < µ2 . Ferner sei α ∈ (0, 1) und ϕ0 ein
bzgl. {ϕ ∈ Φ : Eϑi (ϕ) = α, i = 1, 2} bester Test für H = {ϑ1 , ϑ2 } gegen
K = {ϑ3 }. Dann sind Pϑ1 , Pϑ2 linear unabhängig, denn:
∀B ∈ B : γ1 Pϑ1 (B) + γ2 Pϑ2 (B) = 0
B=R
⇒ γ2 = −γ1
⇒ ∀B ∈ B : γ1 (Pϑ1 (B) − Pϑ2 (B)) = 0
⇒ γ1 = 0
Also ist nach Lemma 2.3.7 (i) (α, α) ein innerer Punkt von M (2) . Daher folgt
aus Satz 2.3.3 (iii): Für λ-fast alle x ∈ R besitzt ϕ0 die Gestalt

(x−µ3 )2
1

√
exp
−
>
1,
falls

2

2πσ

2σ


(x−µ1 )2
(x−µ2 )2
γ2

√γ1 exp −
√
+ 2πσ exp − 2σ2
2σ 2
2πσ ϕ0 (x) =
2
1
3)

0, falls √2πσ
exp − (x−µ
<

2σ 2



2

(x−µ1 )
(x−µ2 )2
γ2

√γ1 exp −
√
+ 2πσ exp − 2σ2
2σ 2
2πσ
44
2.4
Exponentialfamilien
Im folgenden behandeln wir die Frage nach der Existenz und der Gestalt
gleichmäßig bester Tests zum Niveau α für H gegen K mit beliebigen disjunkten H, K ⊂ Θ.
Wir gehen dabei wie folgt vor: Für einen speziellen Wert ϑ1 ∈ K bestimmen
wir aufgrund unserer bisherigen Ergebnisse einen besten Test für H gegen
K 0 := {ϑ1 }.
Ist dieser Test dann unabhängig von dem speziellen Wert ϑ1 , so ist er ein
gleichmäßig bester Test für H gegen K.
Definition 2.4.1. Eine Familie P = {Pϑ : ϑ ∈ Θ} von Wahrscheinlichkeitsmaßen auf (X , B) heißt k-parametrige Exponentialfamilie :⇔
(i) ∃ h, T1 , . . . , Tk : (X , B) → (R, B)
(ii) ∃ c, q1 , . . . , qk : Θ → R
(iii) ∃ µ/B
σ-endliches Maß:
pϑ (x) := c(ϑ) · h(x) · exp
k
X
!
qj (ϑ)Tj (x) , x ∈ X ϑ ∈ Θ (2.4.2)
j=1
ist eine µ-Dichte von Pϑ . Dabei ist h ≥ 0 und c > 0.
Beispiel 2.4.3. Es sei (X , B) = (R, B), Pϑ = N (µ, σ 2 ) mit ϑ = (µ, σ 2 ) ∈
Θ = R × (0, ∞), µ = λ = Lebesque-Maß auf (R, B).
Pϑ hat die Dichte
(x − µ)2
1
· exp −
pϑ (x) = √
2σ 2
2πσ
µ
1
µ2
x2
= √
exp − 2 · exp − 2 + 2 x ,
2σ
2σ
σ
2πσ
welche die Form (2.4.2) besitzt mit
c(ϑ) =
h ≡
q1 (ϑ) =
q2 (ϑ) =
T1 (x) =
T2 (x) =
1
µ2
√
exp − 2
2σ
2πσ
1
1
− 2
2σ
µ
σ2
x2
x
45
d.h. k = 2, µ und σ unbekannt.
Ist hingegen µ = µ0 oder σ 2 = σ02 bekannt, so ist
P = N (µ0 , σ 2 ) : σ 2 ∈ (0, ∞)
bzw.
P = N (µ, σ02 ) : µ ∈ R
eine einparametrige Exponentialfamilie mit
c(ϑ) = √
bzw.
1
;
2πσ
h ≡ 1;
q1 (ϑ) = −
1
;
2σ 2
T1 (x) = (x − µ0 )2
x2
1
µ2
c(ϑ) = √
exp − 2 ; h(x) = exp − 2 ;
2σ0
2σ0
2πσ0
µ
q1 (ϑ) = 2 ; T1 (x) = x.
σ0
Bemerkung 2.4.4. Durch geeignete Wahl eines dominierenden Maßes µ lässt
sich
R in der Darstellung (2.4.2) o.E. h ≡ 1 wählen. Man gehe von µ zu µ̃(B) :=
h dµ, B ∈
B
SB über, welches ebenfalls σ-endlich ist:
Es sei X = n∈N Xn mit µ(Xn ) < ∞ n ∈ N.
S
Setze Am := {m − 1 ≤ h < m}, m ∈ N. Dann gilt X = (m,n)∈N2 (Am ∩ Xn )
und
Z
Z
1 dµ ≤ m · µ(Xn ) < ∞.
h dµ ≤ m ·
µ̃ (Am ∩ Xn ) =
Am ∩Xn
Am ∩Xn
Also ist µ̃ σ-endlich.
Ferner gilt
Z
pϑ (x) µ(dx)
Pϑ (B) =
B
Z
h(x) · c(ϑ) exp
=
B
!
qj (ϑ) · Tj (x)
µ(dx)
j=1
Z
c(ϑ) · exp
=
k
X
B
k
X
!
qj (ϑ) · Tj (x)
µ̃(dx),
j=1
siehe Stochastik I, da dµ̃ = h dµ.
Bezeichnen wir mit µ∗T das Bildmaß von T bzgl. µ auf Bk , d.h. (µ∗T )(B) =
µ(T −1 (B)), B ∈ Bk (s. Stochastik I) mit T = (T1 , . . . , Tk ), so ist das Bildmaß
Pϑ ∗ T von T bzgl. Pϑ absolut stetig bzgl. µ ∗ T und besitzt die µ ∗ T -Dichte
!
k
X
(t1 , . . . tk ) ∈ Rk 7→ c(ϑ) exp
qj (ϑ) · tj .
(2.4.5)
j=1
46
Denn für ein beliebiges B ∈ Bk gilt nach dem Transformationssatz (s. Stochastik I)
!
Z
k
X
c(ϑ) · exp
qj (ϑ) · tj (µ ∗ T ) d(t1 , . . . , tk )
B
j=1
c(ϑ) · exp
=
!
k
X
Z
T −1 (B)
qj (ϑ) · Tj
µ(dx)
j=1
= Pϑ (T −1 (B)) = (Pϑ ∗ T )(B).
Sowohl in (2.4.2) also auch in (2.4.5) spielt der Faktor c(ϑ) nur die Rolle
eines Normierungsfaktors, damit jeweils das Integral 1 ergibt.
Die Verteilung Pϑ bzw. Pϑ ∗ T hängt also nur über q(ϑ) := (q1 (ϑ), . . . , qk (ϑ))
von ϑ ab.
Dies nimmt man zum Anlass, die Menge
(
!
)
Z
k
X
Θ̃ := (q1 , . . . , qk ) ∈ Rk :
exp
qj Tj (x) µ(dx) < ∞
X
j=1
als neuen Parameterraum, den sog. natürlichen Parameterraum für die kparametrige Exponentialfamilie P einzuführen.
Dabei werden mit
K(q) := R
1
exp
P
k
j=1 qj Tj
dµ
durch
pq (x) := K(q) · exp
k
X
!
qj Tj (x) , x ∈ X , q ∈ Θ̃,
(2.4.6)
j=1
Wahrscheinlichkeitsdichten bzgl. µ definiert.
Anstelle der ursprünglich vorgegebenen Exponentialfamilie P betrachtet man
dann häufig die k-parametrige Exponentialfamilie mit natürlichem Parameterraum.
Z
n
o
P̃ := Pq : q ∈ Θ̃ mit Pq (B) =
pq dµ, B ∈ B, q ∈ Θ̃
(2.4.7)
B
Lemma 2.4.8. Der natürliche Parameterraum Θ̃ ⊂ Rk ist stets eine konvexe
Menge.
47
Beweis: Es seinen q 0 , q 00 ∈ Θ̃, γ ∈ [0, 1], also
!
!
Z
Z
k
k
X
X
exp
qj0 Tj dµ < ∞,
exp
qj00 Tj dµ < ∞.
j=1
j=1
Aus der Monotonie und der Konkavität der Logarithmus-Funktion log(x) mit
x > 0 folgt:
n
Y
aλi i ≤
i=1
n
X
n
X
ai λi für ai > 0, λi ≥ 0,
i=1
λi = 1
i=1
und damit
k
X
exp
!
(γqj0 + (1 − γ)qj00 )Tj
j=1
=
exp
k
X
!!γ
qj0 Tj
·
exp
k
X
j=1
≤ γ · exp
k
X
!!1−γ
qj00 Tj
j=1
!
qj0 Tj
+ (1 − γ) · exp
j=1
k
X
!
qj00 Tj
j=1
Hieraus folgt
Z
exp
k
X
!
(γqj0 + (1 − γ)qj00 )Tj
dµ
i=1
Z
≤γ
exp
k
X
!
qj0 Tj
Z
dµ + (1 − γ)
j=1
· exp
k
X
!
qj00 Tj
dµ
j=1
< ∞.
2
Im Folgenden untersuchen wir den Fall k = 1 einer einparametrigen Exponentialfamilie mit natürlichem Parameterraum Θ̃. In diesem Fall ist
Z
Pq (B) =
pq dµ, B ∈ B, mit pq (x) = K(q) · exp(qT (x)), q ∈ Θ̃
B
wobei T : (X , B) → (R, B) und Θ̃ ein (möglicherweise entartetes) Intervall in
R ist.
48
Lemma 2.4.9. Die Gütefunktion
Z
Z
Z
ϕ(x)Pp (dx) =
ϕ(x)pq (x) µ(dx)
Θ̃ 3 q 7→ Eq (ϕ) := ϕ dPq =
X
X
eines beliebigen Tests ϕ ∈ Φ ist in allen inneren Punkten von Θ̃ beliebig oft
differenzierbar.
Speziell gilt:
d Eq (ϕ)
= Eq (ϕ · T ) − Eq (ϕ) · Eq (T ).
dq
(2.4.10)
Beweis: Zunächst beweisen wir:
Behauptung: Für alle ϕ ∈ Φ ist die Funktion
Z
ψ : Θ̃ → R, ψ(q) := ϕ(x) exp(qT (x)) µ(dx)
in allen inneren Punkten von Θ̃ beliebig oft differenzierbar und dort gilt
0
Z
ψ (q) =
ϕ(x)T (x) exp(qT (x)) µ(dx)
(2.4.11)
Denn: Sei dazu q0 ein innerer Punkt von Θ̃
⇒ ∃δ > 0 ∀q ∈ Θ̃, |q − q0 | < δ : ψ(q) < ∞
Ferner gilt:
ψ(q) − ψ(q0 )
=
q − q0
exp(qT ) − exp(q0 T )
ϕ dµ
q − q0
Z
exp((q − q0 )T ) − 1
dµ
=
ϕ · exp(q0 T ) ·
q − q0
Z
Aus der Reihenentwicklung von exp(x) folgt zunächst für |z| ≤ δ, t ∈ R
P
∞ (zt)n exp(zt) − 1 = n=1 n! z
z
∞
X
z n−1 tn = n! ≤
≤
n=1
∞
X
|z|n−1 · |t|n
n!
n=1
∞
X
1
δ
n=1
δ n |t|n
n!
1
≤
exp(δ|t|).
δ
49
Somit gilt für obigen Integranden:
ϕ · exp(q0 T ) exp((q − qo )T ) − 1 q − q0
exp(δ|t|)
≤ exp(q0 T ) ·
δ
1
= exp(q0 T + δ|T |)
δ
1
≤ (exp((q0 + δ)T ) + exp((q0 − δ)T ))
δ
für |q − q0 | ≤ δ.
Falls also |q − q0 | ≤ δ, so ist q0 ± δ ∈ Θ̃, d.h. die rechte Seite in obiger Formel
ist µ integrierbar.
Nach dem Satz der dominierten Konvergenz folgt somit für jede Folge qn ,
n ∈ N, in Θ̃ mit limn→∞ qn = q0
Z
ψ(qn ) − ψ(q0 )
= ϕ · T · exp(q0 T ) dµ,
lim
n→∞
qn − q 0
d.h. ψ ist einmal differenzierbar und es gilt (2.4.10). Die Existenz höherer
Ableitungen folgt analog durch vollständige Induktion. Also gilt die obige
Behauptung.
R
1
= exp(qT ) dµ und damit auch
Für ϕ ≡ 1 erhalten wir daraus, dass K(q)
K(q) in allen inneren Punkten von Θ̃ beliebig oft differenzierbar ist mit
0 Z
1
= T · exp(qT ) dµ.
K(q)
Da andererseits
folgt wegen Eq (ϕ) =
R
1
K(q)
0
=−
ϕ dPq = K(q) ·
R
K 0 (q)
K 2 (q)
ϕ exp(qT ) dµ
dEq (ϕ)
= K(q) · ψ 0 (q) + K 0 (q) · ψ(q)
dq
Z
Z
2
= K(q) · ϕT exp(qT ) dµ − K (q)ψ(q) T exp(qT ) dµ
Z
= Eq (ϕT ) − K(q) · Eq (ϕ) T exp(qT ) dµ
= Eq (ϕT ) − Eq (ϕ) · Eq (T )
für alle inneren Punkte q von Θ̃.
2
50
2.5
Einseitige Tests bei monotonem Dichtequotienten
Definition 2.5.1. Eine Familie P = {Pϑ : ϑ ∈ Θ} von Wahrscheinlichkeitsmaßen auf (X , B) mit Θ ⊂ R und Pϑ 6= Pϑ0 für ϑ 6= ϑ0 heißt Familie mit
monotonem Dichtequotienten in T, falls gilt: ∃ Maß µ/B, P µ,
∀ ϑ ∈ Θ ∃ pϑ ∈ dPϑ /dµ ∃ T : (X , B) → (R, B) ∀ϑ0 , ϑ00 ∈ Θ, ϑ0 < ϑ00 :
pϑ00 (x)
= hϑ0 ,ϑ00 (T (x)),
pϑ0 (x)
(2.5.2)
für alle x ∈ Xϑ0 ,ϑ00 := X \{x ∈ X : pϑ0 (x) = pϑ00 (x) = 0}, (mit hϑ0 ,ϑ00 (T (x)) =
∞, falls pϑ00 (x) > 0, pϑ0 (x) = 0), wobei hϑ0 ,ϑ00 (t) streng monoton in T ist.
Beispiel 2.5.3. (i) Es sei P = {Pϑ : ϑ ∈ Θ} eine einparametrige Exponentialfamilie, d.h. pϑ (x) = c(ϑ) · exp(q(ϑ) · T (x)), x ∈ X , ϑ ∈ Θ.
Falls q(ϑ) streng monoton wachsend in ϑ ist, so ist P eine Familie mit
monotonem Dichtequotienten: Für ϑ0 , ϑ00 ∈ Θ mit ϑ0 < ϑ00 gilt
pϑ00 (x)
pϑ0 (x)
c(ϑ00 )
· exp ((q(ϑ00 ) − q(ϑ0 )) · T (x))
c(ϑ0 )
=: hϑ0 ,ϑ00 (T (x)),
=
wobei hϑ0 ,ϑ00 (t) streng monoton wachsend in t ist.
(ii) Sind X1 , . . . , Xn unabhängige
und identisch N (0, σ 2 )-verteilte ZufallsPn
2
−2
χ2 -verteilt mit n Freiheitsgraden, i.Z.
variablen, so ist σ
i=1 Xi
χ2n .
P
Die Summe ni=1 Xi2 besitzt dann die Lebesgue-Dichte
1 x
pσ2 (x) =
gn 2
σ2
σ
x n
1
−1
2
x
=
exp − 2 , x > 0,
(2σ 2 )n/2 Γ(n/2)
2σ
wobei gn die Dichte der χ2n -Verteilung ist.
Für ϑ = σ 2 ∈ Θ := (0, ∞) sei Pϑ das Wahrscheinlichkeitsmaß mit
der λ-Dichte pϑ . Dann besitzt P = {Pϑ : ϑ ∈ Θ} einen monotonen
Dichtequotienten in T (x) = x. Denn für σ12 < σ22 und x > 0 gilt
2 n/2
pσ22 (x)
σ1
1
1
=
· exp
−
· x =: hσ12 ,σ22 (x),
pσ12 (x)
σ22
2σ12 2σ22
wobei hσ12 ,σ22 (x) streng monoton wachsend in t ist.
51
(iii) Für ϑ > 0 sei Pϑ die Poisson-Verteilung zum Parameter ϑ > 0, d.h.
Pϑ ({k}) = exp(−ϑ)
ϑk
,
k!
k = 0, 1, 2, . . .
Dann ist P = {Pϑ : ϑ > 0} eine Familie von Wahrscheinlichkeitsmaßen
auf
P∞(X , B) = (N ∪ {0}, P(N ∪ {0})), welche durch das Zählmaß µB =
n=0 1B (n), B ⊂ N ∪ {0} dominiert wird.
P ist eine Familie mit monotonem Dichtequotienten in T (x) = x. Setze
pϑ (x) := e−ϑ ϑx /x!, x ∈ X , ϑ ∈ Θ. Dann gilt pϑ ∈ dPϑ /dµ, denn
∞
ϑk X
=
1B ({k})pϑ (k)
k!
k∈B
k∈B
Z
Z k=0
=
1B (x) · pϑ (x) µ(dx) =
pϑ (x) · µ(dx), B ∈ B
Pϑ (B) =
X
Pϑ ({k}) =
X
e−ϑ
X
B
und für ϑ1 < ϑ2 ist
pϑ2 (x)
= exp((ϑ1 − ϑ2 ))
pϑ1 (x)
ϑ2
ϑ1
x
streng monoton wachsend in x.
Mit den in Abschnitt 2.2 bewiesenen Aussagen können wir nun gleichmäßig
beste Tests zum Niveau α für das einseitige Testproblem H : ϑ ≤ ϑ0 gegen
K : ϑ > ϑ0 (bzw. entsprechend für H : ϑ ≥ ϑ0 gegen K : ϑ < ϑ0 ) herleiten.
Satz 2.5.4. P = {Pϑ : ϑ ∈ Θ ⊂ R} sei eine Familie von Wahrscheinlichkeitsmaßen mit monotonem Dichtequotienten in T. Ferner sei α ∈ (0, 1) und
ϑ0 ∈ Θ. Dann existiert für das Testproblem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 ein
gleichmäßig bester Test ϕ∗ zum Niveau α.
Dieser hat die Gestalt

 1, falls T (x) > cα
δα falls T (x) = cα
ϕ∗ =
(2.5.5)

0, falls T (x) < cα , x ∈ X
wobei cα möglichst klein und – nach Wahl von cα – δα ∈ [0, 1] möglichst groß
derart gewählt wird, dass
Eϑ0 (ϕ∗ ) = Pϑ0 (T > cα ) + δα Pϑ0 (T = cα ) = α.
(2.5.6)
Darüber hinaus besitzt ϕ∗ die Eigenschaft
∀ϑ ∈ Θ : Eϑ (ϕ∗ ) = inf{Eϑ (ϕ) : ϕ ∈ Φ mit Eϑ0 (ϕ) = α}
52
(2.5.7)
Beweis: Es sei zunächst ϑ1 > ϑ0 beliebig aber fest gewählt. Nach dem
Neymann-Pearson Lemma 2.2.5, 2.2.6 existiert für das Testproblem H0 : ϑ =
ϑ0 gegen K0 : ϑ = ϑ1 ein bester Test zum Niveau α der Form

 1, falls pϑ1 (x) > γα pϑ0 (x)
δα falls pϑ1 (x) = γα pϑ0 (x)
ϕ̂(x) =
(2.5.8)

0, falls pϑ1 (x) < γα pϑ0 (x), x ∈ X
mit Eϑ0 (ϕ̂) = α. Da P einen monotonen Dichtequotienten in T besitzt, gilt

 1, falls hϑ0 ,ϑ1 (T (x)) > γα
δα falls hϑ0 ,ϑ1 (T (x)) = γα
ϕ̂(x) =
(2.5.9)

0, falls hϑ0 ,ϑ1 (T (x)) < γα , x ∈ X
Da hϑ0 ,ϑ1 (t) streng monoton wachsend in t ist, ist (2.5.9) äquivalent zu (2.5.5).
Wähle man nun
cα = inf{t ∈ R : Pϑ0 (T ≤ t) ≥ 1 − α} = inf{t ∈ R : Pϑ0 (T > t) < α}
und δα so, dass Pϑ0 (T > cα ) + δα Pϑ0 (T = cα ) = α. Dann ist der zugehörige
Test ϕ∗ ein bester Test für H0 gegen K0 ; da cα und δα offenbar nur von ϑ0
abhängen und nicht von ϑ1 ist ϕ∗ auch gleichmäßig bester Test zum Niveau
α für H0 : ϑ = ϑ0 gegen K0 : ϑ > ϑ0 . Durch Vergleich mit dem Test
ϕα = α ergibt sich aus (2.5.7) (was aber erst noch bewiesen werden muss)
∀ϑ < ϑ0 : Eϑ (ϕ∗ ) ≤ α, d.h. ϕ∗ ist ein Test zum Niveau α für H : ϑ ≤ ϑ0
gegen K : ϑ > ϑ0 .
Daraus folgt, dass ϕ∗ gleichmäßig bester Test zum Niveau α für H0 : ϑ ≤ ϑ0
gegen K0 : ϑ > ϑ0 ist. Zum Nachweis von (2.5.7) werden wir zunächst einen
Test ψ ∈ Φ̃ := {ϕ ∈ Φ : Eϑ0 (ϕ) = 1 − α} konstruieren mit der Eigenschaft
∀ϑ < ϑ0 : Eϑ (ψ ∗ ) = sup Eϑ (ψ).
ψ∈Φ̃
Sei dazu ϑ2 < ϑ0 beliebig. Nach dem Neyman-Pearson-Lemma existiert ψ ∗ ∈
Φ̃ mit Eϑ2 (ψ ∗ ) = supψ∈Φ̃ Eϑ2 (ψ), wobei ψ ∗ die Gestalt besitzt

 1, falls pϑ2 (x) > γ̃ pϑ0 (x)
∗
ψ (x) =
δ̃ falls pϑ2 (x) = γ̃ pϑ0 (x)

0, falls pϑ2 (x) < γ̃ pϑ0 (x), x ∈ X
bzw.

 1, falls T (x) > c̃
∗
ψ (x) =
δ̃ falls T (x) = c̃

0, falls T (x) < c̃,
x∈X
Da andererseits 1 − ϕ∗ auch diese Gestalt besitzt und Eϑ (1 − ϕ∗ ) = 1 − α,
folgt ψ ∗ := 1 − ϕ∗ ∈ Φ̃ als Lösung von Eϑ0 (ψ ∗ ) = supψ∈Φ̃ Eϑ2 (ψ).
53
Da 1 − ϕ∗ unabhängig von ϑ2 < ϑ0 ist, gilt also Eϑ (1 − ϕ∗ ) = supψ∈φ̃ Eϑ (ψ),
ϑ < ϑ0 . Dies ist aber äquivalent zu (2.5.7).
2
Bemerkung 2.5.10. (i) Der in Satz 2.5.4 konstruierte gleichmäßig beste
Test ϕ∗ zum Niveau α für H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 ist auch ein
bester Test zum Niveau α0 := Eϑ0 (ϕ∗ ) für H 0 : ϑ = ϑ0 gegen K 0 : ϑ = ϑ00
für beliebiges ϑ0 , ϑ00 ∈ Θ mit ϑ0 < ϑ00 . Denn ϕ∗ ist nach Konstruktion ein
Test vom NP-Typ für (Pϑ0 , Pϑ00 ) und nach Lemma 2.2.6 damit trennscharf für (Pϑ0 , Pϑ00 ) daraus folgt, dass die Gütefunktion β(ϑ) := Eϑ (ϕ∗ )
auf der Menge {ϑ ∈ Θ : 0 < β < 1} streng monoton wächst:
Seien ϑ0 , ϑ00 ∈ Θ mit ϑ0 < ϑ00 und 0 < β(ϑ0 ) < 1. Dann ist ϕ∗ bester
Test zum Niveau β(ϑ0 ) für H 0 : ϑ = ϑ0 gegen K 0 : ϑ = ϑ00 , also gilt nach
Korollar 2.2.10 β(ϑ0 ) < β(ϑ00 ), da nach Voraussetzung stets Pϑ0 6= Pϑ00
für ϑ0 6= ϑ00 .
(ii) In Analogie zu Satz 2.5.4 ergibt sich sofort, dass es auch für das Testproblem H̃ : ϑ ≥ ϑ0 gegen K̃ : ϑ < ϑ0 einen gleichmäßig besten Test
zum Niveau α ∈ (0, 1) gibt, nämlich:

 1, falls T (x) < c̃α
∗
ϕ̃ (x) =
δ̃ falls T (x) = c̃α
 α
0, falls T (x) > c̃α , x ∈ X ,
wobei die Konstanten c̃α und δ̃α ∈ [0, 1] bestimmt werden aus der
Gleichung Eϑ0 (ϕ̃∗ ) = Pϑ0 (T < c̃α ) + δ̃α Pϑ0 (T = c̃α ) = α
(iii) Ferner folgt aus Lemma 2.2.9, dass die Bereiche strikter Ablehnung der
gleichmäßig besten Tests zum Niveau α ∈ (0, 1) für H0 : ϑ = ϑ0 gegen
K : ϑ > ϑ0 bzw. K̃ : ϑ < ϑ0 bis auf µ–Nullmengen von der Form
{T > cα } bzw. {T < c̃α } sind. Folglich gibt es i.A. keinen gleichmäßig
besten Test zum Niveau α ∈ (0, 1) für H0 : ϑ = ϑ0 gegen K0 : ϑ 6= ϑ0 ,
da ja ein solcher Test sowohl gegen K, als auch gegen K̃ gleichmäßig
bester Test sein müsste.
Beispiel 2.5.11. Im Beispiel 2.4.3 auf Seite 45 haben wir gesehen, dass bei
bekanntem Mittelwert µ0 die Familie P1 = {N (µ0 , σ 2 ) : σ 2 ∈ (0, ∞)} eine
−1
1
, q1 (ϑ) = (2σ
einparametrige Exponentialfamilie bildet c1 (ϑ) = √2πσ
2 ) und
T1 (x) = (x − µ0 )2 , x ∈ R und ϑ = σ 2 ∈ Θ := (0, ∞), wenn µ := λ als
dominierendes Maß gewählt wird. Dann ist im Stichprobenraum (X , B) :=
(Rn , Bn ) gemäß Lemma 2.4.5 die Familie P := {N (µ0P
, σ 2 )n : σ 2 ∈ (0, ∞)}
n
2
eine einparametrige Exponentialfamilie mit T (x) =
i=1 (xi − µ0 ) , x =
(x1 , . . . , xn ) ∈ Rn , und mit streng monoton wachsendem q(ϑ) = q1 (ϑ) =
54
1
− (2ϑ)
, so dass wir nach Beispiel 2.5.3 (i) und Bemerkung 2.5.10 (ii) folgendes
erhalten:
P ist eine Familie mit monotonem Dichtequotienten in T , und der durch
P
1, falls Pni=1 (xi − µ0 )2 ≤ cα
∗
ϕ (x) =
n
2
0, falls
x ∈ Rn ,
i=1 (xi − µ0 ) > cα ,
definierte Test mit cα so gewählt, dass Eϑ0 (ϕ∗ ) = α, ϑ0 = σ02 , ist ein
gleichmäßig bester Test zum Niveau α für das Testproblem
H : σ 2 ≥ σ02
2.6
gegen K : σ 2 < σ02
Gleichmäßig beste Tests in einparametrigen Exponentialfamilien
In diesem Abschnitt sei Θ stets ein reelles Intervall. Wir wollen gleichmäßig
beste Test zum Niveau α für das Testproblem
H := {ϑ ∈ Θ : ϑ ≤ ϑ1 } ∪ {ϑ ∈ Θ : ϑ ≥ ϑ2 } gegen
K := {ϑ ∈ Θ : ϑ1 < ϑ < ϑ2 }
(2.6.1)
bestimmen, wobei ϑ1 , ϑ2 ∈ Θ mit ϑ1 < ϑ2 vorgegeben sind (vgl. Beispiel
2.3.10).
Satz 2.6.2. Es sei P = {Pϑ : ϑ ∈ Θ} eine einparametrige Exponentialfamilie
im Stichprobenraum (X , B), d.h. bzgl. eines geeigneten σ–endlichen Maßes
µ/B besitzt Pϑ eine Dichte der Form pϑ (x) = c(ϑ) exp(q(ϑ)T (x)), x ∈ X , ϑ ∈
Θ. Wir setzen voraus, dass q(ϑ) streng monoton wächst, und T nicht µf.s. konstant ist. Dann existiert für das Testproblem (2.6.1) ein gleichmäßig
bester Test ϕ∗ zum Niveau α ∈ (0, 1) der Form

 1, falls c1 < T (x) < c2
∗
δj , falls T (x) = cj , j = 1, 2, c1 < c2 x ∈ X .
ϕ (x) =
(2.6.3)

0, falls T (x) ∈ (−∞, c1 ) ∪ (c2 , ∞)
Dabei wird man c1 möglichst klein und c2 möglichst groß wählen und nach
deren Festlegung δj ∈ [0, 1], j = 1, 2, so bestimmen, dass
Eϑi (ϕ∗ ) = Pϑi (c1 < T < c2 ) + δ1 Pϑi (T = c1 ) + δ2 Pϑi (T = c2 )(2.6.4)
= α, i = 1, 2
gilt. Darüber hinaus gilt
Eϑ (ϕ∗ ) = inf{Eϑ (ϕ) : ϕ ∈ Φ mit Eϑ1 (ϕ) = Eϑ2 (ϕ) = α}, ϑ ∈ H. (2.6.5)
55
Beweis: Sei zunächst ϑ̃ ∈ Θ mit ϑ1 < ϑ̃ < ϑ2 beliebig aber fest gewählt.
Behauptung: Pϑ1 und Pϑ2 sind linear unabhängig.
Angenommen dies wäre nicht der Fall. Dann wäre für ein γ > 0
c(ϑ1 ) exp(q(ϑ1 )T (x)) = γ c(ϑ2 ) exp(q(ϑ2 )T (x)) µ − f.ü.
⇔
c(ϑ1 )
= γ exp((q(ϑ2 ) − q(ϑ1 ))T (x)) µ − f.ü.
c(ϑ2 )
d.h. wegen q(ϑ2 ) − q(ϑ1 ) > 0 wäre T µ-f.ü. konstant, im Widerspruch zur
Voraussetzung.
Also sind Pϑ1 und Pϑ2 linear unabhängig und somit ist (α, α) gemäß Lemma
2.3.7 (i) innerer Punkt der Menge M := {(Eϑ1 (ϕ), Eϑ2 (ϕ)) : ϕ ∈ Φ}.
Daher ist nach Satz 2.3.3 der durch

1, falls c(ϑ̃) · exp(q(ϑ̃)T (x)) >




γ1 · c(ϑ1 ) · exp(q(ϑ1 ) · T (x))



+γ2 · c(ϑ2 ) · exp(q(ϑ2 )T (x))
x ∈ X,
ϕ0 (x) =

0,
falls
c(
ϑ̃)
·
exp(q(
ϑ̃)T (x)) <




γ1 · c(ϑ1 ) · exp(q(ϑ1 ) · T (x))


+γ2 · c(ϑ2 ) · exp(q(ϑ2 )T (x)),
definierte Test ein bzgl. der Klasse Φ̃α := {ϕ ∈ Φ : α = Eϑ1 (ϕ) = Eϑ2 (ϕ)}
bester Test für das Problem H0 := {ϑ1 , ϑ2 } gegen K0 := {ϑ̃}. Nach entsprechender Umformung folgt nun
1, falls a(x) < 1
ϕ0 (x) =
x ∈ X,
0, falls a(x) > 1
wobei a(x) := γ10 · exp(b1 T (x)) + γ20 · exp(b2 T (x)), γi0 := γi · c(ϑi )/c(ϑ̃), i = 1, 2
und b1 = q(ϑ1 ) − q(ϑ̃) < 0, b2 = q(ϑ2 ) − q(ϑ̃) > 0.
Eine Fallunterscheidung zeigt, dass γ10 > 0 und γ20 > 0 gelten muss:
1. Fall: Angenommen, γ10 ≤ 0, γ20 ≤ 0. Dann folgt a(x) ≤ 0, x ∈ X ⇒ ϕ0 ≡ 1
⇒ α = Eϑ1 (ϕ0 ) = Eϑ2 (ϕ0 ) = 1 ∈
/ (0, 1), Widerspruch.
0
2. Fall: Angenommen, γ1 > 0, γ20 ≤ 0. Dann ist a(x) streng monoton fallend
in T (x), also a(x) < 1 ⇔ T (x) > d1 . Damit ist der Test ϕ0 von der Form
1, falls T (x) > d1
ϕ0 (x) =
x ∈ X,
0, falls T (x) < d1
d.h. ϕ0 ist ein optimaler Test für ein Testproblem der Form ϑ ≤ ϑ0 gegen
ϑ > ϑ0 und besitzt daher nach Bemerkung 2.5.10 (i) eine streng monoton
wachsende Gütefunktion, also speziell Eϑ1 (ϕ0 ) < Eϑ2 (ϕ0 ), Widerspruch.
3. Fall: γ10 ≤ 0, γ20 > 0 analog.
56
Also gilt γ10 > 0 und γ20 > 0 und daher auch γ1 > 0 und γ2 > 0. Es folgt
somit
1, falls c1 < T (x) < c2
ϕ0 (x) =
x ∈ X.
0, falls T (x) < c1 oder T (x) > c2
Aus Lemma 2.3.4 folgt nun, dass der Test ϕ0 und damit auch der durch (2.6.3)
und (2.6.4) definierte Test ϕ∗ ein gleichmäßig bester Test zum Niveau α für
H0 = {ϑ1 , ϑ2 } gegen K0 = {ϑ̃} ist. Da sich hierbei die Konstanten ci und
δi , i = 1, 2 aus den von dem gewählten ϑ̃ unabhängigen Nebenbedingungen
(2.6.4) ergeben, ist ϕ∗ sogar ein gleichmäßig bester Test zum Niveau α für
H0 = {ϑ1 , ϑ2 } gegen K. Durch Vergleich mit dem Test ϕ ≡ α folgt aus
(2.6.5), dass Eϑ (ϕ∗ ) ≤ α, ϑ ∈ H, d.h. ϕ∗ ist ein gleichmäßig bester Test zum
Niveau α für das Testproblem (2.6.1). Zum Nachweis von (2.6.5) sei ϑ̃ ∈ H,
ϑ̃ < ϑ1 , vorgegeben. Satz 2.3.3 liefert einen Test ψ̃ ∗ , der bester Test ist bzgl.
der Klasse
Φ̃1−α := {ϕ ∈ Φ : Eϑ1 (ϕ) = Eϑ2 (ϕ) = 1 − α}
für das Testproblem H0 = {ϑ1 , ϑ2 } gegen K0 := {ϑ̃}. Für den Test ϕ̃∗ :=
1 − ψ̃ ∗ gilt also ϕ̃∗ ∈ Φ̃α und Eϑ̃ (ϕ̃∗ ) = inf{Eϑ̃ (ϕ) : ϕ ∈ Φ̃α }. Gemäß 2.3.3
(iii) ist ψ̃ ∗ µ-f.ü. von der Form
1, falls γ100 exp(b1 T (x)) + γ200 exp(b2 T (x)) < 1
∗
ψ̃ (x) =
x ∈ X,
0, falls γ100 exp(b1 T (x)) + γ200 exp(b2 T (x)) > 1
wobei hier b1 = q(ϑ1 ) − q(ϑ̃) > 0, b2 = q(ϑ2 ) − q(ϑ̃) > b1 > 0. Hieraus folgt
für die Konstanten γ100 , γ200 notwendigerweise γ100 > 0 und γ200 > 0:
1. Fall: Angenommen γ100 ≤ 0; γ200 ≤ 0. Dann folgt ψ̃ ∗ = 1 µ-f.ü. und damit
1 − α = Eϑ1 (ψ̃ ∗ ) = Eϑ2 (ψ̃ ∗ ) = 1, im Widerspruch zu α ∈ (0, 1)
2. Fall: Angenommen γ100 > 0, γ200 ≥ 0. Dann ist b(x) := γ100 exp(b1 T (x)) +
γ200 exp(b2 T (x)) streng monoton wachsend in T (x), also µ-f.ü.
1, falls T (x) < d2
∗
ψ̃ (x) =
x ∈ X,
0, falls T (x) > d2
d.h. ψ̃ ∗ (x) ist optimaler Test für ein einseitiges Problem ϑ ≥ ϑ0 gegen ϑ < ϑ0
und besitzt nach 2.5.10 (i) eine streng monoton fallende Gütefunktion, also
speziell Eϑ1 (ψ̃ ∗ ) > Eϑ2 (ψ̃ ∗ ), Widerspruch.
3. Fall: Angenommen γ100 ≤ 0, γ200 > 0. Wegen b1 = b2 − 0 mit 0 > 0
ist b(x) := γ100 exp(b2 T (x)) exp(−0 T (x)) + γ200 exp(b2 T (x)) streng monoton
wachsend in T (x) und man schließt wie in Fall 2.
Also gilt γ100 > 0, γ200 < 0 und daher
(
1, falls 1 < γ100 exp(−b1 T (x)) −
∗
1
ψ̃ (x) =
0, falls 1 > γ100 exp(−b1 T (x)) −
1
57
γ200
γ100
γ200
γ100
exp((b2 − b1 )T (x))
exp((b2 − b1 )T (x))
x ∈ X,
bzw.
∗
ϕ̃ (x) =
1, falls c1 < T (x) < c2
0, falls T (x) ∈
/ [c1 , c2 ]
x ∈ X,
wobei die Konstanten c1 , c2 aus Eϑ1 (ϕ̃∗ ) = Eϑ2 (ϕ̃∗ ) = α bestimmt werden.
Dies bedeutet ϕ0 = ϕ̃∗ µ-f.ü.
Hieraus folgt wegen ϕ̃∗ ∈ Φ̃α die Behauptung (2.6.5). Analog schließt man
im Fall ϑ̃ > ϑ2
2
Wie wir in 2.5.10 (iii) gesehen haben, existieren im Fall einparametriger
Exponentialfamilien i.A. keine gleichmäßig besten Tests zum Niveau α für
H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 . Wir betrachten daher im Folgenden nur unverfälschte Tests zum Niveau α, wobei wir den natürlichen Parameterraum
zugrunde legen, d.h. unsere Verteilungsannahme ist P = {Pϑ : ϑ ∈ Θ}, wobei Pϑ die µ-Dichte pϑ (x) = c(ϑ) · exp(ϑT (x)) für ϑ ∈ Θ und x ∈ X besitzt.
Ferner nehmen wir an, dass Θ ein offenes Intervall in R ist. Ist dann ϕ ein
unverfälschter Test zum Niveau α für H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 , d.h.
Eϑ0 (ϕ) = α und inf ϑ∈K Eϑ (ϕ) ≥ α, so folgt aus Lemma 2.4.9
d
Eϑ (ϕ)|ϑ=ϑ0 = Eϑ0 (ϕ T ) − α Eϑ0 (T ) = 0,
dϑ
(2.6.6)
da Eϑ (ϕ) in ϑ0 ein Minimum besitzt.
Der abschließende Satz zeigt, dass diese gegenüber der Unverfälschtheit abgeschwächte Bedingung (2.6.6) ausreicht, um die Existenz eines gleichmäßig
besten unverfälschten Tests nachzuweisen.
Satz 2.6.7. Es sei P = {Pϑ : ϑ ∈ Θ} eine einparametrige Exponentialfamilie
mit natürlichem Parameterraum Θ = offenes Intervall in R. Wähle ϑ0 ∈ Θ.
Dann existiert für das Testproblem H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 ein
gleichmäßig bester unverfälschter Test ϕ∗ zum Niveau α ∈ (0, 1) der Gestalt:

/ [c1 , c2 ]
 1, falls T (x) ∈
∗
δj , falls T (x) = cj , j = 1, 2, x ∈ X .
ϕ (x) =
(2.6.8)

0, falls T (x) ∈ (c1 , c2 )
Dabei werden die Konstanten cj , δj ∈ [0, 1], j = 1, 2 so bestimmt, dass
Eϑ0 (ϕ∗ ) = α und Eϑ0 (ϕ∗ T ) = α Eϑ0 (T ).
(2.6.9)
Darüber hinaus gilt
Eϑ (ϕ∗ ) = sup{Eϑ (ϕ) : ϕ ∈ Φ mit Eϑ0 (ϕ) = α,
(2.6.10)
Eϑ0 (ϕ T ) = α Eϑ0 (T )}, ϑ ∈ K.
58
Beweis: Siehe Satz 2.70 in Witting, (1985) Mathematische Statistik, Teubner, Stuttgart.
2
Beispiel 2.6.11. Es seien X1 , . . . , Xn unabhängige B(1, ϑ)-verteilte Zufallsvariablen, ϑ ∈ Θ := (0, 1). Gesucht ist ein gleichmäßig bester unverfälschter
Test zum Niveau α für das Testproblem H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 .
Die Familie der Verteilungen Pϑ = B(1, ϑ)n von X = (X1 ,P
. . . , Xn ) bildet
eine einparametrige Exponentialfamilie mit T (x1 , . . . , xn ) = ni=1 xi . Daher
ist (2.6.8), (2.6.9) eine Lösung, wobei die Werte cj , δj wegen Pϑ ∗ T = B(n, ϑ)
gem. (2.6.9) aus der B(n, ϑ0 )-Verteilung zu bestimmen sind.
Bei n = 24 unabhängigen Wiederholungen eines Experimentes mit zufälligem
Ausgang und einer unbekannten Erfolgswahrscheinlichkeit ϑ ∈ (0, 1) haben
5
sich T = 12 Erfolge eingestellt. Es ist für α = 0, 05 zwischen H : ϑ0 = 16
5
und K : ϑ 6= 16 zu unterscheiden. Aus (2.6.9) ergeben sich c1 = 3, c2 = 12,
δ1 = 0, 757 und δ2 = 0, 398.
Es erfolgt keine strikte Ablehnung von H, sondern es wird mit der Wahrscheinlichkeit 0,398 verworfen.
59
Kapitel 3
REDUKTION
STATISTISCHER
ENTSCHEIDUNGEN
3.1
Problemstellung
In den Abschnitten 2.5 und 2.6 haben wir gesehen, dass alle optimalen Lösungen der dort behandelten Testprobleme stets von der Form ϕ∗ = ψ ◦T waren,
d.h. die Werte ϕ∗ (x) optimaler Tests hingen über T (x) von der Stichprobe x
ab.
Wie wir in diesem Kapitel sehen werden, gibt es auch bei anderen statistischen Entscheidungsproblemen häufig Stichprobenfunktionen (Statistiken)
T , so dass man sich bei der Suche nach einer optimalen Lösung auf solche
Entscheidungsfunktionen beschränken kann, die nur von T abhängen. Um
also in solchen Fällen eine Entscheidung zu treffen, benötigt man also nicht
die volle Information über ϑ ∈ Θ, die in der Stichprobe x ∈ X enthalten ist,
sondern lediglich diejenige, welche durch T (x) gegeben ist.
Statistiken mit einer solchen Eigenschaft werden wir in einem noch zu präzisierenden Sinn suffizient (erschöpfend, hinreichend) nennen.
Beispiel 3.1.1. Es seien x1 , . . . , xn die Realisationen von n unabhängigen
und identisch B(1, ϑ)-verteilten Zufallsvariablen X1 , . . . , Xn mit unbekannter Erfolgswahrscheinlichkeit P (X1 = 1) = ϑ ∈ Θ := (0, 1). Wegen der
Unabhängigkeit der Einzelversuche kommt es nicht auf die Reihenfolge
der
P
Versuchsergebnisse an, sondern lediglich auf die Gesamtzahl ni=1 xi der Erfolge. Betrachten wir die zu X1 , . . . , Xn gehörige Verteilungsannahme P =
{Pϑ = B(1, ϑ)n , ϑ ∈ Θ}, so hängt
Pϑ ({x1 , . . . xn }) = ϑ
Pn
i=1
60
xi
· (1 − ϑ)n−
Pn
i=1
xi
P
nur von der Gesamtanzahl T (x1 , . . . , xn ) = ni=1 xi der Erfolge ab, so dass
anschaulich T (x) die selbe Information über den unbekannten Parameter ϑ
enthält wie die Stichprobe x = (x1 , . . . , xn ) selbst.
Pn
In diesem Fall wird man vermuten, dass T (x) =
i=1 xi eine suffiziente
Statistik ist.
Beispiel 3.1.2. Liegt eine einparametrige Exponentialfamilie P einem Experiment zugrunde, also Wahrscheinlichkeitsmaße Pϑ auf (X , B) mit µ-Dichten
der Form c(ϑ) exp(q(ϑ)T ), wobei T : X → R B, B-messbar ist, so wird man
auch hier vermuten, dass die Kenntnis über x keine bessere Information über
ϑ ∈ Θ liefert, als diejenige, die man durch T (x) gewinnt. Dadurch reduziert
sich das Entscheidungsprolem, etwa die Bestimmung optimaler Lösungen für
Testprobleme dahingehend, dass man von der i.A. n-dimensionalen Zufallsgröße X = (X1 , . . . , Xn ) zur eindimensionalen Zufallsgröße T (x) übergeht
und optimale Lösungen nur noch unter Funktionen einer Variablen zu bestimmen braucht.
Es wird sich zeigen, dass für die meisten der von uns betrachteten Klassen
von Wahrscheinlichkeitsverteilungen Statistiken T : (X , B) → (Y, G) existieren, die in dem Sinn suffizient sind, dass sie eine Reduktion statistischer
”
Entscheidungsverfahren“ im obigen Sinn ermöglichen.
Betrachten wir etwa die Verteilungsannahme P = {Pϑ = B(1, ϑ)n : ϑ ∈ Θ =
n
n
(0, 1)} aus
PnBeispiel 3.1.1 auf (X , B) = ({0, 1} , P({0, 1}) ) und die Statistik
T (x) = i=1 xi , so ist für jedes A ∈ B die bezüglich Pϑ gebildete bedingte
Wahrscheinlichkeit von A unter dem Ereignis {T = k} für k = 0, 1, . . . n
unabhängig von dem Parameter ϑ ∈ Θ:
Pϑ (A ∩ {T = k})
Pϑ ({T = k})
Pn
Pn
P
i=1 xi (1 − ϑ)n− i=1 xi
x∈A∩{T =k} ϑ
=
n
ϑk (1 − ϑ)n−k
k
P
k
n−k
x∈A∩{T =k} ϑ (1 − ϑ)
=
n
ϑk (1 − ϑ)n−k
k
|A ∩ {T = k}|
=
, k = 0, 1, . . . , n
n
Pϑ (A|{T = k}) =
k
Somit kann also bei gegebenen T = k keine zusätzliche Information über
ϑ ∈ Θ gewonnen werden, d.h. die gesamte Abhängigkeit dieses Modells P
”
von dem unbekannten Parameter ϑ ∈ Θ steckt in T (x)“.
61
Genauer gilt ∀ϑ ∈ Θ und ∀B ∈ B:
Pϑ (B) =
n
X
Pϑ (B ∩ {T = k})
k=0
=
n
X
k=0
=
n
X
Pϑ (B|{T = k}) ·Pϑ (T = k)
{z
}
|
=:h(B,k)
h(B, k) · Pϑ (T = k)
Zk=0
h(B, k) (Pϑ ∗ T )(dk),
=
{0,1,...,n}
wobei h(B, k) =
|B∩{T =k}|
(nk)
unabhängig von ϑ ist.
Damit wird für allgemeine statistische Modelle eine Präzisierung des Begriffs
Suffizienz“ nahe gelegt: T : (X , B) → (Y, G) heißt suffizient für eine Ver”
teilungsannahme P = {Pϑ : ϑ ∈ Θ}, falls für alle B ∈ B die bedingte
Wahrscheinlichkeit (bzgl. Pϑ ) von B ∈ B bei gegebenen T unabhängig von
ϑ ∈ Θ ist.
3.2
Bedingte Erwartungswerte und bedingte
Wahrscheinlichkeiten
Der folgende Satz ist etwa in Gänssler, P. und Stute, W. (1977), Wahrscheinlichkeitstheorie, Springer, Heidelberg, Satz 1.2.24, bewiesen.
Satz 3.2.1. Es sei X eine beliebige nicht-leere Menge, (Y, G) ein messbarer
Raum und T : X → Y eine beliebige Abbildung. Dann existiert zu jeder
T −1 (G) = {T −1 (G) : G ∈ G}–messbaren Abbildung f : X → R eine Gmessbare Abbildung g : Y → R, so dass f = g ◦ T .
Definition 3.2.2. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A eine subσ-Algebra von B, d.h. A ⊂ B, A ist σ-Algebra, B ∈ B und X ∈ L1 (X , B, P ).
Dann heißt
EP (X|A) := E(X|A)
Z
Z
:=
Z ∈ L1 (X , A, P ) : ∀A ∈ A :
X dP =
Z dP
A
die bedingte Erwartung von X bei gegebenen A (bzgl. P ) und
P (B|A) := EP (1B |A)
die bedingte Wahrscheinlichkeit von B bei gegebenen A.
62
A
Satz 3.2.3. Unter den Voraussetzungen von 3.2.2 gilt
(i) E(X|A) 6= ∅,
(ii) Z1 , Z2 ∈ E(X|A) ⇒ Z1 = Z2 P-f.s.,
(iii) Z1 ∈ E(X|A), Z2 : (X , A) → (R, B) mit Z1 = Z2 P-f.ü. ⇒ Z2 ∈
E(X|A)
Beweis:
(i) Es sei zunächst X ≥ 0. Dann wird durch
Z
Q(A) :=
X dP, A ∈ A,
A
ein endliches (wegen 0 ≤ EP (X) < ∞) Maß auf A definiert mit Q P . Also existiert nach demR Satz von Radon-Nikodym 2.1.3 ein Z0 ∈
L1 (X , A, P ) mit Q(A) = A Z0 dP , A ∈ A, d.h. Z0 ∈ E(X|A). Für
ein beliebiges X ∈ L1 (X , B, P ) existieren Z1 ∈ E(X + |A) und Z2 ∈
E(X − |A), wobei X + = max(0, X), X − = max(0, −X), X = X + − X − .
Dann ist Z := Z1 − Z2 ∈ E(X|A).
(ii) ∀A ∈ A:
Z
Z
Z
Z2 dP.
X dP =
Z1 dP =
A
A
A
Mit A := {Z1 > Z2 } ∈ A bzw. A0 := {Z1 < Z2 } ∈ A folgt die
Behauptung.
(iii) Folgt unmittelbar aus obiger Gleichung.
2
Lemma 3.2.4. Falls
(i) A = {X , ∅} ⇒ E(X|A) = {E(X)}
(ii) A = B ⇒ X ∈ E(X|A).
Beweis:
(i) Eine Abbildung f : X → R ist messbar bzgl. {∅, X } ⇔ f ist konstant;
also f ∈ E(X|A) ⇒ fR = const. R
⇒ E(f ) = const = X f dP = X X dP = E(X).
(ii) A = B ⇒ X ist A-messbar.
⇒ X ∈ E(X|A)
63
2
Konvention 3.2.5. Es ist üblich jedes Z ∈ E(X|A) ebenfalls als bedingte
Erwartung von X bei gegebenem A zu bezeichnen und hierfür ebenfalls das
Symbol E(X|A) (dann aufgefasst als Zufallsvariable) zu verwenden. Dasselbe
gilt für P (B|A).
Satz 3.2.6. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum und A eine subσ-Algebra von B. Sei X, Xn ∈ L1 (X , B, P ), n ∈ N, sowie a, b ∈ R. Dann
gilt:
R
R
(i) ∀A ∈ A
E(X|A)
dP
=
X dP , speziell E(X) = E(E(X|A))
A
A
(ii) X = X1 P-f.s. ⇒ E(X|A) = E(X1 |A) P-f.s.
(iii) X = a P-f.s. ⇒ E(X|A) = a P-f.s.
(iv) E(aX1 + bX2 |A) = a · E(X1 |A) + b · E(X2 |A) P-f.s.
(v) X ≥ 0 P-f.s. ⇒ E(X|A) ≥ 0 P-f.s.
(vi) X1 ≤ X2 P-f.s. ⇒ E(X1 |A) ≤ E(X2 |A) P-f.s.
(vii) Xn ↑n∈N X P-f.s. ⇒ supn∈N E(Xn |A) = E(X|A) P-f.s.
(viii) X A-messbar ⇒ X = E(X|A) P-f.s.
Beweis:
(i) Definition von E(X|A)
(ii) Setze B := {E(X1 |A) > E(X|A)} ∈ A
Z
Z
Z
Z
E(X1 |A) dP
X1 dP =
⇒
E(X|A) dP =
X dP =
B
B
B
B
Z
⇒
E(X1 |A) − E(X|A) dP = 0
{z
}
B|
>0 auf B
⇒ P (B) = 0.
Vertauschen von X1 und X liefert die Behauptung.
(iii) folgt aus (ii)
(iv) folgt aus der Linearität des Integrals
64
(v) Setze B := {E(X|A) < 0} ∈ A
Z
Z
X dP ≥ 0
E(X|A) dP =
B
B | {z }
<0 auf B
⇒ P (B) = 0.
(vi) folgt aus (iv) und (v): 0 ≤ E(X2 − X1 |A) = E(X2 |A)−E(X1 |A) P-f.s.
| {z }
≥0 P-f.s.
(vii) Aus (vi) folgt supn∈N E(Xn |A) = limn∈N E(Xn |A) P-f.s.
Z
Z
mon. Konvergenz
⇒ ∀B ∈ A :
lim E(Xn |A) dP
=
lim
E(Xn |A) dP
n∈N B
B n∈N
Z
=
lim
Xn dP
n∈N B
Z
mon. Konvergenz
=
lim Xn dP
B n∈N
Z
=
X dP, P-f.s.
B
(viii) X A-messbar ⇒ X ∈ E(X|A); 3.2.3 (ii) ⇒ X = E(X|A) P-f.s.
2
Satz 3.2.7. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A eine sub-σAlgebra von B und X ∈ L1 (X , B, P ).
Falls die σ–Algebren X −1 (B) := {X −1 (B) : B ∈ B} und A unabhängig
sind bzgl. P , d.h. P (B ∩ A) = P (B) · P (A), B ∈ X −1 (B), A ∈ A, so gilt
E(X|A) = E(X) P-f.s.
Beweis: Nach Voraussetzung sind für jedes A ∈ A die Zufallsvariablen 1A
c
und X unabhängig bzgl. P , denn 1−1
A (B) = {∅, X , A, A } ⊂ A. Also gilt für
A∈A
Z
Z
X dP = E(1A · X) = E(1A )E(X) =
E(X) dP.
A
A
Da E(X) als konstante Funktion A-messbar ist, folgt die Behauptung aus
Lemma 3.2.3 (ii).
2
Satz 3.2.8. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A1 , A2 sub-σAlgebren von B mit A1 ⊂ A2 . Dann gilt:
E(E(X|A1 )|A2 )
P-f.s.
P-f.s.
= E(X|A1 ) = E(E(X|A2 )|A1 )
65
Beweis: E(X|A1 ) ist A1 -messbar und damit auch A2 -messbar; 3.2.6 (viii)
⇒ E(E(X|A1 )|A2 ) = E(X|A1 ) P-f.s.
Es sei nun A ∈ A1 ⊂ A2 , dann:
Z
Z
Z
Def.
Def.
X dP =
E(X|A2 ) dP =
E(E(X|A2 )|A1 ) dP
A
A
A
Da dies für alle A ∈ A1 gilt, folgt aus der Gleichheit von erstem und letztem
Term
E(X|A1 ) = E(E(X|A2 )|A1 ) P-f.s.
2
Satz 3.2.9. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A eine sub-σAlgebra von B und X ∈ L1 (X , B, P ), Y : X → R A-messbar mit der Eigenschaft XY ∈ L1 (X , B, P ). Dann gilt
R
R
(i) ∀A ∈ A.
XY dP = A Y E(X|A) dP
A
(ii) E(XY |A) = Y E(X|A) P-f.s.
+
−
Beweis: O.E. sei X ≥ 0, sonst betrachte man X =
R X − X . Wir knüpfen
an den Beweis von 3.2.3 (i) an und setzen Q(A) := A X dP , A ∈ A. Dann ist
Q ein endliches Maß auf A mit Q P und besitzt eine Dichte Z0 = E(X|A)
bzgl. P . Wir erhalten somit für ein beliebiges A ∈ A
Z
Z
Z
Z
XY dP =
Y dQ =
Y Z0 dP/A =
Y E(X|A) dP.
A
A
A
A
(ii) folgt aus (i) und der Definition von E(XY |A), da Y E(X|Y ) A-messbar
ist.
2
Definition 3.2.10. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, (Y, G) ein
messbarer Raum, X ∈ L1 (X , B, P ), B ∈ B und T : (X , B) → (Y, G). Dann
heißt
(i) E(X|T ) := E(X|
T −1 (G)
| {z }
) die bedingte Erwartung von X bei
:={T −1 (G):G∈G}⊂B
gegebenem T ,
(ii) P (B|T ) := P (B|T −1 (G)) = E(1B |T −1 (G)) die bedingte Wahrscheinlichkeit von B bei gegebenem T .
Satz 3.2.1 impliziert die folgende Aussage:
66
Satz 3.2.11. Unter den Voraussetzungen von Definition 3.2.10 existiert zu
jeden E(X|T ) eine G-messbare Funktion g : Y → R mit
E(X|T ) = g ◦ T
Satz 3.2.12. Unter den Voraussetzungen von Definition 3.2.10 sind für eine
G-messbare Funktion g : Y → R die beiden folgenden Aussagen äquivalent:
(i) g ◦ T = E(X|T ) P-f.s.
(ii) g ∈ L1 (Y, G, P ∗ T ) und
Z
Z
g d(P ∗ T ) =
X dP,
G ∈ G.
T −1 (G)
G
Beweis: (i) ⇒ (ii): Für G ∈ G gilt:
Z
Z
3.2.6(i)
X dP
=
E(X|T ) dP
T −1 (G)
T −1 (G)
Z
(i)
g ◦ T dP
=
T −1 (G)
Z
=
(1T −1 (G) )(g ◦ T ) dP
Z
=
(1G ◦ T )(g ◦ T ) dP
Z
=
(1G · g) ◦ T dP
Z
=
1G · g d(P ∗ T )
Z
=
g d(P ∗ T )
G
(ii) ⇒ (i): ∀G ∈ G:
Z
Z
g ◦ T dP
(1G · g) ◦ T dP
=
T −1 (G)
Z
(1G · g) d(P ∗ T )
=
Z
g d(P ∗ T )
=
(ii)
ZG
=
X dP ;
T −1 (G)
da g ◦ T T −1 (G)-messbar ist, folgt g ◦ T = E(X|T ) P-f.s.
67
2
Definition 3.2.13. Es seien die Voraussetzungen von 3.2.10 erfüllt. Dann
heißt
EP (X|T = ·) := E(Y |T = ·)
:= {G ∈ L1 (Y, G, P ∗ T ) :
Z
Z
∀G ∈ G :
g d(P ∗ T ) =
X dP
T −1 (G)
G
= {g : (Y, G) → (R, B) : g ◦ T = E(X|T ) P-f.s.}
die bedingte Erwartung von X unter der Hypothese T = · bzw. Faktorisierung der bedingten Erwartung von X bzgl. T :
E(X|T ) = E(X|T = ·) ◦ T
Satz 3.2.14. Unter den Voraussetzungen von 3.2.10 gilt
(i) E(X|T = ·) 6= ∅,
(ii) g1 , g2 ∈ E(X|T = ·) ⇒ g1 = g2 (P ∗ T )-f.ü.
(iii) g1 ∈ E(X|T = ·) und g2 : (Y, G) → (R, B) mit g1 = g2 (P ∗ T )-f.ü.
⇒ g2 ∈ E(X|T = ·)
Beweis: Teil (i) folgt aus 3.2.3 (i) und 3.2.11.
Teil (ii): ∀G ∈ G:
Z
Z
Z
g1 d(P ∗ T ) =
X dP =
g2 d(P ∗ T ).
T −1 (G)
G
G
Mit G := {g1 > g2 } ∈ G bzw. G0 := {g1 < g2 } ∈ G folgt die Behauptung.
Teil (iii) folgt unmittelbar aus obiger Gleichung.
2
Hinsichtlich der Verwendung des Symbols E(X|T = ·) gilt das Entsprechende
wie bei der Konvention 3.2.5.
Für E(X|T = ·) gelten die zu 3.2.6 analogen Eigenschaften.
Falls T (x) = y, so schreibt man
E(X|T )(x) = (E(X|T = ·) ◦ T )(x)
= E(X|T = ·)(T (x))
| {z }
=y
= E(X|T (x) = y)
= E(X|T = y).
68
3.3
Suffiziente σ-Algebren und suffiziente Statistiken
Definition 3.3.1. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen auf (X , B). Eine sub-σ-Algebra A von B heißt suffizient für P/B,
falls
\
∀B ∈ B :
P (B|A) 6= ∅,
P ∈P
d.h. falls für jedes B ∈ B eine von P ∈ P unabhängige Version der bedingten
Wahrscheinlichkeit von B bei gegebenem A existiert.
Eine Abbildung T : (X , B) → (Y, G) heißt suffizient für P/B, falls A :=
T −1 (G) suffizient für P/B ist.
Es sei T : (X , B) → (Y, G) suffizient für P/B ⇒ ∀P ∈ P
∀B ∈ B:
Z
P (B)
=
3.2.6(i)
=
3.2.1
=:
=
=
1B dP
Z
dP
EP (1B |T )
| {z }
= P (B|T )
| {z }
unabhängig von P
gB ◦ T
Z
gB ◦ T dP
Z
gB d(P ∗ T )
Bemerkung 3.3.2. Es sei P/B = P eine Familie von Wahrscheinlichkeitsmaßen auf (X , B). Dann gilt:
(i) B ist suffizient für P/B
(ii) Jede P/B suffiziente sub-σ-Algebra A von B ist suffizient für jede Teilfamilie P0 von P.
(iii) Es sei (Y, G) ein messbarer Raum und T : X → Y eine für P/B suffiziente Statistik
⇒
∀B ∈ B ∃gB : (Y, G) → (R, B)
∀G ∈ G ∀P ∈ P : P (B ∩ T
−1
Z
gB d(P ∗ T )
(G)) =
G
69
(iv) Es sei Y eine beliebige Menge T : X → Y eine beliebige Abbildung ⇒
GT := {G ⊂ Y : T −1 (G) ∈ B} ist eine σ-Algebra auf Y und T ist B, GT messbar. Man nennt T suffizient für P/B, wenn T −1 (GT ) suffizient für
P/B ist.
(v) Ist P = {Pϑ : ϑ ∈ Θ} eine parametrische Familie von Wahrscheinlichkeitsmaßen auf (X , B), so nennt man A bzw. T suffizient für ϑ ∈ Θ,
wenn A bzw. T suffizient für P/B ist.
Beweis:
(i) folgt aus 1B ∈
T
P ∈P
B∈B
P (B|B),
| {z }
EP (1B |B)
(ii) ist trivial
(iii) Für beliebiges B ∈ B sei hB ∈
T
P ∈P
P (B|T −1 (G)) mit 3.2.1 folgt
∃gB : (Y, G) → (R, B) : hB = gB ◦ T
⇒ ∀G ∈ G ∀P ∈ P :
P (B ∩ T
−1
Z
(G)) =
1B∩T −1 (G) dP
Z
1B · 1T −1 (G) dP
=
Z
=
1B dP
T −1 (G)
Z
=
hB dP
T −1 (G)
Z
gB ◦ T dP
=
T −1 (G)
Z
(gB ◦ T ) · 1T −1 (G) dP
=
Z
(gB ◦ T ) · (1G ◦ T ) dP
=
Z
gB · 1G d(P ∗ T )
=
Z
gB d(P ∗ T ).
=
G
2
70
Beispiel 3.3.3. Es sei G eine Gruppe endlicher Ordnung von bijektiven
B, B-messbaren Abbildungen, und
g : X → X , A := {B ∈ B : ∀g ∈ G : g(B) = B}
die σ-Algebra der G-invarianten Mengen in B und P = P/B die Familie aller
G-invarianten Wahrscheinlichkeitsmaße P auf (X , B), d.h. P ∗ g = P , g ∈ G.
Dann gilt
1 X
(1B ◦ g) ∈ P (B|A), B ∈ B, P ∈ P,
(3.3.4)
hB :=
|G| g∈G
d.h. A ist suffizient für P/B.
Beweis: Da für ein beliebiges aber festes g 0 ∈ G mit g auch g ◦ g 0 die ganze
Gruppe G durchläuft, gilt
∀g ∈ G : hB ◦ g −1 = hB
und damit folgt
−1 −1
g(h−1
B (A)) = (hB ◦ g ) (A)
= h−1
B (A) , A ∈ A, B ∈ B.
d.h. hB ist A-messbar.
Für B ∈ B gilt
Z
P (B ∩ A) =
hB dP,
A ∈ A, P ∈ P.
A
Denn aus 1A = 1A ◦ g, A ∈ A, g ∈ G folgt:
Z
XZ
1B ◦ g dP
|G| ·
hB dP =
A
A
g∈G
=
XZ
=
XZ
X
=
X
1B · 1A d(P ∗ g)
X
g∈G
=
(1B ◦ g)(1A ◦ g) dP
X
g∈G
(P ∗ g)(B ∩ A)
g∈G
P (B ∩ A)
g∈G
= |G| · P (B ∩ A)
2
Zwei Spezialfälle:
71
(i) Es sei (X , B) = (Rn , Bn ) und G die Gruppe der Ordnung n! derjenigen
Abbildungen g : Rn → Rn , die den Permutationen der n Koordinaten entsprechen. Dann ist A die σ-Algebra derjenigen Borelmengen des
Rn , die mit x ∈ Rn auch alle Punkte enthalten, die aus x durch Permutation der Koordinaten hervorgeht. Es sei P die Gesamtheit aller
Wahrscheinlichkeitsmaße auf (Rn , Bn ) und P0 := {P n : P ∈ P}. Dann
besteht P0 aus G-invarianten Wahrscheinlichkeitsmaßen
auf (Rn , Bn )
Qn
n
n
[denn (P ∗ g)(B1 × · · · × Bn ) = i=1 P (Bi ) = P (B1 × · · · × Bn ),
Bi ∈ B, i = 1, . . . , n; g ∈ G ⇒ P n ∗ g = P ]. Somit ist A nach 3.3.3
suffizient für P0 .
(ii) Es sei (X , B) = (R, B) und G := {idR , −idR } die Spieglungsgruppe
(am Nullpunkt). Dann ist A die Gesamtheit aller um 0 symmetrischen
Borel-Mengen von R, d.h. A = {B ∈ B : B = −B = {−x, x ∈ B}}. A
ist suffizient für die Familie aller um 0 symmetrischen Wahrscheinlichkeitsmaße auf (R, B), d.h. P (B) = P (−B), B ∈ B.
Da A = T −1 (B) mit T (x) := |x|, x ∈ R, ist also T suffizent für die
Familie aller um 0 symmetrischen Wahrscheinlichkeitsmaße auf (R, B).
Lemma 3.3.5. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen
auf (X , B). Eine sub-σ-Algebra A von B ist genau dann suffizient für P/B,
falls
\
\
EP (f |A) 6= ∅
L1 (X , B, P ) :
∀f ∈
P ∈P
P ∈P
T
T
Beweis: T⇒“: Für f = 1B , B ∈ B ist P ∈P EP (1B |A) = P ∈P P (B|A) 6= ∅.
”
Für f ∈ P ∈P L1 (X , B, P ) folgt die Behauptung durch
Pn algebraische Induktion (d.h. die Behauptung gilt für f = 1B ⇒ f = i=1 αi 1Bi =: e einfache
Funktion ⇒ f = limn→∞ en mit e1 ≤ e2 ≤ . . . ⇒ f = f + − f − ) unter Verwendung von 3.2.6
⇐“: Offensichtlich
2
”
Satz 3.3.6. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen
auf (X , B). Sind dann A0 , A1 sub-σ-Algebren auf B mit A0 ⊂ A1 (⊂ B), so
gilt:
(i) Falls A0 suffizient ist für P/B ⇒ A0 ist suffizient für P/A1
(ii) Falls A0 suffizient ist für P/A1 und A1 ist suffizient für P/B ⇒ A0
ist suffizient für P/B.
Beweis:
72
(i) ist offensichtlich
T
T
(ii) Sei B ∈ B und h1B ∈ P ∈P P (B|A1 ) . Da h1B ∈ P ∈P L1 (X , A1 , P )
und da
T A0 suffizient ist für P/A1 folgt nach 3.3.5 die Existenz von
hB ∈ P ∈P EP (h1B |A0 ). Nach 3.2.8 gilt für alle P ∈ P
EP (h1B |A0 ) = EP (EP (1B |A1 )|A0 ) = EP (1B |A0 ) = P (B|A0 ) P-f.s.
T
also hB ∈ P ∈P P (B|A0 ).
2
Definition 3.3.7. Für eine Familie von Wahrscheinlichkeitsmaßen auf (X , B)
sei
(
)
X
X
P L :=
ck Pk : ck ≥ 0, Pk ∈ P, k ∈ N,
ck = 1 .
k∈N
k∈N
Beachte dass P ⊂ P L und dass die Elemente von P L Wahrscheinlichkeitsmaße auf (X , B) sind.
Satz 3.3.8. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen
auf (X , B) und A eine sub-σ-Algebra von B. Dann gilt:
T
T
T
(i) ∀f ∈ P ∈P L1 (X , B, P ), f ≥ 0: P ∈P EP (f |A) = P ∈P L EP (f |A)
(ii) Ist A suffizient für P/B, so auch für P L /B.
Beweis:
T
(i) Wegen P ⊂ P L gilt ⊃“. Ist andererseits f0 ∈ P ∈P EP (f |A), so folgt
”
∀A ∈ A und ∀P ∈ P L :
!
Z
Z
X
f0 dP =
f0 d
c k Pk
A
A
=
X
Z k∈N
ck ·
f0 dPk
A
k∈N
=
X
Z
ck ·
k∈N
Z
=
f dP,
A
d.h. f0 ∈
T
P ∈P L
EP (f |A).
(ii) ist eine unmittelbare Folgerung aus (i).
73
f dPk
A
2
Lemma 3.3.9. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen
auf (X , B) und A eine sub-σ-Algebra von B. Dann gilt:
(i) Ist A suffizient für P/B, so gilt für jedes P ∈ P und jedes P̂ ∈ P L mit
P/B P̂ /B:
dP/A
dP/B
⊂
dP̂ /A
dP̂ /B
d.h. ∀P ∈ P ∃A-meßbare Dichte von P/B bzgl. P̂ /B.
(ii) Falls ein P̂ ∈ P L mit P/B P̂ /B existiert und falls ∀P ∈ P gilt
dP/A
dP̂ /A
⊂
dP/B
dP̂ /B
so gilt ∀B ∈ B
P̂ (B|A) ⊂
\
P (B|A).
P ∈P
Insbesondere ist dann A suffizient für P/B.
Beweis:
(i) A
T ist nach Voraussetzung suffizient fürTP/B ⇒ ∀B ∈ B ∃ hB ∈
P ∈P L P (B|A).
P ∈P P (B|A); Nach 3.3.8 (i) folgt hB ∈
L
Es seien nun P ∈ P und P̂ ∈ P mit P/B P̂ /B beliebig vorgegeben
und es sei fˆ ∈ ddP/A
. Dann gilt ∀B ∈ B:
P̂ /A
Z
P (B)
=
hB dP
hB
ist
A
messbar
Z
=
hB dP/A
X
Z
ˆ
hB · fˆ dP̂
hB · f dP̂ /A =
ZX
Z X
1B · fˆ dP̂ =
fˆ dP̂
ZX
=
3.2.9(i)
=
X
d.h. fˆ ∈
B
dP/B
dP̂ /B
(ii) Es sei B ∈ B und P ∈ P. Ferner sei p ∈
74
dP/B
dP̂ /B
A-meßbar und fB ∈
P̂ (B|A). Dann gilt ∀A ∈ A:
Z
fB dP
Z
=
A
3.2.9(i)
fB p dP̂
ZA
=
1B p dP̂
ZA
=
p dP̂
A∩B
=
=
P (A ∩ B)
Z
1B dP
A
d.h. fB ∈ P (B|A). Da B ∈ B und P ∈ P beliebig waren, folgt die
Behauptung.
2
Satz 3.3.10 (Faktorisierungssatz von Halmos-Savage, Neyman-Kriterium).
Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen
auf (X , B), welche durch ein σ-endliches Maß µ/B dominiert wird. Dann gilt:
(i) Eine sub-σ-Algebra A von B ist suffizient für P/B:⇔
∃h : (X , B) → (R+ , B ∩ R+ ) und ∀ϑ ∈ Θ
dPϑ /B
∃fϑ : (X , A) → (R+ , B ∩ R+ ) : fϑ · h ∈
dµ/B
(3.3.11)
(ii) Eine Statistik T : (X , B) → (Y, G) ist suffizient für P/B :⇔
∃h : (X , B) → (R+ , B ∩ R+ ) und ∀ϑ ∈ Θ
∃gϑ : (Y, G) → (R+ , B ∩ R+ ) : (gϑ ◦ T ) · h ∈
(3.3.12)
dPϑ /B
dµ/B
Beweis:
L
(i) ⇒“ A sei suffizient für P/B. Mit 2.1.13
31 folgt: ⇒ ∃P̂ ∈ P
P auf−kSeite
”
mit P/B P̂ /B. Da auch P̂ /B = k∈N 2 Pk µ/B, existiert also
ein 0 ≤ h ∈
dP̂ /B
dµ/B
(Satz von Radon-Nikodym).
3.3.9 (i) ⇒ ∀ϑ ∈ Θ ∃fϑ ∈
dPϑ /B
,
dP̂ /B
fϑ A-messbar ⇒ fϑ · h ∈
Z
Pϑ (B) =
Z
fϑ · h dµ.
fϑ dP̂ =
B
B
75
dPϑ /B
,
dµ/B
denn:
⇐“ Gilt umgekehrt (3.3.11), so wird durch die Festlegung
”
Z
µ0 (B) :=
h dµ
B
ein Maß µ0 /B definiert und es gilt ∀B ∈ B; ∀ϑ ∈ Θ:
Z
Z
Pϑ (B) =
fϑ · h dµ =
fϑ dµ0 ,
B
d.h. fϑ ∈
∀B ∈ B :
dPϑ /B
,
dµ0 /B
B
ϑ ∈ Θ. Mit 2.1.13 folgt: ∃P̂ ∈ P L mit P/B P̂ /B ⇒
P̂ (B) =
X
=
X
2−k Pϑk (B)
k∈N
−k
Z
B
Z X
=
fϑk dµ0
2
k∈N
2−k fϑk dµ0
B k∈N
Z
=
ĥ dµ0
B
P
dP̂ /B
wobei ĥ := k∈N 2−k fϑk ∈ dµ
und h ist A-messbar, als Linearkom0 /B
bination A-messbarer fϑ . Wegen
Z
P̂ (ĥ = 0) =
ĥ dµ0 = 0
{ĥ=0}
folgt Pϑ (ĥ = 0) = 0, ϑ ∈ Θ (wegen P P̂ ). Setzen wir nun
pϑ :=
fϑ
so ist pϑ A-messbar und pϑ ∈
ĥ
· 1{ĥ>0} , ϑ ∈ Θ,
dPϑ /B
,
dP̂ /B
denn es gilt ∀B ∈ B:
Pϑ (B) = Pϑ (B ∩ {ĥ > 0}) + Pϑ (B ∩ {ĥ = 0})
|
{z
}
=0
Z
=
1{ĥ>0} fϑ dµ0
B
Z
=
ĥ · pϑ dµ0
B
Z
=
pϑ dP̂ .
B
3.3.9 (ii) ⇒ Behauptung.
76
(ii) folgt aus (i) mit A = T −1 (G) und Satz 3.2.1.
2
Beispiel 3.3.13. (i) Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine k-parametrige
Exponentialfamilie auf (X , B). (2.4.2) und Bemerkung 2.4.4 ⇒ bzgl.
eines geeignet gewählten σ-endlichen Maßes µ/B existieren µ-Dichten
von Pϑ , ϑ ∈ Θ, der Form
!
k
X
c(ϑ) · exp
qi (ϑ) · Ti (x)
i=1
mit B-meßbaren Ti : X → R, i = 1, . . . , k. Damit folgt gemäß (3.3.12)
mit
!
k
X
gϑ (y1 , . . . , yk ) := c(ϑ) · exp
qi (ϑ) · yi , h ≡ 1,
i=1
dass die durch T (x) := (T1 (x), . . . , Tk (x)) definierte Abbildung von
(X , B) → (Rk , Bk ) eine für P/B suffiziente Statistik ist.
(ii) Es sei P = P/Bn = {Pϑ : N (µ, σ 2 )n : ϑ = (µ, σ 2 ) ∈ Θ = R × (0, ∞)}.
Aus 2.4.3, folgt, dass die durch
!
n
n
X
X
T (x1 , . . . , xn ) :=
x2i ,
xi
i=1
i=1
definierte Abbildung von (Rn , Bn ) → (R2 , B2 ) eine für P/Bn suffiziente
Statistik ist.
(iii) Es sei P = P/P({0, 1}n ) = {Pϑ = B(1, ϑ)n : ϑ ∈ Θ = (0, 1)}. Dann ist
P eine einparametrige Exponentialfamilie in
T (x1 , . . . , xn ) =
n
X
xi .
i=1
Also ist die Abbildung T : ({0, 1}n , P({0, 1}n )) → (R, B) eine für P
suffiziente Statistik, vgl. 3.1.1.
77
3.4
Einige Anwendungen in der Statistik
Satz 3.4.1 (Rao-Blackwell). Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) und T : (X , B) → (Y, G)
eine suffiziente Statistik für ϑ ∈ Θ. Dann gibt es zu jeder erwartungstreuen
Schätzfunktion g eines reellen Parameters κ(ϑ) eine erwartungstreue Schätzfunktion h für κ(ϑ), nämlich
\
h∈
Eϑ (g|T )
ϑ∈Θ
mit gleichmäßig nicht größerer Varianz, d.h.
∀ϑ ∈ Θ : Eϑ ((h − κ(ϑ)2 )) ≤ Eϑ ((g − κ(ϑ))2 ).
(3.4.2)
Ist Eϑ ((g − κ(ϑ))2 ) < ∞, so gilt:
Eϑ ((h − κ(ϑ)2 )) = Eϑ ((g − κ(ϑ))2 ) ⇔ g = h
Pϑ -f.ü.
(3.4.3)
T
Beweis: Aus Lemma 3.3.5 folgt: ∃ h ∈ ϑ∈Θ Eϑ (g|T ). Mit 3.2.6 (i) ergibt
sich:
∀ϑ ∈ Θ : Eϑ (h) = Eϑ (Eϑ (g|T )) = Eϑ (g) = κ(ϑ),
d.h. h ist erwartungstreu für κ(ϑ).
Zum Beweis von (3.4.2) können wir o.E. annehmen, dass Eϑ ((g − κ(ϑ))2 ) <
∞. Dann gilt:
Eϑ ((g − κ(ϑ))2 ) = Eϑ (((g − h) + (h − κ(ϑ)))2 )
= Eϑ ((g − h)2 ) + Eϑ ((h − κ(ϑ))2 )
≥ Eϑ ((h − κ(ϑ))2 ),
da das beim Ausquadrieren auftretende gemischte Produkt verschwindet:
Eϑ (h · (h − κ(ϑ)))
Eϑ (Eϑ (g|T ) · (h − κ(ϑ)))
Eϑ (Eϑ (g · (h − κ(ϑ))|T ))
=
=
3.2.6(i)
=
Eϑ (g · (h − κ(ϑ))).
Ferner gilt nun
Eϑ ((h − κ(ϑ)2 )) = Eϑ ((g − κ(ϑ))2 ) ⇔ g = h Pϑ -f.ü.
2
Durch Bildung der bedingten Erwartung bei gegebener suffizienter Statistik
T kann man also aus einer erwartungstreuen Schätzfunktion g mit Varϑ (g) <
∞, ϑ ∈ Θ, eine bessere gewinnen, falls nicht bereits (3.4.3) erfüllt ist.
78
Durch abermalige Bildung der bedingten Erwartung bzgl. derselben suffizienten Statistik T erreicht man jedoch keine weitere Verbesserung, denn
∀ϑ ∈ Θ:
Eϑ (h|T ) = Eϑ (Eϑ (g|T )|T ) = Eϑ (g|T ) = h Pϑ -f.ü.
Satz 3.4.4. Es sei P = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) und T : (X , B) → (Y, G) eine für P/B suffiziente Statistik.
Dann gibt es zu jedem Test ϕ einen nur von T abhängigen Test ψ ◦ T , mit
ψ : Y → [0, 1] G-messbar, mit derselben Gütefunktion.
T
Beweis: Sei ϕ ∈ Φ. Aus Lemma 3.2.5 folgt: ∃ h ∈ ϑ∈Θ Eϑ (ϕ(T )). Mit Satz
3.2.1 ergibt sich:
∃ ψ : (Y, G) → (R, B) : h = ψ ◦ T.
Da ∀ϑ ∈ Θ : 0 ≤ ψ ◦ T ≤ 1 Pϑ -f.ü. (da ϕ ∈ [0, 1]), kann ψ so festgelegt
werden, dass 0 ≤ ψ ≤ 1 gilt: ψ 0 := ψ · 1{0≤ψ≤1} . Dann ist ψ 0 G-messbar,
0 ≤ ψ 0 ≤ 1 und ψ = ψ 0 Pϑ ∗ T -f.ü.. Sei ϑ ∈ Θ :
Eϑ (ψ ◦ T ) = Eϑ (h) = Eϑ (Eϑ (ϕ|T ))
3.2.6(i)
=
Eϑ (ϕ).
2
3.5
Vollständigkeit
Im Zusammenhang mit dem Satz von Rao-Blackwell stellt sich die Frage,
ob die mit Hilfe dieses Satzes gewonnene erwartungstreue Schätzfunktion
bereits eine gleichmäßig kleinste Varianz besitzt (UMVU-Schätzer: uniformly minimum variance unbiased extimator). Um hierfür eine einfache hinreichende Bedingung angeben zu können, wird der Begriff der Vollständigkeit
eingeführt.
Definition 3.5.1. P = P/B = {Pϑ : ϑ ∈ Θ} sei eine Familie von Wahrscheinlichkeitsmaßen auf (X , B).
(i) P/B heißt vollständig :⇔ ∀f : (X , B) → (R, B), Eϑ (f ) = 0, ∀ϑ ∈ Θ ⇒
∀ ϑ ∈ Θ : f = 0 Pϑ -f.ü.
(ii) T : (X , B) → (Y, G) ist vollständig für ϑ ∈ Θ :⇔ P/T −1 (G) ist
vollständig.
79
Nach 3.2.1 ist T : (X ,RB) → (Y, G) genau dann vollständig für ϑ ∈ Θ, wenn:
∀f : (Y, G) → (R, B), Y f d(Pϑ ∗T ) = 0 , ϑ ∈ Θ, ⇒ f = 0 Pϑ ∗T -f.ü., ϑ ∈
Θ.
⇔ [∀ϑ ∈ Θ Eϑ (f (T )) = 0, f : (Y, G) → (R, B) ⇒ f ◦ T = 0 Pϑ -f.ü.]
Die Bedeutung der Vollständigkeit“ beruht vor allem auf dem folgenden
”
Satz.
Satz 3.5.2 (Lehmann-Scheffé). Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine
Familie von Wahrscheinlichkeitsmaßen auf (X , B). Ferner sei die Statistik
T : (X , B) → (Y, G) suffizient und vollständig für ϑ ∈ Θ. Dann gilt: Falls
es überhaupt eine erwartungstreue Schätzfunktion g für den reellen Parameter κ(ϑ) gibt, so existiert auch eine solche erwartungstreue Schätzfunktion Tmit Minimalvarianz. Diese optimale Schätzfunktion ist gegeben durch
h ∈ ϑ∈Θ Eϑ (g|T ).
Beweis: Sei g eine erwartungstreue Schätzfunktion für κ(ϑ). Nach 3.3.5
existiert
\
h∈
Eϑ (g|T )
ϑ∈Θ
mit h erwartungstreu für κ(ϑ) (siehe Beweis zu 3.4.1). Dieses h besitzt Minimalvarianz: Angenommen dies wäre nicht der Fall ⇒ ∃ g1 erwartungstreue
Schätzfunktion
für κ(ϑ) und ∃ ϑ1 ∈ Θ: Varϑ1 (g1 ) < Varϑ1 (h). 3.4.1 ⇒ für
T
h1 ∈ ϑ∈Θ Eϑ (g1 |T ): Varϑ1 (h1 ) ≤ Varϑ1 (g1 ) < Varϑ1 (h). Da h und h1 T −1 (G)messbar sind und Eϑ (h) = Eϑ (h1 ) (= κ(ϑ)), ϑ ∈ Θ, ⇒ Eϑ (h−h1 ) = 0, ϑ ∈ Θ
Vollständigkeit
⇒
h − h1 = 0 Pϑ -f.ü. bzw. h = h1 Pϑ -f.ü. ⇒ Varϑ1 (h) =
Varϑ1 (h1 ), Widerspruch. Mit diesem Widerspruch ist der Satz bewiesen. 2
n
Beispiel 3.5.3. Es sei P = P/P({0,
) := {Pϑ = B(1, ϑ)n : ϑ ∈ Θ =
P1}
n
n
(0, 1)}. Dann ist T (x1 , . . . , xn ) :=
i=1 xi , (x1 , . . . , xn ) ∈ X = {0, 1} ,
80
vollständig für ϑ ∈ Θ: Sei f ∈ (R, B) → (R, B) mit der Eigenschaft:
0 = Eϑ (f ◦ T )
Z
f ◦ T dB(1, ϑ)n
=
ZX
=
f d(B(1, ϑ)n ∗ T )
Z{0,1,...,n}
=
f dB(n, ϑ)
=
{0,1,...,n}
n
X
f (i)B(n, ϑ)({i})
i=0
n
X
n i
=
f (i)
ϑ (1 − ϑ)n−i
i
i=0
i
n
X
n
ϑ
n
f (i)
,
= (1 − ϑ)
i
1−ϑ
i=0
also

i
k
X

n 
 ϑ  = 0,
f (i)
i |1 {z
− ϑ}
i=1
ϑ∈Θ
ϑ∈Θ
=:z
n
i
i
d.h. das Polynom p(z) := f (i) z , z ∈ R, hat mehr als n Nullstellen ⇒
p(z) = 0, z ∈ R. Aus dem Identitätssatz für Polynome folgt f (i) = 0,
i = 0, 1, . . . , n, d.h. f = 0 B(n, ϑ)-f.ü., ϑ ∈ Θ. Außerdem ist T suffizient für
ϑ ∈ Θ nach 3.3.13(iii).
Da g(x1 , . . . xn ) := x̄ = n1 T (x1 , . . . , xn ) ein erwartungstreuer
Schätzer für
T
κ(ϑ) = ϑ ist, der nur von T abhängt, also g ∈ ϑ∈Θ Eϑ (g|T ) folgt aus 3.5.2,
dass g ein UMVU-Schätzer für κ(ϑ)
Pn = ϑ ist. 2
P
1
1
Ferner ist h(x1 , . . . , xn ) := n−1 i=1 (xi − x̄) = n−1
( ni=1 x2i − n x̄2 ) ein
erwartungstreuer Schätzer für κ(ϑ) = ϑ · (1 − ϑ). DaTx2i = xi (∈ {0, 1}),
1
hängt h = n−1
T − n1 T 2 nur von T ab, also h ∈ ϑ∈Θ Eϑ (h|T ). Somit
ist h aufgrund von 3.5.2 ein erwartungstreuer Schätzer für ϑ(1 − ϑ) mit
Minimalvarianz.
Hingegen ist für n > 1 die Familie P/P({0, 1}n ) nicht vollständig: Bezeichnet πi i = 1, 2 die Projektion von {0, 1}n auf die i-te Komponente , d.h.
81
πi (x1 , . . . , xn ) = xi , i = 1, 2, so gilt für beliebiges ϑ ∈ Θ = (0, 1):
Z
Z
Z
π1 − π2 dPϑ =
π1 dPϑ − π2 dPϑ
Z
=
π1 (x1 , . . . , xn )(B(1, ϑ)n d(x1 , . . . , xn ))
n
{0,1}
Z
−
π2 (x1 , . . . , xn )(B(1, ϑ)n d(x1 , . . . , xn ))
n
{0,1}
Z
=
x1 (B(1, ϑ)n ∗ π1 ) dx1
{0,1}
Z
−
x2 (B(1, ϑ)n ∗ π2 ) dx1
{0,1}
Z
Z
=
x1 B(1, ϑ)(dx1 ) −
x2 B(1, ϑ)(dx2 )
{0,1}
{0,1}
= ϑ − ϑ = 0.
Es gilt jedoch nicht π1 = π2
Pϑ -f.ü.
Die Bedeutung des Satzes von Lehmann-Scheffé liegt darin, dass man für
die wichtigsten Klassen von Wahrscheinlichkeitsverteilungen vollständige und
suffiziente Statistiken angeben kann.
Satz 3.5.4. P = P/B = {Pϑ : ϑ ∈ Θ} sei eine k-parametrige Exponentiafamilie derart, dass der zugehörige natürliche Parameterraum Θ̃ ⊂ Rk wenigstens einen inneren Punkt besitzt. Dann ist die k–dimensionale Statistik
T = (T1 , . . . , Tk ) suffizient und vollständig für ϑ ∈ Θ.
Beweis: Witting, H (1985): Mathematische Statistik, Teubner, Satz 3.39.
2
Beispiel 3.5.5. Sei P = P/Bn = {Pϑ = N (µ, P
σ 2 )n : ϑ P
= (µ, σ 2 ) ⊂ Θ =
n
R × (0, ∞)}. Nach 3.3.13(ii) ist T (x1 , . . . , xn ) = ( i=1 x2i , ni=1 xi ) suffizient
für ϑ ∈ Θ (n ≥ 2).
3.5.4 ⇒ T ist auch vollständig
Pnfür ϑ ∈ Θ. 2Folglich sind g(x1 , . . . , xn ) := x̄ bzw.
−1
h(x1 , . . . , xn ) := (n − 1)
i=1 (xi − x̄) erwartungstreue Schätzfunktionen
für κ(ϑ) = µ bzw. κ(ϑ) = σ 2 , d.h. nur von T abhängen, aufgrund von 3.5.2
also solche mit Minimalvarianz.
Lemma 3.5.6. P1 , P2 seien zwei Familien von Wahrscheinlichkeitsmaßen
auf (X , B) mit P1 ⊂ P2 ist P1 /B vollständig und es gilt P2 /B P1 /B (d.h.
∀F ∈ B : [∀P1 ∈ P1 : P1 (F ) = 0 ⇒ ∀P ∈ P2 : P (F ) = 0]), so ist auch P2
vollständig.
82
R
R
Beweis: Es sei g : (X , B) → (R, B) mit g dP = 0 für P ∈ P2 ⇒ g dP = 0
für P ∈ P1 ⇒ g = 0 P -f.ü., P ∈ P1 ⇒ ∀ P ∈ P1 : P ({g 6= 0}) = 0 ⇒
∀ P ∈ P2 : P ({g 6= 0}) = 0, d.h. g = 0 P -f.ü., P ∈ P2 .
2
Definition 3.5.7. Es sei µ ein beliebiges Maß auf (X , B) und C ∈ B mit
0 < µ(C) < ∞. Dann heißt das Wahrscheinlichkeitsmaß
Z
µ(B ∩ C)
1
, B∈B
1C dµ =
PC (B) :=
µ(C) B
µ(C)
µ-Gleichverteilung auf C.
Satz 3.5.8. Sei µ ein σ–endliches Maß auf (X , B), dann ist die Familie
P = P/B = {PC : C ∈ B mit 0 < µ(C) < ∞} aller µ–Gleichverteilungen
vollständig.
R
R
1
g · 1C dµ = g dPC = 0, PC ∈
Beweis: Sei g : (X , B) → (R, B) mit µ(C)
R
P. Dann gilt C g dµ = 0, C ∈ B mit 0 < µ(C)S< ∞. Hieraus folgt wegen der
σ-Endlichkeit von µ, dass g = 0 µ-f.ü.: X = n∈NRXn , Xn ∈ B, µ(Xn ) < ∞
n ∈ N und X1 , X2 , . . . sind paarweise disjunkt; C∩Xn g dµ = 0, C ∈ B,
n ∈ N,
[
C=
(C ∩ Xn ) ⇒ g = 0 µ-f.ü.
n∈N
mit C1 := {g > 0} und C2 := {g < 0} folgt g = 0 PC -f.ü., PC ∈ P, da
PC µ.
2
Satz 3.5.9. Sei µ ein σ-endliches Maß auf (X , B). Dann ist die Familie
aller Wahrscheinlichkeitsmaße auf (X , B), die absolut stetig sind bzgl. µ,
vollständig.
Beweis: Wegen P1 /B := {PC : C ∈ B mit 0 < µ(C) < ∞} ⊂ P/B genügt
es wegen 3.5.6 und 3.5.8 zu zeigen, dass P/B P1 /B. Dazu sei B0 ∈ B
mit PC (B0 ) = 0 für alle PC ∈ P1 . Angenommen ∃P0S
∈ P mit P0 (B0 ) > 0 ⇒
µ(B0 ) > 0 und wegen der σ-Endlichkeit von µ (B0 = n∈N (Xn ∩B0 )) existiert
C0 = Xn0 ∩ B0 mit 0 < µ(C0 ) < ∞ ⇒ PC0 (B0 ) = µ(B0 ∩ C0 )/µ(C0 ) = 1, im
Widerspruch zu PC0 (B0 ) = 0.
2
83
3.6
Die Ungleichung von Cramér-Rao und
die Fisher-Information
In diesem Abschnitt sei P = {Pϑ : ϑ ∈ Θ} und Θ ⊂ R. Ist T : (X , B) →
(R, B) eine erwartungstreue Schätzfunktion für κ(ϑ), so ist die Varϑ (T ) ein
Gütemaß für den Schätzer T . Wir werden unter gewissen Regulatitätsvoraussetzungen eine nur von ϑ abhängige untere Schranke für Varϑ (T ) herleiten.
Liegt dann Varϑ (T ) in der Nähe dieser unteren Schranke, so ist dies eine
Aussage über die Güte von T .
Regularitätsvoraussetzungen 3.6.1. Wir fordern an P, T und x:
(i) Es existiere ein geeignetes σ-endliches Maß µ/B und Dichten pϑ ∈
dPϑ /dµ mit pϑ (x) > 0, ϑ ∈ Θ, x ∈ X .
(ii) Θ ⊂ R sei offen und die Abbildung Θ 3 ϑ 7→ pϑ (x) sei stetig differenzierbar, x ∈ X
∂
log(pϑ ) < ∞, ϑ ∈ Θ
(iii) 0 < Varϑ ∂ϑ
∂
(iv) E ∂ϑ
log(pϑ ) = 0, ϑ ∈ Θ
(v) T sei eine erwartungstreue Schätzfunktion für κ. Dabei sei κ differenzierbar und es gelte
Z
∂
∂
0
κ(ϑ) = T (x)
log(pϑ (x)) Pϑ (dx)
κ (ϑ) =
∂ϑ
∂ϑ
Motivation von Bedingung (v):
Z
0
0
κ (ϑ) =
T (x) Pϑ (dx)
0
Z
=
T (x)pϑ (x) µ(dx)
Z
!
=
T (x)p0ϑ (x) µ(dx)
Z
p0 (x)
=
T (x) ϑ
pϑ (x) µ(dx)
pϑ (x)
Z
∂
=
T (x)
log(pϑ (x)) Pϑ (dx).
∂ϑ
84
Satz 3.6.2 (Ungleichung von Cramér und Rao). Unter den Regularitätsbedingungen 3.6.1 gilt
Varϑ (T ) ≥
(κ0 (ϑ))2
,
I(ϑ)
ϑ ∈ Θ.
(3.6.3)
Dabei ist
I(ϑ) = Eϑ
2 !
∂
log(pϑ )
,
∂ϑ
ϑ ∈ Θ,
die Fisher-Informationsfunktion.
Beweis: Setze lϑ :=
∂
∂ϑ
log(pϑ ). Gemäß 3.6.1 gilt dann
(iv)
(v)
Eϑ ((T − κ(ϑ)) lϑ ) = Eϑ (T lϑ ) = κ0 (ϑ).
Es folgt aus der Cauchy-Schwarz-Ungleichung
(κ0 (ϑ))2 = (Eϑ ((T − κ(ϑ)) · lϑ ))2
≤ Eϑ ((T − κ(ϑ))2 ) · Eϑ (lϑ2 )
= Varϑ (T ) · I(ϑ)
2
Beispiel 3.6.4. Sei X = (N ∪ {0})n , B = P(X ) und P = {Pϑn : ϑ ∈ (0, ∞)},
wobei Pϑ die Poisson-Verteilung zum Parameter ϑ > 0 bezeichne, d.h.
ϑk
, k = 0, 1, 2 . . . .
k!
P
Setze S(x) = ni=1 xi , x = (x1 , . . . , xn ) ∈ X . Dann ist
Pϑ ({k}) = e−ϑ
∂
log(pϑ )
∂ϑ
!
n
n
X
X
∂
=
−nϑ +
xi · log ϑ −
log(xi !)
∂ϑ
i=1
i=1
lϑ =
1
= −n + S(x) · .
ϑ
Da T1 (x) := S(x)/n eine erwartungstreue Schätzfunktion von ϑ ist, folgt
wegen lϑ = nϑ (T1 − ϑ):
2 n
I(ϑ) = Eϑ
(T1 − ϑ)
ϑ
n2
Eϑ ((T1 − ϑ)2 )
=
ϑ2 Z
n2
=
(x1 − ϑ)2 Pϑ (dx)
ϑ2
ϑ
=
.
n
85
Also gilt mit κ(ϑ) = ϑ:
n
ϑ
(κ0 (ϑ))2
≥
I(ϑ)
2
1
= n
Varϑ (T1 ) =
ϑ
n
=
ϑ
d.h. T1 nimmt die Cramér-Rao-Schranke an, ist also ein erwartungstreuer
Schätzer mit Minimalvarianz.
S
Ferner ist T2 := 1 − n1 eine erwartungstreue Schätzung für κ(ϑ) := e−ϑ .
Da S suffizient und vollständig ist, ist T2 nach der Ungleichung von LehmannScheffé eine Schätzung für κ(ϑ) mit Minimalvarianz.
Da
Varϑ (T2 ) = e−2ϑ · eϑ/n − 1
und die Cramér-Rao-Schranke gleich
(κ0 (ϑ))2 /I(ϑ) =
ϑ −2ϑ
·e
n
ist, wird letztere also von keiner für κ(ϑ) erwartungstreuen Schätzung angenommen bzw. erreicht.
Bemerkung 3.6.5.
(i) Aus 3.6.1 (iii), (iv) folgt, dass
I(ϑ) = Varϑ (lϑ ) ∈ (0, ∞)
(ii) In (3.6.3) gilt genau dann das Gleichheitszeichen für ein ϑ ∈ Θ, wenn
T − κ(ϑ) und lϑ linear abhängig sind, d.h. ∃ cϑ ∈ R mit lϑ = cϑ · (T −
κ(ϑ)) Pϑ -f.ü.. In diesem Fall gilt I(ϑ) = |c(ϑ)| · |κ0 (ϑ)|.
(iii) Die Fischer Information I(ϑ) lässt sich deuten als eine Maßzahl für die
Genauigkeit, mit welcher der unbekannte Parameter ϑ (bzw. κ(ϑ)) aufgrund von vorliegenden Beobachtungen geschätzt werden kann. Dementsprechend heißt für eine erwartungstreue Schätzfunktion T von κ(ϑ)
unter den Regularitätsvoraussetzungen 3.6.1 die Abbildung
Θ 3 ϑ 7→
(κ0 (ϑ))2
Cramér-Rao-Schranke
=
Varϑ (T )
I(ϑ) · Varϑ (T )
Effizienz von T.
T heißt effiziente Schätzung für κ, falls die Effizienz von T konstant
gleich 1 ist, d.h., falls Varϑ (T ) die Cramér-Rao-Schranke erreicht für
alle ϑ ∈ Θ.
86
Beispiel 3.6.6. (i) Sei X = {0, 1}n , B = P(X ) und P = {B(1,
ϑ)n : ϑ ∈
P
n
Θ}. Dann ist pϑ (x) = ϑT (x) (1 − ϑ)n−T (x) mit T (x) =
i=1 xi , x =
(x1 , . . . , xn ), eine Dichte von B(1, ϑ)n bzgl. des Zählmaßes auf (X , B).
(x)
1
n
∂
log(pϑ (x)) = T (x)
− n−T
= ϑ(1−ϑ)
T (x) − ϑ . Da
Dann gilt lϑ = ∂ϑ
ϑ
1−ϑ
n
T (x)/n eine erwartungstreue Schätzfunktion für κ(ϑ) = ϑ ist, folgt aus
Bemerkung 3.6.5 (ii), dass T (x)/n sogar eine effiziente Schätzung für
n
.
ϑ ist mit I(ϑ) = ϑ(1−ϑ)
(ii) Sei (X , B, P) wie in Beispiel
Pn 3.6.4. Dann folgt aus den dortigen Überle1
gungen, dass T1 (x) = n i=1 xi eine effiziente Schätzung für κ(ϑ) = ϑ
ist und andererseits, dass für κ(ϑ) = e−ϑ keine effiziente Schätzung
existiert.
ENDE
87
Herunterladen