Mathematische Statistik WS0910 - Lehrstuhl für Mathematik VIII

Mathematische
Statistik
Lehrstuhl für Mathematische Statistik
Universität Würzburg
Prof. Dr. Michael Falk
Vorwort
Dieses Skript entstand aus der Vorlesung Mathematische Statistik I und
”
II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis Sommersemester 2008 an der Julius-Maximilians-Universität Würzburg gehalten
hat.
Basierend auf meinen Aufzeichnungen zu dieser Vorlesung habe ich das vorliegende Skript für Herrn Prof. Dr. Falk erstellt. Ich möchte mich auch bei
Johannes Hain bedanken, da er dieses Skript nochmals Korrektur gelesen
hat.
Im Folgenden wird eine Einführung in die grundlegenden Begriffe und Werkzeuge der Mathematischen Statistik gegeben. Des Weiteren werden fundamentale Sätze der Mathematischen Statistik besprochen und mit Beispielen
erläutert.
Stefan Englert
Würzburg, September 2008
1
Inhaltsverzeichnis
1 GRUNDLAGEN
1.1 Ausgangssituation statistischer Entscheidungen . . . . . .
1.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Elementare Testverfahren unter Normalverteilungsannahme
1.4 Punktschätzverfahren . . . . . . . . . . . . . . . . . . . . .
1.5 Bereichsschätzungen . . . . . . . . . . . . . . . . . . . . .
1.6 Randomisierte Entscheidungsverfahren . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
5
5
8
9
14
16
19
2 EXISTENZ OPTIMALER TESTS
2.1 Struktureigenschaften des Raumes Φ aller Testfunktionen . . .
2.2 Das Fundamentallemma von Neyman-Pearson . . . . . . . . .
2.3 Das verallgemeinerte Fundamentallemma von Neyman-Pearson
2.4 Exponentialfamilien . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Einseitige Tests bei monotonem Dichtequotienten . . . . . . .
2.6 Gleichmäßig beste Tests in einparametrigen Exponentialfamilien
26
26
35
39
45
51
55
3 REDUKTION STATISTISCHER ENTSCHEIDUNGEN
3.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Bedingte Erwartungswerte und bedingte Wahrscheinlichkeiten
3.3 Suffiziente σ-Algebren und suffiziente Statistiken . . . . . . . .
3.4 Einige Anwendungen in der Statistik . . . . . . . . . . . . . .
3.5 Vollständigkeit . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Die Ungleichung von Cramér-Rao und
die Fisher-Information . . . . . . . . . . . . . . . . . . . . . .
60
60
62
69
78
79
2
84
Problemstellung
Unter Mathematischer Statistik versteht man die Untersuchung von Mathematischen Modellen sowie die Herleitung bzw. Begründung von Verfahren
zur Auswertung von Beobachtungsdaten.
Ein Beispiel zur Erläuterung der Grundproblematik: Zur Heilung einer bestimmten Krankheit wurde eine neue Behandlungsmethode M2 entwickelt.
Um eine Aussage über ihre Qualität zu erhalten, wurde diese bei 10 Patienten
angewendet. Dabei trat in 8 Fällen ein Heilerfolg ein, in 2 Fällen ergab sich
ein Mißerfolg. Läßt sich nun aufgrund dieser 10 Überprüfungen bereits sagen,
dass die neue Methode M2 häufiger zum Erfolg führt als die herkömmliche
Methoden M1, deren Heilungschance erfahrungsgemäß 65% beträgt?
Der für die Statistik spezifische Aspekt ist die Tatsache, dass das Eintreten
von Erfolg oder Nichterfolg bei einer einzelnen Überprüfung nicht nur von
der Qualität der Heilmethode (dann wäre die Entscheidung klar!), sondern
auch von sehr vielen anderen uns unzugänglichen und in der Gesamtentwicklung unübersehbaren Einflüssen abhängt, so dass wir das Ergebnis nicht
voraussagen können und daher als zufallsabhängig betrachten. Bei unserer
Aussage über die Güte von M3 müssen wir daher die Zufallsabhängigkeit der
10 Ergebnisse berücksichtigen.
Die Verwendung der Wahrscheinlichkeitstheorie ermöglicht es, solche auch
gefühlsmäßig unsicheren Entscheidungen zum Gegenstand mathematischer
Überlegungen zu machen. Das geschieht dadurch, dass wir die Beobachtungen (Ergebnisse) als Realisierungen von Zufallsvariablen auffassen und damit
unterstellen, dass sich der Vorgang durch eine Wahrscheinlichkeitsverteilung
beschreiben lässt (Grundannahme der Mathematischen Statistik).
Im obigen Beispiel werden wir Zufallsvariablen X1 , . . . , X10 verwenden, die
jeweils nur die beiden Werte 1 (für Heilerfolg) und 0 (für Mißerfolg) mit
den Wahrscheinlichkeiten ϑ bzw. 1 − ϑ annehmen können. Die Xi sind dann
B(1, ϑ)–verteilte Zufallsvariablen, wobei durch den uns unbekannten Parameter ϑ die Güte des neu entwickelten Medikamentes angegeben wird:
M2 ist besser als M1 ⇔ ϑ > 0, 65.
Besonders einfach wird die Behandlung dieses Modells, wenn wir zusätzlich
voraussetzen, dass die X1 , . . . , X10 stochastisch unabhängig sind (d.h. die
Versuchsausführungen beeinflussen sich nicht gegenseitig). Dann ist die Verteilung von (X1 , . . . , X10 )Pdas Produktmaß B(1, ϑ)10 /{0, 1}10 und damit die
Anzahl der Erfolge, also i≤10 Xi , B(10, ϑ)–verteilt.
Eine Aussage über die unbekannte Verteilung von X = (X1 , . . . , X10 ) bzw.
den unbekannten Verteilungsparameter aufgrund einer zufallsabhängigen Beobachtung (im obigen Beispiel also aufgrund des beobachteten Tupels (x1 , . . . ,
3
P
x10 ) mit i≤10 xi = 8)) heißt eine statistische Entscheidung. Folglich ist eine
Vorschrift anzugeben, aus der zu jedem möglichen Versuchsausgang die zu
treffende Entscheidung abzulesen ist.
Ein Beispiel für eine derartige Entscheidungsvorschrift in obiger Situation ist
die folgende:
Die Entscheidung M2 ist besser als M1 (d.h. ϑ > 0, 65) wird
genau dann getroffen, wenn 8 oder mehr Heilerfolge eintreten.
Durch die Verwendung mathematischer Methoden wird die Unsicherheit statistischer Entscheidungen nicht aufgehoben! Man kann sie aber durch die
Verwendung wahrscheinlichkeitstheoretischer Hilfsmittel quantitativ erfassen, d.h. Wahrscheinlichkeiten für Fehlentscheidungen können (exakt) angegeben werden.
Im obigen Beispiel ist es etwa durchaus möglich, wenn auch nur mit der kleinen Wahrscheinlichkeit 0, 610 , dass im Fall ϑ = 0, 6 bei allen 10 Versuchspersonen ein Heilerfolg eintritt. In diesem Fall liefert aber die oben angegebene
Entscheidungsvorschrift die Entscheidung M2 ist besser als M1, obwohl sie
falsch ist!
Darüber hinaus ermöglicht es die Wahrscheinlichkeitstheorie, unter allen Entscheidungsfunktionen diejenigen zu bestimmen, die ein vorgegebenes Optimalitätskriterium erfüllen. Derartige optimale Lösungen sind natürlich für die
Praxis von größter Bedeutung. Tatsächlich ist die Bestimmung optimaler
statistischer Entscheidungsverfahren ein wesentlicher Gegenstand der Mathematischen Statistik.
4
Kapitel 1
GRUNDLAGEN
1.1
Ausgangssituation statistischer Entscheidungen
Jeder statistischen Entscheidung liegt ein Datenmaterial x1 , . . . , xn zugrunde. Dieses denken wir uns zu einer Beobachtung x = (x1 , . . . , xn ) zusammengefaßt, die wir als Realisierung einer Zufallsgröße X : (Ω, A, P) → (X , B)
auffassen. (X , B) heißt auch Stichprobenraum, x Stichprobe. Also:
(Ω, A, P) ist ein Wahrscheinlichkeitsraum,
(X , B) ist ein meßbarer Raum,
X : (Ω, A) → (X , B) ist meßbare Abbildung,
x = X(ω).
Mit der Verteilung P := P ∗ X von X, d.h.
P (B) := (P ∗ X)(B) = P(X −1 (B)),
B ∈ B,
ist (X , B, P ) ebenfalls ein Wahrscheinlichkeitsraum.
Im Gegensatz zur Wahrscheinlichkeitstheorie ist es ein spezifischer Aspekt
der Mathematischen Statistik, dass die zugrundeliegende Verteilung P als
unbekannt anzusehen und aufgrund der Beobachtung x eine Aussage über
P zu machen ist. Häufig wird man jedoch gewisse Vorinformationen darüber
haben, welche Verteilungen überhaupt in Frage kommen.
Definition 1.1.1. Unter einer Verteilungsannahme versteht man die Auszeichnung einer Klasse P von Verteilungen über einem Stichprobenraum
(X , B). Dann heißt (X , B, P) ein statistischer Raum.
Aus technischen Gründen indiziert man die Elemente P ∈ P häufig durch
einen Parameter ϑ. Die Gesamtheit Θ der zugelassenen Parameterwerte heißt
Parameterraum. Es gilt also
P = {Pϑ : ϑ ∈ Θ}.
5
Ist X eine Zufallsgröße mit Verteilung Pϑ , so schreiben wir für den Erwartungswert, Varianz, Verteilungsfunktion, Dichte etc. von X
Eϑ , σϑ2 , Fϑ , fϑ
etc.
Eine Verteilungsklasse P = {Pϑ : ϑ ∈ Θ} heißt k–parametrig, wenn sie sich
zwanglos“ durch einen k–dimensionalen Parameter ϑ parametrisieren läßt.
”
So ist etwa die Familie der eindimensionalen Normalverteilungen
P = {N (µ, σ 2 ) : µ ∈ R, σ 2 > 0}
eine zwei-parametrige Klasse mit Parameter ϑ = (µ, σ 2 ).
Allgemeiner interessiert von einer Verteilungsklasse P oft nur der Wert κ(P )
eines Funktionals
κ: P→K
der unbekannten Verteilung P , etwa der Mittelwert von P .
Ist speziell die Verteilungsklasse parametrisiert, so fassen wir κ als eine Abbildung von Θ nach K auf. Wir schreiben also
κ(ϑ) : Θ → K
d.h. κ(ϑ) statt κ(Pϑ ).
In den meisten Anwendungen ist Θ eine Teilmenge des Rk .
Erscheint im Rahmen des konkreten Problems eine solche parametrische
Verteilungsannahme als zu einschneidend, so wird man z.B. bei Problemen
mit einer stetigen Verteilung typischerweise alle bzgl. des n–dimensionalen
Lebesgue-Maßes λn absolut stetigen Wahrscheinlichkeitsmaße auf (Rn , Bn )
(also alle Wahrscheinlichkeitsverteilungen auf der Borel–σ–Algebra Bn des
Rn mit einer Dichte bzgl. λn ) bei der Verteilungsannahme zulassen müssen.
Man spricht in diesem Fall von einer nichtparametrischen Verteilungsannahme.
Neben der Verteilungsannahme ist noch die Gesamtheit der Aussagen anzugeben, zwischen denen entschieden werden soll. Die Gesamtheit ∆ dieser Aussagen, versehen mit einer σ–Algebra D heißt der Entscheidungsraum
(∆, D). Die Elemente d von ∆ heißen Entscheidungen. Aufgabe ist es also,
ein statistisches Entscheidungsverfahren anzugeben, d.h. eine Vorschrift, die
jeder möglichen Beobachtung x ∈ X eindeutig eine Entscheidung
d = e(x) ∈ ∆
zuordnet.
Definition 1.1.2. Eine (nicht-randomisierte) Entscheidungsfunktion e ist
eine B, D–meßbare Abbildung des Stichprobenraumes (X , B) in den Entscheidungsraum (∆, D). Deren Gesamtheit bezeichnen wir mit E.
6
Je nach der Struktur des Entscheidungsraumes unterscheidet man zwischen
verschiedenen Grundtypen statistischer Entscheidungsverfahren. Die beiden
wichtigsten sind die Tests und die Schätzverfahren.
In den folgenden Abschnitten wollen wir diese Entscheidungsverfahren näher
untersuchen. Dabei gehen wir stets von einer parametrischen Verteilungsannahme P = {Pϑ : ϑ ∈ Θ} aus.
Wir verstehen dann unter einer Hypothese H stets eine Aussage (Annahme)
über den Parameter ϑ. Dabei werden wir H mit derjenigen Teilmenge des
Parameterraumes Θ, für die H gilt, identifizieren.
Definition 1.1.3. Gegeben sei eine Verteilungsannahme P = {Pϑ : ϑ ∈ Θ}
und ein Entscheidungsraum (∆, D). Dann heißt eine Funktion
L : Θ × ∆ → [0, ∞)
Verlustfunktion, falls gilt:
∀ϑ ∈ Θ : L(ϑ, ·) ist D, B–meßbar.
Bemerkung 1.1.4. L(ϑ, d) drückt den Verlust (Schaden) aus, den man bei
Treffen der Entscheidung d und gleichzeitigem Vorliegen von Pϑ erleidet.
Definition 1.1.5. Es sei L eine Verlustfunktion. Dann heißt die Funktion
R : Θ × E → [0, ∞], definiert durch
Z
R(ϑ, e) :=
L(ϑ, e(x)) Pϑ (dx),
X
Risikofunktion (erwarteter Verlust) bzgl. L und e.
R(ϑ, e) ist also der erwartete Verlust bei Vorliegen von Pϑ und Entscheidungsfunktion e.
In der folgenden Definition legen wir Optimalitätskriterien für Entscheidungsfunktionen fest.
Definition 1.1.6.
(i) e∗ heißt gleichmäßig beste (n.r.) Entscheidungsfunktion, falls
∀ϑ ∈ Θ : R(ϑ, e∗ ) = min R(ϑ, e).
e∈E
(ii) ẽ heißt eine Mini-Max Lösung bzgl. E, falls
sup R(ϑ, ẽ) = min sup R(ϑ, e).
e∈E ϑ∈Θ
ϑ∈Θ
7
1.2
Tests
Aufgrund einer vorliegenden Beobachtung x ∈ X soll zwischen zwei Aussagen
entschieden werden:
ϑ ∈ H oder ϑ ∈ K,
wobei
Θ = H ∪ K,
H ∩ K = ∅.
Bezeichen wir die Entscheidungen für H bzw. K mit dH bzw. dK , so definieren
wir mit
∆ := {dH , dK }, D := Potenzmenge von ∆
einen Entscheidungsraum.
Dann ist eine Abbildung e : X → ∆ genau dann eine (n.r.) Entscheidungsfunktion, wenn gilt
S := {x ∈ X : e(x) = dK } = e−1 ({dk }) ∈ B,
(⇔ S c ∈ B). Dies ist gerade die Meßbarkeit von e.
Definition 1.2.1. Eine Entscheidungsfunktion der Form
dK , falls x ∈ S,
e(x) =
x ∈ X,
dH , falls x ∈ S c ,
mit S ∈ B, heißt (n.r.) Test für das Entscheidungsproblem H gegen K.
Man wird natürlich versuchen, S ∈ B bzw. e so zu wählen, dass möglichst
wenige Fehlentscheidungen getroffen werden.
Zwei Arten von Fehlern sind dabei möglich:
Fehler 1. Art:
Fehler 2. Art:
Entscheidung für K, obwohl H richtig ist,
Entscheidung für H, obwohl K richtig ist.
Die übliche (unsymmetrische) Vorgehensweise ist die folgende: Man versucht
unter allen (n.r.) Tests mit einer vorgegebenen Irrtumswahrscheinlichkeit α ∈
(0, 1) für den Fehler 1. Art einen solchen zu bestimmen, der die Wahrscheinlichkeit für den Fehler 2. Art minimiert: Gesucht ist also S ∗ ∈ B mit
S ∗ ∈ γα := {S ∈ B : ∀ϑ ∈ H : Pϑ (S) ≤ α}
(1.2.2)
∀ϑ ∈ K : Pϑ (S ∗c ) = inf Pϑ (S c ).
(1.2.3)
und
S∈γα
8
Äquivalent zu (1.2.3) ist
∀ϑ ∈ K : Pϑ (S ∗ ) = sup Pϑ (S).
(1.2.4)
S∈γα
Die Elemente der Klasse γα , d.h. Tests S ∈ B mit der Eigenschaft
∀ϑ ∈ H : Pϑ (S) ≤ α
(1.2.5)
heißt n.r. Test zum Niveau α. α ∈ [0, 1] heißt Irrtumswahrscheinlichkeit oder
Wahrscheinlichkeit für den Fehler 1. Art, 1 − α heißt Sicherheitswahrscheinlichkeit.
Man bezeichnet H auch als Nullhypothese oder Hypothese und K als Gegenhypothese oder Alternative. Man nennt
S := {x ∈ X : e(x) = dK } =: {e = dK }
die kritische Region und
S c = {e = dH }
den Annahmebereich des Tests e.
1.3
Elementare Testverfahren unter Normalverteilungsannahme
Im Folgenden seinen X1 , . . . , Xn unabhängige und identisch N (µ, σ 2 )-verteilte
Zufallsvariablen, (X , B) = (Rn , Bn ). Dabei bezeichnet
Z
(x − µ)2
1
2
√ exp −
dx,
N (µ, σ )(B) =
2σ 2
2π
B
B ∈ B, µ ∈ R, σ > 0, die Normalverteilung auf (R, B) mit Mittelwert µ und
Varianz σ 2 .
Wir unterscheiden im Folgendem verschiedene Fälle:
(i) Es sei µ unbekannt, σ 2 bekannt. Die parametrische Verteilungsannahme
lautet in diesem Fall
P = {Pϑ = N (µ, σ 2 )n : ϑ = µ ∈ Θ}, Θ = R
Zu vorgegebenen Niveau, d.h. Fehlerwahrscheinlichkeit 1. Art α ∈ (0, 1),
ist ein (einseitiger) Test für H : ϑ ≥ ϑ0 gegen K : ϑ ≤ ϑ0 zu finden.
Dabei ist ϑ0 ∈ R fest vorgegeben. Aufgrund des starken Gesetzes der
großen Zahlen gilt
n
T (X1 , . . . , Xn ) :=
1X
n→∞
Xi −→ E(X1 ) = µ P − f.s.
n i=1
9
Es ist daher sinnvoll, H abzulehnen, falls aufgrund vorliegender Beobachtungen
x = (x1 , . . . xn ) = (X1 (ω), . . . Xn (ω))
die Statistik T (X1 , . . . , Xn ) zu klein“ ist, d.h. T (X1 , . . . , Xn ) ≤ γ <
”
ϑ0 . Dabei ist γ so zu wählen, dass die Wahrscheinlichkeit für den Fehler
1. Art nicht größer als α ist, d.h.
sup Pϑ (T (X1 , . . . Xn ) ≤ γ) ≤ α.
(1.3.1)
ϑ∈H
Nach dem Faltungstheorem der Normalverteilung gilt für ϑ ∈ Θ
!
n
X
Pϑ
Xi ∈ B = N (nµ, nσ 2 )(B), B ∈ B
i=1
⇒ Pϑ
n1/2
!
!
n
1X
Xi − µ /σ ∈ B = N (0, 1)(B)
n i=1
d.h.
Pϑ n1/2 (T (X1 , . . . Xn ) − µ)/σ ∈ B = N (0, 1)(B).
Daher gilt für alle t ∈ R und T = T (X1 , . . . , Xn ) und ϑ ∈ Θ
tσ
1/2 T − ϑ
Pϑ T ≤ ϑ + 1/2 = Pϑ n ·
≤ t = Φ(t), B = (−∞; t]
n
σ
wobei
Z t
1
exp −x2 /2 dx
Φ(t) = √
2π −∞
die Verteilungsfunktion der Standardnormalverteilung ist.
Für ϑ ∈ H erhalten wir nun
P ϑ T ≤ ϑ0 +
tσ
n1/2
≤
=
sup Pϑ
ϑ∈H
tσ
− (ϑ − ϑ0 )
n1/2 | {z }
≥0
tσ
Pϑ T ≤ ϑ + 1/2
n
Φ(t),
P ϑ T ≤ ϑ +
=
ϑ≥ϑ0
d.h.


tσ
T ≤ ϑ0 + 1/2
n
≤ Φ(t)
Wählen wir also t ∈ R so, dass Φ(t) = α, d.h. t = Φ−1 (α) =: uα , so
haben wir (1.3.1) mit der Wahl γ := ϑ0 + uα σn−1/2 erfüllt. Dabei ist
uα das α-Quantil der Standardnormalverteilung.
10
Die kritische Region unseres Tests ist also die Menge
n
uα σ o
C = x ∈ Rn : T (x) ≤ ϑ0 + 1/2
n
Dieser Test heißt auch Gauss-Test.
(ii) Es sei σ 2 unbekannt, µ hingegeen bekannt. Die Verteilungsannahme
lautet in diesem Fall
P = Pϑ = N (µ, σ 2 )n : ϑ = σ 2 ∈ Θ , Θ = (0, ∞),
Gesucht ist nun ein einseitiger Test zum Niveau α für H : ϑ ≥ ϑ0 gegen
K : ϑ < ϑ0 . Dabei ist ϑ0 > 0 vorgegeben.
Das Starke Gesetz der großen Zahlen leifert
n
1X
n→∞
(Xi −µ)2 −→ E (X1 − µ)2 = σ 2
T̂ := T̂ (X1 , . . . Xn ) :=
n i=1
P−f.s.
Wir werden daher H ablehnen, falls aufgrund einer vorliegenden Beobachtung
x = (x1 , . . . xn ) = (X1 (ω), . . . , Xn (ω))
die Testgröße T̂ (x) zu klein“ wird, d.h. T̂ (x) ≤ γ ≤ ϑ0 . Dabei ist γ
”
so festzulegen, dass
sup Pϑ T̂ ≤ γ ≤ α.
(1.3.2)
ϑ∈H
Wir gehen wie folgt vor: P
Ist Xi N (µ, σ 2 )-verteilt, so ist (Xi − µ)/σ
N (0, 1)-verteilt. Damit ist ni=1 (Xi −µ)2 /σ 2 nach Definition χ2 -verteilt
mit n Freiheitsgraden, i. Z. χ2n .
Bezeichnen wir mit Fχ2n die Verteilungsfunktion der χ2 -Verteilung mit
n Freiheitsgraden und setzen wir noch
cα,n := Fχ−1
2 (α),
n
so gilt mit γ := cα,n · ϑ0 /n für alle ϑ ∈ H = [ϑ0 , ∞)
Pϑ T̂ ≤ γ
!
n
1 X
c
·
ϑ
α,n
0
= Pϑ
·
(Xi − µ)2 ≤
n i=1
n


n
2
X
Xi − µ
ϑ0 


√
= Pϑ 
≤ cα,n

ϑ
ϑ
|{z}
i=1
≤1
!
n
X Xi − µ 2
√
≤ Pϑ
≤ cα,n
ϑ
i=1
= Fχ2n (cα,n )
= α,
11
d.h. (1.3.2) ist erfüllt. Die kritische Region unseres Tests ist also die
Menge
cα,n · ϑ0
n
C = x ∈ R : T̂ (x) ≤
n
(iii) Es sei nun µ und σ 2 unbekannt.
Die Verteilungsannahme lautet nun
P = Pϑ = N (µ, σ 2 )n : ϑ = (µ, σ 2 ) ∈ Θ , Θ = R × (0, ∞).
Das starke Gesetz der großen Zahlen liefert mit X n :=
S2
1
n
Pn
i=1
S 2 (X1 , . . . Xn )
n
2
1 X
Xi − X n
n − 1 i=1
:=
:=
Xi
(1.3.3)
n
2
1 X
(Xi − µ) + (µ − X n )
n − 1 i=1








!


n


X
n
1
2
2
(Xi − µ) − X n − µ
− 1} 
n i=1
| {z }


|n {z


n→∞


{z
}
−→ 0

|
n→∞
=
=
−→ 1
n→∞
−→ σ 2
n→∞ 2
−→ σ
P − f.s.,
falls Xi die Verteilung Pϑ besitzen mit ϑ = (µ, σ 2 ).
Insbesondere gilt
Eϑ (S 2 ) = σ 2
Obige Konvergenzaussage nehmen wir zur Grundlage für die Definition
von Tests für die beiden Entscheidungsprobleme.
(a) H : σ 2 ≥ σ02 gegen K : σ 2 < σ02 , wobei σ02 > 0 fest vorgegeben ist
(b) H : µ ≤ µ0 gegen K : µ > µ0 , wobei µ0 ∈ R fest vorgegeben ist
Zu (a): Die Konvergenzaussage (1.3.3) legt es nahe H abzulehnen, falls
aufgrund einer vorliegenden Beobachtung
x = (x1 , . . . xn ) = (X1 (ω), . . . , Xn (ω))
gilt:
S 2 (x) ≤ γ < σ02 ,
12
wobei γ so zu wählen ist, dass
sup Pϑ S 2 ≤ γ ≤ α.
(1.3.4)
ϑ∈H
Beachte dabei dass H = R × [σ02 , ∞).
Nun ist (n − 1) · S 2 /σ 2 χ2n−1 -verteilt (siehe etwa Theorem 2.2.1 in Falk
et. al. (2002)). Setzen wir daher γ := cα,n−1 σ02 /(n − 1), so gilt für alle
ϑ∈H


σ 2 
n − 1 2
0

Pϑ (S 2 ≤ γ) = Pϑ 
S
≤
c
α,n−1

 σ2
σ
| {z }
≤1
n−1 2
≤ Pϑ
S ≤ cα,n−1
σ2
= α
d.h. (1.3.4) ist erfüllt. Die kritische Region unseres Tests ist also die
Menge
cα,n−1 · σ02
n
2
C = x ∈ R : S (x) ≤
n−1
P
Zu (b): Da die Verteilung von T = n1 nn−1 (Xi − µ) von σ 2 abhängt
und im vorliegenden Fall σ 2 unbekannt ist liegt es wegen (1.3.3) nahe
die Stichprobenfunktion
t(x1 , . . . xn ) :=
n1/2 · (T (x1 , . . . , xn ) − µ)
(S 2 (x1 , . . . , xn ))1/2
zu verwenden. Als Entscheidungsregel verwenden wir:
H wird abgelehnt, falls aufgrund einer vorliegenden Beobachtung x =
(x1 , . . . xn )
n1/2 (T (x) − µ0 )
≥ γ > 0.
t0 (x) =
(S 2 (x))1/2
Dabei ist γ so zu wählen, dass
sup Pϑ (t0 ≥ γ) ≤ α
ϑ∈H
Beachte, dass H = (−∞, µ0 ] × (0, ∞).
Es gilt
1/2
t(x) = (n − 1)
13
T (x)−µ
σ
1/2 ,
n−1 2
S
(x)
2
σ
(1.3.5)
wobei n1/2 (T (X1 , . . . Xn ) − µ) /σ N (0, 1)-verteilt ist und
((n − 1)/σ 2 )S 2 (X1 , . . . Xn ) χ2n−1 -verteilt ist, falls X1 , . . . Xn unabhängig
und identisch N (µ, σ 2 ).
Diese beiden Zufallsvariablen sind stochastisch unabhängig und die Verteilung von t(X1 , . . . Xn ) ist die (Studentsche) t-Verteilung mit n − 1
Freiheitsgraden, i.Z. tn−1 (s. Falk et al. (2002), Theorem 2.2.1).
Ist nun γ := d1−α,n−1 := t−1
n−1 (1 − α) das 1 − α-Quantil der tn−1 Verteilung, so erhalten wir für alle ϑ ∈ H




µ − µ0


Pϑ (t0 ≥ γ) = Pϑ t + n1/2 2 1/2 ≥ γ 
(S )


| {z }
≤0
≤
=
=
=
=
Pϑ (t ≥ γ)
tn−1 ([γ, ∞))
tn−1 ([d1−α,n−1 , ∞))
1 − (1 − α)
α,
d.h. (1.3.5) ist erfüllt. Die kritische Region dieses (Einstichproben) tTests ist
C := {x ∈ Rn : t0 (x) ≥ d1−α,n−1 } .
1.4
Punktschätzverfahren
Bei vorgegebenem Stichprobenraum (X , B) und zugrundegelegter Verteilungsannahme P = {Pϑ : ϑ ∈ Θ} soll aufgrund einer vorliegenden Beobachtung
x ∈ X der zugrundeliegende Parameter ϑ ∈ Θ oder allgemein der Wert κ(ϑ)
einer (reellen) Funktion κ auf Θ geschätzt werden.
Definition 1.4.1. Eine meßbare Abbildung κ̂ des Stichprobenraumes (X , B)
in den (meßbaren) Wertebereich der Funktion κ heißt eine Schätzfunktion,
genauer eine Punktschätzfunktion für κ(ϑ), kurz κ̂ : (X , B) → (R, B).
Bei einer stetig verteilten Schätzfunktion wird jeder spezielle Wert, insbesondere der zugrundeliegende Wert κ(ϑ) mit Wahrscheinlichkeit 0 angenommen
Pϑ (κ̂ = κ(ϑ)) = 0
Man trifft in diesem Fall somit fast sicher (= mit Wahrscheinlichkeit 1) eine
Fehlentscheidung.
14
Bei der Wahl einer Schätzfunktion κ̂ sollte daher die Größe des erwarteten
Fehlers berücksichtigt werden. Im Folgenden setzen wir vorraus dass κ : Θ →
R.
Definition 1.4.2. κ̂ : (X , B) → (R, B) heißt erwartungstreu oder unverzerrt
(engl. unbiased), falls
∀ϑ ∈ Θ :
Eϑ (κ̂) = κ(ϑ)
Definition 1.4.3. κˆ∗ heißt erwartungstreue Schätzfunktion mit Minimalvarianz, falls
(i) κˆ∗ ∈ K̂ := {κ̂ : ∀ϑ ∈ Θ : Eϑ (κ̂) = κ(ϑ)},
(ii) ∀ϑ ∈ Θ V arϑ (κˆ∗ ) = Eϑ (κˆ∗ − µ)2 = inf κ̂∈K̂ V arϑ (κ̂).
Die Bedeutung der Minimalvarianz lässt sich wie folgt motivieren. Es sei
L : Θ × R → [0, ∞) eine Verlustfunktion mit den beiden Eigenschaften
∀ϑ ∈ Θ : L(ϑ, ·) ist zweimal stetig diffbar
∀ϑ ∈ Θ : L(ϑ, κ(ϑ)) = 0
Damit wird für eine beliebige erwartungstreue Schätzfunktion κ̂ von κ nach
der Taylorformel gelten:
L(ϑ, κ̂) = L(ϑ, κ̂) − L(ϑ, κ(ϑ))
∂
∂2
(κ̂ − κ(ϑ))2
L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + 2 L(ϑ, ξ)
=
∂κ
∂ κ
2
∂
∂2
(κ̂ − κ(ϑ))2
≈
L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + 2 L(ϑ, κ(ϑ))
∂κ
∂ κ
2
∂
L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + const(ϑ) · (κ̂ − κ(ϑ))2
=
∂κ
wobei ξ zwischen κ̂ und κ liegt und const(ϑ) unabhängig von κ̂ ist. Es folgt:
Rϑ (κ̂) = Eϑ (L(ϑ, κ̂))
∂
2
≈ Eϑ
L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + const(ϑ) · (κ̂ − κ(ϑ))
∂κ
∂
=
L(ϑ, κ(ϑ)) Eϑ (κ̂ − κ(ϑ)) +const(ϑ) · Eϑ (κ̂ − κ(ϑ))2
|
{z
}
∂κ
=0
= const(ϑ) · V arϑ (κ̂)
Ein erwartungstreuer Schätzer mit Minimalvarianz wird also tendenziell jedes
Risiko minimieren. Das erklärt die Bedeutung der Minimalvarianz.
15
Beispiel 1.4.4. Es seinen X1 , . . . Xn unabhängige und identisch N (µ, σ 2 )verteilte Zufallsvariablen, wobei µ und σ 2 unbekannt sind.
Es gilt also (X , B, P) = (Rn , Bn , P = {Pϑ = N (µ, σ 2 )n : ϑ = (µ, σ 2 ) ∈
Θ}), Θ = R × (0, ∞). Gesucht ist eine Schätung für κ(ϑ) = µ.
Das Gesetz der großen Zahlen legt die Schätzfunktion
n
1X
xi ,
κ̂ =
n i=1
x = (x1 , . . . , xn ) ∈ Rn , für κ(ϑ) nahe.
Tatsächlich ist κ̂ erwartungstreu:
n
1X
Xi
n i=1
∀ϑ ∈ Θ : Eϑ (κ̂(X1 , . . . Xn )) = Eϑ
!
= µ = κ(ϑ).
Wir werden in Kapitel 3 zeigen, dass κ̂ auch 1.4.3 (ii) erfüllt, also ein Schätzer
mit Minimalvarianz ist. Zum Nachweis wird dabei wesentlich von der Normalverteilungsannahme Gebrauch gemacht.
Beispiel 1.4.5. Es seien X1 , . . . , Xn unabhängige und identisch verteilte
Zufallsvariablen mit σ 2 := V ar(X1 ) < ∞. Setze
n
1X
(xi − x)2 ,
κˆ1 (x) :=
n i=1
n
1 X
κˆ2 (x) :=
(xi − x)2 ,
n − 1 i=1
n
1X
x = (x1 , . . . xn ) ∈ R , x =
xi .
n i=1
n
Dann liefert κˆ2 (X1 , . . . , Xn ) eine erwartungstreue Schätzfunktion für σ 2 ,
κˆ1 (X1 , . . . , Xn ) aber nicht.
1.5
Bereichsschätzungen
Der Vorteil der in 1.4 betrachteten Schätzverfahren präzise Aussagen in Form
von Punktschätzungen zu liefern bedingt gleichzeitig, dass in (nahezu) allen
Fällen f.s. Fehlentscheidungen getroffen werden.
Eine Alternative zur Punktschätzung besteht in der Bereichsschätzung (Konfidenzbereich) d.h. in der Angabe einer Abbildung
K : X → Potenzmenge von Θ
16
derart, dass K(·)(⊂ Θ) mit einer vorgegebenen Mindestwahrscheinlichkeit
1 − α den zugrundeliegenden Parameter enthält
∀ϑ ∈ Θ : Pϑ (x ∈ X : ϑ ∈ K(x)) ≥ 1 − α
Beispiel 1.5.1. Es seien X1 , . . . , Xn unabhängige und identisch N (µ, σ02 )verteilte Zufallsvariablen mit bekanntem σ02 > 0 und unbekanntem µ ∈ R
(X , B) = (Rn , Bn ), P = {Pϑ = N (µ, σ02 )n , ϑ = µ ∈ Θ = R}
P
Setze T (x) := n1 ni=1 xi , x = (x1 , . . . xn ) ∈ X .
Da mit T = T (X1 , . . . , Xn ) unter ϑ die Größe n1/2 (T − µ)/σ0 N (0, 1)-verteilt
ist, gilt für ein beliebiges α ∈ (0, 1)
1/2 T − µ
∀ϑ ∈ Θ : Pϑ −uα/2 ≤ n
≤ uα/2 = 1 − α
σ0
wobei uα/2 = Φ−1 1 − α2
oder
σ0 uα/2
σ0 uα/2 ∀ϑ ∈ Θ : Pϑ T −
≤
µ
≤
T
+
=1−α
1/2
n1/2

 n
i
h
σ0 uα/2
σ0 uα/2
.
;
T
+
= Pϑ |{z}
ϑ ∈ T−
n1/2
n1/2
=µ
Dies bedeutet, dass
σ0 uα/2
σ0 uα/2 i
K(x) := T (x) −
; T (x) +
n1/2
n1/2
h
x ∈ Rn , eine Bereichsschätzung ist mit der Eigenschaft
Pϑ (ϑ ∈ K(X1 , . . . , Xn )) = 1 − α,
ϑ ∈ Θ. Man nennt T − σ0 uα/2 n−1/2 ; T + σ0 uα/2 n−1/2 Konfidenzintervall
(Vertrauensintervall) für den Parameter ϑ zum Niveau 1 − α.
Beispiel 1.5.2. Es seien X1 , . . . , Xn unabhängige und N (µ, σ 2 )-verteilte Zufallsvariablen, wobei µ und σ 2 > 0 unbekannt sind, d.h. Θ = R × (0, ∞).
Die Zufallsvariable
T (X1 , . . . , Xn ) − µ
t(X1 , . . . , Xn ) := n1/2 p
S 2 (X1 , . . . , Xn )
17
ist nach Abschnitt 1.3 t-verteilt mit n − 1-Freiheitsgraden, i.Z. tn−1 .
Für α ∈ (0, 1) sei tα/2 := d1− α2 ,n das 1 − α2 -Quantil der tn−1 -Verteilung, d.h.
Pϑ (t(X1 , . . . , Xn ) ≤ tα/2 ) = 1 −
α
.
2
Dann gilt ∀ϑ = (µ, σ 2 ) ∈ Θ:
Pϑ −tα/2 ≤ t(X1 , . . . , Xn ) ≤ tα/2
= Pϑ t(X1 , . . . , Xn ) ≤ tα/2 − Pϑ t(X1 , . . . , Xn ) ≤ −tα/2
α α
=1− −
2
2
=1−α
oder ∀ϑ = (µ, σ 2 ) ∈ Θ:
tα/2 (S 2 )1/2
tα/2 (S 2 )1/2
Pϑ T −
≤µ≤T+
n1/2
n1/2
=1−α
tα/2 (S 2 )1/2
tα/2 (S 2 )1/2
= Pϑ µ ∈ T −
;T +
n1/2
n1/2
d.h. T − tα/2 (S 2 )1/2 n−1/2 ; T + tα/2 (S 2 )1/2 n−1/2 ist ein Konfidenzintervall für
den Parameter κ(ϑ) = µ zum Niveau 1 − α.
Definition 1.5.3. Eine Abbildung
K : X → Potenzmenge von Θ
heißt Bereichsschätzfunktion zum Konfidenzniveau 1 − α oder Konfidenzbereich zum Niveau 1 − α :⇔
∀ϑ ∈ Θ : Pϑ (x ∈ X : ϑ ∈ K(x)) ≥ 1 − α
Bemerkung 1.5.5.
muss gelten
(1.5.4)
(i) Damit die Wahrscheinlichkeit in (1.5.4) erklärt ist,
∀ϑ ∈ Θ : A(ϑ) := {x ∈ X : ϑ ∈ K(x)} ∈ B
(ii) Im Fall von Bereichsschätzungen ist der Entscheidungsraum die Potenzmenge von Θ. Er enthält im Gegensatz zu den bisher beobachteten
Entscheidungsverfahren i.a. mehrere richtige Entscheidungen.
(iii) Ist Θ ein Intervall in R und ist für alle x ∈ X K(x) ein Intervall in
R, so heißt K als Lösung von (1.5.4) ein Konfidenzintervall für ϑ zum
Niveau 1 − α.
18
Satz 1.5.6 (Dualitätsprinzip). Es sei P = {Pϑ : ϑ ∈ Θ} eine beliebige
Familie von Wahrscheinlichkeitsmaßen auf dem Stichprobenraum (X , B) und
α ∈ (0, 1). Dann gilt:
(i) Ist K ein Konfidenzbereich zum Niveau 1 − α, so ist für jedes ϑ0 ∈ Θ
die Menge X \A(ϑ0 ) = {x ∈ X : ϑ0 ∈
/ K(x)} die kritische Region eines
Tests zum Niveau α für das Problem Hϑ0 : ϑ = ϑ0 gegen Kϑ0 : ϑ 6= ϑ0 .
(ii) Ist für jedes ϑ0 ∈ Θ C(ϑ0 ) die kritische Region eines Tests zum Niveau
α für das Entscheidungsproblem Hϑ0 : ϑ = ϑ0 gegen Kϑ0 : ϑ 6= ϑ0 , so
wird durch die Festsetzung K(x) := {ϑ0 ∈ Θ : x ∈ C(ϑ0 )c }, x ∈ X , ein
Konfidenzbereich zum Niveau 1 − α definiert.
Beweisskizze: Zu (i):
Pϑ0 (X \A(ϑ0 )) = Pϑ0 (x ∈ X : ϑ0 ∈
/ K(x))
= 1 − Pϑ0 (x ∈ X : ϑ0 ∈ K(x)) ≤ α
{z
}
|
≥1−α
Zu (ii): ϑ ∈ K(x) ⇔ x ∈ C(ϑ)c ; wähle als K(x) alle ϑ mit der Eigenschaft:
aufgrund von x wird ϑ nicht verworfen, d.h.
Pϑ (x ∈ X : ϑ ∈ K(x)) = Pϑ (x ∈ X : x ∈ C(ϑ)c )
= 1 − Pϑ (x ∈ X : x ∈ C(ϑ)) ≥ 1 − α
{z
}
|
≤α
2
1.6
Randomisierte Entscheidungsverfahren
Der in Definition 1.2.1 auf Seite 8 eingeführte Begriff der nichtrandomisierten
Entscheidungsfunktion reicht für die im Folgenden zu entwickelnde Theorie
i.a. nicht aus, denn mit zwei Entscheidungsfunktionen e1 , e2 benötigen wir
auch eine solche, bei der aufgrund einer Beobachtung x mit der Wahrscheinlichkeit γ = γ(x) die Entscheidung e1 (x) und mit der Wahrscheinlichkeit
1 − γ die Entscheidung e2 (x) getroffen wird.
Ob man sich also für e1 (x) oder e2 (x) entscheidet, hängt somit von dem
Ausgang eines Hilfsexperimentes ab, nämlich davon, ob bei diesem ein Ereignis, welches die Wahrscheinlichkeit γ besitzt, eingetreten ist oder nicht. Die
Ausführung eines solchen (Zusatz-) Experiments heißt Randomisieren nach
einer B(1, γ)-Verteilung.
19
Definition 1.6.1. Gegeben seien der Stichprobenraum (X , B) und der Entscheidungsraum (∆, D). Eine randomisierte Entscheidungsfunktion ist dann
eine Übergangswahrscheinlichkeit oder Markoffscher Kern von (X , B) nach
(∆, D), d.h. eine Abbildung δ : X × D → [0, 1] mit den Eigenschaften
(i) ∀x ∈ X :
δ(x, ·) ist ein Wahrscheinlichkeitsmaß auf D
(ii) ∀D ∈ D :
δ(·, D) ist B, B-meßbar.
Die Zahl δ(x, D) ist dabei wie folgt zu interpretieren: Bei Vorliegen der Beobachtung x ∈ X ist eine Entscheidung zu treffen, welche mit der Wahrscheinlichkeit δ(x, D) zur Menge D ∈ D gehört.
Das bedeutet: Um in einer konkreten Situation zu einer Entscheidung zu
gelangen, hat man zunächst die Beobachtung x ∈ X zu gewinnen und dann
mit diesem Wert x ein Hilfsexperiment mit (∆, D) als Stichprobenraum und
δ(x, ·) als Wahrscheinlichkeitsverteilung durchzuführen. Der Ausgang dieses
Hilfsexperimentes ist dann die tatsächlich zu treffende Entscheidung. Die
Ausführung eines Hilfsexperimentes heißt Randomisieren nach der Verteilung
δ(x, ·).
Eine nicht randomisierte Entscheidungsfunktion kann mit der randomisierten
Entscheidungsfunktion δe (x, D) := 1D (e(x)) identifiziert werden: Bei Verwendung dieser Entscheidungsfunktion ist für alle x ∈ X mit Wahrscheinlichkeit
1 die Entscheidung e(x) zu treffen sofern {e(x)} ∈ D. [δe (x, {e(x)}) = 1].
Im Folgenden verzichten wir daher auf den Zusatz randomisiert“.
”
Bei einem Testproblem besteht der Entscheidungsraum ∆ nur aus den beiden
Elementen dH und dK , so dass in diesem Fall eine Entscheidungsfunktion
δ : X × Potenzmenge von {dH , dK } → [0, 1] bereits durch ϕ(x) := δ(x, {dK })
völlig bestimmt ist.
Im Spezialfall eines nicht randomisierten Tests e ergibt sich ϕ(x) = 1S (x),
x ∈ X wobei S = {x ∈ X : e(x) = dk } die kritische Region von e ist.
Definition 1.6.2. Unter einer Testfunktion oder kurz Test ϕ versteht man
eine (B, B)-meßbare Abbildung ϕ : X → [0, 1].
Dabei ist ϕ(x) die Wahrscheinlichkeit dafür, dass bei Vorliegen der Beobachtung x ∈ X die Entscheidung dK getroffen wird, d.h. ϕ(x) =: δ(x, {dK }).
Der Spezialfall ϕ = 1S mit S ∈ B entspricht dann dem nicht randomisierten
Test e(x) = dK , falls x ∈ S und e(x) = dH , falls x ∈ S c .
[δ(x, {dK }) = ϕ(x) ⇒ δ(x, {dH }) = 1 − δ(x, {dK }) = 1 − ϕ(x), δ(·, {dK }) =
ϕ(·) ist B, B-meßbar, δ(x, ·) ist Wahrscheinlichkeitsmaß]
20
Bei zugrundeliegender Verteilungsannahme P = {Pϑ : ϑ ∈ Θ} und einer
Entscheidungsfunktion δ : X × D → [0, 1] (Markoffscher Kern) wird durch
die Festsetzung
∀D ∈ D
Qϑ,δ (D) := (Pϑ ⊗ δ)(D)
Z
:=
δ(x, D)Pϑ (dx)
(1.6.3)
X
= Eϑ (δ(·, D)) ∈ [0, 1]
ein Wahrscheinlichkeitsmaß Qϑ,δ auf D definiert.
Denn es gilt
(i)
Z
Qϑ,δ (∆) =
δ(x, ∆)Pϑ (dx)
X
= Pϑ (X )
= 1.
(ii) Es seinen D ∈ D, n ∈ N paarweise disjunkt. Dann folgt aus dem Satz
der monotenen Konvergenz:
!
!
Z
[
[
Dn Pϑ (dx)
Qϑ,δ
Dn
=
δ x,
X
n∈N
=
n∈N
Z X
δ(x, Dn )Pϑ (dx)
X n∈N
Z
=
lim
m
X
X m→∞ n=1
|
=
=
=
lim
m→∞
lim
m→∞
X
↑
Z X
m
X n=1
m Z
X
n=1
δ(x, Dn ) Pϑ (dx)
| {z }
≥0
{z
}
δ(x, Dn )Pϑ (dx)
δ(x, Dn )Pϑ (dx)
X
Qϑ,δ (Dn ).
n∈N
Qϑ,δ (D) lässt sich als Wahrscheinlichkeit dafür interpretieren, dass bei zugrundeliegender Verteilung Pϑ eine in der oben beschreibenen zweistufigen
21
Weise (durch Randomisieren nach der Verteilung δ(x, ·) bei vorliegender Beobachtung x) gewonnene Entscheidung d zur Menge D gehört.
Im Spezialfall eines Tests ϕ ist Qϑ,δ bereits durch
Z
δ(x, {dK })Pϑ (dx)
Qϑ,δ ({dK }) =
X
Z
=
ϕ(x)Pϑ (dx)
X
∈ [0, 1]
= Eϑ (ϕ)
eindeutig definiert;
Qϑ,δ ({dH }) = 1 − Qϑ,δ ({dH })
= 1 − Eϑ (ϕ)
= Eϑ (1 − ϕ)
Somit ist Eϑ (ϕ) die Wahrscheinlichkeit mit der unter der Verteilung Pϑ die
Entscheidung dK , d.h. Verwerfen der Hypothese, getroffen wird.
Die Abbildung β : Θ → [0, 1] definiert durch
∀ϑ ∈ Θ : β(ϑ) := Eϑ (ϕ)
heißt Gütefunktion (power function) des Tests ϕ.
Im Spezialfall ϕ = 1S (eines nichtrandomisierten Tests) gilt:
β(ϑ) = Pϑ (S).
Die Wahrscheinlichkeit für den Fehler erster Art ist (für ein beliebiges ϕ)
Eϑ (ϕ), ϑ ∈ H, die Wahrscheinlichkeit für den Fehler zweiter Art ist 1 −
Eϑ (ϕ) = Eϑ (1 − ϕ), ϑ ∈ K.
Ein Test ϕ für H gegen K mit der Eigenschaft
∀ϑ ∈ H : Eϑ (ϕ) ≤ α
(1.6.4)
heißt Test zum Niveau α. Im Folgenden bezeichnen wir mit Φ die Gesamtheit
aller Tests, d.h. Φ = {ϕ : X → [0, 1] : ϕ ist B, B-meßbar }.
Definition 1.6.5. Es sei Φ1 ⊂ Φ. Ein Test ϕ∗ heißt gleichmäßig bester Test
bzgl. Φ1 für H gegen K, falls
ϕ ∗ ∈ Φ1
∀ϑ ∈ K : Eϑ (ϕ∗ ) = sup Eϑ (ϕ)
ϕ∈Φ1
22
(1.6.6)
(1.6.7)
Lemma 1.6.8. Es sei Φ1 ⊂ Φ2 ⊂ Φ und ϕ∗ ∈ Φ1 . Ist ϕ∗ ein gleichmäßig
bester Test bzgl. Φ2 , dann ist ϕ∗ auch ein gleichmäßig bester Test bzgl. Φ1 .
Beweis: ∀ϑ ∈ K : Eϑ (ϕ∗ ) = supϕ∈Φ2 Eϑ (ϕ) ≥ supϕ∈Φ1 Eϑ (ϕ) ≥ Eϑ (ϕ∗ ). 2
Für α ∈ (0, 1) sei Φα := {ϕ ∈ Φ : ∀ϑ ∈ H : Eϑ (ϕ) ≤ α} die Gesamtheit aller
Tests zum Niveau α.
Ein gleichmäßig bester Test bzgl. Φα heißt dann gleichmäßig bester Test zum
Niveau α für H gegen K.
Wir werden in Kapitel 2 sehen, dass ein gleichmäßig bester Test zum Niveau
α bei vielen einseitigen Testproblemen H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 existiert,
wobei Θ ⊂ R.
Bei zweiseitigen Testproblemen H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 ist man hingegen häufig gezwungen Φα durch eine kleinere Klasse von Testfunktionen zu
ersetzen. Dabei nimmt man zumeist die Klasse aller unverfälschten Tests zum
Niveau α. Ein Test ϕ zum Niveau α für H gegen K heißt dabei unverfälscht,
falls
∀ϑ ∈ K : Eϑ (ϕ) ≥ α
(1.6.9)
d.h. bei Verwendung von ϕ ist unter K die Entscheidung für K mindestens
so wahrscheinlich wie unter der Hypotese H (∀ϑ ∈ H : Eϑ (ϕ) ≤ α).
Ein gleichmäßig bester Test bzgl.
Φuα := {ϕ ∈ Φα : ∀ϑ ∈ K : Eϑ (ϕ) ≥ α}
heißt gleichmäßig bester unverfälschter Test zum Niveau α für H gegen K.
Lemma 1.6.10. Jeder gleichmäßig beste Test ϕ∗ zum Niveau α ist unverfälscht und somit ein gleichmäßig bester unverfälschter Test zum Niveau
α.
Beweis: Wegen ϕα := α ∈ Φα gilt gem. (1.6.7, S. 22)
∀ϑ ∈ K : Eϑ (ϕ∗ ) = α.
Wegen Φuα ⊂ Φα folgt die Behauptung somit aus Lemma 1.6.8.
2
Eine weitere Möglichkeit zur Auszeichnung optimaler Tests ist die Folgende:
Gibt es keinen gleichmäßig besten (unverfälschten) Test zum Niveau α für
H gegen K, so liegt es nahe, unter allen Tests zum Niveau α einen solchen
zu bestimmen, der die maximale Wahrscheinlichkeit für den Fehler zweiter
Art minimiert. Dies ist gleichbedeutend damit inf ϑ∈K Eϑ (ϕ) unter allen Tests
ϕ ∈ Φα zu maximieren.
23
Definition 1.6.11. ϕ∗ ∈ Φα heißt Maximin-Test zum Niveau α für H gegen
K :⇔ inf ϑ∈K Eϑ (ϕ∗ ) = supϕ∈Φα inf ϑ∈K Eϑ (ϕ).
Offenbar ist jeder Maximin-Test zum Niveau α ein unverfälschter Test zum
Niveau α.
Im nächsten Kapitel werden wir sehen, dass ein optimaler nicht-randomisierter
Test ϕ = 1S ∗ für das Problem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 mit ϑ, ϑ0 ∈ Θ ⊂ R
häufig von der Form ist
1S ∗ = 1{T >c} ,
(1.6.12)
wobei T eine Stichprobenfunktion ist und die Konstante c ∈ R durch die
Forderungen
∀ϑ ∈ H : Pϑ (T > c) ≤ α,
∀ϑ ∈ K : Pϑ (T > c) = sup Pϑ (S)
(1.6.13)
S∈γα
bestimmt wird.
Dabei wird c möglichst klein gewählt, ohne dass die Fehlerwahrscheinlichkeit
erster Art das Niveau α übersteigt. Diese Konstante c heißt dann kritischer
Wert und die Stichprobenfunktion T : (X , B) → (R, B) heißt Prüfgröße bzw.
Teststatistik für den Parameter ϑ.
Suchen wir hingegen für dasselbe Entscheidungsproblem einen optimalen
Test innerhalb der größeren Klasse der randomisierten Tests, d.h. suchen
wir für das einseitige Testproblem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 einen
gleichmäßig besten Test ϕ∗ zum Niveau α, so wird ϕ∗ häufig von der Form

 1, falls T (x) > c
γ, falls T (x) = c
ϕ∗ (x) =
(1.6.14)

0, falls T (x) < c
mit γ ∈ [0, 1]. Randomisierte Entscheidungen werden nur auf der Menge
{x ∈ X : T (x) = c} getroffen. Da diese Menge bei stetig verteiltem T
die Wahrscheinlichkeit 0 besitzt, erhält man (optimale) randomisierte Tests
vornehmlich im Fall diskreter Verteilungen.
Die Gütefunktion des Tests (1.6.14) ist
β(ϑ) = Eϑ (ϕ∗ ) = Pϑ (T > c) + γ Pϑ (T = c) ϑ ∈ Θ
so dass aufgrund der Optimalitätskriterien (1.6.6) und (1.6.7) (mit Φ1 := Φα )
der kritische Wert c möglichst klein und nach dieser Festsetzung γ möglichst
groß zu wählen ist, ohne dass das Niveau α überschritten wird.
24
Besteht nun unsere Verteilungsannahme aus diskreten Verteilungen Pϑ , etwa
Binomial- oder Hypergeometrischen Verteilungen, so wird bei Verwenden des
nicht randomisierten Tests (1.6.12), wobei c gemäß (1.6.13) festgelegt ist, das
zugelassene Niveau α i.a. nicht erreicht.
Bei Verwendung des randomisierten Tests (1.6.14) kann hingegen durch geeignete Wahl von c und γ das zugelassene Niveau α erreicht werden. Durch
Zulassen randomisierter Tests erzielt man somit einen Gewinn an Schärfe
(power), d.h. des Wertes der Gütefunktion auf der Alternative.
25
Kapitel 2
EXISTENZ OPTIMALER
TESTS
2.1
Struktureigenschaften des Raumes Φ aller Testfunktionen
Es seien µ, ν Maße auf dem Stichprobenraum (X , B).
Das Maß ν heißt absolut stetig bzgl. µ, i.Z. ν µ :⇔
µ(B) = 0 ⇒ ν(B) = 0 , B ∈ B
Wir sagen, dass eine Menge M von Maßen auf (X , B) durch µ dominiert
wird, i.Z. M µ :⇔
∀ν ∈ M : ν µ.
Ist µ ein Maß auf B und
f ∈ L1 (X , B, µ) =
Z
|h(x)|µ(dx) < ∞
h : (X , B) → (R, B) :
X
mit f ≥ 0, so wird durch die Festlegung
Z
Z
ν(B) :=
f dµ :=
f · 1B dµ , B ⊂ B,
B
X
ein endliches Maß ν auf B definiert mit ν µ.
Definition 2.1.1. Ein Maß µ auf (X , B) heißt σ-endliches
S Maß, wenn paarweise disjunkte X1 , X2 , · · · ∈ B existieren mit X = i∈N Xi , µ(Xi ) < ∞,
i ∈ N.
26
Satz 2.1.2 (Radon-Nikodym). Es sei µ ein σ-endliches Maß auf (X , B)
und ν/B sei ein endliches Maß mit ν µ. Dann existiert f ∈ L1 (X , B, µ),
f ≥ 0, mit
Z
ν(B) =
f dµ.
(2.1.3)
B
Die Funktion f ist durch (2.1.3) µ–f.ü. eindeutig bestimmt, d.h. falls f1 ≥ 0,
f2 ≥ 0 Funktionen sind mit (2.1.3), so gilt µ(f1 6= f2 ) = 0, und heißt ( Radondν
oder auch dν = f dµ
Nikodym) Dichte von ν bzgl. µ, i.Z. f ∈ dµ
Beweis: Siehe etwa Bauer, H. (1992): Wahrscheinlichkeitstheorie und Grundzüge
der Maßtheorie, De Gruyter, Berlin, Satz 17.10.
2
Lemma 2.1.4. Es sei µ, ν endliche Maße auf (X , B) mit der Eigenschaft
dν
ν(B) ≤ µ(B), B ∈ B. Dann existiert ein f ∈ dµ
mit 0 ≤ f ≤ 1.
Beweis: Offenbar gilt ν µ. Also existiert nach dem Satz von Radondν
Nikodym f0 ∈ dµ
. Setzte B0 := {f0 > 1}. Dann gilt
Z
Z
0 = ν(B0 ) − ν(B0 ) ≥
f0 dµ − µ(B0 ) =
f0 − 1 dµ ≥ 0
B0
B0
Z
⇒
B0
f − 1 dµ = 0
| 0{z }
>0
⇒ µ(B0 ) = 0
Damit erfüllt f := f0 · 1B0C die Behauptung.
2
Definition 2.1.5. Es sei µ/B ein endliches Maß. Eine Menge B0 ∈ B heißt
ein µ-Atom :⇔ µ(B0 ) > 0 und ∀B ∈ B mit B ⊂ B0 gilt µ(B) = 0 oder
µ(B) = µ(B0 ). µ heißt atomlos, falls kein µ-Atom existiert.
Satz 2.1.6 (Ljapunoff ). Es seinen µ1 , . . . , µn endliche atomlose Maße auf
B. Dann ist die Menge C := {(µ1 (B), . . . , µn (B)) : B ∈ B} ⊂ Rn eine
kompakte und konvexe Teilmenge des Rn .
Beweis: J. Lindenstrauss (1966), Joural of Math. and Mech. (Indiana University Mathematics Journal) 15, 971–972.
2
27
Satz 2.1.7. Es sei µ/B ein σ-endliches Maß. Dann existiert zu jeder Folge
(ϕn )n∈N ⊂ Φ eine Teilfolge (ϕnk )k∈N und ein Test ϕ0 ∈ Φ derart, dass
Z
Z
∀f ∈ L1 (X , B, µ) : lim
ϕnk f dµ = ϕ0 f dµ
(2.1.8)
k→∞
i.z. ϕnk * ϕ0 bzgl µ.
Man sagt auch, Φ sei schwach folgenkompakt, und man nennt eine Folge
(ϕn )n∈N ⊂ Φ schwach konvergent gegen ϕ0 ∈ Φ, falls ϕn * ϕ0 bzgl. µ gilt.
Beweis: Witting, H. (1985) Mathematische Statistik, Teubner, Satz 2.14 2
Bemerkung 2.1.9. Es sei µ/B ein endliches Maß, ϕn * ϕ0 bzgl. µ. Dann gilt
Z
Z
∀g ∈ Lb (X , B) : lim
ϕn · g dµ =
ϕ0 · g dµ
n→∞
X
X
mit Lb (X , B) := {f : (X , B) → (R, B) : f ist beschränkt}.
Im Folgenden bezeichne Φ0 := Menge aller nicht-randomisierten Test = {1B :
B ∈ B} und Φ00 := Menge aller Tests mit endlichem Wertebereich = {ϕ ∈
Φ : |ϕ(X )| < ∞}. Offenbar sind Φ0 und Φ00 konvexe Mengen.
Lemma 2.1.10. Es seien P1 , . . . , Pk Wahrscheinlichkeitsmaße auf B. Setze
M := {(E1 (ϕ), . . . , Ek (ϕ)) : ϕ ∈ Φ}
R
mit Ei (ϕ) := EPi (ϕ) = X ϕ dPi , ϕ ∈ Φ, 1 ≤ i ≤ k. Dann gilt
(i) M ⊂ [0, 1]k
(ii) α ∈ [0, 1] :
(α, . . . , α) ∈ M
| {z }
k−mal
(iii) M ist konvex
(iv) (α1 , . . . , αk ) ∈ M ⇒ (1 − α1 , . . . , 1 − αk ) ∈ M
(v) M ist kompakt
(vi) Ist (α1 , . . . , αk ) ein Extremalpunkt von M, so existiert ein ϕ0 ∈ Φ0 mit
αi = Ei (ϕ0 ) für i = 1, . . . , k
(vii) M = {(E1 (ϕ), . . . , Ek (ϕ)) : ϕ ∈ Φ00 }
28
(viii) Sind P1 , . . . Pk sämtlich atomlos, so gilt M = {(E1 (ϕ), . . . , Ek (ϕ)) : ϕ ∈
Φ0 }
Bemerkung 2.1.11. Es sei L ein linearer Raum, K eine konvexe Teilmenge von
L. Ein Punkt x0 ∈ L heißt Extremalpunkt von K, wenn aus x0 = λx+(1−λ)y
und x, y ∈ K und 0 ≤ λ ≤ 1 folgt : x = y = x0 , d.h. wenn x0 kein innerer
Punkt einer ganzen in K verlaufenden Strecke ist.
Es gilt der Satz von Minkovski: M ⊂ Rn sei kompakt und konvex, dann ist
M identisch mit der konvexen Hülle der Menge der Extremalpunkte, d.h.
( n
)
n
X
X
M =
λi ei : λi ≥ 0,
λi = 1, ei Extremalpunkt
i=1
i=1
\
=
A.
A ist konvexe M enge, A ⊃ M enge der Extremalpunkte von M
Beweis:[von 2.1.10]
(i) Klar
(ii) Setze ϕα := α ∈ Φ, α ∈ [0, 1]
(iii) Es seien (α1 , . . . , αk ), (β1 , . . . , βk ) ∈ M , λ ∈ (0, 1) ⇒ ∃ϕ, ψ ∈ Φ :
αi = Ei (ϕ), βi = Ei (ψ), 1 ≤ i ≤ k.
Es gilt: λϕ + (1 − λ)ψ ∈ Φ ⇒ λ(α1 , . . . , αk ) + (1 − λ)(β1 , . . . , βk ) =
(Ei (λϕ + (1 − λ)ψ)ki=1 ∈ M
(iv) Ist offensichtlich, da ϕ ∈ Φ ⇒ 1 − ϕ ∈ Φ
(v) Wir zeigen dass M folgenkompakt ist, d.h. jede Folge in M besitzt eine
konvergente Teilfolge, deren Limes wiederum in M liegt. Dann ist M
kompakt.
(n)
(n)
Für n ∈ N sei (α1 , . . . , αk ) ∈ M , d.h. es existiert eine Folge (ϕn )n∈N ⊂
(n)
Φ mit αi = Ei (ϕn ), 1 ≤ i ≤ k, n ∈ N. Setze
µ :=
k
X
Pi
i=1
[d.h. µ(B) = P1 (B) + · · · + Pk (B) für B ∈ B].
2.1.7
⇒ µ ist endlichesR Maß auf B R⇒ ∃ Teilfolge (ϕnj )j∈N von (ϕn )n∈N und
∃ϕ0 ∈ Φ : limj∈N ϕnj g dµ = ϕ0 g dµ, g ∈ Lb (X , B).
2.1.4
Offenbar gilt Pi ≤ µ, 1 ≤ i ≤ k ⇒ ∃gi ∈ dPi /dµ mit 0 ≤ gi ≤ 1, 1 ≤
i ≤ k. Es gilt also
Z
Z
lim Ei (ϕnj ) = lim ϕnj gi dµ = ϕ0 gi dµ = Ei (ϕ0 )
j∈N
j∈N
29
1 ≤ i ≤ k, d.h.
(nj )
lim(α1
j∈N
(n )
(0)
(0)
, . . . , αk j ) = (α1 , . . . , αk ) := (E1 (ϕ(0) ), . . . , Ek (ϕ(0) )) ∈ M
Also ist M ⊂ Rk folgenkompakt.
(vi) Es sei (α1 , . . . , αk ) ein Extremalpunkt von M .
⇒ ∃ϕ ∈ Φ mit αi = Ei (ϕ), 1 ≤ i ≤ k. Setze für ∈ (0, 1/2)
A := {x ∈ X : ≤ ϕ(x) ≤ 1 − },
ϕ0 := ϕ − · 1A
ϕ00 := ϕ + · 1A
Dann gilt A ∈ B; ϕ0 , ϕ00 ∈ Φ und ϕ = 12 · ϕ0 + 12 · ϕ00 .
⇒ αi = Ei (ϕ) = 12 Ei (ϕ0 ) + 12 Ei (ϕ00 ), 1 ≤ i ≤ k, d.h.
1
1
(α1 , . . . , αk ) = (E1 (ϕ0 ), . . . , Ek (ϕ0 )) + (E1 (ϕ00 ), . . . , Ek (ϕ00 )).
2
2
Da (α1 , . . . , αk ) Extremalpunkt ist folgt αi = Ei (ϕ) = Ei (ϕ0 ) = Ei (ϕ00 )
⇒
S Pi (A ) = 0 für 1 ≤ i ≤ k. Da {x ∈ X : 0 ≤ ϕ(x) ≤ 1} =
∈(0,1)∩Q A folgt Pi (0 < ϕ < 1) = 0 für 1 ≤ i ≤ k.
Für ϕ0 := 1{ϕ=1} gilt daher αi = Ei (ϕ) = Ei (ϕ · 1{ϕ>0} ) = Ei (ϕ ·
1{ϕ=1} ) = Ei (1{ϕ=1} ) = Ei (ϕ0 ) für 1 ≤ i ≤ k.
(vii) Da M konvex und kompakt ist, ist M identisch mit der konvexen Hülle
(vi)
seiner Extremalpunkte
P (Satz von Minkovski). Sei (α1 , . . . , αk ) ∈ M ⇒
∃c1 , . . . cn ∈ [0, 1], ni=1 ci = 1, ∃B1 , . . . , Bn ∈ B:
(α1 , . . . , αk ) =
n
X
cj (P1 (Bj ), . . . Pk (Bj )) = (E1 (ϕ), . . . , Ek (ϕ))
j=1
mit ϕ :=
Pn
j=1 cj
· 1Bj ∈ Φ00 .
(viii) Wir setzen den Beweisteil (vii) fort. Sind P1 , . . . , Pk atomlos, so existiert
nach 2.1.6 ein B ∈ B mit
n
X
cj (P1 (Bj ), . . . , Pk (Bj )) = (P1 (B), . . . , Pk (B))
j=1
d.h. (α1 , . . . , αk ) = (E1 (1B ), . . . , Ek (1B )).
2
30
Bemerkung 2.1.12. Ohne die Voraussetzung der Atomlosigkeit von Pi , 1 ≤
i ≤ k ist (viii) i.a. nicht richtig.
Satz 2.1.13. Es sei P = {Pϑ : ϑ ∈ Θ} eine beliebige Familie von Wahrscheinlicheitsmaßen auf (X , B) mit P µ, µ ein σ-endliches Maß. Dann
existiert eine abzählbare Teilfamilie {Pϑn : n ∈ N} von P, so dass P P̂ :=
P
−n
P ϑn .
n∈N 2
Beweis: O.B.d.A. sei |Θ| =
S∞. Da µ σ-endlich ist, existieren Bn ∈ B, n ∈ N,
mit Bn ∩ Bm = ∅, n 6= m, n∈N Bn = X und µ(Bn ) < ∞.
Setze für B ∈ B
X 1 µ(B ∩ Bn )
ν(B) :=
2n µ(Bn )
n∈N
0
wobei N0 = {n ∈ N : µ(Bn ) > 0}.
Dann ist ν ein endliches Maß auf (X , B) mit P ν. Denn:
ν(B) = 0 ⇒ µ(B ∩ Bn ) = 0, n ∈ N




[



B
= µ
B
∩
n




n∈N
| {z }
=X
!
[
=µ
(B ∩ Bn )
⇒ µ(B)
n∈N
=
X
µ(B ∩ Bn ) = 0
n∈N
⇒ ∀ϑ ∈ Θ : Pϑ (B) = 0.
Es sei für ϑ ∈ Θ nun fϑ ∈ dPϑ /dν (Satz von Radon-Nikodym), ferner sei
C1 := {B ∈ B : ∃ϑ ∈ Θ : B ⊂ {fϑ > 0}} sowie C2 := Gesamtheit aller
abzählbaren Vereinigungen von Mengen aus C1 . Setze
ρ := sup ν(C) < ∞
C∈C2
und
S wähle Folge (Cn )n∈N ⊂ C2 mit limn∈N ν(Cn ) = ρ. Dann ist C0 :=
≤ ν(C0 ), n ∈ N. Da C0 ∈ C2 ,
n∈N Cn ∈ C2 mit ν(C0 ) = ρ, denn ν(Cn ) S
existiert eine Folge (Dn )n∈N ⊂ C1 mit C0 = n∈N Dn . Somit: ∀n ∈ N ∃ϑn ∈
Θ : Dn ⊂ {fϑn > 0}.
Dann gilt:
∀ϑ ∈ Θ, ∀B ∈ B : Pϑ (B) = Pϑ (B ∩ C0 ∩ {fϑ > 0})
31
(2.1.14)
Denn:
Pϑ (B) = Pϑ (B ∩ {fϑ = 0}) + Pϑ (B ∩ {fϑ > 0})
= Pϑ (B ∩ {fϑ = 0}) + Pϑ (B ∩ {fϑ > 0} ∩ C0 )
+Pϑ (B ∩ {fϑ > 0} ∩ C0c ),
wobei
Z
Pϑ (B ∩ {fϑ = 0}) =
fϑ dν = 0.
B∩{fϑ =0}
Pϑ (B ∩ {fϑ > 0} ∩ C0c )
Zu zeigen bleibt also, dass
wäre nicht der Fall, d.h. es gelte
= 0 ist. Angenommen, dies
Pϑ (B ∩ {fϑ > 0} ∩ C0c ) > 0 ⇒ ν(B ∩ {fϑ > 0} ∩ C0c ) > 0
und damit
ν ( C0 ∪(B ∩ {fϑ > 0} ∩ C0c )) = ν(C0 ) + ν(B ∩ {fϑ > 0} ∩ C0c ) > ν(C0 ) = ρ,
|{z} |
{z
}
∈C2
|
∈C1
{z
∈C2
}
d.h. wir haben einen Widerspruch zur Definition von ρ. Also gilt 2.1.14.
Ferner gilt
Pϑn (B) = 0 ⇒ ∀ϑ ∈ Θ : ν(B ∩ {fϑ > 0} ∩ {fϑn > 0}) = 0.
(2.1.15)
Denn:
0 = Pϑn (B) ≥ Pϑn (B ∩ {fϑ > 0} ∩ {fϑn > 0})
Z
fϑn dν ≥ 0.
=
B∩{fϑ >0}∩{fϑn >0}
Da auf dem Integrationsbereich der Integrand fϑn strikt positiv ist, das Integral aber gleich 0 ist, muss ν(B ∩ {fϑ > 0} ∩ {fϑn > 0}) = 0 gelten.
Es sei nun P̂ (B) = 0. Zu zeigen ist
∀ϑ ∈ Θ Pϑ (B) = 0.
Da P̂ (B) = 0 ⇒ ∀n ∈ N Pϑn (B) = 0
!
⇒ ∀ϑ ∈ Θ : ν(B ∩ C0 ∩ {fϑ > 0})
=
ν
B ∩ {fϑ > 0} ∩
[
Dn
n∈N
!
=
ν
[
(B ∩ {fϑ > 0} ∩ Dn )
n∈N

≤
X
≤
X
n∈N
n∈N
2.1.15
=
32
0.
ν B ∩ {fϑ > 0} ∩

Dn 
|{z}
⊂{fϑn >0}
ν (B ∩ {fϑ > 0} ∩ {fϑn > 0})
Also gilt ∀ϑ ∈ Θ : ν(B ∩ C0 ∩ {fϑ > 0}) = 0 und damit auch ∀ϑ ∈ Θ :
Pϑ (B ∩ C0 ∩ {fϑ > 0}) = 0, da ∀ϑ ∈ Θ Pϑ ν. Die Behauptung folgt nun
aus (2.1.14).
2
Satz 2.1.16. Es sei P = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) mit P µ, µ σ-endliches Maß auf (X , B). Es sei
P = H ∪ K, H ∩ K = ∅, H, K 6= ∅. Dann existiert ein Maximin-Test zum
Niveau α für H gegen K.
Beweis: Setze
s := sup inf Eϑ (ϕ).
ϕ∈Φα ϑ∈K
Es existiert eine Folge (ϕn )n∈N ⊂ Φα mit limn∈N inf ϑ∈K Eϑ (ϕn ) = s. Aufgrund von Satz 2.1.7 existieren eine Teilfolge (ϕnk )k∈N und ϕ∗ ∈ Φ mit der
Eigenschaft
Z
Z
∀f ∈ L1 (X , B, µ) : lim ϕnk · f dµ = ϕ∗ · f dµ.
k∈N
Hieraus folgt speziell für f = fϑ ∈ dPϑ /dµ, ϑ ∈ Θ:
Z
Z
lim ϕnk · f dµ = lim ϕnk dPϑ
k∈N
k∈N
= lim Eϑ (ϕnk )
k∈N
= Eϑ (ϕ∗ ).
Für ϑ ∈ H folgt hieraus, dass ϕ∗ ∈ Φα . Andererseits gilt wegen
lim inf Eϑ (ϕn ) = s
n∈N ϑ∈K
auch
s = lim inf Eϑ (ϕnk ) ≤ lim Eϑ (ϕnk ) = Eϑ (ϕ∗ ), ϑ ∈ K
k∈N ϑ∈K
k∈N
d.h.
inf Eϑ (ϕ∗ ) ≥ s.
ϑ∈K
Nach Definition von s und wegen ϕ∗ ∈ Φα gilt aber auch inf ϑ∈K Eϑ (ϕ∗ ) ≤ s.
Also gilt
inf Eϑ (ϕ∗ ) = sup inf Eϑ (ϕ), ϕ∗ ∈ Φα ,
ϑ∈K
ϕ∈Φα ϑ∈K
d.h. ϕ∗ ist ein Maximin-Test zum Niveau α.
2
Im folgenden werden wir mittels Satz 2.1.7 für den Fall einer einfachen Alternative K, d.h. |K| = 1, die Existenz bester Tests bzgl. gewisser Teilmengen
Φ̃ von Φ nachweisen.
33
Wir setzen im Folgenden voraus: Die Verteilungsannahme ist P = {Pϑ : ϑ ∈
Θ}, ϑ1 ∈ Θ ist fest gewählt, K := {ϑ1 }, H := Θ\{ϑ1 }. Wir setzen
Φ̃ := {ϕ ∈ Φ :
∀ϑ ∈ H :
Eϑ (ϕ) ∈ Fϑ },
(2.1.17)
wobei Fϑ für jedes ϕ ∈ H eine abgeschlossene Teilmenge von [0, 1] ist.
Beispiel 2.1.18. Es sei α ∈ [0, 1].
(i) Fϑ := [0, α], ϑ ∈ H ⇒ Φ̃ = Φα
(ii) Fϑ := {α}, ϑ ∈ H ⇒ Φ̃ = {ϕ ∈ Φ : Eϑ (ϕ) = α, ϑ ∈ H}.
Satz 2.1.19. Es gelte P µ, wobei µ ein σ-endliches Maß auf (X , B) ist.
Dann existiert ein bester Test bzgl. der durch 2.1.17 definierten Klasse Φ̃ für
H = Θ\{ϑ1 } gegen K = {ϑ1 }. Insbesondere gibt es aber einen besten Test
zum Niveau α für H gegen K.
Beweis: Setze
s := sup Eϑ1 (ϕ) ⇒ ∃ Folge(ϕn )n∈N ⊂ Φ̃ : s = lim Eϑ1 (ϕn ).
n∈N
ϕ∈Φ̃
Mit Satz 2.1.7 folgt
∃ Teilfolge(ϕnk )k∈N ⊂ (ϕn )n∈N ∃ϕ∗ ∈ Φ : ∀f ∈ L1 (X , B, µ) :
Z
Z
lim ϕnk f dµ = ϕ∗ f dµ.
k∈N
Speziell für f = fϑ ∈ dPϑ /dµ, ϑ ∈ Θ, folgt:
lim Eϑ (ϕnk ) = Eϑ (ϕ∗ ),
k∈N
insbesondere also Eϑ1 (ϕ∗ ) = limk∈N Eϑ1 (ϕnk ) = s. Da Fϑ abgeschlossen ist
für ϑ ∈ H, folgt auch Eϑ (ϕ∗ ) ∈ Fϑ , ϑ ∈ H, d.h. ϕ∗ ∈ Φ̃.
2
34
2.2
Das Fundamentallemma von Neyman-Pearson
In diesem Abschnitt betrachten wir die binäre Verteilungsannahme P =
{Pϑ0 , Pϑ1 }, d.h. Θ = {ϑ0 , ϑ1 }. Nach Satz 2.1.19 existiert für das Testproblem H = {ϑ0 } gegen K = {ϑ1 } stets ein Test zum Niveau α; man beachte,
dass P µ = Pϑ0 + Pϑ1 . Ziel dieses Abschnitts ist es, solche besten Tests zu
konstruieren.
Im Folgenden sei µ ein P dominierendes endliches Maß und pi ∈ dPϑi /dµ,
i = 0, 1.
Definition 2.2.1. (i) ϕ∗ ∈ Φ heißt trennscharf für (Pϑ0 , Pϑ1 ), wenn ϕ∗
bester Test zum Niveau α∗ := Eϑ0 (ϕ∗ ) für H = {ϑ0 } gegen K = {ϑ1 }
ist [most powerful].
Äquivalent: ∀ϕ ∈ Φ : Falls Eϑ0 (ϕ) ≤ Eϑ0 (ϕ∗ ) ⇒ Eϑ1 (ϕ) ≤ Eϑ1 (ϕ∗ )
(ii) ϕ∗ ∈ Φ heißt eigentlich trennscharf für (Pϑ0 , Pϑ1 ), wenn für alle ϕ ∈ Φ
gilt:
Falls Eϑ0 (ϕ) ≤ Eϑ0 (ϕ∗ ) und Eϑ1 (ϕ) ≥ Eϑ1 (ϕ∗ ) ⇒ Eϑi (ϕ) = Eϑi (ϕ∗ ),
i = 0, 1.
Bemerkung 2.2.2. ϕ∗ eigentlich trennscharf für (Pϑ0 , Pϑ1 ) ⇒ ϕ∗ trennscharf
für (Pϑ0 , Pϑ1 ).
Definition 2.2.3. ϕ∗ ∈ Φ heißt Test vom Neyman-Pearson Typ für (Pϑ0 , Pϑ1 )
:⇔ ∃γ ∈ [0, ∞) :
1, falls p1 (x) > γp0 (x)
∗
ϕ (x) =
x ∈ X.
(2.2.4)
0, falls p1 (x) < γp0 (x)
Lemma 2.2.5 (Neyman-Pearson, Teil 1). ∀α ∈ (0, 1] ∃ϕ∗ ∈ Φ vom
NP-Typ für (Pϑ0 , Pϑ1 ) mit Eϑ0 (ϕ∗ ) = α.
Beweis: Setze für γ ∈ [0, ∞) die Menge Xγ := {p1 > γp0 } und t(γ) :=
Pϑ0 (Xγ ). Die Abbildung t : [0, ∞) → [0, 1] ist monoton fallend und rechtsseitig stetig, denn:
γ1 ≤ γ2 ⇒ Xγ1 ≥ Xγ2 ⇒ t(γ1 ) ≥ t(γ2 ),
n∈N
γn ↓ γ0 ⇒ Xγ0 =
[
n∈N
Xγn ⇒ t(γ0 ) = lim t(γn )
n∈N
|{z}
↑ in n
(aufsteigende Stetigkeit eines Wahrscheinlichkeitsmaßes).
35
Sei nun γα := inf{γ ∈ [0, ∞) : t(γ) ≤ α}. Beachte, dass {γ ∈ [0, ∞) : t(γ) ≤
α} =
6 ∅; denn angenommen diese Menge wäre leer. Dann folgte für beliebiges
n ∈ N mit γ = n, dass
0 < α < Pϑ0 (p1 > np0 )
= Pϑ0 (p0 > 0 und p1 /p0 > n) + Pϑ0 (p0 = 0 und p1 > np0 )
{z
}
|
=0
= Pϑ0 (p0 > 0 und p1 /p0 > n).
n∈N
Andererseits gilt aber {p0 > 0 und p1 /p0 > n} ↓ ∅
⇒ limn∈N Pϑ0 (p0 > 0 und p1 /p0 > n) = 0, (absteigende Stetigkeit eines
Wahrscheinlichkeitsmaßes), Widerspruch.
Es folgt t(γα ) ≤ α ≤ t(γα − 0) := lim↓0 t(γα − ), wobei t(0 − 0) := 1 gesetzt
wird. Setzte nun für ein beliebiges x ∈ X

falls p1 (x) > γα p0 (x)
 1,
α−t(γα )
∗
δα := t(γα −0)−t(γα ) , falls p1 (x) = γα p0 (x)
ϕ (x) :=

0,
falls p1 (x) < γα p0 (x)
Wobei δα := 0 gesetzt wird falls t(γα − 0) = t(γα ) (= α). Dann ist ϕ∗ ein
Test vom NP1 -Typ und es gilt
Eϑ0 (ϕ∗ ) =
=
=
=
Pϑ0 (Xγα ) + δα Pϑ0 (p1 = γα p0 )
t(γα ) + δα (Pϑ0 (p1 ≥ γα p0 ) − Pϑ0 (p1 > γα p0 ))
t(γα ) + δα (t(γα − 0) − t(γα ))
α.
2
Lemma 2.2.6 (Neyman-Pearson, Teil 2). Es gilt:
(i) Jeder Test ϕ∗ von NP-Typ für (Pϑ0 , Pϑ1 ) ist trennscharf.
(ii) Ist nun entweder die in der Darstellung 2.2.4 auftretende Konstante γ
positiv oder ist im Fall von γ = 0 ϕ∗ von der speziellen Form
1, falls p1 (x) > 0
∗
ϕ (x) =
(2.2.7)
0, falls p1 (x) = 0, p0 (x) > 0
dann ist ϕ∗ sogar eigentlich trennscharf.
1
NP = Neyman-Pearson
36
Beweis: ∀ϕ ∈ Φ:
(ϕ∗ − ϕ) · (p1 − γp0 ) ≥ 0
Z
⇒
(ϕ∗ − ϕ) · (p1 − γp0 ) dµ ≥ 0
Z
Z
Z
Z
∗
∗
⇒
ϕ p1 dµ − ϕp1 dµ ≥ γ ·
ϕ p0 dµ − ϕp0 dµ
d.h. aus der Definition von p0 und p1 folgt, dass
Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ) ≥ γ · (Eϑ0 (ϕ∗ ) − Eϑ0 (ϕ))
{z
} |{z} |
{z
}
|
≥0
⇐
≥0
(2.2.8)
≥0
⇒ (i)
Zu (ii): Es sei nun ϕ ∈ Φ gegeben mit Eϑ0 (ϕ) ≤ Eϑ0 (ϕ∗ ) und Eϑ1 (ϕ) ≥
Eϑ1 (ϕ∗ ). Es folgt wegen 2.2.8
0 ≥ Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ) ≥ γ · (Eϑ0 (ϕ∗ ) − Eϑ0 (ϕ)) ≥ 0
⇒ Eϑ1 (ϕ∗ ) = Eϑ1 (ϕ) und außerdem Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ) im Fall γ > 0. Zu
zeigen bleibt also Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ) falls ϕ∗ von der Form 2.2.7 ist.
Wegen Eϑ1 (ϕ) = Eϑ1 (ϕ∗ ) gilt:
0 = Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ)
Z
=
(ϕ∗ − ϕ)p1 dµ
Z
Z
∗
=
(ϕ − ϕ)p1 dµ +
(ϕ∗ − ϕ)p1 dµ
{p >0}
{p1 =0}
Z 1
=
(1 − ϕ)p1 dµ
{p1 >0}
Z
=
(1 − ϕ)p1 dµ
{p1 >0}∩{1−ϕ>0}
Pϑ µ
0
⇒ µ({p1 > 0} ∩ {1 − ϕ > 0}) = 0 ⇒
Pϑ0 ({p1 > 0} ∩ {1 − ϕ > 0}) = 0
Hieraus folgt nun
Pϑ0 (ϕ∗ > ϕ) = Pϑ0 ({p1 > 0} ∩ {ϕ∗ > ϕ}) + Pϑ0 ({p1 = 0} ∩ {ϕ∗ > ϕ})
= Pϑ0 ({p1 > 0} ∩ {1 − ϕ > 0})
= 0,
denn
Pϑ0 ({p1 = 0} ∩ {ϕ∗ > ϕ}) = Pϑ0 ({p1 = 0} ∩ {ϕ∗ > ϕ} ∩ {p0 = 0})
+P ({p = 0} ∩ {ϕ∗ > ϕ} ∩ {p0 > 0})
Z ϑ0 1
p0 dµ = 0.
=
{p1 =0}∩{ϕ∗ >ϕ}∩{p0 =0}
37
Wir erhalten also ϕ∗ ≤ ϕ Pϑ0 -f.ü.
⇒ Eϑ0 (ϕ∗ ) ≤ Eϑ0 (ϕ) ⇒ Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ),
denn Eϑ0 (ϕ∗ ) ≥ Eϑ0 (ϕ) war vorausgesetzt.
2
Lemma 2.2.9 (Neyman-Pearson, Teil 3). Es gilt:
(i) Jeder für (Pϑ0 , Pϑ1 ) trennscharfe Test ϕ0 mit Eϑ0 (ϕ0 ) > 0 ist µ-f.ü.
vom NP-Typ für (Pϑ0 , Pϑ1 ).
(ii) Ist ϕ0 darüber hinaus eigentlich trennscharf für (Pϑ0 , Pϑ1 ), so ist γ > 0
oder ϕ0 ist µ-f.ü. von der Form 2.2.7 auf Seite 36.
Beweis: Es sei ϕ0 ∈ Φ trennscharf für (Pϑ0 , Pϑ1 ) mit Eϑ0 (ϕ0 ) > 0. Nach
Lemma 2.2.5 existiert ein Test ϕ∗ vom NP-Typ mit Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ0 ). Nach
Lemma 2.2.6 (i) ist ϕ∗ ebenfalls trennscharf für (Pϑ0 , Pϑ1 ), d.h. Eϑ1 (ϕ∗ ) =
Eϑ1 (ϕ0 ).
Da (ϕ∗ − ϕ0 )(p1 − γp0 ) ≥ 0 und
Z
Z
Z
∗
∗
(ϕ − ϕ0 )(p1 − γp0 ) dµ =
ϕ p1 dµ − ϕ0 p1 dµ −
Z
Z
∗
ϕ p0 dµ − ϕ0 p0 dµ
γ
= Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ0 ) − γ (Eϑ0 (ϕ∗ ) − Eϑ0 (ϕ0 ))
= 0
⇒ (ϕ∗ − ϕ0 )(p1 − γp0 ) = 0 µ-f.ü., d.h. µ-f.ü. gilt
p1 (x) > γ · p0 (x) ⇒ ϕ0 (x) = ϕ∗ (x) = 1
p1 (x) < γ · p0 (x) ⇒ ϕ0 (x) = ϕ∗ (x) = 0
Also ist ϕ0 µ-f.ü. vom NP-Typ für (Pϑ0 , Pϑ1 ).
Zu (ii): Es ist zu zeigen, dass im Fall γ = 0 ϕ0 µ-f.ü. die Form besitzt:
1,
p1 (x) > 0
ϕ0 (x) =
0,
p1 (x) = 0, p0 (x) > 0
Da ϕ0 wegen (i) µ-f.ü. vom NP-Typ mit γ = 0 ist, gilt für µ-f.a. x ∈ X :
p1 (x) > 0 ⇒ ϕ0 (x) = 1.
Sei nun ϕ∗ := 1{p1 >0} und M := {p0 > 0, p1 = 0}; es bleibt zu zeigen, dass
ϕ0 /M = 0 µ-f.ü.. Angenommen, dies sei nicht der Fall, d.h.
µ({ϕ0 > 0} ∩ M ) > 0.
38
Es folgt
Z
Z
∗
p0 dµ =
Eϑ0 (ϕ ) =
{p1 >0}
p0 dµ
{p1 >0,p0 >0}
Z
ϕ0 p0 dµ
=
{p0 >0,p1 >0}
Z
Z
ϕ0 p0 dµ +
<
{p0 >0,p1 >0}
ϕ0 p0 dµ
{p0 >0,p1 =0}=M
Z
ϕ0 p0 dµ = Eϑ0 (ϕ0 )
=
{p0 >0}
Andererseits gilt aber
Z
Eϑ1 (ϕ0 ) =
Z
ϕ0 p1 dµ =
Z
ϕ0 p1 dµ =
{p1 >0}
p1 dµ
{p1 >0}
= Eϑ1 (ϕ∗ )
Damit erhalten wir einen Widerspruch zur eigentlichen Trennschärfe von ϕ0 ,
wonach aus Eϑ0 (ϕ∗ ) ≤ Eϑ0 (ϕ0 ) und Eϑ1 (ϕ∗ ) ≥ Eϑ1 (ϕ0 ) eigentlich
Eϑi (ϕ∗ ) = Eϑi (ϕ0 ) i = 0, 1
folgen müsste.
2
Korollar 2.2.10. Es sei ϕ0 ein bester Test zum Niveau α ∈ (0, 1) für H =
{ϑ0 } gegen K = {ϑ1 }. Falls Pϑ0 6= Pϑ1 , so gilt Eϑ1 (ϕ0 ) > α.
2.3
Das verallgemeinerte Fundamentallemma
von Neyman-Pearson
In diesem Abschnitt untersuchen wir die Frage nach der Existenz bester
Tests im Fall einer zusammengesetzten Hypothese H = {ϑ1 , . . . , ϑk } gegen
eine einfache Alternative K = {ϑk+1 }, ϑk+1 6= ϑi , 1 ≤ i ≤ k, k ∈ N. Ferner
sei µ ein endliches Maß auf (X , B) mit {Pϑ1 , . . . , Pϑk+1 } µ, etwa µ :=
Pϑ1 + · · · + Pϑk+1 , sowie pi ∈ dPϑi /dµ, i = 1,2, . . . , k+1.
Schließlich seinen α(k) := (α1 , . . . , αk ) ∈ (0, 1)k .
Wir betrachten folgende zwei Teilklassen von Φ:
Φ̃α(k) := {ϕ ∈ Φ : Eϑi (ϕ) = αi , 1 ≤ i ≤ k} =
6 ∅ (dies sei vorausgesetzt)
Φα(k) := {ϕ ∈ Φ : Eϑi (ϕ) ≤ αi , 1 ≤ i ≤ k} =
6 ∅
39
Definition 2.3.1. Ein Test ϕ∗ heißt vom NP-Typ für (H, K), falls γ1 , . . . , γk ∈
R existieren mit
P
1, falls pk+1 (x) > ki=1 γi pi (x)
∗
P
ϕ (x) =
x ∈ X.
(2.3.2)
0, falls pk+1 (x) < ki=1 γi pi (x)
Satz 2.3.3 (Verallgemeinertes Fundamentallemma von Neyman-Peason).
Es gilt:
(i) Es existiert stets ein bzgl. Φ̃α(k) bester Test für H gegen K.
(ii) Ist ϕ̃ ∈ Φ̃α(k) µ-f.ü. vom NP-Typ für (H, K), so ist ϕ̃ bester Test bzgl.
Φ̃α(k) für H gegen K.
(iii) Ist α(k) ein innerer Punkt der Menge M (k) := {(Eϑ1 (ϕ), . . . , Eϑk (ϕ)) :
ϕ ∈ Φ}, so ist ein bzgl. Φ̃α(k) bester Test für H gegen K µ-f.ü. vom
NP-Typ für (H, K).
Beweis: Behauptung (i) folgt unmittelbar aus Satz 2.1.19 auf Seite 34 mit
Fϑi = {αi }, 1 ≤ i ≤ k.
Zu (ii): Zu zeigen ist
Eϑk+1 (ϕ̃) = sup Eϑk+1 (ϕ)
ϕ∈Φ̃α(k)
Sei dann ϕ ∈ Φ̃α(k) beliebig vorgegeben. Da ϕ̃ µ-f.ü. vom NP-Typ ist, existieren γ1 , . . . , γk ∈ R, sodass µ-f.ü. gilt:
(ϕ̃ − ϕ) ·
pk+1 −
k
X
!
≥0
γi pi
i=1
Z
⇒
Z
ϕ̃pk+1 dµ −
ϕpk+1 dµ ≥
k
X
Z
γi
Z
ϕ̃pi dµ −
i=1
⇒ Eϑk+1 (ϕ̃) − Eϑk+1 (ϕ) ≥
k
X
γi (Eϑi (ϕ̃) − Eϑi (ϕ))
i=1
=
k
X
γi (αi − αi )
i=1
=0
⇒ Eϑk+1 (ϕ̃) ≥ Eϑk+1 (ϕ)
40
ϕpi dµ
Zu (iii): Es sei ϕ̃ ein bester Test bzgl. Φ̃α(k) für H gegen K. Setze M (k+1) :=
{(Eϑ1 (ϕ), . . . , Eϑk+1 (ϕ)) : ϕ ∈ Φ}, I := {α ∈ [0, 1] : (α1 , . . . , αk , α) ∈
M (k+1) }.
Es ist I 6= ∅, da z.B. Eϑk+1 (ϕ̃) ∈ I. Annahme: I enthalte wenigstens zwei
Elemente.
Da nach Lemma 2.1.10 M (k+1) kompakt und daher abgeschlossen ist, ist auch
I ⊂ [0, 1] abgeschlossen und daher kompakt. Also existiert
αk+1 := max{α : α ∈ I} ∈ I.
Da ϕ̃ bester Test bzgl. Φ̃α(k) ist, folgt, Eϑk+1 (ϕ̃) = αk+1 und
α(k+1) := (α1 , . . . , αk , αk+1 ) ∈ ∂M (k+1) = topologischer Rand von M (k+1) .
Da M (k+1) nach Lemma 2.1.10 außerdem konvex ist, existiert eine durch
α(k+1) gehende Hyperebene H, so das M (k+1) ganz auf einer Seite dieser
Hyperebene liegt, d.h.
(
)
k+1
X
α(k+1) ∈ H := (t1 , . . . , tk+1 ) ∈ Rk+1 :
γi (ti − αi ) = 0
i=1
für gewisse reelle Zahlen γ1 , . . . , γk+1 und
∀(β1 , . . . , βk+1 ) ∈ M (k+1) :
k+1
X
γi (βi − αi ) ≥ 0
i=1
(Satz von der Existenz einer Stützhyperebene).
Pk
Dann ist γk+1 6= 0. Denn andernfalls wäre
i=1 γi (βi − αi ) ≥ 0 für alle
(k)
(k)
(β1 , . . . , βk ) ∈ M , d.h. P
M
liegt ganz auf einer Seite der Hyperebene
H0 := {(t1 , . . . , tk ) ∈ Rk : ki=1 γi (ti − αi ) = 0}. Andererseits ist α(k) ∈ H0
und daher α(k) ∈ ∂M (k) im Widerspruch dazu, dass α(k) immer ein innerer
Punkt von M (k) ist. Also folgt γk+1 6= 0.
Da nun für α ∈ I gilt: (α1 , . . . , αk , α) ∈ M (k+1) und somit
0≤
k
X
i=1
γi (αi − αi ) + γk+1 (α − αk+1 ) = γk+1 (α − αk+1 ),
|{z} | {z }
6=0
folgt γk+1 < 0 (αk+1 ist maximales Element in I).
41
<0
o.E. sei γk+1 = −1. Es folgt:
∀ϕ ∈ Φ : (Eϑ1 (ϕ), . . . , Eϑk+1 (ϕ)) ∈ M (k+1)
⇒
k+1
X
γi (Eϑi (ϕ) − αi ) ≥ 0
i=1
⇒ Eϑk+1 (ϕ) −
k
X
γi Eϑi (ϕ) ≤ αk+1 −
i=1
Z
⇒
ϕ·
pk+1 −
= Eϑk+1 (ϕ̃) −
k
X
γi αi
i=1
k
X
!
dµ ≤ αk+1 −
γi pi
i=1
k
X
k
X
γi αi
i=1
γi Eϑi (ϕ̃)
i=1
Z
=
ϕ̃ pk+1 −
k
X
!
γi pi
dµ.
i=1
P
Setzen wir zur Abkürzung h := pk+1 − ki=1 γi pi und ϕ∗ := 1{h>0} , so haben
wir gezeigt, dass für alle ϕ ∈ Φ gilt
Z
Z
ϕ · h dµ ≤ ϕ̃ · h dµ
Da außerdem
Z
Z
ϕ∗ · h dµ,
Z
ϕ∗ · h dµ
ϕ · h dµ ≤
folgt
Z
ϕ̃ · h dµ =
bzw.
Z
(ϕ∗ − ϕ̃) · h dµ = 0
{z
}
|
≥0
⇒ (ϕ∗ − ϕ̃) · h = 0 µ-f.ü., d.h. ϕ̃ ist µ-f.ü. vom NP-Typ.
2
Lemma 2.3.4. Ist ϕ∗ ∈ Φ̃α(k) vom NP-Typ für (H, K) wobei γi ≥ 0, 1 ≤ i ≤
k, so ist ϕ∗ sogar bester Test bzgl. der größeren Klasse Φα(k) für H gegen K.
Beweis: Zu zeigen ist Eϑk+1 (ϕ∗ ) = supϕ∈Φ (k) Eϑk+1 (ϕ). Es sei also ϕ ∈ Φα(k)
α
beliebig. Nach Voraussetzung existieren γi ≥ 0, 1 ≤ i ≤ k, so dass
!
k
X
γi pi ≥ 0.
(ϕ∗ − ϕ) pk+1 −
i=1
42
Analog zum Beweis von Satz 2.3.3 (ii) folgt


k
X
Eϑk+1 (ϕ∗ ) − Eϑk+1 (ϕ) ≥
γi Eϑi (ϕ∗ ) − Eϑi (ϕ) ≥ 0
| {z } | {z }
i=1
=αi
≤αi
und daraus die Behauptung.
2
Definition 2.3.5. Wahrscheinlichkeitsmaße P1 , . . . , Pk auf (X , B) heißen
linear unabhängig :⇔
∀B ∈ B :
k
X
γi Pi (B) = 0 ⇒ γi = 0, 1 ≤ i ≤ k.
i=1
Bemerkung 2.3.6. Es seien P1 , . . . , Pk Wahrscheinlichkeitsmaße auf (X , B),
µ/B ein endliches Maß mit {P1 , . . . , Pk } µ und pi ∈ dPi /dµi , 1 ≤ i ≤ k.
Dann gilt:
P1 , . . . , Pk sind linear unabhängig
" k
#
X
⇔
γi pi = 0 µ-f.ü. ⇒ γi = 0, 1 ≤ i ≤ k
i=1
Lemma 2.3.7. Es gilt:
(i) Sind Pϑ1 , . . . , Pϑk linear unabhängig und ist α ∈ (0, 1), so ist (α, . . . , α)
∈ (0, 1)k innerer Punkt von M (k) = {(Eϑ1 (ϕ), . . . , Eϑk (ϕ)) : ϕ ∈ Φ}.
(ii) Sind Pϑ1 , . . . , Pϑk , Pϑk+1 linear unabhängig und ist für ein α ∈ (0, 1)
der Vektor (α, . . . , α) innerer Punkt von M (k) , so existiert ϕ ∈ Φ mit
Eϑi (ϕ) = α, 1 ≤ i ≤ k und Eϑk+1 (ϕ) > α.
Beweis: Zu (ii): Zu zeigen ist ∃ϕ̂ ∈ Φ̂ := {ϕ ∈ Φ : Eϑi (ϕ) = α, 1 ≤ i ≤ k}
mit Eϑk+1 (ϕ̂) > α. Angenommen, dies wäre nicht der Fall, dann wäre ϕα :=
α (∈ Φ̂) ein bester Test bzgl. Φ̂ für H = {ϑ1 , . . . , ϑk } gegen K = {ϑk+1 }.
Also ist
Satz 2.3.3 ϕα µ-f.ü. vom NP-Typ. Wegen 0 < α < 1 folgt
Pnach
k
pk+1 − i=1 γi pi = 0 µ-f.ü. für gewisse Zahlen γ1 , . . . , γk , im Widerspruch zur
linearen Unabhängigkeit von Pϑ1 , . . . , Pϑk+1 .
Zu (i): Durch vollständige Induktion nach k:
k = 1: M (1) = {Eϑ1 (ϕ) : ϕ ∈ Φ} = [0, 1], d.h. α ∈ (0, 1) ist innerer Punkt
von M (1)
43
k − 1 → k: Pϑ1 , . . . , Pϑk linear unabhängig.
Dann sind auch Pϑ1 , . . . , Pϑi−1 , Pϑi+1 , . . . , Pϑk linear unabhängig ⇒ (α, . . . , α)
∈ (0, 1)k−1 ist innerer Punkt von M (k−1) nach Induktionvorraussetzung. Nach
(ii) (für k statt k+1 und Pϑi statt Pϑi+1 ) folgt für j = 1, . . . , i − 1, i + 1, . . . , k:
∃ϕi ∈ Φ : Eϑj (ϕi ) = α, Eϑi (ϕi ) > α
∃ϕ0i ∈ Φ : Eϑj (ϕ0i ) = α, Eϑi (ϕ0i ) < α
(2.3.8)
(2.3.9)
Denn durch Anwendung von 2.3.8 auf 1 − α statt α erhält man ψi ∈ Φ, so
dass ϕ0i := 1 − ψi 2.3.9 erfüllt. Führt man diesen Schritt nun für i = 1, . . . , k
durch, so liegt das k-Tupel (α, . . . , α) im Inneren der konvexen Hülle der 2k
Punkte
(α, . . . , α, Eϑi (ϕi ), α, . . . , α) , (α, . . . , α, Eϑi (ϕ0i ), α, . . . , α) , 1 ≤ i ≤ k.
Da jeder dieser 2k Punkte zu M (k) gehört und M (k) konvex ist, ist das k–
Tupel (α, . . . , α) innerer Punkt von M (k) .
2
Beispiel 2.3.10. Es sei (X , B) = (R, B), Pϑi = N (µi , σ 2 ) i = 1, 2, 3 mit
bekanntem σ 2 > 0 und µ1 < µ3 < µ2 . Ferner sei α ∈ (0, 1) und ϕ0 ein
bzgl. {ϕ ∈ Φ : Eϑi (ϕ) = α, i = 1, 2} bester Test für H = {ϑ1 , ϑ2 } gegen
K = {ϑ3 }. Dann sind Pϑ1 , Pϑ2 linear unabhängig, denn:
∀B ∈ B : γ1 Pϑ1 (B) + γ2 Pϑ2 (B) = 0
B=R
⇒ γ2 = −γ1
⇒ ∀B ∈ B : γ1 (Pϑ1 (B) − Pϑ2 (B)) = 0
⇒ γ1 = 0
Also ist nach Lemma 2.3.7 (i) (α, α) ein innerer Punkt von M (2) . Daher folgt
aus Satz 2.3.3 (iii): Für λ-fast alle x ∈ R besitzt ϕ0 die Gestalt

(x−µ3 )2
1

√
exp
−
>
1,
falls

2

2πσ

2σ


(x−µ1 )2
(x−µ2 )2
γ2

√γ1 exp −
√
+ 2πσ exp − 2σ2
2σ 2
2πσ ϕ0 (x) =
2
1
3)

0, falls √2πσ
exp − (x−µ
<

2σ 2



2

(x−µ1 )
(x−µ2 )2
γ2

√γ1 exp −
√
+ 2πσ exp − 2σ2
2σ 2
2πσ
44
2.4
Exponentialfamilien
Im folgenden behandeln wir die Frage nach der Existenz und der Gestalt
gleichmäßig bester Tests zum Niveau α für H gegen K mit beliebigen disjunkten H, K ⊂ Θ.
Wir gehen dabei wie folgt vor: Für einen speziellen Wert ϑ1 ∈ K bestimmen
wir aufgrund unserer bisherigen Ergebnisse einen besten Test für H gegen
K 0 := {ϑ1 }.
Ist dieser Test dann unabhängig von dem speziellen Wert ϑ1 , so ist er ein
gleichmäßig bester Test für H gegen K.
Definition 2.4.1. Eine Familie P = {Pϑ : ϑ ∈ Θ} von Wahrscheinlichkeitsmaßen auf (X , B) heißt k-parametrige Exponentialfamilie :⇔
(i) ∃ h, T1 , . . . , Tk : (X , B) → (R, B)
(ii) ∃ c, q1 , . . . , qk : Θ → R
(iii) ∃ µ/B
σ-endliches Maß:
pϑ (x) := c(ϑ) · h(x) · exp
k
X
!
qj (ϑ)Tj (x) , x ∈ X ϑ ∈ Θ (2.4.2)
j=1
ist eine µ-Dichte von Pϑ . Dabei ist h ≥ 0 und c > 0.
Beispiel 2.4.3. Es sei (X , B) = (R, B), Pϑ = N (µ, σ 2 ) mit ϑ = (µ, σ 2 ) ∈
Θ = R × (0, ∞), µ = λ = Lebesque-Maß auf (R, B).
Pϑ hat die Dichte
(x − µ)2
1
· exp −
pϑ (x) = √
2σ 2
2πσ
µ
1
µ2
x2
= √
exp − 2 · exp − 2 + 2 x ,
2σ
2σ
σ
2πσ
welche die Form (2.4.2) besitzt mit
c(ϑ) =
h ≡
q1 (ϑ) =
q2 (ϑ) =
T1 (x) =
T2 (x) =
1
µ2
√
exp − 2
2σ
2πσ
1
1
− 2
2σ
µ
σ2
x2
x
45
d.h. k = 2, µ und σ unbekannt.
Ist hingegen µ = µ0 oder σ 2 = σ02 bekannt, so ist
P = N (µ0 , σ 2 ) : σ 2 ∈ (0, ∞)
bzw.
P = N (µ, σ02 ) : µ ∈ R
eine einparametrige Exponentialfamilie mit
c(ϑ) = √
bzw.
1
;
2πσ
h ≡ 1;
q1 (ϑ) = −
1
;
2σ 2
T1 (x) = (x − µ0 )2
x2
1
µ2
c(ϑ) = √
exp − 2 ; h(x) = exp − 2 ;
2σ0
2σ0
2πσ0
µ
q1 (ϑ) = 2 ; T1 (x) = x.
σ0
Bemerkung 2.4.4. Durch geeignete Wahl eines dominierenden Maßes µ lässt
sich
R in der Darstellung (2.4.2) o.E. h ≡ 1 wählen. Man gehe von µ zu µ̃(B) :=
h dµ, B ∈
B
SB über, welches ebenfalls σ-endlich ist:
Es sei X = n∈N Xn mit µ(Xn ) < ∞ n ∈ N.
S
Setze Am := {m − 1 ≤ h < m}, m ∈ N. Dann gilt X = (m,n)∈N2 (Am ∩ Xn )
und
Z
Z
1 dµ ≤ m · µ(Xn ) < ∞.
h dµ ≤ m ·
µ̃ (Am ∩ Xn ) =
Am ∩Xn
Am ∩Xn
Also ist µ̃ σ-endlich.
Ferner gilt
Z
pϑ (x) µ(dx)
Pϑ (B) =
B
Z
h(x) · c(ϑ) exp
=
B
!
qj (ϑ) · Tj (x)
µ(dx)
j=1
Z
c(ϑ) · exp
=
k
X
B
k
X
!
qj (ϑ) · Tj (x)
µ̃(dx),
j=1
siehe Stochastik I, da dµ̃ = h dµ.
Bezeichnen wir mit µ∗T das Bildmaß von T bzgl. µ auf Bk , d.h. (µ∗T )(B) =
µ(T −1 (B)), B ∈ Bk (s. Stochastik I) mit T = (T1 , . . . , Tk ), so ist das Bildmaß
Pϑ ∗ T von T bzgl. Pϑ absolut stetig bzgl. µ ∗ T und besitzt die µ ∗ T -Dichte
!
k
X
(t1 , . . . tk ) ∈ Rk 7→ c(ϑ) exp
qj (ϑ) · tj .
(2.4.5)
j=1
46
Denn für ein beliebiges B ∈ Bk gilt nach dem Transformationssatz (s. Stochastik I)
!
Z
k
X
c(ϑ) · exp
qj (ϑ) · tj (µ ∗ T ) d(t1 , . . . , tk )
B
j=1
c(ϑ) · exp
=
!
k
X
Z
T −1 (B)
qj (ϑ) · Tj
µ(dx)
j=1
= Pϑ (T −1 (B)) = (Pϑ ∗ T )(B).
Sowohl in (2.4.2) also auch in (2.4.5) spielt der Faktor c(ϑ) nur die Rolle
eines Normierungsfaktors, damit jeweils das Integral 1 ergibt.
Die Verteilung Pϑ bzw. Pϑ ∗ T hängt also nur über q(ϑ) := (q1 (ϑ), . . . , qk (ϑ))
von ϑ ab.
Dies nimmt man zum Anlass, die Menge
(
!
)
Z
k
X
Θ̃ := (q1 , . . . , qk ) ∈ Rk :
exp
qj Tj (x) µ(dx) < ∞
X
j=1
als neuen Parameterraum, den sog. natürlichen Parameterraum für die kparametrige Exponentialfamilie P einzuführen.
Dabei werden mit
K(q) := R
1
exp
P
k
j=1 qj Tj
dµ
durch
pq (x) := K(q) · exp
k
X
!
qj Tj (x) , x ∈ X , q ∈ Θ̃,
(2.4.6)
j=1
Wahrscheinlichkeitsdichten bzgl. µ definiert.
Anstelle der ursprünglich vorgegebenen Exponentialfamilie P betrachtet man
dann häufig die k-parametrige Exponentialfamilie mit natürlichem Parameterraum.
Z
n
o
P̃ := Pq : q ∈ Θ̃ mit Pq (B) =
pq dµ, B ∈ B, q ∈ Θ̃
(2.4.7)
B
Lemma 2.4.8. Der natürliche Parameterraum Θ̃ ⊂ Rk ist stets eine konvexe
Menge.
47
Beweis: Es seinen q 0 , q 00 ∈ Θ̃, γ ∈ [0, 1], also
!
!
Z
Z
k
k
X
X
exp
qj0 Tj dµ < ∞,
exp
qj00 Tj dµ < ∞.
j=1
j=1
Aus der Monotonie und der Konkavität der Logarithmus-Funktion log(x) mit
x > 0 folgt:
n
Y
aλi i ≤
i=1
n
X
n
X
ai λi für ai > 0, λi ≥ 0,
i=1
λi = 1
i=1
und damit
k
X
exp
!
(γqj0 + (1 − γ)qj00 )Tj
j=1
=
exp
k
X
!!γ
qj0 Tj
·
exp
k
X
j=1
≤ γ · exp
k
X
!!1−γ
qj00 Tj
j=1
!
qj0 Tj
+ (1 − γ) · exp
j=1
k
X
!
qj00 Tj
j=1
Hieraus folgt
Z
exp
k
X
!
(γqj0 + (1 − γ)qj00 )Tj
dµ
i=1
Z
≤γ
exp
k
X
!
qj0 Tj
Z
dµ + (1 − γ)
j=1
· exp
k
X
!
qj00 Tj
dµ
j=1
< ∞.
2
Im Folgenden untersuchen wir den Fall k = 1 einer einparametrigen Exponentialfamilie mit natürlichem Parameterraum Θ̃. In diesem Fall ist
Z
Pq (B) =
pq dµ, B ∈ B, mit pq (x) = K(q) · exp(qT (x)), q ∈ Θ̃
B
wobei T : (X , B) → (R, B) und Θ̃ ein (möglicherweise entartetes) Intervall in
R ist.
48
Lemma 2.4.9. Die Gütefunktion
Z
Z
Z
ϕ(x)Pp (dx) =
ϕ(x)pq (x) µ(dx)
Θ̃ 3 q 7→ Eq (ϕ) := ϕ dPq =
X
X
eines beliebigen Tests ϕ ∈ Φ ist in allen inneren Punkten von Θ̃ beliebig oft
differenzierbar.
Speziell gilt:
d Eq (ϕ)
= Eq (ϕ · T ) − Eq (ϕ) · Eq (T ).
dq
(2.4.10)
Beweis: Zunächst beweisen wir:
Behauptung: Für alle ϕ ∈ Φ ist die Funktion
Z
ψ : Θ̃ → R, ψ(q) := ϕ(x) exp(qT (x)) µ(dx)
in allen inneren Punkten von Θ̃ beliebig oft differenzierbar und dort gilt
0
Z
ψ (q) =
ϕ(x)T (x) exp(qT (x)) µ(dx)
(2.4.11)
Denn: Sei dazu q0 ein innerer Punkt von Θ̃
⇒ ∃δ > 0 ∀q ∈ Θ̃, |q − q0 | < δ : ψ(q) < ∞
Ferner gilt:
ψ(q) − ψ(q0 )
=
q − q0
exp(qT ) − exp(q0 T )
ϕ dµ
q − q0
Z
exp((q − q0 )T ) − 1
dµ
=
ϕ · exp(q0 T ) ·
q − q0
Z
Aus der Reihenentwicklung von exp(x) folgt zunächst für |z| ≤ δ, t ∈ R
P
∞ (zt)n exp(zt) − 1 = n=1 n! z
z
∞
X
z n−1 tn = n! ≤
≤
n=1
∞
X
|z|n−1 · |t|n
n!
n=1
∞
X
1
δ
n=1
δ n |t|n
n!
1
≤
exp(δ|t|).
δ
49
Somit gilt für obigen Integranden:
ϕ · exp(q0 T ) exp((q − qo )T ) − 1 q − q0
exp(δ|t|)
≤ exp(q0 T ) ·
δ
1
= exp(q0 T + δ|T |)
δ
1
≤ (exp((q0 + δ)T ) + exp((q0 − δ)T ))
δ
für |q − q0 | ≤ δ.
Falls also |q − q0 | ≤ δ, so ist q0 ± δ ∈ Θ̃, d.h. die rechte Seite in obiger Formel
ist µ integrierbar.
Nach dem Satz der dominierten Konvergenz folgt somit für jede Folge qn ,
n ∈ N, in Θ̃ mit limn→∞ qn = q0
Z
ψ(qn ) − ψ(q0 )
= ϕ · T · exp(q0 T ) dµ,
lim
n→∞
qn − q 0
d.h. ψ ist einmal differenzierbar und es gilt (2.4.10). Die Existenz höherer
Ableitungen folgt analog durch vollständige Induktion. Also gilt die obige
Behauptung.
R
1
= exp(qT ) dµ und damit auch
Für ϕ ≡ 1 erhalten wir daraus, dass K(q)
K(q) in allen inneren Punkten von Θ̃ beliebig oft differenzierbar ist mit
0 Z
1
= T · exp(qT ) dµ.
K(q)
Da andererseits
folgt wegen Eq (ϕ) =
R
1
K(q)
0
=−
ϕ dPq = K(q) ·
R
K 0 (q)
K 2 (q)
ϕ exp(qT ) dµ
dEq (ϕ)
= K(q) · ψ 0 (q) + K 0 (q) · ψ(q)
dq
Z
Z
2
= K(q) · ϕT exp(qT ) dµ − K (q)ψ(q) T exp(qT ) dµ
Z
= Eq (ϕT ) − K(q) · Eq (ϕ) T exp(qT ) dµ
= Eq (ϕT ) − Eq (ϕ) · Eq (T )
für alle inneren Punkte q von Θ̃.
2
50
2.5
Einseitige Tests bei monotonem Dichtequotienten
Definition 2.5.1. Eine Familie P = {Pϑ : ϑ ∈ Θ} von Wahrscheinlichkeitsmaßen auf (X , B) mit Θ ⊂ R und Pϑ 6= Pϑ0 für ϑ 6= ϑ0 heißt Familie mit
monotonem Dichtequotienten in T, falls gilt: ∃ Maß µ/B, P µ,
∀ ϑ ∈ Θ ∃ pϑ ∈ dPϑ /dµ ∃ T : (X , B) → (R, B) ∀ϑ0 , ϑ00 ∈ Θ, ϑ0 < ϑ00 :
pϑ00 (x)
= hϑ0 ,ϑ00 (T (x)),
pϑ0 (x)
(2.5.2)
für alle x ∈ Xϑ0 ,ϑ00 := X \{x ∈ X : pϑ0 (x) = pϑ00 (x) = 0}, (mit hϑ0 ,ϑ00 (T (x)) =
∞, falls pϑ00 (x) > 0, pϑ0 (x) = 0), wobei hϑ0 ,ϑ00 (t) streng monoton in T ist.
Beispiel 2.5.3. (i) Es sei P = {Pϑ : ϑ ∈ Θ} eine einparametrige Exponentialfamilie, d.h. pϑ (x) = c(ϑ) · exp(q(ϑ) · T (x)), x ∈ X , ϑ ∈ Θ.
Falls q(ϑ) streng monoton wachsend in ϑ ist, so ist P eine Familie mit
monotonem Dichtequotienten: Für ϑ0 , ϑ00 ∈ Θ mit ϑ0 < ϑ00 gilt
pϑ00 (x)
pϑ0 (x)
c(ϑ00 )
· exp ((q(ϑ00 ) − q(ϑ0 )) · T (x))
c(ϑ0 )
=: hϑ0 ,ϑ00 (T (x)),
=
wobei hϑ0 ,ϑ00 (t) streng monoton wachsend in t ist.
(ii) Sind X1 , . . . , Xn unabhängige
und identisch N (0, σ 2 )-verteilte ZufallsPn
2
−2
χ2 -verteilt mit n Freiheitsgraden, i.Z.
variablen, so ist σ
i=1 Xi
χ2n .
P
Die Summe ni=1 Xi2 besitzt dann die Lebesgue-Dichte
1 x
pσ2 (x) =
gn 2
σ2
σ
x n
1
−1
2
x
=
exp − 2 , x > 0,
(2σ 2 )n/2 Γ(n/2)
2σ
wobei gn die Dichte der χ2n -Verteilung ist.
Für ϑ = σ 2 ∈ Θ := (0, ∞) sei Pϑ das Wahrscheinlichkeitsmaß mit
der λ-Dichte pϑ . Dann besitzt P = {Pϑ : ϑ ∈ Θ} einen monotonen
Dichtequotienten in T (x) = x. Denn für σ12 < σ22 und x > 0 gilt
2 n/2
pσ22 (x)
σ1
1
1
=
· exp
−
· x =: hσ12 ,σ22 (x),
pσ12 (x)
σ22
2σ12 2σ22
wobei hσ12 ,σ22 (x) streng monoton wachsend in t ist.
51
(iii) Für ϑ > 0 sei Pϑ die Poisson-Verteilung zum Parameter ϑ > 0, d.h.
Pϑ ({k}) = exp(−ϑ)
ϑk
,
k!
k = 0, 1, 2, . . .
Dann ist P = {Pϑ : ϑ > 0} eine Familie von Wahrscheinlichkeitsmaßen
auf
P∞(X , B) = (N ∪ {0}, P(N ∪ {0})), welche durch das Zählmaß µB =
n=0 1B (n), B ⊂ N ∪ {0} dominiert wird.
P ist eine Familie mit monotonem Dichtequotienten in T (x) = x. Setze
pϑ (x) := e−ϑ ϑx /x!, x ∈ X , ϑ ∈ Θ. Dann gilt pϑ ∈ dPϑ /dµ, denn
∞
ϑk X
=
1B ({k})pϑ (k)
k!
k∈B
k∈B
Z
Z k=0
=
1B (x) · pϑ (x) µ(dx) =
pϑ (x) · µ(dx), B ∈ B
Pϑ (B) =
X
Pϑ ({k}) =
X
e−ϑ
X
B
und für ϑ1 < ϑ2 ist
pϑ2 (x)
= exp((ϑ1 − ϑ2 ))
pϑ1 (x)
ϑ2
ϑ1
x
streng monoton wachsend in x.
Mit den in Abschnitt 2.2 bewiesenen Aussagen können wir nun gleichmäßig
beste Tests zum Niveau α für das einseitige Testproblem H : ϑ ≤ ϑ0 gegen
K : ϑ > ϑ0 (bzw. entsprechend für H : ϑ ≥ ϑ0 gegen K : ϑ < ϑ0 ) herleiten.
Satz 2.5.4. P = {Pϑ : ϑ ∈ Θ ⊂ R} sei eine Familie von Wahrscheinlichkeitsmaßen mit monotonem Dichtequotienten in T. Ferner sei α ∈ (0, 1) und
ϑ0 ∈ Θ. Dann existiert für das Testproblem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 ein
gleichmäßig bester Test ϕ∗ zum Niveau α.
Dieser hat die Gestalt

 1, falls T (x) > cα
δα falls T (x) = cα
ϕ∗ =
(2.5.5)

0, falls T (x) < cα , x ∈ X
wobei cα möglichst klein und – nach Wahl von cα – δα ∈ [0, 1] möglichst groß
derart gewählt wird, dass
Eϑ0 (ϕ∗ ) = Pϑ0 (T > cα ) + δα Pϑ0 (T = cα ) = α.
(2.5.6)
Darüber hinaus besitzt ϕ∗ die Eigenschaft
∀ϑ ∈ Θ : Eϑ (ϕ∗ ) = inf{Eϑ (ϕ) : ϕ ∈ Φ mit Eϑ0 (ϕ) = α}
52
(2.5.7)
Beweis: Es sei zunächst ϑ1 > ϑ0 beliebig aber fest gewählt. Nach dem
Neymann-Pearson Lemma 2.2.5, 2.2.6 existiert für das Testproblem H0 : ϑ =
ϑ0 gegen K0 : ϑ = ϑ1 ein bester Test zum Niveau α der Form

 1, falls pϑ1 (x) > γα pϑ0 (x)
δα falls pϑ1 (x) = γα pϑ0 (x)
ϕ̂(x) =
(2.5.8)

0, falls pϑ1 (x) < γα pϑ0 (x), x ∈ X
mit Eϑ0 (ϕ̂) = α. Da P einen monotonen Dichtequotienten in T besitzt, gilt

 1, falls hϑ0 ,ϑ1 (T (x)) > γα
δα falls hϑ0 ,ϑ1 (T (x)) = γα
ϕ̂(x) =
(2.5.9)

0, falls hϑ0 ,ϑ1 (T (x)) < γα , x ∈ X
Da hϑ0 ,ϑ1 (t) streng monoton wachsend in t ist, ist (2.5.9) äquivalent zu (2.5.5).
Wähle man nun
cα = inf{t ∈ R : Pϑ0 (T ≤ t) ≥ 1 − α} = inf{t ∈ R : Pϑ0 (T > t) < α}
und δα so, dass Pϑ0 (T > cα ) + δα Pϑ0 (T = cα ) = α. Dann ist der zugehörige
Test ϕ∗ ein bester Test für H0 gegen K0 ; da cα und δα offenbar nur von ϑ0
abhängen und nicht von ϑ1 ist ϕ∗ auch gleichmäßig bester Test zum Niveau
α für H0 : ϑ = ϑ0 gegen K0 : ϑ > ϑ0 . Durch Vergleich mit dem Test
ϕα = α ergibt sich aus (2.5.7) (was aber erst noch bewiesen werden muss)
∀ϑ < ϑ0 : Eϑ (ϕ∗ ) ≤ α, d.h. ϕ∗ ist ein Test zum Niveau α für H : ϑ ≤ ϑ0
gegen K : ϑ > ϑ0 .
Daraus folgt, dass ϕ∗ gleichmäßig bester Test zum Niveau α für H0 : ϑ ≤ ϑ0
gegen K0 : ϑ > ϑ0 ist. Zum Nachweis von (2.5.7) werden wir zunächst einen
Test ψ ∈ Φ̃ := {ϕ ∈ Φ : Eϑ0 (ϕ) = 1 − α} konstruieren mit der Eigenschaft
∀ϑ < ϑ0 : Eϑ (ψ ∗ ) = sup Eϑ (ψ).
ψ∈Φ̃
Sei dazu ϑ2 < ϑ0 beliebig. Nach dem Neyman-Pearson-Lemma existiert ψ ∗ ∈
Φ̃ mit Eϑ2 (ψ ∗ ) = supψ∈Φ̃ Eϑ2 (ψ), wobei ψ ∗ die Gestalt besitzt

 1, falls pϑ2 (x) > γ̃ pϑ0 (x)
∗
ψ (x) =
δ̃ falls pϑ2 (x) = γ̃ pϑ0 (x)

0, falls pϑ2 (x) < γ̃ pϑ0 (x), x ∈ X
bzw.

 1, falls T (x) > c̃
∗
ψ (x) =
δ̃ falls T (x) = c̃

0, falls T (x) < c̃,
x∈X
Da andererseits 1 − ϕ∗ auch diese Gestalt besitzt und Eϑ (1 − ϕ∗ ) = 1 − α,
folgt ψ ∗ := 1 − ϕ∗ ∈ Φ̃ als Lösung von Eϑ0 (ψ ∗ ) = supψ∈Φ̃ Eϑ2 (ψ).
53
Da 1 − ϕ∗ unabhängig von ϑ2 < ϑ0 ist, gilt also Eϑ (1 − ϕ∗ ) = supψ∈φ̃ Eϑ (ψ),
ϑ < ϑ0 . Dies ist aber äquivalent zu (2.5.7).
2
Bemerkung 2.5.10. (i) Der in Satz 2.5.4 konstruierte gleichmäßig beste
Test ϕ∗ zum Niveau α für H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 ist auch ein
bester Test zum Niveau α0 := Eϑ0 (ϕ∗ ) für H 0 : ϑ = ϑ0 gegen K 0 : ϑ = ϑ00
für beliebiges ϑ0 , ϑ00 ∈ Θ mit ϑ0 < ϑ00 . Denn ϕ∗ ist nach Konstruktion ein
Test vom NP-Typ für (Pϑ0 , Pϑ00 ) und nach Lemma 2.2.6 damit trennscharf für (Pϑ0 , Pϑ00 ) daraus folgt, dass die Gütefunktion β(ϑ) := Eϑ (ϕ∗ )
auf der Menge {ϑ ∈ Θ : 0 < β < 1} streng monoton wächst:
Seien ϑ0 , ϑ00 ∈ Θ mit ϑ0 < ϑ00 und 0 < β(ϑ0 ) < 1. Dann ist ϕ∗ bester
Test zum Niveau β(ϑ0 ) für H 0 : ϑ = ϑ0 gegen K 0 : ϑ = ϑ00 , also gilt nach
Korollar 2.2.10 β(ϑ0 ) < β(ϑ00 ), da nach Voraussetzung stets Pϑ0 6= Pϑ00
für ϑ0 6= ϑ00 .
(ii) In Analogie zu Satz 2.5.4 ergibt sich sofort, dass es auch für das Testproblem H̃ : ϑ ≥ ϑ0 gegen K̃ : ϑ < ϑ0 einen gleichmäßig besten Test
zum Niveau α ∈ (0, 1) gibt, nämlich:

 1, falls T (x) < c̃α
∗
ϕ̃ (x) =
δ̃ falls T (x) = c̃α
 α
0, falls T (x) > c̃α , x ∈ X ,
wobei die Konstanten c̃α und δ̃α ∈ [0, 1] bestimmt werden aus der
Gleichung Eϑ0 (ϕ̃∗ ) = Pϑ0 (T < c̃α ) + δ̃α Pϑ0 (T = c̃α ) = α
(iii) Ferner folgt aus Lemma 2.2.9, dass die Bereiche strikter Ablehnung der
gleichmäßig besten Tests zum Niveau α ∈ (0, 1) für H0 : ϑ = ϑ0 gegen
K : ϑ > ϑ0 bzw. K̃ : ϑ < ϑ0 bis auf µ–Nullmengen von der Form
{T > cα } bzw. {T < c̃α } sind. Folglich gibt es i.A. keinen gleichmäßig
besten Test zum Niveau α ∈ (0, 1) für H0 : ϑ = ϑ0 gegen K0 : ϑ 6= ϑ0 ,
da ja ein solcher Test sowohl gegen K, als auch gegen K̃ gleichmäßig
bester Test sein müsste.
Beispiel 2.5.11. Im Beispiel 2.4.3 auf Seite 45 haben wir gesehen, dass bei
bekanntem Mittelwert µ0 die Familie P1 = {N (µ0 , σ 2 ) : σ 2 ∈ (0, ∞)} eine
−1
1
, q1 (ϑ) = (2σ
einparametrige Exponentialfamilie bildet c1 (ϑ) = √2πσ
2 ) und
T1 (x) = (x − µ0 )2 , x ∈ R und ϑ = σ 2 ∈ Θ := (0, ∞), wenn µ := λ als
dominierendes Maß gewählt wird. Dann ist im Stichprobenraum (X , B) :=
(Rn , Bn ) gemäß Lemma 2.4.5 die Familie P := {N (µ0P
, σ 2 )n : σ 2 ∈ (0, ∞)}
n
2
eine einparametrige Exponentialfamilie mit T (x) =
i=1 (xi − µ0 ) , x =
(x1 , . . . , xn ) ∈ Rn , und mit streng monoton wachsendem q(ϑ) = q1 (ϑ) =
54
1
− (2ϑ)
, so dass wir nach Beispiel 2.5.3 (i) und Bemerkung 2.5.10 (ii) folgendes
erhalten:
P ist eine Familie mit monotonem Dichtequotienten in T , und der durch
P
1, falls Pni=1 (xi − µ0 )2 ≤ cα
∗
ϕ (x) =
n
2
0, falls
x ∈ Rn ,
i=1 (xi − µ0 ) > cα ,
definierte Test mit cα so gewählt, dass Eϑ0 (ϕ∗ ) = α, ϑ0 = σ02 , ist ein
gleichmäßig bester Test zum Niveau α für das Testproblem
H : σ 2 ≥ σ02
2.6
gegen K : σ 2 < σ02
Gleichmäßig beste Tests in einparametrigen Exponentialfamilien
In diesem Abschnitt sei Θ stets ein reelles Intervall. Wir wollen gleichmäßig
beste Test zum Niveau α für das Testproblem
H := {ϑ ∈ Θ : ϑ ≤ ϑ1 } ∪ {ϑ ∈ Θ : ϑ ≥ ϑ2 } gegen
K := {ϑ ∈ Θ : ϑ1 < ϑ < ϑ2 }
(2.6.1)
bestimmen, wobei ϑ1 , ϑ2 ∈ Θ mit ϑ1 < ϑ2 vorgegeben sind (vgl. Beispiel
2.3.10).
Satz 2.6.2. Es sei P = {Pϑ : ϑ ∈ Θ} eine einparametrige Exponentialfamilie
im Stichprobenraum (X , B), d.h. bzgl. eines geeigneten σ–endlichen Maßes
µ/B besitzt Pϑ eine Dichte der Form pϑ (x) = c(ϑ) exp(q(ϑ)T (x)), x ∈ X , ϑ ∈
Θ. Wir setzen voraus, dass q(ϑ) streng monoton wächst, und T nicht µf.s. konstant ist. Dann existiert für das Testproblem (2.6.1) ein gleichmäßig
bester Test ϕ∗ zum Niveau α ∈ (0, 1) der Form

 1, falls c1 < T (x) < c2
∗
δj , falls T (x) = cj , j = 1, 2, c1 < c2 x ∈ X .
ϕ (x) =
(2.6.3)

0, falls T (x) ∈ (−∞, c1 ) ∪ (c2 , ∞)
Dabei wird man c1 möglichst klein und c2 möglichst groß wählen und nach
deren Festlegung δj ∈ [0, 1], j = 1, 2, so bestimmen, dass
Eϑi (ϕ∗ ) = Pϑi (c1 < T < c2 ) + δ1 Pϑi (T = c1 ) + δ2 Pϑi (T = c2 )(2.6.4)
= α, i = 1, 2
gilt. Darüber hinaus gilt
Eϑ (ϕ∗ ) = inf{Eϑ (ϕ) : ϕ ∈ Φ mit Eϑ1 (ϕ) = Eϑ2 (ϕ) = α}, ϑ ∈ H. (2.6.5)
55
Beweis: Sei zunächst ϑ̃ ∈ Θ mit ϑ1 < ϑ̃ < ϑ2 beliebig aber fest gewählt.
Behauptung: Pϑ1 und Pϑ2 sind linear unabhängig.
Angenommen dies wäre nicht der Fall. Dann wäre für ein γ > 0
c(ϑ1 ) exp(q(ϑ1 )T (x)) = γ c(ϑ2 ) exp(q(ϑ2 )T (x)) µ − f.ü.
⇔
c(ϑ1 )
= γ exp((q(ϑ2 ) − q(ϑ1 ))T (x)) µ − f.ü.
c(ϑ2 )
d.h. wegen q(ϑ2 ) − q(ϑ1 ) > 0 wäre T µ-f.ü. konstant, im Widerspruch zur
Voraussetzung.
Also sind Pϑ1 und Pϑ2 linear unabhängig und somit ist (α, α) gemäß Lemma
2.3.7 (i) innerer Punkt der Menge M := {(Eϑ1 (ϕ), Eϑ2 (ϕ)) : ϕ ∈ Φ}.
Daher ist nach Satz 2.3.3 der durch

1, falls c(ϑ̃) · exp(q(ϑ̃)T (x)) >




γ1 · c(ϑ1 ) · exp(q(ϑ1 ) · T (x))



+γ2 · c(ϑ2 ) · exp(q(ϑ2 )T (x))
x ∈ X,
ϕ0 (x) =

0,
falls
c(
ϑ̃)
·
exp(q(
ϑ̃)T (x)) <




γ1 · c(ϑ1 ) · exp(q(ϑ1 ) · T (x))


+γ2 · c(ϑ2 ) · exp(q(ϑ2 )T (x)),
definierte Test ein bzgl. der Klasse Φ̃α := {ϕ ∈ Φ : α = Eϑ1 (ϕ) = Eϑ2 (ϕ)}
bester Test für das Problem H0 := {ϑ1 , ϑ2 } gegen K0 := {ϑ̃}. Nach entsprechender Umformung folgt nun
1, falls a(x) < 1
ϕ0 (x) =
x ∈ X,
0, falls a(x) > 1
wobei a(x) := γ10 · exp(b1 T (x)) + γ20 · exp(b2 T (x)), γi0 := γi · c(ϑi )/c(ϑ̃), i = 1, 2
und b1 = q(ϑ1 ) − q(ϑ̃) < 0, b2 = q(ϑ2 ) − q(ϑ̃) > 0.
Eine Fallunterscheidung zeigt, dass γ10 > 0 und γ20 > 0 gelten muss:
1. Fall: Angenommen, γ10 ≤ 0, γ20 ≤ 0. Dann folgt a(x) ≤ 0, x ∈ X ⇒ ϕ0 ≡ 1
⇒ α = Eϑ1 (ϕ0 ) = Eϑ2 (ϕ0 ) = 1 ∈
/ (0, 1), Widerspruch.
0
2. Fall: Angenommen, γ1 > 0, γ20 ≤ 0. Dann ist a(x) streng monoton fallend
in T (x), also a(x) < 1 ⇔ T (x) > d1 . Damit ist der Test ϕ0 von der Form
1, falls T (x) > d1
ϕ0 (x) =
x ∈ X,
0, falls T (x) < d1
d.h. ϕ0 ist ein optimaler Test für ein Testproblem der Form ϑ ≤ ϑ0 gegen
ϑ > ϑ0 und besitzt daher nach Bemerkung 2.5.10 (i) eine streng monoton
wachsende Gütefunktion, also speziell Eϑ1 (ϕ0 ) < Eϑ2 (ϕ0 ), Widerspruch.
3. Fall: γ10 ≤ 0, γ20 > 0 analog.
56
Also gilt γ10 > 0 und γ20 > 0 und daher auch γ1 > 0 und γ2 > 0. Es folgt
somit
1, falls c1 < T (x) < c2
ϕ0 (x) =
x ∈ X.
0, falls T (x) < c1 oder T (x) > c2
Aus Lemma 2.3.4 folgt nun, dass der Test ϕ0 und damit auch der durch (2.6.3)
und (2.6.4) definierte Test ϕ∗ ein gleichmäßig bester Test zum Niveau α für
H0 = {ϑ1 , ϑ2 } gegen K0 = {ϑ̃} ist. Da sich hierbei die Konstanten ci und
δi , i = 1, 2 aus den von dem gewählten ϑ̃ unabhängigen Nebenbedingungen
(2.6.4) ergeben, ist ϕ∗ sogar ein gleichmäßig bester Test zum Niveau α für
H0 = {ϑ1 , ϑ2 } gegen K. Durch Vergleich mit dem Test ϕ ≡ α folgt aus
(2.6.5), dass Eϑ (ϕ∗ ) ≤ α, ϑ ∈ H, d.h. ϕ∗ ist ein gleichmäßig bester Test zum
Niveau α für das Testproblem (2.6.1). Zum Nachweis von (2.6.5) sei ϑ̃ ∈ H,
ϑ̃ < ϑ1 , vorgegeben. Satz 2.3.3 liefert einen Test ψ̃ ∗ , der bester Test ist bzgl.
der Klasse
Φ̃1−α := {ϕ ∈ Φ : Eϑ1 (ϕ) = Eϑ2 (ϕ) = 1 − α}
für das Testproblem H0 = {ϑ1 , ϑ2 } gegen K0 := {ϑ̃}. Für den Test ϕ̃∗ :=
1 − ψ̃ ∗ gilt also ϕ̃∗ ∈ Φ̃α und Eϑ̃ (ϕ̃∗ ) = inf{Eϑ̃ (ϕ) : ϕ ∈ Φ̃α }. Gemäß 2.3.3
(iii) ist ψ̃ ∗ µ-f.ü. von der Form
1, falls γ100 exp(b1 T (x)) + γ200 exp(b2 T (x)) < 1
∗
ψ̃ (x) =
x ∈ X,
0, falls γ100 exp(b1 T (x)) + γ200 exp(b2 T (x)) > 1
wobei hier b1 = q(ϑ1 ) − q(ϑ̃) > 0, b2 = q(ϑ2 ) − q(ϑ̃) > b1 > 0. Hieraus folgt
für die Konstanten γ100 , γ200 notwendigerweise γ100 > 0 und γ200 > 0:
1. Fall: Angenommen γ100 ≤ 0; γ200 ≤ 0. Dann folgt ψ̃ ∗ = 1 µ-f.ü. und damit
1 − α = Eϑ1 (ψ̃ ∗ ) = Eϑ2 (ψ̃ ∗ ) = 1, im Widerspruch zu α ∈ (0, 1)
2. Fall: Angenommen γ100 > 0, γ200 ≥ 0. Dann ist b(x) := γ100 exp(b1 T (x)) +
γ200 exp(b2 T (x)) streng monoton wachsend in T (x), also µ-f.ü.
1, falls T (x) < d2
∗
ψ̃ (x) =
x ∈ X,
0, falls T (x) > d2
d.h. ψ̃ ∗ (x) ist optimaler Test für ein einseitiges Problem ϑ ≥ ϑ0 gegen ϑ < ϑ0
und besitzt nach 2.5.10 (i) eine streng monoton fallende Gütefunktion, also
speziell Eϑ1 (ψ̃ ∗ ) > Eϑ2 (ψ̃ ∗ ), Widerspruch.
3. Fall: Angenommen γ100 ≤ 0, γ200 > 0. Wegen b1 = b2 − 0 mit 0 > 0
ist b(x) := γ100 exp(b2 T (x)) exp(−0 T (x)) + γ200 exp(b2 T (x)) streng monoton
wachsend in T (x) und man schließt wie in Fall 2.
Also gilt γ100 > 0, γ200 < 0 und daher
(
1, falls 1 < γ100 exp(−b1 T (x)) −
∗
1
ψ̃ (x) =
0, falls 1 > γ100 exp(−b1 T (x)) −
1
57
γ200
γ100
γ200
γ100
exp((b2 − b1 )T (x))
exp((b2 − b1 )T (x))
x ∈ X,
bzw.
∗
ϕ̃ (x) =
1, falls c1 < T (x) < c2
0, falls T (x) ∈
/ [c1 , c2 ]
x ∈ X,
wobei die Konstanten c1 , c2 aus Eϑ1 (ϕ̃∗ ) = Eϑ2 (ϕ̃∗ ) = α bestimmt werden.
Dies bedeutet ϕ0 = ϕ̃∗ µ-f.ü.
Hieraus folgt wegen ϕ̃∗ ∈ Φ̃α die Behauptung (2.6.5). Analog schließt man
im Fall ϑ̃ > ϑ2
2
Wie wir in 2.5.10 (iii) gesehen haben, existieren im Fall einparametriger
Exponentialfamilien i.A. keine gleichmäßig besten Tests zum Niveau α für
H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 . Wir betrachten daher im Folgenden nur unverfälschte Tests zum Niveau α, wobei wir den natürlichen Parameterraum
zugrunde legen, d.h. unsere Verteilungsannahme ist P = {Pϑ : ϑ ∈ Θ}, wobei Pϑ die µ-Dichte pϑ (x) = c(ϑ) · exp(ϑT (x)) für ϑ ∈ Θ und x ∈ X besitzt.
Ferner nehmen wir an, dass Θ ein offenes Intervall in R ist. Ist dann ϕ ein
unverfälschter Test zum Niveau α für H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 , d.h.
Eϑ0 (ϕ) = α und inf ϑ∈K Eϑ (ϕ) ≥ α, so folgt aus Lemma 2.4.9
d
Eϑ (ϕ)|ϑ=ϑ0 = Eϑ0 (ϕ T ) − α Eϑ0 (T ) = 0,
dϑ
(2.6.6)
da Eϑ (ϕ) in ϑ0 ein Minimum besitzt.
Der abschließende Satz zeigt, dass diese gegenüber der Unverfälschtheit abgeschwächte Bedingung (2.6.6) ausreicht, um die Existenz eines gleichmäßig
besten unverfälschten Tests nachzuweisen.
Satz 2.6.7. Es sei P = {Pϑ : ϑ ∈ Θ} eine einparametrige Exponentialfamilie
mit natürlichem Parameterraum Θ = offenes Intervall in R. Wähle ϑ0 ∈ Θ.
Dann existiert für das Testproblem H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 ein
gleichmäßig bester unverfälschter Test ϕ∗ zum Niveau α ∈ (0, 1) der Gestalt:

/ [c1 , c2 ]
 1, falls T (x) ∈
∗
δj , falls T (x) = cj , j = 1, 2, x ∈ X .
ϕ (x) =
(2.6.8)

0, falls T (x) ∈ (c1 , c2 )
Dabei werden die Konstanten cj , δj ∈ [0, 1], j = 1, 2 so bestimmt, dass
Eϑ0 (ϕ∗ ) = α und Eϑ0 (ϕ∗ T ) = α Eϑ0 (T ).
(2.6.9)
Darüber hinaus gilt
Eϑ (ϕ∗ ) = sup{Eϑ (ϕ) : ϕ ∈ Φ mit Eϑ0 (ϕ) = α,
(2.6.10)
Eϑ0 (ϕ T ) = α Eϑ0 (T )}, ϑ ∈ K.
58
Beweis: Siehe Satz 2.70 in Witting, (1985) Mathematische Statistik, Teubner, Stuttgart.
2
Beispiel 2.6.11. Es seien X1 , . . . , Xn unabhängige B(1, ϑ)-verteilte Zufallsvariablen, ϑ ∈ Θ := (0, 1). Gesucht ist ein gleichmäßig bester unverfälschter
Test zum Niveau α für das Testproblem H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 .
Die Familie der Verteilungen Pϑ = B(1, ϑ)n von X = (X1 ,P
. . . , Xn ) bildet
eine einparametrige Exponentialfamilie mit T (x1 , . . . , xn ) = ni=1 xi . Daher
ist (2.6.8), (2.6.9) eine Lösung, wobei die Werte cj , δj wegen Pϑ ∗ T = B(n, ϑ)
gem. (2.6.9) aus der B(n, ϑ0 )-Verteilung zu bestimmen sind.
Bei n = 24 unabhängigen Wiederholungen eines Experimentes mit zufälligem
Ausgang und einer unbekannten Erfolgswahrscheinlichkeit ϑ ∈ (0, 1) haben
5
sich T = 12 Erfolge eingestellt. Es ist für α = 0, 05 zwischen H : ϑ0 = 16
5
und K : ϑ 6= 16 zu unterscheiden. Aus (2.6.9) ergeben sich c1 = 3, c2 = 12,
δ1 = 0, 757 und δ2 = 0, 398.
Es erfolgt keine strikte Ablehnung von H, sondern es wird mit der Wahrscheinlichkeit 0,398 verworfen.
59
Kapitel 3
REDUKTION
STATISTISCHER
ENTSCHEIDUNGEN
3.1
Problemstellung
In den Abschnitten 2.5 und 2.6 haben wir gesehen, dass alle optimalen Lösungen der dort behandelten Testprobleme stets von der Form ϕ∗ = ψ ◦T waren,
d.h. die Werte ϕ∗ (x) optimaler Tests hingen über T (x) von der Stichprobe x
ab.
Wie wir in diesem Kapitel sehen werden, gibt es auch bei anderen statistischen Entscheidungsproblemen häufig Stichprobenfunktionen (Statistiken)
T , so dass man sich bei der Suche nach einer optimalen Lösung auf solche
Entscheidungsfunktionen beschränken kann, die nur von T abhängen. Um
also in solchen Fällen eine Entscheidung zu treffen, benötigt man also nicht
die volle Information über ϑ ∈ Θ, die in der Stichprobe x ∈ X enthalten ist,
sondern lediglich diejenige, welche durch T (x) gegeben ist.
Statistiken mit einer solchen Eigenschaft werden wir in einem noch zu präzisierenden Sinn suffizient (erschöpfend, hinreichend) nennen.
Beispiel 3.1.1. Es seien x1 , . . . , xn die Realisationen von n unabhängigen
und identisch B(1, ϑ)-verteilten Zufallsvariablen X1 , . . . , Xn mit unbekannter Erfolgswahrscheinlichkeit P (X1 = 1) = ϑ ∈ Θ := (0, 1). Wegen der
Unabhängigkeit der Einzelversuche kommt es nicht auf die Reihenfolge
der
P
Versuchsergebnisse an, sondern lediglich auf die Gesamtzahl ni=1 xi der Erfolge. Betrachten wir die zu X1 , . . . , Xn gehörige Verteilungsannahme P =
{Pϑ = B(1, ϑ)n , ϑ ∈ Θ}, so hängt
Pϑ ({x1 , . . . xn }) = ϑ
Pn
i=1
60
xi
· (1 − ϑ)n−
Pn
i=1
xi
P
nur von der Gesamtanzahl T (x1 , . . . , xn ) = ni=1 xi der Erfolge ab, so dass
anschaulich T (x) die selbe Information über den unbekannten Parameter ϑ
enthält wie die Stichprobe x = (x1 , . . . , xn ) selbst.
Pn
In diesem Fall wird man vermuten, dass T (x) =
i=1 xi eine suffiziente
Statistik ist.
Beispiel 3.1.2. Liegt eine einparametrige Exponentialfamilie P einem Experiment zugrunde, also Wahrscheinlichkeitsmaße Pϑ auf (X , B) mit µ-Dichten
der Form c(ϑ) exp(q(ϑ)T ), wobei T : X → R B, B-messbar ist, so wird man
auch hier vermuten, dass die Kenntnis über x keine bessere Information über
ϑ ∈ Θ liefert, als diejenige, die man durch T (x) gewinnt. Dadurch reduziert
sich das Entscheidungsprolem, etwa die Bestimmung optimaler Lösungen für
Testprobleme dahingehend, dass man von der i.A. n-dimensionalen Zufallsgröße X = (X1 , . . . , Xn ) zur eindimensionalen Zufallsgröße T (x) übergeht
und optimale Lösungen nur noch unter Funktionen einer Variablen zu bestimmen braucht.
Es wird sich zeigen, dass für die meisten der von uns betrachteten Klassen
von Wahrscheinlichkeitsverteilungen Statistiken T : (X , B) → (Y, G) existieren, die in dem Sinn suffizient sind, dass sie eine Reduktion statistischer
”
Entscheidungsverfahren“ im obigen Sinn ermöglichen.
Betrachten wir etwa die Verteilungsannahme P = {Pϑ = B(1, ϑ)n : ϑ ∈ Θ =
n
n
(0, 1)} aus
PnBeispiel 3.1.1 auf (X , B) = ({0, 1} , P({0, 1}) ) und die Statistik
T (x) = i=1 xi , so ist für jedes A ∈ B die bezüglich Pϑ gebildete bedingte
Wahrscheinlichkeit von A unter dem Ereignis {T = k} für k = 0, 1, . . . n
unabhängig von dem Parameter ϑ ∈ Θ:
Pϑ (A ∩ {T = k})
Pϑ ({T = k})
Pn
Pn
P
i=1 xi (1 − ϑ)n− i=1 xi
x∈A∩{T =k} ϑ
=
n
ϑk (1 − ϑ)n−k
k
P
k
n−k
x∈A∩{T =k} ϑ (1 − ϑ)
=
n
ϑk (1 − ϑ)n−k
k
|A ∩ {T = k}|
=
, k = 0, 1, . . . , n
n
Pϑ (A|{T = k}) =
k
Somit kann also bei gegebenen T = k keine zusätzliche Information über
ϑ ∈ Θ gewonnen werden, d.h. die gesamte Abhängigkeit dieses Modells P
”
von dem unbekannten Parameter ϑ ∈ Θ steckt in T (x)“.
61
Genauer gilt ∀ϑ ∈ Θ und ∀B ∈ B:
Pϑ (B) =
n
X
Pϑ (B ∩ {T = k})
k=0
=
n
X
k=0
=
n
X
Pϑ (B|{T = k}) ·Pϑ (T = k)
{z
}
|
=:h(B,k)
h(B, k) · Pϑ (T = k)
Zk=0
h(B, k) (Pϑ ∗ T )(dk),
=
{0,1,...,n}
wobei h(B, k) =
|B∩{T =k}|
(nk)
unabhängig von ϑ ist.
Damit wird für allgemeine statistische Modelle eine Präzisierung des Begriffs
Suffizienz“ nahe gelegt: T : (X , B) → (Y, G) heißt suffizient für eine Ver”
teilungsannahme P = {Pϑ : ϑ ∈ Θ}, falls für alle B ∈ B die bedingte
Wahrscheinlichkeit (bzgl. Pϑ ) von B ∈ B bei gegebenen T unabhängig von
ϑ ∈ Θ ist.
3.2
Bedingte Erwartungswerte und bedingte
Wahrscheinlichkeiten
Der folgende Satz ist etwa in Gänssler, P. und Stute, W. (1977), Wahrscheinlichkeitstheorie, Springer, Heidelberg, Satz 1.2.24, bewiesen.
Satz 3.2.1. Es sei X eine beliebige nicht-leere Menge, (Y, G) ein messbarer
Raum und T : X → Y eine beliebige Abbildung. Dann existiert zu jeder
T −1 (G) = {T −1 (G) : G ∈ G}–messbaren Abbildung f : X → R eine Gmessbare Abbildung g : Y → R, so dass f = g ◦ T .
Definition 3.2.2. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A eine subσ-Algebra von B, d.h. A ⊂ B, A ist σ-Algebra, B ∈ B und X ∈ L1 (X , B, P ).
Dann heißt
EP (X|A) := E(X|A)
Z
Z
:=
Z ∈ L1 (X , A, P ) : ∀A ∈ A :
X dP =
Z dP
A
die bedingte Erwartung von X bei gegebenen A (bzgl. P ) und
P (B|A) := EP (1B |A)
die bedingte Wahrscheinlichkeit von B bei gegebenen A.
62
A
Satz 3.2.3. Unter den Voraussetzungen von 3.2.2 gilt
(i) E(X|A) 6= ∅,
(ii) Z1 , Z2 ∈ E(X|A) ⇒ Z1 = Z2 P-f.s.,
(iii) Z1 ∈ E(X|A), Z2 : (X , A) → (R, B) mit Z1 = Z2 P-f.ü. ⇒ Z2 ∈
E(X|A)
Beweis:
(i) Es sei zunächst X ≥ 0. Dann wird durch
Z
Q(A) :=
X dP, A ∈ A,
A
ein endliches (wegen 0 ≤ EP (X) < ∞) Maß auf A definiert mit Q P . Also existiert nach demR Satz von Radon-Nikodym 2.1.3 ein Z0 ∈
L1 (X , A, P ) mit Q(A) = A Z0 dP , A ∈ A, d.h. Z0 ∈ E(X|A). Für
ein beliebiges X ∈ L1 (X , B, P ) existieren Z1 ∈ E(X + |A) und Z2 ∈
E(X − |A), wobei X + = max(0, X), X − = max(0, −X), X = X + − X − .
Dann ist Z := Z1 − Z2 ∈ E(X|A).
(ii) ∀A ∈ A:
Z
Z
Z
Z2 dP.
X dP =
Z1 dP =
A
A
A
Mit A := {Z1 > Z2 } ∈ A bzw. A0 := {Z1 < Z2 } ∈ A folgt die
Behauptung.
(iii) Folgt unmittelbar aus obiger Gleichung.
2
Lemma 3.2.4. Falls
(i) A = {X , ∅} ⇒ E(X|A) = {E(X)}
(ii) A = B ⇒ X ∈ E(X|A).
Beweis:
(i) Eine Abbildung f : X → R ist messbar bzgl. {∅, X } ⇔ f ist konstant;
also f ∈ E(X|A) ⇒ fR = const. R
⇒ E(f ) = const = X f dP = X X dP = E(X).
(ii) A = B ⇒ X ist A-messbar.
⇒ X ∈ E(X|A)
63
2
Konvention 3.2.5. Es ist üblich jedes Z ∈ E(X|A) ebenfalls als bedingte
Erwartung von X bei gegebenem A zu bezeichnen und hierfür ebenfalls das
Symbol E(X|A) (dann aufgefasst als Zufallsvariable) zu verwenden. Dasselbe
gilt für P (B|A).
Satz 3.2.6. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum und A eine subσ-Algebra von B. Sei X, Xn ∈ L1 (X , B, P ), n ∈ N, sowie a, b ∈ R. Dann
gilt:
R
R
(i) ∀A ∈ A
E(X|A)
dP
=
X dP , speziell E(X) = E(E(X|A))
A
A
(ii) X = X1 P-f.s. ⇒ E(X|A) = E(X1 |A) P-f.s.
(iii) X = a P-f.s. ⇒ E(X|A) = a P-f.s.
(iv) E(aX1 + bX2 |A) = a · E(X1 |A) + b · E(X2 |A) P-f.s.
(v) X ≥ 0 P-f.s. ⇒ E(X|A) ≥ 0 P-f.s.
(vi) X1 ≤ X2 P-f.s. ⇒ E(X1 |A) ≤ E(X2 |A) P-f.s.
(vii) Xn ↑n∈N X P-f.s. ⇒ supn∈N E(Xn |A) = E(X|A) P-f.s.
(viii) X A-messbar ⇒ X = E(X|A) P-f.s.
Beweis:
(i) Definition von E(X|A)
(ii) Setze B := {E(X1 |A) > E(X|A)} ∈ A
Z
Z
Z
Z
E(X1 |A) dP
X1 dP =
⇒
E(X|A) dP =
X dP =
B
B
B
B
Z
⇒
E(X1 |A) − E(X|A) dP = 0
{z
}
B|
>0 auf B
⇒ P (B) = 0.
Vertauschen von X1 und X liefert die Behauptung.
(iii) folgt aus (ii)
(iv) folgt aus der Linearität des Integrals
64
(v) Setze B := {E(X|A) < 0} ∈ A
Z
Z
X dP ≥ 0
E(X|A) dP =
B
B | {z }
<0 auf B
⇒ P (B) = 0.
(vi) folgt aus (iv) und (v): 0 ≤ E(X2 − X1 |A) = E(X2 |A)−E(X1 |A) P-f.s.
| {z }
≥0 P-f.s.
(vii) Aus (vi) folgt supn∈N E(Xn |A) = limn∈N E(Xn |A) P-f.s.
Z
Z
mon. Konvergenz
⇒ ∀B ∈ A :
lim E(Xn |A) dP
=
lim
E(Xn |A) dP
n∈N B
B n∈N
Z
=
lim
Xn dP
n∈N B
Z
mon. Konvergenz
=
lim Xn dP
B n∈N
Z
=
X dP, P-f.s.
B
(viii) X A-messbar ⇒ X ∈ E(X|A); 3.2.3 (ii) ⇒ X = E(X|A) P-f.s.
2
Satz 3.2.7. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A eine sub-σAlgebra von B und X ∈ L1 (X , B, P ).
Falls die σ–Algebren X −1 (B) := {X −1 (B) : B ∈ B} und A unabhängig
sind bzgl. P , d.h. P (B ∩ A) = P (B) · P (A), B ∈ X −1 (B), A ∈ A, so gilt
E(X|A) = E(X) P-f.s.
Beweis: Nach Voraussetzung sind für jedes A ∈ A die Zufallsvariablen 1A
c
und X unabhängig bzgl. P , denn 1−1
A (B) = {∅, X , A, A } ⊂ A. Also gilt für
A∈A
Z
Z
X dP = E(1A · X) = E(1A )E(X) =
E(X) dP.
A
A
Da E(X) als konstante Funktion A-messbar ist, folgt die Behauptung aus
Lemma 3.2.3 (ii).
2
Satz 3.2.8. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A1 , A2 sub-σAlgebren von B mit A1 ⊂ A2 . Dann gilt:
E(E(X|A1 )|A2 )
P-f.s.
P-f.s.
= E(X|A1 ) = E(E(X|A2 )|A1 )
65
Beweis: E(X|A1 ) ist A1 -messbar und damit auch A2 -messbar; 3.2.6 (viii)
⇒ E(E(X|A1 )|A2 ) = E(X|A1 ) P-f.s.
Es sei nun A ∈ A1 ⊂ A2 , dann:
Z
Z
Z
Def.
Def.
X dP =
E(X|A2 ) dP =
E(E(X|A2 )|A1 ) dP
A
A
A
Da dies für alle A ∈ A1 gilt, folgt aus der Gleichheit von erstem und letztem
Term
E(X|A1 ) = E(E(X|A2 )|A1 ) P-f.s.
2
Satz 3.2.9. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A eine sub-σAlgebra von B und X ∈ L1 (X , B, P ), Y : X → R A-messbar mit der Eigenschaft XY ∈ L1 (X , B, P ). Dann gilt
R
R
(i) ∀A ∈ A.
XY dP = A Y E(X|A) dP
A
(ii) E(XY |A) = Y E(X|A) P-f.s.
+
−
Beweis: O.E. sei X ≥ 0, sonst betrachte man X =
R X − X . Wir knüpfen
an den Beweis von 3.2.3 (i) an und setzen Q(A) := A X dP , A ∈ A. Dann ist
Q ein endliches Maß auf A mit Q P und besitzt eine Dichte Z0 = E(X|A)
bzgl. P . Wir erhalten somit für ein beliebiges A ∈ A
Z
Z
Z
Z
XY dP =
Y dQ =
Y Z0 dP/A =
Y E(X|A) dP.
A
A
A
A
(ii) folgt aus (i) und der Definition von E(XY |A), da Y E(X|Y ) A-messbar
ist.
2
Definition 3.2.10. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, (Y, G) ein
messbarer Raum, X ∈ L1 (X , B, P ), B ∈ B und T : (X , B) → (Y, G). Dann
heißt
(i) E(X|T ) := E(X|
T −1 (G)
| {z }
) die bedingte Erwartung von X bei
:={T −1 (G):G∈G}⊂B
gegebenem T ,
(ii) P (B|T ) := P (B|T −1 (G)) = E(1B |T −1 (G)) die bedingte Wahrscheinlichkeit von B bei gegebenem T .
Satz 3.2.1 impliziert die folgende Aussage:
66
Satz 3.2.11. Unter den Voraussetzungen von Definition 3.2.10 existiert zu
jeden E(X|T ) eine G-messbare Funktion g : Y → R mit
E(X|T ) = g ◦ T
Satz 3.2.12. Unter den Voraussetzungen von Definition 3.2.10 sind für eine
G-messbare Funktion g : Y → R die beiden folgenden Aussagen äquivalent:
(i) g ◦ T = E(X|T ) P-f.s.
(ii) g ∈ L1 (Y, G, P ∗ T ) und
Z
Z
g d(P ∗ T ) =
X dP,
G ∈ G.
T −1 (G)
G
Beweis: (i) ⇒ (ii): Für G ∈ G gilt:
Z
Z
3.2.6(i)
X dP
=
E(X|T ) dP
T −1 (G)
T −1 (G)
Z
(i)
g ◦ T dP
=
T −1 (G)
Z
=
(1T −1 (G) )(g ◦ T ) dP
Z
=
(1G ◦ T )(g ◦ T ) dP
Z
=
(1G · g) ◦ T dP
Z
=
1G · g d(P ∗ T )
Z
=
g d(P ∗ T )
G
(ii) ⇒ (i): ∀G ∈ G:
Z
Z
g ◦ T dP
(1G · g) ◦ T dP
=
T −1 (G)
Z
(1G · g) d(P ∗ T )
=
Z
g d(P ∗ T )
=
(ii)
ZG
=
X dP ;
T −1 (G)
da g ◦ T T −1 (G)-messbar ist, folgt g ◦ T = E(X|T ) P-f.s.
67
2
Definition 3.2.13. Es seien die Voraussetzungen von 3.2.10 erfüllt. Dann
heißt
EP (X|T = ·) := E(Y |T = ·)
:= {G ∈ L1 (Y, G, P ∗ T ) :
Z
Z
∀G ∈ G :
g d(P ∗ T ) =
X dP
T −1 (G)
G
= {g : (Y, G) → (R, B) : g ◦ T = E(X|T ) P-f.s.}
die bedingte Erwartung von X unter der Hypothese T = · bzw. Faktorisierung der bedingten Erwartung von X bzgl. T :
E(X|T ) = E(X|T = ·) ◦ T
Satz 3.2.14. Unter den Voraussetzungen von 3.2.10 gilt
(i) E(X|T = ·) 6= ∅,
(ii) g1 , g2 ∈ E(X|T = ·) ⇒ g1 = g2 (P ∗ T )-f.ü.
(iii) g1 ∈ E(X|T = ·) und g2 : (Y, G) → (R, B) mit g1 = g2 (P ∗ T )-f.ü.
⇒ g2 ∈ E(X|T = ·)
Beweis: Teil (i) folgt aus 3.2.3 (i) und 3.2.11.
Teil (ii): ∀G ∈ G:
Z
Z
Z
g1 d(P ∗ T ) =
X dP =
g2 d(P ∗ T ).
T −1 (G)
G
G
Mit G := {g1 > g2 } ∈ G bzw. G0 := {g1 < g2 } ∈ G folgt die Behauptung.
Teil (iii) folgt unmittelbar aus obiger Gleichung.
2
Hinsichtlich der Verwendung des Symbols E(X|T = ·) gilt das Entsprechende
wie bei der Konvention 3.2.5.
Für E(X|T = ·) gelten die zu 3.2.6 analogen Eigenschaften.
Falls T (x) = y, so schreibt man
E(X|T )(x) = (E(X|T = ·) ◦ T )(x)
= E(X|T = ·)(T (x))
| {z }
=y
= E(X|T (x) = y)
= E(X|T = y).
68
3.3
Suffiziente σ-Algebren und suffiziente Statistiken
Definition 3.3.1. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen auf (X , B). Eine sub-σ-Algebra A von B heißt suffizient für P/B,
falls
\
∀B ∈ B :
P (B|A) 6= ∅,
P ∈P
d.h. falls für jedes B ∈ B eine von P ∈ P unabhängige Version der bedingten
Wahrscheinlichkeit von B bei gegebenem A existiert.
Eine Abbildung T : (X , B) → (Y, G) heißt suffizient für P/B, falls A :=
T −1 (G) suffizient für P/B ist.
Es sei T : (X , B) → (Y, G) suffizient für P/B ⇒ ∀P ∈ P
∀B ∈ B:
Z
P (B)
=
3.2.6(i)
=
3.2.1
=:
=
=
1B dP
Z
dP
EP (1B |T )
| {z }
= P (B|T )
| {z }
unabhängig von P
gB ◦ T
Z
gB ◦ T dP
Z
gB d(P ∗ T )
Bemerkung 3.3.2. Es sei P/B = P eine Familie von Wahrscheinlichkeitsmaßen auf (X , B). Dann gilt:
(i) B ist suffizient für P/B
(ii) Jede P/B suffiziente sub-σ-Algebra A von B ist suffizient für jede Teilfamilie P0 von P.
(iii) Es sei (Y, G) ein messbarer Raum und T : X → Y eine für P/B suffiziente Statistik
⇒
∀B ∈ B ∃gB : (Y, G) → (R, B)
∀G ∈ G ∀P ∈ P : P (B ∩ T
−1
Z
gB d(P ∗ T )
(G)) =
G
69
(iv) Es sei Y eine beliebige Menge T : X → Y eine beliebige Abbildung ⇒
GT := {G ⊂ Y : T −1 (G) ∈ B} ist eine σ-Algebra auf Y und T ist B, GT messbar. Man nennt T suffizient für P/B, wenn T −1 (GT ) suffizient für
P/B ist.
(v) Ist P = {Pϑ : ϑ ∈ Θ} eine parametrische Familie von Wahrscheinlichkeitsmaßen auf (X , B), so nennt man A bzw. T suffizient für ϑ ∈ Θ,
wenn A bzw. T suffizient für P/B ist.
Beweis:
(i) folgt aus 1B ∈
T
P ∈P
B∈B
P (B|B),
| {z }
EP (1B |B)
(ii) ist trivial
(iii) Für beliebiges B ∈ B sei hB ∈
T
P ∈P
P (B|T −1 (G)) mit 3.2.1 folgt
∃gB : (Y, G) → (R, B) : hB = gB ◦ T
⇒ ∀G ∈ G ∀P ∈ P :
P (B ∩ T
−1
Z
(G)) =
1B∩T −1 (G) dP
Z
1B · 1T −1 (G) dP
=
Z
=
1B dP
T −1 (G)
Z
=
hB dP
T −1 (G)
Z
gB ◦ T dP
=
T −1 (G)
Z
(gB ◦ T ) · 1T −1 (G) dP
=
Z
(gB ◦ T ) · (1G ◦ T ) dP
=
Z
gB · 1G d(P ∗ T )
=
Z
gB d(P ∗ T ).
=
G
2
70
Beispiel 3.3.3. Es sei G eine Gruppe endlicher Ordnung von bijektiven
B, B-messbaren Abbildungen, und
g : X → X , A := {B ∈ B : ∀g ∈ G : g(B) = B}
die σ-Algebra der G-invarianten Mengen in B und P = P/B die Familie aller
G-invarianten Wahrscheinlichkeitsmaße P auf (X , B), d.h. P ∗ g = P , g ∈ G.
Dann gilt
1 X
(1B ◦ g) ∈ P (B|A), B ∈ B, P ∈ P,
(3.3.4)
hB :=
|G| g∈G
d.h. A ist suffizient für P/B.
Beweis: Da für ein beliebiges aber festes g 0 ∈ G mit g auch g ◦ g 0 die ganze
Gruppe G durchläuft, gilt
∀g ∈ G : hB ◦ g −1 = hB
und damit folgt
−1 −1
g(h−1
B (A)) = (hB ◦ g ) (A)
= h−1
B (A) , A ∈ A, B ∈ B.
d.h. hB ist A-messbar.
Für B ∈ B gilt
Z
P (B ∩ A) =
hB dP,
A ∈ A, P ∈ P.
A
Denn aus 1A = 1A ◦ g, A ∈ A, g ∈ G folgt:
Z
XZ
1B ◦ g dP
|G| ·
hB dP =
A
A
g∈G
=
XZ
=
XZ
X
=
X
1B · 1A d(P ∗ g)
X
g∈G
=
(1B ◦ g)(1A ◦ g) dP
X
g∈G
(P ∗ g)(B ∩ A)
g∈G
P (B ∩ A)
g∈G
= |G| · P (B ∩ A)
2
Zwei Spezialfälle:
71
(i) Es sei (X , B) = (Rn , Bn ) und G die Gruppe der Ordnung n! derjenigen
Abbildungen g : Rn → Rn , die den Permutationen der n Koordinaten entsprechen. Dann ist A die σ-Algebra derjenigen Borelmengen des
Rn , die mit x ∈ Rn auch alle Punkte enthalten, die aus x durch Permutation der Koordinaten hervorgeht. Es sei P die Gesamtheit aller
Wahrscheinlichkeitsmaße auf (Rn , Bn ) und P0 := {P n : P ∈ P}. Dann
besteht P0 aus G-invarianten Wahrscheinlichkeitsmaßen
auf (Rn , Bn )
Qn
n
n
[denn (P ∗ g)(B1 × · · · × Bn ) = i=1 P (Bi ) = P (B1 × · · · × Bn ),
Bi ∈ B, i = 1, . . . , n; g ∈ G ⇒ P n ∗ g = P ]. Somit ist A nach 3.3.3
suffizient für P0 .
(ii) Es sei (X , B) = (R, B) und G := {idR , −idR } die Spieglungsgruppe
(am Nullpunkt). Dann ist A die Gesamtheit aller um 0 symmetrischen
Borel-Mengen von R, d.h. A = {B ∈ B : B = −B = {−x, x ∈ B}}. A
ist suffizient für die Familie aller um 0 symmetrischen Wahrscheinlichkeitsmaße auf (R, B), d.h. P (B) = P (−B), B ∈ B.
Da A = T −1 (B) mit T (x) := |x|, x ∈ R, ist also T suffizent für die
Familie aller um 0 symmetrischen Wahrscheinlichkeitsmaße auf (R, B).
Lemma 3.3.5. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen
auf (X , B). Eine sub-σ-Algebra A von B ist genau dann suffizient für P/B,
falls
\
\
EP (f |A) 6= ∅
L1 (X , B, P ) :
∀f ∈
P ∈P
P ∈P
T
T
Beweis: T⇒“: Für f = 1B , B ∈ B ist P ∈P EP (1B |A) = P ∈P P (B|A) 6= ∅.
”
Für f ∈ P ∈P L1 (X , B, P ) folgt die Behauptung durch
Pn algebraische Induktion (d.h. die Behauptung gilt für f = 1B ⇒ f = i=1 αi 1Bi =: e einfache
Funktion ⇒ f = limn→∞ en mit e1 ≤ e2 ≤ . . . ⇒ f = f + − f − ) unter Verwendung von 3.2.6
⇐“: Offensichtlich
2
”
Satz 3.3.6. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen
auf (X , B). Sind dann A0 , A1 sub-σ-Algebren auf B mit A0 ⊂ A1 (⊂ B), so
gilt:
(i) Falls A0 suffizient ist für P/B ⇒ A0 ist suffizient für P/A1
(ii) Falls A0 suffizient ist für P/A1 und A1 ist suffizient für P/B ⇒ A0
ist suffizient für P/B.
Beweis:
72
(i) ist offensichtlich
T
T
(ii) Sei B ∈ B und h1B ∈ P ∈P P (B|A1 ) . Da h1B ∈ P ∈P L1 (X , A1 , P )
und da
T A0 suffizient ist für P/A1 folgt nach 3.3.5 die Existenz von
hB ∈ P ∈P EP (h1B |A0 ). Nach 3.2.8 gilt für alle P ∈ P
EP (h1B |A0 ) = EP (EP (1B |A1 )|A0 ) = EP (1B |A0 ) = P (B|A0 ) P-f.s.
T
also hB ∈ P ∈P P (B|A0 ).
2
Definition 3.3.7. Für eine Familie von Wahrscheinlichkeitsmaßen auf (X , B)
sei
(
)
X
X
P L :=
ck Pk : ck ≥ 0, Pk ∈ P, k ∈ N,
ck = 1 .
k∈N
k∈N
Beachte dass P ⊂ P L und dass die Elemente von P L Wahrscheinlichkeitsmaße auf (X , B) sind.
Satz 3.3.8. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen
auf (X , B) und A eine sub-σ-Algebra von B. Dann gilt:
T
T
T
(i) ∀f ∈ P ∈P L1 (X , B, P ), f ≥ 0: P ∈P EP (f |A) = P ∈P L EP (f |A)
(ii) Ist A suffizient für P/B, so auch für P L /B.
Beweis:
T
(i) Wegen P ⊂ P L gilt ⊃“. Ist andererseits f0 ∈ P ∈P EP (f |A), so folgt
”
∀A ∈ A und ∀P ∈ P L :
!
Z
Z
X
f0 dP =
f0 d
c k Pk
A
A
=
X
Z k∈N
ck ·
f0 dPk
A
k∈N
=
X
Z
ck ·
k∈N
Z
=
f dP,
A
d.h. f0 ∈
T
P ∈P L
EP (f |A).
(ii) ist eine unmittelbare Folgerung aus (i).
73
f dPk
A
2
Lemma 3.3.9. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen
auf (X , B) und A eine sub-σ-Algebra von B. Dann gilt:
(i) Ist A suffizient für P/B, so gilt für jedes P ∈ P und jedes P̂ ∈ P L mit
P/B P̂ /B:
dP/A
dP/B
⊂
dP̂ /A
dP̂ /B
d.h. ∀P ∈ P ∃A-meßbare Dichte von P/B bzgl. P̂ /B.
(ii) Falls ein P̂ ∈ P L mit P/B P̂ /B existiert und falls ∀P ∈ P gilt
dP/A
dP̂ /A
⊂
dP/B
dP̂ /B
so gilt ∀B ∈ B
P̂ (B|A) ⊂
\
P (B|A).
P ∈P
Insbesondere ist dann A suffizient für P/B.
Beweis:
(i) A
T ist nach Voraussetzung suffizient fürTP/B ⇒ ∀B ∈ B ∃ hB ∈
P ∈P L P (B|A).
P ∈P P (B|A); Nach 3.3.8 (i) folgt hB ∈
L
Es seien nun P ∈ P und P̂ ∈ P mit P/B P̂ /B beliebig vorgegeben
und es sei fˆ ∈ ddP/A
. Dann gilt ∀B ∈ B:
P̂ /A
Z
P (B)
=
hB dP
hB
ist
A
messbar
Z
=
hB dP/A
X
Z
ˆ
hB · fˆ dP̂
hB · f dP̂ /A =
ZX
Z X
1B · fˆ dP̂ =
fˆ dP̂
ZX
=
3.2.9(i)
=
X
d.h. fˆ ∈
B
dP/B
dP̂ /B
(ii) Es sei B ∈ B und P ∈ P. Ferner sei p ∈
74
dP/B
dP̂ /B
A-meßbar und fB ∈
P̂ (B|A). Dann gilt ∀A ∈ A:
Z
fB dP
Z
=
A
3.2.9(i)
fB p dP̂
ZA
=
1B p dP̂
ZA
=
p dP̂
A∩B
=
=
P (A ∩ B)
Z
1B dP
A
d.h. fB ∈ P (B|A). Da B ∈ B und P ∈ P beliebig waren, folgt die
Behauptung.
2
Satz 3.3.10 (Faktorisierungssatz von Halmos-Savage, Neyman-Kriterium).
Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen
auf (X , B), welche durch ein σ-endliches Maß µ/B dominiert wird. Dann gilt:
(i) Eine sub-σ-Algebra A von B ist suffizient für P/B:⇔
∃h : (X , B) → (R+ , B ∩ R+ ) und ∀ϑ ∈ Θ
dPϑ /B
∃fϑ : (X , A) → (R+ , B ∩ R+ ) : fϑ · h ∈
dµ/B
(3.3.11)
(ii) Eine Statistik T : (X , B) → (Y, G) ist suffizient für P/B :⇔
∃h : (X , B) → (R+ , B ∩ R+ ) und ∀ϑ ∈ Θ
∃gϑ : (Y, G) → (R+ , B ∩ R+ ) : (gϑ ◦ T ) · h ∈
(3.3.12)
dPϑ /B
dµ/B
Beweis:
L
(i) ⇒“ A sei suffizient für P/B. Mit 2.1.13
31 folgt: ⇒ ∃P̂ ∈ P
P auf−kSeite
”
mit P/B P̂ /B. Da auch P̂ /B = k∈N 2 Pk µ/B, existiert also
ein 0 ≤ h ∈
dP̂ /B
dµ/B
(Satz von Radon-Nikodym).
3.3.9 (i) ⇒ ∀ϑ ∈ Θ ∃fϑ ∈
dPϑ /B
,
dP̂ /B
fϑ A-messbar ⇒ fϑ · h ∈
Z
Pϑ (B) =
Z
fϑ · h dµ.
fϑ dP̂ =
B
B
75
dPϑ /B
,
dµ/B
denn:
⇐“ Gilt umgekehrt (3.3.11), so wird durch die Festlegung
”
Z
µ0 (B) :=
h dµ
B
ein Maß µ0 /B definiert und es gilt ∀B ∈ B; ∀ϑ ∈ Θ:
Z
Z
Pϑ (B) =
fϑ · h dµ =
fϑ dµ0 ,
B
d.h. fϑ ∈
∀B ∈ B :
dPϑ /B
,
dµ0 /B
B
ϑ ∈ Θ. Mit 2.1.13 folgt: ∃P̂ ∈ P L mit P/B P̂ /B ⇒
P̂ (B) =
X
=
X
2−k Pϑk (B)
k∈N
−k
Z
B
Z X
=
fϑk dµ0
2
k∈N
2−k fϑk dµ0
B k∈N
Z
=
ĥ dµ0
B
P
dP̂ /B
wobei ĥ := k∈N 2−k fϑk ∈ dµ
und h ist A-messbar, als Linearkom0 /B
bination A-messbarer fϑ . Wegen
Z
P̂ (ĥ = 0) =
ĥ dµ0 = 0
{ĥ=0}
folgt Pϑ (ĥ = 0) = 0, ϑ ∈ Θ (wegen P P̂ ). Setzen wir nun
pϑ :=
fϑ
so ist pϑ A-messbar und pϑ ∈
ĥ
· 1{ĥ>0} , ϑ ∈ Θ,
dPϑ /B
,
dP̂ /B
denn es gilt ∀B ∈ B:
Pϑ (B) = Pϑ (B ∩ {ĥ > 0}) + Pϑ (B ∩ {ĥ = 0})
|
{z
}
=0
Z
=
1{ĥ>0} fϑ dµ0
B
Z
=
ĥ · pϑ dµ0
B
Z
=
pϑ dP̂ .
B
3.3.9 (ii) ⇒ Behauptung.
76
(ii) folgt aus (i) mit A = T −1 (G) und Satz 3.2.1.
2
Beispiel 3.3.13. (i) Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine k-parametrige
Exponentialfamilie auf (X , B). (2.4.2) und Bemerkung 2.4.4 ⇒ bzgl.
eines geeignet gewählten σ-endlichen Maßes µ/B existieren µ-Dichten
von Pϑ , ϑ ∈ Θ, der Form
!
k
X
c(ϑ) · exp
qi (ϑ) · Ti (x)
i=1
mit B-meßbaren Ti : X → R, i = 1, . . . , k. Damit folgt gemäß (3.3.12)
mit
!
k
X
gϑ (y1 , . . . , yk ) := c(ϑ) · exp
qi (ϑ) · yi , h ≡ 1,
i=1
dass die durch T (x) := (T1 (x), . . . , Tk (x)) definierte Abbildung von
(X , B) → (Rk , Bk ) eine für P/B suffiziente Statistik ist.
(ii) Es sei P = P/Bn = {Pϑ : N (µ, σ 2 )n : ϑ = (µ, σ 2 ) ∈ Θ = R × (0, ∞)}.
Aus 2.4.3, folgt, dass die durch
!
n
n
X
X
T (x1 , . . . , xn ) :=
x2i ,
xi
i=1
i=1
definierte Abbildung von (Rn , Bn ) → (R2 , B2 ) eine für P/Bn suffiziente
Statistik ist.
(iii) Es sei P = P/P({0, 1}n ) = {Pϑ = B(1, ϑ)n : ϑ ∈ Θ = (0, 1)}. Dann ist
P eine einparametrige Exponentialfamilie in
T (x1 , . . . , xn ) =
n
X
xi .
i=1
Also ist die Abbildung T : ({0, 1}n , P({0, 1}n )) → (R, B) eine für P
suffiziente Statistik, vgl. 3.1.1.
77
3.4
Einige Anwendungen in der Statistik
Satz 3.4.1 (Rao-Blackwell). Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) und T : (X , B) → (Y, G)
eine suffiziente Statistik für ϑ ∈ Θ. Dann gibt es zu jeder erwartungstreuen
Schätzfunktion g eines reellen Parameters κ(ϑ) eine erwartungstreue Schätzfunktion h für κ(ϑ), nämlich
\
h∈
Eϑ (g|T )
ϑ∈Θ
mit gleichmäßig nicht größerer Varianz, d.h.
∀ϑ ∈ Θ : Eϑ ((h − κ(ϑ)2 )) ≤ Eϑ ((g − κ(ϑ))2 ).
(3.4.2)
Ist Eϑ ((g − κ(ϑ))2 ) < ∞, so gilt:
Eϑ ((h − κ(ϑ)2 )) = Eϑ ((g − κ(ϑ))2 ) ⇔ g = h
Pϑ -f.ü.
(3.4.3)
T
Beweis: Aus Lemma 3.3.5 folgt: ∃ h ∈ ϑ∈Θ Eϑ (g|T ). Mit 3.2.6 (i) ergibt
sich:
∀ϑ ∈ Θ : Eϑ (h) = Eϑ (Eϑ (g|T )) = Eϑ (g) = κ(ϑ),
d.h. h ist erwartungstreu für κ(ϑ).
Zum Beweis von (3.4.2) können wir o.E. annehmen, dass Eϑ ((g − κ(ϑ))2 ) <
∞. Dann gilt:
Eϑ ((g − κ(ϑ))2 ) = Eϑ (((g − h) + (h − κ(ϑ)))2 )
= Eϑ ((g − h)2 ) + Eϑ ((h − κ(ϑ))2 )
≥ Eϑ ((h − κ(ϑ))2 ),
da das beim Ausquadrieren auftretende gemischte Produkt verschwindet:
Eϑ (h · (h − κ(ϑ)))
Eϑ (Eϑ (g|T ) · (h − κ(ϑ)))
Eϑ (Eϑ (g · (h − κ(ϑ))|T ))
=
=
3.2.6(i)
=
Eϑ (g · (h − κ(ϑ))).
Ferner gilt nun
Eϑ ((h − κ(ϑ)2 )) = Eϑ ((g − κ(ϑ))2 ) ⇔ g = h Pϑ -f.ü.
2
Durch Bildung der bedingten Erwartung bei gegebener suffizienter Statistik
T kann man also aus einer erwartungstreuen Schätzfunktion g mit Varϑ (g) <
∞, ϑ ∈ Θ, eine bessere gewinnen, falls nicht bereits (3.4.3) erfüllt ist.
78
Durch abermalige Bildung der bedingten Erwartung bzgl. derselben suffizienten Statistik T erreicht man jedoch keine weitere Verbesserung, denn
∀ϑ ∈ Θ:
Eϑ (h|T ) = Eϑ (Eϑ (g|T )|T ) = Eϑ (g|T ) = h Pϑ -f.ü.
Satz 3.4.4. Es sei P = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) und T : (X , B) → (Y, G) eine für P/B suffiziente Statistik.
Dann gibt es zu jedem Test ϕ einen nur von T abhängigen Test ψ ◦ T , mit
ψ : Y → [0, 1] G-messbar, mit derselben Gütefunktion.
T
Beweis: Sei ϕ ∈ Φ. Aus Lemma 3.2.5 folgt: ∃ h ∈ ϑ∈Θ Eϑ (ϕ(T )). Mit Satz
3.2.1 ergibt sich:
∃ ψ : (Y, G) → (R, B) : h = ψ ◦ T.
Da ∀ϑ ∈ Θ : 0 ≤ ψ ◦ T ≤ 1 Pϑ -f.ü. (da ϕ ∈ [0, 1]), kann ψ so festgelegt
werden, dass 0 ≤ ψ ≤ 1 gilt: ψ 0 := ψ · 1{0≤ψ≤1} . Dann ist ψ 0 G-messbar,
0 ≤ ψ 0 ≤ 1 und ψ = ψ 0 Pϑ ∗ T -f.ü.. Sei ϑ ∈ Θ :
Eϑ (ψ ◦ T ) = Eϑ (h) = Eϑ (Eϑ (ϕ|T ))
3.2.6(i)
=
Eϑ (ϕ).
2
3.5
Vollständigkeit
Im Zusammenhang mit dem Satz von Rao-Blackwell stellt sich die Frage,
ob die mit Hilfe dieses Satzes gewonnene erwartungstreue Schätzfunktion
bereits eine gleichmäßig kleinste Varianz besitzt (UMVU-Schätzer: uniformly minimum variance unbiased extimator). Um hierfür eine einfache hinreichende Bedingung angeben zu können, wird der Begriff der Vollständigkeit
eingeführt.
Definition 3.5.1. P = P/B = {Pϑ : ϑ ∈ Θ} sei eine Familie von Wahrscheinlichkeitsmaßen auf (X , B).
(i) P/B heißt vollständig :⇔ ∀f : (X , B) → (R, B), Eϑ (f ) = 0, ∀ϑ ∈ Θ ⇒
∀ ϑ ∈ Θ : f = 0 Pϑ -f.ü.
(ii) T : (X , B) → (Y, G) ist vollständig für ϑ ∈ Θ :⇔ P/T −1 (G) ist
vollständig.
79
Nach 3.2.1 ist T : (X ,RB) → (Y, G) genau dann vollständig für ϑ ∈ Θ, wenn:
∀f : (Y, G) → (R, B), Y f d(Pϑ ∗T ) = 0 , ϑ ∈ Θ, ⇒ f = 0 Pϑ ∗T -f.ü., ϑ ∈
Θ.
⇔ [∀ϑ ∈ Θ Eϑ (f (T )) = 0, f : (Y, G) → (R, B) ⇒ f ◦ T = 0 Pϑ -f.ü.]
Die Bedeutung der Vollständigkeit“ beruht vor allem auf dem folgenden
”
Satz.
Satz 3.5.2 (Lehmann-Scheffé). Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine
Familie von Wahrscheinlichkeitsmaßen auf (X , B). Ferner sei die Statistik
T : (X , B) → (Y, G) suffizient und vollständig für ϑ ∈ Θ. Dann gilt: Falls
es überhaupt eine erwartungstreue Schätzfunktion g für den reellen Parameter κ(ϑ) gibt, so existiert auch eine solche erwartungstreue Schätzfunktion Tmit Minimalvarianz. Diese optimale Schätzfunktion ist gegeben durch
h ∈ ϑ∈Θ Eϑ (g|T ).
Beweis: Sei g eine erwartungstreue Schätzfunktion für κ(ϑ). Nach 3.3.5
existiert
\
h∈
Eϑ (g|T )
ϑ∈Θ
mit h erwartungstreu für κ(ϑ) (siehe Beweis zu 3.4.1). Dieses h besitzt Minimalvarianz: Angenommen dies wäre nicht der Fall ⇒ ∃ g1 erwartungstreue
Schätzfunktion
für κ(ϑ) und ∃ ϑ1 ∈ Θ: Varϑ1 (g1 ) < Varϑ1 (h). 3.4.1 ⇒ für
T
h1 ∈ ϑ∈Θ Eϑ (g1 |T ): Varϑ1 (h1 ) ≤ Varϑ1 (g1 ) < Varϑ1 (h). Da h und h1 T −1 (G)messbar sind und Eϑ (h) = Eϑ (h1 ) (= κ(ϑ)), ϑ ∈ Θ, ⇒ Eϑ (h−h1 ) = 0, ϑ ∈ Θ
Vollständigkeit
⇒
h − h1 = 0 Pϑ -f.ü. bzw. h = h1 Pϑ -f.ü. ⇒ Varϑ1 (h) =
Varϑ1 (h1 ), Widerspruch. Mit diesem Widerspruch ist der Satz bewiesen. 2
n
Beispiel 3.5.3. Es sei P = P/P({0,
) := {Pϑ = B(1, ϑ)n : ϑ ∈ Θ =
P1}
n
n
(0, 1)}. Dann ist T (x1 , . . . , xn ) :=
i=1 xi , (x1 , . . . , xn ) ∈ X = {0, 1} ,
80
vollständig für ϑ ∈ Θ: Sei f ∈ (R, B) → (R, B) mit der Eigenschaft:
0 = Eϑ (f ◦ T )
Z
f ◦ T dB(1, ϑ)n
=
ZX
=
f d(B(1, ϑ)n ∗ T )
Z{0,1,...,n}
=
f dB(n, ϑ)
=
{0,1,...,n}
n
X
f (i)B(n, ϑ)({i})
i=0
n
X
n i
=
f (i)
ϑ (1 − ϑ)n−i
i
i=0
i
n
X
n
ϑ
n
f (i)
,
= (1 − ϑ)
i
1−ϑ
i=0
also

i
k
X

n 
 ϑ  = 0,
f (i)
i |1 {z
− ϑ}
i=1
ϑ∈Θ
ϑ∈Θ
=:z
n
i
i
d.h. das Polynom p(z) := f (i) z , z ∈ R, hat mehr als n Nullstellen ⇒
p(z) = 0, z ∈ R. Aus dem Identitätssatz für Polynome folgt f (i) = 0,
i = 0, 1, . . . , n, d.h. f = 0 B(n, ϑ)-f.ü., ϑ ∈ Θ. Außerdem ist T suffizient für
ϑ ∈ Θ nach 3.3.13(iii).
Da g(x1 , . . . xn ) := x̄ = n1 T (x1 , . . . , xn ) ein erwartungstreuer
Schätzer für
T
κ(ϑ) = ϑ ist, der nur von T abhängt, also g ∈ ϑ∈Θ Eϑ (g|T ) folgt aus 3.5.2,
dass g ein UMVU-Schätzer für κ(ϑ)
Pn = ϑ ist. 2
P
1
1
Ferner ist h(x1 , . . . , xn ) := n−1 i=1 (xi − x̄) = n−1
( ni=1 x2i − n x̄2 ) ein
erwartungstreuer Schätzer für κ(ϑ) = ϑ · (1 − ϑ). DaTx2i = xi (∈ {0, 1}),
1
hängt h = n−1
T − n1 T 2 nur von T ab, also h ∈ ϑ∈Θ Eϑ (h|T ). Somit
ist h aufgrund von 3.5.2 ein erwartungstreuer Schätzer für ϑ(1 − ϑ) mit
Minimalvarianz.
Hingegen ist für n > 1 die Familie P/P({0, 1}n ) nicht vollständig: Bezeichnet πi i = 1, 2 die Projektion von {0, 1}n auf die i-te Komponente , d.h.
81
πi (x1 , . . . , xn ) = xi , i = 1, 2, so gilt für beliebiges ϑ ∈ Θ = (0, 1):
Z
Z
Z
π1 − π2 dPϑ =
π1 dPϑ − π2 dPϑ
Z
=
π1 (x1 , . . . , xn )(B(1, ϑ)n d(x1 , . . . , xn ))
n
{0,1}
Z
−
π2 (x1 , . . . , xn )(B(1, ϑ)n d(x1 , . . . , xn ))
n
{0,1}
Z
=
x1 (B(1, ϑ)n ∗ π1 ) dx1
{0,1}
Z
−
x2 (B(1, ϑ)n ∗ π2 ) dx1
{0,1}
Z
Z
=
x1 B(1, ϑ)(dx1 ) −
x2 B(1, ϑ)(dx2 )
{0,1}
{0,1}
= ϑ − ϑ = 0.
Es gilt jedoch nicht π1 = π2
Pϑ -f.ü.
Die Bedeutung des Satzes von Lehmann-Scheffé liegt darin, dass man für
die wichtigsten Klassen von Wahrscheinlichkeitsverteilungen vollständige und
suffiziente Statistiken angeben kann.
Satz 3.5.4. P = P/B = {Pϑ : ϑ ∈ Θ} sei eine k-parametrige Exponentiafamilie derart, dass der zugehörige natürliche Parameterraum Θ̃ ⊂ Rk wenigstens einen inneren Punkt besitzt. Dann ist die k–dimensionale Statistik
T = (T1 , . . . , Tk ) suffizient und vollständig für ϑ ∈ Θ.
Beweis: Witting, H (1985): Mathematische Statistik, Teubner, Satz 3.39.
2
Beispiel 3.5.5. Sei P = P/Bn = {Pϑ = N (µ, P
σ 2 )n : ϑ P
= (µ, σ 2 ) ⊂ Θ =
n
R × (0, ∞)}. Nach 3.3.13(ii) ist T (x1 , . . . , xn ) = ( i=1 x2i , ni=1 xi ) suffizient
für ϑ ∈ Θ (n ≥ 2).
3.5.4 ⇒ T ist auch vollständig
Pnfür ϑ ∈ Θ. 2Folglich sind g(x1 , . . . , xn ) := x̄ bzw.
−1
h(x1 , . . . , xn ) := (n − 1)
i=1 (xi − x̄) erwartungstreue Schätzfunktionen
für κ(ϑ) = µ bzw. κ(ϑ) = σ 2 , d.h. nur von T abhängen, aufgrund von 3.5.2
also solche mit Minimalvarianz.
Lemma 3.5.6. P1 , P2 seien zwei Familien von Wahrscheinlichkeitsmaßen
auf (X , B) mit P1 ⊂ P2 ist P1 /B vollständig und es gilt P2 /B P1 /B (d.h.
∀F ∈ B : [∀P1 ∈ P1 : P1 (F ) = 0 ⇒ ∀P ∈ P2 : P (F ) = 0]), so ist auch P2
vollständig.
82
R
R
Beweis: Es sei g : (X , B) → (R, B) mit g dP = 0 für P ∈ P2 ⇒ g dP = 0
für P ∈ P1 ⇒ g = 0 P -f.ü., P ∈ P1 ⇒ ∀ P ∈ P1 : P ({g 6= 0}) = 0 ⇒
∀ P ∈ P2 : P ({g 6= 0}) = 0, d.h. g = 0 P -f.ü., P ∈ P2 .
2
Definition 3.5.7. Es sei µ ein beliebiges Maß auf (X , B) und C ∈ B mit
0 < µ(C) < ∞. Dann heißt das Wahrscheinlichkeitsmaß
Z
µ(B ∩ C)
1
, B∈B
1C dµ =
PC (B) :=
µ(C) B
µ(C)
µ-Gleichverteilung auf C.
Satz 3.5.8. Sei µ ein σ–endliches Maß auf (X , B), dann ist die Familie
P = P/B = {PC : C ∈ B mit 0 < µ(C) < ∞} aller µ–Gleichverteilungen
vollständig.
R
R
1
g · 1C dµ = g dPC = 0, PC ∈
Beweis: Sei g : (X , B) → (R, B) mit µ(C)
R
P. Dann gilt C g dµ = 0, C ∈ B mit 0 < µ(C)S< ∞. Hieraus folgt wegen der
σ-Endlichkeit von µ, dass g = 0 µ-f.ü.: X = n∈NRXn , Xn ∈ B, µ(Xn ) < ∞
n ∈ N und X1 , X2 , . . . sind paarweise disjunkt; C∩Xn g dµ = 0, C ∈ B,
n ∈ N,
[
C=
(C ∩ Xn ) ⇒ g = 0 µ-f.ü.
n∈N
mit C1 := {g > 0} und C2 := {g < 0} folgt g = 0 PC -f.ü., PC ∈ P, da
PC µ.
2
Satz 3.5.9. Sei µ ein σ-endliches Maß auf (X , B). Dann ist die Familie
aller Wahrscheinlichkeitsmaße auf (X , B), die absolut stetig sind bzgl. µ,
vollständig.
Beweis: Wegen P1 /B := {PC : C ∈ B mit 0 < µ(C) < ∞} ⊂ P/B genügt
es wegen 3.5.6 und 3.5.8 zu zeigen, dass P/B P1 /B. Dazu sei B0 ∈ B
mit PC (B0 ) = 0 für alle PC ∈ P1 . Angenommen ∃P0S
∈ P mit P0 (B0 ) > 0 ⇒
µ(B0 ) > 0 und wegen der σ-Endlichkeit von µ (B0 = n∈N (Xn ∩B0 )) existiert
C0 = Xn0 ∩ B0 mit 0 < µ(C0 ) < ∞ ⇒ PC0 (B0 ) = µ(B0 ∩ C0 )/µ(C0 ) = 1, im
Widerspruch zu PC0 (B0 ) = 0.
2
83
3.6
Die Ungleichung von Cramér-Rao und
die Fisher-Information
In diesem Abschnitt sei P = {Pϑ : ϑ ∈ Θ} und Θ ⊂ R. Ist T : (X , B) →
(R, B) eine erwartungstreue Schätzfunktion für κ(ϑ), so ist die Varϑ (T ) ein
Gütemaß für den Schätzer T . Wir werden unter gewissen Regulatitätsvoraussetzungen eine nur von ϑ abhängige untere Schranke für Varϑ (T ) herleiten.
Liegt dann Varϑ (T ) in der Nähe dieser unteren Schranke, so ist dies eine
Aussage über die Güte von T .
Regularitätsvoraussetzungen 3.6.1. Wir fordern an P, T und x:
(i) Es existiere ein geeignetes σ-endliches Maß µ/B und Dichten pϑ ∈
dPϑ /dµ mit pϑ (x) > 0, ϑ ∈ Θ, x ∈ X .
(ii) Θ ⊂ R sei offen und die Abbildung Θ 3 ϑ 7→ pϑ (x) sei stetig differenzierbar, x ∈ X
∂
log(pϑ ) < ∞, ϑ ∈ Θ
(iii) 0 < Varϑ ∂ϑ
∂
(iv) E ∂ϑ
log(pϑ ) = 0, ϑ ∈ Θ
(v) T sei eine erwartungstreue Schätzfunktion für κ. Dabei sei κ differenzierbar und es gelte
Z
∂
∂
0
κ(ϑ) = T (x)
log(pϑ (x)) Pϑ (dx)
κ (ϑ) =
∂ϑ
∂ϑ
Motivation von Bedingung (v):
Z
0
0
κ (ϑ) =
T (x) Pϑ (dx)
0
Z
=
T (x)pϑ (x) µ(dx)
Z
!
=
T (x)p0ϑ (x) µ(dx)
Z
p0 (x)
=
T (x) ϑ
pϑ (x) µ(dx)
pϑ (x)
Z
∂
=
T (x)
log(pϑ (x)) Pϑ (dx).
∂ϑ
84
Satz 3.6.2 (Ungleichung von Cramér und Rao). Unter den Regularitätsbedingungen 3.6.1 gilt
Varϑ (T ) ≥
(κ0 (ϑ))2
,
I(ϑ)
ϑ ∈ Θ.
(3.6.3)
Dabei ist
I(ϑ) = Eϑ
2 !
∂
log(pϑ )
,
∂ϑ
ϑ ∈ Θ,
die Fisher-Informationsfunktion.
Beweis: Setze lϑ :=
∂
∂ϑ
log(pϑ ). Gemäß 3.6.1 gilt dann
(iv)
(v)
Eϑ ((T − κ(ϑ)) lϑ ) = Eϑ (T lϑ ) = κ0 (ϑ).
Es folgt aus der Cauchy-Schwarz-Ungleichung
(κ0 (ϑ))2 = (Eϑ ((T − κ(ϑ)) · lϑ ))2
≤ Eϑ ((T − κ(ϑ))2 ) · Eϑ (lϑ2 )
= Varϑ (T ) · I(ϑ)
2
Beispiel 3.6.4. Sei X = (N ∪ {0})n , B = P(X ) und P = {Pϑn : ϑ ∈ (0, ∞)},
wobei Pϑ die Poisson-Verteilung zum Parameter ϑ > 0 bezeichne, d.h.
ϑk
, k = 0, 1, 2 . . . .
k!
P
Setze S(x) = ni=1 xi , x = (x1 , . . . , xn ) ∈ X . Dann ist
Pϑ ({k}) = e−ϑ
∂
log(pϑ )
∂ϑ
!
n
n
X
X
∂
=
−nϑ +
xi · log ϑ −
log(xi !)
∂ϑ
i=1
i=1
lϑ =
1
= −n + S(x) · .
ϑ
Da T1 (x) := S(x)/n eine erwartungstreue Schätzfunktion von ϑ ist, folgt
wegen lϑ = nϑ (T1 − ϑ):
2 n
I(ϑ) = Eϑ
(T1 − ϑ)
ϑ
n2
Eϑ ((T1 − ϑ)2 )
=
ϑ2 Z
n2
=
(x1 − ϑ)2 Pϑ (dx)
ϑ2
ϑ
=
.
n
85
Also gilt mit κ(ϑ) = ϑ:
n
ϑ
(κ0 (ϑ))2
≥
I(ϑ)
2
1
= n
Varϑ (T1 ) =
ϑ
n
=
ϑ
d.h. T1 nimmt die Cramér-Rao-Schranke an, ist also ein erwartungstreuer
Schätzer mit Minimalvarianz.
S
Ferner ist T2 := 1 − n1 eine erwartungstreue Schätzung für κ(ϑ) := e−ϑ .
Da S suffizient und vollständig ist, ist T2 nach der Ungleichung von LehmannScheffé eine Schätzung für κ(ϑ) mit Minimalvarianz.
Da
Varϑ (T2 ) = e−2ϑ · eϑ/n − 1
und die Cramér-Rao-Schranke gleich
(κ0 (ϑ))2 /I(ϑ) =
ϑ −2ϑ
·e
n
ist, wird letztere also von keiner für κ(ϑ) erwartungstreuen Schätzung angenommen bzw. erreicht.
Bemerkung 3.6.5.
(i) Aus 3.6.1 (iii), (iv) folgt, dass
I(ϑ) = Varϑ (lϑ ) ∈ (0, ∞)
(ii) In (3.6.3) gilt genau dann das Gleichheitszeichen für ein ϑ ∈ Θ, wenn
T − κ(ϑ) und lϑ linear abhängig sind, d.h. ∃ cϑ ∈ R mit lϑ = cϑ · (T −
κ(ϑ)) Pϑ -f.ü.. In diesem Fall gilt I(ϑ) = |c(ϑ)| · |κ0 (ϑ)|.
(iii) Die Fischer Information I(ϑ) lässt sich deuten als eine Maßzahl für die
Genauigkeit, mit welcher der unbekannte Parameter ϑ (bzw. κ(ϑ)) aufgrund von vorliegenden Beobachtungen geschätzt werden kann. Dementsprechend heißt für eine erwartungstreue Schätzfunktion T von κ(ϑ)
unter den Regularitätsvoraussetzungen 3.6.1 die Abbildung
Θ 3 ϑ 7→
(κ0 (ϑ))2
Cramér-Rao-Schranke
=
Varϑ (T )
I(ϑ) · Varϑ (T )
Effizienz von T.
T heißt effiziente Schätzung für κ, falls die Effizienz von T konstant
gleich 1 ist, d.h., falls Varϑ (T ) die Cramér-Rao-Schranke erreicht für
alle ϑ ∈ Θ.
86
Beispiel 3.6.6. (i) Sei X = {0, 1}n , B = P(X ) und P = {B(1,
ϑ)n : ϑ ∈
P
n
Θ}. Dann ist pϑ (x) = ϑT (x) (1 − ϑ)n−T (x) mit T (x) =
i=1 xi , x =
(x1 , . . . , xn ), eine Dichte von B(1, ϑ)n bzgl. des Zählmaßes auf (X , B).
(x)
1
n
∂
log(pϑ (x)) = T (x)
− n−T
= ϑ(1−ϑ)
T (x) − ϑ . Da
Dann gilt lϑ = ∂ϑ
ϑ
1−ϑ
n
T (x)/n eine erwartungstreue Schätzfunktion für κ(ϑ) = ϑ ist, folgt aus
Bemerkung 3.6.5 (ii), dass T (x)/n sogar eine effiziente Schätzung für
n
.
ϑ ist mit I(ϑ) = ϑ(1−ϑ)
(ii) Sei (X , B, P) wie in Beispiel
Pn 3.6.4. Dann folgt aus den dortigen Überle1
gungen, dass T1 (x) = n i=1 xi eine effiziente Schätzung für κ(ϑ) = ϑ
ist und andererseits, dass für κ(ϑ) = e−ϑ keine effiziente Schätzung
existiert.
ENDE
87

Zugehörige Unterlagen

Blatt 2 - Theoretical Physics at University of Konstanz/Theoretische

Mathematische Statistik WS0910 - Lehrstuhl für Mathematik VIII

Zugehörige Unterlagen

Produkte

Unterstützung

Mathematische Statistik WS0910 - Lehrstuhl für Mathematik VIII

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können