vorläufige Gliederung - Universität Heidelberg

Werbung
Mathematische Statistik
Gliederung zur Vorlesung
im Wintersemester 2006/07
Markus Reiß
Universität Heidelberg
[email protected]
VORLÄUFIGE FASSUNG: 9. Februar 2007
Inhaltsverzeichnis
1 Einführende Beispiele
1
2 Entscheidungstheorie
2.1 Formalisierung eines statistischen
2.2 Minimax- und Bayes-Ansatz . . .
2.3 Das Stein-Phänomen . . . . . . .
2.4 Ergänzungen . . . . . . . . . . .
3 Dominierte Experimente und
3.1 Dominierte Experimente . .
3.2 Exponentialfamilien . . . .
3.3 Suffizienz . . . . . . . . . .
.
.
.
.
1
1
1
3
4
Suffizienz
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
5
5
5
6
Problems
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Testtheorie
7
4.1 Neyman-Pearson-Theorie . . . . . . . . . . . . . . . . . . . . . . 7
4.2 Bedingte Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3 Tests im Normalverteilungsmodell . . . . . . . . . . . . . . . . . 10
5 Schätztheorie
5.1 Momentenschätzer . . . . . . . . . . .
5.2 Maximum-Likelihood- und M-Schätzer
5.3 Effizienz . . . . . . . . . . . . . . . . .
5.4 Nichtparametrische Dichteschätzung .
I
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
12
13
14
1
Einführende Beispiele
• Modellierung
• Modelldiagnostik (QQ-Plot, Boxplot, empirische Korrelation)
• Median, Mittelwert, Ausreißer
• Konfidenzintervall
• Hypothesentest
• Klassifikation
• Vorhersage
2
2.1
Entscheidungstheorie
Formalisierung eines statistischen Problems
2.1 Definition. Ein Messraum (X, F ) versehen mit einer Familie (Pϑ )ϑ∈Θ
von Wahrscheinlichkeitsmaßen, Θ 6= ∅ beliebige Parametermenge, heißt
statistisches Experiment. Jede (F , S )-messbare Funktion Y : X → S heißt
Beobachtung oder Statistik mit Werten in (S, S ) und induziert das statistische
Experiment (S, S , (PYϑ )ϑ∈Θ ). Sind die Beobachtungen Y1 , . . . , Yn für jedes Pϑ
unabhängig und identisch verteilt, so nennt man Y1 , . . . , Yn eine mathematische
Stichprobe.
2.2 Definition. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Experiment. Eine
Entscheidungsregel ist eine messbare Abbildung ρ : X → A, wobei der Messraum
(A, A ) der sogenannte Aktionsraum ist. Jede Funktion l : Θ × A → [0, ∞) =:
R+ , die messbar im zweiten Argument ist, heißt Verlustfunktion. Das Risiko
einer Entscheidungsregel ρ bei Vorliegen des Parameters ϑ ∈ Θ ist
Z
R(ϑ, ρ) := Eϑ [l(ϑ, ρ)] =
l(ϑ, ρ(x)) Pϑ (dx).
X
2.3 Definition. Die Entscheidungsregel ρ heißt besser als eine Entscheidungsregel ρ0 , falls R(ϑ, ρ) 6 R(ϑ, ρ0 ) für alle ϑ ∈ Θ gilt und falls ein ϑ0 ∈ Θ mit
R(ϑ0 , ρ) < R(ϑ0 , ρ0 ) existiert. Eine Entscheidungsregel heißt zulässig, wenn es
keine bessere Entscheidungsregel gibt.
2.2
Minimax- und Bayes-Ansatz
2.4 Definition. Eine Entscheidungsregel ρ heißt minimax, falls
sup R(ϑ, ρ) = inf0 sup R(ϑ, ρ0 ),
ϑ∈Θ
ρ ϑ∈Θ
wobei sich das Infimum über alle Entscheidungsregeln ρ0 erstreckt.
1
2.5 Definition. Der Parameterraum Θ trage die σ-Algebra FΘ , die Verlustfunktion l sei produktmessbar und ϑ 7→ Pϑ (B) sei messbar für alle B ∈ F . Die a
priori-Verteilung π des Parameters ϑ ist gegeben durch ein Wahrscheinlichkeitsmaß auf (Θ, FΘ ) . Das zu π assoziierte Bayesrisiko einer Entscheidungsregel ρ
ist
Z Z
Z
l(ϑ, ρ(x)) Pϑ (dx) π(dϑ).
R(ϑ, ρ) π(dϑ) =
Rπ (ρ) := Eπ [R(ϑ, ρ)] =
Θ
Θ
X
ρ heißt Bayesregel oder Bayes-optimal (bezüglich π), falls
Rπ (ρ) = inf0 Rπ (ρ0 )
ρ
gilt, wobei sich das Infimum über alle Entscheidungsregeln ρ0 erstreckt.
2.6 Satz. Es liege die Situation aus der vorangegangenen Definition vor.
(a) Für jede Entscheidungsregel ρ gilt
sup R(ϑ, ρ) = sup Rπ (ρ),
π
ϑ∈Θ
wobei sich das zweite Supremum über alle a priori-Verteilungen π erstreckt. Insbesondere ist das Risiko einer Bayesregel stets kleiner oder
gleich dem Minimaxrisiko.
(b) Für eine Minimaxregel ρ gilt supπ Rπ (ρ) = inf ρ0 supπ Rπ (ρ0 ).
2.7 Definition. Definiere Ω := X × Θ und P̃ auf (Ω, F ⊗ FΘ ) gemäß
P̃(dx, dϑ) = Pϑ (dx)π(dϑ) (gemeinsame Verteilung von Beobachtung und Parameter). Bezeichne mit X und ϑ̄ die Koordinatenprojektionen von Ω auf X
bzw. Θ.
2.8 Satz. Eine Regel ρ ist Bayes-optimal, falls für P̃-f.a. x ∈ X gilt
ρ(x) = argmina∈A EP̃ [l(ϑ̄, a) | X = x].
2.9 Korollar. Für Θ ⊆ R, A = R und quadratisches Risiko (d.h. l(ϑ, a) = (a −
ϑ)2 ) ist die bedingte Erwartung ϑ̂π := EP̃ [ϑ̄ | X = x] Bayes-optimaler Schätzer
von ϑ bezüglich der a priori-Verteilung π.
2.10 Definition. Es sei X eine (S, S )-wertige Zufallsvariable auf (Ω, F , P).
Eine Abbildung K : S × F → [0, 1] heißt reguläre bedingte Wahrscheinlichkeit
oder Markovkern bezüglich X, falls
(a) A 7→ K(x, A) ist Wahrscheinlichkeitsmaß für alle x ∈ S;
(b) x 7→ K(x, A) ist messbar für alle A ∈ F ;
(c) K(X, A) = P(A | X) := E[1A | X] P-f.s. für alle A ∈ F .
2
2.11 Satz. Es sei (Ω, d) ein vollständiger, separabler Raum mit Metrik d und
Borel-σ-Algebra F (polnischer Raum). Für jede Zufallsvariable X auf (Ω, F , P)
existiert eine reguläre bedingte Wahrscheinlichkeit K bezüglich X. K ist P-f.s.
eindeutig bestimmt, d.h. für eine zweite solche reguläre bedingte Wahrscheinlichkeit K 0 gilt
P(∀A ∈ F : K(X, A) = K 0 (X, A)) = 1.
2.12 Definition. Die Verteilung von ϑ̄ unter der regulären bedingten Wahrscheinlichkeit P̃(• | X = x) von P̃ heißt a posteriori-Verteilung des Parameters
gegeben die Beobachtung X = x.
2.13 Satz. Für jede Entscheidungsregel ρ gilt:
(a) Ist ρ minimax und eindeutig in dem Sinn, dass jede andere Minimax-Regel
die gleiche Risikofunktion besitzt, so ist ρ zulässig.
(b) Ist ρ zulässig mit konstanter Risikofunktion, so ist ρ minimax.
(c) Ist ρ eine Bayesregel (bzgl. π) und eindeutig in dem Sinn, dass jede andere
Bayesregel (bzgl. π) die gleiche Risikofunktion besitzt, so ist ρ zulässig.
(d) Die Parametermenge Θ bilde einen metrischen Raum mit Borel-σ-Algebra
FΘ . Ist ρ eine Bayesregel (bzgl. π), so ist ρ zulässig, falls (i) Rπ (ρ) < ∞;
(ii) für jede nichtleere offene Menge U in Θ gilt π(U ) > 0; (iii) für jede
Regel ρ0 ist ϑ 7→ R(ϑ, ρ0 ) stetig.
2.14 Korollar. Es sei X1 , . . . , Xn eine N (µ, 1)-verteilte mathematische Stichprobe mit µ ∈ R unbekannt.
Bezüglich quadratischem Risiko ist das arithmeti1 Pn
sche Mittel X̄ = n i=1 Xi zulässig und minimax als Schätzer von µ.
2.15 Definition. Eine Verteilung π auf (Θ, FΘ ) heißt ungünstigste a
priori-Verteilung zu einer gegebenen Verlustfunktion, falls
inf Rπ (ρ) = sup inf Rπ0 (ρ).
ρ
π0
ρ
2.16 Lemma. Gilt Rπ (ρπ ) = supϑ∈Θ R(ϑ, ρπ ) für eine a priori-Verteilung π
und ihre zugehörige Bayesregel ρπ , so folgt die Sattelpunktseigenschaft
∀π 0 ∀ρ0 : Rπ0 (ρπ ) 6 Rπ (ρπ ) 6 Rπ (ρ0 ).
Weiterhin ist ρπ minimax und π ungünstigste a priori-Verteilung.
2.3
Das Stein-Phänomen
2.17 Lemma. Es sei f : Rd → R eine Funktion, die Lebesgue-f.ü. absolut
stetig in jeder Koordinate ist. Dann gilt für Y ∼ N (µ, σ 2 Ed ) mit µ ∈ Rd ,
σ > 0, Ed = diag(1, . . . , 1) ∈ Rd×d und für alle i = 1, . . . , d
∂f
(Y )],
E[(µi − Yi )f (Y )] = −σ 2 E[ ∂x
i
∂f
sofern E[| ∂x
(Y )|] < ∞.
i
3
2.18 Satz. Es sei d > 3 und Y1 , . . . , Yn eine N (µ, Ed )-verteilte mathematische
Stichprobe mit µ ∈ Rd unbekannt. Dann gilt für den James-Stein-Schätzer
d−2
µ̂JS := 1 −
Ȳ
n|Ȳ |2
P
mit Ȳ := n1 ni=1 Yi , dass
Eµ [|µ̂JS − µ|2 ] =
h (d − 2)2 i d
d
− Eµ
< = Eµ [|Ȳ − µ|2 ].
2
2
n
n
n |Ȳ |
Insbesondere ist Ȳ bei quadratischem Risiko kein zulässiger Schätzer von µ im
Fall d > 3!
2.19 Satz. Es sei d > 3 und Y1 , . . . , Yn eine N (µ, Ed )-verteilte mathematische Stichprobe mit µ ∈ Rd unbekannt. Dann ist der James-Stein-Schätzer mit
positivem Gewicht
d−2
µ̂JS+ := 1 −
Ȳ ,
x+ := max(x, 0)
n|Ȳ |2 +
bei quadratischem Risiko besser als der James-Stein-Schätzer µ̂JS .
2.4
Ergänzungen
2.20 Definition. Zu vorgegebener Verlustfunktion l heißt eine Entscheidungsregel ρ unverzerrt, falls
∀ϑ, ϑ0 ∈ Θ : Eϑ [l(ϑ0 , ρ)] > Eϑ [l(ϑ, ρ)] =: R(ϑ, ρ).
2.21 Lemma. Es seien g : Θ → A ⊆ R und l(ϑ, ρ) = (ρ − g(ϑ))2 der quadratische Verlust. Dann ist eine Entscheidungsregel (ein Schätzer von g(ϑ))
ĝ : X → A mit Eϑ [ĝ 2 ] < ∞ und Eϑ [ĝ] ∈ g(Θ) für alle ϑ ∈ Θ genau dann
unverzerrt, wenn sie erwartungstreu ist, d.h. Eϑ [ĝ] = g(ϑ) für alle ϑ ∈ Θ gilt.
˙ 1 , A = [0, 1]. Für den Verlust l(ϑ, a) =
2.22 Lemma. Es sei Θ = Θ0 ∪Θ
l0 a1Θ0 (ϑ) + l1 (1 − a)1Θ1 (ϑ) ist eine Entscheidungsregel ρ (ein randomisierter Test von H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 ) genau dann unverzerrt, wenn sie
1
zum Niveau α := l0 l+l
unverfälscht ist, d.h.
1
∀ϑ ∈ Θ0 : Eϑ [ρ] 6 α,
∀ϑ ∈ Θ1 : Eϑ [ρ] > α.
2.23
Definition. Ein
Entscheidungskern
oder
randomisierte
Entscheidungsregel ρ : X × A → [0, 1] ist eine reguläre bedingte Wahrscheinlichkeit auf dem Aktionsraum (A, A ) mit der Interpretation, dass
bei Vorliegen der Beobachtung x gemäß ρ(x, •) eine Entscheidung zufällig
ausgewählt wird. Das zugehörige Risiko ist
hZ
i Z Z
R(ϑ, ρ) := Eϑ
l(ϑ, a) ρ(da) =
l(ϑ, a)ρ(x, da) Pϑ (dx).
X
A
A
2.24 Lemma. Es sei A ⊆ Rd konvex sowie l(ϑ, a) eine im zweiten Argument
konvexe Verlustfunktion. Dann gibt es zu jeder randomisierten Entscheidungsregel eine deterministische Entscheidungsregel, deren Risiko nicht größer ist.
4
3
Dominierte Experimente und Suffizienz
3.1
Dominierte Experimente
3.1 Definition. Ein statistisches Experiment (X, F , (Pϑ )ϑ∈Θ ) heißt dominiert
(von µ), falls es ein σ-endliches Maß µ auf F gibt, so dass Pϑ absolutstetig
bezüglich µ ist (Pϑ µ) für alle ϑ ∈ Θ. Die durch ϑ parametrisierte RadonNikodym-Dichte
d Pϑ
L(ϑ, x) :=
(x), ϑ ∈ Θ, x ∈ X,
dµ
heißt auch Likelihoodfunktion, wobei diese meist als durch x parametrisierte
Funktion in ϑ aufgefasst wird.
3.2 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein dominiertes
Experiment. DannP
gibt es ein
P
c
P
mit
c
>
0,
Wahrscheinlichkeitsmaß Q der Form Q = ∞
i
i
ϑ
i
i=1
i ci = 1,
ϑi ∈ Θ, so dass Pϑ Q für alle ϑ ∈ Θ gilt.
3.3 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein dominiertes Experiment mit produktmessbarer Likelihoodfunktion L(ϑ, x). Zu vorgegebener a priori-Verteilung π hat
die a posteriori-Verteilung von ϑ̄ gegeben X = x folgende Dichte bezüglich π:
Zxπ (ϑ) = R
3.2
L(ϑ, x)
1
0 , x) π(dϑ0 ) {
L(ϑ
Θ
R L(ϑ ,x)π(dϑ )>0},
0
0
ϑ∈Θ
(Bayesformel).
Exponentialfamilien
3.4 Definition. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein von µ dominiertes Experiment.
Dann heißt (Pϑ )ϑ∈Θ Exponentialfamilie (in η(ϑ) und T ), wenn k ∈ N, η : Θ →
Rk , C : Θ → R+ , T : X → Rk messbar und h : X → R+ messbar existieren, so
dass
d Pϑ
(x) = C(ϑ)h(x) exp(hη(ϑ), T (x)iRk ), x ∈ X, ϑ ∈ Θ.
dµ
T wird natürliche suffiziente Statistik von (Pϑ )ϑ∈Θ genannt. Sind η1 , . . . , ηk
linear unabhängige Funktionen und gilt für alle ϑ ∈ Θ die Implikation
λ0 + λ1 T1 + · · · + λk Tk = 0 Pϑ -f.s. ⇒ λ0 = λ1 = · · · = λk = 0
(1, T1 , . . . , Tk sind Pϑ -f.s. linear unabhängig), so heißt die Exponentialfamilie
k-parametrisch.
3.5 Definition. Bildet (Pϑ )ϑ∈Θ eine Exponentialfamilie (mit obiger Notation),
so heißt
Z
n
o
k Z := u ∈ R ehu,T (x)i h(x)µ(dx) ∈ (0, ∞)
X
ihr natürlicher Parameterraum. Die entsprechend mit u ∈ Z parametrisierte
Familie wird natürliche Exponentialfamilie in T genannt.
5
3.6 Lemma. Bildet (Pϑ )ϑ∈Θ eine (k-parametrische) Exponentialfamilie in η(ϑ)
und T (x), so bilden auch die Produktmaße
(P⊗n
ϑ )ϑ∈Θ eine (k-parametrische)
Pn
Exponentialfamilie in η(ϑ) und i=1 T (xi ) mit
n
Y
P
d P⊗n
n
ϑ
(x)
=
C(ϑ)
h(x
)
exp(hη(ϑ), ni=1 T (xi )iRk ),
i
⊗n
dµ
x ∈ Xn , ϑ ∈ Θ.
i=1
3.7 Satz. Es sei (Pϑ )ϑ∈Z eine Exponentialfamilie mit natürlichem Parameterraum Z ⊆ Rk und Darstellung
d Pϑ
(x) = C(ϑ)h(x) exp(hϑ, T (x)i) = h(x) exp(hϑ, T (x)i − A(ϑ)),
dµ
R
wobei A(ϑ) = log
h(x) exp(hϑ, T (x)i)µ(dx) . Ist ϑ̃ ein innerer Punkt von Z ,
so ist die erzeugende Funktion ψϑ̃ (s) = Eϑ̃ [ehT,si ] in einer Umgebung der Null
wohldefiniert und beliebig oft differenzierbar. Es gilt ψϑ̃ (s) = exp(A(ϑ̃ + s) −
A(ϑ̃)) für alle s mit ϑ̃ + s ∈ Z .
2A
dA
(ϑ̃) und Covϑ̃ (Ti , Tj ) = dϑdi dϑ
(ϑ̃).
Für i, j = 1, . . . , k folgt Eϑ̃ [Ti ] = dϑ
i
j
3.3
Suffizienz
3.8 Definition. Eine (S, S )-wertige Statistik T auf (X, F , (Pϑ )ϑ∈Θ ) heißt
suffizient (für (Pϑ )ϑ∈Θ ), falls für jedes ϑ ∈ Θ die reguläre bedingte Wahrscheinlichkeit von Pϑ gegeben T (existiert und) nicht von ϑ abhängt, d.h.
∃k ∀ϑ ∈ Θ, B ∈ F : k(T, B) = Pϑ (B | T ) := Eϑ [1B | T ]
Pϑ -f.s.
Statt k(t, B) schreiben wir P• (B | T = t) bzw. E• [1B | T = t].
3.9 Satz (Faktorisierungskriterium von Neyman). Es sei (X, F , (Pϑ )ϑ∈Θ ) ein
von µ dominiertes Experiment mit Likelihoodfunktion L sowie T eine (S, S )wertige Statistik. Dann ist T genau dann suffizient, wenn eine messbare Funktion h : X → R+ existiert, so dass für alle ϑ ∈ Θ eine messbare Funktion
gϑ : S → R+ existiert mit
L(ϑ, x) = gϑ (T (x))h(x)
für µ-f.a. x ∈ X.
3.10 Korollar. Die natürliche suffiziente Statistik einer Exponentialfamilie ist
in der Tat suffizient.
3.11 Satz (Rao-Blackwell). Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Experiment, A ⊆ Rk konvex und l(ϑ, a) eine im zweiten Argument konvexe Verlustfunktion. Ist T eine für (Pϑ )ϑ∈Θ suffiziente Statistik, so gilt für jede Entscheidungsregel ρ die Risikoabschätzung
∀ϑ ∈ Θ : R(ϑ, ρ̃) 6 R(ϑ, ρ)
mit ρ̃ := E• [ρ | T ].
3.12 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Experiment und T eine
suffiziente Statistik. Dann gibt es zu jedem randomisierten Test ϕ einen randomisierten Test ϕ̃, der nur von T abhängt und dieselbe Gütefunktion besitzt,
nämlich ϕ̃ = E• [ϕ | T ].
6
4
4.1
Testtheorie
Neyman-Pearson-Theorie
4.1 Definition. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Experiment mit Zer˙ 1 . Jede messbare Funktion ϕ : X → [0, 1] heißt (randomilegung Θ = Θ0 ∪Θ
sierter) Test. ϕ besitzt Niveau α ∈ [0, 1], falls Eϑ [ϕ] 6 α für alle ϑ ∈ Θ0 gilt.
Die Abbildung ϑ 7→ Eϑ [ϕ] heißt Gütefunktion von ϕ. Ein Test ϕ der Hypothese
H0 : ϑ ∈ Θ0 gegen die Alternative H1 : ϑ ∈ Θ1 ist ein gleichmäßig bester Test
zum Niveau α, falls ϕ Niveau α besitzt sowie für alle anderen Tests ϕ0 vom
Niveau α gilt
∀ϑ ∈ Θ1 : Eϑ [ϕ] > Eϑ [ϕ0 ].
ϕ heißt gleichmäßig bester unverfälschter Test zum Niveau α, falls ϕ unverfälscht zum Niveau α ist sowie für alle anderen unverfälschten Tests ϕ0 zum
Niveau α obige Ungleichung gilt.
4.2 Definition. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein (binäres) statistisches Experiment
mit Θ = {0, 1}. Bezeichnet pi , i = 1, 2, die Dichte von Pi bezüglich P0 + P1 , so
heißt ein Test der Form


falls p1 (x) > kp0 (x)
1,
ϕ(x) = 0,
falls p1 (x) < kp0 (x)


γ(x), falls p1 (x) = kp0 (x)
mit k ∈ R+ und γ(x) ∈ [0, 1] Neyman-Pearson-Test.
4.3 Satz (Neyman-Pearson-Lemma).
(a) Jeder Neyman-Pearson-Test ϕ ist ein (gleichmäßig) bester Test für H0 :
ϑ = 0 gegen H1 : ϑ = 1 zum Niveau E0 [ϕ].
(b) Für jedes vorgegebene α ∈ (0, 1) gibt es einen Neyman-Pearson-Test zum
Niveau α mit γ(x) = γ ∈ [0, 1] konstant.
4.4 Definition. Es seien (X, F , (Pϑ )ϑ∈Θ ) ein dominiertes Experiment mit
Θ ⊆ R und Likelihoodfunktion L(ϑ, x) sowie T eine reellwertige Statistik.
Dann hat die Familie (Pϑ )ϑ∈Θ monotonen Dichtequotienten (oder monotonen
Likelihoodquotienten) in T , falls
(a) ϑ 6= ϑ0 ⇒ Pϑ 6= Pϑ0 ;
(b) Für alle ϑ < ϑ0 gibt es eine monoton wachsende Funktion h(•, ϑ, ϑ0 ) : R →
R+ ∪{+∞} mit (Konvention a/0 := +∞ für a > 0)
L(ϑ, x)
= h(T (x), ϑ, ϑ0 )
L(ϑ0 , x)
für (Pϑ + Pϑ0 )-f.a. x ∈ X.
4.5 Satz. Ist (Pϑ )ϑ∈Θ mit Θ ⊆ R eine einparametrische Exponentialfamilie in
η(ϑ) und T , so hat sie monotonen Dichtequotienten, sofern η streng monoton
wächst.
7
4.6 Satz. Die Familie (Pϑ )ϑ∈Θ , Θ ⊆ R, besitze monotonen Dichtequotienten
in T . Für α ∈ (0, 1) und ϑ0 ∈ Θ gilt dann:
(a) Unter allen Tests ϕ für das einseitige Testproblem H0 : ϑ 6 ϑ0 gegen
H1 : ϑ > ϑ0 mit der Eigenschaft Eϑ0 [ϕ] = α gibt es einen Test ϕ∗ , der die
Fehlerwahrscheinlichkeiten erster und zweiter Art gleichmäßig minimiert,
nämlich

1, falls T (x) > k,

ϕ∗ (x) = 0, falls T (x) < k,


γ, falls T (x) = k,
wobei k ∈ R, γ ∈ [0, 1] gemäß Eϑ0 [ϕ∗ ] = α bestimmt werden.
(b) Dieser Test ϕ∗ ist gleichmäßig bester Test zum Niveau α für H0 : ϑ 6 ϑ0
gegen H1 : ϑ > ϑ0 .
(c) Für alle ϑ < ϑ0 gilt Eϑ [ϕ∗ ] 6 Eϑ0 [ϕ∗ ], wobei in den Fällen Eϑ [ϕ∗ ] ∈ (0, 1)
und Eϑ0 [ϕ∗ ] ∈ (0, 1) sogar die strikte Ungleichung gilt.
4.7 Satz (Verallgemeinertes NP-Lemma). Es seien (Pϑ )ϑ∈Θ eine Exponentialfamilie in η(ϑ) und T , L die zugehörige Likelihoodfunktion sowie ϑ0 , ϑ1 ∈ Θ
zwei Parameter. Erfüllt ein Test für H0 : ϑ = ϑ0 gegen H1 : ϑ = ϑ1 der Form


1,
ϕ(x) = 0,


γ,
falls L(ϑ1 , x) > kL(ϑ0 , x) + lT (x)L(ϑ0 , x)
falls L(ϑ1 , x) < kL(ϑ0 , x) + lT (x)L(ϑ0 , x)
falls L(ϑ1 , x) = kL(ϑ0 , x) + lT (x)L(ϑ0 , x)
mit k, l ∈ R+ und γ ∈ [0, 1] die Nebenbedingungen
Eϑ0 [ϕ] = α
und
Eϑ0 [T ϕ] = α Eϑ0 [T ],
so maximiert er die Güte Eϑ1 [ϕ] in der Menge aller Tests, die diese Nebenbedingungen erfüllen.
4.8 Satz. (Pϑ )ϑ∈Θ sei eine einparametrische Exponentialfamilie in η(ϑ) und
T . Θ ⊆ R sei offen, ϑ0 ∈ Θ und η ∈ C 1 (Θ) sei streng monoton (wachsend oder
fallend) mit η 0 (ϑ0 ) 6= 0. Für α ∈ (0, 1), c1 < c2 und γ1 , γ2 ∈ [0, 1] erfülle der
Test


1, falls T (x) < c1 oder T (x) > c2
∗
ϕ (x) = 0, falls T (x) ∈ (c1 , c2 )


γi , falls T (x) = ci , i = 1, 2
die Nebenbedingungen
Eϑ0 [ϕ∗ ] = α
Eϑ0 [T ϕ∗ ] = α Eϑ0 [T ].
und
Dann ist ϕ∗ gleichmäßig bester unverfälschter Test zum Niveau α für H0 : ϑ =
ϑ0 gegen H1 : ϑ 6= ϑ0 .
8
4.2
Bedingte Tests
4.9 Definition. Eine (S, S )-wertige Statistik T auf (X, F , (Pϑ )ϑ∈Θ ) heißt
vollständig (bezüglich Θ), falls für alle messbaren Funktionen f : S → R gilt
∀ϑ ∈ Θ : Eϑ [f (T )] = 0 (und existiert) ⇒ ∀ϑ ∈ Θ : Pϑ (f (T ) = 0) = 1.
4.10 Definition. Es sei Θ0 ⊆ Θ. Dann heißt ein Test ϕ α-ähnlich auf Θ0 , wenn
Eϑ [ϕ] = α für alle ϑ ∈ Θ0 gilt.
4.11 Satz. Ist T eine bezüglich Θ0 vollständige und suffiziente Statistik und ist
ϕ ein auf Θ0 α-ähnlicher Test, so gilt E• [ϕ | T ] = α Pϑ -f.s. für alle ϑ ∈ Θ0 .
4.12 Satz. Es sei (Pϑ )ϑ∈Θ eine k-parametrische natürliche Exponentialfamilie in T . Enthält Θ0 ⊆ Θ eine offene Menge im Rk , so ist T suffizient und
vollständig bezüglich Θ0 .
4.13 Satz. Gegeben sei die natürliche Exponentialfamilie
k
X
d Pϑ
(x) = C(ϑ)h(x) exp ϑ0 U (x) +
ϑi Ti (x) ,
dµ
x ∈ X, ϑ ∈ Θ,
i=1
sowie α ∈ (0, 1) und ein Punkt ϑ0 im Innern von Θ. Dann ist


1,
∗
ϕ (x) = 0,


γ(T (x)),
falls U (x) < K(T (x))
falls U (x) > K(T (x))
falls U (x) = K(T (x))
mit K(t) ∈ R, γ(t) ∈ [0, 1] derart, dass Eϑ0 [ϕ∗ | T ] = Eϑ00 [ϕ∗ | T ] = α Pϑ0 -f.s.,
ein gleichmäßig bester unverfälschter Test zum Niveau α von H0 : ϑ0 6 ϑ00
gegen H1 : ϑ0 > ϑ00 (d.h. Θ0 = {ϑ ∈ Θ | ϑ0 6 ϑ00 }, Θ1 = {ϑ ∈ Θ | ϑ0 > ϑ00 }).
4.14 Satz. Es liege die Situation des vorigen Satzes vor. Dann ist


1,
∗
ϕ (x) = 0,


γi (T (x)),
falls U (x) < K1 (T (x)) oder U (x) > K2 (T (x))
falls U (x) ∈ (K1 (T (x)), K2 (T (x)))
falls U (x) = Ki (T (x)), i = 1, 2,
mit Ki (t) ∈ R, γi (t) ∈ [0, 1] derart, dass
Eϑ00 [ϕ∗ | T ] = α und Eϑ00 [U ϕ∗ | T ] = α Eϑ00 [U | T ]
Pϑ0 -f.s.
ein gleichmäßig bester unverfälschter Test zum Niveau α von H0 : ϑ0 = ϑ00
gegen H1 : ϑ0 6= ϑ00 .
9
4.3
Tests im Normalverteilungsmodell
4.15 Satz. Es sei X1 , . . . , Xn eine N (µ, σ 2 )-verteilte mathematische Stichprobe mit µ ∈ R und σ > 0 unbekannt. Für σ0 > 0 ist ein gleichmäßig bester
unverfälschter Test von H0 : σ 6 σ0 gegen H1 : σ > σ0 zum Niveau α ∈ (0, 1)
gegeben durch

1, falls 12 Pn (Xi − X̄)2 > Kα
i=1
σ0
ϕ∗ (X1 , . . . , Xn ) =
Pn
1
0, falls 2 i=1 (Xi − X̄)2 6 Kα
σ
0
mit dem α-Fraktil Kα der χ2 (n − 1)-Verteilung:
Z
∞
Kα
2−(n−1)/2 (n−1)/2−1 −z/2
z
e
dz = α.
Γ((n − 1)/2)
4.16 Lemma. Sind Z1 , . . . , Zn unabhängig N (0, σ 2 )-verteilt sowie f : Rn →
R messbar mit f (cx) = f (x) für alle c > 0, x ∈ Rn , so ist f (Z1 , . . . , Zn )
Pn
2
√ Z̄
unabhängig von
und √ Z̄ 2
i=1 Zi . Insbesondere sind jeweils
(Zi −Z̄)2
i Zi
i
P
unabhängig von ni=1 Zi2 .
P
P
4.17 Satz. Es sei X1 , . . . , Xn eine N (µ, σ 2 )-verteilte mathematische Stichprobe
mit µ ∈ R und σ > 0 unbekannt. Ein gleichmäßig bester unverfälschter Test von
H0 : µ = µ0 gegen H1 : µ 6= µ0 zum Niveau α ∈ (0, 1) ist gegeben durch den
zweiseitigen t-Test
√
n(X̄ − µ0 )
,
ϕ∗ (X) = 1{|t(X)|>Kα/2 } , t(X) := q
1 Pn
2
(X
−
X̄)
i
i=1
n−1
mit dem α/2-Fraktil Kα/2 der t(n − 1)-Verteilung :
Z
∞
Kα/2
Γ(n/2)
p
π(n − 1)Γ((n − 1)/2)
1+
z 2 −n/2
dz = α/2.
n−1
4.18 Satz. Es werden zwei unabhängige mathematische Stichproben
X1 , . . . , Xm ∼ N (µ, σ 2 ) und Y1 , . . . , Yn ∼ N (ν, σ 2 ) beobachtet mit µ, ν ∈ R und
σ > 0 unbekannt. Ein gleichmäßig bester unverfälschter Test von H0 : µ = ν
gegen H1 : µ 6= ν zum Niveau α ∈ (0, 1) ist gegeben durch
ϕ∗ (X, Y ) = 1{|t(X,Y )|>Kα/2 } ,
mit
1
(m
+ n1 )−1/2 (Ȳ − X̄)
t(X, Y ) := q P
Pn
2
2
( m
i=1 (Xi − X̄) +
j=1 (Yj − Ȳ ) )/(m + n − 2)
und dem α/2-Fraktil Kα/2 der t(m + n − 2)-Verteilung.
4.19 Satz. Es werden zwei unabhängige mathematische Stichproben
X1 , . . . , Xm ∼ N (µ, σ 2 ) und Y1 , . . . , Yn ∼ N (ν, τ 2 ) beobachtet mit µ, ν ∈ R
und σ, τ > 0 unbekannt. Für c0 > 0 ist ein gleichmäßig bester unverfälschter
10
Test von H0 : τ 2 6 c0 σ 2 gegen H1 : τ 2 > c0 σ 2 zum Niveau α ∈ (0, 1) gegeben
durch
mit
ϕ∗ (X, Y ) = 1{c−1 V (X,Y )>Kα } ,
P0 n
2
j=1 (Yj − Ȳ ) /(n − 1)
V (X, Y ) := Pm
2
i=1 (Xi − X̄) /(m − 1)
und dem α-Fraktil Kα der F (n − 1, m − 1)-Verteilung:
Z ∞
n−1 (n−1)/2
z (n−3)/2
Γ((m+n−2)/2)( m−1
)
dz = α.
Γ((m−1)/2)Γ((n−1)/2)
n−1
(1 + m−1
z)(m+n−2)/2
Kα
5
5.1
Schätztheorie
Momentenschätzer
5.1
Definition. Es seien (Xn , F ⊗n , (P⊗n
ein statistisches
ϑ )ϑ∈Θ )
(Produkt-)Experiment mit X ⊆ R, F ⊆ BR und g(ϑ) mit g : Θ → Rp
ein abgeleiteter Parameter. Ferner sei ψ = (ψ1 , . . . , ψq ) : R → Rq derart, dass
ϕ(ϑ) := Eϑ [ψ] = (Eϑ [ψj ])j=1,...,q
existiert. Gibt es nun einePBorel-messbare Funktion G : ϕ(Θ) → g(Θ) mit
G ◦ ϕ = P
g und liegt n1 ni=1 ψ(xi ) in ϕ(Θ) für alle x1 , . . . , xn ∈ X, so
heißt G( n1 ni=1 ψ(xi )) Momentenschätzer für g(ϑ) mit Momentenfunktionen
ψ1 , . . . , ψ q .
5.2 Lemma.
Existiert für hinreichend großes n der Momentenschätzer ĝn =
P
G( n1 ni=1 ψ(xi )) und ist G stetig, so ist ĝn (stark) konsistent, d.h. limn→∞ ĝn =
g(ϑ) Pϑ -f.s.
5.3 Satz (∆-Methode). Es seien (Xn ) eine Folge von Zufallsvektoren im Rk ,
σn > 0, σn → 0, ϑ0 ∈ Rk sowie Σ ∈ Rk×k positiv definit und es gelte
d
σn−1 (Xn − ϑ0 ) −
→ N (0, Σ).
Ist f : Rk → R in einer Umgebung von ϑ0 stetig differenzierbar mit
(∇f (ϑ0 ))> Σ ∇f (ϑ0 ) > 0, so folgt
d
σn−1 (f (Xn ) − f (ϑ0 )) −
→ N (0, (∇f (ϑ0 ))> Σ ∇f (ϑ0 )).
5.4 Satz. Es seien ϑ0 ∈ Θ, g : Θ → R
P und für hinreichend großes n
existiere der Momentenschätzer ĝn = G( n1 ni=1 ψ(xi )) mit Momentenfunktionen ψj ∈ L2 (Pϑ0 ), j = 1, . . . , q. Setze Σ(ϑ0 ) := (Covϑ0 (ψi , ψj ))i,j=1,...,q .
Sofern G in einer Umgebung von ϕ(ϑ0 ) stetig differenzierbar ist mit σ 2 :=
(∇G(ϕ(ϑ0 )))> Σ(ϑ0 ) ∇G(ϕ(ϑ0 )) > 0, ist ĝn unter P⊗n
ϑ0 asymptotisch normalver−1/2
2
teilt mit Rate n
und asymptotischer Varianz σ :
√
d
n(ĝn − g(ϑ0 )) −
→ N (0, σ 2 ).
11
5.2
Maximum-Likelihood- und M-Schätzer
5.5 Definition. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein von µ dominiertes Experiment mit
Likelihoodfunktion L(ϑ, x). Eine Statistik ϑ̂ : X → Θ (Θ trage eine σ-Algebra
FΘ ) heißt Maximum-Likelihood-Schätzer (MLE) von ϑ, falls L(ϑ̂(x), x) =
supϑ∈Θ L(ϑ, x) für Pϑ -fast alle x ∈ X und alle ϑ ∈ Θ gilt.
Mit `(ϑ, x) := log L(ϑ, x) wird die Loglikelihood-Funktion bezeichnet.
5.6 Lemma. Für eine natürliche Exponentialfamilie (Pϑ )ϑ∈Θ in T (x) ist der
MLE ϑ̂ implizit gegeben durch die Momentengleichung Eϑ̂ [T ] = T (x), vorausgesetzt der MLE existiert und liegt im Innern int(Θ) von Θ.
5.7 Definition. Es sei (Xn , Fn , (Pnϑ )ϑ∈Θ )n>1 eine Folge statistischer Experimente. Eine Funktion K : Θ × Θ → R ∪{+∞} heißt Kontrastfunktion, falls
ϑ 7→ K(ϑ0 , ϑ) ein eindeutiges Minimum bei ϑ0 hat für alle ϑ0 ∈ Θ. Eine Folge
Kn : Θ × Xn → R ∪{+∞} heißt zugehöriger Kontrastprozess (oder bloß Kontrast), falls folgende Bedingungen gelten:
(a) Kn (ϑ, •) ist Fn -messbar für alle ϑ ∈ Θ;
Pn
ϑ
0
(b) ∀ϑ, ϑ0 ∈ Θ : Kn (ϑ) −−→
K(ϑ0 , ϑ) für n → ∞.
Ein zugehöriger M-Schätzer (oder Minimum-Kontrast-Schätzer) ist gegeben
durch ϑ̂n (xn ) := argminϑ∈Θ Kn (ϑ, xn ) (sofern existent; nicht notwendigerweise
eindeutig).
5.8 Satz. Es sei (Kn )n>1 ein Kontrastprozess zur Kontrastfunktion K. Dann
ist der zugehörige M-Schätzer ϑ̂n konsistent für ϑ0 ∈ Θ unter folgenden Bedingungen:
(A1) Θ ist ein kompakter Raum;
(A2) ϑ 7→ K(ϑ0 , ϑ) ist stetig und ϑ 7→ Kn (ϑ) ist Pnϑ0 -f.s. stetig;
Pn
ϑ
0
(A3) supϑ∈Θ |Kn (ϑ) − K(ϑ0 , ϑ)| −−→
0.
5.9 Satz. Es mögen die Annahmen (A1)-(A3) sowie Θ ⊆ Rk und ϑ0 ∈ int(Θ)
gelten. Der Kontrastprozess Kn sei zweimal stetig differenzierbar in einer Umgebung von ϑ0 (Pnϑ0 -f.s.), so dass mit
Un (ϑ) := ∇ϑ Kn (ϑ) (Score),
Vn (ϑ) := ∇2ϑ Kn (ϑ)
folgende Konvergenzen unter Pnϑ0 gelten:
(a)
√
d
nUn (ϑ0 ) −
→ N (0, I(ϑ0 )) mit I(ϑ0 ) ∈ Rk×k positiv definit.
Pn
ϑ
Pn
ϑ
0
0
(b) Aus ϑn −−→
ϑ0 folgt Vn (ϑn ) −−→
V (ϑ0 ) mit V (ϑ0 ) ∈ Rk×k regulär.
Dann ist der M-Schätzer ϑ̂n asymptotisch normalverteilt. Genauer gilt unter
Pnϑ0 :
√
d
n(ϑ̂n − ϑ0 ) −
→ N (0, V (ϑ0 )−1 I(ϑ0 )V (ϑ0 )−1 ).
12
5.10 Satz. Ist Θ ⊆ Rk kompakt, (Xn (ϑ), ϑ ∈ Θ)n>1 eine Folge stetiger ProzesP
se mit Xn (ϑ) −
→ X(ϑ) für alle ϑ ∈ Θ und stetigem Grenzprozess (X(ϑ), ϑ ∈ Θ),
P
so gilt maxϑ∈Θ |Xn (ϑ) − X(ϑ)| −
→ 0 genau dann, wenn (Xn ) straff ist, also wenn
∀ε, η > 0 ∃δ > 0 : lim sup P
sup |Xn (ϑ1 ) − Xn (ϑ2 )| > ε 6 η.
n→∞
|ϑ1 −ϑ2 |<δ
5.11 Satz. Es seien (Xn , F ⊗n , (P⊗n
ϑ )ϑ∈Θ )n>1 eine Folge dominierter ProduktPϑ
experimente mit eindimensionaler Loglikelihoodfunktion `(ϑ, x) = log( ddµ
(x)).
Es gelte:
(a) Θ ⊆ Rk ist kompakt und ϑ0 liegt im Innern int(Θ) von Θ.
(b) ϑ 7→ `(ϑ, x) = log(L(ϑ, x)) ist zweimal stetig differenzierbar in einer Umgebung U von ϑ0 für alle x ∈ X.
(c) Für i = 0, 1, 2 gibt es Hi ∈ L1 (Pϑ0 ) mit supϑ∈Θ |`(ϑ, x)| 6 H0 (x) und
supϑ∈U |∇iϑ `(ϑ, x)| 6 Hi (x) für i = 1, 2, x ∈ X.
(d) Die Fisher-Informationsmatrix I(ϑ0 ) = Eϑ0 [(∇ϑ `(ϑ0 ))(∇ϑ `(ϑ0 ))> ] ist positiv definit.
Dann gilt für den MLE ϑ̂n unter P⊗n
ϑ0
√
d
n(ϑ̂n − ϑ0 ) −
→ N (0, I(ϑ0 )−1 ).
Ferner gilt die Formel I(ϑ0 ) = − Eϑ0 [∇2ϑ `(ϑ0 )].
5.3
Effizienz
5.12 Definition. Für n > 1 seien ϑ̂n,1 und ϑ̂n,2 Schätzer von ϑ definiert auf
k
(Xn , F ⊗n , (P⊗n
ϑ )ϑ∈Θ ) mit Θ ⊆ R sowie
d
→ N (0, Ek )
Vn,i (ϑ)−1/2 (ϑ̂n,i − ϑ) −
für alle ϑ ∈ Θ, i = 1, 2
mit geeigneten symmetrisch, positiv-definiten Matrizen Vn,i (ϑ), Ek Einheitsmatrix. Dann heißt (ϑ̂n,1 )n>1 asymptotisch effizienter als (ϑ̂n,2 )n>1 , falls Vn,1 (ϑ) 6
Vn,2 (ϑ) (d.h. Vn,2 (ϑ) − Vn,1 (ϑ) positiv semi-definit) für alle ϑ ∈ Θ, n > 1 gilt.
5.13 Satz (Cramér-Rao). Es sei (X, F , (Pϑ )ϑ∈Θ ) mit Θ ⊆ Rk ein von µ dominiertes Experiment mit Likelihoodfunktion L(ϑ, x). Ferner sei g : Θ → R
differenzierbar, ĝ ein erwartungstreuer Schätzer von g(ϑ) sowie
Z
Z
∇ϑ
h(x)L(ϑ, x) µ(dx) =
h(x)∇ϑ L(ϑ, x) µ(dx),
ϑ ∈ Θ,
X
X
für h(x) = 1 und h(x) = ĝ(x). Ist die Fisher-Informationsmatrix I(ϑ) positiv
definit, so gilt folgende untere Schranke für das quadratische Risiko von ĝ:
Eϑ [(ĝ − g(ϑ))2 ] = Varϑ (ĝ) > (∇ϑ g(ϑ))> I(ϑ)−1 ∇ϑ g(ϑ),
13
ϑ ∈ Θ.
5.4
Nichtparametrische Dichteschätzung
5.14 RDefinition. Eine Funktion K : R → R heißt Kern (oder Kernfunktion),
∞
falls −∞ K(x) = 1 und K ∈ L2 (R). Gilt
Z
∞
K(x)xp dx = 0,
1 6 p 6 P,
−∞
R
sowie |K(x)xP +1 |dx < ∞, so besitzt der Kern K die Ordnung P . Für h > 0
setze Kh (x) := h−1 K(h−1 x). Hierbei wird h als Bandweite bezeichnet.
5.15 Definition. Für reellwertige Beobachtungen X1 , . . . , Xn bezeichnet
n
1X
fˆh,n (x) =
Kh (x − Xi ),
n
x∈R
i=1
den Kerndichteschätzer zu gegebenem Kern K mit Bandweite h > 0.
5.16 Satz. Es sei X1 , . . . , Xn eine mathematische Stichprobe gemäß einer
Dichte f . Gilt f ∈ C s (R) und besitzt der Kern K die Ordnung P > s − 1,
so gilt für das quadratische Risiko der Kerndichteschätzung
∀ x0 ∈ R : Ef [(fˆh,n (x0 ) − f (x0 ))2 ] 6 C(K, s)kf (s) k∞ hs + kKk2L2 kf k∞ (nh)−1 ,
wobei C(K, s) > 0 nur von K und s abhängt.
5.17 Korollar. Setze für s > 1, R > 0
R
D(s, R) := {f : R → R+ | f ∈ C s (R), f (x)dx = 1, max(kf k∞ , kf (s) k∞ ) 6 R}.
Dann erfüllt der Kerndichteschätzer mit einem Kern der Ordnung P > s − 1
und der Bandweite h(n) = Cn−s/(2s+1) , C > 0 beliebig, asymptotisch:
∀ x0 ∈ R : lim sup n2s/(2s+1)
n→∞
sup
Ef [(fˆn,h(n) (x0 ) − f (x0 ))2 ] < ∞.
f ∈D(s,R)
Insbesondere ergeben sich die Konvergenzraten n−2/3 (s=1), n−4/5 (s=2) sowie
als Grenzwert für s → ∞ die parametrische Rate n−1 für das quadratische
Risiko.
14
Herunterladen