Mathematische Statistik Gliederung zur Vorlesung im Wintersemester 2006/07 Markus Reiß Universität Heidelberg [email protected] VORLÄUFIGE FASSUNG: 9. Februar 2007 Inhaltsverzeichnis 1 Einführende Beispiele 1 2 Entscheidungstheorie 2.1 Formalisierung eines statistischen 2.2 Minimax- und Bayes-Ansatz . . . 2.3 Das Stein-Phänomen . . . . . . . 2.4 Ergänzungen . . . . . . . . . . . 3 Dominierte Experimente und 3.1 Dominierte Experimente . . 3.2 Exponentialfamilien . . . . 3.3 Suffizienz . . . . . . . . . . . . . . 1 1 1 3 4 Suffizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 6 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Testtheorie 7 4.1 Neyman-Pearson-Theorie . . . . . . . . . . . . . . . . . . . . . . 7 4.2 Bedingte Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4.3 Tests im Normalverteilungsmodell . . . . . . . . . . . . . . . . . 10 5 Schätztheorie 5.1 Momentenschätzer . . . . . . . . . . . 5.2 Maximum-Likelihood- und M-Schätzer 5.3 Effizienz . . . . . . . . . . . . . . . . . 5.4 Nichtparametrische Dichteschätzung . I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 12 13 14 1 Einführende Beispiele • Modellierung • Modelldiagnostik (QQ-Plot, Boxplot, empirische Korrelation) • Median, Mittelwert, Ausreißer • Konfidenzintervall • Hypothesentest • Klassifikation • Vorhersage 2 2.1 Entscheidungstheorie Formalisierung eines statistischen Problems 2.1 Definition. Ein Messraum (X, F ) versehen mit einer Familie (Pϑ )ϑ∈Θ von Wahrscheinlichkeitsmaßen, Θ 6= ∅ beliebige Parametermenge, heißt statistisches Experiment. Jede (F , S )-messbare Funktion Y : X → S heißt Beobachtung oder Statistik mit Werten in (S, S ) und induziert das statistische Experiment (S, S , (PYϑ )ϑ∈Θ ). Sind die Beobachtungen Y1 , . . . , Yn für jedes Pϑ unabhängig und identisch verteilt, so nennt man Y1 , . . . , Yn eine mathematische Stichprobe. 2.2 Definition. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Experiment. Eine Entscheidungsregel ist eine messbare Abbildung ρ : X → A, wobei der Messraum (A, A ) der sogenannte Aktionsraum ist. Jede Funktion l : Θ × A → [0, ∞) =: R+ , die messbar im zweiten Argument ist, heißt Verlustfunktion. Das Risiko einer Entscheidungsregel ρ bei Vorliegen des Parameters ϑ ∈ Θ ist Z R(ϑ, ρ) := Eϑ [l(ϑ, ρ)] = l(ϑ, ρ(x)) Pϑ (dx). X 2.3 Definition. Die Entscheidungsregel ρ heißt besser als eine Entscheidungsregel ρ0 , falls R(ϑ, ρ) 6 R(ϑ, ρ0 ) für alle ϑ ∈ Θ gilt und falls ein ϑ0 ∈ Θ mit R(ϑ0 , ρ) < R(ϑ0 , ρ0 ) existiert. Eine Entscheidungsregel heißt zulässig, wenn es keine bessere Entscheidungsregel gibt. 2.2 Minimax- und Bayes-Ansatz 2.4 Definition. Eine Entscheidungsregel ρ heißt minimax, falls sup R(ϑ, ρ) = inf0 sup R(ϑ, ρ0 ), ϑ∈Θ ρ ϑ∈Θ wobei sich das Infimum über alle Entscheidungsregeln ρ0 erstreckt. 1 2.5 Definition. Der Parameterraum Θ trage die σ-Algebra FΘ , die Verlustfunktion l sei produktmessbar und ϑ 7→ Pϑ (B) sei messbar für alle B ∈ F . Die a priori-Verteilung π des Parameters ϑ ist gegeben durch ein Wahrscheinlichkeitsmaß auf (Θ, FΘ ) . Das zu π assoziierte Bayesrisiko einer Entscheidungsregel ρ ist Z Z Z l(ϑ, ρ(x)) Pϑ (dx) π(dϑ). R(ϑ, ρ) π(dϑ) = Rπ (ρ) := Eπ [R(ϑ, ρ)] = Θ Θ X ρ heißt Bayesregel oder Bayes-optimal (bezüglich π), falls Rπ (ρ) = inf0 Rπ (ρ0 ) ρ gilt, wobei sich das Infimum über alle Entscheidungsregeln ρ0 erstreckt. 2.6 Satz. Es liege die Situation aus der vorangegangenen Definition vor. (a) Für jede Entscheidungsregel ρ gilt sup R(ϑ, ρ) = sup Rπ (ρ), π ϑ∈Θ wobei sich das zweite Supremum über alle a priori-Verteilungen π erstreckt. Insbesondere ist das Risiko einer Bayesregel stets kleiner oder gleich dem Minimaxrisiko. (b) Für eine Minimaxregel ρ gilt supπ Rπ (ρ) = inf ρ0 supπ Rπ (ρ0 ). 2.7 Definition. Definiere Ω := X × Θ und P̃ auf (Ω, F ⊗ FΘ ) gemäß P̃(dx, dϑ) = Pϑ (dx)π(dϑ) (gemeinsame Verteilung von Beobachtung und Parameter). Bezeichne mit X und ϑ̄ die Koordinatenprojektionen von Ω auf X bzw. Θ. 2.8 Satz. Eine Regel ρ ist Bayes-optimal, falls für P̃-f.a. x ∈ X gilt ρ(x) = argmina∈A EP̃ [l(ϑ̄, a) | X = x]. 2.9 Korollar. Für Θ ⊆ R, A = R und quadratisches Risiko (d.h. l(ϑ, a) = (a − ϑ)2 ) ist die bedingte Erwartung ϑ̂π := EP̃ [ϑ̄ | X = x] Bayes-optimaler Schätzer von ϑ bezüglich der a priori-Verteilung π. 2.10 Definition. Es sei X eine (S, S )-wertige Zufallsvariable auf (Ω, F , P). Eine Abbildung K : S × F → [0, 1] heißt reguläre bedingte Wahrscheinlichkeit oder Markovkern bezüglich X, falls (a) A 7→ K(x, A) ist Wahrscheinlichkeitsmaß für alle x ∈ S; (b) x 7→ K(x, A) ist messbar für alle A ∈ F ; (c) K(X, A) = P(A | X) := E[1A | X] P-f.s. für alle A ∈ F . 2 2.11 Satz. Es sei (Ω, d) ein vollständiger, separabler Raum mit Metrik d und Borel-σ-Algebra F (polnischer Raum). Für jede Zufallsvariable X auf (Ω, F , P) existiert eine reguläre bedingte Wahrscheinlichkeit K bezüglich X. K ist P-f.s. eindeutig bestimmt, d.h. für eine zweite solche reguläre bedingte Wahrscheinlichkeit K 0 gilt P(∀A ∈ F : K(X, A) = K 0 (X, A)) = 1. 2.12 Definition. Die Verteilung von ϑ̄ unter der regulären bedingten Wahrscheinlichkeit P̃(• | X = x) von P̃ heißt a posteriori-Verteilung des Parameters gegeben die Beobachtung X = x. 2.13 Satz. Für jede Entscheidungsregel ρ gilt: (a) Ist ρ minimax und eindeutig in dem Sinn, dass jede andere Minimax-Regel die gleiche Risikofunktion besitzt, so ist ρ zulässig. (b) Ist ρ zulässig mit konstanter Risikofunktion, so ist ρ minimax. (c) Ist ρ eine Bayesregel (bzgl. π) und eindeutig in dem Sinn, dass jede andere Bayesregel (bzgl. π) die gleiche Risikofunktion besitzt, so ist ρ zulässig. (d) Die Parametermenge Θ bilde einen metrischen Raum mit Borel-σ-Algebra FΘ . Ist ρ eine Bayesregel (bzgl. π), so ist ρ zulässig, falls (i) Rπ (ρ) < ∞; (ii) für jede nichtleere offene Menge U in Θ gilt π(U ) > 0; (iii) für jede Regel ρ0 ist ϑ 7→ R(ϑ, ρ0 ) stetig. 2.14 Korollar. Es sei X1 , . . . , Xn eine N (µ, 1)-verteilte mathematische Stichprobe mit µ ∈ R unbekannt. Bezüglich quadratischem Risiko ist das arithmeti1 Pn sche Mittel X̄ = n i=1 Xi zulässig und minimax als Schätzer von µ. 2.15 Definition. Eine Verteilung π auf (Θ, FΘ ) heißt ungünstigste a priori-Verteilung zu einer gegebenen Verlustfunktion, falls inf Rπ (ρ) = sup inf Rπ0 (ρ). ρ π0 ρ 2.16 Lemma. Gilt Rπ (ρπ ) = supϑ∈Θ R(ϑ, ρπ ) für eine a priori-Verteilung π und ihre zugehörige Bayesregel ρπ , so folgt die Sattelpunktseigenschaft ∀π 0 ∀ρ0 : Rπ0 (ρπ ) 6 Rπ (ρπ ) 6 Rπ (ρ0 ). Weiterhin ist ρπ minimax und π ungünstigste a priori-Verteilung. 2.3 Das Stein-Phänomen 2.17 Lemma. Es sei f : Rd → R eine Funktion, die Lebesgue-f.ü. absolut stetig in jeder Koordinate ist. Dann gilt für Y ∼ N (µ, σ 2 Ed ) mit µ ∈ Rd , σ > 0, Ed = diag(1, . . . , 1) ∈ Rd×d und für alle i = 1, . . . , d ∂f (Y )], E[(µi − Yi )f (Y )] = −σ 2 E[ ∂x i ∂f sofern E[| ∂x (Y )|] < ∞. i 3 2.18 Satz. Es sei d > 3 und Y1 , . . . , Yn eine N (µ, Ed )-verteilte mathematische Stichprobe mit µ ∈ Rd unbekannt. Dann gilt für den James-Stein-Schätzer d−2 µ̂JS := 1 − Ȳ n|Ȳ |2 P mit Ȳ := n1 ni=1 Yi , dass Eµ [|µ̂JS − µ|2 ] = h (d − 2)2 i d d − Eµ < = Eµ [|Ȳ − µ|2 ]. 2 2 n n n |Ȳ | Insbesondere ist Ȳ bei quadratischem Risiko kein zulässiger Schätzer von µ im Fall d > 3! 2.19 Satz. Es sei d > 3 und Y1 , . . . , Yn eine N (µ, Ed )-verteilte mathematische Stichprobe mit µ ∈ Rd unbekannt. Dann ist der James-Stein-Schätzer mit positivem Gewicht d−2 µ̂JS+ := 1 − Ȳ , x+ := max(x, 0) n|Ȳ |2 + bei quadratischem Risiko besser als der James-Stein-Schätzer µ̂JS . 2.4 Ergänzungen 2.20 Definition. Zu vorgegebener Verlustfunktion l heißt eine Entscheidungsregel ρ unverzerrt, falls ∀ϑ, ϑ0 ∈ Θ : Eϑ [l(ϑ0 , ρ)] > Eϑ [l(ϑ, ρ)] =: R(ϑ, ρ). 2.21 Lemma. Es seien g : Θ → A ⊆ R und l(ϑ, ρ) = (ρ − g(ϑ))2 der quadratische Verlust. Dann ist eine Entscheidungsregel (ein Schätzer von g(ϑ)) ĝ : X → A mit Eϑ [ĝ 2 ] < ∞ und Eϑ [ĝ] ∈ g(Θ) für alle ϑ ∈ Θ genau dann unverzerrt, wenn sie erwartungstreu ist, d.h. Eϑ [ĝ] = g(ϑ) für alle ϑ ∈ Θ gilt. ˙ 1 , A = [0, 1]. Für den Verlust l(ϑ, a) = 2.22 Lemma. Es sei Θ = Θ0 ∪Θ l0 a1Θ0 (ϑ) + l1 (1 − a)1Θ1 (ϑ) ist eine Entscheidungsregel ρ (ein randomisierter Test von H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 ) genau dann unverzerrt, wenn sie 1 zum Niveau α := l0 l+l unverfälscht ist, d.h. 1 ∀ϑ ∈ Θ0 : Eϑ [ρ] 6 α, ∀ϑ ∈ Θ1 : Eϑ [ρ] > α. 2.23 Definition. Ein Entscheidungskern oder randomisierte Entscheidungsregel ρ : X × A → [0, 1] ist eine reguläre bedingte Wahrscheinlichkeit auf dem Aktionsraum (A, A ) mit der Interpretation, dass bei Vorliegen der Beobachtung x gemäß ρ(x, •) eine Entscheidung zufällig ausgewählt wird. Das zugehörige Risiko ist hZ i Z Z R(ϑ, ρ) := Eϑ l(ϑ, a) ρ(da) = l(ϑ, a)ρ(x, da) Pϑ (dx). X A A 2.24 Lemma. Es sei A ⊆ Rd konvex sowie l(ϑ, a) eine im zweiten Argument konvexe Verlustfunktion. Dann gibt es zu jeder randomisierten Entscheidungsregel eine deterministische Entscheidungsregel, deren Risiko nicht größer ist. 4 3 Dominierte Experimente und Suffizienz 3.1 Dominierte Experimente 3.1 Definition. Ein statistisches Experiment (X, F , (Pϑ )ϑ∈Θ ) heißt dominiert (von µ), falls es ein σ-endliches Maß µ auf F gibt, so dass Pϑ absolutstetig bezüglich µ ist (Pϑ µ) für alle ϑ ∈ Θ. Die durch ϑ parametrisierte RadonNikodym-Dichte d Pϑ L(ϑ, x) := (x), ϑ ∈ Θ, x ∈ X, dµ heißt auch Likelihoodfunktion, wobei diese meist als durch x parametrisierte Funktion in ϑ aufgefasst wird. 3.2 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein dominiertes Experiment. DannP gibt es ein P c P mit c > 0, Wahrscheinlichkeitsmaß Q der Form Q = ∞ i i ϑ i i=1 i ci = 1, ϑi ∈ Θ, so dass Pϑ Q für alle ϑ ∈ Θ gilt. 3.3 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein dominiertes Experiment mit produktmessbarer Likelihoodfunktion L(ϑ, x). Zu vorgegebener a priori-Verteilung π hat die a posteriori-Verteilung von ϑ̄ gegeben X = x folgende Dichte bezüglich π: Zxπ (ϑ) = R 3.2 L(ϑ, x) 1 0 , x) π(dϑ0 ) { L(ϑ Θ R L(ϑ ,x)π(dϑ )>0}, 0 0 ϑ∈Θ (Bayesformel). Exponentialfamilien 3.4 Definition. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein von µ dominiertes Experiment. Dann heißt (Pϑ )ϑ∈Θ Exponentialfamilie (in η(ϑ) und T ), wenn k ∈ N, η : Θ → Rk , C : Θ → R+ , T : X → Rk messbar und h : X → R+ messbar existieren, so dass d Pϑ (x) = C(ϑ)h(x) exp(hη(ϑ), T (x)iRk ), x ∈ X, ϑ ∈ Θ. dµ T wird natürliche suffiziente Statistik von (Pϑ )ϑ∈Θ genannt. Sind η1 , . . . , ηk linear unabhängige Funktionen und gilt für alle ϑ ∈ Θ die Implikation λ0 + λ1 T1 + · · · + λk Tk = 0 Pϑ -f.s. ⇒ λ0 = λ1 = · · · = λk = 0 (1, T1 , . . . , Tk sind Pϑ -f.s. linear unabhängig), so heißt die Exponentialfamilie k-parametrisch. 3.5 Definition. Bildet (Pϑ )ϑ∈Θ eine Exponentialfamilie (mit obiger Notation), so heißt Z n o k Z := u ∈ R ehu,T (x)i h(x)µ(dx) ∈ (0, ∞) X ihr natürlicher Parameterraum. Die entsprechend mit u ∈ Z parametrisierte Familie wird natürliche Exponentialfamilie in T genannt. 5 3.6 Lemma. Bildet (Pϑ )ϑ∈Θ eine (k-parametrische) Exponentialfamilie in η(ϑ) und T (x), so bilden auch die Produktmaße (P⊗n ϑ )ϑ∈Θ eine (k-parametrische) Pn Exponentialfamilie in η(ϑ) und i=1 T (xi ) mit n Y P d P⊗n n ϑ (x) = C(ϑ) h(x ) exp(hη(ϑ), ni=1 T (xi )iRk ), i ⊗n dµ x ∈ Xn , ϑ ∈ Θ. i=1 3.7 Satz. Es sei (Pϑ )ϑ∈Z eine Exponentialfamilie mit natürlichem Parameterraum Z ⊆ Rk und Darstellung d Pϑ (x) = C(ϑ)h(x) exp(hϑ, T (x)i) = h(x) exp(hϑ, T (x)i − A(ϑ)), dµ R wobei A(ϑ) = log h(x) exp(hϑ, T (x)i)µ(dx) . Ist ϑ̃ ein innerer Punkt von Z , so ist die erzeugende Funktion ψϑ̃ (s) = Eϑ̃ [ehT,si ] in einer Umgebung der Null wohldefiniert und beliebig oft differenzierbar. Es gilt ψϑ̃ (s) = exp(A(ϑ̃ + s) − A(ϑ̃)) für alle s mit ϑ̃ + s ∈ Z . 2A dA (ϑ̃) und Covϑ̃ (Ti , Tj ) = dϑdi dϑ (ϑ̃). Für i, j = 1, . . . , k folgt Eϑ̃ [Ti ] = dϑ i j 3.3 Suffizienz 3.8 Definition. Eine (S, S )-wertige Statistik T auf (X, F , (Pϑ )ϑ∈Θ ) heißt suffizient (für (Pϑ )ϑ∈Θ ), falls für jedes ϑ ∈ Θ die reguläre bedingte Wahrscheinlichkeit von Pϑ gegeben T (existiert und) nicht von ϑ abhängt, d.h. ∃k ∀ϑ ∈ Θ, B ∈ F : k(T, B) = Pϑ (B | T ) := Eϑ [1B | T ] Pϑ -f.s. Statt k(t, B) schreiben wir P• (B | T = t) bzw. E• [1B | T = t]. 3.9 Satz (Faktorisierungskriterium von Neyman). Es sei (X, F , (Pϑ )ϑ∈Θ ) ein von µ dominiertes Experiment mit Likelihoodfunktion L sowie T eine (S, S )wertige Statistik. Dann ist T genau dann suffizient, wenn eine messbare Funktion h : X → R+ existiert, so dass für alle ϑ ∈ Θ eine messbare Funktion gϑ : S → R+ existiert mit L(ϑ, x) = gϑ (T (x))h(x) für µ-f.a. x ∈ X. 3.10 Korollar. Die natürliche suffiziente Statistik einer Exponentialfamilie ist in der Tat suffizient. 3.11 Satz (Rao-Blackwell). Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Experiment, A ⊆ Rk konvex und l(ϑ, a) eine im zweiten Argument konvexe Verlustfunktion. Ist T eine für (Pϑ )ϑ∈Θ suffiziente Statistik, so gilt für jede Entscheidungsregel ρ die Risikoabschätzung ∀ϑ ∈ Θ : R(ϑ, ρ̃) 6 R(ϑ, ρ) mit ρ̃ := E• [ρ | T ]. 3.12 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Experiment und T eine suffiziente Statistik. Dann gibt es zu jedem randomisierten Test ϕ einen randomisierten Test ϕ̃, der nur von T abhängt und dieselbe Gütefunktion besitzt, nämlich ϕ̃ = E• [ϕ | T ]. 6 4 4.1 Testtheorie Neyman-Pearson-Theorie 4.1 Definition. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Experiment mit Zer˙ 1 . Jede messbare Funktion ϕ : X → [0, 1] heißt (randomilegung Θ = Θ0 ∪Θ sierter) Test. ϕ besitzt Niveau α ∈ [0, 1], falls Eϑ [ϕ] 6 α für alle ϑ ∈ Θ0 gilt. Die Abbildung ϑ 7→ Eϑ [ϕ] heißt Gütefunktion von ϕ. Ein Test ϕ der Hypothese H0 : ϑ ∈ Θ0 gegen die Alternative H1 : ϑ ∈ Θ1 ist ein gleichmäßig bester Test zum Niveau α, falls ϕ Niveau α besitzt sowie für alle anderen Tests ϕ0 vom Niveau α gilt ∀ϑ ∈ Θ1 : Eϑ [ϕ] > Eϑ [ϕ0 ]. ϕ heißt gleichmäßig bester unverfälschter Test zum Niveau α, falls ϕ unverfälscht zum Niveau α ist sowie für alle anderen unverfälschten Tests ϕ0 zum Niveau α obige Ungleichung gilt. 4.2 Definition. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein (binäres) statistisches Experiment mit Θ = {0, 1}. Bezeichnet pi , i = 1, 2, die Dichte von Pi bezüglich P0 + P1 , so heißt ein Test der Form falls p1 (x) > kp0 (x) 1, ϕ(x) = 0, falls p1 (x) < kp0 (x) γ(x), falls p1 (x) = kp0 (x) mit k ∈ R+ und γ(x) ∈ [0, 1] Neyman-Pearson-Test. 4.3 Satz (Neyman-Pearson-Lemma). (a) Jeder Neyman-Pearson-Test ϕ ist ein (gleichmäßig) bester Test für H0 : ϑ = 0 gegen H1 : ϑ = 1 zum Niveau E0 [ϕ]. (b) Für jedes vorgegebene α ∈ (0, 1) gibt es einen Neyman-Pearson-Test zum Niveau α mit γ(x) = γ ∈ [0, 1] konstant. 4.4 Definition. Es seien (X, F , (Pϑ )ϑ∈Θ ) ein dominiertes Experiment mit Θ ⊆ R und Likelihoodfunktion L(ϑ, x) sowie T eine reellwertige Statistik. Dann hat die Familie (Pϑ )ϑ∈Θ monotonen Dichtequotienten (oder monotonen Likelihoodquotienten) in T , falls (a) ϑ 6= ϑ0 ⇒ Pϑ 6= Pϑ0 ; (b) Für alle ϑ < ϑ0 gibt es eine monoton wachsende Funktion h(•, ϑ, ϑ0 ) : R → R+ ∪{+∞} mit (Konvention a/0 := +∞ für a > 0) L(ϑ, x) = h(T (x), ϑ, ϑ0 ) L(ϑ0 , x) für (Pϑ + Pϑ0 )-f.a. x ∈ X. 4.5 Satz. Ist (Pϑ )ϑ∈Θ mit Θ ⊆ R eine einparametrische Exponentialfamilie in η(ϑ) und T , so hat sie monotonen Dichtequotienten, sofern η streng monoton wächst. 7 4.6 Satz. Die Familie (Pϑ )ϑ∈Θ , Θ ⊆ R, besitze monotonen Dichtequotienten in T . Für α ∈ (0, 1) und ϑ0 ∈ Θ gilt dann: (a) Unter allen Tests ϕ für das einseitige Testproblem H0 : ϑ 6 ϑ0 gegen H1 : ϑ > ϑ0 mit der Eigenschaft Eϑ0 [ϕ] = α gibt es einen Test ϕ∗ , der die Fehlerwahrscheinlichkeiten erster und zweiter Art gleichmäßig minimiert, nämlich 1, falls T (x) > k, ϕ∗ (x) = 0, falls T (x) < k, γ, falls T (x) = k, wobei k ∈ R, γ ∈ [0, 1] gemäß Eϑ0 [ϕ∗ ] = α bestimmt werden. (b) Dieser Test ϕ∗ ist gleichmäßig bester Test zum Niveau α für H0 : ϑ 6 ϑ0 gegen H1 : ϑ > ϑ0 . (c) Für alle ϑ < ϑ0 gilt Eϑ [ϕ∗ ] 6 Eϑ0 [ϕ∗ ], wobei in den Fällen Eϑ [ϕ∗ ] ∈ (0, 1) und Eϑ0 [ϕ∗ ] ∈ (0, 1) sogar die strikte Ungleichung gilt. 4.7 Satz (Verallgemeinertes NP-Lemma). Es seien (Pϑ )ϑ∈Θ eine Exponentialfamilie in η(ϑ) und T , L die zugehörige Likelihoodfunktion sowie ϑ0 , ϑ1 ∈ Θ zwei Parameter. Erfüllt ein Test für H0 : ϑ = ϑ0 gegen H1 : ϑ = ϑ1 der Form 1, ϕ(x) = 0, γ, falls L(ϑ1 , x) > kL(ϑ0 , x) + lT (x)L(ϑ0 , x) falls L(ϑ1 , x) < kL(ϑ0 , x) + lT (x)L(ϑ0 , x) falls L(ϑ1 , x) = kL(ϑ0 , x) + lT (x)L(ϑ0 , x) mit k, l ∈ R+ und γ ∈ [0, 1] die Nebenbedingungen Eϑ0 [ϕ] = α und Eϑ0 [T ϕ] = α Eϑ0 [T ], so maximiert er die Güte Eϑ1 [ϕ] in der Menge aller Tests, die diese Nebenbedingungen erfüllen. 4.8 Satz. (Pϑ )ϑ∈Θ sei eine einparametrische Exponentialfamilie in η(ϑ) und T . Θ ⊆ R sei offen, ϑ0 ∈ Θ und η ∈ C 1 (Θ) sei streng monoton (wachsend oder fallend) mit η 0 (ϑ0 ) 6= 0. Für α ∈ (0, 1), c1 < c2 und γ1 , γ2 ∈ [0, 1] erfülle der Test 1, falls T (x) < c1 oder T (x) > c2 ∗ ϕ (x) = 0, falls T (x) ∈ (c1 , c2 ) γi , falls T (x) = ci , i = 1, 2 die Nebenbedingungen Eϑ0 [ϕ∗ ] = α Eϑ0 [T ϕ∗ ] = α Eϑ0 [T ]. und Dann ist ϕ∗ gleichmäßig bester unverfälschter Test zum Niveau α für H0 : ϑ = ϑ0 gegen H1 : ϑ 6= ϑ0 . 8 4.2 Bedingte Tests 4.9 Definition. Eine (S, S )-wertige Statistik T auf (X, F , (Pϑ )ϑ∈Θ ) heißt vollständig (bezüglich Θ), falls für alle messbaren Funktionen f : S → R gilt ∀ϑ ∈ Θ : Eϑ [f (T )] = 0 (und existiert) ⇒ ∀ϑ ∈ Θ : Pϑ (f (T ) = 0) = 1. 4.10 Definition. Es sei Θ0 ⊆ Θ. Dann heißt ein Test ϕ α-ähnlich auf Θ0 , wenn Eϑ [ϕ] = α für alle ϑ ∈ Θ0 gilt. 4.11 Satz. Ist T eine bezüglich Θ0 vollständige und suffiziente Statistik und ist ϕ ein auf Θ0 α-ähnlicher Test, so gilt E• [ϕ | T ] = α Pϑ -f.s. für alle ϑ ∈ Θ0 . 4.12 Satz. Es sei (Pϑ )ϑ∈Θ eine k-parametrische natürliche Exponentialfamilie in T . Enthält Θ0 ⊆ Θ eine offene Menge im Rk , so ist T suffizient und vollständig bezüglich Θ0 . 4.13 Satz. Gegeben sei die natürliche Exponentialfamilie k X d Pϑ (x) = C(ϑ)h(x) exp ϑ0 U (x) + ϑi Ti (x) , dµ x ∈ X, ϑ ∈ Θ, i=1 sowie α ∈ (0, 1) und ein Punkt ϑ0 im Innern von Θ. Dann ist 1, ∗ ϕ (x) = 0, γ(T (x)), falls U (x) < K(T (x)) falls U (x) > K(T (x)) falls U (x) = K(T (x)) mit K(t) ∈ R, γ(t) ∈ [0, 1] derart, dass Eϑ0 [ϕ∗ | T ] = Eϑ00 [ϕ∗ | T ] = α Pϑ0 -f.s., ein gleichmäßig bester unverfälschter Test zum Niveau α von H0 : ϑ0 6 ϑ00 gegen H1 : ϑ0 > ϑ00 (d.h. Θ0 = {ϑ ∈ Θ | ϑ0 6 ϑ00 }, Θ1 = {ϑ ∈ Θ | ϑ0 > ϑ00 }). 4.14 Satz. Es liege die Situation des vorigen Satzes vor. Dann ist 1, ∗ ϕ (x) = 0, γi (T (x)), falls U (x) < K1 (T (x)) oder U (x) > K2 (T (x)) falls U (x) ∈ (K1 (T (x)), K2 (T (x))) falls U (x) = Ki (T (x)), i = 1, 2, mit Ki (t) ∈ R, γi (t) ∈ [0, 1] derart, dass Eϑ00 [ϕ∗ | T ] = α und Eϑ00 [U ϕ∗ | T ] = α Eϑ00 [U | T ] Pϑ0 -f.s. ein gleichmäßig bester unverfälschter Test zum Niveau α von H0 : ϑ0 = ϑ00 gegen H1 : ϑ0 6= ϑ00 . 9 4.3 Tests im Normalverteilungsmodell 4.15 Satz. Es sei X1 , . . . , Xn eine N (µ, σ 2 )-verteilte mathematische Stichprobe mit µ ∈ R und σ > 0 unbekannt. Für σ0 > 0 ist ein gleichmäßig bester unverfälschter Test von H0 : σ 6 σ0 gegen H1 : σ > σ0 zum Niveau α ∈ (0, 1) gegeben durch 1, falls 12 Pn (Xi − X̄)2 > Kα i=1 σ0 ϕ∗ (X1 , . . . , Xn ) = Pn 1 0, falls 2 i=1 (Xi − X̄)2 6 Kα σ 0 mit dem α-Fraktil Kα der χ2 (n − 1)-Verteilung: Z ∞ Kα 2−(n−1)/2 (n−1)/2−1 −z/2 z e dz = α. Γ((n − 1)/2) 4.16 Lemma. Sind Z1 , . . . , Zn unabhängig N (0, σ 2 )-verteilt sowie f : Rn → R messbar mit f (cx) = f (x) für alle c > 0, x ∈ Rn , so ist f (Z1 , . . . , Zn ) Pn 2 √ Z̄ unabhängig von und √ Z̄ 2 i=1 Zi . Insbesondere sind jeweils (Zi −Z̄)2 i Zi i P unabhängig von ni=1 Zi2 . P P 4.17 Satz. Es sei X1 , . . . , Xn eine N (µ, σ 2 )-verteilte mathematische Stichprobe mit µ ∈ R und σ > 0 unbekannt. Ein gleichmäßig bester unverfälschter Test von H0 : µ = µ0 gegen H1 : µ 6= µ0 zum Niveau α ∈ (0, 1) ist gegeben durch den zweiseitigen t-Test √ n(X̄ − µ0 ) , ϕ∗ (X) = 1{|t(X)|>Kα/2 } , t(X) := q 1 Pn 2 (X − X̄) i i=1 n−1 mit dem α/2-Fraktil Kα/2 der t(n − 1)-Verteilung : Z ∞ Kα/2 Γ(n/2) p π(n − 1)Γ((n − 1)/2) 1+ z 2 −n/2 dz = α/2. n−1 4.18 Satz. Es werden zwei unabhängige mathematische Stichproben X1 , . . . , Xm ∼ N (µ, σ 2 ) und Y1 , . . . , Yn ∼ N (ν, σ 2 ) beobachtet mit µ, ν ∈ R und σ > 0 unbekannt. Ein gleichmäßig bester unverfälschter Test von H0 : µ = ν gegen H1 : µ 6= ν zum Niveau α ∈ (0, 1) ist gegeben durch ϕ∗ (X, Y ) = 1{|t(X,Y )|>Kα/2 } , mit 1 (m + n1 )−1/2 (Ȳ − X̄) t(X, Y ) := q P Pn 2 2 ( m i=1 (Xi − X̄) + j=1 (Yj − Ȳ ) )/(m + n − 2) und dem α/2-Fraktil Kα/2 der t(m + n − 2)-Verteilung. 4.19 Satz. Es werden zwei unabhängige mathematische Stichproben X1 , . . . , Xm ∼ N (µ, σ 2 ) und Y1 , . . . , Yn ∼ N (ν, τ 2 ) beobachtet mit µ, ν ∈ R und σ, τ > 0 unbekannt. Für c0 > 0 ist ein gleichmäßig bester unverfälschter 10 Test von H0 : τ 2 6 c0 σ 2 gegen H1 : τ 2 > c0 σ 2 zum Niveau α ∈ (0, 1) gegeben durch mit ϕ∗ (X, Y ) = 1{c−1 V (X,Y )>Kα } , P0 n 2 j=1 (Yj − Ȳ ) /(n − 1) V (X, Y ) := Pm 2 i=1 (Xi − X̄) /(m − 1) und dem α-Fraktil Kα der F (n − 1, m − 1)-Verteilung: Z ∞ n−1 (n−1)/2 z (n−3)/2 Γ((m+n−2)/2)( m−1 ) dz = α. Γ((m−1)/2)Γ((n−1)/2) n−1 (1 + m−1 z)(m+n−2)/2 Kα 5 5.1 Schätztheorie Momentenschätzer 5.1 Definition. Es seien (Xn , F ⊗n , (P⊗n ein statistisches ϑ )ϑ∈Θ ) (Produkt-)Experiment mit X ⊆ R, F ⊆ BR und g(ϑ) mit g : Θ → Rp ein abgeleiteter Parameter. Ferner sei ψ = (ψ1 , . . . , ψq ) : R → Rq derart, dass ϕ(ϑ) := Eϑ [ψ] = (Eϑ [ψj ])j=1,...,q existiert. Gibt es nun einePBorel-messbare Funktion G : ϕ(Θ) → g(Θ) mit G ◦ ϕ = P g und liegt n1 ni=1 ψ(xi ) in ϕ(Θ) für alle x1 , . . . , xn ∈ X, so heißt G( n1 ni=1 ψ(xi )) Momentenschätzer für g(ϑ) mit Momentenfunktionen ψ1 , . . . , ψ q . 5.2 Lemma. Existiert für hinreichend großes n der Momentenschätzer ĝn = P G( n1 ni=1 ψ(xi )) und ist G stetig, so ist ĝn (stark) konsistent, d.h. limn→∞ ĝn = g(ϑ) Pϑ -f.s. 5.3 Satz (∆-Methode). Es seien (Xn ) eine Folge von Zufallsvektoren im Rk , σn > 0, σn → 0, ϑ0 ∈ Rk sowie Σ ∈ Rk×k positiv definit und es gelte d σn−1 (Xn − ϑ0 ) − → N (0, Σ). Ist f : Rk → R in einer Umgebung von ϑ0 stetig differenzierbar mit (∇f (ϑ0 ))> Σ ∇f (ϑ0 ) > 0, so folgt d σn−1 (f (Xn ) − f (ϑ0 )) − → N (0, (∇f (ϑ0 ))> Σ ∇f (ϑ0 )). 5.4 Satz. Es seien ϑ0 ∈ Θ, g : Θ → R P und für hinreichend großes n existiere der Momentenschätzer ĝn = G( n1 ni=1 ψ(xi )) mit Momentenfunktionen ψj ∈ L2 (Pϑ0 ), j = 1, . . . , q. Setze Σ(ϑ0 ) := (Covϑ0 (ψi , ψj ))i,j=1,...,q . Sofern G in einer Umgebung von ϕ(ϑ0 ) stetig differenzierbar ist mit σ 2 := (∇G(ϕ(ϑ0 )))> Σ(ϑ0 ) ∇G(ϕ(ϑ0 )) > 0, ist ĝn unter P⊗n ϑ0 asymptotisch normalver−1/2 2 teilt mit Rate n und asymptotischer Varianz σ : √ d n(ĝn − g(ϑ0 )) − → N (0, σ 2 ). 11 5.2 Maximum-Likelihood- und M-Schätzer 5.5 Definition. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein von µ dominiertes Experiment mit Likelihoodfunktion L(ϑ, x). Eine Statistik ϑ̂ : X → Θ (Θ trage eine σ-Algebra FΘ ) heißt Maximum-Likelihood-Schätzer (MLE) von ϑ, falls L(ϑ̂(x), x) = supϑ∈Θ L(ϑ, x) für Pϑ -fast alle x ∈ X und alle ϑ ∈ Θ gilt. Mit `(ϑ, x) := log L(ϑ, x) wird die Loglikelihood-Funktion bezeichnet. 5.6 Lemma. Für eine natürliche Exponentialfamilie (Pϑ )ϑ∈Θ in T (x) ist der MLE ϑ̂ implizit gegeben durch die Momentengleichung Eϑ̂ [T ] = T (x), vorausgesetzt der MLE existiert und liegt im Innern int(Θ) von Θ. 5.7 Definition. Es sei (Xn , Fn , (Pnϑ )ϑ∈Θ )n>1 eine Folge statistischer Experimente. Eine Funktion K : Θ × Θ → R ∪{+∞} heißt Kontrastfunktion, falls ϑ 7→ K(ϑ0 , ϑ) ein eindeutiges Minimum bei ϑ0 hat für alle ϑ0 ∈ Θ. Eine Folge Kn : Θ × Xn → R ∪{+∞} heißt zugehöriger Kontrastprozess (oder bloß Kontrast), falls folgende Bedingungen gelten: (a) Kn (ϑ, •) ist Fn -messbar für alle ϑ ∈ Θ; Pn ϑ 0 (b) ∀ϑ, ϑ0 ∈ Θ : Kn (ϑ) −−→ K(ϑ0 , ϑ) für n → ∞. Ein zugehöriger M-Schätzer (oder Minimum-Kontrast-Schätzer) ist gegeben durch ϑ̂n (xn ) := argminϑ∈Θ Kn (ϑ, xn ) (sofern existent; nicht notwendigerweise eindeutig). 5.8 Satz. Es sei (Kn )n>1 ein Kontrastprozess zur Kontrastfunktion K. Dann ist der zugehörige M-Schätzer ϑ̂n konsistent für ϑ0 ∈ Θ unter folgenden Bedingungen: (A1) Θ ist ein kompakter Raum; (A2) ϑ 7→ K(ϑ0 , ϑ) ist stetig und ϑ 7→ Kn (ϑ) ist Pnϑ0 -f.s. stetig; Pn ϑ 0 (A3) supϑ∈Θ |Kn (ϑ) − K(ϑ0 , ϑ)| −−→ 0. 5.9 Satz. Es mögen die Annahmen (A1)-(A3) sowie Θ ⊆ Rk und ϑ0 ∈ int(Θ) gelten. Der Kontrastprozess Kn sei zweimal stetig differenzierbar in einer Umgebung von ϑ0 (Pnϑ0 -f.s.), so dass mit Un (ϑ) := ∇ϑ Kn (ϑ) (Score), Vn (ϑ) := ∇2ϑ Kn (ϑ) folgende Konvergenzen unter Pnϑ0 gelten: (a) √ d nUn (ϑ0 ) − → N (0, I(ϑ0 )) mit I(ϑ0 ) ∈ Rk×k positiv definit. Pn ϑ Pn ϑ 0 0 (b) Aus ϑn −−→ ϑ0 folgt Vn (ϑn ) −−→ V (ϑ0 ) mit V (ϑ0 ) ∈ Rk×k regulär. Dann ist der M-Schätzer ϑ̂n asymptotisch normalverteilt. Genauer gilt unter Pnϑ0 : √ d n(ϑ̂n − ϑ0 ) − → N (0, V (ϑ0 )−1 I(ϑ0 )V (ϑ0 )−1 ). 12 5.10 Satz. Ist Θ ⊆ Rk kompakt, (Xn (ϑ), ϑ ∈ Θ)n>1 eine Folge stetiger ProzesP se mit Xn (ϑ) − → X(ϑ) für alle ϑ ∈ Θ und stetigem Grenzprozess (X(ϑ), ϑ ∈ Θ), P so gilt maxϑ∈Θ |Xn (ϑ) − X(ϑ)| − → 0 genau dann, wenn (Xn ) straff ist, also wenn ∀ε, η > 0 ∃δ > 0 : lim sup P sup |Xn (ϑ1 ) − Xn (ϑ2 )| > ε 6 η. n→∞ |ϑ1 −ϑ2 |<δ 5.11 Satz. Es seien (Xn , F ⊗n , (P⊗n ϑ )ϑ∈Θ )n>1 eine Folge dominierter ProduktPϑ experimente mit eindimensionaler Loglikelihoodfunktion `(ϑ, x) = log( ddµ (x)). Es gelte: (a) Θ ⊆ Rk ist kompakt und ϑ0 liegt im Innern int(Θ) von Θ. (b) ϑ 7→ `(ϑ, x) = log(L(ϑ, x)) ist zweimal stetig differenzierbar in einer Umgebung U von ϑ0 für alle x ∈ X. (c) Für i = 0, 1, 2 gibt es Hi ∈ L1 (Pϑ0 ) mit supϑ∈Θ |`(ϑ, x)| 6 H0 (x) und supϑ∈U |∇iϑ `(ϑ, x)| 6 Hi (x) für i = 1, 2, x ∈ X. (d) Die Fisher-Informationsmatrix I(ϑ0 ) = Eϑ0 [(∇ϑ `(ϑ0 ))(∇ϑ `(ϑ0 ))> ] ist positiv definit. Dann gilt für den MLE ϑ̂n unter P⊗n ϑ0 √ d n(ϑ̂n − ϑ0 ) − → N (0, I(ϑ0 )−1 ). Ferner gilt die Formel I(ϑ0 ) = − Eϑ0 [∇2ϑ `(ϑ0 )]. 5.3 Effizienz 5.12 Definition. Für n > 1 seien ϑ̂n,1 und ϑ̂n,2 Schätzer von ϑ definiert auf k (Xn , F ⊗n , (P⊗n ϑ )ϑ∈Θ ) mit Θ ⊆ R sowie d → N (0, Ek ) Vn,i (ϑ)−1/2 (ϑ̂n,i − ϑ) − für alle ϑ ∈ Θ, i = 1, 2 mit geeigneten symmetrisch, positiv-definiten Matrizen Vn,i (ϑ), Ek Einheitsmatrix. Dann heißt (ϑ̂n,1 )n>1 asymptotisch effizienter als (ϑ̂n,2 )n>1 , falls Vn,1 (ϑ) 6 Vn,2 (ϑ) (d.h. Vn,2 (ϑ) − Vn,1 (ϑ) positiv semi-definit) für alle ϑ ∈ Θ, n > 1 gilt. 5.13 Satz (Cramér-Rao). Es sei (X, F , (Pϑ )ϑ∈Θ ) mit Θ ⊆ Rk ein von µ dominiertes Experiment mit Likelihoodfunktion L(ϑ, x). Ferner sei g : Θ → R differenzierbar, ĝ ein erwartungstreuer Schätzer von g(ϑ) sowie Z Z ∇ϑ h(x)L(ϑ, x) µ(dx) = h(x)∇ϑ L(ϑ, x) µ(dx), ϑ ∈ Θ, X X für h(x) = 1 und h(x) = ĝ(x). Ist die Fisher-Informationsmatrix I(ϑ) positiv definit, so gilt folgende untere Schranke für das quadratische Risiko von ĝ: Eϑ [(ĝ − g(ϑ))2 ] = Varϑ (ĝ) > (∇ϑ g(ϑ))> I(ϑ)−1 ∇ϑ g(ϑ), 13 ϑ ∈ Θ. 5.4 Nichtparametrische Dichteschätzung 5.14 RDefinition. Eine Funktion K : R → R heißt Kern (oder Kernfunktion), ∞ falls −∞ K(x) = 1 und K ∈ L2 (R). Gilt Z ∞ K(x)xp dx = 0, 1 6 p 6 P, −∞ R sowie |K(x)xP +1 |dx < ∞, so besitzt der Kern K die Ordnung P . Für h > 0 setze Kh (x) := h−1 K(h−1 x). Hierbei wird h als Bandweite bezeichnet. 5.15 Definition. Für reellwertige Beobachtungen X1 , . . . , Xn bezeichnet n 1X fˆh,n (x) = Kh (x − Xi ), n x∈R i=1 den Kerndichteschätzer zu gegebenem Kern K mit Bandweite h > 0. 5.16 Satz. Es sei X1 , . . . , Xn eine mathematische Stichprobe gemäß einer Dichte f . Gilt f ∈ C s (R) und besitzt der Kern K die Ordnung P > s − 1, so gilt für das quadratische Risiko der Kerndichteschätzung ∀ x0 ∈ R : Ef [(fˆh,n (x0 ) − f (x0 ))2 ] 6 C(K, s)kf (s) k∞ hs + kKk2L2 kf k∞ (nh)−1 , wobei C(K, s) > 0 nur von K und s abhängt. 5.17 Korollar. Setze für s > 1, R > 0 R D(s, R) := {f : R → R+ | f ∈ C s (R), f (x)dx = 1, max(kf k∞ , kf (s) k∞ ) 6 R}. Dann erfüllt der Kerndichteschätzer mit einem Kern der Ordnung P > s − 1 und der Bandweite h(n) = Cn−s/(2s+1) , C > 0 beliebig, asymptotisch: ∀ x0 ∈ R : lim sup n2s/(2s+1) n→∞ sup Ef [(fˆn,h(n) (x0 ) − f (x0 ))2 ] < ∞. f ∈D(s,R) Insbesondere ergeben sich die Konvergenzraten n−2/3 (s=1), n−4/5 (s=2) sowie als Grenzwert für s → ∞ die parametrische Rate n−1 für das quadratische Risiko. 14