3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der Cramér-Rao-Ungleichung das Gleichheitszeichen gelten muss. Dazu betrachten wir die Situation aus Satz 2.38 (d.h. Θ ⊂ R) und nehmen an, dass die Regularitätsvorausstzungen erfüllt sind. Grundlegend für den Beweis der Informationsungleichung von Cramér-Rao ist die Cauchy-Schwarz-Ungleichung o2 n ∂ ∂ log fθ (X) ≤ Varθ (T (X)) Varθ log fθ (X) . Covθ (T (X), ∂θ ∂θ In dieser gilt das Gleichheitszeichen, falls für jedes θ ∈ Θ Konstanten a1 (θ), a2 (θ) existieren, für die gilt Pθ ∂ log fθ (X) = a1 (θ)T (X) + a2 (θ) = 1. ∂θ Die Integration bezüglich θ liefert Pθ fθ (X) = exp{c(θ)T (X) + d(θ) + S(X)} = 1, wobei c und d die Stammfunktionen von a1 und a2 bezeichnen und S(X) eine weitere Zufallsvariable ist (die nicht von θ abhängt). Definition 3.1: Eine Familie von Verteilungen P = {fθ | θ ∈ Θ} auf X heißt k-parametrige exponentielle Familie, falls die Lebesgue- bzw. Zähldichten von P in der Form fθ (x) = c(θ)h(x) exp k X Qj (θ)Tj (x) IA (x) j=1 geschrieben werden können, wobei die Menge A ⊂ X unabhängig von θ ist [man beachte, dass für k 0 ≥ k eine k-parametrige exponentielle Familie auch immer eine k 0 -parametrige exponentielle Familie ist und wir implizit von dem kleinstmöglichen k mit der obigen Darstellung sprechen]. Beispiele 3.2: (1) (Binomialverteilung) Es sei X ∼ Bin(n, θ) mit θ ∈ (0, 1). Dann gilt für x ∈ {0, . . . , n} n n x θ o n−x n n fθ (x) = θ (1 − θ) = (1 − θ) exp x log x x 1−θ 1 und die Verteilungsfamilie P = {fθ | θ ∈ (0, 1)] bildet eine einparametrige exponentielle Familie mit n h(x) = , c(θ) = (1 − θ)n , x Q1 (θ) = log(θ/(1 − θ)) und T1 (x) = x. (2) (Normalverteilung) Es sei X ∼ N1 (µ, σ 2 ) mit θ = (µ, σ 2 ) ∈ R × R+ , dann gilt für die Lebesgue-Dichte von X h (x − µ)2 i exp − 2σ 2 2πσ 2 h x2 µ2 1 µ i = √ exp − 2 exp − 2 + 2 x 2σ 2σ σ 2πσ 2 fθ (x) = √ 1 und die Familie von Verteilungen P = {fθ : R → R+ | θ = (µ, σ 2 ) ∈ R × R+ } bildet eine zweiparametrige exponentielle Familie mit Q1 (θ) = σµ2 ; T1 (x) = x Q2 (θ) = − 2σ1 2 ; T2 (x) = x2 . (3) (Poissonverteilung) X ∼ Po (λ) mit λ > 0, dann gilt für die Zähldichte von X fθ (x) = λx e−λ 1 IN0 (x) = e−λ exp(x log λ)IN0 (x) x! x! und es liegt eine einparametrige exponentielle Familie vor mit c(λ) := e−λ ; h(x) = 1/x!, T1 (x) = x und Q1 (λ) = log λ. Bemerkungen 3.3: 2 (1) (1) Es sei P = {fθ | θ ∈ Θ} eine k-parametrige exponentielle Familie mit Statistiken T1 , . . . , Tk und für x = (x1 , . . . , xn ) sei fθ (x) = n Y (1) fθ (xj ) j=1 eine Dichte auf X n (man beachte, dass fθ die gemeinsame Dichte von n Zufallsvari(1) ablen X1 , . . . , Xn i.i.d. ∼ fθ ist). Dann ist P ⊗ = {fθ | θ ∈ Θ} ebenfalls eine k-parametrige exponentielle Familie mit den Statistiken n n X X T1 (xj ), . . . , Tk (xj ). j=1 j=1 (2) Aus dem Faktorisierungskriterium von Neyman [Satz 2.5] folgt unmittelbar, dass in einer k-parametrigen exponentiellen Familie die Statistik T = (T1 , . . . , Tk ) suffizient für den Parameter θ ist. Beispiel 3.4: Es seien X1 , . . . , Xn i.i.d. ∼ N1 (µ, σ 2 ), dann bilden nach Beispiel 3.2 und Bemerkung 3.3(1) die gemeinsamen Verteilungen des Vektors X = (X1 , . . . , Xn )T eine 2-parametrige exponentielle Familie mit Statistiken ! ! Pn x T1 (x) Pnj=1 2j . T (x) = = T2 (x) j=1 xj Nach Bemerkung 3.3 (2) ist die Statistik T suffizient für den Parameter θ = (µ, σ 2 ). Bemerkung 3.5: Man beachte, dass in der Definition der exponentiellen Familie die Konstante c(θ) ,,nur“ ein Normierungsfaktor ist, der von θ nur über Q(θ) = (Q1 , (θ), . . . , Qk (θ))T abhängt. So erhält man z.B. im stetigen Fall aus der Bedingung Z Z n X 1= fθ (x)dx = c(θ) · exp Qj (θ)Tj (x) dx X A j=1 die Darstellung c(θ) = nZ n X o−1 exp Qj (θ)Tj (x) dx , A j=1 und ein analoges Resultat gilt für diskrete Verteilungen, indem man die Integration durch Summation ersetzt. Durch das Einführen neuer Koordinaten ξ = Q(θ) = (Q1 (θ), . . . , Qk (θ)) 3 erhält man dann eine Darstellung der Form fξ (x) = c(ξ)h(x) exp k X ξj Tj (x) IA (x) j=1 für die Dichte fθ , wobei die Konstante durch die Bedingung c(ξ) = 1/k(ξ) mit P R k h(x) exp ξ T (x) dx falls fθ Lebesgue-Dichte A j=1 j j k(ξ) = P k P h(x) exp ξj Tj (x) falls fθ Zähl-Dichte . x∈A j=1 definiert ist (man beachte, dass k(ξ) auch unendlich sein kann!). Der Parameter ξ ∈ Z := Q(Θ) heißt natürlicher Parameter und die Menge Z ∗ = {ξ ∈ Rk | k(ξ) < ∞} heißt natürlicher Parameterbereich der exponentiellen Familie (man beachte, dass Z = Q(Θ) ⊂ Z ∗ 6= gelten kann). Beispiel 3.6: (Fortsetzung von Beispiel 3.2) (1) Es sei X ∼ Bin(n, θ) mit θ ∈ (0, 1), dann ist ξ = Q1 (θ) = log θ 1−θ der natürliche Parameter, Z = Q1 (Θ) = R, n X n k(ξ) = exp(ξx) = (eξ + 1)n x x=0 und damit ist Z ∗ = Z = R der natürliche Parameterraum Mit diesen neuen Koordinaten kann die Zähldichte der Bionomialverteilung als n ξx fξ (x) = c(ξ) e I{0,...,n} (x) x dargestellt werden wobei c(ξ) = 1/k(ξ) die entsprechende Normierungskonstante darstellt. (2) Es sei X ∼ N1 (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R × R+ , dann ist µ 1 , − ξ = (ξ1 , ξ2 ) = σ2 σ2 4 der natürliche Parameter und damit Z = R × R− . Für die Dichte erhalten wir die Darstellung fξ (x) = c(ξ) exp(ξ1 x + ξ2 x2 ), wobei c(ξ) = 1/k(ξ) ist mit Z k(ξ) = exp(ξ1 x + ξ2 x2 )dx. R Da für ξ2 < 0 die Ungleichung k(ξ) < ∞ gilt, erhalten wir als natürlichen Parameterbereich Z ∗ = Z = R × R− . (3) Für die Poissonverteilung X ∼ P0 (λ) erhält man für den natürlichen Parameter ξ = log λ und für den natürlichen Parameterraum Z ∗ = Z = R. Übung 3.7: Man zeige, dass mit den Bezeichnungen aus 3.5 gilt: Z ∗ ist konvex und Z ∗ hat nichtleeres Inneres. Satz 3.9: Es sei P = {fξ | ξ ∈ Z} eine k-parametrige exponentielle Familie mit natürlicher Parametrisierung und Lebesgue- oder Zähldichten fξ (x) = c(ξ)h(x) exp k nX o ξj Tj (x) IA (x), j=1 ϕ : X → R eine (messbare und) beschränkte Funktion und Z ∗∗ ⊂ Z ∗ eine offene Menge, so dass für alle ξ ∈ Z ∗∗ mit X ∼ fξ der Erwartungswert Eξ [ϕ(X)] existiert. Dann ist die Funktion ( ∗∗ Z → Rh o i R nP β: k ξ → Eξ ϕ(X) ξ T (x) dx = ϕ(x)h(x) exp j=1 j j c(ξ) A beliebig oft differenzierbar und es gilt: ∂ `1 ∂ `k h ϕ(x) i (∗) β(ξ) = Eξ T1`1 (X) . . . Tk`k (X) . ... ∂ξ1 ∂ξk c(ξ) Man beachte, dass im stetigen Fall die Gleichung (∗) äquivalent zu der Darstellung k ∂ `k Z X ∂ `1 ... h(x)ϕ(x) exp ξj Tj (x) dx ∂ξ1 ∂ξk A j=1 Z k X ξj Tj (x) dx = h(x)ϕ(x)T1`1 (x) . . . Tk`k (x) exp A j=1 5 und bedeutet, dass Differentiation und Integration vertauscht werden dürfen. Eine entsprechende Deutung erhalten wir im diskreten Fall, wobei die Integration durch Summation ersetzt werden muss. Übung 3.10: Es sei P = {fξ | ξ ∈ Z} eine einparametrige exponentielle Familie mit natürlicher Parametrisierung und Dichten fξ (x) = c(ξ)h(x) exp(ξT1 (x)). Man zeige für die Zufallsvariablen X ∼ fξ Eξ [T (X)] = −(log c(ξ))0 Varξ (T (X)) = −(log c(ξ))00 . Bestimmen Sie die Fisher-Information von P bzgl. ξ. Nimmt T (X) die untere Schranke der Crámer-Rao-Ungleichung an? Man formuliere und beweise ein entsprechendes Ergebnis für k-parametrige exponentielle Familien. Beispiel 3.11: (Fortsetzung von Beispiel 3.6) θ (1) Falls X ∼ Bin(n, θ), dann ist T1 (X) = X, ξ = log 1−θ , c(ξ) = (1 + eξ )−n und wir erhalten eξ = nθ 1 + eξ eξ −(log c(ξ))00 = n = nθ(1 − θ). (1 + eξ )2 −(log c(ξ))0 = n ξ (2) Fall X ∼ P0 (λ), dann ist ξ = log λ, c(ξ) = e−e , T (X) = X und wir erhalten −(log c(ξ))0 = eξ = λ −(log c(ξ))00 = eξ = λ. Satz 3.12: Es sei P = {fθ | θ ∈ Θ} eine k-parametrige exponentielle Familie mit Dichten fθ (x) = c(ξ) exp k X Qj (θ)Tj (x) h(x)IA (x) j=1 und das Innere von Z = Q(Θ) sei nicht leer, dann ist die Statistik T = (T1 , . . . , Tk ) vollständig für θ. 6 Übung 3.13: Es sei P = {fθ | θ ∈ Θ} und T : X → τ eine suffiziente und vollständige Statistik für den Parameter θ. Ist h : τ → τ bijektiv, so ist auch die Statistik T̃ = h◦T suffizient und vollständig für θ. [Man beachte, dass eine mathematisch exakte Formulierung eine zugehörige Bedingung an die zugehörigen σ-Algebren benötigt (vgl. Witting, S. 354)]. Beispiele 3.14: Bei Vorliegen einer exponentiellen Familie erhalten wir UMVU-Schätzer direkt mit dem Satz von Lehmann Scheffé. (1) Es sei X ∼ Bin(n, θ), dann ist T1 (X) = X suffizient und vollständig für θ (vgl. Beispiel 3.2) und nach 3.10(1) Eθ [X/n] = θ. Damit ist T ∗ (X) = Eθ i X | T1 (X) = n n hX UMVU-Schätzer für θ. (2) Es seien X1 , . . . , Xn i.i.d. ∼ N1 (µ, σ 2 ). Nach Beispiel 3.4 und Satz 3.12 ist T (X) = n X Xi i=1 Xi2 suffizient und vollständig für den Parameter θ = (µ, σ 2 ). Die Übung 3.13 zeigt, dass auch die Statistik ! Pn X i Pi=1 T̃ (X) = n 2 i=1 (Xi − X̄n ) suffizient und vollständig für den Parameter (µ, σ 2 ) ist. Nach Beispiel 2.27 ist n (X̄n , Ŝn2 )T 1 X = (X̄n , (Xi − X̄n )2 )T n − 1 i=1 erwartungstreu für (µ, σ 2 ) und somit die Komponenten von hX̄ i X̄ n n ∗ | T̃ (X) = T (X) = E 2 2 Ŝn Ŝn UMVU-Schätzer für die jeweiligen Parameter µ und σ 2 . Beispiel 3.15: (zweifaktorielle Kontingenztafeln) Es sollen Objekte (z.B. Schüler) mit zwei Merkmalen (z.B. Geschlecht und Note in Mathematik) untersucht werden. Von Interesse sind hier die Wahrscheinlichkeiten für eine bestimmte Merkmalskombination (z.B. ein männlicher Schüler hat eine 2). Die Merkmale werden auch oft Faktoren genannt und mit A und B bezeichnet. Die verschiedenen Möglichkeiten für ein Merkmal heißen Stufen , wobei der Faktor A die r ≥ 2 Stufen A1 , . . . , Ar und der Faktor die s ≥ 2 Stufen 7 B1 , . . . , Br haben soll (z.B. hat der Faktor Geschlecht 2 Stufen und der Faktor Note 6 Stufen). Die mathematische Modellierung dieses Experiments erfolgt durch Zufallsvariable Y1 , . . . , Yn mit Yk ∼ (X11k , X12k , . . . , Xrsk )T ∼ M(1, p11 , . . . , prs ), wobei die Wahrscheinlichkeiten pij für die Faktorkombination (Ai , Bj ) (i = 1, . . . , r; j = 1, . . . , s) positiv sind und r X s X pij = 1 i=1 j=1 gilt. Man beachte, dass Yk ein Vektor ist, in dem genau an einer Stelle eine 1 und sonst Nullen stehen. Ist Xijk die entsprechende Komponente mit der 1, so bedeutet das, dass bei Yk für den Faktor A die Stufe i und für den Faktor B die Stufe j auftritt. Wir definieren Xij = n X Xijk k=1 als die Anzahl der Objekte in der Stichprobe mit der Faktorkombination (Ai , Bj ) für Faktor A und Faktor B und erhalten nach Definition der Multinomialverteilung Y = n X Yk = (X11 , . . . , Xrs )T ∼ M(n, p11 , . . . , prs ). k=1 Als Messwertschema ergibt sich dann die folgende r × s Kontingenztafel A\B A1 A2 .. . B1 X11 X21 .. . B2 X12 X22 .. . . . . Bs . . . X1s . . . X2s .. . X1· X2· .. . Ar Xr1 X·1 Xrs X·2 ... ... Xr· n wobei Xi· = s X Xij ; X·j = j=1 Xrs X·s r X Xij i=1 die Zeilen- bzw. Spaltensummen in dieser Tafel bezeichnet. Aus Beispiel 1.5 erkennt man,PdassPdie Multinomialverteilungen mit (Zähl-)Dichten [θ = (p11 , . . . , pr,s−1 ); prs = 1 − ri=1 s−1 j=1 pij ] r s o YY x n X n! fθ (x) = pijij I xij ∈ {0, . . . , n}, xij = n x11 ! . . . xrs ! i=1 j=1 i,j 8 eine rs − 1 parametrige exponentielle Familie bilden und daher die Statistik Ỹ = (X11 , X12 , . . . , Xr,s−1 )T vollständige und suffiziente Statistik für θ is [vgl. Satz 3.12]. Man beachte, dass wegen der Beziehung r X s−1 X Xrs = Xij i=1 j=1 die letzte Koordinate von Y durch Ỹ bestimmt ist und eine entsprechende Aussage für die zugehörige Wahrscheinlichkeit prs gilt. Wegen E hX i ij n = pij i = 1, . . . , r; j = 1, . . . , s ist nach dem Satz von Lehmann-Scheffé für i = 1, . . . , r; j = 1, . . . , s p̂ij = Xij n ein UMVU-Schätzer für den Parameter pij . Man beachte, dass man die Zellhäufigkeiten als Schätzer benutzt, und diese Statistiken auch sofort durch ein heuristisches Argument gewonnen werden können. Die obige Argumentation weist aber gleichzeitig die Optimalität dieser Schätzungen nach. Beispiel 3.16: Wir nehmen zusätzlich in Beispiel 3.15 an, dass die Faktoren A und B unabhängig sind (z.B. dass das Geschlecht und die Noten im Unterricht unabhängig sind), d.h. es gilt pij = P (Ai ∩ Bj ) = P (Ai )P (Bj ) = pi· p·j mit pi· = s X pij ; p·j = j=1 r X pij (i = 1, . . . , r; j = 1, . . . , s). i=1 Für die Dichten erhält man dann r fθ (x) = = s n o YY X n! (pi· p·j )xij I{xij ∈ 0, . . . , n}, xij = n x11 ! . . . xrs ! i=1 j=1 i,j r s n o Y Y X n! x pxi·i· p·j·j I xij ∈ {0, . . . , n}; xij = n x11 ! . . . xrs ! i=1 j=1 ij und es liegtP eine r+s−2 exponentielle Familie vor (man beachte die NebenbePparametrige r s dingungen i=1 pi· = j=1 p·j = 1) mit suffizienter und vollständiger Statistik (X1· , . . . , Xr−1,· , X·1 , . . . , X·,s−1 )T 9 (man beachte, dass die Zufallsvariablen X·s und Xr· durch die Relation X·s = n − r−1 X X·j ; Xr· = n − j=1 r−1 X Xi· i=1 bestimmt sind. Unter der obigen Annahme der Unabhängigkeit erhält man dann p̂ij = Xi· X·j n2 i = 1, . . . , r; j = 1, . . . , s als UMVU-Schätzer für die Wahrscheinlichkeiten pij = pi· p·j . 4 Asymptotische Eigenschaften von Schätzern In diesem Abschnitt sei X = (X1 , . . . , Xn )T eine Zufallsvariable mit mit Werten in Dn und Dichte fθ , wobei der Parameter θ [oder allgemeiner ein Funktional γ(θ)] aus den Daten geschätzt werden soll. Eine Minimalvoraussetzung für eine sinnvolle Schätzmethode ist, dass bei wachsendem Stichprobenumfang die Genauigkeit der Schätzungen verbessert werden sollte. Definition 4.1: Es γ : Θ → Γ ⊂ R` ein Funktional. Ein Schätzer Tn : Xn → Γ heißt konstent für γ(θ), genau dann, wenn für alle θ ∈ Θ und für alle ε > 0 gilt (∗) lim Pθ (kTn (X) − γ(θ)k > ε) = 0. n→∞ Dabei bezeichnet k · k eine beliebige Norm auf R` . Schreibweise: P θ Tn (X) −→ γ(θ) bzw. P θ Tn −→ γ(θ) ∀ θ ∈ Θ, man sagt auch die Zufallsvariable Tn (X) konvergiert stochastisch gegen den Parameter γ(θ). Der Schätzer Tn heißt asymptotisch erwartungstreu für den Parameter γ(θ), falls für alle θ ∈ Θ gilt lim Eθ [Tn (X)] = γ(θ) n→∞ (natürlich setzen wir in diesem Fall die Existenz des Erwartungswerts voraus). Bemerkung 4.2: (1) Anschaulich bedeutet die Gleichung (∗), dass bei großem Stichprobenumfang der Schätzer Tn (X) mit großer Wahrscheinlichkeit nahe bei dem unbekannten Parameter γ(θ) liegt. Diese Aussage ist natürlich nicht besonders präzise, da keine Aussage über die Konvergenzgeschwindigkeit gemacht wird. 10 (2) Eine typische Methode zum Nachweis der Konsistenz im Fall ` = 1 ist die Markov-Ungleichung, nach der für jede reellwertige Zufallsvariable Z und jede konvexe Funktion ϕ : R0 → R0 gilt E[ϕ(Z)] P (|Z| > ε) ≤ . ϕ(ε) Für die spezielle Wahl Z = Tn (X) − γ(θ) (P = Pθ ) erhält man dann Pθ (|Tn (X) − γ(θ)| > ε) ≤ Eθ [ϕ(|Tn (X) − γ(θ)|)] , ϕ(ε) + k wobei ϕ : R+ 0 → R0 eine beliebige konvexe Funktion ist (oft wird ϕ(X) = |x| benutzt). Man beachte, dass diese Ungleichung für ϕ(x) = x2 und erwartungstreue Schätzer für den Parameter γ(θ) die Chebyshev-Ungleichung ergibt: Pθ (|Tn (X) − γ(θ)| > ε) ≤ Varθ (Tn (X)) . ε2 (3) Der Begriff der Konsistenz kann immer dann definiert werden, sobald ein Abstandsmaß auf dem interessierenden Parameterbereich Γ erklärt ist. In Definition 4.1 ist Γ Teilmenge eines normierten linearen Raums. Man könnte aber auch allgemeiner Teilmengen metrischer Räume betrachten (siehe Vorlesung statistik II). Beispiele 4.3: (1) Es seien X1 , . . . , Xn i.i.d. ∼ N1 (µ, σ 2 ), dann ist X̄n konsistenter Schätzer für den Parameter µ und n σ̂n2 1X (Xi − X̄n )2 ; = n i=1 n Ŝn2 1 X = (Xi − X̄n )2 n − 1 i=1 sind konsistente Schätzer für den Parameter σ 2 . Dabei ist Ŝn2 erwartungstreu für σ 2 und σ̂n2 asymptotisch erwartungstreu für σ 2 (vgl. Beispiel 2.27). P (2) Es seien X1 , . . . , Xn i.i.d. ∼ M(1, θ1 , . . . , θs ) θ1 , . . . , θs > 0, si=1 , θi = 1), dann ist der Schätzer n 1X Tn (X) = Xi n i=1 erwartungstreuer und konsistenter Schätzer für θ = (θ1 , . . . , θs )T . Übung 4.4: Man zeige: 11 (1) Für i = 1, . . . , ` sei Tni : X → R Schätzer für den Parameter γi (θ), dann gilt: Der Schätzer Tn (X) = (Tn1 (X), . . . , Tn` (X))T ist genau dann konsistent für den Parameter γ(θ) = (γ1 (θ), . . . , γ` (θ))T falls jede Komponente Tni (X) konsistent für γi (θ) ist (i = 1, . . . , `). ˜ (2) Es sei Tn (X) ein konsistenter Schätzer für γ(θ) und g : Γ → Γ̃ ⊂ R` eine stetige Funktion, dann ist auch g(Tn (X)) konsistenter Schätzer für g(γ(θ)). Bemerkung 4.5: Die mit dem Schätzprinzip der Momentenmethode erhaltenen Schätzer (vgl. Bemerkung 2.13) sind konsistent. Genauer sind X1 , . . . , Xn i.i.d. ∼ fθ ; mj (θ) = Eθ [Xij ] (j = 1, . . . , k) und existiert für das interessierende Funktional des Parameters eine Darstellung der Form γ(θ) = g(m1 (θ), . . . , mk (θ)) mit einer stetigen Funktion g : Rk → R` , dann ist im Fall der Existenz der Momente E[Xi2k ] der Schätzer n n 1 X 1 X k Xi , . . . , X Tn (X) = g n i=1 n i=1 i konsistent für den Parameter γ(θ). Im Folgenden wollen wir ein entsprechendes Resultat für die Maximum-Likelihood-Schätzung herleiten. Die Schwierigkeit ist hier, dass im allgemeinen Fall weder die Existenz noch Eindeutigkeit der Lösung der Maximum-Likelihood-Gleichungen gewährleistet ist, da eine explizite Auflösung der Gleichung ∂ log f (x, θ) = 0 ∂θ nur in den seltensten Fällen möglich ist. Wir betrachten hier nur den Fall von unabhängig identisch verteilten Beobachtungen und verweisen für ein allgemeineres Resultat auf das Lehrbuch von Pruscha. (1) Satz 4.6: Es seien X1 , . . . , Xn i.i.d. ∼ fθ ; θ ∈ Θ; Θ ⊂ Rk offen und es seien die Annahmen (i) – (iii) aus Bemerkung 2.42 erfüllt. Gilt zusätzlich, dass für jedes x ∈ Mf die Funktion (1) θ → log fθ (x) zweimal stetig differenzierbar ist und für i, j = 1, . . . , k die stochastische Konvergenz n h ∂ i 1 X ∂2 ∂ Pθ (1) (1) (1) log fθn∗ (X` ) −→ −Eθ log fθ (X` ) log fθ (X` ) =: −(iθ )ij n `=1 ∂θi ∂θj ∂θi ∂θj 12 P θ für jeden Schätzer θn∗ mit der Eigenschaft θn∗ −→ θ; dann gilt mit einer Pθ -Wahrscheinlichkeit, die gegen 1 konvergiert: (1) Es existiert eine Lösung θ̂n = θ̂n (X) der Maximum-Likelihood-Gleichungen n X ∂ ∂ (1) log fθ (X) = log fθ (Xj ) = 0 ∂θ ∂θ j=1 Man beachte, dass für die Dichte von fθ von X = (X1 , . . . , Xn )T gilt fθ (X) = n Y (1) fθ (Xj ). j=1 (2) Im Punkt θ̂n nimmt die Funktion log fθ (X) (als Funktion von θ) ein lokales Maximum an und θ̂n (X) is konsistenter Schätzer für den Parameter θ. Bemerkung 4.7: (1) Wie bei der Cramér-Rao-Ungleichung werden diese Voraussetzungen bei der konkreten Anwendung der Maximum-Likelihood-Methode nur selten überprüft. Der Satz 4.6 zeigt aber, dass unter Regularitätsvoraussetzungen die ML-Schätzung als universelles Schätzprinzip konsistent ist. (2) Man beachte, dass unter der Annahme der Vertauschbarkeit von Differentiation und Integration gilt (Übung) h ∂2 i i h ∂ ∂ (1) (1) (1) log fθ (X1 ) = −Eθ log fθ (X1 ) log fθ (X1 ) Eθ ∂θi ∂θj ∂θi ∂θ und daher die Voraussetzung (∗) aus Stetigkeitsgründen wegen des schwachen Gesetzes der großen Zahlen in vielen Fällen erfüllt ist. Bemerkung: Der Beweis des höherdimensionalen Falls unterscheidet sich nur dadurch, dass man für den Nachweis der Existenz der Nullstelle von g den Fixpunktsatz von Brouwer verwendet. Beispiel 4.8: (ML-Schätzung bei Gamma-Verteilung) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit der Dichte (1) fθ (x1 ) = λα α−1 −λx1 I(0,∞) (x1 ) x e Γ(α) 1 13 θ = (λ, α)T ∈ (0, ∞)2 . Die Verteilung der Zufallsvariablen Xi heißt Gamma-Verteilung mit Parametern (λ, α); als Schreibweise verwenden wir: X1 , . . . , Xn i.i.d. ∼ Γ(λ, α). Um die ML-Gleichungen aufzustellen, bestimmen wir die gemeinsame Dichte von X = (X1 , . . . , Xn ) und erhalten mit x = (x1 , . . . , xn )T n n λnα Y α−1 −λ Pni=1 xi fθ (x) = x e I min x i . (0,∞) i=1 (Γ(α))n i=1 i Differenzieren bzgl. (λ, α)T liefert die Maximum-Likelihood-Gleichungen n nα X ∂ log fθ (x) = − xi = 0, ∂λ λ i=1 n X ∂ nΓ0 (α) log fθ (x) = n log λ + log xi − = 0, ∂α Γ(α) i=1 und wir erhalten die Maximum-Likelihood-Schätzungen (λ̂, α̂) als Lösung des (nichtlinearen) Gleichungssystems n 1 X −1 λ̂ = Xi nα̂ i=1 n 1X Γ0 (α̂) − log λ̂ = Xi . Γ(α̂) n i=1 Satz 4.6 besagt, dass mit einer Wahrscheinlichkeit, die für n → ∞ gegen 1 konvergiert, eine konsistente Lösung dieser Gleichungen existiert. Die Überprüfung der Voraussetzungen (i) – (iii) aus Bemerkung 2.42 überlassen wir dem Leser. Zum Nachweis der Bedingungen (∗) berechnen wir die Fisher-Informationsmatrix und erhalten (Übung) h ∂ 2 i ∂ (1) (1) log fθ (X1 ) log fθ (X1 ) I(θ) = (iθ )2i,j=1 = Eθ ∂θi ∂θj i,j=1 α − λ1 λ2 = 1 Γ00 (α) Γ0 (α) 2 − λ Γ(α) − Γ(α) und die Eigenschaft (∗) folgt direkt durch Übung 4.4(2) und Berechnung der zweiten Ableitungen α ∂2 1 ∂2 (1) (1) log f (x ) = − log fθ (x1 ) = 1 θ 2 2 ∂ λ λ ∂α∂λ λ Γ0 (α) 2 00 ∂2 Γ (α) (1) log fθ (x1 ) = − + , ∂2α Γ(α) Γ(α) die offensichtlich stetig sind. In den vorigen Betrachtungen haben wir gesehen, dass unter Regularitätsvoraussetzungen der Maximum-Likelihood-Schätzer stochastisch gegen den ,,wahren“ Parameter konvergiert. 14 Allerdings gibt dieses Resultat keine Auskunft über die Konvergenzgeschwindigkeit. Z.B. ist in Beispiel 4.6 die untere Schranke für die Varianz eines erwartungstreuen Schätzers für den Parameter λ durch λ2 /αn gegeben, aber es ist nicht klar, ob die ML-Methode eine erwartungstreue Schätzung mit einer Varianz von derselben Größenordnung liefert. Um eine solche Eigenschaft für die ML-Schätzungen nachzuweisen, führen die Prinzipien der Verteilungskonvergenz und asymptotischen Effizienz ein [vgl. auch Vorlesung Wahrscheinlichkeitstheorie I]. Definition 4.9: Es sei (Z (n) )n∈N eine Folge von d-dimensionalen Zufallsvariablen (Z (n) = (Zn1 , . . . , Znd )T ) mit Verteilungsfunktionen P (Zn1 ≤ t1 , . . . , Znd ≤ td ) = Fn (t1 , . . . , td ) und Z = (Z1 , . . . , Zd )T d-dimensionale Zufallsvariable mit Verteilungsfunktion P (Z1 ≤ t1 , . . . , Zd ≤ td ) = F (t1 , . . . , td ). Die Folge (Zn )n∈N konvergiert in Verteilung gegen Z (bzw. konvergiert schwach gegen Z), falls in jedem Stetigkeitspunkt (t1 , . . . , td )T der Verteilungsfunktion F gilt: lim Fn (t1 , . . . , td ) = F (t1 , . . . , td ). n→∞ Als Schreibweise verwenden wir: D D Zn −→ Z; Zn −→ F (dabei steht das D für distribution). Ist Z ∼ Nd (µ, Σ), so heißt (Zn )n∈N asymptotisch normalverteilt und man schreibt D Zn −→ Nd (µ, Σ). Bemerkungen 4.10: (1) Liegt Verteilungskonvergenz vor, so können für großes n ∈ N die Wahrscheinlichkeiten P (Zn ∈ B) durch die Wahrscheinlichkeiten P (Z ∈ B) approximiert werden. (2) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ Bin(1, θ); Pn 1 θ ∈ (0, 1) and Zn = n i=1 Xi , dann gilt: √ D n(Zn − θ) −→ N1 (0, θ(1 − θ)) [Satz von Moivre Laplace] 15 D (3) Es gilt Z (n) = (Zn1 , . . . , Znd )T −→ Z = (Z1 , . . . , Zd )T genau dann, wenn für alle Vektoren a ∈ Rd gilt D aT Z (n) −→ aT Z. D (4) Es sei a ∈ Rd und es gelte Z (n) −→ a, dann gilt auch P Z (n) −→ a. Satz 4.11: (Zentraler Grenzwertsatz) Es seien X1 , . . . , Xn unabhängig identisch P verteilte d-dimensionale Zufallsvariable mit E[Xk ] = µ ∈ Rd und Cov(Xi ) = > 0, P dann gilt für den Mittelwert Z (n) = n1 ni=1 Xi √ D n(Z (n) − µ) −→ Ns−1 (0, Σ). n→∞ Beispiel 4.12: Es sei X = (X1 , . . . , Xs )T ∼ M(n, p1 , . . . , ps ) mit p1 , . . . , ps > 0, Ps i=1 pi = 1 und Z (n) = n1 (X1 , . . . , Xs−1 )T für n → ∞ √ D n(Z (n) − p) −→ Ns (0, Σ), n→∞ wobei p = (p1 , . . . , ps−1 )T und die Matrix Σ = (Σij )s−1 i,j=1 durch ( pi (1 − pi ) für i = j Σij = −pi pj für i 6= j definiert ist. Diese Aussage ergibt sich unmittelbar aus der Definition der Multinomialverteilung [vgl. Beispiel 1.5], Übung 1.23 und Satz 4.11. Lemma 4.13: (1) (Lemma von Slutsky) Es seien (Z (n) )n∈N und (Y (n) )n∈N Folgen d-dimensionaler Zufallsvariablen, für die gilt D Z (n) −→ Z; P Y (n) −→ y0 wobei y0 ∈ Rd einen d-dimensionalen Vektor und Z eine dimensionale Zufallsvariable bezeichne. Dann gilt: D YnT Z (n) −→ y0T Z D Z (n) + Y (n) −→ Z + y0 . 16 (2) (δ-Methode) Es sei (Z (n) )n∈N Folge von d-dimensionalen Zufallsvariablen, Z Zufallsvariable, b ∈ Rd , (Σn )n∈N ⊂ Rd×d eine Folge invertierbare Matrizen, so dass D (n) Σ−1 − b) −→ Nd (0, S) n (Z mit einer positiven definiten Matrix S ∈ Rd×d gilt. Ist dann g : Rd → R` differenzierbare Funktion, so dass die Ableitung g 0 (·) ∈ R`×d im Punkt b stetig ist und (die Matrix g 0 ⊂ b) Rang ` hat, dann gilt (n) Σ−1 ) − g(b)) → N` (0, g 0 (b)S(g 0 (b))T ) n (g(Z Beispiel 4.14: (1) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ Bin(1, θ), dann gilt nach dem Satz von Moivre-Laplace √ D n(X̄n − θ) −→ N1 (0, θ(1 − θ)) und wegen des schwachen Gesetzes der großen Zahlen P θ X̄n −→ θ. Nach dem Lemma von Slutksy gilt dann auch √ n(X̄n − θ) D p −→ N1 (0, 1), X̄n (1 − X̄n ) und damit erhält man auf der rechten Seite eine von θ unabhängige Verteilung. Alternativ kann man auch eine Transformation mit der Funktion g benutzen, die die Differentialgleichung p g 0 (θ) = 1/ θ(1 − θ) erfüllt, d.h. √ g(θ) = 2 arcsin θ. Dann gilt nach der δ-Methode p √ D 2 n(arcsin X̄n − arcsin θ) −→ N1 (0, 1). Eine solche Transformation nennt man auch varianzstabilisierende Transformation. 17 (2) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ N1 (µ, σ 2 ), dann ist nach Satz 4.11 o √ n 1 Xi µ D n − −→ N2 (0, Σ) n Xi2 µ2 + σ 2 wobei die asymptotische Kovarianzmatrix durch ! Var(X1 ) Cov(X1 , X12 ) = Σ= Cov(X1 , X12 ) Var(X12 ) σ2 2µσ 2 2µσ 2 2σ 4 + 4µ2 σ 2 ! gegeben ist. Mit der Transformation g(x1 , x2 ) = −x21 + x2 erhalten wir g(µ, µ2 + σ 2 ) = σ 2 , g 0 (x1 , x2 ) = (−2x1 , 1), g 0 (µ, σ 2 )Σ(g 0 (µ, σ 2 ))T = 2σ 4 und nach Satz 4.13 (2) gilt für den Schätzer n σ̂n2 n n n n 1 X 1X 1 X 2 1 X 2 1 X 2 2 = (Xi − X̄n ) = X − Xi = g Xi , X n i=1 n i=1 i n i=1 n i=1 n i=1 i die asymptotische Normalität, d.h. √ n(σ̂n2 n n √ 1 X 1 X 2 D 2 −σ )= n g Xi , Xi − g(µ, σ ) −→ N1 (0, 2σ 4 ). n i=1 n i=1 2 Bemerkung 4.15: Die Aussage der Verteilungskonvergenz eines Schätzers für θ (∗) √ D θ n(θ̂n (X) − θ) −→ Z legt die Vermutung nahe, dass θ̂n (X) asymptotisch erwartungstreu für θ ist, falls die Grenzverteilung Erwartungswert 0 hat, d.h. E[Z] = 0 gilt. Diese Schlussweise ist aber im allgemeinen nicht korrekt und erfordert zusätzliche Voraussetzungen. Allerdings folgt nach dem Satz von Slutsky aus der Annahme (∗) 1 √ Dθ n(θ̂n (X) − θ) −→ 0·Z =0 θ̂n (X) − θ = √ n und aus Bemerkung 4.10 (4) die Konsistenz des Schätzers θ̂n (X) für den Parameter θ d.h. P θ θ̂n (X) −→ θ. Definition 4.16: Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit (1) Dichte ∼ fθ ; θ ∈ Θ; Θ ⊂ Rk offen und es gelten die Annahmen aus Bemerkung 2.42. 18 Ein Schätzer Tn (X) für den Parameter θ heißt asymptotisch effizient, falls für n → ∞ die Verteilungskonvergenz √ Dθ n(Tn (X) − θ) −→ Nk (0, I −1 (θ)) gilt, wobei die k × k-Matrix h ∂ ik ∂ (1) (1) I(θ) = Eθ log fθ (X1 ) log fθ (X1 ) ∂θi ∂θj i,j=1 (1) die Fisher-Informationsmatrix von fθ bezeichnet. Man beachte, dass aus der Eigenschaft der asymptotischen Effizienz die Konsistenz des Schätzers Tn (X) für den Parameter θ folgt und außerdem Tn (X) asymptotisch die untere Schranke in der Cramér-Rao-Ungleichung annimmt, die unter den obigen Annahmen durch 1 In−1 (θ) = I −1 (θ) n gegeben ist [vgl. Bemerkung 2.39]. Beispiel 4.17: Es seien X1 , . . . , Xn ∼ N1 (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariable, dann ist der Schätzer n Tn (X) = (X̄n , 1X (Xi − X̄n )2 )T n i=1 asymptotisch effizient für den Parameter θ = (µ, σ 2 ), denn ein analoges Argument wie in Beispiel 4.14 (2) zeigt, dass für den Schätzer Tn (X) = gilt 1 X n n n n n 1 X 1 X 2 1 X 2 T 1 X 2 Xi , X − Xi =g Xi , X n i=1 i n i=1 n i=1 n i=1 i √ D θ n(Tn (X) − (µ, σ 2 )T ) −→ N2 (0, Σ(θ)) wobei die Kovarianzmatrix durch 2 Σ(θ) = σ 0 0 2σ 4 ! = I −1 (θ) gegeben ist [vgl. Beispiel 2.43]. Satz 4.18: (Unter Regularitätsvoraussetzungen sind Maximum-Likelihood-Schätzungen asymptotisch effizient). Unter den Annahmen aus Satz 4.6 gilt für den nach diesem Satz existierenden Maximum-Likelihood-Schätzer θ̂n (X) : √ Dθ n(θ̂n (X) − θ) −→ Nk (0, I −1 (θ)), 19 wobei die k × k-Matrix h ∂ ik ∂ (1) (1) I(θ) = Eθ log fθ (X` ) log fθ (X` ) ∂θi ∂θj i,j=1 (1) die Fisher Informationsmatrix von fθ bezeichnet. Beispiele 4.19: (1) Für den in Beispiel 4.8 implizit definierten ML-Schätzer (λ̂n , α̂n ) für die Parameter der Gamma-Verteilung gilt √ λ̂n λ D n − −→ N2 (0, Σ(λ, α)) α̂n α mit der Kovarianzmatrix Σ(λ, α) = α λ2 − λ1 − λ1 0 2 Γ00(α) (α) − ΓΓ(α) Γ(α) −1 . (2) Es seien X, Y eindimensionale Zufallsvariable, dann heißt die Größe Corr(X) = p Cov(X, Y ) Var(X)Var Y Korrelationskoeffizient und ist ein Maß für die Abhängigkeit von X und Y. Man beachte die Ungleichung |Corr(X, Y )| ≤ 1. Das Gleichheitszeichen in dieser Ungleichung gilt genau dann, wenn Konstanten a, b, c ∈ R mit P (aX + bY = c) = 1, existieren. Es seien µ σ 2 ρστ X1 Xn 1 ,..., i.i.d. ∼ N2 , , Y1 Yn µ2 ρστ τ 2 dann gilt offensichtlich ρ = Corr(X1 , Y1 ) und mit der Bezeichnung θ = (µ1 , µ2 , σ 2 , τ 2 , ρ) erhält man für die Dichte von (X1 , Y1 ) n τ 2 (x − µ )2 − 2στ (x − µ )(y − µ ) + τ 2 (y − µ )2 o 1 1 1 1 1 1 2 1 2 (1) p fθ (X1 , Y1 ) = exp − 2 τ 2 (1 − ρ2 ) 2 2σ 2πστ 1 − ρ Damit ergibt sich mit der Bezeichnung (x, y)T = ((x1 , y1 )T , . . . , (x1 , yn ))T für die Log-Likelihood-Funktion `n (θ) = log fθ (x, y) = n X i=1 20 (1) log fθ (xi , yi ). Für die Maximum-Likelihood-Gleichungen erhalten wir durch eine direkte Rechnung das (nichtlineare) Gleichungssystem P P τ 2 ni=1 (xi − µ1 ) − στ ρ ni=1 (yi − µ2 ) ∂ `n (θ) = =0 ∂µ1 σ 2 τ 2 (1 − ρ2 ) P P σ 2 ni=1 (yi − µ2 ) − στ ρ ni=1 (xi − µ1 ) ∂ `n (θ) = =0 ∂µ2 σ 2 τ 2 (1 − ρ2 ) P Pn 2 ρ ni=1 (xi − µ1 )(yi − µ2 ) ∂ n i=1 (xi − µ1 ) − =0 `n (θ) = − 2 + ∂σ 2 2σ 2σ 4 (1 − ρ2 ) 2(σ 2 )3/2 τ (1 − ρ2 ) P Pn 2 ρ ni=1 (xi − µi )(yi − µ2 ) ∂ n i=1 (yi − µ2 ) − =0 `n (θ) = − 2 + ∂τ 2 2τ 2τ 4 (1 − ρ2 ) 2(τ 2 )3/2 σ(1 − ρ2 ) n n n X o X ∂ nρ ρ 2 2 2 2 `n (θ) = τ − (x − µ ) + σ (y − µ ) i 1 i 2 ∂ρ 1 − ρ2 (1 − ρ2 )2 σ 2 − τ 2 i=1 i=1 n 1 + ρ2 X (xi − µ1 )(yi − µ2 ) = 0, + (1 − ρ2 )2 στ i=1 und die Lösung dieser Gleichungen ergibt für den Maximum-Likelihood-Schätzer µ̂1 = X̄n ; µ̂2 = Ȳn n n 1X 1X σ̂n2 = (Xi − X̄n )2 ; τ̂n2 = (Yi − Ȳn )2 n i=1 n i=1 Pn (Xi − X̄n )(Yi − Ȳn ) . ρ̂n = pPn i=1 Pn 2 2 i=1 (Yi − Ȳn ) i=1 (Xi − X̄n ) Der Schätzer ρ̂n heißt empirischer Korrelationskoeffizient und nach Satz 4.18 gilt √ D n(ρ̂n − ρ) −→ N (0, (1 − ρ2 )2 ), wobei sich die asymptotische Varianz als Element (I(θ)−1 )55 der Fisher-Informationsmatrix τ 2 −ρστ 0 0 0 −ρστ σ 2 0 0 0 2 2 2 1 τ (2−ρ S) ρ ρ 2 − 0 0 − τ I(θ) = 2 2 4σ 2 4 2 σ τ (1 − ρ2 ) 2 (2−ρ2 ) 2 σ ρ ρ 2 0 0 −4 − σ 2 4τ 2 σ 2 τ 2 (1+ρ2 ) ρ 2 ρ 2 0 0 −2τ −2σ 1−ρ2 ergibt [die Berechnung dieser Matrix sei dem Leser als Übung überlassen]. 21 5 Konfidenzbereiche Die Angabe eines Punktschätzers gibt keine Auskunft über Genauigkeit der Schätzung und sollte daher immer durch die Angabe eines Fehlermaßes (wie z.B. Varianz oder MSE) ergänzt werden. Als Alternative bieten sich Bereiche an, in denen der unbekannte Parameter mit ,,großer“ Wahrscheinlichkeit liegt. Solche Mengen nennt man Konfidenzbereiche. Beispiel 5.1: In einem Experiment wurden die Daten x1 = 3.45, x2 = 2.37, x3 = 4.13, x4 = 5.23 beobachtet. Unter der Annahme unabhängiger Daten X1 , . . . , Xn ∼ N (µ, 1) erhält man als UMVU-Schätzer für µ; man beachte (n = 4) : µ̂n = x̄n = 3.795. Für die Berechnung eines Bereichs, in dem der unbekannte Parameter µ mit großer Wahrscheinlichkeit liegt, bezeichne Z x 1 2 Φ(x) = √ e−t /2 dt 2π −∞ die Verteilungsfunktion der Standardnormalverteilung und für den Parameter β ∈ (0, 1) uβ := Φ−1 (β) das β-Quantil der Standard-Normalverteilung (man beachte, dass für Z ∼ N (0, 1) die Identität P (Z ≤ uβ ) = Φ(β) = β gilt). Für die ,,zufälligen“ Grenzen 1 1 µ+ µ− n (X) = X̄n + √ u1−α/2 ; n = X̄n − √ u1−α/2 n n √ mit α ∈ (0, 1) gilt dann [man beachte n(X̄n − µ) ∼ N (0, 1)] √ + Pµ (µ− n(X̄n − µ) < u1−α/2 ) n (X) < µ < µn (X)) = Pµ (−u1−α/2 < = Φ(u1−α/2 ) − Φ(−u1−α/2 ) = 2Φ(u1−α/2) − 1 = 1 − α, wobei die Identität Φ(x) = 1 − Φ(−x) verwendet wurde (man beachte, dass diese Ungleichung für jede Verteilungsfunktion mit symmetrischer Dichte gilt). In anderen Worten: das Intervall (µ− (X), µ+ (X)) enthält den unbekannten Parameter µ mit Wahrscheinlichkeit 1 − α. Für die speziellen Daten ergibt sich z.B. für α = 5% das Intervall (2.815, 4.775) als 95%-Konfidenzintervall. Eine exakte Definition dieses Begriffes liefert die folgende Definition. 22 Definition 5.2: Es sei X eine Zufallsvariable mit Werten in X und Verteilung Pθ (stetig oder diskret) und C eine Familie von Untermengen von Θ. Eine Abbildung c:X →C heißt Konfidenzbereich für θ (Vertrauensbereich, Bereichsschätzer). Für α ∈ (0, 1) heißt c Konfidenzbereich für θ zum Niveau 1 − α, falls für alle θ ∈ Θ gilt: Pθ (θ ∈ c(X)) = Pθ ({x ∈ X | θ ∈ c(x)) ≥ 1 − α. Die Zahl inf Pθ (θ ∈ c(X)) θ∈Θ heißt effektives Konfidenzniveau von c. Bemerkung 5.3: (1) Oft wird für das Mengensystem C die Potenzmenge von Θ verwendet. Besteht C im Fall Θ ⊂ R nur aus Intervallen, so nennt man die Abbildung c auch Konfidenzintervall. Entsprechend spricht man für Θ ⊂ Rk von Konfidenzrechtecken, Konfidenzellipsoiden etc. (2) Bezeichnet x ∈ X den Datenvektor, so wird oft auch c(x) als Konfidenzbereich bezeichnet (genauer heißt c(x) konkreter Konfidenzbereich). (3) Ist γ : Θ → Γ ein Funktional, so werden Konfidenzbereiche für γ(θ) analog definiert. (4) Man beachte, dass im Fall der Lebesgue-Dichte die Menge {x ∈ X | θ ∈ c(x)} messbar sein muss. (5) Man beachte die folgende Interpretation des Begriffs Konfidenzbereich: Die ,,zufällige“ Menge c(X) enthält den unbekannten Parameter θ mit Wahrscheinlichkeit 1 − α. Das bedeutet nicht, dass für die konkret vorliegenden Daten x ∈ X die Menge c(x) den Parameter θ mit Wahrscheinlichkeit 1 − α enthält [diese Aussage ist entweder richtig oder falsch - auch wenn man sie nicht überprüfen kann], sondern dass bei häufiger Wiederholung des Experiments in mindestens (1 − α) 100% der Fälle der unbekannte Parameter in den erhaltenen Bereichen liegen würde. (6) Im Beispiel 5.1 ist C die Menge der Intervalle, X = Rn , n = 4 ( X → C c: x → [x̄n − √1n u1−α/2 , x̄n + √1n u1−α/2 ] (7) Wünschenswert wäre ein möglichst großes Konfidenzniveau 1 − α (d.h. α → 0) und gleichzeitig ein möglichst kleiner Konfidenzbereich. Offensichtlich ist eine solche simultane Optimierung nicht möglich [man denke z.B. an die Abbildung c(x) = Θ ∀ x ∈ X , die Konfidenzniveau 1 besitzt.]. 23 (8) Es bezeichne A(θ) := {x ∈ X | θ ∈ c(x)}, dann gilt offensichtlich: x ∈ A(θ) ⇐⇒ θ ∈ c(x), d.h. c ist Konfidenzbereich zum Niveau 1 − α falls Pθ (A(θ)) ≥ 1 − α ∀ θ ∈ Θ gilt. D.h. für die Angabe von c sind die Mengen A(θ) festzulegen. Damit c kleine Bereiche liefert, sollte daher die Menge A(θ) möglichst wenig Punkte enthalten. Im diskreten Fall würde man daher der Menge A(θ) diejenigen Werte x ∈ X zuordnen, für die die Wahrscheinlichkeiten Pθ (X = x} am größten werden. Beispiel 5.3: Es seien X1 , . . . , Xn ∼ B(1, θ), unabhängig identisch verteilte Zufallsvariable, dann ist n X B= Xi ∼ B(n, θ) i=1 suffiziente Statistik für den Parameter θ und wegen der Ungleichung n−x+1 θ Pθ (B = x) = ≤ 1 ⇐⇒ (n + 1)θ ≤ x Pθ (B = x − 1) x 1−θ sollte man die Menge A(θ) in der Form A(θ) ∈ {x ∈ {0, . . . , n} | a(θ) ≤ x ≤ A(θ)} wählen, so dass für alle θ ∈ Θ A(θ) X n x Pθ (A(θ)) = θ (1 − θ)n−x ≥ 1 − α x x=a(θ) gilt. Man beachte, dass durch diese Ungleichung die Grenzen a(θ) und A(θ) nicht eindeutig festgelegt sind. Wir wählen die Grenzen ,,symmetrisch“, d.h. a(θ) = max{k ∈ {0, . . . , n} | k−1 X n θ(1 − θ)n−j ≤ α } 2 j n j α A(θ) = min{k ∈ {0, . . . , n} | θ (1 − θ)n−j ≤ }. 2 j j=k+1 j=0 n X Durch Vergleich der Ableitung bezüglich θ zeigt man leicht die Identität Z θ n X n j n! n−j (∗), θ (1 − θ) = tx−1 (1 − t)n−x dt j (x − 1)!(n − x)! 0 j=x 24 und wir erhalten, dass A(θ) und a(θ) monoton wachsende Funktionen in θ sind [man beachte außerdem, dass a(θ) ≤ A(θ) gilt]. Damit ergibt sich a(θ) ≤ x ⇐⇒ θ ≤ L(x) := sup{θ ∈ Θ | a(θ) = x} A(θ) ≥ x ⇐⇒ θ ≥ `(x) := inf{θ ∈ Θ | A(θ) = x}, und man erhält als Konfidenzintervall zum Niveau 1 − α (`(x), L(x)) Mit der Substitution uα x ; α= 1 + uα n−x+1 erhält man für die Wahrscheinlichkeiten in (∗) Z g(θ) n X n j n−j θ (1 − θ) = f2x,2(n−x+1) (u)du, j 0 j=x t= wobei f2x,2(n−x+1) die in Beispiel 1.17 (3) definierte Dichte der F -Verteilung mit (2x, 2(n − x + 1)) Freiheitsgraden ist und die Funktion g durch g(θ) = θ n−x+1 θ 1 = 1−θα 1−θ x definiert ist. Bezeichnet nun F (· | m, n) die Verteilungsfunktion der F -Verteilung mit (m, n)-Freiheitsgraden und für β ∈ (0, 1) Fm,n,β = F −1 (β | m, n) das β-Quantil der F -Verteilung mit (m, n)-Freiheitsgraden, so gilt nach Definition der F -Verteilung (Übung) Fm,n,β = 1/Fn,m,1−β und wir erhalten für die Grenzen x x = `(x) = x + (n − x + 1)F2x,2(n−x+1)α/2 x + (n − x + 1)F2(n−x+1),2x,1−α/2 L(x) = (x + 1)F2x+2,2(n−x),1−α/2 . (x + 1)F2x+2,2(n−x),1−α/2 + n − x Man beachte, dass L(x) Lösung der Gleichung x X n j α θ (1 − θ)n−j = j 2 j=0 25 und `(x) Lösung der Gleichung n X n j=x j θj (1 − θ)n−j = α 2 ist. Die Quantile der F -Verteilung sind tabelliert und die Größen `(x) und L(x) heißen Clopper-Pearson-Schranken für den Parameter θ. Beispiel 5.4: (Konfidenzbereiche bei Normalverteilung) Es seien X1 , . . . , Xn i.i.d. ∼ N (µ, σ 2 ), dann sind n X̄n = 1X Xj n j=1 Ŝn2 = 1 X (Xj − X̄n )2 n − 1 j=1 n UMVU-Schätzer für die Parameter µ und σ 2 [vgl. Beispiel 3.14)]. Nach Beispiel 1.19 (3) gilt für √ n(X̄n − µ) ∼ tn−1 . T = Ŝn Es bezeichne t(x | n − 1) = P (T ≤ x) = 1 − t(−x | n − 1) die Verteilungsfunktion der t-Verteilung mit (n − 1)-Freiheitsgraden und für β ∈ (0, 1) tn−1,β = t−1 (β | n − 1) das β-Quantil der t-Verteilung mit (n − 1) Freiheitsgraden. Dann gilt wegen der Eigenschaft (Übung) tn−1,β = −tn−1,1−β Ŝn Ŝn Pθ (X̄n − √ tn−1,1−α/2 < µ < X̄n + √ tn−1,1−α/2 ) n n = Pθ (−tn−1,1−α/2 < T < tn−1,1−α/2 ) = t(tn−1,1−α/2 | n − 1) − t(−tn−1,1−α/2 | n − 1) = 1 − α, und damit ist das Intervall Ŝn Ŝn Inµ := (X̄n − √ tn−1,1−α/2 , X̄n + √ tn−1,1−α/2 ) n n ein (1 − α)-Konfidenzintervall für den Parameter µ. Bezeichnet entsprechend für β ∈ (0, 1) χ2n−1,β das β-Quantil der χ2 -Verteilung mit (n − 1)-Freiheitsgraden [d.h. für Z ∼ χ2n−1 gilt P (Z ≤ χ2n−1,β ) = β], so gilt wegen Ŝn2 ∼ σ2 2 χ n − 1 n−1 26 (vgl. Beispiel 1.19 (1)) Pθ = Ŝ 2 (n − 1) n χ2n−1,1−α/2 2 Pθ Xn−1,α/2 < σ2 < Ŝn2 (n − 1) χ2n−1,α/2 n−1 2 α α 2 < Ŝn < χn−1,1−α/2 = 1 − − = 1 − α. 2 σ 2 2 Damit ist 2 Inσ := Ŝ 2 (n − 1) Ŝ 2 (n − 1) n , n χ2n−1,1−α/2 χ2n−1,α/2 ein (1 − α) Konfidenzintervall für den Parameter σ 2 . 2 Übung 5.5: Man zeige, dass für die Längen λ(Inµ ) und λ(Inσ ) der in Beispiel 5.4 definierten Konfidenzbereiche gilt [θ = (µ, σ 2 )] P θ 0 λ(Inµ ) −→ n→∞ 2 Pθ λ(Inσ ) −→ 0. n→∞ D.h. bei wachsendem Stichprobenumfang und konstanten Konfidenzniveau werden die Intervalle beliebig klein. In den obigen Beispielen ging man von einer ,,naheliegenden Form“ des Konfidenzbereichs aus und bestimmte dann durch elementare Umformungen das Konfidenzintervall. In vielen Fällen ist aber eine solche Vorgehensweise unmöglich. Man kann aber dennoch oft Konfidenzbereiche bestimmen, die zumindest näherungsweise das Niveau (1 − α) liefern. Definition 5.6: Für n ∈ N sei X (n) ∼ fθ eine Zufallsvariable mit Werten in Xn , cn : Xn → C ein Konfidenzbereich für θ ∈ Θ. Die Folge (cn )n∈N heißt asymptotischer Konfidenzbereich zum Niveau α, falls für alle θ ∈ Θ gilt: lim Pθ (θ ∈ cn (X (n) )) ≥ 1 − α n→∞ (in den wichtigsten Fällen ist der lim ein lim und das , , ≥ “ ein , , = “). Beispiel 5.7: (asymptotisches Konfidenzintervall bei Binomialverteilung) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ B(1, θ), dann gilt nach Beispiel 4.14 √ n(X̄n − θ) D −→ N (0, 1). Zn := p X̄n (1 − X̄n ) 27 Mit q u1−α/2 = X̄n − √ X̄n (1 − X̄n ) n q u1−α/2 + X̄n (1 − X̄n ) θn (X) = X̄n + √ n θn− (X) gilt daher lim Pθ (θn− (X) < θ < θn+ (X)) = lim P (−u1−α/2 < Zn < u1−α/2 ) n→∞ n→∞ = Φ(u1−α/2 ) − Φ(−u1−α/2 ) = 1 − α und damit ist (θn− (X), θn+ (X)) ein asymptotisches (1 − α) Konfidenzintervall für den Parameter θ. Bemerkung 5.8: (ein allgemeines Prinzip zur Konstruktion von asymptotischen Konfidenzbereichen mit der ML-Methode) Es seien X1 , . . . , Xn unabhängig (1) identisch verteilte Zufallsvariable mit Dichte fθ ; θ ∈ Θ ⊂ R, dann gilt unter den Annahmen aus Satz 4.6 und 4.18 für einen Maximum-Likelihood-Schätzer θ̂n = θ̂n (X) : P θ θ̂n −→ θ √ Dθ n(θ̂n − θ) −→ N1 (0, wobei I1 (θ) = Eθ 1 ) I1 (θ) h ∂ 2 i (1) log fθ (X1 ) ∂θ (1) die Fisher-Information der Dichte fθ bezeichnet. Unter Stetigkeitsvoraussetzungen gilt auch D I1 (θ̂n ) −→ I1 (θ) (∀ θ ∈ Θ), und man erhält mit dem Lemma von Slutsky q Dθ nI1 (θ̂n )(θ̂n − θ) −→ N1 (0, 1). Daher ergibt sich h u1−α/2 i u1−α/2 θ̂n − q , θ̂n + q nI1 (θ̂n ) nI1 (θ̂n ) als asymptotisches (1 − α)-Konfidenzintervall für den Parameter θ. Man beachte, dass wir diese Methode in Beispiel 5.7 verwendet haben. Beispiel 5.9: Es seien X1 , . . . , Xn unabhängig identisch exponential-verteilte Zufallsvari(1) able mit Parameter λ, d.h. für die Dichte fλ von X1 gilt (1) fλ (t) = 1 −t/λ e I[0,∞) (t), λ 28 λ > 0. Man zeigt leicht, dass λ̂n = X̄n der Maximum-Likelihood-Schätzer für den Parameter λ ist und aus Beispiel 2.41 erhalten (1) wir für die Fisher-Information von fλ I1 (λ) = 1 . λ2 Offensichtlich ist die Fisher-Information I1 (als Funktion von λ stetig. Damit gilt √ n Dλ (λ̂n − λ) −→ N (0, 1) λ̂n und h u1−α/2 u1−α/2 i λ̂n (1 − √ ), λ̂n 1 + √ n n ist asymptotisches (1 − α)-Konfidenzintervall für den Parameter λ. Bemerkung 5.10 (konservative Konfidenzbereiche für Parametervektoren) Es sei X ∼ fθ eine Zufallsvariable, θ = (θ1 , . . . , θd )T ∈ Θ = Θ1 × . . . × Θd und für jedes i = 1, . . . , d; ci : X → Θi ein 1 − αi -Konfidenzbereich für θi , d.h. Pθ (θi ∈ ci (X)) ≥ 1 − α ∀ θ ∈ Θ. Dann ist ( c: X → Θ x → c1 (x) × . . . × cd (x) ein Konfidenzbereich für den Vektor θ = (θ1 , . . . , θd ) zum Niveau 1 − entsprechende Aussage gilt für asymptotische Konfidenzbereiche. Pd i=1 αi . Eine Beispiel 5.11: Es seien X1 , . . . , Xn ∼ γ(α, λ) unabhängig identisch verteilte Zerfallsvariable mit θ = (α, λ) ∈ (0, ∞)2 [vgl. Beispiel 4.8]. In Beispiel 4.19 haben wir für den Maximum-Likelihood-Schätzer (λ̂n , α̂n )T gezeigt ! √ λ̂n λ Dθ n − −→ N2 (0, Σ(λ, α)), α̂n α wobei die Kovarianzmatrix durch Σ(λ, α) = α λ2 − λ1 Γ00 (α) Γ(α) 29 −1 − λ1 0 2 (α) − ΓΓ(α) gegeben ist. Mit Lemma 4.13(2) und Beispiel 1.15 gilt dann √ n (λ̂n − λ) → N (0, 1) d11 (λ̂n , α̂n ) √ n (α̂n − α) → N (0, 1), d22 (λ̂n , α̂n ) wobei d2ii (λ, α) das i-te Diagonalelement der Matrix Σ(λ, α) bezeichnet. Damit sind h d11 (λ̂n , α̂n ) d11 (λ̂n , α̂n ) i √ √ c1 (x) = λ̂n − u1−γ/2 , λ̂n + u1−γ/2 n n h d22 (λ̂n , α̂n ) d22 (λ̂n , α̂n ) i √ √ c2 (x) = α̂n − u1−γ/2 , α̂n + u1−γ/2 n n jeweils asymptotische Konfidenzintervall e zum Niveau 1 − γ und c1 (x) × c2 (x) ein asymptotisches Konfidenzrechteck für den Vektor (λ, α) zum Niveau 1 − 2γ. 6 Grundbegriffe statistischer Tests Beispiel 6.1: In diesem Abschnitt sollen Hypothesen über den unbekannten Parameter θ ∈ Θ in einem statistischen Experiment (X , P); P = {fθ | θ ∈ Θ} untersucht werden. Man betrachte dazu als einfachstes Beispiel ein lang erprobtes Medikament A mit einer Heilungswahrscheinlichkeit θ0 = 0.65. Ein neues Medikament B wurde an 100 Patienten getestet und es ergaben sich dabei 90 erfolgreiche Therapien. Die grundsätzliche Frage ist, ob das neue Medikament B besser als das Medikament A ist, oder ob dieses Ergebnis zufallsbedingt zu Stande gekommen ist. Bezeichnet der Parameter θ die (unbekannte) Heilungswahrscheinlichkeit von Medikament B, so sind auf Basis der gegebenen Stichprobe die Hypothesen H : θ ≤ θ0 = 0.65 K : θ > θ0 zu prüfen. Definition 6.2: Es sei X ∼ fθ ; eine Zufallsvariable θ ∈ Θ und Θ = ΘH ∪ Θk eine disjunkte Zerlegung des Parameterbereichs. Ein randomisierter Test ist eine (messbare) Abbildung ϕ : X → [0, 1]. 30 Dabei gibt ϕ(x) die Wahrscheinlichkeit für die Entscheidung K : θ ∈ Θk an, falls x = X(ω) beobachtet wurde. Die Menge ΘH heißt Nullhypothese und die Menge ΘK Alternative. Mit Φ bezeichnen wir die Menge aller Tests, für ϕ ∈ Φ heißt die Menge K := {x ∈ X | ϕ(x) = 1} kritischer Bereich und die Menge R := {x ∈ X | 0 < ϕ(x) < 1} ⊂ X Randomisierungsbereich. Ein Test ϕ heißt nichtrandomisiert, falls R = ∅ ⇐⇒ ϕ(X ) = {0, 1} gilt. Beispiel 6.3: In Beispiel 6.1 ist Θ = (0, 1), ΘH = (0, 0.65], ΘK = (0.65, 1), wobei θ die unbekannte Wahrscheinlichkeit für einen Therapieerfolg bezeichnet. Eine geeignet stochastische Modellierung erhält man, indem man die Versuchsausgänge für die einzelnen Experimente durch unabhängige identisch verteilte Zufallsvariable X1 , . . . , Xn mit X1 ∼ B(1, θ) modelliert. Dabei bedeutet Xi = 1, dass der i-te Patient durch das Medikament B geheilt wurde, θ bezeichnet die Wahrscheinlichkeit für einen Therapieerfolg und der Stichprobenumfang ist n = 100. Da X̄n ein UMVU-Schätzer für den Parameter θ ist, ist es naheliegend, für ,,große“ Werte von X̄n für die Alternative K : θ > 0.65 zu entscheiden. Ein ,,typischer“ Test für diese Fragestellung ist die Abbildung ϕ : {0, 1}n → [0, 1], die durch ( ( ) ) > 1 ϕ(x) := falls x̄n 0.7 ≤ 0 definiert ist. Offensichtlich ist der Test ϕ nichtrandomisiert. Bemerkung 6.4: Bei der Anwendung eines Tests können zwei Fehler auftreten. Man spricht von einem Fehler erster Art, falls der Test für die Alternative θ ∈ ΘK entscheidet, aber in Wirklichkeit θ ∈ ΘH gilt, und von einem Fehler zweiter Art, falls der Test für die Nullhypothese θ ∈ ΘH entscheidet, aber in Wirklichkeit θ ∈ ΘK gilt. Beide Fehler treten mit bestimmten Wahrscheinlichkeiten auf und die Aufgabe der schließenden Statistik besteht darin, diese Wahrscheinlichkeiten für dieses Auftreten zu quantifizieren. Man beachte, dass man nicht feststellen kann, ob ein Fehler erster oder zweiter Art aufgetreten ist, da der ,,wahre“ Parameter θ nicht bekannt ist. Test ΘH ΘK Wirklichkeit ΘH korrekt Fehler 1-ter Art 31 ΘK Fehler 2-ter Art korrekt Beispiel 6.5: (Fortsetzung von Beispiel 6.1 und 6.3) Für den Test aus Beispiel 6.3 erhält man Pθ (ϕ(X) = 1) = Pθ (X̄n > 0.7) √ √n(X̄ − θ) n(0.7 − θ) n = Pθ p >p X̄n (1 − X̄n ) X̄n (1 − X̄n ) √n(0.7 − θ) , ≈ 1−Φ p X̄n (1 − X̄n ) wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet und sich die Approximation aus dem Satz von Moivre-Laplace und dem Lemma von Slutsky ergibt [vgl. Bsp. 4.14 (1)]. Für die konkret vorliegenden Daten (n = 100, X̄n = 0.8) erhalten wir dann 10(θ − 0.7) Pθ (ϕ(X) = 1) ≈ Φ 0.4 und Monotonie-Betrachtungen ergeben für die Fehlerwahrscheinlichkeiten näherungsweise ≈0 falls θ = 0.5 falls θ = 0.6 Pθ (Fehler erster Art) ≈ 0.006 ≤ sup Pθ (ϕ(X) = 1) ≈ 0.106 θ∈(0,0.65) ≈0 ≈ 0.006 Pθ (Fehler zweiter Art) ≈ 0.5 ≤ sup falls θ = 0.9 falls θ = 0.8 falls θ = 0.7 Pθ (ϕ(X) = 0) ≈ 0.894 θ∈(0.65,1) Bemerkung 6.6: Offensichtlich hängen in Beispiel 6.5 die Fehlerwahrscheinlichkeiten von dem unbekannten Parameter θ ab. Wünschenswert wäre eine simultane Minimierung der Wahrscheinlichkeiten für Fehler erster und zweiter Art durch geeignete Wahl des Testverfahrens ϕ. Durch Betrachtung der konstanten Abbildungen ϕ1 (x) ≡ 1 und ϕ0 (x) ≡ 0 sieht man allerdings sofort, dass eine solche Minimierung unmöglich ist. Man geht daher pragmatisch vor und legt eine Schranke α ∈ (0, 1) für eine noch tolerierbare Wahrscheinlichkeit für den Fehler erster Art fest [üblich sind Werte α ∈ [0.01, 0.1] und versucht dann optimale Testverfahren zu konstruieren, die die Wahrscheinlichkeit für den Fehler 2-ter Art minimieren. Man beachte, dass durch diese Vorgehensweis das ursprünglich symmetrische Entscheidugnsproblem unsymmetrisch wird. Man wird daher in der Alternative immer diejenige Entscheidung formulieren, die die schwerwiegenden Konsequenzen hat (da man bei einer Entscheidung für ΘK entweder keinen Fehler gemacht oder die Wahrscheinlichkeit für diesen Fehler (erster Art) kontrolliert hat). 32 Definition 6.7: Es sei X eine Zufallsvariable mit Dichte fθ und ϕ ein Test für die Hypothesen H : θ ∈ ΘH ; K : θ ∈ ΘK , dann heißt die Funktion ( Θ → [0, 1] βϕ : θ → βϕ (θ) := Eθ [ϕ(X)] Gütefunktion von ϕ. Ein Test ϕ ∈ Φ heißt Test zum Niveau α ∈ (0, 1), falls sup βϕ (θ) ≤ α θ∈ΘH gilt, und Φα bezeichne die Menge aller Tests zum Niveau α. Die Größe α heißt Irrtumswahrscheinlichkeit. Ein Test ϕ ∈ Φ heißt unverfälscht zum Niveau α, falls gilt ϕ ∈ Φα (d.h. ϕ ist Test zum Niveau α) und inf βϕ (θ) ≥ α θ∈ΘK gilt; Φαα bezeichne die Menge aller unverfälschten Tests zum Niveau α. Bemerkungen 6.8: (1) βϕ (θ) gibt die Wahrscheinlichkeit an, für die Alternative ΦK zu entscheiden, falls θ der ,,wahre“ Parameter ist. Für θ ∈ ΘH ist also βϕ (θ) die Wahrscheinlichkeit für einen Fehler erster Art, während 1 − βϕ (θ) für θ ∈ ΘK die Wahrscheinlichkeit für einen Fehler zweiter Art angibt. Z.B. gilt nämlich im diskreten Fall für θ ∈ ΘH X Pθ (Entscheidung für ΘK | X = x)Pθ (X = x) Pθ (Fehler erster Art) = x = X ϕ(x)Pθ (X = x) = Eθ [ϕ(X)] = βϕ (θ) x und analoge Darstellungen ergeben sich für die anderen Fälle. (2) Ist ϕ Test zum Niveau α ∈ (0, 1), dann gilt für alle Parameterwerte θ ∈ ΘH Pθ (Fehler erster Art) ≤ α, d.h. die Wahrscheinlichkeit für einen Fehler erster Art ist maximal α. (3) Ist ϕ unverfälscht, so soll für Parameterwerte θ ∈ ΘK die Wahrscheinlichkeit, für ΘK zu entscheiden, nicht kleiner sein als für Parameterwerte θ ∈ ΘH . Beispiel 6.9: (approximative Berechnung der Gütefunktion im Beispiel 6.5) Mit den Bezeichnungen aus Beispiel 6.3 und Beispiel 6.5 gilt für die Gütefunktion des Tests aus Beispiel 6.3 näherungsweise ( [0, 1] → [0, 1] βϕ : 10(θ−0.7) θ → βϕ (θ) ≈ Φ 0.4 33 (4) Wünschenswert ist also für θ ∈ ΘH : βϕ (θ) ≈ 0 und für θ ∈ ΘK : βϕ (θ) ≈ 1 zu erreichen! Definition 6.10: (1) Ein Test ϕ∗ ∈ Φα heißt gleichmäßig bester Test zum Niveau α bzw. UMP-Test (uniformly most powerful), falls für alle Parameterwerte θ ∈ ΘK gilt: βϕ∗ (θ) = sup βϕ (θ). ϕ∈Φα In anderen Worten: für alle θ ∈ ΘK minimiert ϕ∗ die Wahrscheinlichkeit für einen Fehler 2-ter Art in der Klasse aller Tests zum Niveau α. (2) Ein Test ϕ∗ ∈ Φαα heißt gleichmäßig bester unverfälschter Test zum Niveau α bzw. UMPU-Test (uniformly most powerful unbiased), falls für alle θ ∈ ΘK gilt: βϕ∗ (θ) = sup βϕ (θ). ϕ∈Φαα Satz 6.11: Es sei X eine Zufallsvariable mit Dichte fθ ; ϕ : X → [0, 1] ein Test für die Hypothesen H : θ ∈ ΘH ; K : θ ∈ ΘK und T : X → τ eine suffiziente Statistik für den Parameter θ. Dann existiert ein Test der Form ψ ◦ T (mit ψ : τ → [0, 1]), der dieselbe Gütefunktion wie ϕ hat, nämlich (ψ ◦ T )(X) = Eθ [ϕ(X) | T (X)] (man beachte, dass der Erwartungswert wegen der Suffizienz der Statistik T unabhängig von dem Parameter θ ist). Bemerkung 6.12: Satz 6.11 zeigt dass man sich bei der Konstruktion von Tests auf Verfahren beschränken kann, die nur von der suffizienten Statistik abhängen. Für die Konstruktion optimaler Tests ist zunächst ein genaues Verständnis des einfachsten (aber nicht unbedingt praxisrelevanten) Falls von einfachen Hypothesen Θ = {θ0 , θ1 }; ΘH = {θ0 }; ΘK = {θ1 } erforderlich. In diesem Fall ist die Statistik Lθ0 ,θ1 (x) := fθ1 (x) fθ0 (x) (nach dem Neyman-Kriterium 2.5) suffizient für den Parameter θ (falls fθ0 (x) = fθ1 (x) = 0 definieren wir den Quotienten beliebig, falls fθ0 (x) = 0 und fθ1 (x) > 0 als ∞). Die Statistik 34 Lθ0 ,θ1 (x) heißt Likelihood-Quotient und ein UMP-Test zum Niveau α für die Hypothesen H : θ = θ0 ; K : θ = θ1 maximiert βϕ (θ1 ) = Eθ1 [ϕ(x)] bzgl. der Wahl von ϕ unter der Nebenbedingung βϕ (θ0 ) = Eθ0 [ϕ(x)] ≤ α. Definition 6.13: Mit den Bezeichnungen aus Bemerkung 6.12 heißt ein Test ϕ ∈ Φ ein Neyman-Pearson-Test, falls es ein c ∈ [0, ∞] gibt, so dass für alle x ∈ X gilt: ( ) ( ) 1 > ϕ(x) = falls fθ1 (x) cfθ0 (x) 0 < (man beachte, dass keine Aussage über den Fall fθ1 (x) = cfθ0 (x) gemacht wird). Satz 6.14: (Neyman-Pearson-Lemma) (1) Ein Neyman-Pearson-Test ϕ∗ ist UMP-Test zum Niveau α = Eθ0 [ϕ∗ (X)] für die Hypothesen H : θ = θ0 ; K : θ = θ1 . (2) Für alle α ∈ [0, 1] existiert ein Neyman-Pearson-Test ϕ für die Hypothesen H : θ = θ0 ; K : θ = θ1 mit Eθ0 [ϕ(x)] = α. (3) Ist ϕ ein UMP-Test für die Hypothesen H : θ = θ0 ; K : θ = θ1 zum Niveau α, dann ist ϕ vom Neyman-Pearson-Typ, d.h. es existiert ein c ∈ [0, ∞] und eine Funktion γ : χ → [0, 1], so dass ϕ(x) = I{fθ1 (x) > cfθ0 (x)} + γ(x)I{fθ1 (x) = cfθ0 (x)} für alle x ∈ {z | fθ0 (z) + fθ1 (z) > 0} gilt. Beachte: Teil (1) und Teil (2) aus Satz 6.14 liefern die Existenz eines UMP=Tests zu gegebenem Niveau α ∈ [0, 1] für einfache Hypothesen. Teil (3) dieses Satzes zeigt, dass der UMP-Test im wesentlichen eindeutig bestimmt ist. Ist die Funktion α aus dem obigen Beweis stetig, so kann in der Konstruktion des UMP-Tests ϕ∗ zum Niveau α ∈ [0, 1] für die Hypothesen H : θ = θ0 ; θ = θ1 stets γ ∗ = 0 gewählt werden. Beispiel 6.15: Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ N1 (µ, σ 2 ), wobei der Parameter σ 2 als bekannt angenommen wird. Für die Bestimmung des UMP-Tests für die Hypothesen H : µ = µ0 K : µ = µ1 35 (µ0 < µ1 gegeben) berechnen wir die gemeinsame Dichte der Zufallsvariablen X1 , . . . , Xn n n n 1 X o X x2` − 2µj x` + nµ2j k(µ0 , µ1 , σ 2 ) j = 1, 2 fµj (x) = (2πσ 2 )−n/2 exp − 2 2σ `=1 `=1 und erhalten für den Likelihood-Quotienten n n1 X o fµ1 (x) = exp 2 x` (µ1 − µ0 ) k(µ0 , µ1 , σ 2 ) Lµ0 ,µ1 (x) = fµ0 (x) σ `=1 mit der von den Daten unabhängigen Konstanten n k(µ0 , µ1 , σ 2 ) = exp − 2 (µ21 − µ20 ) . 2σ Damit ist die Ungleichung Lµ0 ,µ1 (x) > c̃ äquivalent zu der Ungleichung (man beachte µ1 > µ 0 ) n 1X xi > c n i=1 und wir erhalten für die Funktion α(·) aus dem Beweis von Satz 6.14(2) α(c) = Pµ0 n 1 X n Xi > c) = 1 − Φ i=1 √n σ (c − µ0 ) . Diese Funktion ist offensichtlich stetig und für α ∈ (0, 1) ergibt die Bedingung α(c) = α √ die Gleichung c = µ0 + σ/ nu1−α . Der UMP-Test für die obigen Hypothesen lautet damit ( ) ( ) σ 1 > ϕ(x) = falls x̄n µ0 + √ u1−α n 0 ≤ P (man beachte, dass die Zufallsvariable n1 ni=1 Xi eine stetige Verteilungsfunktion besitzt und daher die Konstante γ ∗ = 0 gewählt werden kann). Übung 6.16: Man zeige für die Situation aus Beispiel 6.15 mit bekannten µ ∈ R und unbekanntem σ 2 > 0, dass der Test ( ) ( ) n X > 1 ϕ(x) = falls (xj − µ)2 σ02 χ2n,1−α 0 ≤ j=1 einen UMP-Test für die Hypothesen H : σ 2 = σ02 K : σ 2 = σ12 definiert (dabei sei σ02 < σ12 gegeben und χ2n,β bezeichne das β-Quantil der χ2 -Verteilung mit n Freiheitsgraden). 36 Das Neyman-Pearson-Lemma ist ein wichtiges Hilfsmittel für die Konstruktion von optimalen Tests für kompliziertere Hypothesen. UMP-Tests existieren im wesentlichen nur für einfache Hypothesen und im Fall Θ ⊂ R für einseitige Hypothesen der Form H : θ ≤ θ0 K : θ > θ0 , falls die zugehörige Verteilungsfamilie die Eigenschaft des isotonen Dichtequotienten besitzt, die in der folgenden Definition erläutert wird. Definition 6.17: Es sei X ∼ fθ eine n-dimensionale Zufallsvariable, θ ⊂ R und T : X → R eine Statistik. Die Familie von Verteilungen P = {fθ | θ ∈ Θ} heißt Klasse mit (strikt) isotonem Dichtequotienten in der Statistik T, falls für alle θ0 , θ1 ∈ Θ mit θ0 < θ1 eine strikt isotone Funktion Hθ0 ,θ1 : R → [0, ∞] existiert, so dass der Likelihood-Quotient die Darstellung fθ1 (x) = Hθ0 ,θ1 (T (x)) fθ0 (x) für alle x ∈ {z ∈ X | fθ0 (z) + fθ1 (z) > 0} besitzt. P Beispiel 6.18: In der Situation von Beispiel 6.15 ist T (x) = n`=1 x` und nµ − µ o 1 0 t Hµ0 ,µ1 (t) = k(µ0 , µ1 , σ 2 ) exp σ2 streng monoton wachsende Funktion (man beachte µ0 < µ1 ), so dass gilt Lµ0 ,µ1 (x) = Hµ0 ,µ1 (T (x)). Damit hat die zugehörige P Verteilungsfamilie einen strikt isotonen Dichte-Quotienten in der Statistik T (x) = ni=1 xi . Übung 6.19: Es sei P = {fθ | θ ∈ Θ} eine Verteilungsfamilie mit Θ ⊂ R, fθ (x) = c(θ)h(x) exp(Q(θ)T (x))IA (x) eine einparametrige exponentielle Familie mit monoton wachsender Funktion Q. Man zeige: die Verteilungsfamilie P besitzt einen isotonen Dichte-Quotienten in der Statistik T. 37 Satz 6.20: Es sei X ∼ fθ eine n-dimensionale Zufallsvariable und für die Statistik T : X → R besitze die Familie von Verteilungen P = {fθ | θ ∈ Θ} (Θ ⊂ R) einen isotonen Dichte-Quotienten. Für α ∈ (0, 1) und θ0 ∈ Θ gilt für den durch ϕ∗ (x) := I{T (x) > c} + γI{T (x) = c} mit c := inf{t | Pθ0 (T (X) > t) ≤ α} ( γ := α−Pθ0 (T (X)>c) Pθ0 (T (X))=c) falls Pθ0 (T (X) = c) > 0 0 falls Pθ0 (T (X) = c) = 0 definierten Test: (1) ϕ∗ ist UMP-Test zum Niveau α für die einseitigen Hypothesen H : θ ≤ θ0 ; K : θ > θ0 . (2) Für alle θ < θ0 gilt: βϕ∗ (θ) = inf{βϕ (θ) | ϕ ∈ Φ; βϕ (θ0 ) = α}. D.h. ϕ∗ minimiert auch gleichmäßig die Wahrscheinlichkeit für einen Fehler erster Art unter allen Tests, die für θ = θ0 als Wahrscheinlichkeit für einen Fehler erster Art exakt α liefern. (3) Die Gütefunktion ( βϕ∗ : Θ → [0, 1] θ → βϕ∗ (θ) = Eθ [ϕ∗ (X)] ist strikt isoton auf dem Urbild βϕ−1∗ ((0, 1)). Beispiel 6.21: In der Situation aus Beispiel 6.15 hat (vgl. Beispiel 6.18) die zugehörige Verteilungsfamilie einen isotonen Dichtequotienten in der Statistik n T (X) = 1X Xi ∼ N (µ, σ 2 ), n i=1 und wie in Beispiel 6.15 zeigt man für µ0 ∈ R n n 1 X o σ Xi > t ≤ α = µ0 + √ u1−α . c = inf t | Pµ0 n i=1 n 38 Damit definiert σ ϕ∗ (x) = I{x̄n > µ0 + √ u1−α } n einen UMP-Test zum Niveau α für die Hypothesen H : µ ≤ µ0 ; K : µ > µ 0 Dieser Test heißt einseitiger Gaußtest und kann auch leicht heuristisch hergeleitet werden. (man beachte, dass σ 2 als bekannt vorausgestzt wird). Da X̄n UMVU-Schätzer für µ ist, liegt es nahe, die Hypothese H für ,,große“ Werte von X̄n zu verwerfen und bei ,,kleinen“ Werten für die Nullhypothese H zu entscheiden. D.h. ein sinnvoller Test die Form ϕ∗ (x) = I{x̄n > c} besitzen, wobei die Konstante c durch die vorgegebene Irrtumswahrscheinlichkeit festgelegt wird. Wegen √ µ − c X̄ − µ c − µ n =Φ n βϕ (µ) = Pµ (X̄n > c) = Pµ q > q σ σ2 σ2 n gilt n √n(µ − c) 0 ≤ α. sup βϕ∗ (µ) = βϕ∗ (µ0 ) = Φ σ µ≤µ0 Will man die vorgegebene Irrtumswahrscheinlichkeit voll ausschöpfen, so erhält man aus der Gleichung supµ≤µ0 βϕ∗ (µ) = α die Darstellung c = µ0 + √σn u1−α und damit den obigen Gauß-Test. Man beachte, dass dieses heuristische Prinzip auch leicht im Fall unbekannter Varianz anwendbar ist. In diesemPFall ersetzt man σ 2 in der obigen Rechnung durch seinen n 1 2 UMVU-Schätzer Ŝn2 = n−1 j=1 (Xj − X̄n ) und erhält mit Übung 1.19 (4) βϕ (µ) = Pµ √n(X̄ − µ) n Ŝn √ > n Ŝn (c − µ) . Man beachte, dass die Zufallsvariable √ n(X̄n − µ) Ŝn eine t-Verteilung mit (n − 1)-Freiheitsgraden besitzt. Man erkennt wieder, dass die Funktion µ → βϕ (µ) monoton wachsend in µ ist und dass man mit der Wahl Ŝn c = µ0 + √ tn−1,1−α n die Gleichung sup βϕ (µ) = α µ≤µ0 39 erfüllt ist. Damit erhält man n o Ŝn ϕ∗∗ (x) = I X̄n > µ0 + √ tn−1,1−α n als Test zum Niveau α für die Hypothesen H : µ ≤ µ0 ; K : µ > µ0 bei normalverteilten Daten mit unbekannter Varianz σ 2 . Dieser Test heißt einseitiger (Einstichproben) t-Test und die Vorgehensweise σ 2 durch seinen Schätzer Ŝn2 zu ersetzen, nennt man ,,studentisieren“. Die Optimalität dieses Verfahrens wird in Beispiel 6.29 geklärt. Bemerkung 6.22 : Für Hypothesen der Form (∗) H : θ = θ0 ; K : θ 6= θ0 existieren im allgemeinen keine UMP-Tests, da ein solcher Test für alle Hypothesen der Form (∗∗) H : θ = θ0 ; K : θ = θ1 mit θ0 6= θ1 optimal sein müsste. Für solche Hypothesen ist aber der Neyman-PearsonTest optimal und man kann zeigen, dass jeder UMP-Test für die Hypothesen in (∗∗) vom Neyman-Pearson-Typ ist (vgl. 6.14(3)). Damit müsste ein UMP-Test für die Hypothesen (∗∗) im Fall θ1 > θ0 die Darstellung ϕ(x) = I{T (x) > c} + γ(x)I{T (x) = c} und im Fall θ1 < θ0 die Darstellung ϕ(x) = I{T (x) < c̃} + γ(x)I{T (x) = c̃} besitzen, was einen Widerspruch ergibt. In diesen Fällen erhält man optimale Tests, in dem man sich auf die Klasse der unverfälschten Tests beschränkt und einparametrige exponentielle Familien betrachtet. Satz 6.23: Es sei X ∼ fθ , θ ∈ Θ ⊂ R eine n-dimensionale Zufallsvariable und, so dass die Familie P = {fθ | θ ∈ Θ} eine einparametrige exponentielle Familie (vgl. Übung 6.19) mit monoton wachsender Funktion Q(θ) bildet θ0 , θ1 , θ2 ∈ Θ; θ1 < θ2 . (1) Es existiert ein UMP-Test zum Niveau α ∈ (0, 1) für die Hypothesen H : θ 6∈ (θ1 , θ2 ); K : θ ∈ (θ1 , θ2 ), nämlich ein Test der Form 1 ∈ (c1 , c2 ) ∗ ϕ (x) = falls T (x) = ci i = 1, 2 γi 0 6∈ [c , c ] 1 2 40 wobei die Konstanten c1 , c2 , γ1 , γ2 aus den Bedingungen βϕ∗ (θ1 ) = βϕ∗ (θ2 ) = α bestimmt werden. (2) Es existiert ein UMPU-Test zum Niveau α ∈ (0, 1) für die Hypothesen H : θ ∈ [θ1 , θ2 ]; K : θ 6∈ [θ1 , θ2 ], nämlich ein Test der Form 1 6∈ [c1 , c2 ] ∗ (∗) ϕ (x) = falls T (x) = ci i = 1, 2 γi 0 ∈ (c , c ) 1 2 wobei die Konstanten c1 , c2 , γ1 , γ2 durch die Bedingungen βϕ∗ (θ1 ) = βϕ∗ (θ2 ) = α bestimmt werden. (3) Es existiert ein UMPU-Test zum Niveau α ∈ (0, 1) für die Hypothesen H : θ = θ0 ; K : θ 6= θ0 , nämlich ein Test der Form (∗), wobei die Konstanten c1 , c2 , γ1 , γ2 durch die Bedingungen βϕ∗ (θ0 ) = α βϕ0 (θ0 ) = 0 ⇐⇒ Eθ0 [T (X)ϕ∗ (X)] = αEθ [T (X)] festgelegt werden. Beispiel 6.24: Es seien X1 , . . . , Xn ∼ N (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariable und σ 2 bekannt und es soll ein Test für die Hypothesen H : µ ∈ [−ε, ε]; K : µ 6∈ [−ε, ε] konstruiert werden ( man spricht vom Testen auf einen relevanten Unterschied). gemeinsamen Dichten fµ (x) = √ 2πσ 2 −n Die n n nµ2 µ X 1 X 2 exp − 2 xj exp − 2 exp 2 xj 2σ j=1 2σ σ j=1 P bilden eine einparametrige exponentielle Familie mit T (x) = n1 nj=1 xj und Q(µ) = nµ/σ 2 (man beachte, dass der Parameter σ 2 als bekannt vorausgesetzt wurde). Da die Verteilung der Zufallsvariablen n 1X T (X) = Xj n j=1 41 stetig ist, können die Konstanten γ1 , γ2 als 0 gewählt werden und im Fall ε > 0 hat ein UMPU-Test die Gestalt ( ) ( 1 6∈ (c1 , c2 ) (∗) ϕ∗ = falls T (x) , 0 ∈ [c1 , c2 ] wobei die Konstanten c1 , c2 durch die Bedingung n 1X α = βϕ∗ (µ) = Eµ [ϕ (X)] = 1 − Pµ c1 ≤ Xi ≤ c2 n i=1 √ √ √ n(c − µ) n(X̄n − µ) n(c2 − µ) 2 ≤ ≤ = 1 − Pµ σ σ σ √n(c − µ) √n(c − µ) 2 1 +Φ = 1−Φ σ σ ∗ für µ = ∓ε festgelegt werden. Wegen der Symmetrie des Problems bietet sich die Wahl c1 = −c2 < 0 an und wir erhalten für beide Gleichungen √n(c − ε) √n(−c − ε) 2 2 α=1−Φ +Φ = h(c2 ). σ σ Durch Differenzieren zeigt man, dass diese Gleichung genau eine Lösung hat, die numerisch ermittelt werden muss. Für ε = 0 erhalten wir aus Satz 6.23(3) die Gleichungen √n √n c2 + Φ c1 α = βϕ∗ (0) = 1 − Φ σ √ √ n σ√ n o n n 0 ϕ c2 − ϕ c1 , 0 = βϕ∗ (0) = σ σ σ wobei 1 2 ϕ(t) = √ e−t 2π die Dichte der Standardnormalverteilung bezeichnet. Das liefert als explizite Lösung σ c2 = −c1 = √ u1−α/2 , n und mit diesen kritischen Werten aus (∗) einen UMPU-Test für die Hypothesen K : µ 6= 0. H : µ = 0; Dieser Test heißt zweiseitiger Gauß-Test. Wir bemerken abschließend, dass durch Translation jedes Testproblem für die Hypothesen H : µ ∈ [µ1 , µ2 ]; K : µ 6∈ [µ1 , µ2 ] mit µ1 ≤ µ2 auf die obige Form transformiert werden kann [man betrachte statt der Zufallsvariablen X̃i = Xi die Zufallsvariablen X̃ := Xi − (µ1 + µ2 )/2]. 42 Übung 6.25: Wie in Beispiel 6.21 leite man den zweiseitigen Gauß-Test für die Hypothesen H : µ = µ0 ; K : µ 6= µ0 mit einem heuristischen Argument her. Man zeige dann, dass bei unbekannter Varianz der Test n o ŝn ϕ(x) = I |x̄n − µ0 | > √ tn−1,1−α/2 n das Niveau α besitzt, wobei tn−1,β das β-Quantil der t-Verteilung mit n−1 Freiheitsgraden bezeichnet. Dieser Test heißt zweiseitiger t-Test. Übung 6.26: (Varianztest bei Normalverteilung) Es seien X1 , . . . , Xn ∼ N (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariable und µ bekannt. Die Verteilungen von (X1 , . . . , Xn ) bilden eine einparametrige exponentielle Familie 2 −n/2 fσ2 (x) = (2πσ ) n 1 X exp − 2 (xj − µ)2 2σ i=1 mit isotoner Funktion Q(σ 2 ) = − σ12 und Statistik T (x) = 6.19 und Satz 6.20 liefert ϕ(x) = I{T (x) > c} Pn j=1 (xj − µ)2 . Wegen Übung einen UMP-Test zum Niveau α ∈ (0, 1) für die Hypothesen H : σ 2 ≤ σ02 ; K : σ 2 > σ02 , falls die Konstante c durch die Bedingung α= βϕ (σ02 ) = Pσ02 n X (Xj − µ)2 > c j=1 festgelegt ist. Falls σ 2 = σ02 ist, gilt n X (Xj − µ)2 ∼ σ02 χ2n j=1 und wir erhalten c = σ02 χ2n,1−α , wobei χ2n,1−α das (1 − α)-Quantil der χ2 -Verteilung mit n Freiheitsgraden bezeichnet. Damit ist ϕ(x) = I n nX (xj − µ)2 > σ02 χ2n,1−α o j=1 ein UMP-Test zum Niveau α für die Hypothesen H : σ 2 ≤ σ02 ; K : σ 2 > σ02 . Für die Hypothesen H : σ 2 = σ02 ; K : σ 2 6= σ02 43 ist ϕ(x) = I{T (x) 6∈ [c1 , c2 ]} ein UMPU-Test zum Niveau α [vgl. Satz 6.23 (3)], wobei die Konstanten c1 , c2 durch die Bedingungen c c 1 2 2 α = βϕ (σ0 ) = 1 − Fχ2n 2 + Fχ2n 2 σ0 σ0 c c o n 1 2 1 0 = βϕ0 (σ02 ) = 4 c2 Fχ0 2n 2 − c1 Fχ0 2n 2 σ0 σ0 σ0 festgelegt werden und Fχ2n (·) die Verteilungsfunktion der χ2 -Verteilung mit n Freiheitsgraden bezeichnet. Die Lösung dieser Gleichungen muss numerisch erfolgen ( man kann zeigen, dass es eine eindeutige Lösung gibt). In der Praxis ignoriert man oft die zweite Gleichung und setzt c2 = σ02 χ2n,1−α/2 , c1 = σ02 χ2n,α/2 und erhält als Test ϕ(x) = I{T (x) > σ02 · χ2n,1−α/2 } + I{T (x) < σ02 · χ2n,α/2 } als Test zum Niveau α für die obigen Hypothesen (der dann nicht notwendig UMPU-Test ist). IstPder Parameter µ unbekannt, so wird dieser mit x̄n geschätzt und wir erhalten wegen nj=1 (xj − x̄n )2 ∼ σ 2 χ2n−1 als einen Test zum Niveau α für die die Hypothesen H : σ 2 = σ02 ; K : σ 2 6= σ02 n nX o 2 2 2 ϕ(x) = I (xj − x̄n ) > σ0 χn−1,1−α/2 j=1 +I n nX 2 (xj − x̄n ) < σ02 χ2n−1,α/2 o . j=1 Die Optimalität dieses Verfahrens wird in Beispiel 6.29 geklärt. Dieser Test heißt χ2 -Test für die Varianz bei Normalverteilung. Bemerkung 6.27: Mit der bis jetzt besprochenen Theorie können nur optimale Tests für Hypothesen in einparametrigen Verteilungsfamilien hergeleitet werden. Viele für die Anwendungen wichtige Beispiele basieren aber auf mehrparametrigen Verteilungsfamilien (man denke an Beispiel 6.21 und 6.26, in denen bei Kenntnis eines Parameters optimale Tests bestimmt werden können, die Optimalität der Tests mit geschätzten Nebenparameter aber nicht klar ist). In diesem Fall kann dennoch die Optimalität von vielen Tests nachgewiesen werden. Wir wollen im Folgenden die prinzipielle Vorgehensweise erläutern und an zwei wichtigen Beispielen illustrieren. Dazu betrachten wir eine zweiparametrige exponentielle Familie mit natürlicher Parametrisierung fηξ (x) = c(ξ, η)h(x) exp(ηU (x) + ξV (x))IA (x), in der die Hypothesen bzgl. des Parameters η getestet werden sollen (d.h. der Parameter ξ wird als Nebenparameter behandelt). Man kann dann (mit einem maßtheoretischen Argument) zeigen, dass die bedingten Verteilungen U |V =v Pηξ 44 eine einparametrige exponentielle Familie bilden, deren Verteilungen nicht von dem Parameter ξ abhängen [siehe z.B. Witting (1985), Seite 159-162]. Damit sind bedingt auf V = v UPM-Tests und UMPU-Tests für die besprochenen Hypothesen (wie z.B. H : η ≤ η0 ; K : η > η0 ) konstruierbar, und man kann zeigen, dass diese Tests dann auch UMPU-Tests für diese Hypothesen im unbedingten Fall sind. In vielen Fällen kann man durch eine geeignet Transformation von den bedingten zu unbedingten Tests übergehen. Man beachte, dass durch dieses Prinzip ,,nur“ UMPU-Tests erhalten werden [vgl. Witting (1985); Kapitel 3.3]. Beispiel 6.28: (der exakte Test von Fisher zum Vergleich von Binomialverteilungen) Es seien X ∼ Bin(n1 , π1 ), Y ∼ Bin(n2 , π2 ) unabhängige Zufallsvariable (man denke an den Vergleich des Therapieerfolgs von zwei Medikamenten, die jeweils an n1 und n2 verschiedenen Patienten getestet werden). Gesucht ist ein Test für die Hypothesen H : π1 ≤ π2 ; K : π1 > π 2 . Mit θ = (π1 , π2 ) ∈ (0, 1)2 erhalten wir für die gemeinsame Verteilung von X und Y n1 k n1 −k n2 Pθ (X = k, Y = `) = π1 (1 − π − 1) π2` (1 − π2 )n2 −` k ` o n π2 n1 n2 π1 1 − π2 k + log (k + `) = (1 − π1 )n1 (1 − π2 )n2 exp log 1 − π1 π2 1 − π2 k ` [k ∈ {0, . . . , n1 }; ` ∈ {0, . . . , n2 }], und daher liegt eine zweiparametrige exponentielle Familie mit Parametern π2 π2 π1 − log ; ξ = log η = log 1 − π1 1 − π2 1 − π2 und Statistiken U (x) = x; V (x) = x + y vor. Die obigen Hypothesen können in dieser Parametrisierung geschrieben werden als H : η ≤ η0 := 0; U |X=v K : η > η0 . X|X+Y =v Die bedingten Verteilungen Pηξ = Pηξ bilden eine einparametrige exponentielle Familie mit Parameter η und Statistik u = u(x) [man beachte, dass wir diese Aussage nicht bewiesen haben; vgl. Witting (1985), Seite 159-162] und wir erhalten aus Satz 6.20 und Übung 6.19, dass bei gegebenem V = X + Y = v ∈ {0, . . . , n1 + n2 ] ein UMP-Test für H : η ≤ η0 ; K : η > η0 zum Niveau α existiert, nämlich 1 > ∗ ϕ (u, v) = falls u γ(v) = c(v), 0 < wobei die Konstanten c(v) und γ(v) durch die Bedingung Eη0 [ϕ∗ (U, V ) | V = v] = α 45 festgelegt werden. Für die bedingte Verteilung erhalten wir (man beachte, dass η = η0 = 0 genau dann gilt, wenn π1 = π2 erfüllt ist) Pη0 ξ (X = u | X + Y = v) = Pπ1 (X = u)Pπ1 (Y = v − u) P (X + Y = v) n2π1 n1 u v−u n1 +n2 v = =: hv (u) falls v ∈ {0, . . . , n1 + n2 }, u ∈ {0, . . . , v} und 0 sonst (d.h. es liegt eine hypergeometrische Verteilung vor). Die Konstanten c(v) und γ(v) können für gegebenes v jetzt aus der Gleichung v X α = Eη0 ξ [ϕ(U, V ) | V = v] = hv (u) + γ(v)hv (c(v)) u=c(v)+1 bestimmt werden. Der so durchgeführte bedingte Test ist UMPU-Test für die Hypothesen H : η ≤ η0 ; K : η > η0 ⇐⇒ H : π1 ≤ π2 ; K : π1 > π 2 [vgl. Witting (1985), Seite 376]. Als Anwendungsbeispiel betrachten wir den Vergleich von 2 Medikamenten A1 und A2 die jeweils an n1 = 10 und n2 = 10 Patienten getestet wurden. Intuitiv würde man die Hypothese H : π1 ≤ π2 zu Gunsten von K : π1 > π2 ablehnen, falls bedingt auf die Anzahl der Therapieerfolge in der Gesamtstichprobe die Anzahl der Therapieerfolge in der ersten Stichprobe (Behandlung unter Medikament A1 ) unverhältnismäßig groß ist, und genau das macht der oben konstruierte UMPU-Test. Bei 2 Erfolgen in Gruppe 1 und 4 Erfolgen in Gruppe 2 erhalten wir: x = 2; y = 4; u = 2, v = 6 und für α = 10% wegen 10 10 h6 (u) = u 6−u 2 6 u = 0, . . . , 6 aus der obigen Gleichung c(6) = 5, γ(6) = 0.1213. Damit wird wegen u = 2 ≤ c(6) = 4 die Hypothese H : π1 ≤ π2 nicht verworfen. Wir bemerken abschließend, dass in der Praxis oft auf die Randomisierung verzichtet wird und γ(v) = 0 gesetzt wird. Man erhält dann natürlich einen Test mit kleinerem Niveau als die vorgegebene Irrtumswahrscheinlichkeit α. Beispiel 6.29: (Optimalität von Einstichprobentests bei Normalverteilung) Es seien X1 , . . . , Xn ∼ N (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariable, wobei beide Parameter als nicht bekannt vorausgesetzt werden. Für die gemeinsame Dichte erhalten wir wegen n n 1 X µ X nµ2 2 2 −n/2 xi exp 2 xi (2πσ ) exp − 2 exp − 2 2σ 2σ i=1 σ i=1 46 eine zweiparametrige exponentielle Familie mit natürlichen Parametern η=− und Statistiken u(x) = n X 1 2σ 2 x2i ξ= µ σ2 v(x) = i=1 n X xi . i=1 (1) Für das Testen der Hypothesen H : σ 2 ≤ σ02 ; K : σ 2 > σ02 ⇐⇒ H : η ≤ η0 ; K : η > η0 (wobei η0 = −1/σ02 gegeben ist) erhalten wir als bedingten UMPU-Test für gegebenes V =v 1 > ∗ ϕ (u, v) = falls u γ(v) = c(v), 0 0 wobei die Konstanten c(v) und γ(v), durch die Gleichung α = Eη0 ξ [ϕ∗ (u, v) | V = v] bestimmt werden. In diesem Fall können wird durch eine einfache Transformation zu einem unbedingten Test gelangen. Für festes v ist nämlich die Abbildung u → h(u, v) := v2 1 (u − ) σ02 n monoton wachsend und damit der Test ϕ∗ äquivalent 1 ∗ ψ (u, v) = falls h(u, v) γ̃(v) 0 zu dem Test > = c̃(v), < wobei die Konstanten γ̃(v), c̃(v) durch die Gleichung α = Eη0 ξ [ψ ∗ (U, V ) | V = v] festgelegt werden. Nach Übung 1.19 gilt aber, dass die Zufallsvariablen P 2 n n n o n i=1 Xi 1 X 1 X 2 X − = 2 (Xi − X̄n )2 ∼ χ2n−1 h(U, V ) = 2 σ0 i=1 i n σ0 i=1 und V = Pn i=1 Xi stochastisch unabhängig sind und wir erhalten α = Eη0 ξ [ψ ∗ (U, V ) | V = v] = Pη0 ξ (h(U, V ) > c̃(v)) = 1 − Fχ2n−1 (c(v)). 47 Damit kann c(v) = χ2n−1,1−α unabhängig von v gewählt werden und es ergibt sich als unbedingter UMPU-Test für die Hypothesen H : σ 2 ≤ σ02 ; der Test ∗ ψ (x) = I n nX K : σ 2 > σ02 2 (xi − x̄n ) > σ02 χ2n−1,1−α o , i=1 wobei χ2n−1,1−α das (1 − α) Quantil der χ2 -Verteilung mit n Freiheitsgraden bezeichnet (die Optimalität folgt dabei wiederum aus dem allgemeinen Prinzip: Witting (1985), Seite 376). (2) In ähnlicher Weise erhält man einen UMPU-Test für die Hypothesen H : µ ≤ µ0 K : µ > µ0 ⇐⇒ H : ξ ≤ ξ0 ; K : ξ > ξ0 (wobei ξ0 = µ0 /σ 2 gegeben ist). Als bedingten UMPU-Test ergibt sich für gegebenes U =u 1 > ∗ ϕ (u, v) = falls v γ(u) = c(u) 0 < ist. Mit der für festes u streng monotonen Abbildung √ n v/n − µ0 q h(u, v) = q 1 u − n1 v 2 n−1 ist dieser Test äquivalent zu dem Test ψ ∗ (u, v) = I{h(u, v) > c̃(u)} + γ̃(u)I{h(u, v) = c̃(u)}, wobei die Konstanten c̃(u) und γ̃(u) durch die Bedingung Eηξ0 [ψ ∗ (U, V ) | U = u] = α festgelegt werden. Man kann zeigen, dass die Statistiken √ n(X̄n − µ0 ) ∼ tn−1 h(U, V ) = T (X) = q P n 1 2 (X − X̄ ) i n i=1 n−1 V = n X Xi2 i=1 stochastisch unabhängig sind [das geht entweder direkt mit der Transformationsformel oder mit dem Satz von Basu (vgl. Lehmann, Testing Statistical Hypotheses, Seite 191] und wir erhalten für alle u : γ(u) = 0, c(u) = tn−1,1−α , d.h. ψ ∗ (x) = I{T (x) > tn−1,1−α } ist ein UMPU-Test für die oben genannten Hypothesen. 48 Bemerkung 6.30: Wendet man das in Bemerkung 6.28 und Beispiel 6.29 erläuterte Prinzip auf Hypothesen der Form H : η = η0 ; K : η 6= η0 , so muss die Abbildung h in dem entsprechenden Argument streng wachsend und linear sein. 7 Likelihood-Quotienten-Tests und asymptotische Eigenschaften von Tests Bemerkung 7.1: Ein allgemeines Prinzip für die Konstruktion eines Tests für die Hypothesen H : θ ∈ ΘH ; K : θ ∈ ΘK in einem statistischen Experiment ist die Likelihood-Quotienten-Methode. Dabei bildet man bei Vorliegen einer Realisierung x = X(ω) einer Zufallsvariablen X ∼ Pθ den Likelihood-Quotienten sup{fθ (x) | θ ∈ ΘH } λ(x) = sup{fθ (x) | θ ∈ Θ} und lehnt die Nullhypothese für kleine Werte von λ(x) ab (da man unter der Alternative K einen kleinen Wert von λ(x) erwarten würde). Damit lautet die Entscheidungsregel ϕ(x) = I{λ(x) < c} + γI{λ(x) = c}, wobei die Konstante c ∈ (0, 1), so festzulegen ist, dass dieser Test das Niveau α hat, d.h. sup Eθ [ϕ(X)] ≤ α θ∈ΘH gilt. Beispiel 7.2: (F -Test für den Varianzquotienten) Es seien X1 , . . . , Xm ∼ N1 (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariablen und Y1 , . . . , Yn ∼ N1 (v, τ 2 ). unabhängig identisch verteilte Zufallsvariable. Außerdem seien die Zufallsvariablen X1 , . . . , Xm und Y1 , . . . , Yn stochastisch unabhängig (man spricht von unabhängigen Stichproben). Gesucht ist ein Test für die Hypothesen H : σ2 = τ 2; K : σ 2 6= τ 2 . In diesem Beispiel ist Θ = R × R × R+ × R+ , θ = (µ, v, σ 2 , τ 2 ) und ΘH = {(µ, v, σ 2 , σ 2 ) | µ, v ∈ R, σ 2 ∈ R+ }. Die gemeinsame Dichte der Beobachtungen X1 , . . . , Xm , Y1 , . . . , Yn lautet m n n 1 X o 1 m2 1 n2 1 X 2 2 exp − (x − µ) − (y − v) . fθ (x, y) = i j 2πσ 2 2πτ 2 2σ 2 i=1 2τ 2 j=1 49 Für die Berechnung des Supremums im Nenner sind die Maximum-Likelihood-Schätzungen zu berechnen und wir erhalten mit m θ̂n = 2 , τ̂n2 )T (µ̂m , ν̂n , σ̂m n 1X 1 X = (x̄n , ȳn , (xi − x̄m )2 , (yj − ȳn )2 )T n i=1 m j=1 für den Nenner sup fθ (x, y) = fθ̂n (x, y) = (2π)− m+n 2 e m+n 2 θ∈Θ n m 2 −2 (σ̂m ) (τ̂n2 )− 2 . Für die Berechnung des Supremums im Zähler bestimmen wir die Maximum-LikelihoodSchätzungen unter der Nebenbedingung σ 2 = τ 2 und erhalten 2 2 θ̃n = (µ̂m , ν̂n , σ̂m,n , σ̂m,n )T , wobei für den Varianzschätzer m 2 σ̂m,n n o X 1 nX = (xi − x̄m )2 + (yj − ȳn )2 m + n i=1 j=1 gilt. Das liefert für den Zähler − m+n − m+n 2 2 sup fθ (x, y) = fθ̃n (x, y) = (2π) e θ∈ΘH 2 σ̂m,n − m+n 2 , und für den Likelihood-Quotienten m/2 n/2 2 − n2 τ̂n2 σ̂m 1 − m2 λ(x, y) = = cm,n 1 + 1 + Hm,n , m+n Hm,n 2 σ̂m,n 2 wobei die Konstante cm,n durch cm,n = m + n m/2 m + n n/2 m n definiert ist und die Statistik Hm,n durch Pm (xi − x̄m )2 Hm,n (x, y) = Pi=1 n 2 j=1 (yj − ȳn ) gegeben ist. Man zeigt leicht, dass die Funktion H → (1 + n 1 −m ) 2 (1 + H)− 2 H auf R+ genau ein Maximum besitzt und das diese Funktion für H → 0, H → ∞ gegen 0 konvergiert. Damit erhält man die Äquivalenz λ(x, y) ≤ c ⇐⇒ Hm,n (x, y) 6∈ [c1 , c2 ] 50 für geeignete Konstanten 0 ≤ c1 < c2 ≤ ∞. Nach Übung 1.19 (1) und Definition 1.17(3) ist unter der Nullhypothese H : σ 2 = τ 2 Pm 1 2 n−1 i=1 (Xi − X̄m ) m−1 ∼ Fm−1,n−1 Hm,n (X, Y ) = 1 Pn F (X, Y ) = 2 m−1 j=1 (Yj − Ȳn ) n−1 F -verteilt mit (m − 1, n − 1) Freiheitsgraden. Damit erhält man durch n o ϕ(x, y) = 1 − I Fm−1,n−1,α/2 < F (x, y) < Fm−1,ns−1,1−α/2 einen Likelihood-Quotiententest zum Niveau α, wobei Fm,n,β das β-Quantil der F -Verteilung mit m, n Freiheitsgraden bezeichnet. Man beachte, dass eine Randomisierung nicht notwendig ist (d.h. γ = 0 kann gewählt werden) und das EH0 [ϕ(X, Y )] = 1 − PH0 Fm−1,n−1,α/2 < F (X, Y ) < Fm−1,n−1,1−α/2 = 1 − (1 − α/2) + α/2 = α gilt. Mit diesem Argument kann man auch andere Quantile wählen, um einen Test zum Niveau α zu erhalten, z.B. Fm−1,n−1,β und Fm−1n−1,1−γ , wobei β + γ = α gilt. Beispiel 7.3: (Zwei Stichproben t-Test) In der Situation aus Beispiel 7.2 setzen wir zusätzlich σ 2 = τ 2 voraus und suchen einen Test für die Hypothesen K : µ 6= ν. H : µ = ν; In diesem Beispiel ist Θ = R × R × R+ und ΘH = {θ = (µ, v, σ 2 ) | µ = v}. Für das Supremum im Zähler des Likelihood-Quotienten erhält man mit einfacher Rechnung m+n m+n sup fθ (x, y) = (2πŝ2 )− 2 exp(− ), 2 θ∈ΘH wobei Ŝ 2 durch m n o X 1 nX ŝ = (xi − m̂)2 + (Yj − m̂)2 m + n i=1 j=1 2 mit m m̂2 = n X o 1 nX m n xi + yj = x̄m + ȳn m + n i=1 m + n m + n j=1 definiert ist. Das Supremum des Nenners haben wir in Beispiel 7.2 als sup fθ (x, y) = (2π) m+n 2 θ∈Θ 51 e− m+n 2 2 (σ̂m,n )− m+n 2 bestimmt, und damit erhält man für den Likelihood-Quotienten 2 m+n sup{fθ (x, y) | θ ∈ ΘH } σ̂m,n 2 = . λ(x, y) = 2 sup{fθ (x, y) | θ ∈ Θ} ŝ Wegen m n (x̄m − m̂)2 + (ȳn − m̂)2 m+n m+n mn 2 = σ̂m,n + (x̄m − ȳn )2 (m + n)2 2 ŝ2 = σ̂m,n + erhalten wir λ(x, y) = wobei die Statistik T (x, y) durch r mn r T (x, y) = m+n o m+n 2 1 n 1+ 1 T 2 (x, y) (m+n)(m+n−2) , x̄m − ȳn 1 m+n−2 nP m i=1 (xi − x̄m )2 + Pn j=1 (yj − ȳn )2 definiert ist. Wegen der Unabhängigkeit der Stichproben erhalten wir unter der Annahme µ=ν r mn (X̄m − Ȳn ) ∼ σ · N (0, 1) m+n m n X X 2 (Xi − X̄m ) + (Yn − Ȳn )2 ∼ σ 2 χ2m+n−2 . i=1 j=1 Pn P 2 2 Außerdem sind die Zufallsvariablen X̄m , Ȳn , m j=1 (Yj − Ȳn ) stochastisch i=1 (Xi − X̄m ) , unabhängig und damit Zähler und Nenner in T (X, Y ) ebenfalls stochastisch unabhängig. Daher gilt unter der Nullhypothese H : µ = ν T (X, Y ) ∼ tm+n−2 und wegen der Monotonie der Abbildung t→ 1 m+n 2 2 1 + at (für positives a) lautet ein Likelihood-Quotiententest zum Niveau α für die Hypothesen H : µ = ν; K:µ=ν ϕ(x, y) = I{|T (x, y)| > tm+n−2,1−α/2 , wobei tr,β das Quantil der t-Verteilung mit r Freiheitsgraden bezeichnet. Der obige Test heißt Zwei-Stichproben t-Test. Man beachte, dass dieser Test gleiche Varianzen in beiden 52 Stichproben voraussetzt und diese Annahme zunächst überprüft werden muss (z.B. mit dem F -Test aus Beispiel 7.2 mit einem relativ hohen Niveau). Bemerkung 7.4: (1) Mit ähnlichen Argumenten erhält man in Beispiel 7.2 und 7.3 Tests für einseitige Hypothesen. Z.B. lautet der Likelihood-Quotiententest für die Hypothesen H : σ12 ≤ σ22 ; K : σ12 > σ22 in der Situation von Beispiel 7.2 ϕ(x, y) = I{F (x, y) > Fm−1,n−1,1−α } und der Zwei-Stichproben t-Test für die Hypothesen H : µ ≤ ν; K : µ > ν ϕ(x, y) = I{T (x, y) > tm+n−2,1−α }. (2) Für die so bestimmten Tests kann mit der Argumentation aus Bemerkung 6.27 (vgl. auch Beispiel 6.28, 6.29) die UMPU-Eigenschaft nachweisen. Übung 7.5: Es seien X1 , . . . , Xn ∼ N1 (µ, σ 2 )unabhängig identisch verteilte Zufallsvariable. Man bestimme den Likelihood-Quotienten-Test für die Hypothesen H : µ = µ0 ; K : µ 6= µ0 H : σ 2 = σ02 ; K : σ 2 6= σ02 und zeige, dass sich analoge Testverfahren wie in Beispiel 6.29 ergeben (dort wurden einseitige Hypothesen betrachtet). In den vorigen Beispielen erkennt man, dass die Berechnung des Likelihood-Quotienten prinzipiell kein Problem darstellt (obwohl diese in den meisten Fällen numerisch erfolgen muss). Die Schwierigkeit besteht in der Festlegung des kritischen Werts c, so dass die Ablehnung der Nullhypothese im Fall λ(x) < c einen Test zum Niveau α liefert. In den obigen Beispielen konnten wir durch eine Transformation von λ(X) eine Zufallsvariable mit bekannter Verteilung erhalten. In den meisten Fällen ist eine solche Transformation nicht möglich! Dennoch können bei großem Stichprobenumfang die Wahrscheinlichkeiten Pθ (λ(X) ≤ c) für θ ∈ ΘH zumindest näherungsweise bestimmt werden. Wir betrachten dazu eine Stich(1) probe X1 , . . . , Xn von unabhängigen Zufallsvariablen mit Dichte ∼ fθ ; θ ∈ Θ. Bezeichnungen und Annahmen 7.6: 53 (A1) Es sei Θ ⊂ Rd ∆ ⊂ Rc offen, c < d, und h : ∆ → Θ eine Abbildung mit h(∆) = ΘH , die zweimal stetig differenzierbar ist und deren Jacobi-Matrix h0 (η) für alle η ∈ ∆ vollen Rang hat (Parametrisierung der Nullhypothese). (A2) Für die Verteilungsfamilie (1) (1) Ph := {fh(η) | η ∈ ∆} ⊂ P = {fθ | θ ∈ Θ} gelten die Annahmen aus Satz 4.6. Mit diesen Bezeichnung kann der LikelihoodQuotient dann geschrieben werden als λ(x) = sup{fh(η) (x) | η ∈ ∆} fh(η̂n ) (x) = , sup{fθ (x) | θ ∈ ∆} fθ̂n (x) wobei θ̂n der Maximum-Likelihood-Schätzer in P ⊗ ist und η̂n der Maximum-LiklihoodSchätzer in Ph⊗ ist (Schätzer unter Nullhypothese). Beispiel 7.7: Wir betrachten die Situation aus Beispiel 7.3. Dann ist θ = (µ, ν, σ 2 ) Θ = R × R × R+ ⊂ R3 ΘH = {θ = (µ, ν, σ 2 ) | µ = ν}. Die Parametrisierung der Nullhypothese erfolgt mit der Abbildung ( ∆ → Θ h: , 2 (µ, σ ) → (µ, µ, σ 2 ) wobei die Menge ∆ durch ∆ = {(µ, σ 2 ) | µ ∈ R, σ 2 ∈ R+ } = R × R+ definiert ist. Da h linear ist, ist h zweimal stetig differenzierbar und die Ableitung 1 0 h0 (η) = 1 0 0 1 hat vollen Rang c = 2 für alle η ∈ ∆. Die Maximum-Likelihood-Schätzer lauten X̄n θ̂n = Ȳn 2 σ̂m,n (vgl. Beispiel 7.3) und in der Teilfamilie Ph⊗ erhält man als Maximum-Likelihood-Schätzer ! n m X̄ + Ȳ m+n m m+n n η̂n = Ŝ 2 54 (vgl. Beispiel 7.3). Satz 7.8: Unter den Annahmen aus Satz 4.6 und 7.6 gilt für jedes θ ∈ ΘH = h(∆) D Tn := −2 log λ(X) = 2{log fθ̂n (X) − log fh(η̂n ) (X)} −→ χ2d−c n→∞ d.h. für großen Stichprobenumfang können die Wahrscheinlichkeiten Pθ (Tn > c) mit der Verteilungsfunktion der χ2 -Verteilung mit (d − c)-Freiheitsgraden berechnet werden. Beispiel 7.9: (Unabhängigkeitstest in r × s Kontingenztafel) Wir betrachten die Situation aus Beispiel 3.15: Y1 , . . . , Yn i.i.d. ∼ M(1, p11 , p12 , . . . , prs ) Y = n X Yj = (X11 , . . . , Xrs )T ∼ M(n, p11 , . . . , prs ). j=1 Wir wollen untersuchen, ob die Faktoren A und B unabhängig sind, d.h. H : pij = P (Ai ∩ Bj ) = P (Ai )P (Bj ) = pi· p·j mit pi· = s X pij p·j = j=1 r X pij . i=1 Die gemeinsame Dichte von Y lautet fp (x) = Pp (Xij = xij ∀ i, j) r Y s X Y n! x xij = n} pijij I{xij ∈ {0, . . . , n}; = Qr Qs j=1 xij ! i=1 j=1 i=1 ij und es ist T Θ = {p = (p11 , . . . , prs ) | r X s X pij = 1} ⊂ Rd ∼ i=1 j=1 mit d = rs − 1, ΘH = {p ∈ Θ | pij = pi· p·j } ⊂ Rc ∼ Pr Ps mit c = r + s − 2 (man beachte, dass i=1 pi· = j=1 p·j = 1 gilt). Man rechnet leicht nach, dass die Maximum-Likelihood-Schätzung im allgemeinen Modell durch p̂ij = Xij n i, j = 1, . . . , n gegeben ist und erhält für das Supremum im Nenner sup{fp (x) | p ∈ Θ} = Qr i=1 n! Qs j=1 55 r Y s Y xij xij xij ! i=1 j=1 n I{. . .}. Um die Maximum-Likelihood-Schätzung unter Nullhypothese zu berechnen beachte man, dass für p ∈ ΘH gilt r Y n! Qs fp (x) = Qr i=1 j=1 xij ! pxi·i· i=1 s Y x p·j·j I{. . .}, j=1 Pr Pr wobei xi· = j=1 xij und x·j = i=1 xij gilt. Das liefert als Maximum-LikelihoodSchätzung unter der Nullhypothese p̃ij = p̂i· p̂·j mit x·j xi· ; p̂·j = , n n und wir erhalten für das Supremum im Zähler p̂i· = sup{fp (x) | p ∈ ΘH } = Qr i=1 r s Y xi· xi· Y x·j x·j n! Qs j=1 Das liefert dann −2 log λ(x) = 2 xij ! r Y s Y i=1 n xij log i=1 j=1 j=1 n I{. . .}. x ij xi· x·j n und nach Satz 7.8 [d−c = rs −1−(r +s−2) = (r −1)(s−1)] gilt unter der Nullhypothese Zn = −2 log λ(X) = 2 r X s X Xij log X ij i=1 j=1 Xi· X·j n D −→ χ2(r−1)(s−1) . Mit der Approximation log x ≈ (x − 1) − 21 (x − 1)2 kann man dann zeigen, dass P Zn − Tn −→ 0, wobei für die Zufallsvariable Tn = r X s X i=1 j=1 Xij − Xi· X·j n Xi· X·j n 2 D −→ χ2(r−1)(s−1) gilt. Damit verwirft der Likelihood-Quotiententest die Hypothese der Unabhängigkeit, falls Tn > χ2(r−1)(s−1),1−α gilt. Dieser Test heißt Unabhängigkeitstest von Pearson und Fisher. Wegen der obigen Verteilungskonvergenz gilt für alle θ ∈ H lim Pθ (Tn > χ2(r−1)(s−1),1−α ) = 1 − (1 − α) = α, n→∞ 56 d.h. bei großem Stichprobenumfang hat der Test näherungsweise das Niveau α. Man beachte die anschauliche Interpretation der Teststatistik Tn . Man vergleicht die gefundenen Klassenhäufigkeiten mit den Häufigkeiten, die man unter der Nullhypothese der Unabhängigkeit erwarten würde und verwirft die Unabhängigkeitshypothese für große Werte des Abstandsmaßes. (n) Definition 7.10: Es sei X (n) ∼ (X1 , . . . , Xn ) ∼ fθ eine n-dimensionale Zufallsvariable mit Werten in Xn und für n ∈ N ( Xn → [0, 1] ϕn : x(n) → ϕn (x(n) ) ein Test für die Hypothesen H : θ ∈ ΘH ; K : θ ∈ ΘK . (1) Die Folge von Tests (ϕn )n∈N besitzt asymptotisch das Niveau α, falls limn→∞ sup βϕn (θ) ≤ α. θ∈ΘH (2) Die Folge von Tests (ϕn )n∈N heißt konsistent (für H gegen K) falls für alle θ ∈ ΘK gilt lim βϕn (θ) = 1. n→∞ Man beachte, dass bei großem Stichprobenumfang (n → ∞) ein asymptotischer Niveau α-Test ϕn näherungsweise das Niveau α hat und dass für einen konsistenten Test die Wahrscheinlichkeit für einen Fehler zweiter Art bei wachsendem Stichprobenumfang gegen Null konvergiert. Bemerkungen 7.11: (1) Man spricht abkürzend von einem asymptotischen Test zum Niveau α und von einem konsistenten Test. (2) Wie im Fall des Schätzens ist die Konsistenz eine Minimalforderung an einen statistischen Test. Beispiele 7.12: (1) Unter den Annahmen aus Satz 4.6 und 7.7 besitzt der Test ϕn (x(n) ) = I{−2 log λ(x(n) ) > χ2d−c,1−α } 57 asymptotisch das Niveau α, denn nach Satz 7.8 gilt für alle θ ∈ ΘH lim Pθ (Tn > χ2d−c,1−α ) = 1 − (1 − α) = α. n→∞ Man kann auch zeigen, dass dieser Test konsistent ist (Lit. D. Morgenstern: Einführung in die Wahrscheinlichkeitstheorie und Mathematische Statistik). Für den Unabhängigkeitstest von Pearson-Fisher kann man die Konsistenz auch direkt einsehen. Wegen Xij P −→ pij ; n Xi· P X·j P −→ pi· ; −→ p·j n n gilt nämlich 1 Tn = n r X s X Xij n − Xi· X·j n n 2 Xi· X·j n n i=1 j=1 r X s X (pij − pi· p·j )2 −→ =: ∆ p p i· ·j i=1 j=1 P und ∆ > 0, falls die Nullhypothese der Unabhängigkeit nicht gilt. Damit erhalten wir für die Gütefunktion 1 h n oi 1 Eθ I Tn > χ2(r−1)(s−1),1−α = Pθ Tn > χ2(r−1)(s−1),1−α −→ 1. n→∞ n n (2) Es seien X1 , . . . , XM i.i.d. ∼ N1 (µ, σ 2 ) und Y1 , . . . , Yn ∼ N1 (µ, τ 2 ) i.i.d. unabhängige Stichproben. Unter der Annahme σ 2 = τ 2 ist der Zwei-Stichprobentest aus Beispiel 7.3 ein unverfälschter Test zum Niveau α. für die Hypothesen H : µ = ν; K : µ 6= ν (Dieser Test ist sogar gleichmäßig bester unverfälschter Test). Falls man diese Annahme nicht mehr machen kann, ist die Konstruktion eines solchen Tests unmöglich und man bezeichnet dieses Problem als Behrens-Fisher-Problem. Die Konstruktion eines asymptotischen Niveau-α-Tests bereitet weniger Schwierigkeiten. Dazu setzen wir X̄m − Ȳn ∗ Tn,m (X, Y ) = q P Pn m 1 1 1 1 2 2 j=1 (Xj − X̄m ) + n n−1 j=1 (Yj − Ȳn ) m m−1 und definieren durch ∗ ϕ(x, y) = I{|Tn,m (x, y)| > u1−α/2 ) einen Test, wobei u1−α das (1−α)-Quantil der Standardnormalverteilung ist. Wegen X̄m ∼ N (µ, σ2 τ2 ), Ȳn ∼ N (v, ) m n ∗ gilt für den Zähler der Statistik Tm,n σ2 m + τ 2 −1/2 (X̄m − Ȳn − (µ − ν)) ∼ N (0, 1) n 58 und m 1 X P (Xi − X̄m )2 −→ σ 2 n→∞ m − 1 i=1 n 1 X P (Yj − Ȳn )2 −→ τ 2 . n→∞ n − 1 j=1 Die letzte Aussage erhält man entweder mit Satz 4.6, da diese Schätzer bis auf die m n Faktoren m−1 und n−1 mit den Maximum-Likelihood-Schätzern übereinstimmen, oder mit Bemerkung 4.5, da sich diese Schätzer auch mit der Momentenmethode ergeben [vgl. auch Beispiel 4.3(1)]. Damit erhalten wir mit m 2 Sm,n = n 1 1 X 1 1 X (Xi − X̄m )2 + (Xj − X̄n )2 m m − 1 i=1 n n − 1 j=1 die stochastische Konvergenz τ 2 −1 2 P Sm,n −→ 1, m n falls m → ∞, n → ∞ und m/n → κ ∈ [0, ∞] gilt. Für die Gütefunktion mit θ = (µ, v, σ 2 , τ 2 ) ergibt sich dann σ2 + ∗ βϕ (θ) = Eθ [ϕ(X, Y )] = Pθ (|Tm,n (X, Y )| > u1−α/2 ) 1 − Pθ µ − ν sm,n ( −→ m,n→∞ m/n→∞ − u1−α/2 X̄m − Ȳn − (µ − ν) µ − ν < < u1−α/2 − Sm,n Sm,n α falls µ = ν , 1 falls µ 6= ν da nach dem Lemma von Slutsky X̄m − Ȳn − (µ − ν) D −→ N (0, 1) Sm,n gilt und für µ 6= ν |µ − ν| P −→ ∞ Sm,n gilt. Daher ist der Test ϕ konsistent und hat asymptotisch das Niveau α. Man beachte, dass sich dieser Test auch mit dem Likelihood-Quotienten-Prinzip ergibt. Beispiel 7.13: (Bartlett-Bartlett-Test auf Varianzhomogenität) Es seien Xij ∼ N1 (µi , σi2 ) i = 1, . . . , r; j = 1, . . . , ni unabhängige Zufallsvariable (man denke an r Gruppen, mit je ni -Objekten). Wir bestimmen den Likelihood-Quotienten-Test für die Hypothesen H : σ12 = . . . = σr2 ; K : σi2 6= σj2 (∃ i 6= j) 59 (man beachte, dass d = 2r und c = r + 1 gilt). Die gemeinsame Dichte von X11 , . . . , Xr,nr lautet ni r 1 X Y 1 ni 2 p fθ (x) = exp − (x − µ ) , ij i 2 2 2σ 2πσ i i j=1 i=1 2 2 r + r n wobei Pθr = (µ1 , . . . , µr , σ1 , . . . , σr ) ∈ R × (R ) ist und x = (x11 , . . . , xrnr ) ∈ R mit n = i=1 ni gesetzt wird. Man sieht sofort, dass die Statistiken ni σ2 1 X Xij ∼ N1 (µi , i ) i = 1, . . . , r X̄i· = ni j=1 ni (i-tes Gruppenmittel) und σ̂i2 = ni 1 X σ2 (Xij − X̄i· )2 ∼ i χ2ni −1 ni j=1 ni i = 1, . . . , r (Streuung in der i-ten Gruppe) die Maximum-Likelihood-Schätzer für die Parameter µ1 , . . . , µr und σ12 , . . . , σr2 liefern. Die Maximum-Likelihood-Schätzer unter Null-Hypothese lauten µ̂i = X̄i· ni r r X 1 XX ni 2 2 2 σ̂ = σ̂ (Xij − X̄i· ) = n i=1 j=1 n i i=1 und für den Likelihood-Quotienten erhält man r Y σ̂ 2 ni /2 sup{fθ (x) | θ ∈ ΘH } (2πσ̂ 2 )−n/2 exp(−n/2) i = λ(X) = = Qr . 2 −ni /2 2 (2πσ̂ ) exp(−n /2) sup{fθ (x) | θ ∈ Θ} σ̂ i i i=1 i=1 Mit einer Verallgemeinerung von Satz 7.8 kann man dann zeigen, dass für ni → ∞(i = 1, . . . , r); ni /n → κi ∈ (0, 1) gilt 2 T (X) = −2 log λ(X) = n log σ̂ − r X D ni log σ̂i2 −→ χ2r−1 i=1 (man beachte d − c = 2r − (r + 1) = r − 1) und damit ist der Test ϕ(x) = I{T (x) > χ2r−1,1−α } ein asymptotischer Niveau-α-Test. Wegen r r X X ni 1 P T (X) = log σ̂ 2 − log σ̂i2 −→ log σ 2 − κi log σi2 = ∆ n n i=1 i=1 mit 2 σ = n X i=1 60 κi σi2 konvergiert n1 T (X) gegen eine Größe ∆ ≥ 0, die genau dann positiv ist, wenn die Nullhypothese gleicher Varianzen nicht gilt. Damit erhalten wir für ∆ > 0 (d.h. unter der Alternative der Inhomogenität) βϕ (θ) = Eθ [ϕ(X)] = Pθ (T (X) > χ2r−1,1−α ) 1 1 = Pθ T (X) > χ2r−1,1−α −→ 1 n→∞ n n und der obige Test ist konsistent. Dieser Test heißt Bartlett-Test auf Varianzhomogenität. Bemerkung 7.14: Die Konsistenz eines Tests bedeutet, dass der Test bei beliebig großem Stichprobenumfang auch beliebig kleine Abweichungen von der Nullhypothese aufdeckt. Wir bemerken abschließend, dass man mit der Interpretation eines solchen Ergebnisses sorgfältig umgehen sollte, da man in der Regel an beliebig kleinen Abweichungen nicht interessiert sein wird. Dazu betrachten wir als Beispiel eine zweifaktorielle Kontingenztafel, die verschiedene Haushalte nach Jahreseinkommen und Anzahl der Kinder klassifiziert. Anzahl der Kinder 0 1 2 3 ≥4 Summe Jahreseinkommen 0 1 2 3 2161 3577 2184 1636 2755 5081 2222 1052 936 1753 640 306 2255 419 96 38 39 98 31 14 6116 10928 5173 3046 Summe 9558 11110 3635 778 182 25263 Wir wollen die Frage untersuchen, ob die Faktoren Jahreseinkommen und Anzahl der Kinder unabhängig sind (vgl. Beispiel 7.9). Dazu beachten wir, dass r = 5, s = 4 gilt und berechnen für die konkret vorliegenden Daten die Pearson-Fisher-Statistik Tn (x) = r X s X (xij − xi· x·j /n)2 i=1 j=1 xi· x·j n = 568, 566. Für einen (asymptotischen) Test zum Niveau α = 0.05 findet man in einer Tabelle (oder mit Software) χ23·4,0.95 ≈ 21.026 und wegen Tn (x) > 568, 566 wird die Hypothese der Unabhängigkeit klar verworfen. Wir schließen also, dass die Faktoren Anzahl der Kinder und Jahreseinkommen abhängig sind. Allerdings haben wir mit dieser Testentscheidung keine Information über die Stärke dieser Abhängigkeit. Als Maß für die Abhängigkeit verwendet man oft s Tn (X) , Vn = Vn (X) = n min{r, s} − 1 61 denn es gilt (vgl. Beispiel 7.12(1)) v u r X s X 1 (pij − pi· p·j )2 P u t Vn −→ . min{r, s} − 1 i=1 j=1 pi· p·j Für die konkret vorliegenden Daten erhält man Vn (x) ≈ 0.087, d.h. es liegt nur eine schwache Abhängigkeit vor, die unser Test nur deshalb entdeckt hat, da eine sehr große Anzahl von Daten vorliegt (nämlich n = 25263). Als Konsequenz dieses Beispiels bemerken wir, dass man eine Testentscheidung möglichst immer mit einem Maß für die Abweichung von der Nullhypothese angeben sollte. Leider wird das in der statistischen Praxis fast nie gemacht. 62