Mathematische Statistik Lehrstuhl für Mathematische Statistik Universität Würzburg Prof. Dr. Michael Falk Vorwort Dieses Skript entstand aus der Vorlesung Mathematische Statistik I und ” II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis Sommersemester 2008 an der Julius-Maximilians-Universität Würzburg gehalten hat. Basierend auf meinen Aufzeichnungen zu dieser Vorlesung habe ich das vorliegende Skript für Herrn Prof. Dr. Falk erstellt. Ich möchte mich auch bei Johannes Hain bedanken, da er dieses Skript nochmals Korrektur gelesen hat. Im Folgenden wird eine Einführung in die grundlegenden Begriffe und Werkzeuge der Mathematischen Statistik gegeben. Des Weiteren werden fundamentale Sätze der Mathematischen Statistik besprochen und mit Beispielen erläutert. Stefan Englert Würzburg, September 2008 1 Inhaltsverzeichnis 1 GRUNDLAGEN 1.1 Ausgangssituation statistischer Entscheidungen . . . . . . 1.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Elementare Testverfahren unter Normalverteilungsannahme 1.4 Punktschätzverfahren . . . . . . . . . . . . . . . . . . . . . 1.5 Bereichsschätzungen . . . . . . . . . . . . . . . . . . . . . 1.6 Randomisierte Entscheidungsverfahren . . . . . . . . . . . . . . . . . . . . . . . 5 5 8 9 14 16 19 2 EXISTENZ OPTIMALER TESTS 2.1 Struktureigenschaften des Raumes Φ aller Testfunktionen . . . 2.2 Das Fundamentallemma von Neyman-Pearson . . . . . . . . . 2.3 Das verallgemeinerte Fundamentallemma von Neyman-Pearson 2.4 Exponentialfamilien . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Einseitige Tests bei monotonem Dichtequotienten . . . . . . . 2.6 Gleichmäßig beste Tests in einparametrigen Exponentialfamilien 26 26 35 39 45 51 55 3 REDUKTION STATISTISCHER ENTSCHEIDUNGEN 3.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Bedingte Erwartungswerte und bedingte Wahrscheinlichkeiten 3.3 Suffiziente σ-Algebren und suffiziente Statistiken . . . . . . . . 3.4 Einige Anwendungen in der Statistik . . . . . . . . . . . . . . 3.5 Vollständigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Die Ungleichung von Cramér-Rao und die Fisher-Information . . . . . . . . . . . . . . . . . . . . . . 60 60 62 69 78 79 2 84 Problemstellung Unter Mathematischer Statistik versteht man die Untersuchung von Mathematischen Modellen sowie die Herleitung bzw. Begründung von Verfahren zur Auswertung von Beobachtungsdaten. Ein Beispiel zur Erläuterung der Grundproblematik: Zur Heilung einer bestimmten Krankheit wurde eine neue Behandlungsmethode M2 entwickelt. Um eine Aussage über ihre Qualität zu erhalten, wurde diese bei 10 Patienten angewendet. Dabei trat in 8 Fällen ein Heilerfolg ein, in 2 Fällen ergab sich ein Mißerfolg. Läßt sich nun aufgrund dieser 10 Überprüfungen bereits sagen, dass die neue Methode M2 häufiger zum Erfolg führt als die herkömmliche Methoden M1, deren Heilungschance erfahrungsgemäß 65% beträgt? Der für die Statistik spezifische Aspekt ist die Tatsache, dass das Eintreten von Erfolg oder Nichterfolg bei einer einzelnen Überprüfung nicht nur von der Qualität der Heilmethode (dann wäre die Entscheidung klar!), sondern auch von sehr vielen anderen uns unzugänglichen und in der Gesamtentwicklung unübersehbaren Einflüssen abhängt, so dass wir das Ergebnis nicht voraussagen können und daher als zufallsabhängig betrachten. Bei unserer Aussage über die Güte von M3 müssen wir daher die Zufallsabhängigkeit der 10 Ergebnisse berücksichtigen. Die Verwendung der Wahrscheinlichkeitstheorie ermöglicht es, solche auch gefühlsmäßig unsicheren Entscheidungen zum Gegenstand mathematischer Überlegungen zu machen. Das geschieht dadurch, dass wir die Beobachtungen (Ergebnisse) als Realisierungen von Zufallsvariablen auffassen und damit unterstellen, dass sich der Vorgang durch eine Wahrscheinlichkeitsverteilung beschreiben lässt (Grundannahme der Mathematischen Statistik). Im obigen Beispiel werden wir Zufallsvariablen X1 , . . . , X10 verwenden, die jeweils nur die beiden Werte 1 (für Heilerfolg) und 0 (für Mißerfolg) mit den Wahrscheinlichkeiten ϑ bzw. 1 − ϑ annehmen können. Die Xi sind dann B(1, ϑ)–verteilte Zufallsvariablen, wobei durch den uns unbekannten Parameter ϑ die Güte des neu entwickelten Medikamentes angegeben wird: M2 ist besser als M1 ⇔ ϑ > 0, 65. Besonders einfach wird die Behandlung dieses Modells, wenn wir zusätzlich voraussetzen, dass die X1 , . . . , X10 stochastisch unabhängig sind (d.h. die Versuchsausführungen beeinflussen sich nicht gegenseitig). Dann ist die Verteilung von (X1 , . . . , X10 )Pdas Produktmaß B(1, ϑ)10 /{0, 1}10 und damit die Anzahl der Erfolge, also i≤10 Xi , B(10, ϑ)–verteilt. Eine Aussage über die unbekannte Verteilung von X = (X1 , . . . , X10 ) bzw. den unbekannten Verteilungsparameter aufgrund einer zufallsabhängigen Beobachtung (im obigen Beispiel also aufgrund des beobachteten Tupels (x1 , . . . , 3 P x10 ) mit i≤10 xi = 8)) heißt eine statistische Entscheidung. Folglich ist eine Vorschrift anzugeben, aus der zu jedem möglichen Versuchsausgang die zu treffende Entscheidung abzulesen ist. Ein Beispiel für eine derartige Entscheidungsvorschrift in obiger Situation ist die folgende: Die Entscheidung M2 ist besser als M1 (d.h. ϑ > 0, 65) wird genau dann getroffen, wenn 8 oder mehr Heilerfolge eintreten. Durch die Verwendung mathematischer Methoden wird die Unsicherheit statistischer Entscheidungen nicht aufgehoben! Man kann sie aber durch die Verwendung wahrscheinlichkeitstheoretischer Hilfsmittel quantitativ erfassen, d.h. Wahrscheinlichkeiten für Fehlentscheidungen können (exakt) angegeben werden. Im obigen Beispiel ist es etwa durchaus möglich, wenn auch nur mit der kleinen Wahrscheinlichkeit 0, 610 , dass im Fall ϑ = 0, 6 bei allen 10 Versuchspersonen ein Heilerfolg eintritt. In diesem Fall liefert aber die oben angegebene Entscheidungsvorschrift die Entscheidung M2 ist besser als M1, obwohl sie falsch ist! Darüber hinaus ermöglicht es die Wahrscheinlichkeitstheorie, unter allen Entscheidungsfunktionen diejenigen zu bestimmen, die ein vorgegebenes Optimalitätskriterium erfüllen. Derartige optimale Lösungen sind natürlich für die Praxis von größter Bedeutung. Tatsächlich ist die Bestimmung optimaler statistischer Entscheidungsverfahren ein wesentlicher Gegenstand der Mathematischen Statistik. 4 Kapitel 1 GRUNDLAGEN 1.1 Ausgangssituation statistischer Entscheidungen Jeder statistischen Entscheidung liegt ein Datenmaterial x1 , . . . , xn zugrunde. Dieses denken wir uns zu einer Beobachtung x = (x1 , . . . , xn ) zusammengefaßt, die wir als Realisierung einer Zufallsgröße X : (Ω, A, P) → (X , B) auffassen. (X , B) heißt auch Stichprobenraum, x Stichprobe. Also: (Ω, A, P) ist ein Wahrscheinlichkeitsraum, (X , B) ist ein meßbarer Raum, X : (Ω, A) → (X , B) ist meßbare Abbildung, x = X(ω). Mit der Verteilung P := P ∗ X von X, d.h. P (B) := (P ∗ X)(B) = P(X −1 (B)), B ∈ B, ist (X , B, P ) ebenfalls ein Wahrscheinlichkeitsraum. Im Gegensatz zur Wahrscheinlichkeitstheorie ist es ein spezifischer Aspekt der Mathematischen Statistik, dass die zugrundeliegende Verteilung P als unbekannt anzusehen und aufgrund der Beobachtung x eine Aussage über P zu machen ist. Häufig wird man jedoch gewisse Vorinformationen darüber haben, welche Verteilungen überhaupt in Frage kommen. Definition 1.1.1. Unter einer Verteilungsannahme versteht man die Auszeichnung einer Klasse P von Verteilungen über einem Stichprobenraum (X , B). Dann heißt (X , B, P) ein statistischer Raum. Aus technischen Gründen indiziert man die Elemente P ∈ P häufig durch einen Parameter ϑ. Die Gesamtheit Θ der zugelassenen Parameterwerte heißt Parameterraum. Es gilt also P = {Pϑ : ϑ ∈ Θ}. 5 Ist X eine Zufallsgröße mit Verteilung Pϑ , so schreiben wir für den Erwartungswert, Varianz, Verteilungsfunktion, Dichte etc. von X Eϑ , σϑ2 , Fϑ , fϑ etc. Eine Verteilungsklasse P = {Pϑ : ϑ ∈ Θ} heißt k–parametrig, wenn sie sich zwanglos“ durch einen k–dimensionalen Parameter ϑ parametrisieren läßt. ” So ist etwa die Familie der eindimensionalen Normalverteilungen P = {N (µ, σ 2 ) : µ ∈ R, σ 2 > 0} eine zwei-parametrige Klasse mit Parameter ϑ = (µ, σ 2 ). Allgemeiner interessiert von einer Verteilungsklasse P oft nur der Wert κ(P ) eines Funktionals κ: P→K der unbekannten Verteilung P , etwa der Mittelwert von P . Ist speziell die Verteilungsklasse parametrisiert, so fassen wir κ als eine Abbildung von Θ nach K auf. Wir schreiben also κ(ϑ) : Θ → K d.h. κ(ϑ) statt κ(Pϑ ). In den meisten Anwendungen ist Θ eine Teilmenge des Rk . Erscheint im Rahmen des konkreten Problems eine solche parametrische Verteilungsannahme als zu einschneidend, so wird man z.B. bei Problemen mit einer stetigen Verteilung typischerweise alle bzgl. des n–dimensionalen Lebesgue-Maßes λn absolut stetigen Wahrscheinlichkeitsmaße auf (Rn , Bn ) (also alle Wahrscheinlichkeitsverteilungen auf der Borel–σ–Algebra Bn des Rn mit einer Dichte bzgl. λn ) bei der Verteilungsannahme zulassen müssen. Man spricht in diesem Fall von einer nichtparametrischen Verteilungsannahme. Neben der Verteilungsannahme ist noch die Gesamtheit der Aussagen anzugeben, zwischen denen entschieden werden soll. Die Gesamtheit ∆ dieser Aussagen, versehen mit einer σ–Algebra D heißt der Entscheidungsraum (∆, D). Die Elemente d von ∆ heißen Entscheidungen. Aufgabe ist es also, ein statistisches Entscheidungsverfahren anzugeben, d.h. eine Vorschrift, die jeder möglichen Beobachtung x ∈ X eindeutig eine Entscheidung d = e(x) ∈ ∆ zuordnet. Definition 1.1.2. Eine (nicht-randomisierte) Entscheidungsfunktion e ist eine B, D–meßbare Abbildung des Stichprobenraumes (X , B) in den Entscheidungsraum (∆, D). Deren Gesamtheit bezeichnen wir mit E. 6 Je nach der Struktur des Entscheidungsraumes unterscheidet man zwischen verschiedenen Grundtypen statistischer Entscheidungsverfahren. Die beiden wichtigsten sind die Tests und die Schätzverfahren. In den folgenden Abschnitten wollen wir diese Entscheidungsverfahren näher untersuchen. Dabei gehen wir stets von einer parametrischen Verteilungsannahme P = {Pϑ : ϑ ∈ Θ} aus. Wir verstehen dann unter einer Hypothese H stets eine Aussage (Annahme) über den Parameter ϑ. Dabei werden wir H mit derjenigen Teilmenge des Parameterraumes Θ, für die H gilt, identifizieren. Definition 1.1.3. Gegeben sei eine Verteilungsannahme P = {Pϑ : ϑ ∈ Θ} und ein Entscheidungsraum (∆, D). Dann heißt eine Funktion L : Θ × ∆ → [0, ∞) Verlustfunktion, falls gilt: ∀ϑ ∈ Θ : L(ϑ, ·) ist D, B–meßbar. Bemerkung 1.1.4. L(ϑ, d) drückt den Verlust (Schaden) aus, den man bei Treffen der Entscheidung d und gleichzeitigem Vorliegen von Pϑ erleidet. Definition 1.1.5. Es sei L eine Verlustfunktion. Dann heißt die Funktion R : Θ × E → [0, ∞], definiert durch Z R(ϑ, e) := L(ϑ, e(x)) Pϑ (dx), X Risikofunktion (erwarteter Verlust) bzgl. L und e. R(ϑ, e) ist also der erwartete Verlust bei Vorliegen von Pϑ und Entscheidungsfunktion e. In der folgenden Definition legen wir Optimalitätskriterien für Entscheidungsfunktionen fest. Definition 1.1.6. (i) e∗ heißt gleichmäßig beste (n.r.) Entscheidungsfunktion, falls ∀ϑ ∈ Θ : R(ϑ, e∗ ) = min R(ϑ, e). e∈E (ii) ẽ heißt eine Mini-Max Lösung bzgl. E, falls sup R(ϑ, ẽ) = min sup R(ϑ, e). e∈E ϑ∈Θ ϑ∈Θ 7 1.2 Tests Aufgrund einer vorliegenden Beobachtung x ∈ X soll zwischen zwei Aussagen entschieden werden: ϑ ∈ H oder ϑ ∈ K, wobei Θ = H ∪ K, H ∩ K = ∅. Bezeichen wir die Entscheidungen für H bzw. K mit dH bzw. dK , so definieren wir mit ∆ := {dH , dK }, D := Potenzmenge von ∆ einen Entscheidungsraum. Dann ist eine Abbildung e : X → ∆ genau dann eine (n.r.) Entscheidungsfunktion, wenn gilt S := {x ∈ X : e(x) = dK } = e−1 ({dk }) ∈ B, (⇔ S c ∈ B). Dies ist gerade die Meßbarkeit von e. Definition 1.2.1. Eine Entscheidungsfunktion der Form dK , falls x ∈ S, e(x) = x ∈ X, dH , falls x ∈ S c , mit S ∈ B, heißt (n.r.) Test für das Entscheidungsproblem H gegen K. Man wird natürlich versuchen, S ∈ B bzw. e so zu wählen, dass möglichst wenige Fehlentscheidungen getroffen werden. Zwei Arten von Fehlern sind dabei möglich: Fehler 1. Art: Fehler 2. Art: Entscheidung für K, obwohl H richtig ist, Entscheidung für H, obwohl K richtig ist. Die übliche (unsymmetrische) Vorgehensweise ist die folgende: Man versucht unter allen (n.r.) Tests mit einer vorgegebenen Irrtumswahrscheinlichkeit α ∈ (0, 1) für den Fehler 1. Art einen solchen zu bestimmen, der die Wahrscheinlichkeit für den Fehler 2. Art minimiert: Gesucht ist also S ∗ ∈ B mit S ∗ ∈ γα := {S ∈ B : ∀ϑ ∈ H : Pϑ (S) ≤ α} (1.2.2) ∀ϑ ∈ K : Pϑ (S ∗c ) = inf Pϑ (S c ). (1.2.3) und S∈γα 8 Äquivalent zu (1.2.3) ist ∀ϑ ∈ K : Pϑ (S ∗ ) = sup Pϑ (S). (1.2.4) S∈γα Die Elemente der Klasse γα , d.h. Tests S ∈ B mit der Eigenschaft ∀ϑ ∈ H : Pϑ (S) ≤ α (1.2.5) heißt n.r. Test zum Niveau α. α ∈ [0, 1] heißt Irrtumswahrscheinlichkeit oder Wahrscheinlichkeit für den Fehler 1. Art, 1 − α heißt Sicherheitswahrscheinlichkeit. Man bezeichnet H auch als Nullhypothese oder Hypothese und K als Gegenhypothese oder Alternative. Man nennt S := {x ∈ X : e(x) = dK } =: {e = dK } die kritische Region und S c = {e = dH } den Annahmebereich des Tests e. 1.3 Elementare Testverfahren unter Normalverteilungsannahme Im Folgenden seinen X1 , . . . , Xn unabhängige und identisch N (µ, σ 2 )-verteilte Zufallsvariablen, (X , B) = (Rn , Bn ). Dabei bezeichnet Z (x − µ)2 1 2 √ exp − dx, N (µ, σ )(B) = 2σ 2 2π B B ∈ B, µ ∈ R, σ > 0, die Normalverteilung auf (R, B) mit Mittelwert µ und Varianz σ 2 . Wir unterscheiden im Folgendem verschiedene Fälle: (i) Es sei µ unbekannt, σ 2 bekannt. Die parametrische Verteilungsannahme lautet in diesem Fall P = {Pϑ = N (µ, σ 2 )n : ϑ = µ ∈ Θ}, Θ = R Zu vorgegebenen Niveau, d.h. Fehlerwahrscheinlichkeit 1. Art α ∈ (0, 1), ist ein (einseitiger) Test für H : ϑ ≥ ϑ0 gegen K : ϑ ≤ ϑ0 zu finden. Dabei ist ϑ0 ∈ R fest vorgegeben. Aufgrund des starken Gesetzes der großen Zahlen gilt n T (X1 , . . . , Xn ) := 1X n→∞ Xi −→ E(X1 ) = µ P − f.s. n i=1 9 Es ist daher sinnvoll, H abzulehnen, falls aufgrund vorliegender Beobachtungen x = (x1 , . . . xn ) = (X1 (ω), . . . Xn (ω)) die Statistik T (X1 , . . . , Xn ) zu klein“ ist, d.h. T (X1 , . . . , Xn ) ≤ γ < ” ϑ0 . Dabei ist γ so zu wählen, dass die Wahrscheinlichkeit für den Fehler 1. Art nicht größer als α ist, d.h. sup Pϑ (T (X1 , . . . Xn ) ≤ γ) ≤ α. (1.3.1) ϑ∈H Nach dem Faltungstheorem der Normalverteilung gilt für ϑ ∈ Θ ! n X Pϑ Xi ∈ B = N (nµ, nσ 2 )(B), B ∈ B i=1 ⇒ Pϑ n1/2 ! ! n 1X Xi − µ /σ ∈ B = N (0, 1)(B) n i=1 d.h. Pϑ n1/2 (T (X1 , . . . Xn ) − µ)/σ ∈ B = N (0, 1)(B). Daher gilt für alle t ∈ R und T = T (X1 , . . . , Xn ) und ϑ ∈ Θ tσ 1/2 T − ϑ Pϑ T ≤ ϑ + 1/2 = Pϑ n · ≤ t = Φ(t), B = (−∞; t] n σ wobei Z t 1 exp −x2 /2 dx Φ(t) = √ 2π −∞ die Verteilungsfunktion der Standardnormalverteilung ist. Für ϑ ∈ H erhalten wir nun P ϑ T ≤ ϑ0 + tσ n1/2 ≤ = sup Pϑ ϑ∈H tσ − (ϑ − ϑ0 ) n1/2 | {z } ≥0 tσ Pϑ T ≤ ϑ + 1/2 n Φ(t), P ϑ T ≤ ϑ + = ϑ≥ϑ0 d.h. tσ T ≤ ϑ0 + 1/2 n ≤ Φ(t) Wählen wir also t ∈ R so, dass Φ(t) = α, d.h. t = Φ−1 (α) =: uα , so haben wir (1.3.1) mit der Wahl γ := ϑ0 + uα σn−1/2 erfüllt. Dabei ist uα das α-Quantil der Standardnormalverteilung. 10 Die kritische Region unseres Tests ist also die Menge n uα σ o C = x ∈ Rn : T (x) ≤ ϑ0 + 1/2 n Dieser Test heißt auch Gauss-Test. (ii) Es sei σ 2 unbekannt, µ hingegeen bekannt. Die Verteilungsannahme lautet in diesem Fall P = Pϑ = N (µ, σ 2 )n : ϑ = σ 2 ∈ Θ , Θ = (0, ∞), Gesucht ist nun ein einseitiger Test zum Niveau α für H : ϑ ≥ ϑ0 gegen K : ϑ < ϑ0 . Dabei ist ϑ0 > 0 vorgegeben. Das Starke Gesetz der großen Zahlen leifert n 1X n→∞ (Xi −µ)2 −→ E (X1 − µ)2 = σ 2 T̂ := T̂ (X1 , . . . Xn ) := n i=1 P−f.s. Wir werden daher H ablehnen, falls aufgrund einer vorliegenden Beobachtung x = (x1 , . . . xn ) = (X1 (ω), . . . , Xn (ω)) die Testgröße T̂ (x) zu klein“ wird, d.h. T̂ (x) ≤ γ ≤ ϑ0 . Dabei ist γ ” so festzulegen, dass sup Pϑ T̂ ≤ γ ≤ α. (1.3.2) ϑ∈H Wir gehen wie folgt vor: P Ist Xi N (µ, σ 2 )-verteilt, so ist (Xi − µ)/σ N (0, 1)-verteilt. Damit ist ni=1 (Xi −µ)2 /σ 2 nach Definition χ2 -verteilt mit n Freiheitsgraden, i. Z. χ2n . Bezeichnen wir mit Fχ2n die Verteilungsfunktion der χ2 -Verteilung mit n Freiheitsgraden und setzen wir noch cα,n := Fχ−1 2 (α), n so gilt mit γ := cα,n · ϑ0 /n für alle ϑ ∈ H = [ϑ0 , ∞) Pϑ T̂ ≤ γ ! n 1 X c · ϑ α,n 0 = Pϑ · (Xi − µ)2 ≤ n i=1 n n 2 X Xi − µ ϑ0 √ = Pϑ ≤ cα,n ϑ ϑ |{z} i=1 ≤1 ! n X Xi − µ 2 √ ≤ Pϑ ≤ cα,n ϑ i=1 = Fχ2n (cα,n ) = α, 11 d.h. (1.3.2) ist erfüllt. Die kritische Region unseres Tests ist also die Menge cα,n · ϑ0 n C = x ∈ R : T̂ (x) ≤ n (iii) Es sei nun µ und σ 2 unbekannt. Die Verteilungsannahme lautet nun P = Pϑ = N (µ, σ 2 )n : ϑ = (µ, σ 2 ) ∈ Θ , Θ = R × (0, ∞). Das starke Gesetz der großen Zahlen liefert mit X n := S2 1 n Pn i=1 S 2 (X1 , . . . Xn ) n 2 1 X Xi − X n n − 1 i=1 := := Xi (1.3.3) n 2 1 X (Xi − µ) + (µ − X n ) n − 1 i=1 ! n X n 1 2 2 (Xi − µ) − X n − µ − 1} n i=1 | {z } |n {z n→∞ {z } −→ 0 | n→∞ = = −→ 1 n→∞ −→ σ 2 n→∞ 2 −→ σ P − f.s., falls Xi die Verteilung Pϑ besitzen mit ϑ = (µ, σ 2 ). Insbesondere gilt Eϑ (S 2 ) = σ 2 Obige Konvergenzaussage nehmen wir zur Grundlage für die Definition von Tests für die beiden Entscheidungsprobleme. (a) H : σ 2 ≥ σ02 gegen K : σ 2 < σ02 , wobei σ02 > 0 fest vorgegeben ist (b) H : µ ≤ µ0 gegen K : µ > µ0 , wobei µ0 ∈ R fest vorgegeben ist Zu (a): Die Konvergenzaussage (1.3.3) legt es nahe H abzulehnen, falls aufgrund einer vorliegenden Beobachtung x = (x1 , . . . xn ) = (X1 (ω), . . . , Xn (ω)) gilt: S 2 (x) ≤ γ < σ02 , 12 wobei γ so zu wählen ist, dass sup Pϑ S 2 ≤ γ ≤ α. (1.3.4) ϑ∈H Beachte dabei dass H = R × [σ02 , ∞). Nun ist (n − 1) · S 2 /σ 2 χ2n−1 -verteilt (siehe etwa Theorem 2.2.1 in Falk et. al. (2002)). Setzen wir daher γ := cα,n−1 σ02 /(n − 1), so gilt für alle ϑ∈H σ 2 n − 1 2 0 Pϑ (S 2 ≤ γ) = Pϑ S ≤ c α,n−1 σ2 σ | {z } ≤1 n−1 2 ≤ Pϑ S ≤ cα,n−1 σ2 = α d.h. (1.3.4) ist erfüllt. Die kritische Region unseres Tests ist also die Menge cα,n−1 · σ02 n 2 C = x ∈ R : S (x) ≤ n−1 P Zu (b): Da die Verteilung von T = n1 nn−1 (Xi − µ) von σ 2 abhängt und im vorliegenden Fall σ 2 unbekannt ist liegt es wegen (1.3.3) nahe die Stichprobenfunktion t(x1 , . . . xn ) := n1/2 · (T (x1 , . . . , xn ) − µ) (S 2 (x1 , . . . , xn ))1/2 zu verwenden. Als Entscheidungsregel verwenden wir: H wird abgelehnt, falls aufgrund einer vorliegenden Beobachtung x = (x1 , . . . xn ) n1/2 (T (x) − µ0 ) ≥ γ > 0. t0 (x) = (S 2 (x))1/2 Dabei ist γ so zu wählen, dass sup Pϑ (t0 ≥ γ) ≤ α ϑ∈H Beachte, dass H = (−∞, µ0 ] × (0, ∞). Es gilt 1/2 t(x) = (n − 1) 13 T (x)−µ σ 1/2 , n−1 2 S (x) 2 σ (1.3.5) wobei n1/2 (T (X1 , . . . Xn ) − µ) /σ N (0, 1)-verteilt ist und ((n − 1)/σ 2 )S 2 (X1 , . . . Xn ) χ2n−1 -verteilt ist, falls X1 , . . . Xn unabhängig und identisch N (µ, σ 2 ). Diese beiden Zufallsvariablen sind stochastisch unabhängig und die Verteilung von t(X1 , . . . Xn ) ist die (Studentsche) t-Verteilung mit n − 1 Freiheitsgraden, i.Z. tn−1 (s. Falk et al. (2002), Theorem 2.2.1). Ist nun γ := d1−α,n−1 := t−1 n−1 (1 − α) das 1 − α-Quantil der tn−1 Verteilung, so erhalten wir für alle ϑ ∈ H µ − µ0 Pϑ (t0 ≥ γ) = Pϑ t + n1/2 2 1/2 ≥ γ (S ) | {z } ≤0 ≤ = = = = Pϑ (t ≥ γ) tn−1 ([γ, ∞)) tn−1 ([d1−α,n−1 , ∞)) 1 − (1 − α) α, d.h. (1.3.5) ist erfüllt. Die kritische Region dieses (Einstichproben) tTests ist C := {x ∈ Rn : t0 (x) ≥ d1−α,n−1 } . 1.4 Punktschätzverfahren Bei vorgegebenem Stichprobenraum (X , B) und zugrundegelegter Verteilungsannahme P = {Pϑ : ϑ ∈ Θ} soll aufgrund einer vorliegenden Beobachtung x ∈ X der zugrundeliegende Parameter ϑ ∈ Θ oder allgemein der Wert κ(ϑ) einer (reellen) Funktion κ auf Θ geschätzt werden. Definition 1.4.1. Eine meßbare Abbildung κ̂ des Stichprobenraumes (X , B) in den (meßbaren) Wertebereich der Funktion κ heißt eine Schätzfunktion, genauer eine Punktschätzfunktion für κ(ϑ), kurz κ̂ : (X , B) → (R, B). Bei einer stetig verteilten Schätzfunktion wird jeder spezielle Wert, insbesondere der zugrundeliegende Wert κ(ϑ) mit Wahrscheinlichkeit 0 angenommen Pϑ (κ̂ = κ(ϑ)) = 0 Man trifft in diesem Fall somit fast sicher (= mit Wahrscheinlichkeit 1) eine Fehlentscheidung. 14 Bei der Wahl einer Schätzfunktion κ̂ sollte daher die Größe des erwarteten Fehlers berücksichtigt werden. Im Folgenden setzen wir vorraus dass κ : Θ → R. Definition 1.4.2. κ̂ : (X , B) → (R, B) heißt erwartungstreu oder unverzerrt (engl. unbiased), falls ∀ϑ ∈ Θ : Eϑ (κ̂) = κ(ϑ) Definition 1.4.3. κˆ∗ heißt erwartungstreue Schätzfunktion mit Minimalvarianz, falls (i) κˆ∗ ∈ K̂ := {κ̂ : ∀ϑ ∈ Θ : Eϑ (κ̂) = κ(ϑ)}, (ii) ∀ϑ ∈ Θ V arϑ (κˆ∗ ) = Eϑ (κˆ∗ − µ)2 = inf κ̂∈K̂ V arϑ (κ̂). Die Bedeutung der Minimalvarianz lässt sich wie folgt motivieren. Es sei L : Θ × R → [0, ∞) eine Verlustfunktion mit den beiden Eigenschaften ∀ϑ ∈ Θ : L(ϑ, ·) ist zweimal stetig diffbar ∀ϑ ∈ Θ : L(ϑ, κ(ϑ)) = 0 Damit wird für eine beliebige erwartungstreue Schätzfunktion κ̂ von κ nach der Taylorformel gelten: L(ϑ, κ̂) = L(ϑ, κ̂) − L(ϑ, κ(ϑ)) ∂ ∂2 (κ̂ − κ(ϑ))2 L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + 2 L(ϑ, ξ) = ∂κ ∂ κ 2 ∂ ∂2 (κ̂ − κ(ϑ))2 ≈ L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + 2 L(ϑ, κ(ϑ)) ∂κ ∂ κ 2 ∂ L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + const(ϑ) · (κ̂ − κ(ϑ))2 = ∂κ wobei ξ zwischen κ̂ und κ liegt und const(ϑ) unabhängig von κ̂ ist. Es folgt: Rϑ (κ̂) = Eϑ (L(ϑ, κ̂)) ∂ 2 ≈ Eϑ L(ϑ, κ(ϑ)) · (κ̂ − κ(ϑ)) + const(ϑ) · (κ̂ − κ(ϑ)) ∂κ ∂ = L(ϑ, κ(ϑ)) Eϑ (κ̂ − κ(ϑ)) +const(ϑ) · Eϑ (κ̂ − κ(ϑ))2 | {z } ∂κ =0 = const(ϑ) · V arϑ (κ̂) Ein erwartungstreuer Schätzer mit Minimalvarianz wird also tendenziell jedes Risiko minimieren. Das erklärt die Bedeutung der Minimalvarianz. 15 Beispiel 1.4.4. Es seinen X1 , . . . Xn unabhängige und identisch N (µ, σ 2 )verteilte Zufallsvariablen, wobei µ und σ 2 unbekannt sind. Es gilt also (X , B, P) = (Rn , Bn , P = {Pϑ = N (µ, σ 2 )n : ϑ = (µ, σ 2 ) ∈ Θ}), Θ = R × (0, ∞). Gesucht ist eine Schätung für κ(ϑ) = µ. Das Gesetz der großen Zahlen legt die Schätzfunktion n 1X xi , κ̂ = n i=1 x = (x1 , . . . , xn ) ∈ Rn , für κ(ϑ) nahe. Tatsächlich ist κ̂ erwartungstreu: n 1X Xi n i=1 ∀ϑ ∈ Θ : Eϑ (κ̂(X1 , . . . Xn )) = Eϑ ! = µ = κ(ϑ). Wir werden in Kapitel 3 zeigen, dass κ̂ auch 1.4.3 (ii) erfüllt, also ein Schätzer mit Minimalvarianz ist. Zum Nachweis wird dabei wesentlich von der Normalverteilungsannahme Gebrauch gemacht. Beispiel 1.4.5. Es seien X1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit σ 2 := V ar(X1 ) < ∞. Setze n 1X (xi − x)2 , κˆ1 (x) := n i=1 n 1 X κˆ2 (x) := (xi − x)2 , n − 1 i=1 n 1X x = (x1 , . . . xn ) ∈ R , x = xi . n i=1 n Dann liefert κˆ2 (X1 , . . . , Xn ) eine erwartungstreue Schätzfunktion für σ 2 , κˆ1 (X1 , . . . , Xn ) aber nicht. 1.5 Bereichsschätzungen Der Vorteil der in 1.4 betrachteten Schätzverfahren präzise Aussagen in Form von Punktschätzungen zu liefern bedingt gleichzeitig, dass in (nahezu) allen Fällen f.s. Fehlentscheidungen getroffen werden. Eine Alternative zur Punktschätzung besteht in der Bereichsschätzung (Konfidenzbereich) d.h. in der Angabe einer Abbildung K : X → Potenzmenge von Θ 16 derart, dass K(·)(⊂ Θ) mit einer vorgegebenen Mindestwahrscheinlichkeit 1 − α den zugrundeliegenden Parameter enthält ∀ϑ ∈ Θ : Pϑ (x ∈ X : ϑ ∈ K(x)) ≥ 1 − α Beispiel 1.5.1. Es seien X1 , . . . , Xn unabhängige und identisch N (µ, σ02 )verteilte Zufallsvariablen mit bekanntem σ02 > 0 und unbekanntem µ ∈ R (X , B) = (Rn , Bn ), P = {Pϑ = N (µ, σ02 )n , ϑ = µ ∈ Θ = R} P Setze T (x) := n1 ni=1 xi , x = (x1 , . . . xn ) ∈ X . Da mit T = T (X1 , . . . , Xn ) unter ϑ die Größe n1/2 (T − µ)/σ0 N (0, 1)-verteilt ist, gilt für ein beliebiges α ∈ (0, 1) 1/2 T − µ ∀ϑ ∈ Θ : Pϑ −uα/2 ≤ n ≤ uα/2 = 1 − α σ0 wobei uα/2 = Φ−1 1 − α2 oder σ0 uα/2 σ0 uα/2 ∀ϑ ∈ Θ : Pϑ T − ≤ µ ≤ T + =1−α 1/2 n1/2 n i h σ0 uα/2 σ0 uα/2 . ; T + = Pϑ |{z} ϑ ∈ T− n1/2 n1/2 =µ Dies bedeutet, dass σ0 uα/2 σ0 uα/2 i K(x) := T (x) − ; T (x) + n1/2 n1/2 h x ∈ Rn , eine Bereichsschätzung ist mit der Eigenschaft Pϑ (ϑ ∈ K(X1 , . . . , Xn )) = 1 − α, ϑ ∈ Θ. Man nennt T − σ0 uα/2 n−1/2 ; T + σ0 uα/2 n−1/2 Konfidenzintervall (Vertrauensintervall) für den Parameter ϑ zum Niveau 1 − α. Beispiel 1.5.2. Es seien X1 , . . . , Xn unabhängige und N (µ, σ 2 )-verteilte Zufallsvariablen, wobei µ und σ 2 > 0 unbekannt sind, d.h. Θ = R × (0, ∞). Die Zufallsvariable T (X1 , . . . , Xn ) − µ t(X1 , . . . , Xn ) := n1/2 p S 2 (X1 , . . . , Xn ) 17 ist nach Abschnitt 1.3 t-verteilt mit n − 1-Freiheitsgraden, i.Z. tn−1 . Für α ∈ (0, 1) sei tα/2 := d1− α2 ,n das 1 − α2 -Quantil der tn−1 -Verteilung, d.h. Pϑ (t(X1 , . . . , Xn ) ≤ tα/2 ) = 1 − α . 2 Dann gilt ∀ϑ = (µ, σ 2 ) ∈ Θ: Pϑ −tα/2 ≤ t(X1 , . . . , Xn ) ≤ tα/2 = Pϑ t(X1 , . . . , Xn ) ≤ tα/2 − Pϑ t(X1 , . . . , Xn ) ≤ −tα/2 α α =1− − 2 2 =1−α oder ∀ϑ = (µ, σ 2 ) ∈ Θ: tα/2 (S 2 )1/2 tα/2 (S 2 )1/2 Pϑ T − ≤µ≤T+ n1/2 n1/2 =1−α tα/2 (S 2 )1/2 tα/2 (S 2 )1/2 = Pϑ µ ∈ T − ;T + n1/2 n1/2 d.h. T − tα/2 (S 2 )1/2 n−1/2 ; T + tα/2 (S 2 )1/2 n−1/2 ist ein Konfidenzintervall für den Parameter κ(ϑ) = µ zum Niveau 1 − α. Definition 1.5.3. Eine Abbildung K : X → Potenzmenge von Θ heißt Bereichsschätzfunktion zum Konfidenzniveau 1 − α oder Konfidenzbereich zum Niveau 1 − α :⇔ ∀ϑ ∈ Θ : Pϑ (x ∈ X : ϑ ∈ K(x)) ≥ 1 − α Bemerkung 1.5.5. muss gelten (1.5.4) (i) Damit die Wahrscheinlichkeit in (1.5.4) erklärt ist, ∀ϑ ∈ Θ : A(ϑ) := {x ∈ X : ϑ ∈ K(x)} ∈ B (ii) Im Fall von Bereichsschätzungen ist der Entscheidungsraum die Potenzmenge von Θ. Er enthält im Gegensatz zu den bisher beobachteten Entscheidungsverfahren i.a. mehrere richtige Entscheidungen. (iii) Ist Θ ein Intervall in R und ist für alle x ∈ X K(x) ein Intervall in R, so heißt K als Lösung von (1.5.4) ein Konfidenzintervall für ϑ zum Niveau 1 − α. 18 Satz 1.5.6 (Dualitätsprinzip). Es sei P = {Pϑ : ϑ ∈ Θ} eine beliebige Familie von Wahrscheinlichkeitsmaßen auf dem Stichprobenraum (X , B) und α ∈ (0, 1). Dann gilt: (i) Ist K ein Konfidenzbereich zum Niveau 1 − α, so ist für jedes ϑ0 ∈ Θ die Menge X \A(ϑ0 ) = {x ∈ X : ϑ0 ∈ / K(x)} die kritische Region eines Tests zum Niveau α für das Problem Hϑ0 : ϑ = ϑ0 gegen Kϑ0 : ϑ 6= ϑ0 . (ii) Ist für jedes ϑ0 ∈ Θ C(ϑ0 ) die kritische Region eines Tests zum Niveau α für das Entscheidungsproblem Hϑ0 : ϑ = ϑ0 gegen Kϑ0 : ϑ 6= ϑ0 , so wird durch die Festsetzung K(x) := {ϑ0 ∈ Θ : x ∈ C(ϑ0 )c }, x ∈ X , ein Konfidenzbereich zum Niveau 1 − α definiert. Beweisskizze: Zu (i): Pϑ0 (X \A(ϑ0 )) = Pϑ0 (x ∈ X : ϑ0 ∈ / K(x)) = 1 − Pϑ0 (x ∈ X : ϑ0 ∈ K(x)) ≤ α {z } | ≥1−α Zu (ii): ϑ ∈ K(x) ⇔ x ∈ C(ϑ)c ; wähle als K(x) alle ϑ mit der Eigenschaft: aufgrund von x wird ϑ nicht verworfen, d.h. Pϑ (x ∈ X : ϑ ∈ K(x)) = Pϑ (x ∈ X : x ∈ C(ϑ)c ) = 1 − Pϑ (x ∈ X : x ∈ C(ϑ)) ≥ 1 − α {z } | ≤α 2 1.6 Randomisierte Entscheidungsverfahren Der in Definition 1.2.1 auf Seite 8 eingeführte Begriff der nichtrandomisierten Entscheidungsfunktion reicht für die im Folgenden zu entwickelnde Theorie i.a. nicht aus, denn mit zwei Entscheidungsfunktionen e1 , e2 benötigen wir auch eine solche, bei der aufgrund einer Beobachtung x mit der Wahrscheinlichkeit γ = γ(x) die Entscheidung e1 (x) und mit der Wahrscheinlichkeit 1 − γ die Entscheidung e2 (x) getroffen wird. Ob man sich also für e1 (x) oder e2 (x) entscheidet, hängt somit von dem Ausgang eines Hilfsexperimentes ab, nämlich davon, ob bei diesem ein Ereignis, welches die Wahrscheinlichkeit γ besitzt, eingetreten ist oder nicht. Die Ausführung eines solchen (Zusatz-) Experiments heißt Randomisieren nach einer B(1, γ)-Verteilung. 19 Definition 1.6.1. Gegeben seien der Stichprobenraum (X , B) und der Entscheidungsraum (∆, D). Eine randomisierte Entscheidungsfunktion ist dann eine Übergangswahrscheinlichkeit oder Markoffscher Kern von (X , B) nach (∆, D), d.h. eine Abbildung δ : X × D → [0, 1] mit den Eigenschaften (i) ∀x ∈ X : δ(x, ·) ist ein Wahrscheinlichkeitsmaß auf D (ii) ∀D ∈ D : δ(·, D) ist B, B-meßbar. Die Zahl δ(x, D) ist dabei wie folgt zu interpretieren: Bei Vorliegen der Beobachtung x ∈ X ist eine Entscheidung zu treffen, welche mit der Wahrscheinlichkeit δ(x, D) zur Menge D ∈ D gehört. Das bedeutet: Um in einer konkreten Situation zu einer Entscheidung zu gelangen, hat man zunächst die Beobachtung x ∈ X zu gewinnen und dann mit diesem Wert x ein Hilfsexperiment mit (∆, D) als Stichprobenraum und δ(x, ·) als Wahrscheinlichkeitsverteilung durchzuführen. Der Ausgang dieses Hilfsexperimentes ist dann die tatsächlich zu treffende Entscheidung. Die Ausführung eines Hilfsexperimentes heißt Randomisieren nach der Verteilung δ(x, ·). Eine nicht randomisierte Entscheidungsfunktion kann mit der randomisierten Entscheidungsfunktion δe (x, D) := 1D (e(x)) identifiziert werden: Bei Verwendung dieser Entscheidungsfunktion ist für alle x ∈ X mit Wahrscheinlichkeit 1 die Entscheidung e(x) zu treffen sofern {e(x)} ∈ D. [δe (x, {e(x)}) = 1]. Im Folgenden verzichten wir daher auf den Zusatz randomisiert“. ” Bei einem Testproblem besteht der Entscheidungsraum ∆ nur aus den beiden Elementen dH und dK , so dass in diesem Fall eine Entscheidungsfunktion δ : X × Potenzmenge von {dH , dK } → [0, 1] bereits durch ϕ(x) := δ(x, {dK }) völlig bestimmt ist. Im Spezialfall eines nicht randomisierten Tests e ergibt sich ϕ(x) = 1S (x), x ∈ X wobei S = {x ∈ X : e(x) = dk } die kritische Region von e ist. Definition 1.6.2. Unter einer Testfunktion oder kurz Test ϕ versteht man eine (B, B)-meßbare Abbildung ϕ : X → [0, 1]. Dabei ist ϕ(x) die Wahrscheinlichkeit dafür, dass bei Vorliegen der Beobachtung x ∈ X die Entscheidung dK getroffen wird, d.h. ϕ(x) =: δ(x, {dK }). Der Spezialfall ϕ = 1S mit S ∈ B entspricht dann dem nicht randomisierten Test e(x) = dK , falls x ∈ S und e(x) = dH , falls x ∈ S c . [δ(x, {dK }) = ϕ(x) ⇒ δ(x, {dH }) = 1 − δ(x, {dK }) = 1 − ϕ(x), δ(·, {dK }) = ϕ(·) ist B, B-meßbar, δ(x, ·) ist Wahrscheinlichkeitsmaß] 20 Bei zugrundeliegender Verteilungsannahme P = {Pϑ : ϑ ∈ Θ} und einer Entscheidungsfunktion δ : X × D → [0, 1] (Markoffscher Kern) wird durch die Festsetzung ∀D ∈ D Qϑ,δ (D) := (Pϑ ⊗ δ)(D) Z := δ(x, D)Pϑ (dx) (1.6.3) X = Eϑ (δ(·, D)) ∈ [0, 1] ein Wahrscheinlichkeitsmaß Qϑ,δ auf D definiert. Denn es gilt (i) Z Qϑ,δ (∆) = δ(x, ∆)Pϑ (dx) X = Pϑ (X ) = 1. (ii) Es seinen D ∈ D, n ∈ N paarweise disjunkt. Dann folgt aus dem Satz der monotenen Konvergenz: ! ! Z [ [ Dn Pϑ (dx) Qϑ,δ Dn = δ x, X n∈N = n∈N Z X δ(x, Dn )Pϑ (dx) X n∈N Z = lim m X X m→∞ n=1 | = = = lim m→∞ lim m→∞ X ↑ Z X m X n=1 m Z X n=1 δ(x, Dn ) Pϑ (dx) | {z } ≥0 {z } δ(x, Dn )Pϑ (dx) δ(x, Dn )Pϑ (dx) X Qϑ,δ (Dn ). n∈N Qϑ,δ (D) lässt sich als Wahrscheinlichkeit dafür interpretieren, dass bei zugrundeliegender Verteilung Pϑ eine in der oben beschreibenen zweistufigen 21 Weise (durch Randomisieren nach der Verteilung δ(x, ·) bei vorliegender Beobachtung x) gewonnene Entscheidung d zur Menge D gehört. Im Spezialfall eines Tests ϕ ist Qϑ,δ bereits durch Z δ(x, {dK })Pϑ (dx) Qϑ,δ ({dK }) = X Z = ϕ(x)Pϑ (dx) X ∈ [0, 1] = Eϑ (ϕ) eindeutig definiert; Qϑ,δ ({dH }) = 1 − Qϑ,δ ({dH }) = 1 − Eϑ (ϕ) = Eϑ (1 − ϕ) Somit ist Eϑ (ϕ) die Wahrscheinlichkeit mit der unter der Verteilung Pϑ die Entscheidung dK , d.h. Verwerfen der Hypothese, getroffen wird. Die Abbildung β : Θ → [0, 1] definiert durch ∀ϑ ∈ Θ : β(ϑ) := Eϑ (ϕ) heißt Gütefunktion (power function) des Tests ϕ. Im Spezialfall ϕ = 1S (eines nichtrandomisierten Tests) gilt: β(ϑ) = Pϑ (S). Die Wahrscheinlichkeit für den Fehler erster Art ist (für ein beliebiges ϕ) Eϑ (ϕ), ϑ ∈ H, die Wahrscheinlichkeit für den Fehler zweiter Art ist 1 − Eϑ (ϕ) = Eϑ (1 − ϕ), ϑ ∈ K. Ein Test ϕ für H gegen K mit der Eigenschaft ∀ϑ ∈ H : Eϑ (ϕ) ≤ α (1.6.4) heißt Test zum Niveau α. Im Folgenden bezeichnen wir mit Φ die Gesamtheit aller Tests, d.h. Φ = {ϕ : X → [0, 1] : ϕ ist B, B-meßbar }. Definition 1.6.5. Es sei Φ1 ⊂ Φ. Ein Test ϕ∗ heißt gleichmäßig bester Test bzgl. Φ1 für H gegen K, falls ϕ ∗ ∈ Φ1 ∀ϑ ∈ K : Eϑ (ϕ∗ ) = sup Eϑ (ϕ) ϕ∈Φ1 22 (1.6.6) (1.6.7) Lemma 1.6.8. Es sei Φ1 ⊂ Φ2 ⊂ Φ und ϕ∗ ∈ Φ1 . Ist ϕ∗ ein gleichmäßig bester Test bzgl. Φ2 , dann ist ϕ∗ auch ein gleichmäßig bester Test bzgl. Φ1 . Beweis: ∀ϑ ∈ K : Eϑ (ϕ∗ ) = supϕ∈Φ2 Eϑ (ϕ) ≥ supϕ∈Φ1 Eϑ (ϕ) ≥ Eϑ (ϕ∗ ). 2 Für α ∈ (0, 1) sei Φα := {ϕ ∈ Φ : ∀ϑ ∈ H : Eϑ (ϕ) ≤ α} die Gesamtheit aller Tests zum Niveau α. Ein gleichmäßig bester Test bzgl. Φα heißt dann gleichmäßig bester Test zum Niveau α für H gegen K. Wir werden in Kapitel 2 sehen, dass ein gleichmäßig bester Test zum Niveau α bei vielen einseitigen Testproblemen H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 existiert, wobei Θ ⊂ R. Bei zweiseitigen Testproblemen H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 ist man hingegen häufig gezwungen Φα durch eine kleinere Klasse von Testfunktionen zu ersetzen. Dabei nimmt man zumeist die Klasse aller unverfälschten Tests zum Niveau α. Ein Test ϕ zum Niveau α für H gegen K heißt dabei unverfälscht, falls ∀ϑ ∈ K : Eϑ (ϕ) ≥ α (1.6.9) d.h. bei Verwendung von ϕ ist unter K die Entscheidung für K mindestens so wahrscheinlich wie unter der Hypotese H (∀ϑ ∈ H : Eϑ (ϕ) ≤ α). Ein gleichmäßig bester Test bzgl. Φuα := {ϕ ∈ Φα : ∀ϑ ∈ K : Eϑ (ϕ) ≥ α} heißt gleichmäßig bester unverfälschter Test zum Niveau α für H gegen K. Lemma 1.6.10. Jeder gleichmäßig beste Test ϕ∗ zum Niveau α ist unverfälscht und somit ein gleichmäßig bester unverfälschter Test zum Niveau α. Beweis: Wegen ϕα := α ∈ Φα gilt gem. (1.6.7, S. 22) ∀ϑ ∈ K : Eϑ (ϕ∗ ) = α. Wegen Φuα ⊂ Φα folgt die Behauptung somit aus Lemma 1.6.8. 2 Eine weitere Möglichkeit zur Auszeichnung optimaler Tests ist die Folgende: Gibt es keinen gleichmäßig besten (unverfälschten) Test zum Niveau α für H gegen K, so liegt es nahe, unter allen Tests zum Niveau α einen solchen zu bestimmen, der die maximale Wahrscheinlichkeit für den Fehler zweiter Art minimiert. Dies ist gleichbedeutend damit inf ϑ∈K Eϑ (ϕ) unter allen Tests ϕ ∈ Φα zu maximieren. 23 Definition 1.6.11. ϕ∗ ∈ Φα heißt Maximin-Test zum Niveau α für H gegen K :⇔ inf ϑ∈K Eϑ (ϕ∗ ) = supϕ∈Φα inf ϑ∈K Eϑ (ϕ). Offenbar ist jeder Maximin-Test zum Niveau α ein unverfälschter Test zum Niveau α. Im nächsten Kapitel werden wir sehen, dass ein optimaler nicht-randomisierter Test ϕ = 1S ∗ für das Problem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 mit ϑ, ϑ0 ∈ Θ ⊂ R häufig von der Form ist 1S ∗ = 1{T >c} , (1.6.12) wobei T eine Stichprobenfunktion ist und die Konstante c ∈ R durch die Forderungen ∀ϑ ∈ H : Pϑ (T > c) ≤ α, ∀ϑ ∈ K : Pϑ (T > c) = sup Pϑ (S) (1.6.13) S∈γα bestimmt wird. Dabei wird c möglichst klein gewählt, ohne dass die Fehlerwahrscheinlichkeit erster Art das Niveau α übersteigt. Diese Konstante c heißt dann kritischer Wert und die Stichprobenfunktion T : (X , B) → (R, B) heißt Prüfgröße bzw. Teststatistik für den Parameter ϑ. Suchen wir hingegen für dasselbe Entscheidungsproblem einen optimalen Test innerhalb der größeren Klasse der randomisierten Tests, d.h. suchen wir für das einseitige Testproblem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 einen gleichmäßig besten Test ϕ∗ zum Niveau α, so wird ϕ∗ häufig von der Form 1, falls T (x) > c γ, falls T (x) = c ϕ∗ (x) = (1.6.14) 0, falls T (x) < c mit γ ∈ [0, 1]. Randomisierte Entscheidungen werden nur auf der Menge {x ∈ X : T (x) = c} getroffen. Da diese Menge bei stetig verteiltem T die Wahrscheinlichkeit 0 besitzt, erhält man (optimale) randomisierte Tests vornehmlich im Fall diskreter Verteilungen. Die Gütefunktion des Tests (1.6.14) ist β(ϑ) = Eϑ (ϕ∗ ) = Pϑ (T > c) + γ Pϑ (T = c) ϑ ∈ Θ so dass aufgrund der Optimalitätskriterien (1.6.6) und (1.6.7) (mit Φ1 := Φα ) der kritische Wert c möglichst klein und nach dieser Festsetzung γ möglichst groß zu wählen ist, ohne dass das Niveau α überschritten wird. 24 Besteht nun unsere Verteilungsannahme aus diskreten Verteilungen Pϑ , etwa Binomial- oder Hypergeometrischen Verteilungen, so wird bei Verwenden des nicht randomisierten Tests (1.6.12), wobei c gemäß (1.6.13) festgelegt ist, das zugelassene Niveau α i.a. nicht erreicht. Bei Verwendung des randomisierten Tests (1.6.14) kann hingegen durch geeignete Wahl von c und γ das zugelassene Niveau α erreicht werden. Durch Zulassen randomisierter Tests erzielt man somit einen Gewinn an Schärfe (power), d.h. des Wertes der Gütefunktion auf der Alternative. 25 Kapitel 2 EXISTENZ OPTIMALER TESTS 2.1 Struktureigenschaften des Raumes Φ aller Testfunktionen Es seien µ, ν Maße auf dem Stichprobenraum (X , B). Das Maß ν heißt absolut stetig bzgl. µ, i.Z. ν µ :⇔ µ(B) = 0 ⇒ ν(B) = 0 , B ∈ B Wir sagen, dass eine Menge M von Maßen auf (X , B) durch µ dominiert wird, i.Z. M µ :⇔ ∀ν ∈ M : ν µ. Ist µ ein Maß auf B und f ∈ L1 (X , B, µ) = Z |h(x)|µ(dx) < ∞ h : (X , B) → (R, B) : X mit f ≥ 0, so wird durch die Festlegung Z Z ν(B) := f dµ := f · 1B dµ , B ⊂ B, B X ein endliches Maß ν auf B definiert mit ν µ. Definition 2.1.1. Ein Maß µ auf (X , B) heißt σ-endliches S Maß, wenn paarweise disjunkte X1 , X2 , · · · ∈ B existieren mit X = i∈N Xi , µ(Xi ) < ∞, i ∈ N. 26 Satz 2.1.2 (Radon-Nikodym). Es sei µ ein σ-endliches Maß auf (X , B) und ν/B sei ein endliches Maß mit ν µ. Dann existiert f ∈ L1 (X , B, µ), f ≥ 0, mit Z ν(B) = f dµ. (2.1.3) B Die Funktion f ist durch (2.1.3) µ–f.ü. eindeutig bestimmt, d.h. falls f1 ≥ 0, f2 ≥ 0 Funktionen sind mit (2.1.3), so gilt µ(f1 6= f2 ) = 0, und heißt ( Radondν oder auch dν = f dµ Nikodym) Dichte von ν bzgl. µ, i.Z. f ∈ dµ Beweis: Siehe etwa Bauer, H. (1992): Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie, De Gruyter, Berlin, Satz 17.10. 2 Lemma 2.1.4. Es sei µ, ν endliche Maße auf (X , B) mit der Eigenschaft dν ν(B) ≤ µ(B), B ∈ B. Dann existiert ein f ∈ dµ mit 0 ≤ f ≤ 1. Beweis: Offenbar gilt ν µ. Also existiert nach dem Satz von Radondν Nikodym f0 ∈ dµ . Setzte B0 := {f0 > 1}. Dann gilt Z Z 0 = ν(B0 ) − ν(B0 ) ≥ f0 dµ − µ(B0 ) = f0 − 1 dµ ≥ 0 B0 B0 Z ⇒ B0 f − 1 dµ = 0 | 0{z } >0 ⇒ µ(B0 ) = 0 Damit erfüllt f := f0 · 1B0C die Behauptung. 2 Definition 2.1.5. Es sei µ/B ein endliches Maß. Eine Menge B0 ∈ B heißt ein µ-Atom :⇔ µ(B0 ) > 0 und ∀B ∈ B mit B ⊂ B0 gilt µ(B) = 0 oder µ(B) = µ(B0 ). µ heißt atomlos, falls kein µ-Atom existiert. Satz 2.1.6 (Ljapunoff ). Es seinen µ1 , . . . , µn endliche atomlose Maße auf B. Dann ist die Menge C := {(µ1 (B), . . . , µn (B)) : B ∈ B} ⊂ Rn eine kompakte und konvexe Teilmenge des Rn . Beweis: J. Lindenstrauss (1966), Joural of Math. and Mech. (Indiana University Mathematics Journal) 15, 971–972. 2 27 Satz 2.1.7. Es sei µ/B ein σ-endliches Maß. Dann existiert zu jeder Folge (ϕn )n∈N ⊂ Φ eine Teilfolge (ϕnk )k∈N und ein Test ϕ0 ∈ Φ derart, dass Z Z ∀f ∈ L1 (X , B, µ) : lim ϕnk f dµ = ϕ0 f dµ (2.1.8) k→∞ i.z. ϕnk * ϕ0 bzgl µ. Man sagt auch, Φ sei schwach folgenkompakt, und man nennt eine Folge (ϕn )n∈N ⊂ Φ schwach konvergent gegen ϕ0 ∈ Φ, falls ϕn * ϕ0 bzgl. µ gilt. Beweis: Witting, H. (1985) Mathematische Statistik, Teubner, Satz 2.14 2 Bemerkung 2.1.9. Es sei µ/B ein endliches Maß, ϕn * ϕ0 bzgl. µ. Dann gilt Z Z ∀g ∈ Lb (X , B) : lim ϕn · g dµ = ϕ0 · g dµ n→∞ X X mit Lb (X , B) := {f : (X , B) → (R, B) : f ist beschränkt}. Im Folgenden bezeichne Φ0 := Menge aller nicht-randomisierten Test = {1B : B ∈ B} und Φ00 := Menge aller Tests mit endlichem Wertebereich = {ϕ ∈ Φ : |ϕ(X )| < ∞}. Offenbar sind Φ0 und Φ00 konvexe Mengen. Lemma 2.1.10. Es seien P1 , . . . , Pk Wahrscheinlichkeitsmaße auf B. Setze M := {(E1 (ϕ), . . . , Ek (ϕ)) : ϕ ∈ Φ} R mit Ei (ϕ) := EPi (ϕ) = X ϕ dPi , ϕ ∈ Φ, 1 ≤ i ≤ k. Dann gilt (i) M ⊂ [0, 1]k (ii) α ∈ [0, 1] : (α, . . . , α) ∈ M | {z } k−mal (iii) M ist konvex (iv) (α1 , . . . , αk ) ∈ M ⇒ (1 − α1 , . . . , 1 − αk ) ∈ M (v) M ist kompakt (vi) Ist (α1 , . . . , αk ) ein Extremalpunkt von M, so existiert ein ϕ0 ∈ Φ0 mit αi = Ei (ϕ0 ) für i = 1, . . . , k (vii) M = {(E1 (ϕ), . . . , Ek (ϕ)) : ϕ ∈ Φ00 } 28 (viii) Sind P1 , . . . Pk sämtlich atomlos, so gilt M = {(E1 (ϕ), . . . , Ek (ϕ)) : ϕ ∈ Φ0 } Bemerkung 2.1.11. Es sei L ein linearer Raum, K eine konvexe Teilmenge von L. Ein Punkt x0 ∈ L heißt Extremalpunkt von K, wenn aus x0 = λx+(1−λ)y und x, y ∈ K und 0 ≤ λ ≤ 1 folgt : x = y = x0 , d.h. wenn x0 kein innerer Punkt einer ganzen in K verlaufenden Strecke ist. Es gilt der Satz von Minkovski: M ⊂ Rn sei kompakt und konvex, dann ist M identisch mit der konvexen Hülle der Menge der Extremalpunkte, d.h. ( n ) n X X M = λi ei : λi ≥ 0, λi = 1, ei Extremalpunkt i=1 i=1 \ = A. A ist konvexe M enge, A ⊃ M enge der Extremalpunkte von M Beweis:[von 2.1.10] (i) Klar (ii) Setze ϕα := α ∈ Φ, α ∈ [0, 1] (iii) Es seien (α1 , . . . , αk ), (β1 , . . . , βk ) ∈ M , λ ∈ (0, 1) ⇒ ∃ϕ, ψ ∈ Φ : αi = Ei (ϕ), βi = Ei (ψ), 1 ≤ i ≤ k. Es gilt: λϕ + (1 − λ)ψ ∈ Φ ⇒ λ(α1 , . . . , αk ) + (1 − λ)(β1 , . . . , βk ) = (Ei (λϕ + (1 − λ)ψ)ki=1 ∈ M (iv) Ist offensichtlich, da ϕ ∈ Φ ⇒ 1 − ϕ ∈ Φ (v) Wir zeigen dass M folgenkompakt ist, d.h. jede Folge in M besitzt eine konvergente Teilfolge, deren Limes wiederum in M liegt. Dann ist M kompakt. (n) (n) Für n ∈ N sei (α1 , . . . , αk ) ∈ M , d.h. es existiert eine Folge (ϕn )n∈N ⊂ (n) Φ mit αi = Ei (ϕn ), 1 ≤ i ≤ k, n ∈ N. Setze µ := k X Pi i=1 [d.h. µ(B) = P1 (B) + · · · + Pk (B) für B ∈ B]. 2.1.7 ⇒ µ ist endlichesR Maß auf B R⇒ ∃ Teilfolge (ϕnj )j∈N von (ϕn )n∈N und ∃ϕ0 ∈ Φ : limj∈N ϕnj g dµ = ϕ0 g dµ, g ∈ Lb (X , B). 2.1.4 Offenbar gilt Pi ≤ µ, 1 ≤ i ≤ k ⇒ ∃gi ∈ dPi /dµ mit 0 ≤ gi ≤ 1, 1 ≤ i ≤ k. Es gilt also Z Z lim Ei (ϕnj ) = lim ϕnj gi dµ = ϕ0 gi dµ = Ei (ϕ0 ) j∈N j∈N 29 1 ≤ i ≤ k, d.h. (nj ) lim(α1 j∈N (n ) (0) (0) , . . . , αk j ) = (α1 , . . . , αk ) := (E1 (ϕ(0) ), . . . , Ek (ϕ(0) )) ∈ M Also ist M ⊂ Rk folgenkompakt. (vi) Es sei (α1 , . . . , αk ) ein Extremalpunkt von M . ⇒ ∃ϕ ∈ Φ mit αi = Ei (ϕ), 1 ≤ i ≤ k. Setze für ∈ (0, 1/2) A := {x ∈ X : ≤ ϕ(x) ≤ 1 − }, ϕ0 := ϕ − · 1A ϕ00 := ϕ + · 1A Dann gilt A ∈ B; ϕ0 , ϕ00 ∈ Φ und ϕ = 12 · ϕ0 + 12 · ϕ00 . ⇒ αi = Ei (ϕ) = 12 Ei (ϕ0 ) + 12 Ei (ϕ00 ), 1 ≤ i ≤ k, d.h. 1 1 (α1 , . . . , αk ) = (E1 (ϕ0 ), . . . , Ek (ϕ0 )) + (E1 (ϕ00 ), . . . , Ek (ϕ00 )). 2 2 Da (α1 , . . . , αk ) Extremalpunkt ist folgt αi = Ei (ϕ) = Ei (ϕ0 ) = Ei (ϕ00 ) ⇒ S Pi (A ) = 0 für 1 ≤ i ≤ k. Da {x ∈ X : 0 ≤ ϕ(x) ≤ 1} = ∈(0,1)∩Q A folgt Pi (0 < ϕ < 1) = 0 für 1 ≤ i ≤ k. Für ϕ0 := 1{ϕ=1} gilt daher αi = Ei (ϕ) = Ei (ϕ · 1{ϕ>0} ) = Ei (ϕ · 1{ϕ=1} ) = Ei (1{ϕ=1} ) = Ei (ϕ0 ) für 1 ≤ i ≤ k. (vii) Da M konvex und kompakt ist, ist M identisch mit der konvexen Hülle (vi) seiner Extremalpunkte P (Satz von Minkovski). Sei (α1 , . . . , αk ) ∈ M ⇒ ∃c1 , . . . cn ∈ [0, 1], ni=1 ci = 1, ∃B1 , . . . , Bn ∈ B: (α1 , . . . , αk ) = n X cj (P1 (Bj ), . . . Pk (Bj )) = (E1 (ϕ), . . . , Ek (ϕ)) j=1 mit ϕ := Pn j=1 cj · 1Bj ∈ Φ00 . (viii) Wir setzen den Beweisteil (vii) fort. Sind P1 , . . . , Pk atomlos, so existiert nach 2.1.6 ein B ∈ B mit n X cj (P1 (Bj ), . . . , Pk (Bj )) = (P1 (B), . . . , Pk (B)) j=1 d.h. (α1 , . . . , αk ) = (E1 (1B ), . . . , Ek (1B )). 2 30 Bemerkung 2.1.12. Ohne die Voraussetzung der Atomlosigkeit von Pi , 1 ≤ i ≤ k ist (viii) i.a. nicht richtig. Satz 2.1.13. Es sei P = {Pϑ : ϑ ∈ Θ} eine beliebige Familie von Wahrscheinlicheitsmaßen auf (X , B) mit P µ, µ ein σ-endliches Maß. Dann existiert eine abzählbare Teilfamilie {Pϑn : n ∈ N} von P, so dass P P̂ := P −n P ϑn . n∈N 2 Beweis: O.B.d.A. sei |Θ| = S∞. Da µ σ-endlich ist, existieren Bn ∈ B, n ∈ N, mit Bn ∩ Bm = ∅, n 6= m, n∈N Bn = X und µ(Bn ) < ∞. Setze für B ∈ B X 1 µ(B ∩ Bn ) ν(B) := 2n µ(Bn ) n∈N 0 wobei N0 = {n ∈ N : µ(Bn ) > 0}. Dann ist ν ein endliches Maß auf (X , B) mit P ν. Denn: ν(B) = 0 ⇒ µ(B ∩ Bn ) = 0, n ∈ N [ B = µ B ∩ n n∈N | {z } =X ! [ =µ (B ∩ Bn ) ⇒ µ(B) n∈N = X µ(B ∩ Bn ) = 0 n∈N ⇒ ∀ϑ ∈ Θ : Pϑ (B) = 0. Es sei für ϑ ∈ Θ nun fϑ ∈ dPϑ /dν (Satz von Radon-Nikodym), ferner sei C1 := {B ∈ B : ∃ϑ ∈ Θ : B ⊂ {fϑ > 0}} sowie C2 := Gesamtheit aller abzählbaren Vereinigungen von Mengen aus C1 . Setze ρ := sup ν(C) < ∞ C∈C2 und S wähle Folge (Cn )n∈N ⊂ C2 mit limn∈N ν(Cn ) = ρ. Dann ist C0 := ≤ ν(C0 ), n ∈ N. Da C0 ∈ C2 , n∈N Cn ∈ C2 mit ν(C0 ) = ρ, denn ν(Cn ) S existiert eine Folge (Dn )n∈N ⊂ C1 mit C0 = n∈N Dn . Somit: ∀n ∈ N ∃ϑn ∈ Θ : Dn ⊂ {fϑn > 0}. Dann gilt: ∀ϑ ∈ Θ, ∀B ∈ B : Pϑ (B) = Pϑ (B ∩ C0 ∩ {fϑ > 0}) 31 (2.1.14) Denn: Pϑ (B) = Pϑ (B ∩ {fϑ = 0}) + Pϑ (B ∩ {fϑ > 0}) = Pϑ (B ∩ {fϑ = 0}) + Pϑ (B ∩ {fϑ > 0} ∩ C0 ) +Pϑ (B ∩ {fϑ > 0} ∩ C0c ), wobei Z Pϑ (B ∩ {fϑ = 0}) = fϑ dν = 0. B∩{fϑ =0} Pϑ (B ∩ {fϑ > 0} ∩ C0c ) Zu zeigen bleibt also, dass wäre nicht der Fall, d.h. es gelte = 0 ist. Angenommen, dies Pϑ (B ∩ {fϑ > 0} ∩ C0c ) > 0 ⇒ ν(B ∩ {fϑ > 0} ∩ C0c ) > 0 und damit ν ( C0 ∪(B ∩ {fϑ > 0} ∩ C0c )) = ν(C0 ) + ν(B ∩ {fϑ > 0} ∩ C0c ) > ν(C0 ) = ρ, |{z} | {z } ∈C2 | ∈C1 {z ∈C2 } d.h. wir haben einen Widerspruch zur Definition von ρ. Also gilt 2.1.14. Ferner gilt Pϑn (B) = 0 ⇒ ∀ϑ ∈ Θ : ν(B ∩ {fϑ > 0} ∩ {fϑn > 0}) = 0. (2.1.15) Denn: 0 = Pϑn (B) ≥ Pϑn (B ∩ {fϑ > 0} ∩ {fϑn > 0}) Z fϑn dν ≥ 0. = B∩{fϑ >0}∩{fϑn >0} Da auf dem Integrationsbereich der Integrand fϑn strikt positiv ist, das Integral aber gleich 0 ist, muss ν(B ∩ {fϑ > 0} ∩ {fϑn > 0}) = 0 gelten. Es sei nun P̂ (B) = 0. Zu zeigen ist ∀ϑ ∈ Θ Pϑ (B) = 0. Da P̂ (B) = 0 ⇒ ∀n ∈ N Pϑn (B) = 0 ! ⇒ ∀ϑ ∈ Θ : ν(B ∩ C0 ∩ {fϑ > 0}) = ν B ∩ {fϑ > 0} ∩ [ Dn n∈N ! = ν [ (B ∩ {fϑ > 0} ∩ Dn ) n∈N ≤ X ≤ X n∈N n∈N 2.1.15 = 32 0. ν B ∩ {fϑ > 0} ∩ Dn |{z} ⊂{fϑn >0} ν (B ∩ {fϑ > 0} ∩ {fϑn > 0}) Also gilt ∀ϑ ∈ Θ : ν(B ∩ C0 ∩ {fϑ > 0}) = 0 und damit auch ∀ϑ ∈ Θ : Pϑ (B ∩ C0 ∩ {fϑ > 0}) = 0, da ∀ϑ ∈ Θ Pϑ ν. Die Behauptung folgt nun aus (2.1.14). 2 Satz 2.1.16. Es sei P = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) mit P µ, µ σ-endliches Maß auf (X , B). Es sei P = H ∪ K, H ∩ K = ∅, H, K 6= ∅. Dann existiert ein Maximin-Test zum Niveau α für H gegen K. Beweis: Setze s := sup inf Eϑ (ϕ). ϕ∈Φα ϑ∈K Es existiert eine Folge (ϕn )n∈N ⊂ Φα mit limn∈N inf ϑ∈K Eϑ (ϕn ) = s. Aufgrund von Satz 2.1.7 existieren eine Teilfolge (ϕnk )k∈N und ϕ∗ ∈ Φ mit der Eigenschaft Z Z ∀f ∈ L1 (X , B, µ) : lim ϕnk · f dµ = ϕ∗ · f dµ. k∈N Hieraus folgt speziell für f = fϑ ∈ dPϑ /dµ, ϑ ∈ Θ: Z Z lim ϕnk · f dµ = lim ϕnk dPϑ k∈N k∈N = lim Eϑ (ϕnk ) k∈N = Eϑ (ϕ∗ ). Für ϑ ∈ H folgt hieraus, dass ϕ∗ ∈ Φα . Andererseits gilt wegen lim inf Eϑ (ϕn ) = s n∈N ϑ∈K auch s = lim inf Eϑ (ϕnk ) ≤ lim Eϑ (ϕnk ) = Eϑ (ϕ∗ ), ϑ ∈ K k∈N ϑ∈K k∈N d.h. inf Eϑ (ϕ∗ ) ≥ s. ϑ∈K Nach Definition von s und wegen ϕ∗ ∈ Φα gilt aber auch inf ϑ∈K Eϑ (ϕ∗ ) ≤ s. Also gilt inf Eϑ (ϕ∗ ) = sup inf Eϑ (ϕ), ϕ∗ ∈ Φα , ϑ∈K ϕ∈Φα ϑ∈K d.h. ϕ∗ ist ein Maximin-Test zum Niveau α. 2 Im folgenden werden wir mittels Satz 2.1.7 für den Fall einer einfachen Alternative K, d.h. |K| = 1, die Existenz bester Tests bzgl. gewisser Teilmengen Φ̃ von Φ nachweisen. 33 Wir setzen im Folgenden voraus: Die Verteilungsannahme ist P = {Pϑ : ϑ ∈ Θ}, ϑ1 ∈ Θ ist fest gewählt, K := {ϑ1 }, H := Θ\{ϑ1 }. Wir setzen Φ̃ := {ϕ ∈ Φ : ∀ϑ ∈ H : Eϑ (ϕ) ∈ Fϑ }, (2.1.17) wobei Fϑ für jedes ϕ ∈ H eine abgeschlossene Teilmenge von [0, 1] ist. Beispiel 2.1.18. Es sei α ∈ [0, 1]. (i) Fϑ := [0, α], ϑ ∈ H ⇒ Φ̃ = Φα (ii) Fϑ := {α}, ϑ ∈ H ⇒ Φ̃ = {ϕ ∈ Φ : Eϑ (ϕ) = α, ϑ ∈ H}. Satz 2.1.19. Es gelte P µ, wobei µ ein σ-endliches Maß auf (X , B) ist. Dann existiert ein bester Test bzgl. der durch 2.1.17 definierten Klasse Φ̃ für H = Θ\{ϑ1 } gegen K = {ϑ1 }. Insbesondere gibt es aber einen besten Test zum Niveau α für H gegen K. Beweis: Setze s := sup Eϑ1 (ϕ) ⇒ ∃ Folge(ϕn )n∈N ⊂ Φ̃ : s = lim Eϑ1 (ϕn ). n∈N ϕ∈Φ̃ Mit Satz 2.1.7 folgt ∃ Teilfolge(ϕnk )k∈N ⊂ (ϕn )n∈N ∃ϕ∗ ∈ Φ : ∀f ∈ L1 (X , B, µ) : Z Z lim ϕnk f dµ = ϕ∗ f dµ. k∈N Speziell für f = fϑ ∈ dPϑ /dµ, ϑ ∈ Θ, folgt: lim Eϑ (ϕnk ) = Eϑ (ϕ∗ ), k∈N insbesondere also Eϑ1 (ϕ∗ ) = limk∈N Eϑ1 (ϕnk ) = s. Da Fϑ abgeschlossen ist für ϑ ∈ H, folgt auch Eϑ (ϕ∗ ) ∈ Fϑ , ϑ ∈ H, d.h. ϕ∗ ∈ Φ̃. 2 34 2.2 Das Fundamentallemma von Neyman-Pearson In diesem Abschnitt betrachten wir die binäre Verteilungsannahme P = {Pϑ0 , Pϑ1 }, d.h. Θ = {ϑ0 , ϑ1 }. Nach Satz 2.1.19 existiert für das Testproblem H = {ϑ0 } gegen K = {ϑ1 } stets ein Test zum Niveau α; man beachte, dass P µ = Pϑ0 + Pϑ1 . Ziel dieses Abschnitts ist es, solche besten Tests zu konstruieren. Im Folgenden sei µ ein P dominierendes endliches Maß und pi ∈ dPϑi /dµ, i = 0, 1. Definition 2.2.1. (i) ϕ∗ ∈ Φ heißt trennscharf für (Pϑ0 , Pϑ1 ), wenn ϕ∗ bester Test zum Niveau α∗ := Eϑ0 (ϕ∗ ) für H = {ϑ0 } gegen K = {ϑ1 } ist [most powerful]. Äquivalent: ∀ϕ ∈ Φ : Falls Eϑ0 (ϕ) ≤ Eϑ0 (ϕ∗ ) ⇒ Eϑ1 (ϕ) ≤ Eϑ1 (ϕ∗ ) (ii) ϕ∗ ∈ Φ heißt eigentlich trennscharf für (Pϑ0 , Pϑ1 ), wenn für alle ϕ ∈ Φ gilt: Falls Eϑ0 (ϕ) ≤ Eϑ0 (ϕ∗ ) und Eϑ1 (ϕ) ≥ Eϑ1 (ϕ∗ ) ⇒ Eϑi (ϕ) = Eϑi (ϕ∗ ), i = 0, 1. Bemerkung 2.2.2. ϕ∗ eigentlich trennscharf für (Pϑ0 , Pϑ1 ) ⇒ ϕ∗ trennscharf für (Pϑ0 , Pϑ1 ). Definition 2.2.3. ϕ∗ ∈ Φ heißt Test vom Neyman-Pearson Typ für (Pϑ0 , Pϑ1 ) :⇔ ∃γ ∈ [0, ∞) : 1, falls p1 (x) > γp0 (x) ∗ ϕ (x) = x ∈ X. (2.2.4) 0, falls p1 (x) < γp0 (x) Lemma 2.2.5 (Neyman-Pearson, Teil 1). ∀α ∈ (0, 1] ∃ϕ∗ ∈ Φ vom NP-Typ für (Pϑ0 , Pϑ1 ) mit Eϑ0 (ϕ∗ ) = α. Beweis: Setze für γ ∈ [0, ∞) die Menge Xγ := {p1 > γp0 } und t(γ) := Pϑ0 (Xγ ). Die Abbildung t : [0, ∞) → [0, 1] ist monoton fallend und rechtsseitig stetig, denn: γ1 ≤ γ2 ⇒ Xγ1 ≥ Xγ2 ⇒ t(γ1 ) ≥ t(γ2 ), n∈N γn ↓ γ0 ⇒ Xγ0 = [ n∈N Xγn ⇒ t(γ0 ) = lim t(γn ) n∈N |{z} ↑ in n (aufsteigende Stetigkeit eines Wahrscheinlichkeitsmaßes). 35 Sei nun γα := inf{γ ∈ [0, ∞) : t(γ) ≤ α}. Beachte, dass {γ ∈ [0, ∞) : t(γ) ≤ α} = 6 ∅; denn angenommen diese Menge wäre leer. Dann folgte für beliebiges n ∈ N mit γ = n, dass 0 < α < Pϑ0 (p1 > np0 ) = Pϑ0 (p0 > 0 und p1 /p0 > n) + Pϑ0 (p0 = 0 und p1 > np0 ) {z } | =0 = Pϑ0 (p0 > 0 und p1 /p0 > n). n∈N Andererseits gilt aber {p0 > 0 und p1 /p0 > n} ↓ ∅ ⇒ limn∈N Pϑ0 (p0 > 0 und p1 /p0 > n) = 0, (absteigende Stetigkeit eines Wahrscheinlichkeitsmaßes), Widerspruch. Es folgt t(γα ) ≤ α ≤ t(γα − 0) := lim↓0 t(γα − ), wobei t(0 − 0) := 1 gesetzt wird. Setzte nun für ein beliebiges x ∈ X falls p1 (x) > γα p0 (x) 1, α−t(γα ) ∗ δα := t(γα −0)−t(γα ) , falls p1 (x) = γα p0 (x) ϕ (x) := 0, falls p1 (x) < γα p0 (x) Wobei δα := 0 gesetzt wird falls t(γα − 0) = t(γα ) (= α). Dann ist ϕ∗ ein Test vom NP1 -Typ und es gilt Eϑ0 (ϕ∗ ) = = = = Pϑ0 (Xγα ) + δα Pϑ0 (p1 = γα p0 ) t(γα ) + δα (Pϑ0 (p1 ≥ γα p0 ) − Pϑ0 (p1 > γα p0 )) t(γα ) + δα (t(γα − 0) − t(γα )) α. 2 Lemma 2.2.6 (Neyman-Pearson, Teil 2). Es gilt: (i) Jeder Test ϕ∗ von NP-Typ für (Pϑ0 , Pϑ1 ) ist trennscharf. (ii) Ist nun entweder die in der Darstellung 2.2.4 auftretende Konstante γ positiv oder ist im Fall von γ = 0 ϕ∗ von der speziellen Form 1, falls p1 (x) > 0 ∗ ϕ (x) = (2.2.7) 0, falls p1 (x) = 0, p0 (x) > 0 dann ist ϕ∗ sogar eigentlich trennscharf. 1 NP = Neyman-Pearson 36 Beweis: ∀ϕ ∈ Φ: (ϕ∗ − ϕ) · (p1 − γp0 ) ≥ 0 Z ⇒ (ϕ∗ − ϕ) · (p1 − γp0 ) dµ ≥ 0 Z Z Z Z ∗ ∗ ⇒ ϕ p1 dµ − ϕp1 dµ ≥ γ · ϕ p0 dµ − ϕp0 dµ d.h. aus der Definition von p0 und p1 folgt, dass Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ) ≥ γ · (Eϑ0 (ϕ∗ ) − Eϑ0 (ϕ)) {z } |{z} | {z } | ≥0 ⇐ ≥0 (2.2.8) ≥0 ⇒ (i) Zu (ii): Es sei nun ϕ ∈ Φ gegeben mit Eϑ0 (ϕ) ≤ Eϑ0 (ϕ∗ ) und Eϑ1 (ϕ) ≥ Eϑ1 (ϕ∗ ). Es folgt wegen 2.2.8 0 ≥ Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ) ≥ γ · (Eϑ0 (ϕ∗ ) − Eϑ0 (ϕ)) ≥ 0 ⇒ Eϑ1 (ϕ∗ ) = Eϑ1 (ϕ) und außerdem Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ) im Fall γ > 0. Zu zeigen bleibt also Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ) falls ϕ∗ von der Form 2.2.7 ist. Wegen Eϑ1 (ϕ) = Eϑ1 (ϕ∗ ) gilt: 0 = Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ) Z = (ϕ∗ − ϕ)p1 dµ Z Z ∗ = (ϕ − ϕ)p1 dµ + (ϕ∗ − ϕ)p1 dµ {p >0} {p1 =0} Z 1 = (1 − ϕ)p1 dµ {p1 >0} Z = (1 − ϕ)p1 dµ {p1 >0}∩{1−ϕ>0} Pϑ µ 0 ⇒ µ({p1 > 0} ∩ {1 − ϕ > 0}) = 0 ⇒ Pϑ0 ({p1 > 0} ∩ {1 − ϕ > 0}) = 0 Hieraus folgt nun Pϑ0 (ϕ∗ > ϕ) = Pϑ0 ({p1 > 0} ∩ {ϕ∗ > ϕ}) + Pϑ0 ({p1 = 0} ∩ {ϕ∗ > ϕ}) = Pϑ0 ({p1 > 0} ∩ {1 − ϕ > 0}) = 0, denn Pϑ0 ({p1 = 0} ∩ {ϕ∗ > ϕ}) = Pϑ0 ({p1 = 0} ∩ {ϕ∗ > ϕ} ∩ {p0 = 0}) +P ({p = 0} ∩ {ϕ∗ > ϕ} ∩ {p0 > 0}) Z ϑ0 1 p0 dµ = 0. = {p1 =0}∩{ϕ∗ >ϕ}∩{p0 =0} 37 Wir erhalten also ϕ∗ ≤ ϕ Pϑ0 -f.ü. ⇒ Eϑ0 (ϕ∗ ) ≤ Eϑ0 (ϕ) ⇒ Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ), denn Eϑ0 (ϕ∗ ) ≥ Eϑ0 (ϕ) war vorausgesetzt. 2 Lemma 2.2.9 (Neyman-Pearson, Teil 3). Es gilt: (i) Jeder für (Pϑ0 , Pϑ1 ) trennscharfe Test ϕ0 mit Eϑ0 (ϕ0 ) > 0 ist µ-f.ü. vom NP-Typ für (Pϑ0 , Pϑ1 ). (ii) Ist ϕ0 darüber hinaus eigentlich trennscharf für (Pϑ0 , Pϑ1 ), so ist γ > 0 oder ϕ0 ist µ-f.ü. von der Form 2.2.7 auf Seite 36. Beweis: Es sei ϕ0 ∈ Φ trennscharf für (Pϑ0 , Pϑ1 ) mit Eϑ0 (ϕ0 ) > 0. Nach Lemma 2.2.5 existiert ein Test ϕ∗ vom NP-Typ mit Eϑ0 (ϕ∗ ) = Eϑ0 (ϕ0 ). Nach Lemma 2.2.6 (i) ist ϕ∗ ebenfalls trennscharf für (Pϑ0 , Pϑ1 ), d.h. Eϑ1 (ϕ∗ ) = Eϑ1 (ϕ0 ). Da (ϕ∗ − ϕ0 )(p1 − γp0 ) ≥ 0 und Z Z Z ∗ ∗ (ϕ − ϕ0 )(p1 − γp0 ) dµ = ϕ p1 dµ − ϕ0 p1 dµ − Z Z ∗ ϕ p0 dµ − ϕ0 p0 dµ γ = Eϑ1 (ϕ∗ ) − Eϑ1 (ϕ0 ) − γ (Eϑ0 (ϕ∗ ) − Eϑ0 (ϕ0 )) = 0 ⇒ (ϕ∗ − ϕ0 )(p1 − γp0 ) = 0 µ-f.ü., d.h. µ-f.ü. gilt p1 (x) > γ · p0 (x) ⇒ ϕ0 (x) = ϕ∗ (x) = 1 p1 (x) < γ · p0 (x) ⇒ ϕ0 (x) = ϕ∗ (x) = 0 Also ist ϕ0 µ-f.ü. vom NP-Typ für (Pϑ0 , Pϑ1 ). Zu (ii): Es ist zu zeigen, dass im Fall γ = 0 ϕ0 µ-f.ü. die Form besitzt: 1, p1 (x) > 0 ϕ0 (x) = 0, p1 (x) = 0, p0 (x) > 0 Da ϕ0 wegen (i) µ-f.ü. vom NP-Typ mit γ = 0 ist, gilt für µ-f.a. x ∈ X : p1 (x) > 0 ⇒ ϕ0 (x) = 1. Sei nun ϕ∗ := 1{p1 >0} und M := {p0 > 0, p1 = 0}; es bleibt zu zeigen, dass ϕ0 /M = 0 µ-f.ü.. Angenommen, dies sei nicht der Fall, d.h. µ({ϕ0 > 0} ∩ M ) > 0. 38 Es folgt Z Z ∗ p0 dµ = Eϑ0 (ϕ ) = {p1 >0} p0 dµ {p1 >0,p0 >0} Z ϕ0 p0 dµ = {p0 >0,p1 >0} Z Z ϕ0 p0 dµ + < {p0 >0,p1 >0} ϕ0 p0 dµ {p0 >0,p1 =0}=M Z ϕ0 p0 dµ = Eϑ0 (ϕ0 ) = {p0 >0} Andererseits gilt aber Z Eϑ1 (ϕ0 ) = Z ϕ0 p1 dµ = Z ϕ0 p1 dµ = {p1 >0} p1 dµ {p1 >0} = Eϑ1 (ϕ∗ ) Damit erhalten wir einen Widerspruch zur eigentlichen Trennschärfe von ϕ0 , wonach aus Eϑ0 (ϕ∗ ) ≤ Eϑ0 (ϕ0 ) und Eϑ1 (ϕ∗ ) ≥ Eϑ1 (ϕ0 ) eigentlich Eϑi (ϕ∗ ) = Eϑi (ϕ0 ) i = 0, 1 folgen müsste. 2 Korollar 2.2.10. Es sei ϕ0 ein bester Test zum Niveau α ∈ (0, 1) für H = {ϑ0 } gegen K = {ϑ1 }. Falls Pϑ0 6= Pϑ1 , so gilt Eϑ1 (ϕ0 ) > α. 2.3 Das verallgemeinerte Fundamentallemma von Neyman-Pearson In diesem Abschnitt untersuchen wir die Frage nach der Existenz bester Tests im Fall einer zusammengesetzten Hypothese H = {ϑ1 , . . . , ϑk } gegen eine einfache Alternative K = {ϑk+1 }, ϑk+1 6= ϑi , 1 ≤ i ≤ k, k ∈ N. Ferner sei µ ein endliches Maß auf (X , B) mit {Pϑ1 , . . . , Pϑk+1 } µ, etwa µ := Pϑ1 + · · · + Pϑk+1 , sowie pi ∈ dPϑi /dµ, i = 1,2, . . . , k+1. Schließlich seinen α(k) := (α1 , . . . , αk ) ∈ (0, 1)k . Wir betrachten folgende zwei Teilklassen von Φ: Φ̃α(k) := {ϕ ∈ Φ : Eϑi (ϕ) = αi , 1 ≤ i ≤ k} = 6 ∅ (dies sei vorausgesetzt) Φα(k) := {ϕ ∈ Φ : Eϑi (ϕ) ≤ αi , 1 ≤ i ≤ k} = 6 ∅ 39 Definition 2.3.1. Ein Test ϕ∗ heißt vom NP-Typ für (H, K), falls γ1 , . . . , γk ∈ R existieren mit P 1, falls pk+1 (x) > ki=1 γi pi (x) ∗ P ϕ (x) = x ∈ X. (2.3.2) 0, falls pk+1 (x) < ki=1 γi pi (x) Satz 2.3.3 (Verallgemeinertes Fundamentallemma von Neyman-Peason). Es gilt: (i) Es existiert stets ein bzgl. Φ̃α(k) bester Test für H gegen K. (ii) Ist ϕ̃ ∈ Φ̃α(k) µ-f.ü. vom NP-Typ für (H, K), so ist ϕ̃ bester Test bzgl. Φ̃α(k) für H gegen K. (iii) Ist α(k) ein innerer Punkt der Menge M (k) := {(Eϑ1 (ϕ), . . . , Eϑk (ϕ)) : ϕ ∈ Φ}, so ist ein bzgl. Φ̃α(k) bester Test für H gegen K µ-f.ü. vom NP-Typ für (H, K). Beweis: Behauptung (i) folgt unmittelbar aus Satz 2.1.19 auf Seite 34 mit Fϑi = {αi }, 1 ≤ i ≤ k. Zu (ii): Zu zeigen ist Eϑk+1 (ϕ̃) = sup Eϑk+1 (ϕ) ϕ∈Φ̃α(k) Sei dann ϕ ∈ Φ̃α(k) beliebig vorgegeben. Da ϕ̃ µ-f.ü. vom NP-Typ ist, existieren γ1 , . . . , γk ∈ R, sodass µ-f.ü. gilt: (ϕ̃ − ϕ) · pk+1 − k X ! ≥0 γi pi i=1 Z ⇒ Z ϕ̃pk+1 dµ − ϕpk+1 dµ ≥ k X Z γi Z ϕ̃pi dµ − i=1 ⇒ Eϑk+1 (ϕ̃) − Eϑk+1 (ϕ) ≥ k X γi (Eϑi (ϕ̃) − Eϑi (ϕ)) i=1 = k X γi (αi − αi ) i=1 =0 ⇒ Eϑk+1 (ϕ̃) ≥ Eϑk+1 (ϕ) 40 ϕpi dµ Zu (iii): Es sei ϕ̃ ein bester Test bzgl. Φ̃α(k) für H gegen K. Setze M (k+1) := {(Eϑ1 (ϕ), . . . , Eϑk+1 (ϕ)) : ϕ ∈ Φ}, I := {α ∈ [0, 1] : (α1 , . . . , αk , α) ∈ M (k+1) }. Es ist I 6= ∅, da z.B. Eϑk+1 (ϕ̃) ∈ I. Annahme: I enthalte wenigstens zwei Elemente. Da nach Lemma 2.1.10 M (k+1) kompakt und daher abgeschlossen ist, ist auch I ⊂ [0, 1] abgeschlossen und daher kompakt. Also existiert αk+1 := max{α : α ∈ I} ∈ I. Da ϕ̃ bester Test bzgl. Φ̃α(k) ist, folgt, Eϑk+1 (ϕ̃) = αk+1 und α(k+1) := (α1 , . . . , αk , αk+1 ) ∈ ∂M (k+1) = topologischer Rand von M (k+1) . Da M (k+1) nach Lemma 2.1.10 außerdem konvex ist, existiert eine durch α(k+1) gehende Hyperebene H, so das M (k+1) ganz auf einer Seite dieser Hyperebene liegt, d.h. ( ) k+1 X α(k+1) ∈ H := (t1 , . . . , tk+1 ) ∈ Rk+1 : γi (ti − αi ) = 0 i=1 für gewisse reelle Zahlen γ1 , . . . , γk+1 und ∀(β1 , . . . , βk+1 ) ∈ M (k+1) : k+1 X γi (βi − αi ) ≥ 0 i=1 (Satz von der Existenz einer Stützhyperebene). Pk Dann ist γk+1 6= 0. Denn andernfalls wäre i=1 γi (βi − αi ) ≥ 0 für alle (k) (k) (β1 , . . . , βk ) ∈ M , d.h. P M liegt ganz auf einer Seite der Hyperebene H0 := {(t1 , . . . , tk ) ∈ Rk : ki=1 γi (ti − αi ) = 0}. Andererseits ist α(k) ∈ H0 und daher α(k) ∈ ∂M (k) im Widerspruch dazu, dass α(k) immer ein innerer Punkt von M (k) ist. Also folgt γk+1 6= 0. Da nun für α ∈ I gilt: (α1 , . . . , αk , α) ∈ M (k+1) und somit 0≤ k X i=1 γi (αi − αi ) + γk+1 (α − αk+1 ) = γk+1 (α − αk+1 ), |{z} | {z } 6=0 folgt γk+1 < 0 (αk+1 ist maximales Element in I). 41 <0 o.E. sei γk+1 = −1. Es folgt: ∀ϕ ∈ Φ : (Eϑ1 (ϕ), . . . , Eϑk+1 (ϕ)) ∈ M (k+1) ⇒ k+1 X γi (Eϑi (ϕ) − αi ) ≥ 0 i=1 ⇒ Eϑk+1 (ϕ) − k X γi Eϑi (ϕ) ≤ αk+1 − i=1 Z ⇒ ϕ· pk+1 − = Eϑk+1 (ϕ̃) − k X γi αi i=1 k X ! dµ ≤ αk+1 − γi pi i=1 k X k X γi αi i=1 γi Eϑi (ϕ̃) i=1 Z = ϕ̃ pk+1 − k X ! γi pi dµ. i=1 P Setzen wir zur Abkürzung h := pk+1 − ki=1 γi pi und ϕ∗ := 1{h>0} , so haben wir gezeigt, dass für alle ϕ ∈ Φ gilt Z Z ϕ · h dµ ≤ ϕ̃ · h dµ Da außerdem Z Z ϕ∗ · h dµ, Z ϕ∗ · h dµ ϕ · h dµ ≤ folgt Z ϕ̃ · h dµ = bzw. Z (ϕ∗ − ϕ̃) · h dµ = 0 {z } | ≥0 ⇒ (ϕ∗ − ϕ̃) · h = 0 µ-f.ü., d.h. ϕ̃ ist µ-f.ü. vom NP-Typ. 2 Lemma 2.3.4. Ist ϕ∗ ∈ Φ̃α(k) vom NP-Typ für (H, K) wobei γi ≥ 0, 1 ≤ i ≤ k, so ist ϕ∗ sogar bester Test bzgl. der größeren Klasse Φα(k) für H gegen K. Beweis: Zu zeigen ist Eϑk+1 (ϕ∗ ) = supϕ∈Φ (k) Eϑk+1 (ϕ). Es sei also ϕ ∈ Φα(k) α beliebig. Nach Voraussetzung existieren γi ≥ 0, 1 ≤ i ≤ k, so dass ! k X γi pi ≥ 0. (ϕ∗ − ϕ) pk+1 − i=1 42 Analog zum Beweis von Satz 2.3.3 (ii) folgt k X Eϑk+1 (ϕ∗ ) − Eϑk+1 (ϕ) ≥ γi Eϑi (ϕ∗ ) − Eϑi (ϕ) ≥ 0 | {z } | {z } i=1 =αi ≤αi und daraus die Behauptung. 2 Definition 2.3.5. Wahrscheinlichkeitsmaße P1 , . . . , Pk auf (X , B) heißen linear unabhängig :⇔ ∀B ∈ B : k X γi Pi (B) = 0 ⇒ γi = 0, 1 ≤ i ≤ k. i=1 Bemerkung 2.3.6. Es seien P1 , . . . , Pk Wahrscheinlichkeitsmaße auf (X , B), µ/B ein endliches Maß mit {P1 , . . . , Pk } µ und pi ∈ dPi /dµi , 1 ≤ i ≤ k. Dann gilt: P1 , . . . , Pk sind linear unabhängig " k # X ⇔ γi pi = 0 µ-f.ü. ⇒ γi = 0, 1 ≤ i ≤ k i=1 Lemma 2.3.7. Es gilt: (i) Sind Pϑ1 , . . . , Pϑk linear unabhängig und ist α ∈ (0, 1), so ist (α, . . . , α) ∈ (0, 1)k innerer Punkt von M (k) = {(Eϑ1 (ϕ), . . . , Eϑk (ϕ)) : ϕ ∈ Φ}. (ii) Sind Pϑ1 , . . . , Pϑk , Pϑk+1 linear unabhängig und ist für ein α ∈ (0, 1) der Vektor (α, . . . , α) innerer Punkt von M (k) , so existiert ϕ ∈ Φ mit Eϑi (ϕ) = α, 1 ≤ i ≤ k und Eϑk+1 (ϕ) > α. Beweis: Zu (ii): Zu zeigen ist ∃ϕ̂ ∈ Φ̂ := {ϕ ∈ Φ : Eϑi (ϕ) = α, 1 ≤ i ≤ k} mit Eϑk+1 (ϕ̂) > α. Angenommen, dies wäre nicht der Fall, dann wäre ϕα := α (∈ Φ̂) ein bester Test bzgl. Φ̂ für H = {ϑ1 , . . . , ϑk } gegen K = {ϑk+1 }. Also ist Satz 2.3.3 ϕα µ-f.ü. vom NP-Typ. Wegen 0 < α < 1 folgt Pnach k pk+1 − i=1 γi pi = 0 µ-f.ü. für gewisse Zahlen γ1 , . . . , γk , im Widerspruch zur linearen Unabhängigkeit von Pϑ1 , . . . , Pϑk+1 . Zu (i): Durch vollständige Induktion nach k: k = 1: M (1) = {Eϑ1 (ϕ) : ϕ ∈ Φ} = [0, 1], d.h. α ∈ (0, 1) ist innerer Punkt von M (1) 43 k − 1 → k: Pϑ1 , . . . , Pϑk linear unabhängig. Dann sind auch Pϑ1 , . . . , Pϑi−1 , Pϑi+1 , . . . , Pϑk linear unabhängig ⇒ (α, . . . , α) ∈ (0, 1)k−1 ist innerer Punkt von M (k−1) nach Induktionvorraussetzung. Nach (ii) (für k statt k+1 und Pϑi statt Pϑi+1 ) folgt für j = 1, . . . , i − 1, i + 1, . . . , k: ∃ϕi ∈ Φ : Eϑj (ϕi ) = α, Eϑi (ϕi ) > α ∃ϕ0i ∈ Φ : Eϑj (ϕ0i ) = α, Eϑi (ϕ0i ) < α (2.3.8) (2.3.9) Denn durch Anwendung von 2.3.8 auf 1 − α statt α erhält man ψi ∈ Φ, so dass ϕ0i := 1 − ψi 2.3.9 erfüllt. Führt man diesen Schritt nun für i = 1, . . . , k durch, so liegt das k-Tupel (α, . . . , α) im Inneren der konvexen Hülle der 2k Punkte (α, . . . , α, Eϑi (ϕi ), α, . . . , α) , (α, . . . , α, Eϑi (ϕ0i ), α, . . . , α) , 1 ≤ i ≤ k. Da jeder dieser 2k Punkte zu M (k) gehört und M (k) konvex ist, ist das k– Tupel (α, . . . , α) innerer Punkt von M (k) . 2 Beispiel 2.3.10. Es sei (X , B) = (R, B), Pϑi = N (µi , σ 2 ) i = 1, 2, 3 mit bekanntem σ 2 > 0 und µ1 < µ3 < µ2 . Ferner sei α ∈ (0, 1) und ϕ0 ein bzgl. {ϕ ∈ Φ : Eϑi (ϕ) = α, i = 1, 2} bester Test für H = {ϑ1 , ϑ2 } gegen K = {ϑ3 }. Dann sind Pϑ1 , Pϑ2 linear unabhängig, denn: ∀B ∈ B : γ1 Pϑ1 (B) + γ2 Pϑ2 (B) = 0 B=R ⇒ γ2 = −γ1 ⇒ ∀B ∈ B : γ1 (Pϑ1 (B) − Pϑ2 (B)) = 0 ⇒ γ1 = 0 Also ist nach Lemma 2.3.7 (i) (α, α) ein innerer Punkt von M (2) . Daher folgt aus Satz 2.3.3 (iii): Für λ-fast alle x ∈ R besitzt ϕ0 die Gestalt (x−µ3 )2 1 √ exp − > 1, falls 2 2πσ 2σ (x−µ1 )2 (x−µ2 )2 γ2 √γ1 exp − √ + 2πσ exp − 2σ2 2σ 2 2πσ ϕ0 (x) = 2 1 3) 0, falls √2πσ exp − (x−µ < 2σ 2 2 (x−µ1 ) (x−µ2 )2 γ2 √γ1 exp − √ + 2πσ exp − 2σ2 2σ 2 2πσ 44 2.4 Exponentialfamilien Im folgenden behandeln wir die Frage nach der Existenz und der Gestalt gleichmäßig bester Tests zum Niveau α für H gegen K mit beliebigen disjunkten H, K ⊂ Θ. Wir gehen dabei wie folgt vor: Für einen speziellen Wert ϑ1 ∈ K bestimmen wir aufgrund unserer bisherigen Ergebnisse einen besten Test für H gegen K 0 := {ϑ1 }. Ist dieser Test dann unabhängig von dem speziellen Wert ϑ1 , so ist er ein gleichmäßig bester Test für H gegen K. Definition 2.4.1. Eine Familie P = {Pϑ : ϑ ∈ Θ} von Wahrscheinlichkeitsmaßen auf (X , B) heißt k-parametrige Exponentialfamilie :⇔ (i) ∃ h, T1 , . . . , Tk : (X , B) → (R, B) (ii) ∃ c, q1 , . . . , qk : Θ → R (iii) ∃ µ/B σ-endliches Maß: pϑ (x) := c(ϑ) · h(x) · exp k X ! qj (ϑ)Tj (x) , x ∈ X ϑ ∈ Θ (2.4.2) j=1 ist eine µ-Dichte von Pϑ . Dabei ist h ≥ 0 und c > 0. Beispiel 2.4.3. Es sei (X , B) = (R, B), Pϑ = N (µ, σ 2 ) mit ϑ = (µ, σ 2 ) ∈ Θ = R × (0, ∞), µ = λ = Lebesque-Maß auf (R, B). Pϑ hat die Dichte (x − µ)2 1 · exp − pϑ (x) = √ 2σ 2 2πσ µ 1 µ2 x2 = √ exp − 2 · exp − 2 + 2 x , 2σ 2σ σ 2πσ welche die Form (2.4.2) besitzt mit c(ϑ) = h ≡ q1 (ϑ) = q2 (ϑ) = T1 (x) = T2 (x) = 1 µ2 √ exp − 2 2σ 2πσ 1 1 − 2 2σ µ σ2 x2 x 45 d.h. k = 2, µ und σ unbekannt. Ist hingegen µ = µ0 oder σ 2 = σ02 bekannt, so ist P = N (µ0 , σ 2 ) : σ 2 ∈ (0, ∞) bzw. P = N (µ, σ02 ) : µ ∈ R eine einparametrige Exponentialfamilie mit c(ϑ) = √ bzw. 1 ; 2πσ h ≡ 1; q1 (ϑ) = − 1 ; 2σ 2 T1 (x) = (x − µ0 )2 x2 1 µ2 c(ϑ) = √ exp − 2 ; h(x) = exp − 2 ; 2σ0 2σ0 2πσ0 µ q1 (ϑ) = 2 ; T1 (x) = x. σ0 Bemerkung 2.4.4. Durch geeignete Wahl eines dominierenden Maßes µ lässt sich R in der Darstellung (2.4.2) o.E. h ≡ 1 wählen. Man gehe von µ zu µ̃(B) := h dµ, B ∈ B SB über, welches ebenfalls σ-endlich ist: Es sei X = n∈N Xn mit µ(Xn ) < ∞ n ∈ N. S Setze Am := {m − 1 ≤ h < m}, m ∈ N. Dann gilt X = (m,n)∈N2 (Am ∩ Xn ) und Z Z 1 dµ ≤ m · µ(Xn ) < ∞. h dµ ≤ m · µ̃ (Am ∩ Xn ) = Am ∩Xn Am ∩Xn Also ist µ̃ σ-endlich. Ferner gilt Z pϑ (x) µ(dx) Pϑ (B) = B Z h(x) · c(ϑ) exp = B ! qj (ϑ) · Tj (x) µ(dx) j=1 Z c(ϑ) · exp = k X B k X ! qj (ϑ) · Tj (x) µ̃(dx), j=1 siehe Stochastik I, da dµ̃ = h dµ. Bezeichnen wir mit µ∗T das Bildmaß von T bzgl. µ auf Bk , d.h. (µ∗T )(B) = µ(T −1 (B)), B ∈ Bk (s. Stochastik I) mit T = (T1 , . . . , Tk ), so ist das Bildmaß Pϑ ∗ T von T bzgl. Pϑ absolut stetig bzgl. µ ∗ T und besitzt die µ ∗ T -Dichte ! k X (t1 , . . . tk ) ∈ Rk 7→ c(ϑ) exp qj (ϑ) · tj . (2.4.5) j=1 46 Denn für ein beliebiges B ∈ Bk gilt nach dem Transformationssatz (s. Stochastik I) ! Z k X c(ϑ) · exp qj (ϑ) · tj (µ ∗ T ) d(t1 , . . . , tk ) B j=1 c(ϑ) · exp = ! k X Z T −1 (B) qj (ϑ) · Tj µ(dx) j=1 = Pϑ (T −1 (B)) = (Pϑ ∗ T )(B). Sowohl in (2.4.2) also auch in (2.4.5) spielt der Faktor c(ϑ) nur die Rolle eines Normierungsfaktors, damit jeweils das Integral 1 ergibt. Die Verteilung Pϑ bzw. Pϑ ∗ T hängt also nur über q(ϑ) := (q1 (ϑ), . . . , qk (ϑ)) von ϑ ab. Dies nimmt man zum Anlass, die Menge ( ! ) Z k X Θ̃ := (q1 , . . . , qk ) ∈ Rk : exp qj Tj (x) µ(dx) < ∞ X j=1 als neuen Parameterraum, den sog. natürlichen Parameterraum für die kparametrige Exponentialfamilie P einzuführen. Dabei werden mit K(q) := R 1 exp P k j=1 qj Tj dµ durch pq (x) := K(q) · exp k X ! qj Tj (x) , x ∈ X , q ∈ Θ̃, (2.4.6) j=1 Wahrscheinlichkeitsdichten bzgl. µ definiert. Anstelle der ursprünglich vorgegebenen Exponentialfamilie P betrachtet man dann häufig die k-parametrige Exponentialfamilie mit natürlichem Parameterraum. Z n o P̃ := Pq : q ∈ Θ̃ mit Pq (B) = pq dµ, B ∈ B, q ∈ Θ̃ (2.4.7) B Lemma 2.4.8. Der natürliche Parameterraum Θ̃ ⊂ Rk ist stets eine konvexe Menge. 47 Beweis: Es seinen q 0 , q 00 ∈ Θ̃, γ ∈ [0, 1], also ! ! Z Z k k X X exp qj0 Tj dµ < ∞, exp qj00 Tj dµ < ∞. j=1 j=1 Aus der Monotonie und der Konkavität der Logarithmus-Funktion log(x) mit x > 0 folgt: n Y aλi i ≤ i=1 n X n X ai λi für ai > 0, λi ≥ 0, i=1 λi = 1 i=1 und damit k X exp ! (γqj0 + (1 − γ)qj00 )Tj j=1 = exp k X !!γ qj0 Tj · exp k X j=1 ≤ γ · exp k X !!1−γ qj00 Tj j=1 ! qj0 Tj + (1 − γ) · exp j=1 k X ! qj00 Tj j=1 Hieraus folgt Z exp k X ! (γqj0 + (1 − γ)qj00 )Tj dµ i=1 Z ≤γ exp k X ! qj0 Tj Z dµ + (1 − γ) j=1 · exp k X ! qj00 Tj dµ j=1 < ∞. 2 Im Folgenden untersuchen wir den Fall k = 1 einer einparametrigen Exponentialfamilie mit natürlichem Parameterraum Θ̃. In diesem Fall ist Z Pq (B) = pq dµ, B ∈ B, mit pq (x) = K(q) · exp(qT (x)), q ∈ Θ̃ B wobei T : (X , B) → (R, B) und Θ̃ ein (möglicherweise entartetes) Intervall in R ist. 48 Lemma 2.4.9. Die Gütefunktion Z Z Z ϕ(x)Pp (dx) = ϕ(x)pq (x) µ(dx) Θ̃ 3 q 7→ Eq (ϕ) := ϕ dPq = X X eines beliebigen Tests ϕ ∈ Φ ist in allen inneren Punkten von Θ̃ beliebig oft differenzierbar. Speziell gilt: d Eq (ϕ) = Eq (ϕ · T ) − Eq (ϕ) · Eq (T ). dq (2.4.10) Beweis: Zunächst beweisen wir: Behauptung: Für alle ϕ ∈ Φ ist die Funktion Z ψ : Θ̃ → R, ψ(q) := ϕ(x) exp(qT (x)) µ(dx) in allen inneren Punkten von Θ̃ beliebig oft differenzierbar und dort gilt 0 Z ψ (q) = ϕ(x)T (x) exp(qT (x)) µ(dx) (2.4.11) Denn: Sei dazu q0 ein innerer Punkt von Θ̃ ⇒ ∃δ > 0 ∀q ∈ Θ̃, |q − q0 | < δ : ψ(q) < ∞ Ferner gilt: ψ(q) − ψ(q0 ) = q − q0 exp(qT ) − exp(q0 T ) ϕ dµ q − q0 Z exp((q − q0 )T ) − 1 dµ = ϕ · exp(q0 T ) · q − q0 Z Aus der Reihenentwicklung von exp(x) folgt zunächst für |z| ≤ δ, t ∈ R P ∞ (zt)n exp(zt) − 1 = n=1 n! z z ∞ X z n−1 tn = n! ≤ ≤ n=1 ∞ X |z|n−1 · |t|n n! n=1 ∞ X 1 δ n=1 δ n |t|n n! 1 ≤ exp(δ|t|). δ 49 Somit gilt für obigen Integranden: ϕ · exp(q0 T ) exp((q − qo )T ) − 1 q − q0 exp(δ|t|) ≤ exp(q0 T ) · δ 1 = exp(q0 T + δ|T |) δ 1 ≤ (exp((q0 + δ)T ) + exp((q0 − δ)T )) δ für |q − q0 | ≤ δ. Falls also |q − q0 | ≤ δ, so ist q0 ± δ ∈ Θ̃, d.h. die rechte Seite in obiger Formel ist µ integrierbar. Nach dem Satz der dominierten Konvergenz folgt somit für jede Folge qn , n ∈ N, in Θ̃ mit limn→∞ qn = q0 Z ψ(qn ) − ψ(q0 ) = ϕ · T · exp(q0 T ) dµ, lim n→∞ qn − q 0 d.h. ψ ist einmal differenzierbar und es gilt (2.4.10). Die Existenz höherer Ableitungen folgt analog durch vollständige Induktion. Also gilt die obige Behauptung. R 1 = exp(qT ) dµ und damit auch Für ϕ ≡ 1 erhalten wir daraus, dass K(q) K(q) in allen inneren Punkten von Θ̃ beliebig oft differenzierbar ist mit 0 Z 1 = T · exp(qT ) dµ. K(q) Da andererseits folgt wegen Eq (ϕ) = R 1 K(q) 0 =− ϕ dPq = K(q) · R K 0 (q) K 2 (q) ϕ exp(qT ) dµ dEq (ϕ) = K(q) · ψ 0 (q) + K 0 (q) · ψ(q) dq Z Z 2 = K(q) · ϕT exp(qT ) dµ − K (q)ψ(q) T exp(qT ) dµ Z = Eq (ϕT ) − K(q) · Eq (ϕ) T exp(qT ) dµ = Eq (ϕT ) − Eq (ϕ) · Eq (T ) für alle inneren Punkte q von Θ̃. 2 50 2.5 Einseitige Tests bei monotonem Dichtequotienten Definition 2.5.1. Eine Familie P = {Pϑ : ϑ ∈ Θ} von Wahrscheinlichkeitsmaßen auf (X , B) mit Θ ⊂ R und Pϑ 6= Pϑ0 für ϑ 6= ϑ0 heißt Familie mit monotonem Dichtequotienten in T, falls gilt: ∃ Maß µ/B, P µ, ∀ ϑ ∈ Θ ∃ pϑ ∈ dPϑ /dµ ∃ T : (X , B) → (R, B) ∀ϑ0 , ϑ00 ∈ Θ, ϑ0 < ϑ00 : pϑ00 (x) = hϑ0 ,ϑ00 (T (x)), pϑ0 (x) (2.5.2) für alle x ∈ Xϑ0 ,ϑ00 := X \{x ∈ X : pϑ0 (x) = pϑ00 (x) = 0}, (mit hϑ0 ,ϑ00 (T (x)) = ∞, falls pϑ00 (x) > 0, pϑ0 (x) = 0), wobei hϑ0 ,ϑ00 (t) streng monoton in T ist. Beispiel 2.5.3. (i) Es sei P = {Pϑ : ϑ ∈ Θ} eine einparametrige Exponentialfamilie, d.h. pϑ (x) = c(ϑ) · exp(q(ϑ) · T (x)), x ∈ X , ϑ ∈ Θ. Falls q(ϑ) streng monoton wachsend in ϑ ist, so ist P eine Familie mit monotonem Dichtequotienten: Für ϑ0 , ϑ00 ∈ Θ mit ϑ0 < ϑ00 gilt pϑ00 (x) pϑ0 (x) c(ϑ00 ) · exp ((q(ϑ00 ) − q(ϑ0 )) · T (x)) c(ϑ0 ) =: hϑ0 ,ϑ00 (T (x)), = wobei hϑ0 ,ϑ00 (t) streng monoton wachsend in t ist. (ii) Sind X1 , . . . , Xn unabhängige und identisch N (0, σ 2 )-verteilte ZufallsPn 2 −2 χ2 -verteilt mit n Freiheitsgraden, i.Z. variablen, so ist σ i=1 Xi χ2n . P Die Summe ni=1 Xi2 besitzt dann die Lebesgue-Dichte 1 x pσ2 (x) = gn 2 σ2 σ x n 1 −1 2 x = exp − 2 , x > 0, (2σ 2 )n/2 Γ(n/2) 2σ wobei gn die Dichte der χ2n -Verteilung ist. Für ϑ = σ 2 ∈ Θ := (0, ∞) sei Pϑ das Wahrscheinlichkeitsmaß mit der λ-Dichte pϑ . Dann besitzt P = {Pϑ : ϑ ∈ Θ} einen monotonen Dichtequotienten in T (x) = x. Denn für σ12 < σ22 und x > 0 gilt 2 n/2 pσ22 (x) σ1 1 1 = · exp − · x =: hσ12 ,σ22 (x), pσ12 (x) σ22 2σ12 2σ22 wobei hσ12 ,σ22 (x) streng monoton wachsend in t ist. 51 (iii) Für ϑ > 0 sei Pϑ die Poisson-Verteilung zum Parameter ϑ > 0, d.h. Pϑ ({k}) = exp(−ϑ) ϑk , k! k = 0, 1, 2, . . . Dann ist P = {Pϑ : ϑ > 0} eine Familie von Wahrscheinlichkeitsmaßen auf P∞(X , B) = (N ∪ {0}, P(N ∪ {0})), welche durch das Zählmaß µB = n=0 1B (n), B ⊂ N ∪ {0} dominiert wird. P ist eine Familie mit monotonem Dichtequotienten in T (x) = x. Setze pϑ (x) := e−ϑ ϑx /x!, x ∈ X , ϑ ∈ Θ. Dann gilt pϑ ∈ dPϑ /dµ, denn ∞ ϑk X = 1B ({k})pϑ (k) k! k∈B k∈B Z Z k=0 = 1B (x) · pϑ (x) µ(dx) = pϑ (x) · µ(dx), B ∈ B Pϑ (B) = X Pϑ ({k}) = X e−ϑ X B und für ϑ1 < ϑ2 ist pϑ2 (x) = exp((ϑ1 − ϑ2 )) pϑ1 (x) ϑ2 ϑ1 x streng monoton wachsend in x. Mit den in Abschnitt 2.2 bewiesenen Aussagen können wir nun gleichmäßig beste Tests zum Niveau α für das einseitige Testproblem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 (bzw. entsprechend für H : ϑ ≥ ϑ0 gegen K : ϑ < ϑ0 ) herleiten. Satz 2.5.4. P = {Pϑ : ϑ ∈ Θ ⊂ R} sei eine Familie von Wahrscheinlichkeitsmaßen mit monotonem Dichtequotienten in T. Ferner sei α ∈ (0, 1) und ϑ0 ∈ Θ. Dann existiert für das Testproblem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 ein gleichmäßig bester Test ϕ∗ zum Niveau α. Dieser hat die Gestalt 1, falls T (x) > cα δα falls T (x) = cα ϕ∗ = (2.5.5) 0, falls T (x) < cα , x ∈ X wobei cα möglichst klein und – nach Wahl von cα – δα ∈ [0, 1] möglichst groß derart gewählt wird, dass Eϑ0 (ϕ∗ ) = Pϑ0 (T > cα ) + δα Pϑ0 (T = cα ) = α. (2.5.6) Darüber hinaus besitzt ϕ∗ die Eigenschaft ∀ϑ ∈ Θ : Eϑ (ϕ∗ ) = inf{Eϑ (ϕ) : ϕ ∈ Φ mit Eϑ0 (ϕ) = α} 52 (2.5.7) Beweis: Es sei zunächst ϑ1 > ϑ0 beliebig aber fest gewählt. Nach dem Neymann-Pearson Lemma 2.2.5, 2.2.6 existiert für das Testproblem H0 : ϑ = ϑ0 gegen K0 : ϑ = ϑ1 ein bester Test zum Niveau α der Form 1, falls pϑ1 (x) > γα pϑ0 (x) δα falls pϑ1 (x) = γα pϑ0 (x) ϕ̂(x) = (2.5.8) 0, falls pϑ1 (x) < γα pϑ0 (x), x ∈ X mit Eϑ0 (ϕ̂) = α. Da P einen monotonen Dichtequotienten in T besitzt, gilt 1, falls hϑ0 ,ϑ1 (T (x)) > γα δα falls hϑ0 ,ϑ1 (T (x)) = γα ϕ̂(x) = (2.5.9) 0, falls hϑ0 ,ϑ1 (T (x)) < γα , x ∈ X Da hϑ0 ,ϑ1 (t) streng monoton wachsend in t ist, ist (2.5.9) äquivalent zu (2.5.5). Wähle man nun cα = inf{t ∈ R : Pϑ0 (T ≤ t) ≥ 1 − α} = inf{t ∈ R : Pϑ0 (T > t) < α} und δα so, dass Pϑ0 (T > cα ) + δα Pϑ0 (T = cα ) = α. Dann ist der zugehörige Test ϕ∗ ein bester Test für H0 gegen K0 ; da cα und δα offenbar nur von ϑ0 abhängen und nicht von ϑ1 ist ϕ∗ auch gleichmäßig bester Test zum Niveau α für H0 : ϑ = ϑ0 gegen K0 : ϑ > ϑ0 . Durch Vergleich mit dem Test ϕα = α ergibt sich aus (2.5.7) (was aber erst noch bewiesen werden muss) ∀ϑ < ϑ0 : Eϑ (ϕ∗ ) ≤ α, d.h. ϕ∗ ist ein Test zum Niveau α für H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 . Daraus folgt, dass ϕ∗ gleichmäßig bester Test zum Niveau α für H0 : ϑ ≤ ϑ0 gegen K0 : ϑ > ϑ0 ist. Zum Nachweis von (2.5.7) werden wir zunächst einen Test ψ ∈ Φ̃ := {ϕ ∈ Φ : Eϑ0 (ϕ) = 1 − α} konstruieren mit der Eigenschaft ∀ϑ < ϑ0 : Eϑ (ψ ∗ ) = sup Eϑ (ψ). ψ∈Φ̃ Sei dazu ϑ2 < ϑ0 beliebig. Nach dem Neyman-Pearson-Lemma existiert ψ ∗ ∈ Φ̃ mit Eϑ2 (ψ ∗ ) = supψ∈Φ̃ Eϑ2 (ψ), wobei ψ ∗ die Gestalt besitzt 1, falls pϑ2 (x) > γ̃ pϑ0 (x) ∗ ψ (x) = δ̃ falls pϑ2 (x) = γ̃ pϑ0 (x) 0, falls pϑ2 (x) < γ̃ pϑ0 (x), x ∈ X bzw. 1, falls T (x) > c̃ ∗ ψ (x) = δ̃ falls T (x) = c̃ 0, falls T (x) < c̃, x∈X Da andererseits 1 − ϕ∗ auch diese Gestalt besitzt und Eϑ (1 − ϕ∗ ) = 1 − α, folgt ψ ∗ := 1 − ϕ∗ ∈ Φ̃ als Lösung von Eϑ0 (ψ ∗ ) = supψ∈Φ̃ Eϑ2 (ψ). 53 Da 1 − ϕ∗ unabhängig von ϑ2 < ϑ0 ist, gilt also Eϑ (1 − ϕ∗ ) = supψ∈φ̃ Eϑ (ψ), ϑ < ϑ0 . Dies ist aber äquivalent zu (2.5.7). 2 Bemerkung 2.5.10. (i) Der in Satz 2.5.4 konstruierte gleichmäßig beste Test ϕ∗ zum Niveau α für H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 ist auch ein bester Test zum Niveau α0 := Eϑ0 (ϕ∗ ) für H 0 : ϑ = ϑ0 gegen K 0 : ϑ = ϑ00 für beliebiges ϑ0 , ϑ00 ∈ Θ mit ϑ0 < ϑ00 . Denn ϕ∗ ist nach Konstruktion ein Test vom NP-Typ für (Pϑ0 , Pϑ00 ) und nach Lemma 2.2.6 damit trennscharf für (Pϑ0 , Pϑ00 ) daraus folgt, dass die Gütefunktion β(ϑ) := Eϑ (ϕ∗ ) auf der Menge {ϑ ∈ Θ : 0 < β < 1} streng monoton wächst: Seien ϑ0 , ϑ00 ∈ Θ mit ϑ0 < ϑ00 und 0 < β(ϑ0 ) < 1. Dann ist ϕ∗ bester Test zum Niveau β(ϑ0 ) für H 0 : ϑ = ϑ0 gegen K 0 : ϑ = ϑ00 , also gilt nach Korollar 2.2.10 β(ϑ0 ) < β(ϑ00 ), da nach Voraussetzung stets Pϑ0 6= Pϑ00 für ϑ0 6= ϑ00 . (ii) In Analogie zu Satz 2.5.4 ergibt sich sofort, dass es auch für das Testproblem H̃ : ϑ ≥ ϑ0 gegen K̃ : ϑ < ϑ0 einen gleichmäßig besten Test zum Niveau α ∈ (0, 1) gibt, nämlich: 1, falls T (x) < c̃α ∗ ϕ̃ (x) = δ̃ falls T (x) = c̃α α 0, falls T (x) > c̃α , x ∈ X , wobei die Konstanten c̃α und δ̃α ∈ [0, 1] bestimmt werden aus der Gleichung Eϑ0 (ϕ̃∗ ) = Pϑ0 (T < c̃α ) + δ̃α Pϑ0 (T = c̃α ) = α (iii) Ferner folgt aus Lemma 2.2.9, dass die Bereiche strikter Ablehnung der gleichmäßig besten Tests zum Niveau α ∈ (0, 1) für H0 : ϑ = ϑ0 gegen K : ϑ > ϑ0 bzw. K̃ : ϑ < ϑ0 bis auf µ–Nullmengen von der Form {T > cα } bzw. {T < c̃α } sind. Folglich gibt es i.A. keinen gleichmäßig besten Test zum Niveau α ∈ (0, 1) für H0 : ϑ = ϑ0 gegen K0 : ϑ 6= ϑ0 , da ja ein solcher Test sowohl gegen K, als auch gegen K̃ gleichmäßig bester Test sein müsste. Beispiel 2.5.11. Im Beispiel 2.4.3 auf Seite 45 haben wir gesehen, dass bei bekanntem Mittelwert µ0 die Familie P1 = {N (µ0 , σ 2 ) : σ 2 ∈ (0, ∞)} eine −1 1 , q1 (ϑ) = (2σ einparametrige Exponentialfamilie bildet c1 (ϑ) = √2πσ 2 ) und T1 (x) = (x − µ0 )2 , x ∈ R und ϑ = σ 2 ∈ Θ := (0, ∞), wenn µ := λ als dominierendes Maß gewählt wird. Dann ist im Stichprobenraum (X , B) := (Rn , Bn ) gemäß Lemma 2.4.5 die Familie P := {N (µ0P , σ 2 )n : σ 2 ∈ (0, ∞)} n 2 eine einparametrige Exponentialfamilie mit T (x) = i=1 (xi − µ0 ) , x = (x1 , . . . , xn ) ∈ Rn , und mit streng monoton wachsendem q(ϑ) = q1 (ϑ) = 54 1 − (2ϑ) , so dass wir nach Beispiel 2.5.3 (i) und Bemerkung 2.5.10 (ii) folgendes erhalten: P ist eine Familie mit monotonem Dichtequotienten in T , und der durch P 1, falls Pni=1 (xi − µ0 )2 ≤ cα ∗ ϕ (x) = n 2 0, falls x ∈ Rn , i=1 (xi − µ0 ) > cα , definierte Test mit cα so gewählt, dass Eϑ0 (ϕ∗ ) = α, ϑ0 = σ02 , ist ein gleichmäßig bester Test zum Niveau α für das Testproblem H : σ 2 ≥ σ02 2.6 gegen K : σ 2 < σ02 Gleichmäßig beste Tests in einparametrigen Exponentialfamilien In diesem Abschnitt sei Θ stets ein reelles Intervall. Wir wollen gleichmäßig beste Test zum Niveau α für das Testproblem H := {ϑ ∈ Θ : ϑ ≤ ϑ1 } ∪ {ϑ ∈ Θ : ϑ ≥ ϑ2 } gegen K := {ϑ ∈ Θ : ϑ1 < ϑ < ϑ2 } (2.6.1) bestimmen, wobei ϑ1 , ϑ2 ∈ Θ mit ϑ1 < ϑ2 vorgegeben sind (vgl. Beispiel 2.3.10). Satz 2.6.2. Es sei P = {Pϑ : ϑ ∈ Θ} eine einparametrige Exponentialfamilie im Stichprobenraum (X , B), d.h. bzgl. eines geeigneten σ–endlichen Maßes µ/B besitzt Pϑ eine Dichte der Form pϑ (x) = c(ϑ) exp(q(ϑ)T (x)), x ∈ X , ϑ ∈ Θ. Wir setzen voraus, dass q(ϑ) streng monoton wächst, und T nicht µf.s. konstant ist. Dann existiert für das Testproblem (2.6.1) ein gleichmäßig bester Test ϕ∗ zum Niveau α ∈ (0, 1) der Form 1, falls c1 < T (x) < c2 ∗ δj , falls T (x) = cj , j = 1, 2, c1 < c2 x ∈ X . ϕ (x) = (2.6.3) 0, falls T (x) ∈ (−∞, c1 ) ∪ (c2 , ∞) Dabei wird man c1 möglichst klein und c2 möglichst groß wählen und nach deren Festlegung δj ∈ [0, 1], j = 1, 2, so bestimmen, dass Eϑi (ϕ∗ ) = Pϑi (c1 < T < c2 ) + δ1 Pϑi (T = c1 ) + δ2 Pϑi (T = c2 )(2.6.4) = α, i = 1, 2 gilt. Darüber hinaus gilt Eϑ (ϕ∗ ) = inf{Eϑ (ϕ) : ϕ ∈ Φ mit Eϑ1 (ϕ) = Eϑ2 (ϕ) = α}, ϑ ∈ H. (2.6.5) 55 Beweis: Sei zunächst ϑ̃ ∈ Θ mit ϑ1 < ϑ̃ < ϑ2 beliebig aber fest gewählt. Behauptung: Pϑ1 und Pϑ2 sind linear unabhängig. Angenommen dies wäre nicht der Fall. Dann wäre für ein γ > 0 c(ϑ1 ) exp(q(ϑ1 )T (x)) = γ c(ϑ2 ) exp(q(ϑ2 )T (x)) µ − f.ü. ⇔ c(ϑ1 ) = γ exp((q(ϑ2 ) − q(ϑ1 ))T (x)) µ − f.ü. c(ϑ2 ) d.h. wegen q(ϑ2 ) − q(ϑ1 ) > 0 wäre T µ-f.ü. konstant, im Widerspruch zur Voraussetzung. Also sind Pϑ1 und Pϑ2 linear unabhängig und somit ist (α, α) gemäß Lemma 2.3.7 (i) innerer Punkt der Menge M := {(Eϑ1 (ϕ), Eϑ2 (ϕ)) : ϕ ∈ Φ}. Daher ist nach Satz 2.3.3 der durch 1, falls c(ϑ̃) · exp(q(ϑ̃)T (x)) > γ1 · c(ϑ1 ) · exp(q(ϑ1 ) · T (x)) +γ2 · c(ϑ2 ) · exp(q(ϑ2 )T (x)) x ∈ X, ϕ0 (x) = 0, falls c( ϑ̃) · exp(q( ϑ̃)T (x)) < γ1 · c(ϑ1 ) · exp(q(ϑ1 ) · T (x)) +γ2 · c(ϑ2 ) · exp(q(ϑ2 )T (x)), definierte Test ein bzgl. der Klasse Φ̃α := {ϕ ∈ Φ : α = Eϑ1 (ϕ) = Eϑ2 (ϕ)} bester Test für das Problem H0 := {ϑ1 , ϑ2 } gegen K0 := {ϑ̃}. Nach entsprechender Umformung folgt nun 1, falls a(x) < 1 ϕ0 (x) = x ∈ X, 0, falls a(x) > 1 wobei a(x) := γ10 · exp(b1 T (x)) + γ20 · exp(b2 T (x)), γi0 := γi · c(ϑi )/c(ϑ̃), i = 1, 2 und b1 = q(ϑ1 ) − q(ϑ̃) < 0, b2 = q(ϑ2 ) − q(ϑ̃) > 0. Eine Fallunterscheidung zeigt, dass γ10 > 0 und γ20 > 0 gelten muss: 1. Fall: Angenommen, γ10 ≤ 0, γ20 ≤ 0. Dann folgt a(x) ≤ 0, x ∈ X ⇒ ϕ0 ≡ 1 ⇒ α = Eϑ1 (ϕ0 ) = Eϑ2 (ϕ0 ) = 1 ∈ / (0, 1), Widerspruch. 0 2. Fall: Angenommen, γ1 > 0, γ20 ≤ 0. Dann ist a(x) streng monoton fallend in T (x), also a(x) < 1 ⇔ T (x) > d1 . Damit ist der Test ϕ0 von der Form 1, falls T (x) > d1 ϕ0 (x) = x ∈ X, 0, falls T (x) < d1 d.h. ϕ0 ist ein optimaler Test für ein Testproblem der Form ϑ ≤ ϑ0 gegen ϑ > ϑ0 und besitzt daher nach Bemerkung 2.5.10 (i) eine streng monoton wachsende Gütefunktion, also speziell Eϑ1 (ϕ0 ) < Eϑ2 (ϕ0 ), Widerspruch. 3. Fall: γ10 ≤ 0, γ20 > 0 analog. 56 Also gilt γ10 > 0 und γ20 > 0 und daher auch γ1 > 0 und γ2 > 0. Es folgt somit 1, falls c1 < T (x) < c2 ϕ0 (x) = x ∈ X. 0, falls T (x) < c1 oder T (x) > c2 Aus Lemma 2.3.4 folgt nun, dass der Test ϕ0 und damit auch der durch (2.6.3) und (2.6.4) definierte Test ϕ∗ ein gleichmäßig bester Test zum Niveau α für H0 = {ϑ1 , ϑ2 } gegen K0 = {ϑ̃} ist. Da sich hierbei die Konstanten ci und δi , i = 1, 2 aus den von dem gewählten ϑ̃ unabhängigen Nebenbedingungen (2.6.4) ergeben, ist ϕ∗ sogar ein gleichmäßig bester Test zum Niveau α für H0 = {ϑ1 , ϑ2 } gegen K. Durch Vergleich mit dem Test ϕ ≡ α folgt aus (2.6.5), dass Eϑ (ϕ∗ ) ≤ α, ϑ ∈ H, d.h. ϕ∗ ist ein gleichmäßig bester Test zum Niveau α für das Testproblem (2.6.1). Zum Nachweis von (2.6.5) sei ϑ̃ ∈ H, ϑ̃ < ϑ1 , vorgegeben. Satz 2.3.3 liefert einen Test ψ̃ ∗ , der bester Test ist bzgl. der Klasse Φ̃1−α := {ϕ ∈ Φ : Eϑ1 (ϕ) = Eϑ2 (ϕ) = 1 − α} für das Testproblem H0 = {ϑ1 , ϑ2 } gegen K0 := {ϑ̃}. Für den Test ϕ̃∗ := 1 − ψ̃ ∗ gilt also ϕ̃∗ ∈ Φ̃α und Eϑ̃ (ϕ̃∗ ) = inf{Eϑ̃ (ϕ) : ϕ ∈ Φ̃α }. Gemäß 2.3.3 (iii) ist ψ̃ ∗ µ-f.ü. von der Form 1, falls γ100 exp(b1 T (x)) + γ200 exp(b2 T (x)) < 1 ∗ ψ̃ (x) = x ∈ X, 0, falls γ100 exp(b1 T (x)) + γ200 exp(b2 T (x)) > 1 wobei hier b1 = q(ϑ1 ) − q(ϑ̃) > 0, b2 = q(ϑ2 ) − q(ϑ̃) > b1 > 0. Hieraus folgt für die Konstanten γ100 , γ200 notwendigerweise γ100 > 0 und γ200 > 0: 1. Fall: Angenommen γ100 ≤ 0; γ200 ≤ 0. Dann folgt ψ̃ ∗ = 1 µ-f.ü. und damit 1 − α = Eϑ1 (ψ̃ ∗ ) = Eϑ2 (ψ̃ ∗ ) = 1, im Widerspruch zu α ∈ (0, 1) 2. Fall: Angenommen γ100 > 0, γ200 ≥ 0. Dann ist b(x) := γ100 exp(b1 T (x)) + γ200 exp(b2 T (x)) streng monoton wachsend in T (x), also µ-f.ü. 1, falls T (x) < d2 ∗ ψ̃ (x) = x ∈ X, 0, falls T (x) > d2 d.h. ψ̃ ∗ (x) ist optimaler Test für ein einseitiges Problem ϑ ≥ ϑ0 gegen ϑ < ϑ0 und besitzt nach 2.5.10 (i) eine streng monoton fallende Gütefunktion, also speziell Eϑ1 (ψ̃ ∗ ) > Eϑ2 (ψ̃ ∗ ), Widerspruch. 3. Fall: Angenommen γ100 ≤ 0, γ200 > 0. Wegen b1 = b2 − 0 mit 0 > 0 ist b(x) := γ100 exp(b2 T (x)) exp(−0 T (x)) + γ200 exp(b2 T (x)) streng monoton wachsend in T (x) und man schließt wie in Fall 2. Also gilt γ100 > 0, γ200 < 0 und daher ( 1, falls 1 < γ100 exp(−b1 T (x)) − ∗ 1 ψ̃ (x) = 0, falls 1 > γ100 exp(−b1 T (x)) − 1 57 γ200 γ100 γ200 γ100 exp((b2 − b1 )T (x)) exp((b2 − b1 )T (x)) x ∈ X, bzw. ∗ ϕ̃ (x) = 1, falls c1 < T (x) < c2 0, falls T (x) ∈ / [c1 , c2 ] x ∈ X, wobei die Konstanten c1 , c2 aus Eϑ1 (ϕ̃∗ ) = Eϑ2 (ϕ̃∗ ) = α bestimmt werden. Dies bedeutet ϕ0 = ϕ̃∗ µ-f.ü. Hieraus folgt wegen ϕ̃∗ ∈ Φ̃α die Behauptung (2.6.5). Analog schließt man im Fall ϑ̃ > ϑ2 2 Wie wir in 2.5.10 (iii) gesehen haben, existieren im Fall einparametriger Exponentialfamilien i.A. keine gleichmäßig besten Tests zum Niveau α für H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 . Wir betrachten daher im Folgenden nur unverfälschte Tests zum Niveau α, wobei wir den natürlichen Parameterraum zugrunde legen, d.h. unsere Verteilungsannahme ist P = {Pϑ : ϑ ∈ Θ}, wobei Pϑ die µ-Dichte pϑ (x) = c(ϑ) · exp(ϑT (x)) für ϑ ∈ Θ und x ∈ X besitzt. Ferner nehmen wir an, dass Θ ein offenes Intervall in R ist. Ist dann ϕ ein unverfälschter Test zum Niveau α für H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 , d.h. Eϑ0 (ϕ) = α und inf ϑ∈K Eϑ (ϕ) ≥ α, so folgt aus Lemma 2.4.9 d Eϑ (ϕ)|ϑ=ϑ0 = Eϑ0 (ϕ T ) − α Eϑ0 (T ) = 0, dϑ (2.6.6) da Eϑ (ϕ) in ϑ0 ein Minimum besitzt. Der abschließende Satz zeigt, dass diese gegenüber der Unverfälschtheit abgeschwächte Bedingung (2.6.6) ausreicht, um die Existenz eines gleichmäßig besten unverfälschten Tests nachzuweisen. Satz 2.6.7. Es sei P = {Pϑ : ϑ ∈ Θ} eine einparametrige Exponentialfamilie mit natürlichem Parameterraum Θ = offenes Intervall in R. Wähle ϑ0 ∈ Θ. Dann existiert für das Testproblem H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 ein gleichmäßig bester unverfälschter Test ϕ∗ zum Niveau α ∈ (0, 1) der Gestalt: / [c1 , c2 ] 1, falls T (x) ∈ ∗ δj , falls T (x) = cj , j = 1, 2, x ∈ X . ϕ (x) = (2.6.8) 0, falls T (x) ∈ (c1 , c2 ) Dabei werden die Konstanten cj , δj ∈ [0, 1], j = 1, 2 so bestimmt, dass Eϑ0 (ϕ∗ ) = α und Eϑ0 (ϕ∗ T ) = α Eϑ0 (T ). (2.6.9) Darüber hinaus gilt Eϑ (ϕ∗ ) = sup{Eϑ (ϕ) : ϕ ∈ Φ mit Eϑ0 (ϕ) = α, (2.6.10) Eϑ0 (ϕ T ) = α Eϑ0 (T )}, ϑ ∈ K. 58 Beweis: Siehe Satz 2.70 in Witting, (1985) Mathematische Statistik, Teubner, Stuttgart. 2 Beispiel 2.6.11. Es seien X1 , . . . , Xn unabhängige B(1, ϑ)-verteilte Zufallsvariablen, ϑ ∈ Θ := (0, 1). Gesucht ist ein gleichmäßig bester unverfälschter Test zum Niveau α für das Testproblem H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 . Die Familie der Verteilungen Pϑ = B(1, ϑ)n von X = (X1 ,P . . . , Xn ) bildet eine einparametrige Exponentialfamilie mit T (x1 , . . . , xn ) = ni=1 xi . Daher ist (2.6.8), (2.6.9) eine Lösung, wobei die Werte cj , δj wegen Pϑ ∗ T = B(n, ϑ) gem. (2.6.9) aus der B(n, ϑ0 )-Verteilung zu bestimmen sind. Bei n = 24 unabhängigen Wiederholungen eines Experimentes mit zufälligem Ausgang und einer unbekannten Erfolgswahrscheinlichkeit ϑ ∈ (0, 1) haben 5 sich T = 12 Erfolge eingestellt. Es ist für α = 0, 05 zwischen H : ϑ0 = 16 5 und K : ϑ 6= 16 zu unterscheiden. Aus (2.6.9) ergeben sich c1 = 3, c2 = 12, δ1 = 0, 757 und δ2 = 0, 398. Es erfolgt keine strikte Ablehnung von H, sondern es wird mit der Wahrscheinlichkeit 0,398 verworfen. 59 Kapitel 3 REDUKTION STATISTISCHER ENTSCHEIDUNGEN 3.1 Problemstellung In den Abschnitten 2.5 und 2.6 haben wir gesehen, dass alle optimalen Lösungen der dort behandelten Testprobleme stets von der Form ϕ∗ = ψ ◦T waren, d.h. die Werte ϕ∗ (x) optimaler Tests hingen über T (x) von der Stichprobe x ab. Wie wir in diesem Kapitel sehen werden, gibt es auch bei anderen statistischen Entscheidungsproblemen häufig Stichprobenfunktionen (Statistiken) T , so dass man sich bei der Suche nach einer optimalen Lösung auf solche Entscheidungsfunktionen beschränken kann, die nur von T abhängen. Um also in solchen Fällen eine Entscheidung zu treffen, benötigt man also nicht die volle Information über ϑ ∈ Θ, die in der Stichprobe x ∈ X enthalten ist, sondern lediglich diejenige, welche durch T (x) gegeben ist. Statistiken mit einer solchen Eigenschaft werden wir in einem noch zu präzisierenden Sinn suffizient (erschöpfend, hinreichend) nennen. Beispiel 3.1.1. Es seien x1 , . . . , xn die Realisationen von n unabhängigen und identisch B(1, ϑ)-verteilten Zufallsvariablen X1 , . . . , Xn mit unbekannter Erfolgswahrscheinlichkeit P (X1 = 1) = ϑ ∈ Θ := (0, 1). Wegen der Unabhängigkeit der Einzelversuche kommt es nicht auf die Reihenfolge der P Versuchsergebnisse an, sondern lediglich auf die Gesamtzahl ni=1 xi der Erfolge. Betrachten wir die zu X1 , . . . , Xn gehörige Verteilungsannahme P = {Pϑ = B(1, ϑ)n , ϑ ∈ Θ}, so hängt Pϑ ({x1 , . . . xn }) = ϑ Pn i=1 60 xi · (1 − ϑ)n− Pn i=1 xi P nur von der Gesamtanzahl T (x1 , . . . , xn ) = ni=1 xi der Erfolge ab, so dass anschaulich T (x) die selbe Information über den unbekannten Parameter ϑ enthält wie die Stichprobe x = (x1 , . . . , xn ) selbst. Pn In diesem Fall wird man vermuten, dass T (x) = i=1 xi eine suffiziente Statistik ist. Beispiel 3.1.2. Liegt eine einparametrige Exponentialfamilie P einem Experiment zugrunde, also Wahrscheinlichkeitsmaße Pϑ auf (X , B) mit µ-Dichten der Form c(ϑ) exp(q(ϑ)T ), wobei T : X → R B, B-messbar ist, so wird man auch hier vermuten, dass die Kenntnis über x keine bessere Information über ϑ ∈ Θ liefert, als diejenige, die man durch T (x) gewinnt. Dadurch reduziert sich das Entscheidungsprolem, etwa die Bestimmung optimaler Lösungen für Testprobleme dahingehend, dass man von der i.A. n-dimensionalen Zufallsgröße X = (X1 , . . . , Xn ) zur eindimensionalen Zufallsgröße T (x) übergeht und optimale Lösungen nur noch unter Funktionen einer Variablen zu bestimmen braucht. Es wird sich zeigen, dass für die meisten der von uns betrachteten Klassen von Wahrscheinlichkeitsverteilungen Statistiken T : (X , B) → (Y, G) existieren, die in dem Sinn suffizient sind, dass sie eine Reduktion statistischer ” Entscheidungsverfahren“ im obigen Sinn ermöglichen. Betrachten wir etwa die Verteilungsannahme P = {Pϑ = B(1, ϑ)n : ϑ ∈ Θ = n n (0, 1)} aus PnBeispiel 3.1.1 auf (X , B) = ({0, 1} , P({0, 1}) ) und die Statistik T (x) = i=1 xi , so ist für jedes A ∈ B die bezüglich Pϑ gebildete bedingte Wahrscheinlichkeit von A unter dem Ereignis {T = k} für k = 0, 1, . . . n unabhängig von dem Parameter ϑ ∈ Θ: Pϑ (A ∩ {T = k}) Pϑ ({T = k}) Pn Pn P i=1 xi (1 − ϑ)n− i=1 xi x∈A∩{T =k} ϑ = n ϑk (1 − ϑ)n−k k P k n−k x∈A∩{T =k} ϑ (1 − ϑ) = n ϑk (1 − ϑ)n−k k |A ∩ {T = k}| = , k = 0, 1, . . . , n n Pϑ (A|{T = k}) = k Somit kann also bei gegebenen T = k keine zusätzliche Information über ϑ ∈ Θ gewonnen werden, d.h. die gesamte Abhängigkeit dieses Modells P ” von dem unbekannten Parameter ϑ ∈ Θ steckt in T (x)“. 61 Genauer gilt ∀ϑ ∈ Θ und ∀B ∈ B: Pϑ (B) = n X Pϑ (B ∩ {T = k}) k=0 = n X k=0 = n X Pϑ (B|{T = k}) ·Pϑ (T = k) {z } | =:h(B,k) h(B, k) · Pϑ (T = k) Zk=0 h(B, k) (Pϑ ∗ T )(dk), = {0,1,...,n} wobei h(B, k) = |B∩{T =k}| (nk) unabhängig von ϑ ist. Damit wird für allgemeine statistische Modelle eine Präzisierung des Begriffs Suffizienz“ nahe gelegt: T : (X , B) → (Y, G) heißt suffizient für eine Ver” teilungsannahme P = {Pϑ : ϑ ∈ Θ}, falls für alle B ∈ B die bedingte Wahrscheinlichkeit (bzgl. Pϑ ) von B ∈ B bei gegebenen T unabhängig von ϑ ∈ Θ ist. 3.2 Bedingte Erwartungswerte und bedingte Wahrscheinlichkeiten Der folgende Satz ist etwa in Gänssler, P. und Stute, W. (1977), Wahrscheinlichkeitstheorie, Springer, Heidelberg, Satz 1.2.24, bewiesen. Satz 3.2.1. Es sei X eine beliebige nicht-leere Menge, (Y, G) ein messbarer Raum und T : X → Y eine beliebige Abbildung. Dann existiert zu jeder T −1 (G) = {T −1 (G) : G ∈ G}–messbaren Abbildung f : X → R eine Gmessbare Abbildung g : Y → R, so dass f = g ◦ T . Definition 3.2.2. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A eine subσ-Algebra von B, d.h. A ⊂ B, A ist σ-Algebra, B ∈ B und X ∈ L1 (X , B, P ). Dann heißt EP (X|A) := E(X|A) Z Z := Z ∈ L1 (X , A, P ) : ∀A ∈ A : X dP = Z dP A die bedingte Erwartung von X bei gegebenen A (bzgl. P ) und P (B|A) := EP (1B |A) die bedingte Wahrscheinlichkeit von B bei gegebenen A. 62 A Satz 3.2.3. Unter den Voraussetzungen von 3.2.2 gilt (i) E(X|A) 6= ∅, (ii) Z1 , Z2 ∈ E(X|A) ⇒ Z1 = Z2 P-f.s., (iii) Z1 ∈ E(X|A), Z2 : (X , A) → (R, B) mit Z1 = Z2 P-f.ü. ⇒ Z2 ∈ E(X|A) Beweis: (i) Es sei zunächst X ≥ 0. Dann wird durch Z Q(A) := X dP, A ∈ A, A ein endliches (wegen 0 ≤ EP (X) < ∞) Maß auf A definiert mit Q P . Also existiert nach demR Satz von Radon-Nikodym 2.1.3 ein Z0 ∈ L1 (X , A, P ) mit Q(A) = A Z0 dP , A ∈ A, d.h. Z0 ∈ E(X|A). Für ein beliebiges X ∈ L1 (X , B, P ) existieren Z1 ∈ E(X + |A) und Z2 ∈ E(X − |A), wobei X + = max(0, X), X − = max(0, −X), X = X + − X − . Dann ist Z := Z1 − Z2 ∈ E(X|A). (ii) ∀A ∈ A: Z Z Z Z2 dP. X dP = Z1 dP = A A A Mit A := {Z1 > Z2 } ∈ A bzw. A0 := {Z1 < Z2 } ∈ A folgt die Behauptung. (iii) Folgt unmittelbar aus obiger Gleichung. 2 Lemma 3.2.4. Falls (i) A = {X , ∅} ⇒ E(X|A) = {E(X)} (ii) A = B ⇒ X ∈ E(X|A). Beweis: (i) Eine Abbildung f : X → R ist messbar bzgl. {∅, X } ⇔ f ist konstant; also f ∈ E(X|A) ⇒ fR = const. R ⇒ E(f ) = const = X f dP = X X dP = E(X). (ii) A = B ⇒ X ist A-messbar. ⇒ X ∈ E(X|A) 63 2 Konvention 3.2.5. Es ist üblich jedes Z ∈ E(X|A) ebenfalls als bedingte Erwartung von X bei gegebenem A zu bezeichnen und hierfür ebenfalls das Symbol E(X|A) (dann aufgefasst als Zufallsvariable) zu verwenden. Dasselbe gilt für P (B|A). Satz 3.2.6. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum und A eine subσ-Algebra von B. Sei X, Xn ∈ L1 (X , B, P ), n ∈ N, sowie a, b ∈ R. Dann gilt: R R (i) ∀A ∈ A E(X|A) dP = X dP , speziell E(X) = E(E(X|A)) A A (ii) X = X1 P-f.s. ⇒ E(X|A) = E(X1 |A) P-f.s. (iii) X = a P-f.s. ⇒ E(X|A) = a P-f.s. (iv) E(aX1 + bX2 |A) = a · E(X1 |A) + b · E(X2 |A) P-f.s. (v) X ≥ 0 P-f.s. ⇒ E(X|A) ≥ 0 P-f.s. (vi) X1 ≤ X2 P-f.s. ⇒ E(X1 |A) ≤ E(X2 |A) P-f.s. (vii) Xn ↑n∈N X P-f.s. ⇒ supn∈N E(Xn |A) = E(X|A) P-f.s. (viii) X A-messbar ⇒ X = E(X|A) P-f.s. Beweis: (i) Definition von E(X|A) (ii) Setze B := {E(X1 |A) > E(X|A)} ∈ A Z Z Z Z E(X1 |A) dP X1 dP = ⇒ E(X|A) dP = X dP = B B B B Z ⇒ E(X1 |A) − E(X|A) dP = 0 {z } B| >0 auf B ⇒ P (B) = 0. Vertauschen von X1 und X liefert die Behauptung. (iii) folgt aus (ii) (iv) folgt aus der Linearität des Integrals 64 (v) Setze B := {E(X|A) < 0} ∈ A Z Z X dP ≥ 0 E(X|A) dP = B B | {z } <0 auf B ⇒ P (B) = 0. (vi) folgt aus (iv) und (v): 0 ≤ E(X2 − X1 |A) = E(X2 |A)−E(X1 |A) P-f.s. | {z } ≥0 P-f.s. (vii) Aus (vi) folgt supn∈N E(Xn |A) = limn∈N E(Xn |A) P-f.s. Z Z mon. Konvergenz ⇒ ∀B ∈ A : lim E(Xn |A) dP = lim E(Xn |A) dP n∈N B B n∈N Z = lim Xn dP n∈N B Z mon. Konvergenz = lim Xn dP B n∈N Z = X dP, P-f.s. B (viii) X A-messbar ⇒ X ∈ E(X|A); 3.2.3 (ii) ⇒ X = E(X|A) P-f.s. 2 Satz 3.2.7. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A eine sub-σAlgebra von B und X ∈ L1 (X , B, P ). Falls die σ–Algebren X −1 (B) := {X −1 (B) : B ∈ B} und A unabhängig sind bzgl. P , d.h. P (B ∩ A) = P (B) · P (A), B ∈ X −1 (B), A ∈ A, so gilt E(X|A) = E(X) P-f.s. Beweis: Nach Voraussetzung sind für jedes A ∈ A die Zufallsvariablen 1A c und X unabhängig bzgl. P , denn 1−1 A (B) = {∅, X , A, A } ⊂ A. Also gilt für A∈A Z Z X dP = E(1A · X) = E(1A )E(X) = E(X) dP. A A Da E(X) als konstante Funktion A-messbar ist, folgt die Behauptung aus Lemma 3.2.3 (ii). 2 Satz 3.2.8. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A1 , A2 sub-σAlgebren von B mit A1 ⊂ A2 . Dann gilt: E(E(X|A1 )|A2 ) P-f.s. P-f.s. = E(X|A1 ) = E(E(X|A2 )|A1 ) 65 Beweis: E(X|A1 ) ist A1 -messbar und damit auch A2 -messbar; 3.2.6 (viii) ⇒ E(E(X|A1 )|A2 ) = E(X|A1 ) P-f.s. Es sei nun A ∈ A1 ⊂ A2 , dann: Z Z Z Def. Def. X dP = E(X|A2 ) dP = E(E(X|A2 )|A1 ) dP A A A Da dies für alle A ∈ A1 gilt, folgt aus der Gleichheit von erstem und letztem Term E(X|A1 ) = E(E(X|A2 )|A1 ) P-f.s. 2 Satz 3.2.9. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, A eine sub-σAlgebra von B und X ∈ L1 (X , B, P ), Y : X → R A-messbar mit der Eigenschaft XY ∈ L1 (X , B, P ). Dann gilt R R (i) ∀A ∈ A. XY dP = A Y E(X|A) dP A (ii) E(XY |A) = Y E(X|A) P-f.s. + − Beweis: O.E. sei X ≥ 0, sonst betrachte man X = R X − X . Wir knüpfen an den Beweis von 3.2.3 (i) an und setzen Q(A) := A X dP , A ∈ A. Dann ist Q ein endliches Maß auf A mit Q P und besitzt eine Dichte Z0 = E(X|A) bzgl. P . Wir erhalten somit für ein beliebiges A ∈ A Z Z Z Z XY dP = Y dQ = Y Z0 dP/A = Y E(X|A) dP. A A A A (ii) folgt aus (i) und der Definition von E(XY |A), da Y E(X|Y ) A-messbar ist. 2 Definition 3.2.10. Es sei (X , B, P ) ein Wahrscheinlichkeitsraum, (Y, G) ein messbarer Raum, X ∈ L1 (X , B, P ), B ∈ B und T : (X , B) → (Y, G). Dann heißt (i) E(X|T ) := E(X| T −1 (G) | {z } ) die bedingte Erwartung von X bei :={T −1 (G):G∈G}⊂B gegebenem T , (ii) P (B|T ) := P (B|T −1 (G)) = E(1B |T −1 (G)) die bedingte Wahrscheinlichkeit von B bei gegebenem T . Satz 3.2.1 impliziert die folgende Aussage: 66 Satz 3.2.11. Unter den Voraussetzungen von Definition 3.2.10 existiert zu jeden E(X|T ) eine G-messbare Funktion g : Y → R mit E(X|T ) = g ◦ T Satz 3.2.12. Unter den Voraussetzungen von Definition 3.2.10 sind für eine G-messbare Funktion g : Y → R die beiden folgenden Aussagen äquivalent: (i) g ◦ T = E(X|T ) P-f.s. (ii) g ∈ L1 (Y, G, P ∗ T ) und Z Z g d(P ∗ T ) = X dP, G ∈ G. T −1 (G) G Beweis: (i) ⇒ (ii): Für G ∈ G gilt: Z Z 3.2.6(i) X dP = E(X|T ) dP T −1 (G) T −1 (G) Z (i) g ◦ T dP = T −1 (G) Z = (1T −1 (G) )(g ◦ T ) dP Z = (1G ◦ T )(g ◦ T ) dP Z = (1G · g) ◦ T dP Z = 1G · g d(P ∗ T ) Z = g d(P ∗ T ) G (ii) ⇒ (i): ∀G ∈ G: Z Z g ◦ T dP (1G · g) ◦ T dP = T −1 (G) Z (1G · g) d(P ∗ T ) = Z g d(P ∗ T ) = (ii) ZG = X dP ; T −1 (G) da g ◦ T T −1 (G)-messbar ist, folgt g ◦ T = E(X|T ) P-f.s. 67 2 Definition 3.2.13. Es seien die Voraussetzungen von 3.2.10 erfüllt. Dann heißt EP (X|T = ·) := E(Y |T = ·) := {G ∈ L1 (Y, G, P ∗ T ) : Z Z ∀G ∈ G : g d(P ∗ T ) = X dP T −1 (G) G = {g : (Y, G) → (R, B) : g ◦ T = E(X|T ) P-f.s.} die bedingte Erwartung von X unter der Hypothese T = · bzw. Faktorisierung der bedingten Erwartung von X bzgl. T : E(X|T ) = E(X|T = ·) ◦ T Satz 3.2.14. Unter den Voraussetzungen von 3.2.10 gilt (i) E(X|T = ·) 6= ∅, (ii) g1 , g2 ∈ E(X|T = ·) ⇒ g1 = g2 (P ∗ T )-f.ü. (iii) g1 ∈ E(X|T = ·) und g2 : (Y, G) → (R, B) mit g1 = g2 (P ∗ T )-f.ü. ⇒ g2 ∈ E(X|T = ·) Beweis: Teil (i) folgt aus 3.2.3 (i) und 3.2.11. Teil (ii): ∀G ∈ G: Z Z Z g1 d(P ∗ T ) = X dP = g2 d(P ∗ T ). T −1 (G) G G Mit G := {g1 > g2 } ∈ G bzw. G0 := {g1 < g2 } ∈ G folgt die Behauptung. Teil (iii) folgt unmittelbar aus obiger Gleichung. 2 Hinsichtlich der Verwendung des Symbols E(X|T = ·) gilt das Entsprechende wie bei der Konvention 3.2.5. Für E(X|T = ·) gelten die zu 3.2.6 analogen Eigenschaften. Falls T (x) = y, so schreibt man E(X|T )(x) = (E(X|T = ·) ◦ T )(x) = E(X|T = ·)(T (x)) | {z } =y = E(X|T (x) = y) = E(X|T = y). 68 3.3 Suffiziente σ-Algebren und suffiziente Statistiken Definition 3.3.1. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen auf (X , B). Eine sub-σ-Algebra A von B heißt suffizient für P/B, falls \ ∀B ∈ B : P (B|A) 6= ∅, P ∈P d.h. falls für jedes B ∈ B eine von P ∈ P unabhängige Version der bedingten Wahrscheinlichkeit von B bei gegebenem A existiert. Eine Abbildung T : (X , B) → (Y, G) heißt suffizient für P/B, falls A := T −1 (G) suffizient für P/B ist. Es sei T : (X , B) → (Y, G) suffizient für P/B ⇒ ∀P ∈ P ∀B ∈ B: Z P (B) = 3.2.6(i) = 3.2.1 =: = = 1B dP Z dP EP (1B |T ) | {z } = P (B|T ) | {z } unabhängig von P gB ◦ T Z gB ◦ T dP Z gB d(P ∗ T ) Bemerkung 3.3.2. Es sei P/B = P eine Familie von Wahrscheinlichkeitsmaßen auf (X , B). Dann gilt: (i) B ist suffizient für P/B (ii) Jede P/B suffiziente sub-σ-Algebra A von B ist suffizient für jede Teilfamilie P0 von P. (iii) Es sei (Y, G) ein messbarer Raum und T : X → Y eine für P/B suffiziente Statistik ⇒ ∀B ∈ B ∃gB : (Y, G) → (R, B) ∀G ∈ G ∀P ∈ P : P (B ∩ T −1 Z gB d(P ∗ T ) (G)) = G 69 (iv) Es sei Y eine beliebige Menge T : X → Y eine beliebige Abbildung ⇒ GT := {G ⊂ Y : T −1 (G) ∈ B} ist eine σ-Algebra auf Y und T ist B, GT messbar. Man nennt T suffizient für P/B, wenn T −1 (GT ) suffizient für P/B ist. (v) Ist P = {Pϑ : ϑ ∈ Θ} eine parametrische Familie von Wahrscheinlichkeitsmaßen auf (X , B), so nennt man A bzw. T suffizient für ϑ ∈ Θ, wenn A bzw. T suffizient für P/B ist. Beweis: (i) folgt aus 1B ∈ T P ∈P B∈B P (B|B), | {z } EP (1B |B) (ii) ist trivial (iii) Für beliebiges B ∈ B sei hB ∈ T P ∈P P (B|T −1 (G)) mit 3.2.1 folgt ∃gB : (Y, G) → (R, B) : hB = gB ◦ T ⇒ ∀G ∈ G ∀P ∈ P : P (B ∩ T −1 Z (G)) = 1B∩T −1 (G) dP Z 1B · 1T −1 (G) dP = Z = 1B dP T −1 (G) Z = hB dP T −1 (G) Z gB ◦ T dP = T −1 (G) Z (gB ◦ T ) · 1T −1 (G) dP = Z (gB ◦ T ) · (1G ◦ T ) dP = Z gB · 1G d(P ∗ T ) = Z gB d(P ∗ T ). = G 2 70 Beispiel 3.3.3. Es sei G eine Gruppe endlicher Ordnung von bijektiven B, B-messbaren Abbildungen, und g : X → X , A := {B ∈ B : ∀g ∈ G : g(B) = B} die σ-Algebra der G-invarianten Mengen in B und P = P/B die Familie aller G-invarianten Wahrscheinlichkeitsmaße P auf (X , B), d.h. P ∗ g = P , g ∈ G. Dann gilt 1 X (1B ◦ g) ∈ P (B|A), B ∈ B, P ∈ P, (3.3.4) hB := |G| g∈G d.h. A ist suffizient für P/B. Beweis: Da für ein beliebiges aber festes g 0 ∈ G mit g auch g ◦ g 0 die ganze Gruppe G durchläuft, gilt ∀g ∈ G : hB ◦ g −1 = hB und damit folgt −1 −1 g(h−1 B (A)) = (hB ◦ g ) (A) = h−1 B (A) , A ∈ A, B ∈ B. d.h. hB ist A-messbar. Für B ∈ B gilt Z P (B ∩ A) = hB dP, A ∈ A, P ∈ P. A Denn aus 1A = 1A ◦ g, A ∈ A, g ∈ G folgt: Z XZ 1B ◦ g dP |G| · hB dP = A A g∈G = XZ = XZ X = X 1B · 1A d(P ∗ g) X g∈G = (1B ◦ g)(1A ◦ g) dP X g∈G (P ∗ g)(B ∩ A) g∈G P (B ∩ A) g∈G = |G| · P (B ∩ A) 2 Zwei Spezialfälle: 71 (i) Es sei (X , B) = (Rn , Bn ) und G die Gruppe der Ordnung n! derjenigen Abbildungen g : Rn → Rn , die den Permutationen der n Koordinaten entsprechen. Dann ist A die σ-Algebra derjenigen Borelmengen des Rn , die mit x ∈ Rn auch alle Punkte enthalten, die aus x durch Permutation der Koordinaten hervorgeht. Es sei P die Gesamtheit aller Wahrscheinlichkeitsmaße auf (Rn , Bn ) und P0 := {P n : P ∈ P}. Dann besteht P0 aus G-invarianten Wahrscheinlichkeitsmaßen auf (Rn , Bn ) Qn n n [denn (P ∗ g)(B1 × · · · × Bn ) = i=1 P (Bi ) = P (B1 × · · · × Bn ), Bi ∈ B, i = 1, . . . , n; g ∈ G ⇒ P n ∗ g = P ]. Somit ist A nach 3.3.3 suffizient für P0 . (ii) Es sei (X , B) = (R, B) und G := {idR , −idR } die Spieglungsgruppe (am Nullpunkt). Dann ist A die Gesamtheit aller um 0 symmetrischen Borel-Mengen von R, d.h. A = {B ∈ B : B = −B = {−x, x ∈ B}}. A ist suffizient für die Familie aller um 0 symmetrischen Wahrscheinlichkeitsmaße auf (R, B), d.h. P (B) = P (−B), B ∈ B. Da A = T −1 (B) mit T (x) := |x|, x ∈ R, ist also T suffizent für die Familie aller um 0 symmetrischen Wahrscheinlichkeitsmaße auf (R, B). Lemma 3.3.5. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen auf (X , B). Eine sub-σ-Algebra A von B ist genau dann suffizient für P/B, falls \ \ EP (f |A) 6= ∅ L1 (X , B, P ) : ∀f ∈ P ∈P P ∈P T T Beweis: T⇒“: Für f = 1B , B ∈ B ist P ∈P EP (1B |A) = P ∈P P (B|A) 6= ∅. ” Für f ∈ P ∈P L1 (X , B, P ) folgt die Behauptung durch Pn algebraische Induktion (d.h. die Behauptung gilt für f = 1B ⇒ f = i=1 αi 1Bi =: e einfache Funktion ⇒ f = limn→∞ en mit e1 ≤ e2 ≤ . . . ⇒ f = f + − f − ) unter Verwendung von 3.2.6 ⇐“: Offensichtlich 2 ” Satz 3.3.6. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen auf (X , B). Sind dann A0 , A1 sub-σ-Algebren auf B mit A0 ⊂ A1 (⊂ B), so gilt: (i) Falls A0 suffizient ist für P/B ⇒ A0 ist suffizient für P/A1 (ii) Falls A0 suffizient ist für P/A1 und A1 ist suffizient für P/B ⇒ A0 ist suffizient für P/B. Beweis: 72 (i) ist offensichtlich T T (ii) Sei B ∈ B und h1B ∈ P ∈P P (B|A1 ) . Da h1B ∈ P ∈P L1 (X , A1 , P ) und da T A0 suffizient ist für P/A1 folgt nach 3.3.5 die Existenz von hB ∈ P ∈P EP (h1B |A0 ). Nach 3.2.8 gilt für alle P ∈ P EP (h1B |A0 ) = EP (EP (1B |A1 )|A0 ) = EP (1B |A0 ) = P (B|A0 ) P-f.s. T also hB ∈ P ∈P P (B|A0 ). 2 Definition 3.3.7. Für eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) sei ( ) X X P L := ck Pk : ck ≥ 0, Pk ∈ P, k ∈ N, ck = 1 . k∈N k∈N Beachte dass P ⊂ P L und dass die Elemente von P L Wahrscheinlichkeitsmaße auf (X , B) sind. Satz 3.3.8. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) und A eine sub-σ-Algebra von B. Dann gilt: T T T (i) ∀f ∈ P ∈P L1 (X , B, P ), f ≥ 0: P ∈P EP (f |A) = P ∈P L EP (f |A) (ii) Ist A suffizient für P/B, so auch für P L /B. Beweis: T (i) Wegen P ⊂ P L gilt ⊃“. Ist andererseits f0 ∈ P ∈P EP (f |A), so folgt ” ∀A ∈ A und ∀P ∈ P L : ! Z Z X f0 dP = f0 d c k Pk A A = X Z k∈N ck · f0 dPk A k∈N = X Z ck · k∈N Z = f dP, A d.h. f0 ∈ T P ∈P L EP (f |A). (ii) ist eine unmittelbare Folgerung aus (i). 73 f dPk A 2 Lemma 3.3.9. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) und A eine sub-σ-Algebra von B. Dann gilt: (i) Ist A suffizient für P/B, so gilt für jedes P ∈ P und jedes P̂ ∈ P L mit P/B P̂ /B: dP/A dP/B ⊂ dP̂ /A dP̂ /B d.h. ∀P ∈ P ∃A-meßbare Dichte von P/B bzgl. P̂ /B. (ii) Falls ein P̂ ∈ P L mit P/B P̂ /B existiert und falls ∀P ∈ P gilt dP/A dP̂ /A ⊂ dP/B dP̂ /B so gilt ∀B ∈ B P̂ (B|A) ⊂ \ P (B|A). P ∈P Insbesondere ist dann A suffizient für P/B. Beweis: (i) A T ist nach Voraussetzung suffizient fürTP/B ⇒ ∀B ∈ B ∃ hB ∈ P ∈P L P (B|A). P ∈P P (B|A); Nach 3.3.8 (i) folgt hB ∈ L Es seien nun P ∈ P und P̂ ∈ P mit P/B P̂ /B beliebig vorgegeben und es sei fˆ ∈ ddP/A . Dann gilt ∀B ∈ B: P̂ /A Z P (B) = hB dP hB ist A messbar Z = hB dP/A X Z ˆ hB · fˆ dP̂ hB · f dP̂ /A = ZX Z X 1B · fˆ dP̂ = fˆ dP̂ ZX = 3.2.9(i) = X d.h. fˆ ∈ B dP/B dP̂ /B (ii) Es sei B ∈ B und P ∈ P. Ferner sei p ∈ 74 dP/B dP̂ /B A-meßbar und fB ∈ P̂ (B|A). Dann gilt ∀A ∈ A: Z fB dP Z = A 3.2.9(i) fB p dP̂ ZA = 1B p dP̂ ZA = p dP̂ A∩B = = P (A ∩ B) Z 1B dP A d.h. fB ∈ P (B|A). Da B ∈ B und P ∈ P beliebig waren, folgt die Behauptung. 2 Satz 3.3.10 (Faktorisierungssatz von Halmos-Savage, Neyman-Kriterium). Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B), welche durch ein σ-endliches Maß µ/B dominiert wird. Dann gilt: (i) Eine sub-σ-Algebra A von B ist suffizient für P/B:⇔ ∃h : (X , B) → (R+ , B ∩ R+ ) und ∀ϑ ∈ Θ dPϑ /B ∃fϑ : (X , A) → (R+ , B ∩ R+ ) : fϑ · h ∈ dµ/B (3.3.11) (ii) Eine Statistik T : (X , B) → (Y, G) ist suffizient für P/B :⇔ ∃h : (X , B) → (R+ , B ∩ R+ ) und ∀ϑ ∈ Θ ∃gϑ : (Y, G) → (R+ , B ∩ R+ ) : (gϑ ◦ T ) · h ∈ (3.3.12) dPϑ /B dµ/B Beweis: L (i) ⇒“ A sei suffizient für P/B. Mit 2.1.13 31 folgt: ⇒ ∃P̂ ∈ P P auf−kSeite ” mit P/B P̂ /B. Da auch P̂ /B = k∈N 2 Pk µ/B, existiert also ein 0 ≤ h ∈ dP̂ /B dµ/B (Satz von Radon-Nikodym). 3.3.9 (i) ⇒ ∀ϑ ∈ Θ ∃fϑ ∈ dPϑ /B , dP̂ /B fϑ A-messbar ⇒ fϑ · h ∈ Z Pϑ (B) = Z fϑ · h dµ. fϑ dP̂ = B B 75 dPϑ /B , dµ/B denn: ⇐“ Gilt umgekehrt (3.3.11), so wird durch die Festlegung ” Z µ0 (B) := h dµ B ein Maß µ0 /B definiert und es gilt ∀B ∈ B; ∀ϑ ∈ Θ: Z Z Pϑ (B) = fϑ · h dµ = fϑ dµ0 , B d.h. fϑ ∈ ∀B ∈ B : dPϑ /B , dµ0 /B B ϑ ∈ Θ. Mit 2.1.13 folgt: ∃P̂ ∈ P L mit P/B P̂ /B ⇒ P̂ (B) = X = X 2−k Pϑk (B) k∈N −k Z B Z X = fϑk dµ0 2 k∈N 2−k fϑk dµ0 B k∈N Z = ĥ dµ0 B P dP̂ /B wobei ĥ := k∈N 2−k fϑk ∈ dµ und h ist A-messbar, als Linearkom0 /B bination A-messbarer fϑ . Wegen Z P̂ (ĥ = 0) = ĥ dµ0 = 0 {ĥ=0} folgt Pϑ (ĥ = 0) = 0, ϑ ∈ Θ (wegen P P̂ ). Setzen wir nun pϑ := fϑ so ist pϑ A-messbar und pϑ ∈ ĥ · 1{ĥ>0} , ϑ ∈ Θ, dPϑ /B , dP̂ /B denn es gilt ∀B ∈ B: Pϑ (B) = Pϑ (B ∩ {ĥ > 0}) + Pϑ (B ∩ {ĥ = 0}) | {z } =0 Z = 1{ĥ>0} fϑ dµ0 B Z = ĥ · pϑ dµ0 B Z = pϑ dP̂ . B 3.3.9 (ii) ⇒ Behauptung. 76 (ii) folgt aus (i) mit A = T −1 (G) und Satz 3.2.1. 2 Beispiel 3.3.13. (i) Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine k-parametrige Exponentialfamilie auf (X , B). (2.4.2) und Bemerkung 2.4.4 ⇒ bzgl. eines geeignet gewählten σ-endlichen Maßes µ/B existieren µ-Dichten von Pϑ , ϑ ∈ Θ, der Form ! k X c(ϑ) · exp qi (ϑ) · Ti (x) i=1 mit B-meßbaren Ti : X → R, i = 1, . . . , k. Damit folgt gemäß (3.3.12) mit ! k X gϑ (y1 , . . . , yk ) := c(ϑ) · exp qi (ϑ) · yi , h ≡ 1, i=1 dass die durch T (x) := (T1 (x), . . . , Tk (x)) definierte Abbildung von (X , B) → (Rk , Bk ) eine für P/B suffiziente Statistik ist. (ii) Es sei P = P/Bn = {Pϑ : N (µ, σ 2 )n : ϑ = (µ, σ 2 ) ∈ Θ = R × (0, ∞)}. Aus 2.4.3, folgt, dass die durch ! n n X X T (x1 , . . . , xn ) := x2i , xi i=1 i=1 definierte Abbildung von (Rn , Bn ) → (R2 , B2 ) eine für P/Bn suffiziente Statistik ist. (iii) Es sei P = P/P({0, 1}n ) = {Pϑ = B(1, ϑ)n : ϑ ∈ Θ = (0, 1)}. Dann ist P eine einparametrige Exponentialfamilie in T (x1 , . . . , xn ) = n X xi . i=1 Also ist die Abbildung T : ({0, 1}n , P({0, 1}n )) → (R, B) eine für P suffiziente Statistik, vgl. 3.1.1. 77 3.4 Einige Anwendungen in der Statistik Satz 3.4.1 (Rao-Blackwell). Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) und T : (X , B) → (Y, G) eine suffiziente Statistik für ϑ ∈ Θ. Dann gibt es zu jeder erwartungstreuen Schätzfunktion g eines reellen Parameters κ(ϑ) eine erwartungstreue Schätzfunktion h für κ(ϑ), nämlich \ h∈ Eϑ (g|T ) ϑ∈Θ mit gleichmäßig nicht größerer Varianz, d.h. ∀ϑ ∈ Θ : Eϑ ((h − κ(ϑ)2 )) ≤ Eϑ ((g − κ(ϑ))2 ). (3.4.2) Ist Eϑ ((g − κ(ϑ))2 ) < ∞, so gilt: Eϑ ((h − κ(ϑ)2 )) = Eϑ ((g − κ(ϑ))2 ) ⇔ g = h Pϑ -f.ü. (3.4.3) T Beweis: Aus Lemma 3.3.5 folgt: ∃ h ∈ ϑ∈Θ Eϑ (g|T ). Mit 3.2.6 (i) ergibt sich: ∀ϑ ∈ Θ : Eϑ (h) = Eϑ (Eϑ (g|T )) = Eϑ (g) = κ(ϑ), d.h. h ist erwartungstreu für κ(ϑ). Zum Beweis von (3.4.2) können wir o.E. annehmen, dass Eϑ ((g − κ(ϑ))2 ) < ∞. Dann gilt: Eϑ ((g − κ(ϑ))2 ) = Eϑ (((g − h) + (h − κ(ϑ)))2 ) = Eϑ ((g − h)2 ) + Eϑ ((h − κ(ϑ))2 ) ≥ Eϑ ((h − κ(ϑ))2 ), da das beim Ausquadrieren auftretende gemischte Produkt verschwindet: Eϑ (h · (h − κ(ϑ))) Eϑ (Eϑ (g|T ) · (h − κ(ϑ))) Eϑ (Eϑ (g · (h − κ(ϑ))|T )) = = 3.2.6(i) = Eϑ (g · (h − κ(ϑ))). Ferner gilt nun Eϑ ((h − κ(ϑ)2 )) = Eϑ ((g − κ(ϑ))2 ) ⇔ g = h Pϑ -f.ü. 2 Durch Bildung der bedingten Erwartung bei gegebener suffizienter Statistik T kann man also aus einer erwartungstreuen Schätzfunktion g mit Varϑ (g) < ∞, ϑ ∈ Θ, eine bessere gewinnen, falls nicht bereits (3.4.3) erfüllt ist. 78 Durch abermalige Bildung der bedingten Erwartung bzgl. derselben suffizienten Statistik T erreicht man jedoch keine weitere Verbesserung, denn ∀ϑ ∈ Θ: Eϑ (h|T ) = Eϑ (Eϑ (g|T )|T ) = Eϑ (g|T ) = h Pϑ -f.ü. Satz 3.4.4. Es sei P = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B) und T : (X , B) → (Y, G) eine für P/B suffiziente Statistik. Dann gibt es zu jedem Test ϕ einen nur von T abhängigen Test ψ ◦ T , mit ψ : Y → [0, 1] G-messbar, mit derselben Gütefunktion. T Beweis: Sei ϕ ∈ Φ. Aus Lemma 3.2.5 folgt: ∃ h ∈ ϑ∈Θ Eϑ (ϕ(T )). Mit Satz 3.2.1 ergibt sich: ∃ ψ : (Y, G) → (R, B) : h = ψ ◦ T. Da ∀ϑ ∈ Θ : 0 ≤ ψ ◦ T ≤ 1 Pϑ -f.ü. (da ϕ ∈ [0, 1]), kann ψ so festgelegt werden, dass 0 ≤ ψ ≤ 1 gilt: ψ 0 := ψ · 1{0≤ψ≤1} . Dann ist ψ 0 G-messbar, 0 ≤ ψ 0 ≤ 1 und ψ = ψ 0 Pϑ ∗ T -f.ü.. Sei ϑ ∈ Θ : Eϑ (ψ ◦ T ) = Eϑ (h) = Eϑ (Eϑ (ϕ|T )) 3.2.6(i) = Eϑ (ϕ). 2 3.5 Vollständigkeit Im Zusammenhang mit dem Satz von Rao-Blackwell stellt sich die Frage, ob die mit Hilfe dieses Satzes gewonnene erwartungstreue Schätzfunktion bereits eine gleichmäßig kleinste Varianz besitzt (UMVU-Schätzer: uniformly minimum variance unbiased extimator). Um hierfür eine einfache hinreichende Bedingung angeben zu können, wird der Begriff der Vollständigkeit eingeführt. Definition 3.5.1. P = P/B = {Pϑ : ϑ ∈ Θ} sei eine Familie von Wahrscheinlichkeitsmaßen auf (X , B). (i) P/B heißt vollständig :⇔ ∀f : (X , B) → (R, B), Eϑ (f ) = 0, ∀ϑ ∈ Θ ⇒ ∀ ϑ ∈ Θ : f = 0 Pϑ -f.ü. (ii) T : (X , B) → (Y, G) ist vollständig für ϑ ∈ Θ :⇔ P/T −1 (G) ist vollständig. 79 Nach 3.2.1 ist T : (X ,RB) → (Y, G) genau dann vollständig für ϑ ∈ Θ, wenn: ∀f : (Y, G) → (R, B), Y f d(Pϑ ∗T ) = 0 , ϑ ∈ Θ, ⇒ f = 0 Pϑ ∗T -f.ü., ϑ ∈ Θ. ⇔ [∀ϑ ∈ Θ Eϑ (f (T )) = 0, f : (Y, G) → (R, B) ⇒ f ◦ T = 0 Pϑ -f.ü.] Die Bedeutung der Vollständigkeit“ beruht vor allem auf dem folgenden ” Satz. Satz 3.5.2 (Lehmann-Scheffé). Es sei P = P/B = {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X , B). Ferner sei die Statistik T : (X , B) → (Y, G) suffizient und vollständig für ϑ ∈ Θ. Dann gilt: Falls es überhaupt eine erwartungstreue Schätzfunktion g für den reellen Parameter κ(ϑ) gibt, so existiert auch eine solche erwartungstreue Schätzfunktion Tmit Minimalvarianz. Diese optimale Schätzfunktion ist gegeben durch h ∈ ϑ∈Θ Eϑ (g|T ). Beweis: Sei g eine erwartungstreue Schätzfunktion für κ(ϑ). Nach 3.3.5 existiert \ h∈ Eϑ (g|T ) ϑ∈Θ mit h erwartungstreu für κ(ϑ) (siehe Beweis zu 3.4.1). Dieses h besitzt Minimalvarianz: Angenommen dies wäre nicht der Fall ⇒ ∃ g1 erwartungstreue Schätzfunktion für κ(ϑ) und ∃ ϑ1 ∈ Θ: Varϑ1 (g1 ) < Varϑ1 (h). 3.4.1 ⇒ für T h1 ∈ ϑ∈Θ Eϑ (g1 |T ): Varϑ1 (h1 ) ≤ Varϑ1 (g1 ) < Varϑ1 (h). Da h und h1 T −1 (G)messbar sind und Eϑ (h) = Eϑ (h1 ) (= κ(ϑ)), ϑ ∈ Θ, ⇒ Eϑ (h−h1 ) = 0, ϑ ∈ Θ Vollständigkeit ⇒ h − h1 = 0 Pϑ -f.ü. bzw. h = h1 Pϑ -f.ü. ⇒ Varϑ1 (h) = Varϑ1 (h1 ), Widerspruch. Mit diesem Widerspruch ist der Satz bewiesen. 2 n Beispiel 3.5.3. Es sei P = P/P({0, ) := {Pϑ = B(1, ϑ)n : ϑ ∈ Θ = P1} n n (0, 1)}. Dann ist T (x1 , . . . , xn ) := i=1 xi , (x1 , . . . , xn ) ∈ X = {0, 1} , 80 vollständig für ϑ ∈ Θ: Sei f ∈ (R, B) → (R, B) mit der Eigenschaft: 0 = Eϑ (f ◦ T ) Z f ◦ T dB(1, ϑ)n = ZX = f d(B(1, ϑ)n ∗ T ) Z{0,1,...,n} = f dB(n, ϑ) = {0,1,...,n} n X f (i)B(n, ϑ)({i}) i=0 n X n i = f (i) ϑ (1 − ϑ)n−i i i=0 i n X n ϑ n f (i) , = (1 − ϑ) i 1−ϑ i=0 also i k X n ϑ = 0, f (i) i |1 {z − ϑ} i=1 ϑ∈Θ ϑ∈Θ =:z n i i d.h. das Polynom p(z) := f (i) z , z ∈ R, hat mehr als n Nullstellen ⇒ p(z) = 0, z ∈ R. Aus dem Identitätssatz für Polynome folgt f (i) = 0, i = 0, 1, . . . , n, d.h. f = 0 B(n, ϑ)-f.ü., ϑ ∈ Θ. Außerdem ist T suffizient für ϑ ∈ Θ nach 3.3.13(iii). Da g(x1 , . . . xn ) := x̄ = n1 T (x1 , . . . , xn ) ein erwartungstreuer Schätzer für T κ(ϑ) = ϑ ist, der nur von T abhängt, also g ∈ ϑ∈Θ Eϑ (g|T ) folgt aus 3.5.2, dass g ein UMVU-Schätzer für κ(ϑ) Pn = ϑ ist. 2 P 1 1 Ferner ist h(x1 , . . . , xn ) := n−1 i=1 (xi − x̄) = n−1 ( ni=1 x2i − n x̄2 ) ein erwartungstreuer Schätzer für κ(ϑ) = ϑ · (1 − ϑ). DaTx2i = xi (∈ {0, 1}), 1 hängt h = n−1 T − n1 T 2 nur von T ab, also h ∈ ϑ∈Θ Eϑ (h|T ). Somit ist h aufgrund von 3.5.2 ein erwartungstreuer Schätzer für ϑ(1 − ϑ) mit Minimalvarianz. Hingegen ist für n > 1 die Familie P/P({0, 1}n ) nicht vollständig: Bezeichnet πi i = 1, 2 die Projektion von {0, 1}n auf die i-te Komponente , d.h. 81 πi (x1 , . . . , xn ) = xi , i = 1, 2, so gilt für beliebiges ϑ ∈ Θ = (0, 1): Z Z Z π1 − π2 dPϑ = π1 dPϑ − π2 dPϑ Z = π1 (x1 , . . . , xn )(B(1, ϑ)n d(x1 , . . . , xn )) n {0,1} Z − π2 (x1 , . . . , xn )(B(1, ϑ)n d(x1 , . . . , xn )) n {0,1} Z = x1 (B(1, ϑ)n ∗ π1 ) dx1 {0,1} Z − x2 (B(1, ϑ)n ∗ π2 ) dx1 {0,1} Z Z = x1 B(1, ϑ)(dx1 ) − x2 B(1, ϑ)(dx2 ) {0,1} {0,1} = ϑ − ϑ = 0. Es gilt jedoch nicht π1 = π2 Pϑ -f.ü. Die Bedeutung des Satzes von Lehmann-Scheffé liegt darin, dass man für die wichtigsten Klassen von Wahrscheinlichkeitsverteilungen vollständige und suffiziente Statistiken angeben kann. Satz 3.5.4. P = P/B = {Pϑ : ϑ ∈ Θ} sei eine k-parametrige Exponentiafamilie derart, dass der zugehörige natürliche Parameterraum Θ̃ ⊂ Rk wenigstens einen inneren Punkt besitzt. Dann ist die k–dimensionale Statistik T = (T1 , . . . , Tk ) suffizient und vollständig für ϑ ∈ Θ. Beweis: Witting, H (1985): Mathematische Statistik, Teubner, Satz 3.39. 2 Beispiel 3.5.5. Sei P = P/Bn = {Pϑ = N (µ, P σ 2 )n : ϑ P = (µ, σ 2 ) ⊂ Θ = n R × (0, ∞)}. Nach 3.3.13(ii) ist T (x1 , . . . , xn ) = ( i=1 x2i , ni=1 xi ) suffizient für ϑ ∈ Θ (n ≥ 2). 3.5.4 ⇒ T ist auch vollständig Pnfür ϑ ∈ Θ. 2Folglich sind g(x1 , . . . , xn ) := x̄ bzw. −1 h(x1 , . . . , xn ) := (n − 1) i=1 (xi − x̄) erwartungstreue Schätzfunktionen für κ(ϑ) = µ bzw. κ(ϑ) = σ 2 , d.h. nur von T abhängen, aufgrund von 3.5.2 also solche mit Minimalvarianz. Lemma 3.5.6. P1 , P2 seien zwei Familien von Wahrscheinlichkeitsmaßen auf (X , B) mit P1 ⊂ P2 ist P1 /B vollständig und es gilt P2 /B P1 /B (d.h. ∀F ∈ B : [∀P1 ∈ P1 : P1 (F ) = 0 ⇒ ∀P ∈ P2 : P (F ) = 0]), so ist auch P2 vollständig. 82 R R Beweis: Es sei g : (X , B) → (R, B) mit g dP = 0 für P ∈ P2 ⇒ g dP = 0 für P ∈ P1 ⇒ g = 0 P -f.ü., P ∈ P1 ⇒ ∀ P ∈ P1 : P ({g 6= 0}) = 0 ⇒ ∀ P ∈ P2 : P ({g 6= 0}) = 0, d.h. g = 0 P -f.ü., P ∈ P2 . 2 Definition 3.5.7. Es sei µ ein beliebiges Maß auf (X , B) und C ∈ B mit 0 < µ(C) < ∞. Dann heißt das Wahrscheinlichkeitsmaß Z µ(B ∩ C) 1 , B∈B 1C dµ = PC (B) := µ(C) B µ(C) µ-Gleichverteilung auf C. Satz 3.5.8. Sei µ ein σ–endliches Maß auf (X , B), dann ist die Familie P = P/B = {PC : C ∈ B mit 0 < µ(C) < ∞} aller µ–Gleichverteilungen vollständig. R R 1 g · 1C dµ = g dPC = 0, PC ∈ Beweis: Sei g : (X , B) → (R, B) mit µ(C) R P. Dann gilt C g dµ = 0, C ∈ B mit 0 < µ(C)S< ∞. Hieraus folgt wegen der σ-Endlichkeit von µ, dass g = 0 µ-f.ü.: X = n∈NRXn , Xn ∈ B, µ(Xn ) < ∞ n ∈ N und X1 , X2 , . . . sind paarweise disjunkt; C∩Xn g dµ = 0, C ∈ B, n ∈ N, [ C= (C ∩ Xn ) ⇒ g = 0 µ-f.ü. n∈N mit C1 := {g > 0} und C2 := {g < 0} folgt g = 0 PC -f.ü., PC ∈ P, da PC µ. 2 Satz 3.5.9. Sei µ ein σ-endliches Maß auf (X , B). Dann ist die Familie aller Wahrscheinlichkeitsmaße auf (X , B), die absolut stetig sind bzgl. µ, vollständig. Beweis: Wegen P1 /B := {PC : C ∈ B mit 0 < µ(C) < ∞} ⊂ P/B genügt es wegen 3.5.6 und 3.5.8 zu zeigen, dass P/B P1 /B. Dazu sei B0 ∈ B mit PC (B0 ) = 0 für alle PC ∈ P1 . Angenommen ∃P0S ∈ P mit P0 (B0 ) > 0 ⇒ µ(B0 ) > 0 und wegen der σ-Endlichkeit von µ (B0 = n∈N (Xn ∩B0 )) existiert C0 = Xn0 ∩ B0 mit 0 < µ(C0 ) < ∞ ⇒ PC0 (B0 ) = µ(B0 ∩ C0 )/µ(C0 ) = 1, im Widerspruch zu PC0 (B0 ) = 0. 2 83 3.6 Die Ungleichung von Cramér-Rao und die Fisher-Information In diesem Abschnitt sei P = {Pϑ : ϑ ∈ Θ} und Θ ⊂ R. Ist T : (X , B) → (R, B) eine erwartungstreue Schätzfunktion für κ(ϑ), so ist die Varϑ (T ) ein Gütemaß für den Schätzer T . Wir werden unter gewissen Regulatitätsvoraussetzungen eine nur von ϑ abhängige untere Schranke für Varϑ (T ) herleiten. Liegt dann Varϑ (T ) in der Nähe dieser unteren Schranke, so ist dies eine Aussage über die Güte von T . Regularitätsvoraussetzungen 3.6.1. Wir fordern an P, T und x: (i) Es existiere ein geeignetes σ-endliches Maß µ/B und Dichten pϑ ∈ dPϑ /dµ mit pϑ (x) > 0, ϑ ∈ Θ, x ∈ X . (ii) Θ ⊂ R sei offen und die Abbildung Θ 3 ϑ 7→ pϑ (x) sei stetig differenzierbar, x ∈ X ∂ log(pϑ ) < ∞, ϑ ∈ Θ (iii) 0 < Varϑ ∂ϑ ∂ (iv) E ∂ϑ log(pϑ ) = 0, ϑ ∈ Θ (v) T sei eine erwartungstreue Schätzfunktion für κ. Dabei sei κ differenzierbar und es gelte Z ∂ ∂ 0 κ(ϑ) = T (x) log(pϑ (x)) Pϑ (dx) κ (ϑ) = ∂ϑ ∂ϑ Motivation von Bedingung (v): Z 0 0 κ (ϑ) = T (x) Pϑ (dx) 0 Z = T (x)pϑ (x) µ(dx) Z ! = T (x)p0ϑ (x) µ(dx) Z p0 (x) = T (x) ϑ pϑ (x) µ(dx) pϑ (x) Z ∂ = T (x) log(pϑ (x)) Pϑ (dx). ∂ϑ 84 Satz 3.6.2 (Ungleichung von Cramér und Rao). Unter den Regularitätsbedingungen 3.6.1 gilt Varϑ (T ) ≥ (κ0 (ϑ))2 , I(ϑ) ϑ ∈ Θ. (3.6.3) Dabei ist I(ϑ) = Eϑ 2 ! ∂ log(pϑ ) , ∂ϑ ϑ ∈ Θ, die Fisher-Informationsfunktion. Beweis: Setze lϑ := ∂ ∂ϑ log(pϑ ). Gemäß 3.6.1 gilt dann (iv) (v) Eϑ ((T − κ(ϑ)) lϑ ) = Eϑ (T lϑ ) = κ0 (ϑ). Es folgt aus der Cauchy-Schwarz-Ungleichung (κ0 (ϑ))2 = (Eϑ ((T − κ(ϑ)) · lϑ ))2 ≤ Eϑ ((T − κ(ϑ))2 ) · Eϑ (lϑ2 ) = Varϑ (T ) · I(ϑ) 2 Beispiel 3.6.4. Sei X = (N ∪ {0})n , B = P(X ) und P = {Pϑn : ϑ ∈ (0, ∞)}, wobei Pϑ die Poisson-Verteilung zum Parameter ϑ > 0 bezeichne, d.h. ϑk , k = 0, 1, 2 . . . . k! P Setze S(x) = ni=1 xi , x = (x1 , . . . , xn ) ∈ X . Dann ist Pϑ ({k}) = e−ϑ ∂ log(pϑ ) ∂ϑ ! n n X X ∂ = −nϑ + xi · log ϑ − log(xi !) ∂ϑ i=1 i=1 lϑ = 1 = −n + S(x) · . ϑ Da T1 (x) := S(x)/n eine erwartungstreue Schätzfunktion von ϑ ist, folgt wegen lϑ = nϑ (T1 − ϑ): 2 n I(ϑ) = Eϑ (T1 − ϑ) ϑ n2 Eϑ ((T1 − ϑ)2 ) = ϑ2 Z n2 = (x1 − ϑ)2 Pϑ (dx) ϑ2 ϑ = . n 85 Also gilt mit κ(ϑ) = ϑ: n ϑ (κ0 (ϑ))2 ≥ I(ϑ) 2 1 = n Varϑ (T1 ) = ϑ n = ϑ d.h. T1 nimmt die Cramér-Rao-Schranke an, ist also ein erwartungstreuer Schätzer mit Minimalvarianz. S Ferner ist T2 := 1 − n1 eine erwartungstreue Schätzung für κ(ϑ) := e−ϑ . Da S suffizient und vollständig ist, ist T2 nach der Ungleichung von LehmannScheffé eine Schätzung für κ(ϑ) mit Minimalvarianz. Da Varϑ (T2 ) = e−2ϑ · eϑ/n − 1 und die Cramér-Rao-Schranke gleich (κ0 (ϑ))2 /I(ϑ) = ϑ −2ϑ ·e n ist, wird letztere also von keiner für κ(ϑ) erwartungstreuen Schätzung angenommen bzw. erreicht. Bemerkung 3.6.5. (i) Aus 3.6.1 (iii), (iv) folgt, dass I(ϑ) = Varϑ (lϑ ) ∈ (0, ∞) (ii) In (3.6.3) gilt genau dann das Gleichheitszeichen für ein ϑ ∈ Θ, wenn T − κ(ϑ) und lϑ linear abhängig sind, d.h. ∃ cϑ ∈ R mit lϑ = cϑ · (T − κ(ϑ)) Pϑ -f.ü.. In diesem Fall gilt I(ϑ) = |c(ϑ)| · |κ0 (ϑ)|. (iii) Die Fischer Information I(ϑ) lässt sich deuten als eine Maßzahl für die Genauigkeit, mit welcher der unbekannte Parameter ϑ (bzw. κ(ϑ)) aufgrund von vorliegenden Beobachtungen geschätzt werden kann. Dementsprechend heißt für eine erwartungstreue Schätzfunktion T von κ(ϑ) unter den Regularitätsvoraussetzungen 3.6.1 die Abbildung Θ 3 ϑ 7→ (κ0 (ϑ))2 Cramér-Rao-Schranke = Varϑ (T ) I(ϑ) · Varϑ (T ) Effizienz von T. T heißt effiziente Schätzung für κ, falls die Effizienz von T konstant gleich 1 ist, d.h., falls Varϑ (T ) die Cramér-Rao-Schranke erreicht für alle ϑ ∈ Θ. 86 Beispiel 3.6.6. (i) Sei X = {0, 1}n , B = P(X ) und P = {B(1, ϑ)n : ϑ ∈ P n Θ}. Dann ist pϑ (x) = ϑT (x) (1 − ϑ)n−T (x) mit T (x) = i=1 xi , x = (x1 , . . . , xn ), eine Dichte von B(1, ϑ)n bzgl. des Zählmaßes auf (X , B). (x) 1 n ∂ log(pϑ (x)) = T (x) − n−T = ϑ(1−ϑ) T (x) − ϑ . Da Dann gilt lϑ = ∂ϑ ϑ 1−ϑ n T (x)/n eine erwartungstreue Schätzfunktion für κ(ϑ) = ϑ ist, folgt aus Bemerkung 3.6.5 (ii), dass T (x)/n sogar eine effiziente Schätzung für n . ϑ ist mit I(ϑ) = ϑ(1−ϑ) (ii) Sei (X , B, P) wie in Beispiel Pn 3.6.4. Dann folgt aus den dortigen Überle1 gungen, dass T1 (x) = n i=1 xi eine effiziente Schätzung für κ(ϑ) = ϑ ist und andererseits, dass für κ(ϑ) = e−ϑ keine effiziente Schätzung existiert. ENDE 87