Ingo Bürk Skript vom Sommersemester 2011 Mathematische Statistik Statistical thinking will one day be as necessary for efficient citizenship as the ability to read or write. H. G. Wells Universität Stuttgart 2011 Dieses Skript entstand im Rahmen der Vorlesung „Mathematische Statistik“ bei Hr. Prof. Dr. Ingo Steinwart als Vorlesungsmitschrieb. Es kann nicht garantiert werden, dass dieses Dokument fehlerfrei ist und der Autor übernimmt für möglicherweise entstandene Schäden jeglicher Art keine Haftung. Dieser Mitschrieb ist kein offizielles Dokument der Universität Stuttgart, Mitarbeiter eben dieser tragen daher ebenfalls keine Verantwortung. Dieses Werk ist unter dem Lizenzvertrag „Creative Commons Attribution-NonCommercialShareAlike 3.0 Germany“ lizenziert. Um die Lizenz anzusehen, gehen Sie bitte auf die Webseite http://creativecommons.org/licenses/by-nc-sa/3.0/de/ oder schicken Sie einen Brief an: Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA. Mit freundlichen Grüßen Ingo Bürk Inhaltsverzeichnis 5 Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 10 13 19 2 Punktschätzungen 2.1 Grundlagen . . . . . . . . . . . . . . . . . . . 2.2 Optimalität von Schätzern . . . . . . . . . . 2.3 Konstruktionsmethoden für Punktschätzer Momentenmethode . . . . . . . . . . . . Maximum-Likelihood-Schätzer . . . . . 2.4 Bayes-Schätzer . . . . . . . . . . . . . . . . . 2.5 Cramér-Rao-Ungleichung . . . . . . . . . . . 2.6 Weitere Eigenschaften von Schätzern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 28 35 35 37 44 49 53 3 Konfidenzintervalle 3.1 Grundlegende Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Einige exakte Berechnungen für Konfidenzintervalle . . . . . . . . . . . . . . . . 3.3 Asymptotische Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 57 62 66 1 Einführung 1.1 Motivation . . . . . . . . . . . . . . . . 1.2 Einfache Stichprobenfunktionen . . Exakte Berechnungen statt CLT 1.3 Die empirische Verteilungsfunktion . . . . . . . . . . . . 4 Statistische Tests 4.1 Qualitätsmerkmale für Tests . . . . . . . . . . . 4.2 Existenz gleichmäßig bester Tests . . . . . . . . 4.3 Zweistichprobentests . . . . . . . . . . . . . . . 4.4 Eine Anwendung von Tests . . . . . . . . . . . . 4.4.1 Informelle Beschreibung des Problems 4.4.2 Formale Beschreibung des Problems . . 4.4.3 Informelle Wahl der Hypothesen . . . . 4.4.4 Test auf einem Datensatz . . . . . . . . 4.4.5 Test auf vielen Datensätzen I . . . . . . 4.4.6 Test auf vielen Datensätzen II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 72 77 94 96 96 96 97 97 99 100 Abbildungsverzeichnis 103 Stichwortverzeichnis 105 3 Vorwort Die Statistik ist ein Teilgebiet der Stochastik und bildet gewissermaßen den Gegensatz zur Wahrscheinlichkeitstheorie. Die Statistik lässt sich in drei Gebiete gliedern: • In der deskriptiven Statistik werden vorliegende Daten möglichst gut beschrieben und zusammengefasst • In der mathematischen Statistik – auch induktive Statistik genannt – versucht man, aus dem Datensaz einer Stichprobe Informationen zu den Eigenschaften der Grundgesamtheit abzuleiten • In der explorativen Statistik werden die beiden anderen Gebiete gewissermaßen vereint; sie kombiniert die Methoden, um Zusammenhänge oder auch Unterschiede zwischen Datensätzen zu ermitteln und diese zu bewerten Wir werden uns hier mit dem zweiten Gebiet – also der mathematischen Statistik – beschäftigen. Wir werden also annehmen, dass wir einen Satz von Daten zur Verfügung haben, die einem zufälligen, aber unbekannten Mechanismus unterliegen und werden diese Daten nutzen, um diesen zufälligen Mechanismus zu untersuchen und Eigenschaften in Erfahrung zu bringen. Beschreibung von Ereignissen W-Theorie Beschreibung und Modellierung von zufälligen Prozessen Realität mit „zufälligen“ Beobachtungen • Axiomatische Beschreibung von Zufall • Begriffe Statistik Analyse von zufälligen Beobachtungen Stochastik Abbildung 0.1: Übersicht der Zusammenhänge zwischen Stochastik, Wahrscheinlichkeitstheorie und Statistik. 5 1 Einführung In diesem ersten Kapitel wollen wir uns mit den Grundlagen der mathematischen Statistik befassen und die wichtigsten Begriffe kennenlernen. 1.1 Motivation Wir werden an dieser Stelle einige Grundannahmen und Bezeichnungsweisen einführen, die wir das gesamte Kapitel über hinweg beibehalten werden. Sofern nichts anders vermerkt, beziehen wir uns also immer auf diese Konventionen. Formal gehen wir von einem Datensatz x = ( x1 , . . . , xn ) ∈ X aus, wir können x also als Beobachtung einer Zufallsvariablen X : (Ω, A 0 , P 0 ) → (X , sA ) betrachten, d. h. es existiert ein ω ∈ Ω mit 0 x = X (ω). Ferner gehen wir davon aus, dass die Verteilung P := P X von X unbekannt ist. Unser Ziel ist es nun, Eigenschaften dieser Verteilung P in Erfahrung zu bringen. Im Allgemeinen haben wir dafür Vorwissen über P vermöge einer Menge P von Wahrscheinlichkeitsmaßen auf X , d. h. wir wissen, dass P ∈ P gilt. „Vorwissen“ kann hier aber auch bedeuten, dass wir einfach nur hoffen/annehmen, dass dies tatsächlich zutrifft. Definition 1.1.1 Statistischer Raum Sei (X , A ) ein Messraum und P eine Menge von Wahrscheinlichkeitsmaßen auf X . Dann heißt (X , A , P ) statistischer Raum. Bemerkungen: • Häufig sind die Beobachtungen unabhängig und identisch verteilt generiert, d. h. X = X̃ n , N A = 1n A˜ = A˜n und ( ) n O n P ⊂ P̃ := P̃ mit P̃ ist Wahrscheinlichkeitsmaß auf (X̃ , A˜) . 1 Zudem werden die „Rohdaten“ ( x1 , . . . , xn ) häufig zunächst vorverarbeitet. Wir werden hierauf später mit dem Begriff der Stichprobenfunktion zurückkommen. 7 1 Einführung • Häufig liegt P in parametrischer Form vor – d. h. P = {Pϑ : ϑ ∈ Θ} –, wobei typischerweise Θ ⊂ Rk gilt. In diesem Fall heißt P k-dimensional-parametrisch oder auch nur k-parametrisch. Ein Beispiel hierfür wäre P = {N n (µ, σ2 ) : µ ∈ R, σ2 > 0}. In diesem Fall ist unser Vorwissen vergleichsweise groß und die entsprechenden Fragestellungen entstammen dem bereich der parametrischen Statistik. • Liegt keine einfache Parametrisierung vor, so spricht man in der Fachliteratur auch von der nicht-parametrischen Statistik. Ein Beispiel hierfür ist © ª P = P̃ n : P̃ ist ein Wahrscheinlichkeitsmaß auf (X̃ , A˜) . Hier ist unsere einzige Information über die Elemente von P also, dass sie i. i. d. sind. Ist X groß genug, so liegt nahe, dass keine einfache Parametrisierung existieren wird. Ein zweites Beispiel wäre © ª P = P̃ n : P̃ ist ein Wahrscheinlichkeitsmaß auf (X̃ , A˜) und P̃ ¿ µ , wobei µ ein vorgegebenes Referenzmaß ist. • In der robusten Statistik stellt man sich die Frage, was passiert, wenn bei den Methoden der parametrischen Statistik bereits die grundlegende Annahme P ∈ P falsch ist und wie man Methoden findet, die sich robust gegenüber solcher Verletzungen der Modellannahmen verhalten. In diesem Buch werden wir uns allerdings vor allem mit der klassischen parametrischen Statistik beschäftigen. Beispiel 1.1.2 Zur Behandlung einer Krankheit wurde eine neue Heilmethode (I) entwickelt. Bis jetzt wurde Heilmethode (II) benutzt, von welcher wir wissen, dass sie in 75% aller Fälle anschlägt. In einer Kurzzeitstudie wurde Heilmethode (I) bei 100 Patienten gestetet, wobei bei 80 Personen ein Behandlungserfolg eintrat. Für die statistische Modellierung können wir verschiedene Ansätze verfolgen: • Arbeiten auf den Rohdaten: Wähle X = {0, 1}100 , wobei 1 einem Behandlungserfolg entspricht, während 0 für das Fehlschlagen der Heilmethode steht. Wir nehmen an, dass die Behandlungsausgänge unabhängig (eine recht realistische Annahme) und identisch verteilt sind (diese Annahme muss im Einzelfall gerechtfertigt werden). Die Annahmen ergeben P = {B100 ( p, 1) : p ∈ [0, 1]}, wobei B( p, 1) die Binomialverteilung ist, d. h. es gilt B( p, 1)({1}) = p. Das Problem bei dieser Modellierung ist eine mögliche Informationsflut, die einen sehr hohen Aufwand erzeugt. 8 1.1 Motivation • Vorverarbeitung der Rohdaten: Bezeichnen x1 , . . . , x100 die einzelnen Ausgänge, so betrachten P 0 wir nicht ( x1 , . . . , x100 ), sondern x0 := 100 i =1 x i ∈ {0, . . . , 100} =: X . Mit X und P wie oben betrachten wir nun die Abbildung T: X →X0 ( x1 , . . . , x100 ) 7→ 100 X mit x i =: x0 . i =1 Für P ∈ P gilt T P = B( p, 100), daher setzen wir P 0 := {B( p, 100) : p ∈ [0, 1]}, d. h. wir haben unsere Rohdaten in x0 ∈ X 0 zusammengefasst. Die zusammensetzende Funktion T ist eine Stichprobenfunktion. Zu beachten ist, dass wir – obwohl wir i. i. d. generierte Rohdaten voraussetzen – keine Produktmaße auf X 0 mehr vorfinden. Einige typische Fragestellungen in der parametrischen Statistik sind die folgenden Beispiele: i) Schätzproblem: Versuche den wahren, aber unbekannten Parameter p im vorherigen Beispiel 1.1.2 zu schätzen. ii) Bereichsschätzung: Versuche einen Bereich – d. h. typischerweise ein Intervall I – zu schätzen, so dass p ∈ I liegt. iii) Testproblem: Versuche zu entscheiden, ob das wahre p zum Beispiel größer als 0.75 ist. 9 1 Einführung 1.2 Einfache Stichprobenfunktionen Im Folgenden nehmen wir an, dass x = ( x1 , . . . , xn ) ∈ Rn = X ist. Ferner sei P eine Teilmenge aller P n , wobei P ein Wahrscheinlichkeitsmaß auf R ist und X i : Rn → R sei die i -te Projektion, d. h. es gilt X = ( X 1 , . . . , X n ) = idRn und x ist die Realisierung der Zufallsvariablen X und besteht aus i. i. d. generierten Beobachtungen, da die X 1 , . . . , X n i. i. d. bezüglich aller P n ∈ P sind. Definition 1.2.1 Arithmetisches Mittel, Stichprobenmittel Betrachte die Funktion T : Rn → R, die durch T ( x ) := n 1X xi n i=1 mit x ∈ Rn definiert ist. Dann heißt: i) xn := T ( x) das arithmetische Mittel der Stichprobe ( x1 , . . . , xn ) =: x. ii) X n := T ◦ X das Stichprobenmittel der Zufallsstichprobe X := ( X 1 , . . . , X n ). Lemma 1.2.2 Für alle Wahrscheinlichkeitsmaße P auf R, für welche entweder X 1 ∈ L 1 (P n ) oder X 1 ∈ L 2 (P n ) gilt, gelten die Eigenschaften: i) EP n X n = EP n X 1 . ii) VarP n X n = n1 VarP n X 1 . Beweis: Beide Aussagen lassen sich elementar beweisen. Es gilt EP n X n = EP n n 1X 1 X i = EP n X i = EP n X 1 n i=1 n und VarP n X n = VarP n n n 1X 1 X 1 VarP n X i = VarP n X 1 . Xi = 2 n i=1 n n i=1 Bemerkungen: • Der Wert µ := EP n X 1 ist häufig unbekannt. In diesem Fall besagt i), dass bei der Schätzung von µ durch X n kein systematischer Fehler auftritt. Diese Eigenschaft werden wir später erwartungstreu nennen. 10 1.2 Einfache Stichprobenfunktionen 2 • Mit Hilfe der Markovschen Ungleichung kann VarP n X n = n1 VarP n X 1 =: σn als Maß für die Streuung der Schätzung von µ durch X n angesehen werden, da für alle ε > 0 gilt: Pn ¯ ³n¯ o´ σ2 ¯ ¯ ¯ X n − µ¯ ≥ ε ≤ 2 ε n • Dert Wert von σ ist im Allgemeinen aber unbekannt. Auf diese Problematik werden wir später noch eingehen. Lemma 1.2.3 Es gelten die beiden folgenden Aussagen: i) Gilt X 1 ∈ L 1 (P ∞ ), so folgt ³ ´ P ∞ lim X n = µ = 1. n→∞ ii) Gilt überdies sogar X 1 ∈ L 2 (P ∞ ), so folgt Ã( )! p Xn − µ ∞ lim P ≤ t = Φ( t), n n→∞ σ wobei σ2 := VarP ∞ X 1 und Φ die Verteilungsfunktion von N (0, 1) ist. Letztere ist gegeben durch 1 Φ( t ) = p 2π ˆ t s2 e − 2 d s. −∞ Beweis: i) Die Folge ( X i ) i∈N ist i. i. d. bezüglich P ∞ , betrachte dazu das kanonische Modell für i. i. d. Zufallsvariablen. Dann folgt die Aussage aus dem SLLN von Kolmogorov. ii) Es ist X i ∈ L 2 (P ∞ ) und die X i sind i. i. d. generiert. Ferner gilt p X n − µ p n1 n = n σ Pn i =1 X i − µ σ =p 1 n X ( X i − µ). nσ2 i=1 Dann folgt mit dem CLT und der Tatsache, dass Konvergenz in Verteilung äquivalent zur Konvergenz der Verteilungsfunktion ist der Rest der Aussage. Bemerkungen: • Aussage i) besagt, dass der zu schätzende Wert µ Grenzwert eines Schätzers X n ist. Diese Eigenschaft nennt man Konsistenz. 11 1 Einführung • Ist σ2 := VarP ∞ X 1 bekannt, so kann die Streuung der Schätzung approximiert werden. Es ist ¯ ¯ ) ( ¯ ¯ X − µ ¯ εp n n¯ o p ¯ ¯ ¯ n ¯ n¯ ¯ X n − µ¯ > ε = ¯> ¯ σ ¯ σ ( p ) ( p ) p Xn − µ ε n p Xn − µ ε n <− t > , = n n σ σ σ σ woraus mit Φ(− t) = 1 − Φ( t) schließlich folgt: µ p ¶¶ µ µ p ¶¶ ¯ ³n¯ o´ ii) µ εp n ¶ µ ε n ε n ¯ ∞ ¯ P + 1−Φ = 2 1−Φ ¯ X n − µ¯ > ε ≈ Φ − σ σ σ Hier gilt es zu beachten, dass die Approximation eigentlich eine gleichmäßige Konvergenz in ii) benötigt. Dies ist erfüllt, falls X 1 ∈ L 3 (P ∞ ) gilt (Satz von Berry-Essen). Definition 1.2.4 Stichprobenvarianz Betrachte die Funktion T : Rn → R, die durch T ( x) := n 1 X ( x i − x n )2 n − 1 i=1 definiert ist. Dann heißt: i) s2n := T ( x) die Stichprobenvarianz der Stichprobe x = ( x1 , . . . , xn ). ii) S 2n := T ◦ X die Stichprobenvarianz der Zufallsstichprobe X = ( X 1 , . . . , X n ). Lemma 1.2.5 Es sei X 1 ∈ L 2 (P ∞ ) und σ2 := VarP ∞ X 1 . Dann folgt: i) Erwartungstreue: ES 2n = σ2 . ³ ´ ii) Konsistenz: P ∞ lim S 2n = σ2 = 1. n→∞ Beweis: Für X i0 := X i − µ mit µ := E X 1 gilt E X i0 = 0 und E X n0 = 0. Wir zeigen als erstes S 0n2 = S 2n . Es gilt S 0n2 à !2 n n n n X X 1 X 1 1 1 X 0 2 = ( X i − X n0 ) = ( X i − µ) − ( X i − µ) = ( X i − X n )2 n − 1 i=1 n − 1 i=1 n i=1 n − 1 i=1 = S 2n . 12 1.2 Einfache Stichprobenfunktionen Wir können also ohne Einschränkung annehmen, dass E X i = 0 ist, d. h. µ = 0 und E X n = 0. Nun folgt n n n 1 X 1X 1 X 2n n 2 2 Xn · Xn S 2n = ( X i2 − 2 X i X n + X n ) = X i2 − Xi + n − 1 i=1 n − 1 i=1 n−1 n i=1 n−1 n 1 X 2 2 = ( X i − X n ). (*) n − 1 i=1 i) Aus (*) folgt nun mit unseren obigen Annahmen n n 1 X 1 X 2 (E X i2 − E X n ) = (Var X i − Var X n ) ES 2n = n − 1 i=1 n − 1 i=1 ¶ µ ¶ n µ 1 n 1 1.2.2 1 X = Var X i − Var X i = 1− Var X 1 = Var X 1 n − 1 i=1 n n−1 n = σ2 . ii) Ferner gilt (*) lim S 2n = lim n→∞ n→∞ ! à ´ n ³ n X 1 X 1 n 2 2 X 2 − X n = lim X i2 − X n n→∞ n − 1 n n − 1 i=1 i i =1 = E X 12 − (E X 1 )2 = Var X 1 . Korollar 1.2.6 Es sei X 1 ∈ L 2 (P ∞ ), µ := E X 1 und σ2 := Var X 1 . Dann folgt für alle t ∈ R ! à p X − µ n ≤ t = Φ( t), lim P ∞ n n→∞ Sn wobei Φ die Verteilungsfunktion von N (0, 1) ist. Beweis: Es gilt nach Lemma 1.2.5, dass S n → σ P ∞ -fast sicher konvergiert und damit insbesondere auch in Verteilung. Nun folgt die Aussage aus dem CLT und der folgenden multiplikativen Version des Satzes von Slutsky1 : Es gelte Yn → Y und Z n → c ∈ R jeweils in Verteilung, dann folgt Yn Z n → cY in Verteilung. Exakte Berechnungen statt CLT Wir nehmen nun an, dass die Zufallsvariablen X i i. i. d. sind und dass X i ∼ N (µ, σ2 ) gilt, wobei µ ∈ R und σ2 > 0 ist. Unser Ziel ist es, die Wahrscheinlichkeiten aus Lemma 1.2.3 und Korollar 1.2.6 exakt auszurechnen. 1 Zu finden als Satz II.9.9 im Wahrscheinlichkeitstheorie-Skript 13 1 Einführung X −µ 1. Fall: Der Wert von σ2 > 0 sei bekannt. Dann gilt X i − µ ∼ N (0, σ2 ) und damit iσ ∼ N (0, 1). P X −µ Wir betrachten nun die Summe, für die dann schließlich ni=1 iσ ∼ N (0, n) gilt2 . Dann ist n p Xn − µ 1 X =p ( X i − µ) ∼ N (0, 1) n σ nσ2 i=1 und für die Wahrscheinlichkeit gilt damit µ p ¶¶ ε n P ({| X n − µ| > ε}) = 2 1 − Φ , σ µ wobei wir diese Gleichung bereits in der Rechnung im Anschluss an Lemma 1.2.3 hergeleitet hatten. Lemma 1.2.7 Sei X i i. i. d. und X i ∼ N (µ, σ2 ) mit µ ∈ R und σ2 > 0. Dann gilt für alle n ≥ 1 und ε > 0 µ µ p ¶¶ ε n P ({| X n − µ| > ε} = 2 1 − Φ , σ wobei Φ die Verteilungsfunktion von N (0, 1) ist. 2. Fall: Der Wert von σ2 > 0 sei nun unbekannt. Für diesen Fall müssen wir zunächst einige neue Begriffe einführen. Definition 1.2.8 Gammafunktion Die Funktion Γ : (0, ∞) → (0, ∞), die durch ˆ ∞ Γ( p) = y p−1 e− y d y 0 gegeben ist, heißt Gammafunktion. Für die Gammafunktion gelten folgende Eigenschaften, die an dieser Stelle nicht bewiesen werden: i) Γ( p + 1) = p · Γ( p) ii) Γ(1) = 1 iii) Γ( n + 1) = n! für n ∈ N iv) Für alle p > 0 und b > 0 gilt die Identität ˆ Γ( p) = b p 0 2 Vgl. Faltungen im Wahrscheinlichkeitstheorie-Skript. 14 ∞ e−b y y p−1 d y. 1.2 Einfache Stichprobenfunktionen Aus diesen Eigenschaften folgt leicht, dass die durch y 7→ 1(0,∞) ( y) · b p −b y p−1 e y Γ( p) definierte Funktion Dichte eines Wahrscheinlichkeitsmaßes auf R ist. Definition 1.2.9 Gammaverteilung Das Lebesgue-absolut stetige Wahrscheinlichkeitsmaß mit der Dichte y 7→ 1(0,∞) ( y) · b p −b y p−1 e y Γ( p) heißt Gammaverteilung mit den Parametern b > 0 und p > 0. Wir schreiben hierfür Γ( b, p). Lemma 1.2.10 Sei b > 0, p > 0 und X ∼ Γ( b, p). Dann gelten die folgenden Aussagen: i) Die charakteristische Funktion ϕ X ( t) := E e itX mit t ∈ R gammaverteilter Zufallsvariablen hat die Gestalt 1 ϕ X ( t) = ¡ ¢p 1 − it b ( t ∈ R). ii) Für k ∈ N gilt für die k-ten Momente EX k = p · ( p + 1) · . . . · ( p + k − 1) bk . Daraus folgt, dass für alle k ∈ N auch X ∈ L k gilt iii) Es sei X 1 ∼ Γ( b, p 1 ) und X 2 ∼ Γ( b, p 2 ) für unabhängige Zufallsvariablen X 1 und X 2 . Dann gilt X 1 + X 2 ∼ Γ( b, p 1 + p 2 ). Beweis: i) Der Beweis dieser Eigenschaft erfolgt im Wesentlichen über den Identitätssatz für holomorphe Funktionen. Da dieser Gegenstand der Höheren Analysis ist werden wir den Beweis hier nicht führen. ii) Die k-te Ableitung von ϕ X ist ϕ(k) ( t) = X p · ( p + 1) · . . . · ( p + k − 1) bk 1 · ik · ¡ ¢ p+ k . 1 − it b 15 1 Einführung Nach Satz II.4.7 des Wahrscheinlichkeitstheorie-Skriptes gilt E X k = i −k ϕ(k) (0). Dies X entspricht genau der Identität, die wir zeigen wollen. iii) Nach Satz II.4.8 des Wahrscheinlichkeitstheorie-Skriptes gilt ϕ X 1 + X 2 ( t) = ϕ X 1 ( t)ϕ X 2 ( t). Durch Einsetzen und Anwendung des Eindeutigkeitssatzes für charakteristische Funktionen folgt dann die Aussage. Korollar 1.2.11 Für die Exponentialverteilung exp(λ) mit λ > 0, welche für y ∈ R die Dichte f λ ( y) = 1(0,∞) ( y) · λ e−λ y besitzt, gelten die beiden folgenden Aussagen: i) exp(λ) = Γ(λ, 1). ii) Für unabhängige Yi ∼ exp(λ) gilt ∼ Γ(λ, n). Pn i =1 Yi Beweis: Der Beweis erfolgt durch simples Nachrechnen. Satz 1.2.12 Seien X 1 , . . . , X n unabhängige Zufallsvariablen mit X i ∼ N (0, 1). Dann gilt µ ¶ n X 1 n 2 Xi ∼ Γ , . 2 2 i =1 ¡ ¢ Die Verteilung Γ 12 , n2 heißt Chi-Quadrat-Verteilung mit n Freiheitsgraden. Wir schrei¡ ¢ ben hierfür χ2n := Γ 12 , n2 . Die χ2n -Verteilung hat die Lebesgue-Dichte y n y 2 −1 e− 2 y 7→ 1(0,∞) ( y) · n ¡ n ¢ . 22 Γ 2 1 2 2 2 , 2 zu zeigen, da die X 1 , . . . , X n unabhängig t2 ϕ( t) = p1 e− 2 mit t ∈ R. Dann gilt für X := X 1 : 2π Beweis: Es genügt X 12 ∼ Γ Dichte von N (0, 1), also ¡1 ¢ p p P ( X 2 ≤ a) = P (− a ≤ X ≤ a) = ˆ a ˆ ˆ p ˆ a ϕ( t) d t + 0 a 0 p − a p p 1 1 = p ϕ( s) d s + p ϕ(− s) d s 0 2 s 0 2 s ˆ a µˆ a ¶ 1 1 −s 1 −s =p p e 2 ds + p e 2 ds 2π 0 2 s 0 2 s ˆ a 1 s 1 =p s− 2 e − 2 d s 2π 0 t=± s 16 ϕ( t) d t sind. Sei ϕ die 1.2 Einfache Stichprobenfunktionen 1 s p1 s− 2 e− 2 2π s>0 0 s≤0 ( 2 Die Verteilung von X hat damit die Dichte , da die Verteilungsfunktionen 1 y Maße eindeutig bestimmen. Dies entspricht y 7→ 1(0,∞) ( y) p1 y− 2 e− 2 für y ∈ R. Da Γ 2π ¡ ¢ gilt3 folgt die Behauptung, denn die Dichte von Γ 12 , 21 ist ¡ 1 ¢ 21 1 ¡1¢ 2 = p π 1 y 7→ 1(0,∞) ( y) 2¡ 1 ¢ e− 2 y y− 2 . Γ 2 Satz 1.2.13 Es seien X 1 , . . . , X n ∼ N (µ, σ2 ) unabhängige Zufallsvariablen. Dann gelten die folgenden Aussagen: ³ ´ 2 i) X n ∼ N µ, σn . ii) (n−1)S 2n σ2 ∼ χ2n−1 = Γ ¢ n−1 , 2 2 . ¡1 iii) X n und S 2n sind unabhängig. Beweis: Der Beweis des Satzes ist relativ kompliziert und wird daher an dieser Stelle nicht geführt. Definition 1.2.14 Student- t-Verteilung Sei n ∈ N. Dann heißt die durch die Lebesguedichte ¡ 1¢ Γ n+ 1 f ( x) = ¡ n2 ¢ · ´ n+1 ³ p Γ 2 2 2 nπ 1 + xn mit x ∈ R gegebene Verteilung auf R die Student- t-Verteilung mit n Freiheitsgraden. Wir schreiben dafür t n . Satz 1.2.15 Es seien X ∼ N (0, 1) und Y ∼ χ2n unabhängige Zufallsvariablen. Dann gilt: X q ∼ tn Y n 3 Dies ist ein Ergebnis aus der Analysis. 17 1 Einführung Kurz: Formal nicht ganz korrekt lässt sich dies als „ N (0,1) r χ2 n n = t n “ merken. Beweis: Da der Beweis umfangreich und aufwändig ist wird er hier nicht geführt. Korollar 1.2.16 Es seien X 1 , . . . , X n ∼ N (µ, σ2 ) unabhängige Zufallsvariablen. Dann gilt: ´ p ³ n Xn − µ ∼ t n−1 Sn Beweis: Wir verwenden Satz 1.2.13, der uns sagt, dass X n und S 2n unabhängig sind. Nun ist p X n −µ n σ ∼ N (0, 1), wie wir im Wesentlichen schon im Beweis von Lemma 1.2.7 gezeigt haben. Satz 1.2.13 sagte uns ferner, dass (n−1)S 2n σ2 ∼ χ2n−1 gilt. Mit Satz 1.2.15 folgt nun p ³ X n −µ ´ n σ t n−1 ∼ r (n−1)S 2n σ2 · 1 n−1 ´ p ³ n Xn − µ = Sn . Die nötige Unabhängigkeit folgt aus den obigen Überlegungen. Bemerkungen: • Die Aussage des Korollars 1.2.16 kann benutzt werden, um zu berechnen, wie weit X n von µ mit vorgegebener Wahrscheinlichkeit abweicht, falls σ2 unbekannt ist. • Die in diesem Abschnitt auftretenden Verteilungsfunktionen haben keine geschlossene Formel. Man greift daher auf Tabellen, R, MatLab und andere Software zurück. 18 1.3 Die empirische Verteilungsfunktion 1.3 Die empirische Verteilungsfunktion Nachdem wir uns mit einigen Grundbegriffen beschäftigt haben wollen wir uns nun eine komplexere Stichprobenfunktion anschauen. Definition 1.3.1 Empirische Verteilungsfunktion Wir werden den Begriff der empirischen Verteilungsfunktion für Stichproben und für Zufallsvariablen einführen: • Es seien x1 , . . . , xn ∈ R. Dann heißt die Funktion F n : R → [0, 1] n 1X t 7→ 1(−∞,t] ( x i ) für t ∈ R n i=1 die empirische Verteilungsfunktion zu der Stichprobe x1 , . . . , xn . • Es seien X 1 , . . . , X n : (Ω, A , P ) → R unabhängig und identisch verteilte Zufallsvariablen. Dann heißt F n ( t, ω) := n 1X 1(−∞,t] ( X i (ω)) n i=1 für t ∈ R und ω ∈ Ω die empirische Verteilungsfunktion zu der Zufallsstichprobe X 1 , . . . , X n . Für ein festes ω ∈ Ω ist dies eine Funktion F (·, ω) : R → [0, 1]. Die Funktionen t 7→ F n ( t) und t 7→ F n ( t, ω) für festes ω ∈ Ω sind Verteilungsfunktionen. Das zu P t 7→ F n ( t) zugehörige Maß heißt empirisches Maß und ist durch n1 ni=1 δ{ x i } gegeben, wobei δ{ x i } das Dirac-Maß im Punkt x i ist. x1 x2 x3 x4 Abbildung 1.1: Skizzenhafte Darstellung einer empirischen Verteilungsfunktion 19 1 Einführung Satz 1.3.2 Glivenko-Cantelli Es seien (Ω, A , P ) ein Wahrscheinlichkeitsraum, X i : Ω → R i. i. d. Zufallsvariablen und F die Verteilungsfunktion von X 1 . Dann gilt µ½ ¾¶ P ω ∈ Ω : lim sup |F n ( t, ω) − F ( t)| = 0 = 1. n→∞ t∈R Mit anderen Worten konvergiert F n → F also P -fast sicher gleichmäßig. Beweis: Für t ∈ R definieren wir die Zufallsvariablen Yn ( t) := 1(−∞,t] ( X n ) und Z n ( t) := 1(−∞,t) ( X n ). Dann gilt, dass sowohl Yn als auch Z n jeweils i. i. d. sind. Ferner gilt EYn ( t) = EP X n 1(−∞,t] = P X n ((−∞, t]) = F ( t) und − F ( t0 ). E Z n ( t) = EP X n 1(−∞,t) = P X 1 ((−∞, t)) = F ( t ) := lim 0 t %t Mit dem SLLN für festes t ∈ R folgt dann n 1X Yi ( t) −→ EY1 ( t) = F ( t) und n i=1 n 1X F n ( t − , ω) = Z n ( t) −→ E Z1 ( t) = F ( t− ), n i=1 F n ( t, ω) = wobei die Konvergenz jeweils P -fast sicher gilt. Unser Ziel ist es nun, die Monotonie und rechtsseitige Stetigkeit zu verwenden, um aus diesen beiden Aussagen gleichmäßige Konvergenz zu folgern.n Definiere dazu oR := R ∪ {±∞} mit F (−∞) := 0 und F (∞) := 1. Für ein m ∈ N sei j ferner x j := inf x ∈ R : F ( x) ≥ m mit j = 0, . . . , m. Für eben solche j gilt dann: i) Für x ∈ [ x j−1 , x j ) gilt Stetigkeit von F . ii) Für x ∈ [ x j−1 , x j ) folgt j −1 m j −1 m ≤ F ( x) < j m. ≤ F ( x− ) < Dies folgt aus x j > x ≥ x j−1 und der rechtsseitigen j m, wobei dies aus F ( x) ≤ F ( x− ) und x < x j folgt. Wir definieren nun ferner R n ( ω ) := max j =1,...,m−1 n |F n ( x j , ω) − F ( x j )| + |F n ( x−j , ω) − F ( x−j )| o . Wegen den obigen Gleichungen gilt dann R n → 0 P -fast sicher. Für x ∈ [ x j−1 , x j ) folgt nun ii) F n ( x, ω) ≤ F ( x−j , ω) ≤ F ( x−j ) + R n (ω) ≤ i) j 1 + R n (ω) ≤ F ( x) + + R n (ω) m m und F n ( x, ω) ≥ F ( x j−1 , ω) ≥ F ( x j−1 ) − R n (ω) ≥ j−1 1 − R n (ω) ≥ F ( x) − − R n (ω). m m Setzt man dies zusammen, so folgt insgesamt also sup x∈R |F n ( x, ω) − F ( x)| ≤ P -fast sicher. 20 1 m + R n (ω) → 0 1.3 Die empirische Verteilungsfunktion Korollar 1.3.3 Sei (Ω, A , P ) ein Wahrscheinlichkeitsraum, X i : Ω → R i. i. d. Zufallsvariablen und P n,ω := 1 Pn n i =1 δ{ X i (ω)} das empirische Maß zu den Beobachtungen X 1 (ω), . . . , X n (ω). Für I := {(−∞, a] : a ∈ R} gilt dann µ½ ¾¶ P ω ∈ Ω : lim sup |P n,ω ( A ) − P X 1 ( A )| = 0 = 1. n→∞ A ∈ I Beweis: Für ein Intervall A ∈ I gilt P n,ω ( A ) = P n,ω ((−∞, a]) = n n 1X 1X δ{ X i (ω)} ((−∞, a]) = 1(−∞,a] ( X i (ω)) = F n ( t, ω). n i=1 n i=1 Da zudem P X 1 ( A ) = F (a) gilt folgt die Aussage dann aus Satz 1.3.2. Bemerkung: Es gibt noch andere Familien I ⊂ B , für welche die Aussage des Korollars 1.3.3 gilt. Beispiele hierfür sind {(−∞, a) : a ∈ R}, {[a, b] : a, b ∈ R}, sowie alle anderen Familien von Intervallen, {[a, b] ∪ [ c, d ] : a, b, c, d ∈ R} und viele weiterer solcher Konstruktionen. Für I = B gilt die Aussage jedoch nicht. i Eine genauere Beschreibung, wann dies für allgemeine, nicht notwendigerweise R-wertige Zufallsvariablen gilt, kann mit der so genannten VC-Dimension von I gegeben werden. 21 2 Punktschätzungen In diesem Kapitel wollen wir verschiedene Schätzer konstruieren und kennenlernen, um einen unbekannten Parameter aus der Grundgesamtheit zu schätzen. Mit solchen Punktschätzern werden in der Statistik viele grundlegende Größen geschätzt. 2.1 Grundlagen Im Folgenden sei, sofern nicht anders erwähnt, stets das Modell gemeint, das wir nun beschreiben. Es sei wie gewohnt X = Rn und P eine Teilmenge aller P n , wobei P ein Wahrscheinlichkeitsmaß auf R ist. Ferner sei X i : Rn → R die i -te Projektion, so dass X := ( X 1 , . . . , X n ) aus i. i. d. Zufallsvariablen besteht und P Xn = P gilt. Zusätzlich nehmen wir nun aber an, dass i Θ ⊂ Rm eine messbare Menge ist und wir eine Familie (Pϑ )ϑ∈Θ von Wahrscheinlichkeitsmaßen auf R haben, wobei für ϑ1 6= ϑ2 auch Pϑ1 6= Pϑ2 gelten soll. Wir schränken uns dann auf P = {Pϑn : ϑ ∈ Θ} ein. Unser Ziel ist es nun, den Parameter ϑ∗ zu schätzen, wobei wir von X i ∼ Pϑ∗ für ein „wahres“ – aber unbekanntes – ϑ∗ ausgehen. Dazu suchen wir Verfahren, die gute Schätzungen für jedes ϑ ∈ Θ liefern. Wir führen an dieser Stelle zudem die Schreibweisen Eϑ := EPϑ bzw. Eϑ := EP n ϑ und Varϑ := VarPϑ ein, wobei sich aus dem Zusammenhang ergeben wird, was genau gemeint ist. Definition 2.1.1 Schätzer Eine Borel-messbare Funktion Θ̂ : Rn → Rm heißt Schätzer. Die Idee hinter einem Schätzer ist die folgende: Ist ( x1 , . . . , xn ) ∈ Rn , so schätzt Θ̂( x1 , . . . , xn ) den Parameter. Zu beachten ist hierbei, dass wir nicht Θ̂ ∈ Θ fordern, obwohl dies typischerweise dennoch gilt. In diesem Fall heißt Θ̂ ◦ X := Θ̂( X 1 , . . . , X n ) Schätzung unserer Zufallsstichprobe X 1, . . . , X n. 23 2 Punktschätzungen Der Begriff des Schätzers ist damit natürlich sehr allgemein. Der nächste Schritt besteht daher darin, Eigenschaften festzulegen, die wir von einem guten Schätzer erwarten. Wir wollen also Eigenschaften festlegen, mit denen wir gute von schlechten Schätzern unterscheiden können. Definition 2.1.2 Erwartungstreue Es sei Θ̂ ein integrierbarer Schätzer (d. h. es gilt EPϑn |Θ̂( X 1 , . . . , X n )| < ∞ für alle ϑ ∈ Θ bzw. – äquivalent hierzu – es gilt Θ̂ ◦ X ∈ L 1 (Pϑn )). Dann heißt Θ̂: i) erwartungstreu oder unverzerrt genau dann, wenn Eϑ Θ̂( X 1 , . . . , X n ) = ϑ für alle ϑ ∈ Θ gilt. ii) asymptotisch erwartungstreu genau dann, wenn lim Eϑ Θ̂( X 1 , . . . , X n ) = ϑ für alle n→∞ ϑ ∈ Θ gilt. Es ist klar, dass aus Erwartungstreue auch asymptotische Erwartungstreue folgt. Einige Beispiele sind: • Das arithmetische Mittel X n ist ein erwartungstreuer Schätzer für den Erwartungswert. Sei Θ ⊂ R und Eϑ X 1 = ϑ, dann folgt die Unverzerrtheit aus Lemma 1.2.2. • Die Stichprobenvarianz S 2n ist ein erwartungstreuer Schätzer für die Varianz. Es sei Θ ⊂ R und Varϑ X 1 = ϑ; die Erwartungstreue folgt dann aus Lemma 1.2.5. P 1 2 2 • Wir definieren Θ̂( x1 , . . . , xn ) := n1 ni=1 ( x i − xn )2 , dann ist Θ̂ ◦ X = n− n S n . Da S n unverzerrt 1 n−1 ist, aber n− n 6= 1 gilt, ist Θ̂ nicht erwartungstreu. Wegen n → 1 ist der Schätzer jedoch asymptotisch erwartungstreu. • Kombination von Schätzern: Die Kombination ( X n , S 2n ) ist ein erwartungstreuer Schätzer für (Erwartungswert, Varianz). Formal heißt das für Θ ⊂ R2 , dass (Eϑ X 1 , Varϑ X 1 ) = ϑ für alle ϑ ∈ Θ gilt. Definition 2.1.3 Verzerrung/Bias Es sei Θ̂ ein integrierbarer Schätzer. Dann heißt ¡ ¢ Biasϑ Θ̂ := Eϑ Θ̂ ◦ X − ϑ die Verzerrung oder der Bias bezüglich ϑ. Beispiel 1 2 1 1 2 Wir wollen den Bias für Θ̂ ◦ X := n− n S n berechnen. Es gilt Biasϑ Θ̂ = − n Varϑ X 1 = − n σ mit σ2 := Varϑ X 1 , d. h. Θ̂ unterschätzt den zu schätzenden Parameter σ2 systematisch. Man leitet sich das wie folgt her: Eϑ 24 n−1 2 n−1 2 1 S n − σ2 = σ − σ2 = − σ2 n n n 2.1 Grundlagen Uns stellt sich nun aber das Problem, dass wir im Allgemeinen nicht erwarten können, dass unser Schätzer exakte Schätzungen liefert, d. h. im Allgemeinen gilt Θ̂( X 1 , . . . , X n ) 6= ϑ für X i ∼ Pϑ mit ϑ ∈ Θ. Die Frage ist nun also, wie wir solche Abweichungen beschreiben können. Definition 2.1.4 Verlustfunktion Eine messbare Funktion L : Θ × Rm → [0, ∞) heißt Verlustfunktion. Wir können dies so interpretieren, dass L(ϑ, Θ̂) die Abweichung der Schätzung θ̂ ∈ Rm von dem Parameter ϑ schätzt. Je kleiner L(ϑ, θ̂ ) ist, desto besser ist die Schätzung. Oft gilt daher zusätzlich L(ϑ, θ̂ ) = 0 für ϑ = θ̂ . Wir wollen uns nun ein Beispiel für eine Verlustfunktion anschauen, die wir immer wieder benötigen werden. Genauer gesagt ist es vorläufig die einzige Verlustfunktion, die uns beschäftigen wird. Beispiel Gauß- oder Least-Squares-Verlustfunktion Wir betrachten die Funktion L : R × R → [0, ∞) mit L(ϑ, Θ̂) := (ϑ − Θ̂)2 und nennen sie Verlustfunktion der kleinsten Quadrate. Wir können diese Funktion problemlos auf m Dimensionen ° °2 P 2 verallgemeinern vermöge °ϑ − Θ̂°2 = m i =1 (ϑ i − Θ̂ i ) , wobei ϑ = (ϑ1 , . . . , ϑ m ) und Θ̂ = (Θ̂1 , . . . , Θ̂ m ) ist. Definition 2.1.5 Risiko/Erwarteter Verlust Es sei Θ̂ : Rn → Rm ein Schätzer und L : Θ × Rm → [0, ∞) eine Verlustfunktion. Dann heißt die Abbildung ˆ R (ϑ, Θ̂) := L(ϑ, Θ̂ ◦ X ) dPϑn der erwartete Verlust oder das Risiko des Schätzers Θ̂. Zu beachten ist, dass R (ϑ, Θ̂) = ∞ durchaus vorkommen kann. Wir können eine Risikofunktion so interpretieren, dass sie den durchschnittlichen Verlust angibt, wenn wir Θ̂ sehr häufig auf Beobachtungen der Länge n anwenden. Dieser erwartete Verlust sollte natürlich möglichst klein sein. Satz 2.1.6 Es sei Θ̂ : Rn → R ein integrierbarer Schätzer und L die Verlustfunktion der kleinsten Quadrate. Dann gilt für alle ϑ ∈ Θ: ¡ ¢2 R (ϑ, Θ̂) = Varϑ Θ̂ ◦ X + Biasϑ Θ̂ 25 2 Punktschätzungen Beweis: Für den Beweis betrachte ˆ (ϑ − Θ̂ ◦ X ) dPϑn ˆ ˆ Θ̂ ◦ X (Θ̂ ◦ X )2 dPϑn ˆ µˆ ¶2 µˆ ¶2 ˆ 2 n n n = ϑ − 2ϑ Θ̂ ◦ X dPϑ + Θ̂ ◦ X dPϑ − Θ̂ ◦ X dPϑ + (Θ̂ ◦ X )2 dPϑn ˆ µˆ ¶2 2 n n = ϑ − 2ϑ Θ̂ ◦ X dPϑ + Θ̂ ◦ X dPϑ | {z } R (ϑ, Θ̂) = 2 dPϑn + 2 = ϑ − 2ϑ =(Biasϑ Θ̂)2 õˆ − Θ̂ ◦ X dPϑn | ˆ ¶2 − ! (Θ̂ ◦ X )2 dPϑn . {z } =− Varϑ Θ̂◦ X Damit haben wir genau die gewünschte Identität. Bemerkungen: • Die Güte eines Schätzers bezüglich der Verlustfunktion der kleinsten Quadrate wird also durch den Bias und die Varianz beschrieben. • Ist Θ̂ unverzerrt, so lässt sich die Güte allein durch die Varianz berechnen. Beispiel Für den Schätzer S 2n gilt R (ϑ, S 2n ) = Varϑ S 2n , da S 2n wie wir wissen unverzerrt ist. Für 1 Pn 2 n i =1 ( x i − x n ) gilt hingegen n−1 2 n Sn = ¶ µ ¶ µ ¶ µ n−1 2 n−1 2 n−1 2 2 2 Sn = Sn R ϑ, Varϑ S n + Biasϑ n n n µ ¶ n−1 2 1 = Varϑ S 2n + 2 (Varϑ X 1 )2 . n |n {z } | {z } ≥0=(Biasϑ S 2n )2 <1 Die Frage ist nun, welche dieser beiden Abschätzungen überwiegt. Sei z. B. X i ∼ N (µ, σ2 ), σ4 dann kann gezeigt werden, dass Varσ2 S 2n = n2− 1 ist. Damit folgt ¶ ¶ µ n−1 2 n − 1 2 2σ 4 1 (2 n − 1)σ4 (2 n − 1)( n − 1) 2σ4 R σ , Sn = + 2 σ4 = = · n n n−1 n n2 2{z n2 | } n−1 µ 2 <1 < Varσ2 S 2n = R (σ 2 , S 2n ). Wir können uns nun fragen, ob diese Abschätzung immer gilt. Dafür definieren wir den Exass-Kurtosis von Verteilungen als κϑ := 26 Eϑ ( X 1 − Eϑ X 1 )4 σ4ϑ − 3. 2.1 Grundlagen Auf genauere Herleitungen und dergleichen wollen wir hier ebenso verzichten wie auf den Nachweis dieser Gleichung: ¶ µ κϑ 2 2 2 4 Zϑ := Varϑ S n = σϑ + n−1 n ¢ ¡ 1 2 2 Nun gilt R ϑ, n− n S n ≤ R (ϑ, S n ) genau dann, wenn µ n−1 n ¶2 Zϑ2 + µ µ ¶ ¶ 1 4 1 4 n − 1 2 2 2n − 1 2 2 σ ≤ Zϑ ⇐⇒ 2 σϑ ≤ 1 − Zϑ = Zϑ n n2 ϑ n n2 µ ¶ 2 κϑ 4 4 ⇐⇒ σϑ ≤ (2 n − 1)σϑ + n−1 n 2n − 1 4n − 2 1 − 3n ⇐⇒ κϑ ≥ 1− = n n−1 n−1 n 3 1 − 3n · %− . ⇐⇒ κϑ ≥ n − 1 2n − 1 2 ¡ ¢ 1 2 Damit können wir nun folgern, dass für κϑ ≥ − 32 für alle n ≥ 2 folgt, dass R ϑ, n− Sn < n ¡ ¢ R ϑ, S 2n gilt. Umgekehrt gilt für κϑ < − 32 , dass es ein n 0 gibt, so dass für alle n ≥ n 0 die ¡ ¢ ¡ ¢ 1 2 2 umgekehrte Abschätzung R ϑ, n− n S n > R ϑ, S n gilt. Wir geben hier noch einige Beispiele für den Exass-Kurtosis: • Für N (µ, σ2 ) gilt κ = 0. • Für die Gleichverteilung auf [a, b] ist κ = −1.2. • Für B(1, p) ist κ = p= 1 2, 1−6p(1− p) p(1− p) . Damit gilt κ < − 23 genau für p ∈ 2 3, 3 ¡1 ¢ . Insbesondere gilt für dass κ = −2 ist. Man kann zeigen, dass κ ≥ −2 für alle Verteilungen gilt. 27 2 Punktschätzungen 2.2 Optimalität von Schätzern Wir wollen nun davon ausgehen, dass wir 1-dimensionale Schätzprobleme vorliegen haben, es gilt also Θ ⊂ R. Ferner sei L stets die Verlustfunktion der kleinsten Quadrate. Wir stellen uns nun die Frage, wann ein Schätzer gleichmäßig besser bezüglich des erwarteten Verlustes ist als alle anderen Schätzer. Die erste Beobachtung ist, dass es im Allgemeinen keinen gleichmäßig besten Schätzer gibt. Im folgenden Satz fassen wir dies genauer: Satz 2.2.1 Es sei Θ ⊂ R messbar mit |Θ| ≥ 2 und (Pϑ )ϑ∈Θ sei derart, dass es ϑ1 6= ϑ2 aus Θ mit Pϑ2 ¿ Pϑ1 gibt, d. h. aus Pϑ1 ( N ) = 0 folgt auch Pϑ2 ( N ) = 0 für alle messbaren N ⊂ R. Dann gilt für die Verlustfunktion der kleinsten Quadrate, dass es für alle Schätzer Θ̂ : Rn → R einen Schätzer Θ̂0 : Rn → R und ein ϑ ∈ Θ mit R (ϑ, Θ̂0 ) < R (ϑ, Θ̂) gibt. Beweis: Wir betrachten Θ̂ i : Rn → R mit Θ̂ i ( x) := ϑ i für i ∈ {1, 2} und alle x ∈ Rn . ´ die Schätzer Dann gilt R (ϑ i , Θ̂ i ) = (ϑ i − Θ̂ i ( x))2 dPϑn ( x) = 0. Es sei nun Θ̂ : Rn → R ein beliebiger Schätzer. i Wäre R (ϑ1 , Θ̂1 ) < R (ϑ1 , Θ̂), so wären wir bereits fertig. Es sei daher nun R (ϑ1 , Θ̂1 ) ≥ R (ϑ1 , Θ̂). Wegen R (ϑ1 , Θ̂1 ) = 0, R (ϑ1 , Θ̂) ≥ 0 und ˆ 0 = R (ϑ1 , Θ̂1 ) = R (ϑ1 , Θ̂) = (ϑ1 − Θ̂)2 dPϑn1 | {z } ≥0 folgt Pϑn -fast sicher auch Θ̂ = ϑ1 . Da ferner Pϑ2 ¿ Pϑ1 ist folgt mit dem Satz von Radon1 ´ Nikodym, dass Pϑ2 eine Dichte f bezüglich Pϑ1 hat, d. h. es gilt Pϑ2 ( A ) = A f dPϑ1 . Mit dem N Satz von Fubini folgt dann, dass 1n f ( x) := f ( x1 ) · . . . · f ( xn ) eine Dichte von Pϑn bezüglich Pϑn ist. 2 1 Wenden wir wieder den Satz von Radon-Nikodym an, so folgt Pϑn ¿ Pϑn . Dann folgt Pϑn -fast sicher Θ̂ = ϑ1 und damit schließlich 2 1 2 ˆ R (ϑ2 , Θ̂) = (ϑ2 − Θ̂)2 dPϑn2 = (ϑ2 − ϑ1 )2 > 0 = R (ϑ2 , Θ̂2 ). Bemerkungen: • Dieses Ergebnis gilt auch für allgemeinere Verlustfunktionen und mehrdimensionale Parametermengen, wenn ein paar technische Modifikationen vorgenommen werden. Insbesondere sollte angenommen werden, dass L(ϑ, ϑ) < L(ϑ, ϑ0 ) für alle ϑ 6= ϑ0 ist. • Der Beweis funktioniert, da die Schätzer Θ̂ i den Parameter ϑ i „kennen“. Gegen solche Schätzer hat es keinen Sinn zu vergleichen. In einem ersten Ansatz können wir konstante Schätzer ausschließen und die Eingangsfrage erneut stellen. Wir werden in Korollar 2.2.3 sehen, dass dieser Ansatz das Problem jedoch nicht löst. 28 2.2 Optimalität von Schätzern Satz 2.2.2 Es sei Θ ⊂ R und Θ̂1 , Θ̂2 : Rn → R seien quadrat-integrierbare Schätzer, d. h. es gilt Eϑ Θ̂2i < ∞ für alle ϑ ∈ Θ und i ∈ {1, 2}. Ferner seien Θ̂1 und Θ̂2 unterschiedlich, d. h. Eϑ (Θ̂1 − Θ̂2 )2 > 0 für alle ϑ ∈ Θ. Dann gilt für alle ϑ ∈ Θ und alle α ∈ (0, 1): R (ϑ, αΘ̂1 + (1 − α)Θ̂2 ) < αR (ϑ, Θ̂) + (1 − α)R (ϑ, Θ̂). Mit anderen Worten bedeutet dies, dass R (ϑ, ·) eine strikt konvexe Abbildung ist. Beweis: Wir definieren h : [0, 1] → [0, ∞) durch h(α) := R (ϑ, αΘ̂1 +(1−α)Θ̂2 ) und wollen zeigen, dass h strikt konvex ist, denn dann folgt h(α) = h(α · 1 + (1 − α) · 0) < α h(1) + (1 − α) h(0) = αR (ϑ, Θ̂1 ) + (1 − α)R (ϑ, Θ̂2 ). Aus der Analysis wissen wir, dass es bereits genügt, zu zeigen, dass h zweimal stetig differenzierbar mit stetigen Fortsetzungen auf den Rändern [0, 1] ist und dass h00 (α) > 0 für alle α ∈ (0, 1) gilt. Mit Hilfe der trinomischen Formel (a + b + c)2 = a2 + b2 + c2 + 2ab + 2ac + 2 bc erhalten wir nun ˆ h(α) = ˆ ¡ ¢2 ϑ − αΘ̂1 − (1 − α)Θ̂2 dPϑn ϑ2 + α2 Θ̂21 + (1 − α)2 Θ̂22 − 2ϑαΘ̂1 − 2ϑ(1 − α)Θ̂2 + 2α(1 − α)Θ̂1 Θ̂2 dPϑn . = Da dies im Wesentlichen ein Polynom ist, folgt nun ˆ 2αΘ̂21 − 2(1 − α)Θ̂22 − 2ϑΘ̂1 + 2ϑΘ̂2 + 2(1 − 2α)Θ̂1 Θ̂2 dPϑn . 0 h (α) = Nochmaliges Ableiten liefert ˆ 00 h (α) = ˆ 2Θ̂21 + 2Θ̂22 − 4Θ̂1 Θ̂2 dPϑn =2 ¡ ¢2 Θ̂1 − Θ̂2 dPϑn > 0. Korollar 2.2.3 Es sei Θ ⊂ R, L die Verlustfunktion der kleinsten Quadrate und Θ̂ : Rn → R ein Schätzer mit R (ϑ, Θ̂) > 0 für ein ϑ ∈ Θ, d. h. Θ̂ ist Pϑn -fast sicher nicht konstant. Dann gibt es einen Schätzer Θ̂0 : Rn → R mit 0 < R (ϑ, Θ̂0 ) < R (ϑ, Θ̂). Mit anderen Worten ist Θ̂0 also ein nicht-konstanter Schätzer, der echt besser als Θ̂ ist. Ist Θ ferner beschränkt und Θ̂ unverzerrt, so können für Θ̂0 für beliebiges ε > 0 so wählen, dass | Biasϑ0 Θ̂0 | ≤ ε für alle ϑ0 ∈ Θ gilt. 29 2 Punktschätzungen Beweis: Wir setzen Θ̂ϑ ( x) := 0 für alle x ∈ Rn und Θ̂0 := (1 − α)Θ̂ + αΘ̂ϑ für ein α ∈ (0, 1). Mit Satz 2.2.2, der die Konvexität behandelte, folgt nun R (ϑ, Θ̂0 ) < (1 − α)R (ϑ, Θ̂) + α R (ϑ, Θ̂ϑ ) < R (ϑ, Θ̂). | {z } =0 Wäre R (ϑ, Θ̂0 ) = 0, so folgt ferner Pϑn -fast sicher Θ̂0 = 0 und daraus wiederum Pϑn -fast sicher ϑ = (1 − α)Θ̂ + αϑ. Dann wäre aber ϑ = Θ̂ und wir erhielten einen Widerspruch zur vorausgesetzten nicht-Konstantheit. Für die zweite Aussage des Korollars betrachten wir ¡ ¢ ¡ ¢ Biasϑ0 Θ̂0 = Eϑ0 (1 − α)Θ̂ + αϑ − ϑ0 = Eϑ0 (1 − α)Θ̂ − (1 − α)ϑ0 +α(ϑ − ϑ0 ) = α(ϑ − ϑ0 ). | {z } =Biasϑ0 Θ̂=0 Wir können α nun klein genug wählen und erhalten so die Aussage des Korollars. Bemerkungen: • Aus dem zweiten Teil des Beweises erhalten wir auch die Aussage Biasϑ Θ̂0 = 0. • Das Korollar gilt auch für alle anderen strikt konvexen Verlustfunktionen, da sich die strikte Konvexität von L auf R (ϑ, ·) überträgt. Dies ist technisch ein wenig aufwendiger, konzeptionell aber analog beweisbar. Das Fazit dieser Arbeit ist nun, dass wir die Klasse der betrachteten Schätzer deutlich weiter einschränken müssen, wenn wir die Existenz gleichmäßig bester Schätzer garantieren wollen. Dies führt uns zur nun folgenden Definition 2.2.4. Definition 2.2.4 Bester unverzerrter Schätzer Es sei Θ̂∗ : Rn → R ein unverzerrter, quadrat-integrierbarer Schätzer. Dann heißt Θ̂∗ bester unverzerrter Schätzer genau dann, wenn R (ϑ, Θ̂∗ ) ≤ R (ϑ, Θ̂) für alle unverzerrten Schätzer Θ̂ : Rn → R und alle ϑ ∈ Θ gilt. Nach Satz 2.1.6 ist dies äquivalent dazu, dass Varϑ Θ̂∗ ≤ Varϑ Θ̂ für alle Schätzer Θ̂ : Rn → R und alle ϑ ∈ Θ gilt. Damit haben wir zunächst den Begriff des besten unverzerrten Schätzers definiert, müssen uns nun also fragen, ob es einen solchen Schätzer Θ̂∗ überhaupt gibt und falls ja, ob dieser eindeutig ist. Satz 2.2.5 Es sei Θ ⊂ R messbar und (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen. Dann gibt es höchstens einen besten unverzerrten Schätzer Θ̂∗ . 30 2.2 Optimalität von Schätzern ¡ ¢2 Beweis: Es seien Θ̂∗ und Θ̂× zwei beste unverzerrte Schätzer mit Eϑ Θ̂∗ − Θ̂× > 0 für ein ϑ ∈ Θ. Damit sind diese beiden Schätzer insbesondere nicht gleich. Wir definieren nun Θ̂ := 12 Θ̂∗ + 12 Θ̂× und sehen, dass Θ̂ ebenfalls quadrat-integrierbar und unverzerrt ist. Aus der Optimalität folgt R (ϑ, Θ̂∗ ) ≤ R (ϑ, Θ̂× ) und ebenso die umgekehrte Ungleichung. Mit Satz 2.2.2 folgt nun 1 1 1 1 R (ϑ, Θ̂) < R (ϑ, Θ̂∗ ) + R (ϑ, Θ̂× ) = R (ϑ, Θ̂∗ ) + R (ϑ, Θ̂∗ ) = R (Θ, Θ̂∗ ). 2 2 2 2 Dies steht jedoch im Widerspruch zur Optimalität von Θ̂∗ . Definition 2.2.6 Nullschätzer Ein integrierbarer Schätzer 0̂ : Rn → R heißt Nullschätzer für ein ϑ0 ∈ Θ genau dann, wenn die folgenden beiden Bedingungen erfüllt sind: ³ ´ i) 0̂ ∈ L 2 Pϑn , das heißt Eϑ0 0̂2 < ∞. 0 ii) Eϑ 0̂ = 0 für alle ϑ ∈ Θ. Ferner heißt 0̂ Nullschätzer genau dann, wenn 0̂ Nullschätzer für alle ϑ ∈ Θ ist. Bemerkungen: ³ ´ • Die Menge der Nullschätzer bezüglich ϑ0 ist ein linearer Teilraum von L 2 Pϑn , da Eϑ0 0 linear ist. ³ ´ • Sind Θ̂, Θ̂0 ∈ L 2 Pϑn unverzerrte Schätzer, so ist 0̂ := Θ̂ − Θ̂0 ein Nullschätzer für ϑ0 . Umge0 ³ ´ n kehrt gilt auch: Ist Θ̂ ∈ L 2 Pϑ unverzerrt und 0̂ ein Nullschätzer, so ist Θ̂0 := Θ̂ + t0̂ für alle 0 t ∈ R unverzerrt. Satz 2.2.7 Satz von Rao ³ ´ Es sei Θ̂ : Rn → R ein unverzerrter Schätzer und ϑ0 ∈ Θ derart, dass Θ̂ ∈ L 2 Pϑn gilt. 0 Dann sind folgende Aussagen äquivalent: ³ ´ i) Es gilt R (ϑ0 , Θ̂) ≤ R (ϑ0 , Θ̂0 ) für alle unverzerrten Schätzer Θ̂0 ∈ L 2 Pϑn . 0 ii) Es gilt Eϑ0 Θ̂0̂ = 0 für alle Nullschätzer 0̂ bezüglich ϑ0 . Insbesondere ist Θ̂ bester unverzerrter Schätzer genau dann, wenn Eϑ Θ̂0̂ = 0 für alle Nullschätzer 0̂ und alle ϑ ∈ Θ gilt. Beweis: Für die Richtung ³ ´ von i) nach ii) sei t ∈ R und 0̂ ein Nullschätzer bezüglich ϑ0 . Dann n 0 ist Θ̂ := Θ̂ + t0̂ ∈ L 2 Pϑ unverzerrt. Damit gilt R (ϑ0 , Θ̂) = Varϑ0 Θ̂ und R (ϑ0 , Θ̂0 ) = Varϑ0 Θ̂0 . 0 31 2 Punktschätzungen ¡ ¡ ¢ ¢ Für t > 0 gilt nach Voraussetzung zudem 0 ≤ t−1 Varϑ0 Θ̂ + t0̂ − Varϑ0 Θ̂ . Überdies gilt auch die allgemeine Formel Var( X + Y ) = E( X − E X + Y − EY )2 = Var X + Var Y + 2 E(( X − E X )(Y − EY )) , | {z } =:Cov(X ,Y ) wobei Cov( X , Y ) die wie hier definierte Kovarianz bezeichnet. Damit folgt nun ¡ ¢ 0 ≤ t−1 Varϑ0 Θ̂ + t2 Varϑ0 0̂ + 2 t Cov(Θ̂, 0̂) − Varϑ0 Θ̂ = 2 Cov(Θ̂, 0̂) + t Varϑ0 0̂. Für t & 0 folgt dann Cov(Θ̂, 0̂) ≥ 0. Analog gilt für t < 0 auch 0 ≥ 2 Cov(Θ̂, 0̂) + t Varϑ0 0̂ und damit Cov(Θ̂, 0̂) ≤ 0. Insgesamt erhalten wir also ¡¡ ¢¡ ¢¢ 0 = Cov(Θ̂, 0̂) = Eϑ0 Θ̂ − Eϑ0 Θ̂ 0̂ − Eϑ0 0̂ = Eϑ0 Θ̂0̂ − ϑ0 Eϑ0 0̂ (*) = Eϑ0 Θ̂0̂. ³ ´ Für die Richtung von ii) nach i) sei Θ̂0 ∈ L 2 Pϑn unverzerrt. Dann ist 0̂ := Θ̂0 − Θ̂ ein Nullschät0 zer und wegen Varϑ0 ≥ 0 folgt: ¡ ¢ Varϑ0 Θ̂0 = Varϑ0 Θ̂ + 0̂ = Varϑ0 Θ̂ + Varϑ0 0̂ + 2 Cov(Θ̂, 0̂) (*) ≥ Varϑ0 Θ̂ + 2Eϑ0 Θ̂0̂ = Varϑ0 Θ̂. Beispiel 2.2.8 Anwendung des Satzes von Rao Es sei Pϑ := B(1, ϑ) für ϑ ∈ [0, 1]. Dann ist X n bester unverzerrter Schätzer für ϑ. Beweis: Zunächst ist nach Lemma 1.2.2 klar, dass X n quadrat-integrierbar und unverzerrt ist. Unser Ziel ist es, Satz 2.2.7 anzuwenden. Dazu sei 0̂ : Rn → R ein Nullschätzer und h : [0, 1] → R mit h(ϑ) := Eϑ 0̂ für ϑ ∈ [0, 1]. Offensichtlicherweise folgt daraus h(ϑ) = 0 und damit auch h0 (ϑ) = 0 für alle ϑ ∈ [0, 1]. Andererseits gilt Pn Pn X h(ϑ) = 0̂( x)ϑ i=1 x i (1 − ϑ)n− i=1 x i , x∈{0,1}n woraus wir dann für die Ableitung das Folgende erhalten: µ ¶ X nxn n − nxn nxn 0 0 = h (ϑ) = 0̂( x) θ (1 − ϑ)n−nxn − ϑ 1−ϑ x∈{0,1}n ³ ´ n = Eϑ X n − ϑ 0̂ ϑ(1 − ϑ) n = Eϑ X n 0̂ ϑ(1 − ϑ) Damit sind wir für ϑ ∈ (0, 1) fertig. Die beiden Randpunkte können separat elementar betrachtet werden, dies führen wir hier jedoch nicht aus. 32 2.2 Optimalität von Schätzern Dies beendet unser Beispiel. Bemerkungen: i) Die entwickelte Theorie benötigt keine reellen Beobachtungen. Alles bleibt unverändert für allgemeine x i ∈ X . ii) Satz 2.2.7 liefert noch für einige andere Schätzer die Optimalität. Der Satz liefert uns jedoch lediglich ein Kriterium zur Verifizierung der Optimalität, nicht jedoch zur Konstruktion optimaler Schätzer. iii) Die Bedingung ii) des Satzes besagt, dass der beste unverzerrte Schätzer orthogonal zu den Nullschätzern ist. iv) Die Existenz bester unverzerrter Schätzer ist eher unüblich als üblich. Satz 2.2.9 Satz von Chapman-Robbins Es seien ϑ0 6= ϑ ∈ Θ und Pϑ ¿ Pϑ0 . Ferner sei f die Dichte von Pϑ bezüglich Pϑ0 und N f n := 1n f , das heißt f n ( x) = f ( x1 ) · . . . · f ( xn ), sowei Θ̂ : Rn → R ein erwartungstreuer Schätzer. Dann gilt R (ϑ0 , Θ̂) = Varϑ0 (Θ̂) ≥ Beweis: Wir betrachten zunächst ˆ ϑ − ϑ0 = Eϑ (Θ̂) − Eϑ0 (Θ̂) = wobei der letzte Schritt wegen Ungleichung folgt nun n ˆ Θ̂ f − Θ̂ ´ (ϑ − ϑ0 )2 . Varϑ0 ( f n ) dPϑn0 = ˆ n Θ̂( f − 1) dPϑn0 = ¡ Θ̂ − ϑ0 ¢¡ ¢ f n − 1 dPϑn0 , f n − 1 dPϑn = 0 folgt. Durch Anwendung der Cauchy-Schwartz0 ³ ¡ ¢2 ´ 12 ³ ¢1 ¡ ¡ ¢2 ´ 12 ¡ ¢1 ≤ Eϑ0 Θ̂ − ϑ0 Eϑ0 f n − 1 = Varϑ0 Θ̂ 2 Varϑ0 f n 2 . Durch Quadrieren erhalten wir dann das Gewünschte. Korollar 2.2.10 Es seien die selben Voraussetzungen wie im vorausgehenden Satz 2.2.9 gegeben. Ferner sei Θ̂ : Rn → R ein unverzerrter Schätzer, für welchen die Gleichheit (ϑ − ϑ0 )2 Varϑ0 Θ̂ = Varϑ0 f n gelte. Dann ist Θ̂ bester unverzerrter Schätzer für ein ϑ. 33 2 Punktschätzungen Beweis: Die Gültigkeit der Aussage des Korollars ist klar, wenn ein Schätzer, wie vorausgesetzt, die untere Schranke des vorausgehenden Satzes annimmt. Im Allgemeinen wird die untere Schranke nicht angenommen. Notwendig zum Annehmen der Schranke ist Θ̂ − ϑ0 = c( f n − 1) mit c ∈ R, da dann die Cauchy-Schwartz-Ungleichung eine echte Gleichung wird. 34 2.3 Konstruktionsmethoden für Punktschätzer 2.3 Konstruktionsmethoden für Punktschätzer Wir wollen nun verschiedene Verfahren kennenlernen, um Schätzer zu konstruieren und diese näher untersuchen. Momentenmethode Die erste Methode zur Konstruktion von Punktschätzern, die wir hier einführen wollen, ist die Momentenmethode nach Karl Pearson (*1857 – †1936). Dazu sei Θ ⊂ Rm für ein m ∈ R und Eϑ | X i |r < ∞ für ein r ≥ m und alle ϑ ∈ Θ. Ferner seien die Funktionen g k : Θ → R mit g k (ϑ) := Eϑ X 1k für k ∈ {1, . . . , r } bekannt. Dann ist unser Ansatz wie folgt: P • Für x = ( x1 , . . . , xn ) ∈ Rn betrachten wir die k-ten empirischen Momente m̂ k ( x) = n1 ni=1 x ki . • Wir setzen m̂ k ( x) = g k (ϑ) für k = 1, . . . , r und versuchen dieses Gleichungssystem zu lösen. • Wir betrachten nun die Abbildung g := ( g 1 , . . . , g r ) : Θ → Rr mit g(Θ) := { g(ϑ) : ϑ ∈ Θ} und m̂ := ( m̂ 1 , . . . , m̂ r ) : Rr → Rr . Definition 2.3.1 Momentenschätzer Falls m̂( x) ⊂ g(Θ) für alle x ∈ Rn gilt und g injektiv ist nennen wir Θ̂ = g−1 ◦ m̂ : Rr → Θ einen Momentenschätzer, falls Θ̂ zudem messbar ist. Bemerkungen: • Die Voraussetzung m̂( x) ⊂ g(Θ) sichert, dass das Gleichungssystem mindestens eine Lösung hat. • Die Injektivität von g macht es möglich, das Gleichungssystem sogar eindeutig zu lösen. • Falls g−1 stetig ist, so ist Θ̂ ein Momentenschätzer, der überdies konsistent ist, denn es gilt dann Pϑ∞ -fast sicher m̂ k ◦ X = m̂ k ( X 1 , . . . , X n ) = n 1X X ik , n i=1 woraus Eϑ X 1k = g k (ϑ) und damit wiederum m̂ ◦ X → g(ϑ) Pϑ∞ -fast sicher folgt. Dann folgt Pϑ∞ -fast sicher aber auch Θ̂( X ) = g−1 ◦ m̂( X ) → ϑ. Beispiel Normalverteilung Es sei Θ = R × (0, ∞) und Pϑ = N (µ, σ2 ) für ϑ = (µ, σ2 ). Dann ist m = 2 und r = 2. Ferner ist 35 2 Punktschätzungen g 1 (µ, σ2 ) = E(µ,σ2 ) X 1 = µ und g 2 (µ, σ2 ) = E(µ,σ2 ) X 12 = σ2 + µ2 . Damit erhalten wir das folgende Gleichungssystem: i) ii) n 1X xi = µ n i=1 n 1X x2i = µ2 + σ2 n i=1 Daraus folgt nun à ! à !2 n n n n 1X 1X 1 X 1X 2 2 2 σ = xi − xi = x i − xn = ( x i − xn )2 , n i=1 n i=1 n i=1 n i=1 2 wobei wir die letzte Gleichheit ³bereits im Beweis von Lemma 1.2.5 gezeigt hatten. Damit ist ´ n−1 2 der Momentenschätzer durch X n , n S n gegeben. Insbesondere ist dieser Schätzer nicht erwartungstreu. Beispiel Binomialverteilung Wir betrachten nun Θ = N × [0, 1] und Pϑ = B( k, p) für ϑ = ( k, p). Mit anderen Worten bedeutet dies, dass wir weder p noch k kennen. Es ist m = r = 2, g 1 ( k, p) = k p und g 2 ( k, p) = k p(1 − p) + k2 p2 . Damit ist das Gleichungssystem gegeben durch: i) ii) n 1X xi = k p n i=1 n 1X x2 = k p(1 − p) + k2 p2 n i=1 i P Das Einsetzen der ersten in die zweite Gleichung liefert n1 ni=1 x2i = xn (1 − p) + xn 2 , was äquiva2 1 2 1 Pn 2 lent zu n− n s n = n i =1 ( x i − x n ) = x n (1 − p) ist. Damit erhalten wir xn − n−n 1 s2n xn > 0 xn p= . 0 := 0 sonst 0 Ferner ist k = xn p. Für X n 6= 0 erhalten wir damit den Momentenschätzer à Xn 2 1 2 X n − n− n Sn , 1 2 X n − n− n Sn Xn ! . Bemerkungen: • Es gibt Familien (Pϑ )ϑ∈Θ , für die das Gleichungssystem für r = m nicht eindeutig lösbar ist. • Es kann vorkommen, dass m( x) ∉ g(Θ) ist. In diesem Fall ergibt die Momentenmethode keinen Sinn und kann nicht angewendet werden. 36 2.3 Konstruktionsmethoden für Punktschätzer Maximum-Likelihood-Schätzer Der nächste Schätzer, den wir konstruieren wollen, ist der Maximum-Likelihood-Schätzer. Dieser stellt eine der wichtigsten Methoden zur Gewinnung von Schätzern dar und wurde erstmals von Gauss erwähnt, später dann von Fisher (*1890 – †1962) weiterentwickelt. Wir gehen davon aus, dass Θ ⊂ Rm ist und die Pϑ Wahrscheinlichkeitsmaße auf R sind. Diese zweite Annahme ist nicht notwendig, der Einfachheit halber treffen wir sie dennoch. Ferner existiere ein Maß µ auf R mit den folgenden Eigenschaften: i) Es gilt Pϑ ¿ µ. ii) Jedes Pϑ besitze eine „kanonische“ Dichte f (·, ϑ) bezüglich µ, das heißt zum Beispiel: a) µ sei das Zählmaß auf C ⊂ R und C sei abzählbar. Dann ist ( Pϑ ({ x}) x ∈ C f ( x, ϑ) = . 0 sonst b) Sei µ das Lebesguemaß und die Pϑ haben die stetige Dichte f (·, ϑ) bezüglich µ. Dann ist dies die kanonische Dichte. Definition 2.3.2 Likelihood-Funktion Es sei f (·, ϑ) die kanonische Dichte von Pϑ bezüglich µ. Dann heißt für L : Rn × Θ → [0, ∞) L( x1 , . . . , xn , ϑ) := L( x, ϑ) := n Y f ( x i , ϑ) mit x ∈ Rn , ϑ ∈ Θ i =1 die Abbildung ϑ 7→ L( x, ϑ) die Likelihood-Funktion der Stichprobe x ∈ Rn . Zu beachten ist, dass L hier für likelihood und nicht für loss steht. Diese doppelte NamensgeN bung ist in der Fachliteratur jedoch üblich. Da L(·, ϑ) = ni=1 f (·, ϑ) gilt ist die i. i. d.-Annahme fest in L eingebaut. Definition 2.3.3 Maximum-Likelihood-Schätzer Es sei f (·, ϑ) die kanonische Dichte von Pϑ und L : Rn × Θ → [0, ∞) wie in Definition 2.3.2 die Likelihood-Funktion. Dann heißt ein Schätzer Θ̂ : Rn → R Maximum-LikelihoodSchätzer (MLE, engl. maximum-likelihood estimator) genau dann, wenn für alle x ∈ Rn und alle ϑ ∈ Θ gilt: L( x, ϑ) ≤ L( x, Θ̂( x)) (MLE 1) Der Maximum-Likelihood-Schätzer nimmt für jede Beobachtung also einen Parameter Θ̂( x) an, für welchen der Wert der Dichte in x maximal wird. Die Idee ist nun: Je größer die Dichte 37 2 Punktschätzungen in x ist, desto wahrscheinlicher ist x. In diesem Sinne wählt der MLE den Parameter aus, für welchen die Beobachtung von x am „wahrscheinlichsten“ ist. Bemerkungen: • Im Allgemeinen ist der Maximum-Likelihood-Schätzer nicht eindeutig. • Ferner existiert im Allgemeinen auch nicht unbedingt ein Maximum-Likelihood-Schätzer, zum Beispiel wenn L stetig und Θ offen ist, sowie das Maximum auf dem Rand von Θ angenommen wird. • Das Optimierungsproblem (MLE 1) ist manchmal analytisch lösbar, wofür wir gleich ein Beispiel sehen werden. Häufig ist dies aber auch nicht der Fall. Man kann dann auf numerische Optimierung zurückgreifen, die zum Teil jedoch sehr aufwendig werden kann. • Zur Vereinfachung von (MLE 1) wird häufig der Logarithmus von L betrachtet: log L( x, ϑ) = log n Y f ( x i , ϑ) = i =1 n X log f ( x i , ϑ) i =1 Man sieht dann, dass Θ̂ ein Maximum-Likelihood-Schätzer ist genau dann, wenn für alle x ∈ Rn und ϑ ∈ Θ die folgende Optimierungsbedingung gilt: log L( x, ϑ) ≤ log L( x, Θ̂( x)) (MLE 2) Wie man sieht wurde aus dem Produkt in (MLE 1) dabei eine Summe in (MLE 2). Dies ist sowohl analytisch als auch numerisch häufig einfacher handhabbar. Wir nennen den Logarithmus ϑ 7→ log L( x, ϑ) der Likelihood-Funktion auch die log-Likelihood-Funktion der Stichprobe x ∈ Rn . Beispiel Glühbirnen Es gibt drei Hersteller von Glühbirnen, die jeweils einen Ausschussanteil von ϑ1 := 0.09, ϑ2 := 0.11 und ϑ := 0.12 haben. Wir erhalten eine Lieferung von zehn Glühbirnen, von denen jedoch eine defekt ist. Mit Hilfe des Maximum-Likelihood-Schätzers wollen wir nun schätzen, von welchem Hersteller die Lieferung stammt. Dazu betrachten wir die i -te Projektion π i : {0, 1}10 → {0, 1} und die B(1, ϑ)10 -Verteilung auf P {0, 1}10 . Unsere Beobachtung ist dann ni=1 π i , wobei dies eine B(10, ϑ)-verteilte Zufallsvariable ist und daher folgende Dichte besitzt: à ! 10 k f ( k, ϑ) = ϑ (1 − ϑ)10−k mit k ∈ {0, . . . , 10} k In unserem Fall haben wir n = 1 Beobachtung, welche den Wert k = 1 annimmt. Wir berechnen für die ϑ i also jeweils die zugehörige Dichte und erhalten folgende Tabelle: 38 θ f (1, θ ) 0.09 0.11 0.12 0.3851 0.3854 0.3798 2.3 Konstruktionsmethoden für Punktschätzer Das Maximum wird für ϑ = ϑ2 = 0.11 angenommen, dies ist also unser Schätzer und wir gehen davon aus, dass der zweite Hersteller geliefert hat. Beispiel Binomialverteilung I Es sei Θ = [0, 1] und Pϑ = B(1, ϑ) für ϑ ∈ Θ. Damit haben wir für ϑ ∈ Θ folgende Dichte gegeben: (Q n xi 1− x i x ∈ {0, 1}n i =1 ϑ (1 − ϑ) f ( x, ϑ) = 0 sonst Wir betrachten nun die einzelnen Fälle: i) Ist x = 0, so nimmt L( x, ·) das Maximum bei ϑ = 0 an. ii) Für x = (1, . . . , 1) nimmt L( x, ·) das Maximum bei ϑ = 1 an. iii) Für x ∉ {0, 1}n erzielt jedes ϑ das Maximum. iv) Ist hingegen x ∈ {0, 1}n , aber sowohl x 6= 0, als auch x 6= (1, . . . , 1), so gilt 0 < Damit ist à ! à ! n n X X ϑ 7→ log L( x, ϑ) = x i log ϑ + n − x i log(1 − ϑ) i =1 Pn i =1 x i < n. i =1 eine stetige Funktion, für welche gilt: lim log L( x, ϑ) = lim log L( x, ϑ) = −∞ ϑ→0 ϑ→1 Damit ist klar, dass log L( x, ·) ein Maximum besitzt. Ferner gilt nun ! à ! à n n X X ∂ 1 ! 1 xi log L( x, ϑ) = xi − n− = 0. ∂ϑ ϑ 1−ϑ i =1 i =1 (*) P b Eine Gleichung der Form at − 1− = 0 ist genau für t = a+a b erfüllt. Mit a = ni=1 x i und t P P b = n − ni=1 x i folgt, dass (*) die eindeutige Lösung ϑ = n1 ni=1 x i = xn besitzt. Damit ist X n der Maximum-Likelihood-Schätzer. Beispiel Binomialverteilung II Es sei Θ = [0, 1] und Pϑ = B( m, ϑ) für ϑ ∈ Θ und ein festes, bekanntes m ≥ 1. Die Dichte ist dann gegeben durch (¡ ¢ m x ϑ (1 − ϑ)m− x x ∈ {0, . . . , m} f ( x, ϑ) = x . 0 sonst Wir betrachten nun die log-Likelihood-Funktion, die wie folgt gegeben ist: à ! à ! à à !! n n n m X X Y log L( x, ϑ) = x i log ϑ + nm − x i log(1 − ϑ) + log i =1 i =1 i =1 x i Die Rechnung verläuft analog zum vorausgehenden Beispiel und liefert den Maximum1 Likelihood-Schätzer m X n. 39 2 Punktschätzungen Beispiel Normalverteilung Es sei Θ = R × (0, ∞) und Pϑ = N (µ, σ2 ) für ϑ = (µ, σ2 ). Für ϑ ∈ Θ ist die Dichte dann für x ∈ Rn wie folgt gegeben: µ ¶ 1 1 ( x − µ )2 2 f ( x, µ, σ ) = p exp − 2 σ2 2πσ2 Wieder betrachten wir hier die log-Likelihood-Funktion õ µ ¶n n ¶! n Y 1 ( x i − µ)2 1 n 1 X 2 2 exp − ( x i − µ )2 . log(2 πσ ) − log L( x, µ, σ ) = log p = − 2 2 2 2 σ 2 2σ i=1 2πσ i =1 Differenzieren nach µ liefert für die beiden ersten Ableitungen ∂ ∂µ log L( x, µ, σ2 ) = n n ( x n − µ) ! 1 X ( x − µ ) = = 0, i σ2 i=1 σ2 sowie ∂2 ∂µ2 log L( x, µ, σ2 ) = − n < 0. σ2 Damit ist für jedes σ2 > 0 und x ∈ Rn die Funktion µ 7→ log L( x, µ, σ2 ) bei µ = xn maximal, das heißt die µ-Komponente des Maximum-Likelihood-Schätzers ist X n . Wir betrachten nun die Abbildung σ2 7→ log L( x, xn , σ2 ), für die gilt: lim log L( x, xn , σ2 ) = lim log L( x, xn , σ2 ) = −∞ σ2 →0 σ2 →∞ Da auch diese Abbildung stetig ist muss sie ein Maximum annehmen. Differenzieren nach der Varianz liefert n ∂ n 1 X ! 2 ( x i − xn )2 = 0. log L ( x, x , σ ) = − + n 2 2 4 ∂σ 2σ 2σ i=1 P 1 2 Löst man diese Gleichung nach der Varianz, so erhält man σ2 = n1 ni=1 ( x i − xn )2 = n− n s n . Damit ³ ´ 1 2 erhalten wir also schließlich den Maximum-Likelihood-Schätzer X n , n− n Sn . Beispiel Gleichverteilung Es sei Θ = (0, ∞) und Pϑ die Gleichverteilung auf [0, ϑ]. Für ϑ ∈ Θ ist die Dichte dann wie folgt gegeben: f ( x, ϑ) = 1 · 1[0,ϑ] ( x) ϑ Die Likelihood-Funktion ist somit L( x, ϑ) = ϑ−n · 1[0,ϑ]n ( x). Für ϑ ≥ max i x i gilt dann L( x, ϑ) = ϑ−n . Diese Funktion ist für steigendes ϑ monoton fallend. Für ϑ < max i x i gilt hingegen L( x, ϑ) = 0. Damit liegt das Maximum bei ϑ = max i x i und wir erhalten max i X i als MaximumLikelihood-Schätzer. 40 2.3 Konstruktionsmethoden für Punktschätzer Satz 2.3.4 Gilt log f (·, ϑ) ∈ L 1 (Pϑ0 ) für alle ϑ, ϑ0 ∈ Θ und Pϑ 6= Pϑ0 für ϑ 6= ϑ0 , so gilt für alle ϑ, ϑ0 ∈ Θ mit ϑ 6= ϑ0 folgende Abschätzung: Eϑ log f (·ϑ) > Eϑ log f (·, ϑ0 ) Beweis: Mit den Logarithmus-Rechenregeln erhalten wir Eϑ log f (·, ϑ0 ) − Eϑ log f (·, ϑ) = Eϑ log f (· , ϑ 0 ) . f (· , ϑ ) Es gilt log t < t − 1 für t 6= 1. Wir betrachten nun Pϑ ( f (·, ϑ) = f (·, ϑ0 )). Wäre dies 1, so wären die Dichten fast-überall gleich, was unseren Voraussetzungen jedoch widerspräche. Es gibt also eine nicht-Nullmenge, auf denen sie echt verschieden sind und wir erhalten µ < Eϑ ˆ = ¶ ˆ µ ¶ f (· , ϑ 0 ) f (· , ϑ 0 ) −1 = − 1 f (·, ϑ) dµ f (· , ϑ ) f (· , ϑ ) f (·, ϑ0 ) − f (·, ϑ) dµ = 1−1 = 0. Satz 2.3.5 Es sei Θ ⊂ Rm kompakt und die kanonischen Dichten f (·, ϑ) erfüllen die folgenden Bedingungen: i) Es gilt log f (·, ϑ) ∈ L 1 (Pϑ0 ) für alle ϑ, ϑ0 ∈ Θ. ii) Die Funktionen log f ( x, ·) : Θ → R sind für x ∈ R gleichmäßig gleichgradig stetig, das ° ° heißt für alle ε > 0 existiert ein δ > 0, so dass für alle ϑ, ϑ0 ∈ Θ mit °ϑ − ϑ0 ° < δ und alle x ∈ R gilt: | log f ( x, ϑ) − log f ( x, ϑ0 )| < ε. Dann gilt für jeden Maximum-Likelihood-Schätzer Θ̂n Θ̂n −→ ϑ Pϑ∞ -fast sicher für alle ϑ ∈ Θ. 41 2 Punktschätzungen Mit anderen Worten bedeutet dies, dass der Maximum-Likelihood-Schätzer konsistent ist. Satz 2.3.4 besagte also, dass ϑ das MLE-Optimierungsproblem für „ n = ∞“ löst, während Satz 2.3.5 uns nun sagt, dass die Lösung für „ n < ∞“ gegen die Lösung für „ n = ∞“ konvergiert. Beweis: Wir fixieren ϑ ∈ Θ und x ∈ R∞ . Nun definieren wir die folgenden beiden Abbildungen: n 1X log f ( x i , ϑ0 ) n i=1 F x,n : Θ → R mit ϑ0 7→ F: Θ→R mit ϑ0 7→ Eϑ log f (·, ϑ0 ) Wir wollen zunächst zeigen, dass F und F x,n stetig sind. Sei dazu ε > 0 und δ > 0 ° gleichmäßig ° gemäß ii). Dann folgt für alle ϑ0 , ϑ00 ∈ Θ mit °ϑ0 − ϑ00 ° < δ |F (ϑ0 ) − F (ϑ00 )| ≤ Eϑ | log f (·, ϑ0 ) − log f (·, ϑ00 )| ≤ ε. Man kann dies analog für F x,n zeigen. Nun wollen wir die eigentliche Behauptung beweisen. S Sei also δ > 0 gegeben. Da Θ kompakt ist existiert ein endliches N ⊂ Θ mit Θ ⊂ ϑ∈ N B(ϑ, δ). ° ° Dies bedeutet, dass für alle ϑ0 ∈ Θ ein ϑ00 ∈ N mit °ϑ0 − ϑ00 ° < δ existiert. Daraus folgt mit dem ersten Teil, dass |F (ϑ0 ) − F (ϑ00 )| ≤ ε und analog |F x,n (ϑ0 ) − F x,n (ϑ00 )| ≤ ε gilt. Ferner sichert das starke Gesetz der großen Zahlen (SLLN) für alle ϑ00 ∈ N F x,n (ϑ00 ) = n 1X log f ( x i , ϑ00 ). n i=1 ° ° Damit folgt Pϑ∞ -fast sicher Eϑ log f (·, ϑ00 ) = F (ϑ00 ). Sei nun ϑ0 ∈ Θ und ϑ00 ∈ N mit °ϑ0 − ϑ00 ° < δ, dann gilt |F x,n (ϑ0 ) − F (ϑ0 )| ≤ |F x,n (ϑ0 ) − F x,n (ϑ00 )| +|F x,n (ϑ00 ) − F (ϑ00 )| + |F (ϑ00 ) − F (ϑ0 ) , | {z } | {z } ≤ε ≤ε also gilt |F x,n (ϑ0 ) − F (ϑ0 )| ≤ 2ε + |F x,n (ϑ00 ) − F (ϑ00 )|. Sei nun x ∈ R∞ mit |F x,n (ϑ00 ) − F (ϑ00 )| → 0. Wir wissen bereits, dass dies Pϑ∞ -fast alle sind. Für hinreichend große n und alle ϑ0 ∈ Θ folgt damit |F x,n (ϑ0 ) − F (ϑ0 )| ≤ 3ε. Mit Satz 2.3.4 und dieser Abschätzung folgt dann F (ϑ) ≥ F (Θ̂( x)) ≥ F x,n (Θ̂( x)) − 3ε MLE ≥ F x,n (ϑ) − 3ε ≥ F (ϑ) − 6ε. Das heißt für hinreichend große n gilt |F (ϑ) − F (Θ̂( x)| ≤ 6ε. Für ϑn := Θ̂( x) gilt daher F (ϑn ) → F (ϑ). Wir müssen nun noch zeigen, dass ϑn → ϑ gilt. Dazu nehmen wir an, dass dies nicht der Fall ist. Dann existiert ein ρ > 0 und eine Teilfolge ϑn k mit |ϑn k − ϑ| > ρ . Da Θ kompakt ist, ist Θ insbesondere auch folgenkompakt. Es existiert also ein ϑ ∈ Θ und eine Teilfolge ϑn k mit l ³ ´ ϑn k → ϑ. Damit gilt F (ϑ) ← F ϑn k ← F (ϑ). Also muss F (ϑ) = F (ϑ) gelten. Mit Satz 2.3.4 folgt l l ϑ = ϑ, was einen Widerspruch zu |ϑn k − ϑ| > ρ darstellt. Damit ist der Satz bewiesen. l 42 2.3 Konstruktionsmethoden für Punktschätzer Bemerkungen: i) Der Beweis von Satz 2.3.5 benutzt eine gleichmäßige Version des starken Gesetzes der großen Zahlen (SLLN). Diese wurde durch die Kompaktheit von Θ und die gleichmäßig gleichgradige Stetigkeit der log-Dichten erreicht. Weder die Kompaktheit noch die gleichmäßig gleichgradige Stetigkeit sind für Satz 2.3.5 jedoch notwendig. ii) Die Annahme Θ ⊂ Rm ist nicht notwendig. Satz 2.3.5 hätte ohne Modifikationen auch für beliebige kompakte metrische Räume Θ bewiesen werden können. Der MaximumLikelihood-Schätzer ist also auch für nicht-klassische parametrische Annahmen konsistent. iii) Die Voraussetzung, dass Pϑ ein Maß auf R ist, wurde ebenfalls nicht verwendet, es kann also auch hier verallgemeinert werden. 43 2 Punktschätzungen 2.4 Bayes-Schätzer Bis jetzt haben wir bei der Bewertung von Schätzern verlangt, dass gute Schätzer gleichmäßig optimal sind (engl. worst-case scenario). Wir wollen dies ändern, indem wir annehmen, dass bestimmte ϑ ∈ Θ in einem gewissen Sinne „wahrscheinlicher“ oder „wichtiger“ sind. Es sei Θ ⊂ Rm und (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R. Ferner haben Pϑ wie bei den Maximum-Likelihood-Schätzern eine kanonische Dichte bezüglich eines Maßes µ auf R. Zudem gebe es einen Wahrscheinlichkeitsraum (Ω, A , ν) und eine messbare Abbildung Θ̃ : Ω → Θ, deren Verteilung das Bildmaß Q = Θ̃ν sei. Wir nennen Q die a-priori-Verteilung von ϑ. Weiter nehmen wir an, dass Q eine kanonische Dichte q bezüglich eines Maßes µ̃ auf Θ besitzt. Die Idee ist nun, mit zufälligen Parametern ϑ = Θ̃(ω) zu arbeiten. Die Verteilung Q beschreibt die Wahrscheinlichkeit der Parameter ϑ bevor wir die Daten gesehen haben. Daher modelliert Q das Vorwissen über die Wahrscheinlichkeit von ϑ ∈ Θ. Im Folgenden bezeichne L, sofern nicht anders angegeben, stets die Likelihood-Funktion Q vermöge L( x, ϑ) := ni=1 f ( x i , ϑ) für alle x ∈ Rn und ϑ ∈ Θ. Wir wollen annehmen, dass L : Rn × Θ → [0, ∞) messbar ist. Definition 2.4.1 A-posteriori-Wahrscheinlichkeitsdichte ´ Für x ∈ Rn schreiben wir f ( x) := L( x, ϑ) q(ϑ) dµ̃(ϑ). Ist f ( x) > 0, so nennen wir q x : Θ → L(x,ϑ)q(ϑ) [0, ∞) vermöge q x (ϑ) := f (x) die a-posteriori-Wahrscheinlichkeitsdichte von Θ beim Vorliegen der Beobachtung x. Falls f ( x) = 0 ist, so kann man beispielsweise q x (ϑ) := 0 setzen, dieser Fall tritt jedoch fastsicher nicht ein. ´ f (x) Die Abbildung q x ist tatsächlich eine Dichte, wie man durch q x (ϑ) dµ̃ = f (x) = 1 leicht nachrechnen kann. Das Produkt L( x, ϑ) q(ϑ) beschreibt die infinitesimale Wahrscheinlichkeit für die Beobachtung ( X , ϑ) und die Abbildung f ( x) ist die Randdichte von x bezüglich der gemeinsamen Verteilung von ( x, Θ̃), sie beschreibt also gewissermaßen die Wahrscheinlichkeit von x. Damit können wir q x so interpretieren, dass diese Abbildung die Wahrscheinlichkeit von „ϑ unter der Bedingung x“ beschreibt. Sind µ und µ̃ Zählmaße, so stimmt diese Interpretation mit dem elementaren Begriff der bedingten Wahrscheinlichkeit überein, im anderen Fall stimmt dies zwar prinzipiell auch, benötigt jedoch einige technische Anstrengungen. 44 2.4 Bayes-Schätzer Definition 2.4.2 Bayes-Schätzer Es sei Θ ⊂ R, das heißt m = 1. Falls alle auftretenden Integrale existieren, nennen wir die Abbildung Θ̂ : Rn → R, die durch ˆ Θ̂( x) := Θ ϑ q x (ϑ) dµ̃(ϑ) gegeben ist und gewissermaßen den „Erwartungswert des Maßes q x dµ̃“ beschreibt, einen Bayes-Schätzer. Für höhere Dimensionen m > 1 kann man den Begriff analog komponentenweise definieren. Da q x dµ̃ die Wahrscheinlichkeit von ϑ unter der Bedingung x beschreibt, gibt der BayesSchätzer das mittlere ϑ bezüglich dieser Verteilung zurück. Wir können nun die Frage stellen, in welchem Sinne der Bayes-Schätzer optimal ist. Dazu wollen wir unsere Begriffe für das Risiko und die Optimalität von Schätzern verbessern. Bisher vergleichen wir die Schätzer punktweise, Abbildung 2.1 illustriert aber, dass es durchaus passieren kann, dass ein Schätzer an manchen Punkt besser, an anderen Punkten schlechter als ein anderer Schätzer ist. R (·, Θ̂1 ) R (·, Θ̂2 ) glm. bester Schätzer Θ Abbildung 2.1: Schätzer können punktweise besser und schlecht als andere Schätzer sein, gleichmäßig beste Schätzer sind hingegen überall besser. Aufgetragen sind hier die Risikofunktionen. Die Idee ist daher nun, dass wir die Schätzer nicht mehr punktweise mit Hilfe der Risikofunktionen vergleichen, sondern die Fläche unter eben diesen betrachten. Damit können wir zwei Schätzer immer vergleichen. 45 2 Punktschätzungen Definition 2.4.3 Gemittelter quadratischer Verlust Sei Θ ⊂ R und Θ̂ : Rn → R ein quadrat-integrierbarer Schätzer. Dann heißt die Abbildung ˆ R (Θ̂) := Θ ˆ ˆ R (ϑ, Θ̂) q(ϑ)dµ̃(ϑ) = Θ Rn ¡ ¢2 ϑ − Θ̂( x) dPϑn ( x) q(ϑ)dµ̃(ϑ) der über Q = qdµ̃ gemittelte quadratische Verlust des Schätzers Θ̂. Wir wollen nun zeigen, dass der Bayes-Schätzer bezüglich dieses neuen Risikobegriffs optimal ist. Satz 2.4.4 ´ Sei Θ ⊂ R und Θ ϑ2 dQ (ϑ) < ∞. Ferner sei der Bayes-Schätzer Θ̂ quadrat-integrierbar. Dann ist Θ̂ der einzige quadrat-integrierbare Schätzer, der den über Q gemittelten quadratischen Verlust minimiert, das heißt für alle quadrat-integrierbaren Schätzer Θ̂0 gilt R (Θ̂) ≤ R (Θ̂0 ), wobei Gleichheit genau dann herrscht, wenn µn -fast sicher für alle x ∈ Rn mit f ( x) > 0 auch Θ̂( x) = Θ̂0 gilt. Beweis: Wir betrachten zunächst das Risiko ˆ ˆ R (Θ̂ ) = 0 = ˆΘ ˆR Θ Tonelli = n n ¡ ¢2 ϑ − Θ̂0 ( x) dPϑn ( x) q(ϑ)dµ̃(ϑ) ¡ ¢2 ϑ − Θ̂0 ( x) L( x, ϑ) dµn q(ϑ)dµ̃(ϑ) ˆRˆ ¡ ¢2 ϑ − Θ̂0 ( x) L( x, ϑ) q(ϑ) dµ̃( x) dµn ( x), Rn Θ | {z } h x (t) wobei wir t := Θ̂0 ( x) setzen. Nun wollen wir h x (·) für jedes x minimieren und benötigen dafür die entsprechenden Ableitungen. Im Wesentlichen haben wir dies jedoch bereits im Beweis von Satz 2.2.2 erledigt und es gilt d d h x ( t) = dt dt ˆ ˆ 2 Θ (ϑ − t) L( x, ϑ) q(ϑ) dµ̃(ϑ) = Θ (2 t − 2ϑ)L( x, ϑ) q(ϑ) dµ̃(ϑ) ! = 0. Daraus erhalten wir nun folgende Gleichung: ˆ ˆ t L( x, ϑ) q(ϑ) dµ̃(ϑ) = {z } | Θ f (x) 46 Θ ϑL( x, ϑ) q(ϑ) dµ̃(ϑ) 2.4 Bayes-Schätzer Für f ( x) > 0 können wir durch diesen Ausdruck dividieren und erhalten damit ˆ L( x, ϑ) q(ϑ) t= ϑ dµ̃(ϑ) = f ( x) Θ | {z } ˆ Θ ϑ q x (ϑ) dµ̃(ϑ) = Θ̂( x). q x (ϑ ) Für die zweite Ableitung erhalten wir zudem d2 h x ( t) = 2 d t2 ˆ Θ L( x, ϑ) q(ϑ) dµ̃(ϑ) = 2 · f ( x) > 0. Damit besitzt h x (·) also genau ein globales Maximum, das bei Θ̂( x) angenommen wird. i Normalerweise wird Q als Vorwissen über mögliche ϑ interpretiert. Typischerweise ist ein Kritikpunkt am Bayes-Schätzer-Ansatz die Frage, woher wir ein derart präzies Vorwissen haben. Man kann hierauf z. B. antworten, dass die Wahl von Q den Schätzer wenig beeinflusst, dies stimmt jedoch nur zum Teil. Da diesbezüglich ein langer Streit zwischen den Verfechtern existiert, wird in der Fachwelt auch von Bayesions und Frequentists gesprochen. In einer alternativen Betrachtungsweise beschreibt Q unsere Gewichtung, das heißt an welchen Stellen wir gutes Verhalten eher sehen wollen und Stellen, an denen uns gutes Verhalten weniger interessiert. Diese Betrachtungsweise gibt Freiheit bei der Wahl von Q und appelliert nicht an ein etwaiges Vorwissen. Eine Möglichkeit wäre es so zum Beispiel für Q die Gleichverteilung auf Θ zu wählen, das heißt wir erachten das Verhalten unseres Schätzers für überall gleich wichtig (engl. uninformed prior). Beispiel Binomialverteilung Es sei Pϑ := B( m, ϑ) auf R mit ϑ ∈ [0, 1] und m ≥ 1. Dann existiert eine kanonische Dichte vermöge (¡ ¢ m k ϑ (1 − ϑ)m−k k = 0, . . . , m f ( k, ϑ) = k . 0 sonst Dies ist die kanonische Dichte bezüglich des Zählmaßes auf N0 . Nun sei µ̃ die Gleichverteilung auf [0, 1], dann ist q(ϑ) := 1 für alle ϑ ∈ [0, 1] die kanonische Dichte bezüglich des Lebesguemaßes auf [0, 1]. Ferner sei n = 1, dann entspricht unsere Situation der Summenbildung nach m-maligen Werfen einer unfairen Münze und wir erhalten die Likelihood-Funktion L( k, ϑ) = f ( k, ϑ), sowie dementsprechend L( k, ϑ) q(ϑ) = f ( k, ϑ). Für k = 0, . . . , m gilt dann ˆ 1 ˆ 1 ˆ 1à ! m k f ( k) = L( k, ϑ) q(ϑ) dϑ = f ( k, ϑ) dϑ = ϑ (1 − ϑ)m−k dϑ k 0 0 0 à ! m ( m − k)! k! m! ( m − k)! k! = = · ( m − k)! k! ( m + 1)! k ( m + 1)! = 1 . m+1 47 2 Punktschätzungen Für den Bayes-Schätzer folgt damit nun ˆ Θ̂( k) = ˆ 1 ϑ q k (ϑ) dϑ = 0 = 0 1 L( k, ϑ) q(ϑ) ϑ· dϑ = ( m + 1) f ( k) ˆ 1à ! 0 m k+1 ϑ (1 − ϑ)m−k dϑ k k+1 . m+2 Mit einfachen algebraischen Umformungen führt dies auch zu = k 1 2 m 2 1 m · + · = · xm + · . m+2 m 2 m+2 m+2 m+2 2 Dabei ist xm als arithmetisches Mittel ein gleichmäßig bester Schätzer, und da 12 der Erwartungswert von µ̃ ist, ist der Bayes-Schätzer gewissermaßen eine Mischung zwischen diesen beiden Größen. Wir wollen an dieser Stelle festhalten, dass die bis jetzt verwendeten Optimalitätsbegriffe wirklich verschieden sind: • Nach Beispiel 2.2.8 ist X n gleichmäßig bester unverzerrter Schätzer für p ∈ [0, 1] von der Familie B(1, p). n 2 1 Xn + · der Bayes-Schätzer. n+2 n+2 2 Ferner ist der Bayes-Schätzer im Allgemeinen nicht erwartungstreu. Die Konsistenz des Bayes-Schätzers hängt stark von der konkreten Situation ab. • Im vorausgehenden Beispiel war 48 2.5 Cramér-Rao-Ungleichung 2.5 Cramér-Rao-Ungleichung In diesem Kapitel wollen wir uns damit beschäftigen, die Chapman-Robbins-Ungleichung zu verbessern. Satz 2.5.1 Es sei (Pϑ )ϑ∈Θ eine Familie von Verteilungen auf R, wobei Θ ⊂ R offen sei. Ferner habe Q Pϑ die kanonische Dichte f (·, ϑ) bezüglich des Maßes µ und es sei L( x, ϑ) := ni=1 f ( x i , ϑ) mit x ∈ Rn und ϑ ∈ Θ die Likelihood-Funktion, für welche folgende Eigenschaften gelten: i) Die Menge B := { x ∈ R : f ( x, ϑ) > 0} sei unabhängig von ϑ ∈ Θ. ii) Die Abbildung f ( x, ·) : Θ → [0, ∞) sei für alle x ∈ R differenzierbar. ˆ ∂ iii) Es gelte B ∂ f ( x, ϑ) dµ( x) = ∂ϑ ˆ f ( x, ϑ) dµ( x) = 0. ∂ϑ B Dann gilt für jeden quadrat-integrierbaren Schätzer Θ̂n , für welchen die Ableitung ∂ E Θ̂ existiert und der die Gleichung ∂ϑ ϑ n ˆ ∂ ∂ϑ Eϑ Θ̂n = Bn Θ̂n ( x) ∂ ∂ϑ L( x, ϑ) dµn ( x) (*) erfüllt, die Cramér-Rao-Ungleichung: ¡ Varϑ Θ̂n ≥ Hierbei ist zu beachten, dass Eϑ ¡ n · Eϑ ¢2 ∂ f (· , ϑ ) ∂ϑ ¢2 ∂ E Θ̂ ∂ϑ ϑ n ¡ ¢2 ∂ log f (·, ϑ) ∂ϑ von n unabhängig ist. ∂ Beweis: Wir setzen φϑ ( x) := ∂ϑ log L( x, ϑ) · 1B n ( x). Für ϑ ∈ Θ gilt dann à Varϑ φϑ = Varϑ n X = i =1 Mit der Regel (log f )0 = Eϑ ∂ ∂ϑ f0 f ∂ ∂ϑ Varϑ log n Y ! à f ( X i , ϑ) · 1B n ( x) = Varϑ i =1 ∂ ∂ϑ log f ( X i , ϑ) = n · Varϑ ∂ ∂ϑ ! n ∂ X log f ( X i , ϑ) i =1 ∂ϑ log f ( X 1 , ϑ). folgt nun ˆ ∂ log f (·, ϑ) = B ∂ϑ ˆ ∂ log f ( x, ϑ) f ( x, ϑ) dµ( x) = B ∂ϑ f ( x, ϑ) dµ( x) iii) = 0. 49 2 Punktschätzungen Damit erhalten wir für die Varianz µ µ ¶2 µ ¶2 ¶ ∂ ∂ Varϑ φϑ = n · Varϑ log f (·, ϑ) = n Eϑ log f (·, ϑ) − Eϑ log f (·, ϑ) ∂ϑ ∂ϑ ∂ϑ µ ¶2 ∂ = n · Eϑ log f (·, ϑ) . ∂ϑ ∂ Wir verwenden nun die Cauchy-Schwartz-Ungleichung und erhalten ¡ ¡ ¢¢2 ¡ ¢2 Eϑ (φϑ − Eϑ φϑ ) Θ̂n − En Θ̂n ≤ Eϑ (φϑ − Eϑ φϑ )2 · Eϑ Θ̂n − Eϑ Θ̂n µ ¶2 ∂ = n · Eϑ log f (·, ϑ) · Varϑ Θ̂n . ∂ϑ (**) Damit folgt schließlich ¡ ¢ Eϑ (φϑ − Eϑ φϑ ) Θ̂n − Eϑ Θ̂n = Eϑ φϑ Θ̂n − Eϑ φϑ Eϑ Θ̂n = Eϑ φϑ Θ̂n ˆ ∂ = log L( x, ϑ) · Θ̂n ( x)L( x, ϑ) dµn ( x). B n ∂ϑ Durch eine vollständige Induktion und mit Hilfe der Kettenregel folgt ˆ = (*) = Bn ∂ ∂ϑ Θ̂n ( x) ∂ ∂ϑ L( x, ϑ) dµn ( x) Eϑ Θ̂n . Verbindet man dies noch mit (**), so erhalten wir die Aussage und sind fertig. Korollar 2.5.2 Unter den Voraussetzungen des Satzes 2.5.1 gilt für jeden quadrat-integrierbaren und erwartungstreuen Schätzer, der (*) aus diesem Satz erfüllt, die folgende Abschätzung: Varϑ Θ̂n ≥ 1 n · Eϑ ¡ ¢2 ∂ log f (·, ϑ) ∂ϑ Die Risiken solcher Schätzer können also nicht schneller als 1 n gegen 0 konvergieren. Beweis: Es gilt wegen der Erwartungstreue Eϑ Θ̂n = ϑ. Daraus folgt können Satz 2.5.1 anwenden. ∂ E Θ̂ ∂ϑ ϑ n = 1 und wir Ist Θ̂n ein erwartungstreuer Schätzer, sind alle Voraussetzung von Satz 2.5.1 beziehungsweise von Korollar 2.5.2 erfüllt und gilt zusätzlich, dass die Schranke im Korollar 2.5.2 für alle ϑ ∈ Θ angenommen wird, so folgt, dass Θ̂n gleichmäßig bester erwartungstreuer Schätzer ist. 50 2.5 Cramér-Rao-Ungleichung Beispiel 2.5.3 Normalverteilung Es seien X i ∼ N (µ, σ2 ) Zufallsvariablen mit bekanntem σ2 > 0, aber unbekanntem µ ∈ R. ³ ´ (x−µ)2 ∂ f ( x, µ) = p 1 2 · Dann ist f ( x, µ) = p 1 2 exp − 2σ2 und wir erhalten für die Ableitung ∂µ 2 πσ 2πσ ³ ´ (x−µ)2 exp − 2σ2 . Nun gilt B = R und wenn µ das Lebesguemaß ist, so erhalten wir ˆ ˆ ¶ µ 1 1 µ µ µ ∂ ( x − µ)2 f ( x, µ) d x = 2 p d x − 2 = 2 − 2 = 0. x exp − 2 2 ∂µ σ 2σ σ σ σ | 2πσ {z } x−µ · σ2 Eµ X 1 =µ Damit sind die Voraussetzungen ³ i)–iii) ´ von Satz 2.5.1 erfüllt. Ferner betrachten wir X n als σ2 Schätzer. Klar ist, dass X n ∼ N µ, n gilt. Damit ist X n quadrat-integrierbar und erwartungs∂ Eµ X n = 1. Damit fehlt noch die Gleichung (*) aus Satz 2.5.1. Um diese treu und wir erhalten ∂µ zu zeigen führen wir eine Induktion über n durch. Für den Induktionsanfang mit n = 1 gilt ˆ x R ∂ ∂µ ˆ x−µ x · 2 f ( x, µ) d x R ˆ σ ˆ ¶ µ 1 2 = 2 x f ( x, µ) d x − µ x f ( x, µ) d x σ R R 1 = 2 Varµ X 1 σ = 1. f ( x, µ) d x = Damit kommen wir zum Induktionsschritt. Die Induktionsvoraussetzung lautet ˆ Ãn ! X ∂ xi L n ( x, µ) dn x = n. n ∂µ R i =1 (IV) Wir wollen zunächst die Ableitung im Integranden näher untersuchen. Es gilt ∂ ∂µ L n+1 ( x, µ) = = +1 ∂ nY ∂µ ∂ ∂µ i =1 f ( x i , µ) = ∂ ¡ ∂µ ¢ L n ( x, µ) · f ( xn+1 , µ) L n ( x, µ) f ( xn+1 , µ) + L n ( x, µ) ∂ ∂µ f ( xn+1 , µ). Ferner gilt nun à ! à !µ ¶ n n X X ∂ ∂ ∂ xi L n+1 ( x, µ) = xi L n ( x, µ) f ( xn+1 , µ) + L n ( x, µ) f ( xn+1 , µ) . ∂µ ∂µ ∂µ i =1 i =1 Für das Integral erhalten wir dann mit dem Satz von Fubini à ! ˆ ˆ ˆ Ãn ! n X X ∂ ∂ xi L n+1 ( x, µ) dn+1 x = f ( xn+1 , µ) xi L n ( x, µ) dn x d xn+1 ∂µ ∂µ Rn+1 i =1 R Rn i =1 | {z } =n ˆ Ãn ! ˆ X ∂ f ( xn+1 , µ) d xn+1 dn x + x i L n ( x, µ) n ∂µ R i =1 |R {z } =0 = n. 51 2 Punktschätzungen Wir betrachten nun noch den anderen Summanden. Es gilt ˆ ˆ µ ¶ ∂ ∂ ∂ n+1 xn+1 L n+1 ( x, µ) d xn+1 x= L n ( x, µ) · f ( xn+1 , µ) + L n ( x, µ) f ( xn+1 , µ) dn+1 x n+1 ∂µ ∂µ ∂µ Rn+1 ˆR ˆ ∂ = xn+1 f ( xn+1 , µ) L n ( x, µ) dn x d xn+1 n ∂µ R R =1 ˆ zˆ + R n L n ( x, µ) |R xn+1 }| ∂ { f ( xn+1 , µ) d xn+1 dn x . ∂µ {z } =1 Wir überprüfen nun den ersten Summanden in diesem letzten Ausdruck. Für das innere Integral gilt für alle n ≥ 1 ˆ ∂ Rn ∂µ L n ( x, µ) dn x = 0. Dies lässt sich z. B. mittels einer vollständigen Induktion beweisen. Der Induktionsanfang ∂ ∂ ∂ L n+1 = ∂µ L n f + L n ∂µ f . Inentspricht hier (**) und für den Induktionsschritt gilt skizzenhaft ∂µ ´ ´ ∂ ∂ tegriert man über diesen Ausdruck, so wird ∂µ L n f = 0 und L n ∂µ f = 0. Insgesamt erhalten wir damit also ˆ ∂ xn+1 L n+1 ( x, µ) dn+1 x = 1. ∂µ Rn+1 Damit folgt die Gleichung (*) aus Satz 2.5.1. Wir haben nun also alle Voraussetzungen des Satzes bzw. des folgenden Korollars 2.5.2 erfüllt und erhalten die folgende Abschätzung: 1 ´ ³ Varµ X n ≥ ∂ log f (·, µ)2 n · Eµ ∂µ Wir wollen nun noch zeigen, dass hier sogar die Gleichheit gilt. Wir betrachten dazu zunächst µ ¶ ∂ ∂ 1 ( x − µ )2 x−µ 2 log f ( x, µ) = − log 2πσ − = . ∂µ ∂µ 2 2σ 2 σ2 Damit folgt dann µ Eµ ∂ ∂µ log f (·, µ) ¶2 = ˆ ³ x − µ ´2 R ˆ 1 σ4 1 = 2. σ σ2 ( x − µ)2 f ( x, µ) d x = = 2 f ( x, µ) d x R 1 1 2 Var X = σ µ 1 σ4 σ4 2 Damit erhalten wir nun Varµ X n ≥ σn . Es gilt aber auch Varµ X n = n1 Varµ X 1 = σn , daher ist die Cramér-Rao-Ungleichung exakt und damit ist X n gleichmäßig bester, erwartungstreuer Schätzer. An dieser Stelle wollen wir noch anmerken, dass die Voraussetzungen des Satzes 2.5.1 im Allgemeinen wirklich notwendig sind. 52 2.6 Weitere Eigenschaften von Schätzern 2.6 Weitere Eigenschaften von Schätzern Alle Annahmen und Notationen seien wie im vorausgehenden Kapitel gegeben. Unser erstes Ziel ist es nun, die Verteilung von Θ̂n − ϑ für n → ∞ zu untersuchen. Satz 2.6.1 Es sei (Pϑ )ϑ∈Θ eine Familie von Verteilungen auf R mit kanonischer Dichte f (·, ϑ) bezüglich µ. Ferner sei Θ ⊂ R offen. Zudem gelten die folgenden Eigenschaften: i) Die Menge B := { x ∈ R : f ( x, ϑ) > 0} ist unabhängig von ϑ. ii) Für ϑ 6= ϑ0 gilt Pϑ 6= Pϑ0 . iii) Die Abbildung f ( x, ·) : Θ → [0, ∞) ist dreimal stetig differenzierbar. iv) Für k ∈ {1, 2} gilt die Gleichung ∂k ∂ϑk ˆ ˆ ∂k f ( x, ϑ) dµ( x) = B B ∂ϑk f ( x, ϑ) dµ( x). Für k = 1 soll das Integral dabei zusätzlich den Wert 0 annehmen. v) Für alle ϑ0 ∈ Θ existiere ein c ϑ0 > 0 und ein g ϑ0 : B → [0, ∞) mit Eϑ0 | g ϑ0 | < ∞, so dass für alle x ∈ B n folgende Ungleichung gilt: ¯ 3 ¯ ¯ ∂ ¯ ¯ ¯ ≤ g ϑ ( x) log f ( x, ϑ ) 0 ¯ ∂ϑ3 ¯ Wir definieren nun die Fisher-Information I (ϑ) := Eϑ i) I (ϑ) = Varϑ ∂ ∂ϑ ¡ ¢2 ∂ . log f ( · , ϑ ) ∂ϑ Dann gilt: log f (·, ϑ) für alle ϑ ∈ Θ. ii) Ist I (ϑ) ∈ (0, ∞) für alle ϑ ∈ Θ, so folgt für jeden (schwach) konsistenten MaximumLikelihood-Schätzer Θ̂n und alle ϑ ∈ Θ p ¡ ¢ nI (ϑ) Θ̂n − ϑ −→ N (0, 1) in Verteilung. Es gilt hierbei folgende Punkte zu beachten: i) Die Konsistenz des Maximum-Likelihood-Schätzers wurde in Satz 2.3.4 untersucht. ii) Dieses Ergebnis erlaubt es uns, abzuschätzen, wie weit Θ̂n von ϑ mit einer gewissen Wahrscheinlichkeit entfernt ist. Die Rechnung verläuft analog zum zentralen Grenzwertsatz (CLT). Für die konkrete Anwendung müsste eigentlich die Fisher-Information I (ϑ) bekannt sein, hierauf kann aber verzichtet werden, wenn zum Beispiel I (ϑ) ∈ [a, b] bekannt ist. 53 2 Punktschätzungen p iii) Als grobe Interpretation könnte man Varϑ nI (ϑ)Θ̂n ≈ 1 sagen, das heißt Varϑ Θ̂n ≈ ( nI (ϑ))−1 . Dies ist gerade die Cramér-Rao-Schranke für unverzerrte Schätzer. Man spricht hier von asymptotischer Effizienz, das heißt für große n kommt der Schätzer nahe an den besten Schätzer heran. Beweis: Für die erste Aussage verweisen wir an dieser Stelle auf den Beweis von Satz Q 2.5.1. Für die zweite Aussage des Satzes setzen wir l n (ϑ) := l n ( x, ϑ) := log ni=1 f ( x i , ϑ) und (i) (1) l (i) n (ϑ) := l n ( x, ϑ) für die i -te Ableitung bezüglich ϑ. Für die Taylorreihe von l n (Θ̂ n ( x)) um ϑ ∈ Θ gilt 1 (1) (2) 2 (3) ∗ l (1) n (Θ̂ n ( x)) = l n (ϑ) + (Θ̂ n ( x) − ϑ) l n (ϑ) + (Θ̂ n ( x) − ϑ) l n (ϑ ). 2 (*) Dabei liegt ϑ∗ zwischen ϑ und Θ̂n ( x) und wird geeignet gewählt. Ferner gilt aber auch l (1) n (Θ̂ n ( x)) = 0 nach Definition des Maximum-Likelihood-Schätzers. Damit erhalten wir ¢ p ¡ n Θ̂n ( x) − ϑ = − p1 l (1) (ϑ) n n (3) ∗ 1 (2) 1 n l n (ϑ) + n (Θ̂ n ( x) − ϑ) l n (ϑ ) . Wir wollen nun die folgenden drei Schritte beweisen: a) p 1 nI (ϑ) l (1) n (ϑ) → N (0, 1) in Verteilung. b) l (2) n (ϑ) → I (ϑ) in Wahrscheinlichkeit. µ ∞ c) Es existiert ein c > 0, so dass Pϑ lim ¯ ¯ ¶ ¯ 1 (3) ∗ ¯ ¯ l (ϑ )¯ < c = 1 gilt. ¯ n→∞ ¯ n n Für a) betrachten wir à ! n n ∂ 1 (1) 1 X 1 ∂ X l log f ( x , ϑ ) = log f ( x i , ϑ). ( ϑ ) = p n p p i n n ∂ϑ i=1 n i=1 ∂ϑ ∂ Ferner gilt Eϑ ∂ϑ log f (·, ϑ) = 0, siehe hierzu den Beweis von Satz 2.5.1, und überdies I (ϑ) = ∂ Varϑ ∂ϑ log f (·, ϑ). Mit dem zentralen Grenzwertsatz CLT folgt dann p 1 l (1) (ϑ) → N (0, 1) in nI(ϑ) n Verteilung, womit a) bewiesen ist. Für b) betrachten wir à ∂ !2 n ∂2 n n f ( x i , ϑ) 1 (2) 1X 1X 1X ∂ϑ − l n (ϑ) = − log f ( x , ϑ ) = − i n n i=1 ∂ϑ2 n i=1 f ( x i , ϑ) n i=1 2 à ∂ !2 ∂2 f ( · , ϑ ) f ( · , ϑ ) 2 SLLN −→ Eϑ ∂ϑ − Eϑ ∂ϑ f (·, ϑ) f (·, ϑ) 2 2 ∂ f ( · , ϑ ) 2 . = I (ϑ) − Eϑ ∂ϑ f (·, ϑ) 54 ∂2 ∂ϑ2 f ( x i , ϑ) f ( x i , ϑ) 2.6 Weitere Eigenschaften von Schätzern Für den hinteren Term gilt nun aber gerade ∂2 ∂ϑ 2 Eϑ f (·, ϑ) f (·, ϑ) 2 ˆ ∂2 = B ∂ϑ2 iv) f ( x, ϑ) dµ( x) = ∂2 ∂ϑ2 ˆ |B f ( x, ϑ) dµ( x) = 0. {z } =1 Damit kommen wir nun zu c). Wegen v) gilt für |ϑ∗ − ϑ| < c ϑ ¯ ¯ n X ¯ 1 (3) ¯ ¯ l ( x i , ϑ∗ )¯ ≤ 1 g ϑ ( x i ) −→ Eϑ g ϑ =: c < ∞, n ¯n ¯ n i =1 (**) wobei diese Konvergenz Pϑ∞ -fast sicher gilt. Ferner liegt ϑ∗ zwischen Θ̂n ( x) und ϑ und es gilt |Θ̂n ( x) − ϑ| → 0 in Wahrscheinlichkeit Pϑ∞ . Damit folgt, dass (**) mit einer Wahrscheinlichkeit gilt, die gegen 1 konvergiert, woraus Aussage c) folgt. Ferner gilt nun p nI (ϑ)(Θ̂n ( x) − ϑ) = − p 1 l (1) (ϑ) nI(ϑ) n I (ϑ) −→ (3) ∗ 1 (2) 1 l ( Θ̂ ( x ) − ϑ ) l ( ϑ ) + ( ϑ ) n n n n N (0, 1) I (ϑ) = N (0, 1). I (ϑ) + 0 Dies gilt wegen der multiplikativen Fassung des Satzes von Slutzky1 . 1 Siehe hierzu Korollar 1.2.6. 55 3 Konfidenzintervalle Bisher haben wir Punktschätzer verwendet, die den wahren und unbekannten Parameter schätzen, ihn im Allgemeinen jedoch nicht sicher treffen. In diesem Kapitel wollen wir nicht mehr einen einelnen Punkt, sondern ein Intervall schätzen. Für die Approximation des wahren, unbekannten Parameters ϑ haben wir im vorherhigen Kapitel im Wesentlichen drei Eigenschaften kennengelernt: i) Konsistenz: Θ̂n → ϑ Pϑ∞ -fast sicher. ii) Erwartungstreue: Eϑ Θ̂n = ϑ. iii) Mittlere quadratische Abweichung: ´¡ Θ̂n − ϑ ¢2 dPϑn . Wir werden in diesem Kapitel wenn nicht anders angegeben stets davon ausgehen, dass Θ ⊂ R gilt und (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R ist. Wie bisher sei X i : Rn → R die i -te Projektion für X = ( X 1 , . . . , X n ) und Pϑn die erzeugende Verteilung. 3.1 Grundlegende Definitionen Definition 3.1.1 Konfidenzintervall Es seien Θ : Rn → R ∪ {−∞} und Θ : Rn → R ∪ {∞} Stichprobenfunktionen mit Θ( x) ≤ Θ( x) für alle x ∈ Rn . Für γ ∈ [0, 1] heißt das zufällige Intervall [Θ, Θ] Konfidenzintervall zum Niveau γ genau dann, wenn für alle ϑ ∈ Θ gilt: ³n h io´ Pϑn x ∈ Rn : ϑ ∈ Θ( x), Θ( x) ≥γ Konstruiert man zu einer Beobachtung x ∈ Rn ein Konfidenzintervall [Θ( x), Θ( x)], so bedeutet die Ungleichung aus Definition 3.1.1 nicht, dass ϑ ∈ [Θ( x), Θ( x)] mit einer Wahrscheinlichkeit größer als γ gilt, da sowohl ϑ, als auch Θ( x) und Θ( x) keine Zufallsvariablen sind und damit der Wahrscheinlichkeitsbegriff keinen Sinn ergibt. Die Ungleichung bedeutet vielmehr, dass 57 3 Konfidenzintervalle bei vielen Wiederholungen mit einer Wahrscheinlichkeit von 100 · γ% damit zu rechnen ist, dass ϑ ∈ [Θ( x), Θ( x)] gilt. Da wir in der Regel möglichst kleine Konfidenzintervalle haben wollen, führen wir noch die folgende Definition ein. Definition 3.1.2 Minimales Konfidenzintervall Ein Konfidenzintervall [Θ, Θ] heißt minimal zum Niveau γ ∈ [0, 1] genau dann, wenn gilt: inf Pϑn ³n ϑ∈Θ h io´ x ∈ Rn : ϑ ∈ Θ( x), Θ( x) =γ Definition 3.1.3 Asymptotisches Konfidenzintervall Für Θn , Θn : Rn → R gelte die Abschätzung lim Pϑn n→∞ ³n h io´ x ∈ R n : ϑ ∈ Θ n ( x ), Θ n ( x ) ≥ γ. Dann nennen wir [Θn , Θn ] asymptotisches Konfidenzintervall. Definition 3.1.4 α-Quantil Es sei P ein Wahrscheinlichkeitsmaß auf R und α ∈ [0, 1]. Dann definieren wir das α-Quantil von P wie folgt: q α := { t ∈ R : P ((−∞, t]) ≥ α und P ([ t, ∞)) ≥ 1 − α} qα Abbildung 3.1: Für P = N (0, 1) und α = 0.5 ergibt sich das Quantil q 0.5 = 0. Wie wir in Abbildung 3.2 sehen können ist q α im Allgemeinen nicht einelementig. Ferner ist q α ein beschränktes und abgeschlossenes Intervall für α ∈ (0, 1). Ist q α = [ q∗min,α , q∗max,α ], so ³³ ´´ gilt P q∗min,α , q∗max,α = 0. 58 3.1 Grundlegende Definitionen 1 2 0 qα 1 ¡ ¢ Abbildung 3.2: Für P = B 1, 21 und α = 12 ergibt sich das nicht einelementige Quantil q 0.5 = [0, 1]. Lemma 3.1.5 Ist P atomlos, d. h. es gilt P ({ t}) = 0 für alle t ∈ R, so gilt q α = { t ∈ R : P ((−∞, t]) = α} . Beweis: Die Eigenschaft P ([ t, ∞)) ≥ 1 − α ist äquivalent zu P ((−∞, t)) ≤ α. Da P atomlos ist, ist dies äquivalent zu P ((−∞, t]) ≤ α. Lemma 3.1.6 Sei P ein Wahrscheinlichkeitsmaße auf R mit der Verteilungsfunktion F . Ferner sei für α ∈ (0, 1) das α-Quantil durch q α = [ q∗min,α , q∗max,α ] gegeben. Dann gilt für das sogenannte verallgemeinerte Inverse von F : F −1 (α) := inf {F ( t) ≥ α} = min {F ( t) ≥ α} = t∈R q∗min,α t∈R ³ ´ ³ ´ Beweis: Es gilt F q∗min,α = P (−∞, q∗min,α ] ≥ α. Daraus folgt F −1 (α) ≤ q∗min,α . Nun wollen wir zeigen, dass das Infimum gleich dem Minimum ist. Dazu sei t n & F −1 (α) mit F ( t n ) ≥ α. Als Verteilungsfunktion ist F stetig und wir erhalten F (F −1 (α)) ≥ α. Wir müssen nun noch die Abschätzung „≥“ zeigen. Angenommen, es gilt F −1 (α) < q∗min,α , dann muss F −1 (α) ∉ q α gelten. Wegen F (F −1 (α)) = P ((−∞, F −1 (α)]) ≥ α folgt dann, dass P ((−∞, F −1 (α)) > α ist. Da (−∞, F −1 (α) − n−1 ] % (−∞, F −1 (α)) gilt, folgt, dass es ein n ≥ 1 mit P ((−∞, F −1 (α) − n−1 ]) ≥ α gibt. Wegen F −1 (α) − n−1 < F −1 (α) erhalten wir dann einen Widerspruch zu unserer Annahme, dass F −1 (α) der kleinste Wert mit F ( t) ≥ α ist. 59 3 Konfidenzintervalle Korollar 3.1.7 Sei P ein Wahrscheinlichkeitsmaß auf R, welches eine Lebesgue-Dichte h besitzt, für welche die Menge { h > 0} ein Intervall ist. Für α ∈ (0, 1) gelten dann folgende Aussagen: i) Es ist q∗min,α = q∗max,α . ii) q∗min,α ist die eindeutige Lösung der Gleichung F ( s) = α. In diesem Fall schreiben wir q∗α := q∗min,α = q∗max,α . Beweis: i) Angenommen, es gilt q∗min,α < q∗max,α , dann folgt 0=P ³ ´ ( q∗min,α , q∗max,α ) ˆ = q∗max,α q∗min,α h dλ. Da h ≥ 0 gilt, folgt h( x) = 0 für λ-fast alle x ∈ ( q∗min,α , q∗max,α ). Da { h > 0} n. V. ein Intervall ist, folgt { h > 0} ⊂ [ q∗max,α , ∞) oder { h > 0} ⊂ (−∞, q∗min,α ]. Betrachten wir z. B. den ersten Fall, so folgt ³ ´ ˆ ∗ α ≤ P (−∞, q min,α ] = q∗min,α h dλ = 0. −∞ Damit wäre α = 0, was im Widerspruch zu α ∈ (0, 1) steht. Der andere Fall verläuft analog. ii) Diese Aussage folgt direkt aus Lemma 3.1.5, Lemma 3.1.6 und i). Beispiel 3.1.8 Normalverteilung ³ 2´ ´s Sei ϕ( t) := p1 exp − t2 die Dichte von N (0, 1) und Φ( s) := −∞ ϕ( t) d t für s ∈ R die Verteilungs2π funktion von N (0, 1). Dann ist mit Korollar 3.1.7 q∗α die eindeutige Lösung von Φ( s) = α, das heißt es gilt Φ( q∗α ) = α, da {ϕ > 0} = R gilt. Ferner gilt: i) Es ist q α = − q 1−α wegen Φ( s) = 1 − Φ(− s) für alle s ∈ R. ii) Die Abbildung α 7→ q α ist strikt monoton wachsend, da Φ strikt monoton wächst. iii) Es ist q∗0.5 = 0. Die Quantile q∗α können in Tabellen nachgeschlagen oder mit Hilfe von Programmen wie R numerisch berechnet werden. Für α ∈ (0, 1) und X ∼ N (0, 1) gilt ³ ´ ³ ´ ³ ´ ³ ´ ³ ´ α α P q∗α ≤ X ≤ q∗1− α = P X ≤ q∗1− α − P X ≤ q∗α = Φ q∗1− α − Φ q∗α = 1 − − 2 2 2 2 2 2 2 2 = 1 − α. 60 3.1 Grundlegende Definitionen Beispiel 3.1.9 Quantile von χ2n Die χ2n -Verteilung mit n Freiheitsgraden besitzt für y ∈ R nach Satz 1.2.12 die folgende Lebesguedichte: n y y 2 −1 e− 2 h( y) := 1[0,∞) ( y) · n ¡ n ¢ 22 Γ 2 Im genannten Satz wurde zudem gezeigt, dass für i. i. d. Zufallsvariablen X 1 , . . . , X n ∼ N (0, 1) P die Eigenschaft ni=1 X i2 ∼ χ2n gilt. Nun ist Korollar 3.1.7 anwendbar, da { h > 0} = [0, ∞) ein Intervall ist. Die Berechnung der Quantile ist auch hier nur mit Hilfe von Tabellen oder mit numerischen Methoden möglich. Beispiel 3.1.10 Quantile von t n Die Student- t-Verteilung mit n Freiheitsgraden besitzt für y ∈ R die folgende Lebesguedichte: ¡ 1¢ Γ n+ 1 h( y) := ¡ n2 ¢ · ³ ´ n+1 p Γ 2 y2 2 nπ 1 + n In diesem Fall gilt { h > 0} = R und damit ist Korollar 3.1.7 anwendbar. Ferner ist h symmetrisch um 0 und wir erhalten wie in Beispiel 3.1.8 folgende Aussagen: i) Es gilt q α = − q 1−α . ii) Die Abbildung α 7→ q α ist strikt monoton wachsend. iii) Es gilt q 0.5 = 0. 61 3 Konfidenzintervalle 3.2 Einige exakte Berechnungen für Konfidenzintervalle Wir wollen für einige Beispiele nun exakte Berechnungen durchführen. Konfidenzintervalle für N (µ, σ2 ) – I Wir gehen davon aus, dass wir i. i. d. Zufallsvariablen X i ∼ N (µ, σ2 ) haben, wobei µ unbekannt p X −µ und σ2 bekannt ist. Im Beweis von Lemma 1.2.7 haben wir bereits gesehen, dass n nσ ∼ N (0, 1) gilt. Für α ∈ (0, 1) und das α-Quantil von N (0, 1), also q α , folgt mit Beispiel 3.1.8: à ! p X − µ n Pµn − q 1− α2 ≤ n ≤ q 1− α = 1 − α 2 σ µ ¶ σ σ n ⇐⇒ Pµ X n − p q 1− α ≤ µ ≤ X n + p q 1− α = 1 − α 2 2 n n Damit definieren wir nun: σ Θn ( X ) := X n − p q 1− α2 n σ Θn ( X ) := X n + p q 1− α2 n Daraus folgt, dass [Θn , Θn ] ein minimales Konfidenzintervall zum Niveau 1 − α für den Para2σ meter µ ist. Die Länge des Konfidenzintervalls ist p q α und wir stellen fest, dass dies keine n 1− 2 Zufallsvariable ist. Damit kann a-priori sichergestellt werden, dass die Länge unterhalb eines Schwellwertes ε > 0 liegt, das heißt Θn − Θn ≤ ε, und zwar indem man zum Beispiel das n wie folgt wählt: n≥ µ 2σ q 1− α2 ¶2 ε Als wollen wir asymmetrische Konfidenzintervalle betrachten. Dazu seien α1 , α2 ∈ £ 1nächstes ¢ 0, 2 und α := α1 + α2 ∈ (0, 1) (insbesondere muss also α1 α2 > 0 sein). Die Verteilungsfunktion von N (0, 1) sei Φ. Dann gilt à ! p Xn − µ n Pµ q α2 ≤ n ≤ q 1−α1 = Φ( q 1−α1 ) − Φ( q α2 ) = 1 − α1 − α2 = 1 − α. σ Dies ergibt ein asymmetrisches Konfidenzintervall [Θn , Θn ] zum Niveau 1 − α vermöge σ Θn := X n − p q 1−α1 n σ Θn := X n + p q α2 . n ³ i Für α1 = 0 ergibt sich insbesondere ein einseitiges Konfidenzintervall −∞, X n + pσn q α . Analog h ´ ergibt sich für α2 = 0 das einseitige Konfidenzintervall X n − pσn q 1−α , ∞ . 62 3.2 Einige exakte Berechnungen für Konfidenzintervalle 1 1 2 1 2 1 Abbildung 3.3: Darstellung von s 7→ Φ( s) und der Umkehrfunktion, die sich anschaulich als Spiegelung an der ersten Winkelhalbierenden ergibt. Nun wollen wir die Länge der asymmetrischen Konfidenzintervalle betrachten. Diese beträgt Θn − Θn = pσn ( q 1−α1 − q 1−α−α1 ) und wir wollen untersuchen, wann diese Länge minimal wird. In Abbildung 3.3 sehen wir, s 7→ Φ( s) auf [0, ∞) strikt konkav und damit ¡α 7→¤ q α als £ 1 dass ¢ Umkehrfunktion für α ∈ 2 , 1 strikt konvex ist. Damit ist auch α 7→ q 1−α auf 0, 12 strikt konvex und es folgt 1 1 q 1−α+α1 + q 1−α1 ≥ q 1 (1−α+α1 )+ 1 (1−α1 ) = q 1−α2 . 2 2 2 2 Die Gleichheit herrscht dabei genau dann, wenn 1 − α + α1 = 1 − α1 , also α1 = α2 ist. Damit folgt, dass α1 7→ q 1−α+α1 + q 1−α1 ein eindeutiges Minimum bei α1 = α2 annimmt und für α1 = α2 = α2 ist die Länge des Konfidenzintervalls daher minimal. Interessiert man sich also für möglichst kleine Konfidenzintervalle, so sollte man auf symmetrische Konfidenzintervalle zurückgreifen. Ist hingegen nur die obere Schranke des Konfidenzintervalls wichtig, so ist das einseitige Konfidenzintervall für α1 = 0 besser, da die rechte Intervallgrenze zum Niveau 1 − α kleiner ist als die rechte Intervallgrenze des symmetrischen Konfidenzintervalls. Konfidenzintervalle für N (µ, σ2 ) – II Wieder seien i. i. d. Zufallsvariablen X i ∼ N (µ, σ2 ) gegeben, diesmal seien jedoch sowohl µ, als auch σ2 unbekannt. Unser Ziel ist es ein Konfidenzintervall für µ zu finden. p n(X −µ) n In Korollar 1.2.16 haben wir gesehen, dass ∼ t n−1 gilt, wobei S 2n = Sn ist. Wir schreiben nun t n−1,α für das α-Quantil von t n−1 . Es gilt à 1 Pn 2 n−1 i =1 ( X i − X n ) p ! n ( X − µ ) n Pµn,σ2 t n−1, α2 ≤ ≤ t n−1,1− α = 1 − α 2 Sn µ ¶ Sn Sn n = 1 − α. ⇐⇒ Pµ,σ2 X n − t n−1,1− α p ≤ µ ≤ X n + t n−1,1− α p 2 2 n n {z } {z } | | Θn (X ) Θn (X ) 63 3 Konfidenzintervalle Damit erhalten wir das minimale symmetrische Konfidenzintervall [Θn , Θn ] für µ zum Niveau 1 − α. Die Länge des Konfidenzintervalls ist in diesem Fall jedoch wirklich eine Zufallsvariable: Θn − Θn = 2 t n−1,1− α2 Sn p n ¢ £ Für das asymmetrische Konfidenzintervall seien wieder α1 , α2 ∈ 0, 12 und α := α1 + α2 ∈ (0, 1). Dann folgt mit einer der selben Rechnung wie im ersten Beispiel à ! p n ( X − µ ) n Pµn,σ2 t n−1,1−α2 ≤ ≤ t n−1,1−α1 = 1 − α. Sn Daraus erhalten wir dementsprechend für die Grenzen des Konfidenzintervalls: Sn Θn ( X ) := X n − t n−1,1−α1 p n Sn Θn ( X ) := X n + t n−1,1−α2 p n ³ i Sn Im Speziellen erhält man für α1 = 0 das Konfidenzintervall −∞, X n + t n−1,1−α p und für α2 = n h ´ Sn 0 das Konfidenzintervall X n − t n−1,1−α p , ∞ . Die Längenbetrachtungen verlaufen analog n zum ersten Beispiel. Konfidenzintervalle für N (µ, σ2 ) – III Wieder seien i. i. d. Zufallsvariablen X i ∼ N (µ, σ2 ) gegeben und beide Parameter seien unbekannt. Nun suchen wir ein Konfidenzintervall für σ2 . £ ¢ (n−1)S 2 In Satz 1.2.13 haben wir gesehen, dass σ2 n ∼ χ2n−1 gilt. Für α1 , α2 ∈ 0, 12 und α := α1 + α2 ∈ (0, 1) folgt damit für das α-Quantil q α von χ2n−1 µ ¶ ( n − 1)S 2n n Pµ,σ2 q α2 ≤ ≤ q 1−α1 = 1 − α σ2 ¶ µ ( n − 1)S 2n ( n − 1)S 2n n 2 ≤σ ≤ = 1 − α. ⇐⇒ Pµ,σ2 q 1−α1 q α2 Dementsprechend setzen wir die Intervallgrenzen wie folgt: Θ n := ( n − 1)S 2n q 1−α1 Θ n := ( n − 1)S 2n . q α2 Damit ist [Θn , Θn ] ein Konfidenzintervall zum Niveau 1 − α. Die Länge berechnet sich dann wie folgt: µ ¶ 1 1 2 Θn − Θn = ( n − 1) · S n − q α2 q 1−α1 64 3.2 Einige exakte Berechnungen für Konfidenzintervalle Damit gilt nun Eµ,σ2 (Θn − Θn ) = ( n − 1)σ 2 µ ¶ 1 1 − . q α2 q 1−α1 Wir wollen nun unsere Annahme ändern und davon ausgehen, dass der Erwartungswert µ P bekannt ist. Wir betrachten die Stichprobenfunktion S̃ 2n := n1 ni=1 ( X i − µ)2 . Da σ1 ( X i − µ) ∼ N (0, 1) gilt, folgt aus der Definition der χ2n -Verteilung, dass σn2 S̃ 2n ∼ χ2n gilt. Analog zur obigen Rechnung ergeben sich dann Θ̃n ( X ) := n S̃ 2n q 1−α1 n S̃ 2n ˜ Θn ( X ) := . q α2 Dabei ist q α das α-Quantil von χ´ 2n . Es gilt zu beachten, dass es vorkommen kann, dass die ³ ˜ Länge Θn − Θ̃n = n S̃ 2n q1α − q1−1α größer ist als Θn − Θn . Eine Begründung hierfür ist, dass 2 1 sehr große oder kleine Beobachtungen x i von xn in S 2n kompensiert werden. Dieser Effekt tritt bei S̃ 2n jedoch nicht auf. 65 3 Konfidenzintervalle 3.3 Asymptotische Konfidenzintervalle Bis jetzt konnten wir die Wahrscheinlichkeiten für die auftretenden Konfidenzintervalle exakt bestimmen. Als nächstes betrachten wir Situationen, in denen dies nicht möglich ist und bestimmen diese Wahrscheinlichkeiten daher asymptotisch. Das Mittel der Wahl für diese Aufgabe ist der zentrale Grenzwertsatz (CLT). Satz 3.3.1 Sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R mit der Eigenschaft Eϑ X 1 = ϑ für alle ϑ ∈ Θ, d. h. der Erwartungswert parametrisiert die Familie. Für α ∈ (0, 1) bezeichne q α das α-Quantil von N (0, 1). Ferner setzen wir q 1− α2 S n p n α q 1− S n . Θn := X n + p2 n Θ n := X n − Dann ist [Θn , Θn ] ein asymptotisches Konfidenzintervall für ϑ zum Niveau 1 − α. Beweis: Wir betrachten ! à à ! q 1− α2 S n q 1− α2 p Xn − µ n n ≤ ϑ ≤ Xn + p lim P X n − p = lim Pϑ − q 1− α ≤ n ≤ q 1− α 2 2 n→∞ ϑ n→∞ Sn n n ! à p Xn − µ ≤ q 1− α n = lim Pϑn 2 n→∞ Sn à ! p X − µ n − lim Pϑn n ≤ − q 1− α . 2 n→∞ Sn Mit Korollar 1.2.6 erhalten wir = Φ( q 1− α − Φ(− q 1− α ) 2 2 = 1 − α. Dies funktioniert auch ohne S n , falls die Varianz vom Erwartungswert abhängt, das heißt falls Varϑ X 1 = h(Eϑ X 1 ) für alle ϑ ∈ Θ ist. Beispiel 3.3.2 Poissonverteilung Es sei Pois(λ) die Poissonverteilung zum Parameter λ > 0, das heißt die Verteilung auf N0 , die k für k ∈ N0 durch die Zähldichte h( k) := λk! e−λ gegeben ist. Es seien nun i. i. d. Zufallsvariablen 66 3.3 Asymptotische Konfidenzintervalle X i ∼ Pois(λ) mit unbekanntem λ gegeben. Es gilt Eλ X 1 = Varλ X 1 = λ. Mit dem CLT folgt für das α-Quantil q α von N (0, 1) ! à p X − λ n ≤ q 1− α = 1 − α. (*) lim P n − q 1− α2 ≤ n p 2 n→∞ λ λ Wir formen den inneren Ausdruck zunächst um und setzen q := q 1− α2 : ⇐⇒ ⇐⇒ p Xn − λ − q 1− α ≤ n p ≤ q 1− α 2 2 λ ¯ ¯ ¯p X − λ ¯ ¯ ¯ n ¯ n p ¯ ≤ q 1− α2 ¯ λ ¯ à !2 p Xn − λ n p ≤ q21− α 2 λ 2 λ q21− α ⇐⇒ (λ − X n ) ≤ ⇐⇒ λ2 − 2λ X n − 2 n λ q2 2 + Xn ≤ 0 n ¶ µ ¶2 q2 q2 X n q2 q4 2 ≤ λ − 2λ X n + + Xn + + 2 2n 2n n 4n s ¯ 2 ¯¯ 2 4 ¯ ¯λ − X n − q ¯ ≤ X n q + q ¯ 2n ¯ n 4 n2 µ ⇐⇒ ⇐⇒ Damit erhalten wir für die Grenzen des Konfidenzintervalls: s q21− α X n q2 q4 2 Θ n := X n + − + 2 2n n 4n s 2 q 1− α X n q2 q4 2 Θ n := X n + + + 2 2n n 4n (**) (**) Dies ist ein asymptotisches Konfidenzintervall für λ zum Niveau 1 − α. Die Länge des Intervalls beträgt v u u X n q2 α q4 α t 1− 2 1− 2 Θn − Θn = 2 + . n 4 n2 q p Eine Variante wäre es, λ durch X n zu ersetzen. Da das starke Gesetz der großen Zahq p len (SLLN) ergibt, dass X n → λ = Eλ X 1 ist, folgt auch X n → λ Pλ∞ -fast sicher. Mit dem zentralen Grenzwertsatz CLT und der multiplikativen Fassung des Satzes von Slutzky folgt p Xn − λ lim Pλn − q 1− α2 ≤ n q ≤ q 1− α = 1 − α. 2 n→∞ Xn (***) 67 3 Konfidenzintervalle Jetzt ist die entsprechende Umformung einfacher durchzuführen: − q 1− α ≤ 2 q ⇐⇒ ⇐⇒ p Xn − λ n q ≤ q 1− α 2 Xn q X n q 1− α2 X n q 1− α2 ≤ Xn − λ ≤ p p n n q q X n q − 1 − α2 X n q − 1 − α2 ≤ λ ≤ Xn + Xn − p p n n {z } {z } | | − Θn Θn Dann ist [Θn , Θn ] ein asymptotisches Konfidenzintervall für λ zum Niveau 1 − α. Die Länge des Konfidenzintervalls berechnet sich zu q X n q 1− α2 . Θn − Θn = 2 p n Es gilt zu beachten, dass es vorkommen kann, dass Θn < 0 in (*) gilt. Dies ist zu konservativ geschätzt, da λ > 0 ist. Wir setzen daher Θ0n := max{0, Θn } und erhalten so nach wie vor ein Konfidenzintervall [Θ0n , Θn ] für λ zum Niveau 1 − α. Es kann gezeigt werden, dass die Länge dieses korrigierten Konfidenzintervalls stets kleiner als die des durch (**) definierten q Konfidenzintervalls ist. Der Grund hierfür ist, dass Ausreißer in X 1 , . . . , X n durch X n im Nenner von (***) besser kompensiert werden als durch den deterministischen Wert λ in (*). Beispiel 3.3.3 Bernoulli-Verteilung Es seien i. i. d. Zufallsvariablen X i ∼ B(1, p) für unbekanntes p ∈ (0, 1) gegeben. Dann gilt E p X 1 = p und Var p X 1 = p(1 − p). Der zentrale Grenzwertsatz CLT mit der wohlbekannten Rechnung ergibt dann à ! p X − p n lim P n − q 1− α2 ≤ n p ≤ q 1− α = 1 − α. 2 n→∞ p p(1 − p) 68 3.3 Asymptotische Konfidenzintervalle Dann erhalten wir mit q := q 1− α2 : ¯ ¯ ¯p ¯ X − p ¯ ¯ n ¯ np ¯ ≤ q 1− α2 ¯ p(1 − p) ¯ p(1 − p) 2 ⇐⇒ ( X n − p )2 ≤ q n p(1 − p) 2 2 q ⇐⇒ p2 − 2 pX n + X n ≤ n µ ¶ µ ¶ q2 q2 2 ⇐⇒ p2 1 + − 2p Xn + + Xn ≤ 0 n 2n q2 2 p − 2p X n + 2n Xn 2 ≤0 q2 1+ n 2 2 2 q2 q2 X n + 2n nX n + 2 ≤ − nX n p − q2 n+2 n + q2 1+ n ¯ ¯ v u ¯ 2 q2 ¯ u 1 2 ¯ nX n + 2 ¯ t nq2 X n nq2 X n 4q ¯p − ¯≤ − + + ¯ n + q2 ¯¯ ( n + q 2 )2 ( n + q 2 )2 ( n + q 2 )2 ¯ ¯ ¯ s ¯ q2 ¯ ¯ nX n + 2 ¯ q2 q ¯p − ¯≤ nX (1 − X ) + n n ¯ 2 n + q2 ¯¯ n + q2 ¯ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ 1+ q2 n + Damit erhalten wir für die Grenzen des Konfidenzintervalls: v u 2 2 u q 1− α q 1− α2 t 1 2 α + nX Θ n := − q nX (1 − X ) + n n n 1 − 2 4 n + q2 2 1− α2 Θ n := 1 n + q21− α 2 2 q 1− α2 2 + nX n + q 1− α 2 v u u t nX n (1 − X n ) + q21− α 2 4 Dann ist [Θn , Θn ] ein asymptotisches Konfidenzintervall für p zum Niveau 1 − α. Als Variante betrachten wir nun X n → p P ∞ p -fast sicher. Mit dem Satz von Slutzky erhalten wir dann p Xn − p lim P pn − q 1− α2 ≤ n q ≤ q 1− α = 1 − α. 2 X n (1 − X n ) n→∞ Für das Konfidenzintervall erhalten wir dann die folgenden Grenzen: q 1− α2 q Θn := X n − p X n (1 − X n ) n q 1− α2 q Θn := X n + p X n (1 − X n ) n 69 3 Konfidenzintervalle Dies ist ein asymptotisches Konfidenzintervall für p zum Niveau 1 − α. Da es vorkommen kann, dass Θn ( x) < 0 oder Θn ( x) > 1 gilt, können wir wieder die folgende Korrektur vornehmen: Θ0n := max{0, Θn } 0 Θn := min{1, Θn }. 70 4 Statistische Tests Bisher haben wir versucht, den unbekannten Parameter für die Verteilung der Grundgesamtheit zu schätzen. Dabei haben wir sowohl versucht, ihn exakt zu schätzen, als auch lediglich Bereiche anzugeben, in welchen er mit einer gewissen Wahrscheinlichkeit liegt. In diesem Kapitel wollen wir Verfahren entwickeln, um zu entscheiden, in welchem „Gebiet“ der Parameter liegt. Wir gehen davon aus, dass Θ ⊂ Rm gilt, wobei oft m = 1 sein wird. Ferner sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R. Dies ist zwar nicht notwendig, aber oft eine hilfreiche zusätzliche Annahme. Wie bisher seien X i : Rn → R die i -ten Projektionen und X = ( X 1 , . . . , X n ) ∼ Pϑn , wobei ϑ unbekannt ist. Zudem sei die Parametrisierung der Familie injektiv, das heißt es gilt Pϑ 6= Pϑ0 für alle ϑ 6= ϑ0 . Zusätzlich wollen wir in diesem Kapitel davon ausgehen, dass Θ = Θ0 t Θ1 gilt, das heißt es ist Θ0 ∩ Θ1 = ;, wobei beide Mengen nicht leer sein sollen. Damit bilden sie eine Partition von Θ. Wir wollen nun nicht mehr den Wert des unbekannten Parameters ϑ schätzen, sondern entscheiden, ob ϑ ∈ Θ0 oder ϑ ∈ Θ1 gilt. Für dieses Kapitel führen wir folgende Sprechweisen ein: • Nullhypothese H0 : Der wahre Parameter liegt in Θ0 . • Alternativhypothese H1 : Der wahre Parameter liegt in Θ1 . • Einfache Hypothese: Die betrachtete Menge Θ i ist einelementig. • Einseitiges Testproblem: Es gilt m = 1 und Θ, Θ0 und Θ1 sind Intervalle. • Zweiseitiges Testproblem: Es gilt m = 1, Θ ist ein Intervall und Θ0 oder Θ1 ist ein Intervall, die jeweils andere aber nicht. 71 4 Statistische Tests 4.1 Qualitätsmerkmale für Tests Definition 4.1.1 Statistischer Test Ein statistischer Test ist eine messbare Funktion ϕ : Rn → [0, 1]. Gilt ϕ( x) ∈ {0, 1} für alle x ∈ Rn , so heißt ϕ nicht-randomisierter Test. Andernfalls sprechen wir gelegentlich auch von randomisierten Tests. Das Bild ϕ( x) eines statistischen Tests beschreibt die Wahrscheinlichkeit, mit der sich der Test ϕ bei der Beobachtung x für H1 entscheidet. Gilt ϕ( x) = 0, so bedeutet dies, dass sich ϕ mit der Wahrscheinlichkeit 0 für H1 , also mit Wahrscheinlichkeit 1 für die Nullhypothese H0 , entscheidet. Ist hingegen ϕ( x) = 1, so entscheidet sich der Test mit Wahrscheinlichkeit 1 für die Alternativhypothese. Für ϕ( x) =: p ∈ (0, 1) entscheidet sich der Test zufällig mit Wahrscheinlichkeit p für H1 . Ist ϕ nicht-randomisiert, so heißt K := {ϕ = 1} kritischer Bereich von ϕ und es gilt ϕ = 1K . Beim Anwenden eines Tests können folgende Fehler auftreten: H0 richtig H1 richtig Entscheidung für H0 Entscheidung für H1 – Fehler zweiter Art Fehler erster Art – Falsche Modellannahmen werden als Fehler dritter Art bezeichnet, diese liegen jedoch außerhalb der mathematischen Beschreibung unseres Modells. Es ist offensichtlich, dass wir, falls möglich, an Tests interessiert sind, welche die Wahrscheinlichkeiten für Fehler erster und zweiter Art möglichst gering halten. Im Allgemeinen gibt es jedoch keinen Test, der beide Wahrscheinlichkeiten gleichzeitig minimiert. Betrachte zum Beispiel ϕ i ( x) := i für alle x ∈ Rn mit i ∈ {0, 1}. Diese verhindern jeweils den Fehler einer Art, machen im Allgemeinen dafür den Fehler der anderen Art. Eine mögliche Lösung dieser Problematik wäre eine gewichtete Summe der Fehler als Optimierungsziel. Im Allgemeinen geben Probleme aus der Praxis jedoch keinen Anhaltspunkt, wie die Gewichte zu bestimmen sind. Die asymmetrische Betrachtung versucht einen der beiden Fehler durch einen Schwellwert α zu kontrollieren und danach die Wahrscheinlichkeit des anderen Fehlers zu minimieren. 72 4.1 Qualitätsmerkmale für Tests Definition 4.1.2 Gütefunktion Es sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen. Für einen Test ϕ : Rn → [0, 1] heißt die Abbildung βϕ : Θ → [0, 1] vermöge ˆ βϕ (ϑ) := EP n ϕ = ˆ = ϑ ˆ Rn R {0,1} n ϕ( x) dPϑn ( x) 1{1} ( y) dQ ϕ(x) ( y) dPϑn ( x) mit Q ϕ(x) := B(1, ϕ( x)) Gütefunktion von ϕ. Sei µ das Maß auf Rn × {0, 1}, das wie folgt gegeben ist: ˆ µ ( A ) := Rn ˆ {0,1} 1 A ( x, y) dQ ϕ(x) ( y) dPϑn ( x) Dann beschreibt µ die Wahrscheinlichkeit für Kombinationen von Beobachtungen x und Entscheidungen y des Tests ϕ. Die Wahrscheinlichkeiten dafür, welche Fehler ϕ macht, die wir weiter oben bereits angesprochen haben, werden bezüglich µ beschrieben. Die Wahrscheinlichkeit, dass¯ϕ Fehler erster Art macht, ist so z. B. µ(Rn × {1}) = βϕ (ϑ). Die eingeschränkte Abbildung βϕ ¯Θ1 heißt die Macht (engl. power) von ϕ. 1 βϕ (ϑ) Θ0 Θ1 Abbildung 4.1: Darstellung einer Gütefunktion. Wie man in Abbildung 4.1 sehen kann, sollte die Gütefunktion auf Θ0 möglichst klein und auf Θ1 möglichst groß sein. Ideal wäre daher ein Test ϕ mit βϕ = 1Θ1 , dies ist im Allgemeinen aber nicht möglich, zum Beispiel wenn es ein B ⊂ R, ϑ0 ∈ Θ0 und ϑ1 ∈ Θ1 mit Pϑ0 (B) > 0 und Pϑ1 (B) > 0 gibt, denn für x ∈ B muss sich der Test entscheiden. 73 4 Statistische Tests Definition 4.1.3 (Unverfälschter) Test zum Niveau α Es sei (Pϑ )ϑ∈Θ eine Familie von Verteilungen auf R und α ∈ [0, 1]. Ein Test ϕ heißt: i) Test zum Niveau α genau dann, wenn βϕ (ϑ) ≤ α für alle ϑ ∈ Θ0 gilt, das heißt α kontrolliert die Wahrscheinlichkeit für Fehler erster Art. ii) unverfälschter Test zum Niveau α genau dann, wenn ϕ ein Test zum Niveau α ist und zusätzlich βϕ (ϑ) ≥ α für alle ϑ ∈ Θ1 gilt. 1 βϕ (ϑ) α α∗ α0 Θ0 Θ1 Abbildung 4.2: Illustration verschiedener α für den Zusammenhang zwischen Gütefunktionen und (unverfälschter) Tests zum Niveau α. Wir betrachten nun Abbildung 4.2, die eine Erweiterung von Abbildung 4.1 darstellt. Der Test ϕ ist unverfälscht zum Niveau α∗ und ein nicht unverfälschter Test zum Niveau α, jedoch kein Test zum Niveau α0 . Definition 4.1.4 Konsistenz Sei (Pϑ )ϑ∈Θ eine Familie von Verteilungen auf R und α ∈ [0, 1]. Eine Folge von Tests ϕn : Rn → [0, 1] zum Niveau α heißt konsistent genau dann, wenn für alle ϑ ∈ Θ1 gilt: lim βϕn (ϑ) = 1 n→∞ ∞ Diese Eigenschaft ist im Allgemeinen schwächer als P∞ -fast sichere Konvergenz von ϕn ( x) gegen 1. Eine Illustration findet sich in Abbildung 4.3. 74 4.1 Qualitätsmerkmale für Tests 1 α Θ0 Θ1 Abbildung 4.3: Illustration einer konsistenten Folge statistischer Tests. Definition 4.1.5 Besserer/Gleichmäßig bester Test Es sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R und α ∈ [0, 1]. Ferner sei ϕ ein Test zum Niveau α. Dann definieren wir: i) Ein Test ϕ0 zum Niveau α heißt nicht besser als ϕ genau dann, wenn βϕ (ϑ) ≥ βϕ0 (ϑ) für alle ϑ ∈ Θ1 gilt. ii) Der Test ϕ heißt gleichmäßig bester Test zum Niveau α genau dann, wenn jeder Test ϕ0 zum Niveau α nicht besser als ϕ ist. Die naheliegende Frage ist, ob es einen gleichmäßig besten Test zum Niveau α gibt. Diese Frage werden wir im nächsten Abschnitt behandeln. Exkursion: p-Werte Die sogenannten p-Werte tauchen sehr häufig in der Praxis auf, sind jedoch aus mathematischer Sicht eher problematisch. Aus diesem Grund wollen wir dieses Thema hier nur kurz ansprechen. Wir nehmen an, die Hypothesen H0 und H1 seien einfach, das heißt es gilt Θ = {ϑ0 , ϑ1 }. Weiter sei T : Rn → R eine Stichprobenfunktion und ϕ : Rn → {0, 1} ein nicht-randomisierter Test, der für k ∈ R wie folgt gegeben sei: ( 1 für T ( x) ≥ k ϕ( x) := 0 für T ( x) < k Mit dieser Wahl gilt ϕ = 1[k,∞) ◦ T . Solche Tests werden tatsächlich oft verwendet. Sei nun α ∈ [0, 1] mit α = Pϑn (T ≥ k) = Pϑn (ϕ = 1) = βϕ (ϑ0 ). In der Praxis wird α eigentlich vorgegeben 0 0 und k dann durch die obige Gleichung bestimmt. Ferner sei x ∈ Rn eine Beobachtung, wir setzen dann t := T ( x). Dann nennen wir ¡© ª¢ p := Pϑn0 (T ≥ t) = Pϑn0 x0 ∈ Rn : T ( x0 ) ≥ t . 75 4 Statistische Tests den p-Wert des Tests zu der Beobachtung x. Insbesondere hängt p wirklich von der Beobachtung ab und ist daher eigentlich eine Zufallsvariable. Wir nehmen nun ferner an, dass die Verteilungsfunktion des Bildmaßes von Pϑn unter T streng 0 monoton steigend ist. Dann gilt p ≤ α genau dann, wenn Pϑn0 (T ≥ t) ≤ Pϑn0 (T ≥ k) ⇐⇒ t≥k ⇐⇒ T ( x) ≥ k ⇐⇒ ϕ( x) = 1. Mit anderen Worten entscheidet sich ϕ genau dann für H1 , wenn p( x) ≤ α gilt. Wir wollen nun auf einige typische Fehler in Verbindung mit p-Werten eingehen: • Man berechnet den p-Wert anhand der Beobachtung x und passt das Niveau α nachträglich an. • Oft wird der p-Wert derart fehlinterpretiert, dass man davon ausgeht, er stelle die Wahrscheinlichkeit dafür dar, dass H0 wahr ist. Dies ist nicht der Fall und es gibt viele Argumente, um dies zu widerlegen. Das einfachste Argument ist jedoch, dass wir für Hypothesen gar keinen Wahrscheinlichkeitsbegriff haben. • Eine andere gängige Fehlinterpretation ist, dass der p-Wert die Wahrscheinlichkeit für einen Fehler erster Art angebe. Auch dies ist falsch, da bereits α diese Wahrscheinlichkeit angibt. Es gibt noch viele weitere Beispiele für Fehlinterpretationen und Missverständnisse der p-Werte, auf die wir hier nicht eingehen. 76 4.2 Existenz gleichmäßig bester Tests 4.2 Existenz gleichmäßig bester Tests In diesem Kapitel wollen wir uns, wie der Titel bereits nahelegt, mit der Frage beschäftigen, wann es gleichmäßig beste Tests zum Niveau α gibt, die wir in Definition 4.1.5 eingeführt haben. Das Vorgehen ähnelt dabei dem zur Untersuchung der Existenz gleichmäßig bester Schätzer. Dazu wollen wir zuerst ein fundamentales Lemma behandeln. Da dieses sehr wichtig ist, werden wir es in aller Allgemeinheit formulieren und uns nicht auf R beschränken. Lemma 4.2.1 Neyman-Pearson-Lemma für einfache Testprobleme Es sei Θ = {ϑ0 , ϑ1 } und Θ0 = {ϑ0 }. Ferner seien Pϑ0 und Pϑ1 Wahrscheinlichkeitsmaße auf X , sowie µ ein σ-endliches Maß auf X mit Pϑ i =: P i ¿ µ für i ∈ {0, 1}. Ferner seien f 0 und f 1 die Dichten der P i bezüglich µ und α ∈ [0, 1]. Dann gibt es ein k ∈ [0, ∞] und ein γ ∈ [0, 1], so dass der Test ϕ : X → [0, 1], der durch 1 für f 1 ( x) > k f 0 ( x) ϕ( x) := γ für f 1 ( x) = k f 0 ( x) 0 für f ( x) < k f ( x) 1 0 definiert ist, gleichmäßig bester Test zum Niveau α ist. Dabei wollen wir anmerken, dass ein solches Maß µ, wie im Lemma gefordert, immer existiert, da man zum Beispiel µ := 12 (P0 + P1 ) wählen kann. Ferner haben wir im Lemma für die Definition von ϕ implizit die Konvention 0 · ∞ = ∞ · 0 := 0 verwendet. In unserer üblichen Vorgehensweise ist X = Rn und P i = Pϑn . Der Beweis des Lemmas wird uns zudem eine i Konstruktionsmethode für die Parameter k und γ liefern, der Test ϕ kann also konstruiert werden. Beweis: Wir betrachten zwei Fälle, wobei zunächst α = 0 sein soll. Dann setzen wir k := ∞ und γ := 0, damit folgt ϕ( x) > 0 genau dann, wenn ϕ( x) = 1 ist. Dies ist genau dann der Fall, wenn f 1 ( x) > 0 und f 0 ( x) = 0 gilt. Dann gilt ˆ βϕ (ϑ0 ) = ˆ f 0 dµ = 0 = α, 1 dP0 = { f 1 >0}∩{ f 0 =0} { f 1 >0}∩{ f 0 =0} sowie ˆ βϕ (ϑ1 ) = ˆ f 1 dµ . 1 dP1 = { f 1 >0}∩{ f 0 =0} { f 1 >0}∩{ f 0 =0} Sei nun ϕ0 ein Test zum Niveau α = 0, dann folgt ˆ 0 = βϕ0 (ϑ0 ) = 0 ϕ dP0 = ˆ ϕ0 f 0 dµ. 77 4 Statistische Tests Da ϕ0 f 0 ≥ 0 gilt, folgt ϕ0 f 0 = 0 µ-fast überall. Damit folgt ˆ ˆ ˆ 0 βϕ0 (ϑ1 ) = 0 ϕ dP1 = ˆ 0 ϕ f 1 dµ + { f 1 >0}∩{ f 0 =0} { f 1 =0}∩{ f 0 >0} | ˆ ϕ0 f 1 dµ ϕ f 1 dµ = {z =0 { f 1 >0}∩{ f 0 =0} } f 1 dµ ≤ { f 1 >0}∩{ f 0 =0} = βϕ (ϑ1 ). Damit ist ϕ wirklich gleichmäßig bester Test. Nun betrachten wir den zweiten Fall mit α > 0. Dazu definieren wir die Zufallsvariable Y : X → [0, ∞) vermöge ( f (x) 1 f 0 ( x) > 0 Y ( x) := f 0 (x) . 0 sonst Ferner sei F die Verteilungsfunktion von Y bezüglich P0 , das heißt F ( t) := P0 (Y ≤ t) für t ∈ R. Die erste Möglichkeit ist nun, dass es ein k ∈ [0, ∞) mit 1 − α = F ( k) gibt. Dann setzen wir γ := 0 und es gilt 1 − α = P0 (Y ≤ k) − γ · P0 (Y = k). Die zweite Möglichkeit ist, dass es kein solches k ∈ [0, ∞) mit 1 − α = F ( k) gibt. Da F monoton steigend und rechtsseitig stetig ist, folgt die Existenz eines k ∈ [0, ∞) mit der folgenden Eigenschaft: sup F ( k0 ) ≤ 1 − α < F ( k) k0 < k Da nun supk0 <k F ( k0 ) = supk0 <k P0 (Y ≤ k0 ) = P0 (Y < k) gilt, folgt P0 (Y ≤ k) − P0 (Y = k) ≤ 1 − α < P0 (Y ≤ k) und insbesondere P0 (Y = k) > 0. Nun definieren wir den Parameter γ wie folgt: γ := P0 (Y ≤ k) − 1 + α P 0 (Y = k ) Dies heißt, dass 1 − α = P0 (Y ≤ k) − γP0 (Y = k) gilt. Zunächst wollen wir zeigen, dass γ ∈ [0, 1] gilt. Dazu betrachten wir 1 − α < P0 (Y ≤ k), denn daraus folgt γ > 0. Außerdem ist P0 (Y ≤ k) − P0 (Y = k) ≤ 1 − α, woraus wir γ ≤ 1 erhalten. Damit folgt γ ∈ (0, 1] ⊂ [0, 1]. Insgesamt gibt es also immer ein k ∈ [0, ∞) und ein γ ∈ [0, 1], für die folgende Gleichung gilt: 1 − α = P0 (Y ≤ k) − γP0 (Y = k) (*) Ein solches Paar ( k, γ) benutzen wir nun in der Definition des Tests ϕ. Es gilt dann ˆ βϕ (ϑ0 ) = ˆ ϕ f 0 dµ = ˆ ϕ f 0 dµ { f 0 >0} ˆ ϕ f 0 dµ + = { f 0 >0}∩{ f 1 > k f 0 } ϕ f 0 dµ { f 0 >0}∩{ f 1 = k f 0 } = P0 (Y > k) + γP0 (Y = k) = 1 − P0 (Y ≤ k) + γP0 (Y = k) (*) = α, 78 4.2 Existenz gleichmäßig bester Tests also ist ϕ gleichmäßig bester Test zum Niveau α. Sei ϕ0 ein Test zum Niveau α. Ist ϕ( x) > ϕ0 ( x), so folgt ϕ( x) > 0 und damit f 1 ( x) ≥ k f 0 ( x). Ist hingegen ϕ( x) < ϕ0 ( x), so folgt ϕ( x) < 1 und damit f 1 ( x) ≤ k f 0 ( x). In beiden Fällen, und für ϕ( x) = ϕ0 ( x) sowieso, gilt daher (ϕ( x) − ϕ0 ( x))( f 1 ( x) − k f 0 ( x)) ≥ 0. (**) Durch Integrieren erhalten wir nun ˆ (**) 0≤ ˆ (ϕ( x) − ϕ0 ( x))( f 1 ( x) − k f 0 ( x)) dµ( x) ˆ ϕ dP1 − = ˆ 0 ϕ dP1 − k ˆ ϕ dP0 + k ϕ0 dP0 | {z } | {z } =α ≤α ≤ βϕ (ϑ1 ) − βϕ0 (ϑ1 ). Damit folgt also βϕ0 (ϑ1 ) ≤ βϕ (ϑ1 ) und wir haben alles gezeigt. Bis jetzt hatten wir die Randomisierung eigentlich nur als mögliche Erweiterung des TestBegriffs gesehen. Der Beweis des Neyman-Pearson-Lemma 4.2.1 zeigt nun, dass die Randomisierung uns die Möglichkeit gibt, Tests zu konstruieren, die ein beliebiges, vorgegebenes Niveau α exakt erreichen, wie es in Abbildung 4.4 illustriert wird. Ohne Randomisierung ist dies an den Sprungstellen der Verteilungsfunktion von Y nicht möglich, wie wir später an Beispielen noch sehen werden. randomisiert 1 nicht randomisiert α Θ0 Θ1 Abbildung 4.4: Mit Hilfe randomisierter Tests kann ein vorgegebenes Niveau exakt erreicht werden. Als nächstes wollen wir das Neyman-Pearson-Lemma 4.2.1 auf einseitige Tests verallgemeinern. 79 4 Statistische Tests Definition 4.2.2 Monotoner Dichtequotient Sei Θ ⊂ R, (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R und T : Rn → R eine messbare Abbildung. Dann hat die Familie (Pϑ )ϑ∈Θ einen monotonen Dichtequotienten in T genau dann, wenn die folgenden Bedingungen erfüllt sind: i) Es gilt Pϑ 6= Pϑ0 für alle ϑ 6= ϑ0 . ii) Es existiert ein σ-endliches Maß µ auf R, so dass alle Pϑ eine Dichte f ϑ bezüglich µ besitzen, es gilt also Pϑ ¿ µ. iii) Für alle ϑ0 , ϑ1 ∈ Θ mit ϑ0 < ϑ1 existiert eine streng monoton wachsende Funktion g ϑ0 ,ϑ1 : R → R, so dass für Pϑn - und Pϑn -fast alle x ∈ Rn gilt: 0 1 Nn N1n f ϑ1 ( x ) 1 f ϑ0 ( x ) = g ϑ0 ,ϑ1 (T ( x)) Wir hatten bereits im Neyman-Pearson-Lemma 4.2.1 gesehen, dass sich optimale Tests für H1 := {ϑ1 } und nicht für H0 := {ϑ0 } entscheiden, falls Nn f ϑ1 ( x ) ≥ f∗ N1n 1 f ϑ0 ( x ) für ein geeignetes f ∗ ∈ R gilt. Diese Ordnung wird durch g ϑ0 ,ϑ1 beibehalten. Die Abbildung T werden wir zur Konstruktion optimaler Tests benutzen, da sie von ϑ0 und ϑ1 unabhängig ist. Satz 4.2.3 Sei Θ ⊂ R, (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf R mit monotonem Dichtequotienten in T und ϑ0 ∈ Θ. Wir setzen Θ0 := {ϑ ∈ Θ : ϑ ≤ ϑ0 } und Θ1 := {ϑ ∈ Θ : ϑ > ϑ0 }. Für α ∈ (0, 1) gibt es dann ein k ∈ [0, ∞) und ein γ ∈ [0, 1], so dass der Test ϕ vermöge 1 für T ( x) > k ϕ( x) := γ für T ( x) = k 0 für T ( x) < k ein gleichmäßig bester Test zum Niveau α ist. Tatsächlich gilt diese Aussage für jedes k ∈ [0, ∞) und jedes γ ∈ [0, 1], welche die folgende Gleichung erfüllen: 1 − α = Pϑn0 (T ≤ k) − γPϑn0 (T = k) Falls Pϑn (T = k) = 0 gilt, so ist jedes γ erlaubt und k ist dann das 1 − α-Quantil der 0 Verteilung von T bezüglich Pϑn . 0 80 (*) 4.2 Existenz gleichmäßig bester Tests Mit anderen Worten lassen sich optimale Tests häufig mit Hilfe von Quantilen bestimmen. Beweis: Die Existenz von k und γ, die (*) erfüllen, lässt sich völlig analog zum Beweis des Neyman-Pearson-Lemmas 4.2.1 führen, wenn man Y durch T ersetzt. Nun gilt für das Niveau von ϕ für ϑ0 : ˆ βϕ (ϑ0 ) = ˆ ϕ dPϑn0 ˆ ϕ = ˆ dPϑn0 + ϕ {T > k} {T = k} n n = P ϑ0 ( T > k ) + γ P ϑ0 ( T = k ) = 1 − Pϑn0 (T ≤ k) + γPϑn0 (T = k) dPϑn0 + {T < k} ϕ dPϑn0 (*) =α Nun wollen wir das Niveau für Θ0 betrachten. Sei ϑ00 , ϑ01 ∈ Θ mit ϑ00 < ϑ01 . Ferner sei ϕ0 ein Test mit βϕ0 (ϑ00 ) ≤ βϕ (ϑ00 ). Sei außerdem g ϑ0 ,ϑ0 gemäß der Definition 4.2.2 gegeben und setze 0 1 Nn f := g ϑ0 ,ϑ0 ( k). Ist ϕ( x) > ϕ ( x), so folgt ϕ( x) > 0 und damit T ( x) ≥ k, woraus wiederum ∗ 0 0 1 1 f ϑ0 (x) 1 1 f ϑ0 (x) 0 Nn ∗ = g ϑ0 ,ϑ0 (T ( x)) ≥ g ϑ0 ,ϑ0 ( k) = f folgt, wobei die Monotonie von g verwendet wurde. Ist hingegen 0 0 1 1 Nn ϕ( x) < ϕ ( x), so folgt ϕ( x) < 1, damit T ( x) ≤ k und damit 0 à (ϕ( x) − ϕ0 ( x)) n O f ϑ0 ( x ) − f n O ∗ 1 1 1 f ϑ0 (x) 1 1 f ϑ0 (x) 0 Nn ≤ f ∗ . Insgesamt gilt also ! f ϑ0 ( x) ≥ 0, 0 1 wobei dies auch für ϕ( x) = ϕ0 ( x), also immer gilt. Durch Integrieren erhalten wir nun: à ! ˆ n n O O 0 ∗ 0 ≤ (ϕ( x) − ϕ ( x)) f ϑ0 − f f ϑ 0 dµ n ˆ = ϕ dPϑn0 − 1 1 1 ˆ 0 ϕ dPϑn0 − 1 ˆ f ∗ = βϕ (ϑ01 ) − βϕ0 (ϑ01 ) − f ∗ βϕ (ϑ00 ) + {z | ≤0 0 1 ˆ ϕ dPϑn0 + 0 ∗ βϕ0 (ϑ00 ) f f ∗ ϕ0 dPϑn0 0 } ≤ βϕ (ϑ01 ) − βϕ0 (ϑ01 ) Damit gilt also βϕ0 (ϑ01 ) ≤ βϕ (ϑ01 ). Daraus folgt nun, dass ϕ ein gleichmäßig bester Test zum Niveau βϕ (ϑ00 ) für die Hypothesen H00 := {ϑ00 } und H10 := {ϑ01 } ist. Wir betrachten nun den Test ϕ0 ( x) := βϕ (ϑ00 ), der im ersten Augenblick nur bedingt sinnvoll erscheint, da er unabhängig von x ∈ Rn ist. Er erfüllt βϕ0 (ϑ00 ) = βϕ (ϑ00 ) und es gilt wegen (*): βϕ (ϑ01 ) ≥ βϕ0 (ϑ01 ) ˆ = ϕ0 dPϑn0 = βϕ (ϑ00 ) 1 Damit ist ϑ 7→ βϕ (ϑ) eine monoton wachsende Abbildung. Für ϑ00 ∈ Θ0 folgt nun insbesondere βϕ (ϑ00 ) ≤ βϕ (ϑ0 ) = α. Damit ist ϕ also ein Test zum Niveau α. Ferner hat die Rechnung um 81 4 Statistische Tests (*) gezeigt, dass für ϑ1 > ϑ0 und für einen Test ϕ0 mit βϕ0 (ϑ00 ) ≤ α für alle ϑ00 ∈ Θ0 , woraus insbesondere βϕ0 (ϑ0 ) ≤ α = βϕ (ϑ0 ) folgt, gilt, dass βϕ (ϑ1 ) ≥ βϕ0 (ϑ1 ) ist. Nun ist ϑ1 > ϑ0 genau dann der Fall, wenn ϑ1 ∈ Θ1 gilt. Damit ist ϕ tatsächlich gleichmäßig bester Test zum Niveau α. Als nächstes beschäftigen wir uns mit der Frage, ob und welche Familien überhaupt einen monotonen Dichtequotienten besitzen. Definition 4.2.4 Einparametrige Exponentialfamilie Es seien T : Rn → R, h : Rn → [0, ∞), C : Θ → (0, ∞) und ξ : Θ → R, wobei T und h zudem messbar und Θ ⊂ R sein sollen. Ferner sei µ ein endliches Maß auf Rn . Dann definieren wir für ϑ ∈ Θ und x ∈ R f ϑ ( x) := C (ϑ) h( x) · eξ(ϑ)T(x) . ´ Ist C so gewählt, dass f ϑ dµ = 1 für alle ϑ ∈ Θ gilt, so heißt die Familie (Pϑ )ϑ∈Θ mit Pϑ = f ϑ dµ einparametrige Exponentialfamilie. Wir werden im Folgenden die Bezeichnungen der Abbildungen in der Definition 4.2.4 verwenden, ohne sie jedesmal wieder explizit zu definieren. Lemma 4.2.5 Sei (Pϑ )ϑ∈Θ eine einparametrige Exponentialfamilie und ξ streng monoton wachsend. P Dann besitzt (Pϑ )ϑ∈Θ einen monotonen Dichtequotienten in x 7→ n1 ni=1 T ( x i ). Beweis: Für ϑ0 < ϑ1 gilt à ! Qn ξ(ϑ1 )T(x i ) Nn n n n X e h ( x ) C ( ϑ ) C ( ϑ ) 1 1 · Q1n ξ(ϑ )T(x ) = n = n · N1n exp (ξ(ϑ1 ) − ξ(ϑ0 ))T ( x i ) . N1n 0 i f ( x ) C ( ϑ ) h ( x ) C ( ϑ e 0 0) i =1 1 ϑ0 1 1 Nn f ϑ1 ( x ) n C (ϑ 1 ) Wir setzen nun g ϑ0 ,ϑ1 ( y) := C n (ϑ ) exp ( n(ξ(ϑ1 ) − ξ(ϑ0 )) · y). Für y = 0 Nn N1n f ϑ1 ( x ) 1 f ϑ0 ( x ) 1 Pn n i =1 T ( x i ) gilt dann = g ϑ0 ,ϑ1 ( y). Da ξ(ϑ1 ) > ξ(ϑ0 ) gilt ist g ϑ0 ,ϑ1 auch wirklich streng monoton wachsend. Für einparametrige Exponentialfamilien gibt es viele Beispiele, von denen wir einige später noch kennenlernen werden. Zunächst werden wir uns mit zweiseitigen Tests beschäftigen, für welche wir zwei verschiedene Ansätze verfolgen werden. Der erste Ansatz ist ein theoretischer, der zweite ein pragmatischer Ansatz. 82 4.2 Existenz gleichmäßig bester Tests Im Folgenden schreiben wir Φ := Φ1 = {ϕ : X → [0, 1] | ϕ messbar} für die Menge aller Tests, sowie Φα := {ϕ : X → [0, 1] | ϕ ist Test zum Niveau α} für α ∈ [0, 1]. Wir wollen im Folgenden ferner allgemeine Räume Θ und allgemeine Familien (Pϑ )ϑ∈Θ zulassen. Zudem sei Θ0 , Θ1 eine beliebige Partition von Θ. Definition 4.2.6 Maxmin-Test Sei α ∈ [0, 1]. Ein Test ϕ∗ ∈ Φα heißt Maxmin-Test zum Niveau α genau dann, wenn gilt: inf βϕ∗ (ϑ) = sup inf βϕ (ϑ) ϑ∈Θ1 ϕ∈Φα ϑ∈Θ1 Der Ausdruck infϑ∈Θ1 βϕ (ϑ) beschreibt das schlechstmöglichste Verhalten für Fehler zweiter Arten eines Tests ϕ. Eine Interpretation findet sich in Abbildung 4.5. Es gilt zu beachten, dass aus der Tatsache, dass ϕ∗ ein Maxmin-Test zum Niveau α ist, nicht folgt, dass ϕ∗ gleichmäßig bester Test ist. 1 α Θ0 Θ1 Abbildung 4.5: Illustration für das schlechstmöglichste Verhalten Fehler zweiter Art. Der rote Test ist besser als der schwarze Test, der wiederum gleich gut wie der blaue Test ist. Lemma 4.2.7 Für α ∈ [0, 1] gelten die folgenden Aussagen: i) Ist ϕ∗ ∈ Φα gleichmäßig bester Test zum Niveau α, so folgt, dass ϕ∗ unverfälscht ist (vgl. Definition 4.1.3). ii) Ist ϕ∗ ∈ Φα gleichmäßig bester Test zum Niveau α, so folgt, dass ϕ∗ ein MaxminTest zum Niveau α ist. 83 4 Statistische Tests iii) Ist ϕ∗ ∈ Φα ein Maxmin-Test zum Niveau α, so folgt, dass ϕ∗ unverfälscht ist (vgl. Definition 4.1.3). Beweis: Die erste Aussage i) folgt unmittelbar aus ii) und iii). Für iii) betrachten wir ϕ( x) := α für alle x ∈ X . Dann gilt inf βϕ∗ (ϑ) = sup inf βϕ0 (ϑ) ≥ inf βϕ (ϑ) = α. ϑ∈Θ1 ϕ0 ∈Φα ϑ∈Θ1 ϑ∈Θ1 nach Konstruktion von ϕ. Für ii) führen wir einen Widerspruchsbeweis. Angenommen, ϕ∗ ist kein Maxmin-Test, dann gilt inf βϕ∗ (ϑ) < sup inf βϕ (ϑ). ϑ∈Θ1 ϕ∈Φα ϑ∈Θ1 Dann muss also ein ϕ ∈ Φα mit infϑ∈Θ1 βϕ∗ (ϑ) < infϑ∈Θ1 βϕ (ϑ) existieren. Da aber ϕ∗ nach Voraussetzung gleichmäßig bester Test ist, gilt βϕ∗ (ϑ) ≥ βϕ (ϑ) für alle ϑ ∈ Θ1 . Dann folgt βϕ∗ (ϑ) ≥ infϑ0 ∈Θ1 βϕ (ϑ0 ) für alle ϑ ∈ Θ1 und daraus wiederum infϑ∈ϑ1 βϕ∗ (ϑ) ≥ infϑ∈Θ1 βϕ (ϑ), dies stellt jedoch einen Widerspruch dar. Damit ist alles gezeigt. Satz 4.2.8 Sei µ ein σ-endliches Maß auf (X , B ). Dann existiert zu jeder Folge (ϕn ) ⊂ Φ eine Teilfolge (ϕn k ) ⊂ Φ und ein ϕ∗ ∈ Φ, so dass für alle f ∈ L 1 (µ) gilt: ˆ lim k→∞ ˆ ϕ n k f dµ = ϕ∗ f dµ Wir sagen daher auch, dass Φ schwach folgenkompakt ist. Den Beweis werden wir hier allerdings nicht führen, er lässt sich zum Beispiel in [Witt85, Satz 2.14, S. 205] finden. Die Menge Φ ist eine beschränkte und abgeschlossene Menge in L ∞ (µ) := { f : X → R | f messbar und µ-fast überall beschränkt}. Da im Allgemeinen dim L ∞ (µ) = ∞ gilt, können wir den Satz von Heine-Borel nicht anwenden, Φ ist also nicht kompakt in L ∞ (µ). Jedes g´∈ L ∞ (µ) liefert eine stetige, lineare und R-wertige Funktion auf L 1 (µ) vermöge L 1 (µ) 3 f 7→ f g dµ. Man kann zeigen, dass dies alle stetigen, linearen und R-wertigen Funktionen liefert. Mit anderen Worten heißt dies, dass L ∞ (µ) der Dualraum von L 1 (µ) ist. Umgekehrt gilt, dass jedes f ∈ ´L 1 (µ) eine stetige, lineare und Rwertige Funktion auf L ∞ (µ) liefert vermöge L ∞ (µ) 3 g 7→ f g dµ. Dies sind im Allgemeinen jedoch nicht alle solche Funktionen. Sei nun w∗ die kleinste Topologie auf L ∞ (µ) bezüglich welcher alle wie eben definierte Funktionen noch stetig sind, die sogenannte Schwach-*-Topologie (engl. weak). Man kann zeigen, dass jede beschränkte, w∗ -abgeschlossene Menge in L ∞ (µ) w∗ -kompakt ist. Da Φ 84 4.2 Existenz gleichmäßig bester Tests w∗ -abgeschlossen ist, ist Φ auch w∗ -kompakt. Die w∗ -Topologie besitzt im Allgemeinen jedoch keine abzählbare Umgebungsbasis und daher ist Satz 4.2.8 eine echte Verschärfung der w∗ -Kompaktheit. Satz 4.2.9 Es sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf X und Θ 6= ; eine beliebige Menge. Ferner sei µ ein σ-endliches Maß auf X mit Pϑ ¿ µ und Θ = Θ0 t Θ1 eine Partition. Dann gibt es zu jedem α ∈ [0, 1] einen Maxmin-Test ϕ∗ zum Niveau α. Beweis: Wir setzen zunächst s := supϕ∈Φα infϑ∈Θ1 βϕ (ϑ). Dann existiert eine Folge (ϕn ) ⊂ Φα mit infϑ∈Θ1 βϕn (ϑ´) → s. Aus Satz ´ ∗ 4.2.8 folgt nun die Existenz einer Teilfolge (ϕn k ) und eines ∗ Tests ϕ ∈ Φ mit ϕn k dµ → ϕ f dµ für alle f ∈ L 1 (µ). Wir betrachten nun die Dichte f ϑ von Pϑ bezüglich µ. Klar ist, dass f ϑ ∈ L 1 (µ) gilt, daher gilt ˆ βϕ∗ (ϑ) = ˆ ∗ ϕ f ϑ dµ = lim k→∞ ϕn k f ϑ dµ = lim βϕn (ϑ) k→∞ k (*) für alle ϑ ∈ Θ. Für ϑ ∈ Θ0 folgt wegen βϕn k (ϑ) ≤ α, dass βϕ∗ (ϑ) ≤ α ist, das heißt ϕ∗ ist ein Test zum Niveau α. Für ϑ ∈ Θ1 folgt ferner (∗) s = lim inf βϕn (ϑ0 ) ≤ lim βϕn (ϑ) = βϕ∗ (ϑ), k k 0 n→∞ ϑ ∈Θ1 k→∞ daher folgt infϑ∈Θ1 βϕ∗ (ϑ) ≥ s. Da ϕ∗ ein Test zum Niveau α ist, gilt natürlich auch inf βϕ∗ (ϑ) ≤ sup inf βϕ (ϑ) = s. ϑ∈Θ1 ϕ∈Φα ϑ∈Θ1 Korollar 4.2.10 Sei (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf X und µ ein σ-endliches Maß auf X mit Pϑ ¿ µ für alle ϑ ∈ Θ. Ferner sei Θ1 := {ϑ1 } und Θ0 := Θ \{ϑ1 } für ein ϑ1 ∈ Θ. Dann gibt es zu jedem α ∈ [0, 1] einen gleichmäßig besten Test ϕ∗ zum Niveau α. Beweis: Sei ϕ∗ ein Maxmin-Test zum Niveau α nach Satz 4.2.9. Dann gilt für ϑ1 : βϕ∗ (ϑ1 ) = inf βϕ∗ (ϑ) = sup inf βϕ (ϑ) = sup βϕ (ϑ1 ) ϑ∈Θ1 ϕ∈Φα ϑ∈Θ1 ϕ∈Φα Damit folgt, dass ϕ∗ gleichmäßig bester Test zum Niveau α ist. Im Allgemeinen gibt es jedoch keinen gleichmäßig besten Test zum Niveau α für Θ0 := {ϑ0 } gegen Θ1 := Θ \ {ϑ0 }. Wir werden dies noch näher betrachten. Als nächstes wollen wir verallgemeinerte zweiseitige Tests für Exponentialfunktionen betrachten. 85 4 Statistische Tests Satz 4.2.11 Sei Θ ⊂ R ein Intervall (Pϑ )ϑ∈Θ eine einparametrige Exponentialfamilie auf Rn (vgl. Definition 4.2.4) und Θ1 := {ϑ ∈ Θ : ϑ1 < ϑ < ϑ2 }, sowie Θ0 := Θ \ Θ1 für beliebige ϑ1 < ϑ2 aus dem Inneren Θ◦ von Θ. Falls ξ streng monoton wachsend und stetig ist (womit auch ξ−1 stetig ist), gibt es zu jedem α ∈ (0, 1) einen gleichmäßig besten Test ϕ∗ zum Niveau α vermöge 1 falls T ( x) ∈ ( c 1 , c 2 ) ∗ ϕ ( x) := δ i falls T ( x) = c i für i = 1, 2 , 0 sonst wobei c i und δ i für i = 1, 2 durch die Gleichungen βϕ∗ (ϑ i ) = Pϑ i (T ∈ ( c 1 , c 2 )) + δ1 Pϑ i (T = c 1 ) + δ2 Pϑ i (T = c 2 ) = α bestimmt sind. Der Beweis des Satzes findet sich in [Witt85, Korollar 2.71, S. 261]. Mit einigen wenigen zusätzlichen Annahmen, die nahezu immer erfüllt sind, gibt es zudem ein ϑ∗ ∈ Θ1 , so dass ϑ 7→ βϕ∗ (ϑ) streng monoton wachsend für ϑ < ϑ∗ und streng monoton fallend für ϑ > ϑ∗ ist. Dies wird in Abbildung 4.6 veranschaulicht. 1 α Θ0 ϑ1 Θ1 ϑ∗ ϑ2 Θ0 Abbildung 4.6: Strenge Monotonie der Gütefunktion in der Erweiterung von Satz 4.2.11. Wir wollen uns nun anschauen, was bei Tests passiert, bei denen die Rollen von Θ0 und Θ1 vertauscht sind. Dazu verweisen zunächst wir auf die Beobachtung in [Witt85, S. 256], die im Wesentlichen folgendes besagt: Selbst bei einparametrigen Exponentialfamilien aus Satz 4.2.11 gibt es keine gleichmäßig besten Tests zum Niveau α ∈ (0, 1), wenn die Hypothesen Θ0 := [ϑ1 , ϑ2 ] und Θ1 := Θ \ Θ0 betrachtet werden. Wir müssen uns daher auf eine kleinere Familie einschränken. 86 4.2 Existenz gleichmäßig bester Tests Definition 4.2.12 Gleichmäßig bester Test unter allen unverfälschten Tests Sei (Pϑ )ϑ∈Θ eine Familie von Verteilungen und Φ0α := {ϕ ∈ Φα | ϕ ist unverfälscht}. Dann heißt ein Test ϕ∗ ∈ Φ0α gleichmäßig bester Test zum Niveau α unter allen unverfälschten Tests zum Niveau α genau dann, wenn für alle ϕ ∈ Φ0α und alle ϑ ∈ Θ1 gilt: βϕ∗ (ϑ) ≥ βϕ (ϑ) i In der Fachliteratur wird ϕ∗ oft auch als gleichmäßig bester unverfälschter Test bezeichnet. Hierbei ist zu beachten, dass diese Bezeichnung zwar üblich ist, aber eine andere Bedeutung suggeriert. Es ist also darauf zu achten, dass damit ein Test im Sinne der Definition 4.2.12 gemeint ist. Wir werden diese Bezeichnung ebenfalls verwenden. Zunächst ist mit Lemma 4.2.7 klar, dass ein gleichmäßig bester Test ϕ∗ zum Niveau α auch ein gleichmäßig bester unverfälschter Test zum Niveau α ist. Die Umkehrung gilt im Allgemeinen jedoch nicht. Dies folgt aus den bisherigen Beobachtungen und dem folgenden Satz 4.2.13. Satz 4.2.13 Sei (Pϑ )ϑ∈Θ eine einparametrige Exponentialfamilie wie in Satz 4.2.11, insbesondere ist ξ strikt monoton wachsend und stetig. Für ϑ1 , ϑ2 ∈ Θ◦ mit ϑ1 < ϑ2 sei Θ0 := {ϑ ∈ Θ : ϑ ∈ [ϑ1 , ϑ2 ]} und Θ1 := {ϑ ∈ Θ : ϑ ∉ [ϑ1 , ϑ2 ]}. Dann gibt es zu jedem α ∈ (0, 1) einen gleichmäßig besten unverfälschten Test ϕ∗ zum Niveau α vermöge 1 falls T ( x) ∉ ( c 1 , c 2 ) ∗ ϕ ( x) := δ i falls T ( x) = c i für i = 1, 2 , 0 sonst wobei c i und δ i für i = 1, 2 durch die Gleichungen βϕ∗ (ϑ i ) = Pϑ i (T ∉ ( c 1 , c 2 )) + δ1 Pϑ i (T = c 1 ) + δ2 Pϑ i (T = c 2 ) = α gegeben sind. Der Beweis findet sich in [Witt85, Satz 2.69, S. 257]. 87 4 Statistische Tests Beispiel 4.2.14 Normalverteilung Sei Pµ = N n (µ, σ2 ) mit bekannter Varianz σ2 > 0 und unbekanntem Erwartungswert µ ∈ R. Für die Dichte von Pµ gilt ! à µ ¶ n n Y 1 ( x i − µ)2 1 X 2 2 2 − n2 (x − 2xi µ + µ ) f µ ( x) = exp − = (2πσ ) exp − 2 p 2 2σ2 2σ i=1 i i =1 2πσ ! ! à à ¶ µ n n 1 X n µ2 µ X 2 − n2 2 = (2πσ ) exp − 2 exp − 2 x exp 2 xi . 2σ 2σ i=1 i σ i=1 | {z }| {z } =:C(µ) =:h(x) p nµ 1 Pn Ferner setzen wir T ( x) := σp x und ξ ( µ ) : = . Daraus folgt, dass (Pµ ) eine einparaσ n i =1 i metrige Exponentialfamilie und ξ streng monoton wachsend und stetig ist. Damit sind die Voraussetzungen der Sätze 4.2.11 und 4.2.13 erfüllt. Wir wollen exemplarisch Satz 4.2.11 anwenden und betrachten daher das Testproblem Θ0 := R \ (µ1 , µ2 ) und Θ1 := (µ1 , µ2 ) für µ1 , µ2 ∈ R mit µ1 < µ2 . Da Pµ (T = c) = 0 für alle c ∈ R und µ ∈ R gilt, vereinfachen sich die zu lösenden Gleichungen aus Satz 4.2.11 zu Pµ i (T ∈ ( c 1 , c 2 )) = α für i = 1, 2. Der resultierende, gleichmäßig beste Test ist dann für x ∈ R gegeben durch ϕ∗ ( x) := 1(c1 ,c2 ) (T ( x)). Wir müssen daher nur noch das obige Gleichungssystem lösen. ³ pEs gilt, ´ dass T normalverteilt p nµ nµ nµ mit ET = σpn = σ und Var T = 1. Daraus folgt, dass T ∼ N σ , 1 ist. Damit gilt ˆ c2 ³ p t− ´ nµ 2 σ 1 1 Pµ (T ∈ ( c 1 , c 2 )) = p exp − dt = p 2 2π c1 2π p ¶ p ¶ µ µ nµ nµ − Φ c1 + , = Φ c2 + σ σ ˆ p nµ σ c2 + p c1 + nµ σ µ 2¶ t exp − dt 2 wobei Φ die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist. Damit ist unser Gleichungssystem für i = 1, 2 gegeben durch p ¶ p ¶ µ µ nµ nµ Φ c2 + − Φ c1 + = α. (*) σ σ Wir betrachten zunächst den Fall µ1 = −µ2 =: µ. Sei c > 0 mit Φ( c + µ̃) − Φ(− c + µ̃) = α, wobei µ̃ =: (**) p nµ σ ist. Dann gilt Φ( c − µ̃) − Φ(− c − µ̃) = 1 − Φ(− c + µ̃) − 1 + Φ( c + µ̃) = Φ( c + µ̃) − Φ(− c + µ̃) = α. Für c 2 := c und c 1 := − c wird daher das Gleichungssystem (*) gelöst. daher ³h p Wir müssen i´ p nµ nµ lediglich noch (**) lösen. Dies entspricht der Suche nach c mit N (0, 1) − c, + c = α. σ σ Dies ist ein Problem, das numerisch gelöst werden muss. 88 4.2 Existenz gleichmäßig bester Tests Wir kommen nun zum allgemeinen Fall für ein beliebiges Intervall (µ1 , µ2 ). Unser Ansatz ist es, das Intervall so zu verschieben, dass es symmetrisch um die Null liegt, also die Form (−µ, µ) hat. Dazu setzen wir µ1 − a = −µ und µ2 − a = µ und erhalten a = 12 (µ1 + µ2 ) und µ = 12 (µ2 − µ1 ). Nun wenden wir die oben erarbeitete Lösung für den Spezialfall auf die Daten x − a an, wobei a := (a, . . . , a) ∈ Rn sei. Wir erhalten dann den Test ϕ∗ ( x) = 1(− c,c) (T ( x) − a), wobei c > 0 wieder wie oben gewählt ist, das heißt c löst die Gleichung Ã" p µ2 −µ1 #! p µ2 −µ1 n 2 n 2 N (0, 1) − c, + c = α. σ σ Beispiel 4.2.15 Es sei Pµ,σ2 := N n (µ, σ2 ), sowohl der Erwartungswert µ, als auch die Varianz σ2 seien also unbekannt. Wir betrachten Θ := R × (0, ∞) mit den Hypothesen Θ0 := {µ0 } × (0, ∞) und Θ1 := p x −µ Θ \ Θ0 . Ferner sei T : Rn → R vermöge T ( x) := n ns 0 und q 1− α das 1 − α2 -Quantil der t n−1 n 2 Verteilung. Korollar 1.2.15 und Beispiel 3.1.10 liefern ³ ´ ³ ´ ³ ´ α α α P µ , σ 2 | T | ≥ q 1− 2 = P µ , σ 2 − T ≥ q 1− 2 + P µ , σ 2 T ≥ q 1− 2 ³³ i´ ³h ´´ α α = P T −∞, − q 1− + P T q 1− , ∞ 2 2 i´ ³³ ´´ ³³ = P T −∞, q α + 1 − P T −∞, q 1− α 2 2 ³ α α´ = +1− 1− 2 2 = α. Wir führen nun eine Konstruktion analog zu der von einparametrigen Exponentialfamilien durch. Der Test ist dann gegeben vermöge ( 1 falls |T ( x)| ≥ q 1− α2 ∗ ϕ ( x) := . 0 sonst Dieser Test heißt Student- t-Test und ist ein gleichmäßig bester Test zum Niveau α. Der Beweis für diese Eigenschaft findet sich in [Rasch95, S. 338]. Auch andere typische Hypothesen bzw. Testprobleme, die wir bereits kennengelernt haben, sind durch diesen Test behandelbar, wenn der Test entsprechend modifiziert wird. Als nächstes wollen wir uns ein paar Beispiele von Familien mit monotonem Dichtequotienten anschauen. Beispiel 4.2.16 Binomialverteilung Die Dichte der Binomialverteilung B( n, p) ist für x ∈ {0, . . . , n} und p ∈ (0, 1) gegeben durch à ! à ! à ! µ ¶ n x n n p n− x n x −x n f p ( x) = p (1 − p) = (1 − p) p (1 − p) = (1 − p) exp x ln . x x x 1− p 89 4 Statistische Tests Daher ist B( n, p)¡eine einparametrige Exponentialfamilie vermöge der Abbildungen C ( p) := p n¢ n (1 − p) , h( x) := x 1{0,...,n} ( x), ξ( p) := ln 1− p und T ( x) := x. Die Voraussetzung p ∉ {0, 1} ist wirklich nötig. Betrachten wir nun zum Beispiel das einseitige Testproblem Θ := (0, p 0 ] und Θ := ( p 0 , 1) für ein p 0 ∈ (0, 1), so ist der zugehörige gleichmäßig beste Test zum Niveau α gegeben durch falls x > k 1 ∗ ∗ ϕ ( x) := γ falls x = k , 0 falls x < k wobei k und γ∗ durch 1 − α = B( n, p 0 )({0, . . . , k}) − γ∗ B( n, p 0 )({ k}) à ! à ! k X n n k = p 0i (1 − p 0 )n− i − γ∗ p 0 (1 − p 0 )n−k i k i =0 (*) bestimmt werden. Dies ist ein numerisches Problem, das man zum Beispiel mit Hilfe von Quantilfunktionen in R lösen kann. Ein anderer, einfacher Ansatz ist es, zunächst das kleinste k mit à ! k n X 1−α ≤ p 0i (1 − p 0 )n− i i i =0 zu finden und dann γ∗ durch die Gleichung (*) zu ermitteln. Falls n besonders groß ist, kann man für den ersten Schritt B( n, p) approximieren. Ist np20 klein, so approximiert man mittels einer Poissonverteilung, ist np 0 (1 − p 0 ) ≥ 0.9, so verwendet man die Standardnormalverteilung. Andere Testprobleme werden analog behandelt, sind zum Teil jedoch aufwändiger. Beispiel 4.2.17 Poissonverteilung Die Dichte der Poissonverteilung ist für λ > 0 und x ∈ N0 gegeben durch f λ ( x) = λx x! e−λ = e−λ · 1 x ln λ ·e . x! 1 Setzen wir C (λ) := e−λ , h( x) := x! 1N0 ( x), ξ(λ) := ln λ und T ( x) := x, so sehen wir, dass auch dies eine einparametrige Exponentialfamilie ist. Wir betrachten wieder die Hypothesen Θ0 := (0, λ0 ] und Θ1 := (λ0 , ∞), wobei, wenn die Poissonverteilung als Approximation von B( n, p) verwendet wird, λ0 := np 0 gesetzt wird. Der zugehörige gleichmäßig beste Test zum Niveau α ist dann gegeben durch falls x > k 1 ∗ ∗ ϕ ( x) := γ falls x = k , 0 falls x < k 90 4.2 Existenz gleichmäßig bester Tests wobei k und γ∗ durch 1 − α = Pois(λ)({0, . . . , k}) − γ∗ Pois(λ)({ k}) =e −λ0 k λi X 0 i =0 i! ∗ −λ0 −γ e λ0k k! (*) bestimmt werden. Auch dies kann wieder numerisch gelöst werden, allerdings kommt es beim naiven Ansatz über die Implementierung von Schleifen zu numerischen Instabilitäten, auf die man achten muss. In diesem Fall ist die Verwendung von Quantil-Funktionen daher vorzuziehen. Beispiel 4.2.18 Normalverteilung I - unbekannter Erwartungswert Die Dichte der Normalverteilung ist für σ2 > 0 gegeben durch ¶ ¶ µ ¶ µ µ ³ µx ´ 1 ( x − µ)2 µ2 1 x2 . = exp − exp f µ ( x) = p exp − exp − p 2σ 2 2σ2 2σ 2 σ2 2πσ2 2πσ2 ´ ³ µ2 Den Fall n = 1 haben wir in Beispiel 4.2.14 bereits kennengelernt. Mit C (µ) := p 1 2 exp − 2σ2 , 2πσ ´ ³ 2 µ h( x) := exp − 2xσ2 , ξ(µ) := σ2 und T ( x) := x ist dies dann eine einparametrige Exponentialfamilie. Für die Hypothesen Θ0 := (−∞, µ0 ] und Θ1 := (µ0 , ∞) bei gegebenem µ0 ∈ R erhalten wir dann den zugehörigen gleichmäßig besten Test zum Niveau α vermöge ( 1 falls x > k ∗ ϕ ( x) = . 0 falls x < k In diesem Test brauchen wir den Fall x = k nicht zu betrachten, da dies nur auf einer Nullmenge eintritt. Der Parameter k wird durch 1 − α = N (µ0 , σ2 )((−∞, k]) bestimmt. Mit einer einfachen Transformation1 erhalten wir µ ¶ k − µ0 2 N (µ0 , σ )((−∞, k]) = Φ , σ wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. Ist nun α 7→ q α die Quank−µ tilfunktion von N (0, 1), so folgt q 1−α = σ 0 genau dann, wenn k = µ0 + σ q 1−α gilt. Beispiel 4.2.19 Gauß-Test Wir wollen nun den Gauß-Test als Approximation für den Test bei binomialverteilten BeobP achtungen betrachten. Es gilt, dass B( n, p) die Verteilung der Summe ni=1 Yi von n unabhängigen und B(1, p)-verteilten Zufallsvariablen ist. Mit dem zentralen Grenzwertsatz CLT und Var Yi = p(1 − p) folgt à ! n X 1 (Yi − p) → N (0, 1). p np(1 − p) i=1 1 Wir verweisen hierfür auf die Wahrscheinlichkeitstheorie-Vorlesung. 91 4 Statistische Tests Für a ∈ R gilt daher à P p Wählen wir nun k := np 0 + a p (Yi − p) ≤ a ≈ Φ(a). np(1 − p) i=1 np 0 (1 − p 0 ), so folgt wegen 1 p ! n X 1 n X (Yi − p 0 ) ≤ a ⇐⇒ np 0 (1 − p 0 ) i=1 n X Yi ≤ k, i =1 dass für den Erwartungswert µ0 := np 0 und die Varianz σ2 := np 0 (1 − p 0 ) von B( n, p 0 ) à ! n X B( n, p 0 )({0, . . . , k}) = P Yi ≤ k i =1 à ! k − µ0 ≈Φ p ≈Φ σ np 0 (1 − p 0 ) k − np 0 µ ¶ gilt. Wird im Binomialtest-Problem nun obige Approximation von B( n, p) verwendet, so muss k durch à ! ∗ n 1 − α = B( n, p 0 )({0, . . . , k}) − γ p k (1 − p 0 )n−k k 0 µ ¶ k − µ0 ≈Φ σ bestimmt werden, das heißt es gilt k = µ0 + σ q 1−α . Mit anderen Worten bedeutet dies, dass der Gauß-Test für bekannte Varianz eine Approximation des gleichmäßig besten Tests der Binomialverteilung darstellt, falls µ0 := np 0 und σ2 := np 0 (1 − p 0 ) verwendet wird. Beispiel 4.2.20 Normalverteilung II - unbekannte Varianz Diesmal nehmen wir an, dass der Erwartungswert µ bekannt, die Varianz σ2 > 0 jedoch unbekannt ist. Die Dichte ist wieder gegeben durch µ ¶ ( x − µ)2 exp − , f µ ( x) = p 2σ 2 2πσ2 1 1 , 2πσ2 wodurch die Normalverteilung für σ > 0 mit C (σ) := p h( x) := 1, ξ(σ) := − 2σ1 2 und T ( x) := ( x − µ)2 zu einer einparametrigen Exponentialfamilie wird, wobei ξ offenbar streng monoton wachsend ist. Für die Hypothesen Θ0 := (0, σ0 ] und Θ1 := (σ0 , ∞) ist der zugehörige gleichmäßig beste Test zum Niveau α gegeben durch ( 1 falls ( x − µ)2 > k ϕ∗ ( x) = , 0 falls ( x − µ)2 ≤ k 92 4.2 Existenz gleichmäßig bester Tests wobei der Parameter k durch 1 − α = N (µ, σ20 )({T ≤ k}) bestimmt werden kann. Nun gilt ˆ 1 =q 2πσ20 1 =q 2πσ20 1 =p 2π à = Fχ2 1 à {(x−µ)2 ≤ k} ˆ { x2 ≤ k } ˆ exp − à exp − ( x − µ)2 x2 2σ20 ! dx ! 2σ20 dx µ 2¶ x dx exp − 2 {σ20 x2 ≤ k} ! k , σ20 wobei Fχ2 die Verteilungsfunktion der χ2n -Verteilung mit n = 1 ist. Sei nun q 1−α das 1 − α1 Quantil der χ21 -Verteilung. Wir setzen σk2 := q 1−α , was äquivalent zu k = σ20 q 1−α ist. Damit 0 µ ¶ erhalten wir, dass 1 − α = Fχ2 σk2 erfüllt ist. Der Test ist somit gegeben durch 1 ∗ 0 ϕ ( x) = ( 1 0 falls ( x − µ)2 > σ20 q 1−α sonst . 93 4 Statistische Tests 4.3 Zweistichprobentests Häufig müssen zwei Produkte miteinander verglichen werden, um zum Beispiel zu überprüfen, ob Produkt A die selben Eigenschaften wie Produkt B hat, oder ob Produkt A signifikant besser ist als Produkt B. Ein typisches Beispiel hierfür ist der Vergleich von neuen mit alten Medikamenten in der Medizin. Wir wollen uns jetzt mit entsprechenden statistischen Tests beschäftigen. Zunächst wollen wir davon ausgehen, dass wir Zufallsvariablen X i ∼ N (µ1 , σ21 ) haben, die wir n 1 -mal beobachten. Außerdem seien Zufallsvariablen Yi ∼ N (µ2 , σ22 ) gegeben, die wir n 2 -mal beobachten. Ferner wollen wir vorerst davon ausgehen, dass X 1 , . . . , X n1 , Y1 , . . . , Yn2 unabhängig sind. Gilt n 1 = n 2 , so sind die Zufallsvariablen X i − Yi =: Z i unabhängig und normalverteilt. In diesem Fall sind die Testprobleme auf die Beispiele des vorherhigen Kapitels zurückführbar, da wir uns darauf beschränken können, nur die Z i zu betrachten. Beispiel 4.3.1 Gleichheit des Erwartungswertes Wir betrachten den Fall, dass σ21 = σ22 =: σ2 unbekannt sei mit Θ := R2 × (0, ∞). Dann sei Θ0 := {(µ1 , µ2 , σ2 ) ∈ Θ | µ1 = µ2 } und Θ1 := Θ \ Θ0 . Wir betrachten T : Rn ∼ = (Rn1 , Rn2 ) → R mit n := n 1 + n 2 vermöge r n 1 n 2 xn1 − yn2 T ( x, y) := · , n 1 + n 2 s n1 +n2 ¡P ¢ P wobei s n1 +n2 := n1 +1n2 −2 ni=11 ( x i − xn )2 + ni=21 ( yi − yn )2 ist. Ferner sei q 1− α2 das 1 − α2 -Quantil der t n1 +n2 −2 -Verteilung. Wir betrachten nun den so genannten Zweistichproben- t-Test ϕ∗ ( x, y) := ( 1 0 falls |T ( x, y)| > q 1− α2 sonst . Dieser Test ist ein Test zum Niveau α. Der Beweis hierfür findet sich in [Rasch95, S. 340 ff.]. Beispiel 4.3.2 Einseitiger (vergleichender) Test Der Parameterraum Θ sei wie in Beispiel 4.3.1 gegeben. Nun betrachten wir jedoch die Hypothesen Θ0 := {(µ1 , µ2 , σ2 ) ∈ Θ | µ1 ≥ µ2 } und Θ1 := Θ \ Θ0 . Wir betrachten T : Rn1 +n2 → R wie in Beispiel 4.3.1 und q 1− α2 sei das 1 − α2 -Quantil der t n1 +n2 −2 -Verteilung. Dann ist der durch ϕ∗ ( x, y) := ( 1 0 falls T ( x, y) < − q 1−α = q α sonst gegebene Test ein gleichmäßig bester unverfälschter Test zum Niveau α (vgl. Definition 4.2.12). Auch dies ist ein Zweistichproben- t-Test. Die entsprechenden Beweise finden sich in [Rasch95, S. 340 ff.]. 94 4.3 Zweistichprobentests Wir wollen nun einige Details der beiden Beispiel 4.3.1 und 4.3.2 diskutieren. Die Einschränkung σ1 = σ2 ist in der Praxis oft schwer zu rechtfertigen, insbesondere, da wir annehmen, die Varianzen seien gleich, ohne sie jedoch zu kennen. Sind die Varianzen σ21 6= σ22 jedoch beide bekannt, so kann man den Zweistichproben-Gauß-Test anwenden, der durch die Stichprobenfunktion T : Rn1 +n2 → R vermöge xn − yn2 T ( x, y) := r 1 σ21 n1 σ2 + n22 beschrieben wird. Betrachtet man zum Beispiel die Hypothese H0 := {µ1 ≥ µ2 }, so ist der zugehörige Test gegeben durch ( 1 falls T ( x, y) < q α ∗ ϕ ( x, y) := , 0 sonst wobei q α das α-Quantil der Standardnormalverteilung ist. Auch dies sind gleichmäßig beste unverfälschte Tests zum Niveau α. Wir haben bisher den Fall mit unbekannten Varianzen σ21 6= σ22 nicht behandelt. Man kann hier zwar Tests konstruieren, die das Niveau α erreichen, es ist jedoch deutlich schwieriger einen gleichmäßig besten Tests zu finden, weshalb dies meist nur approximativ lösbar ist. Ein Ansatz findet sich in [Rasch95, S. 343 ff.]. Außerdem ist es oft so, dass X 1 , . . . , X n1 , Y1 , . . . , Yn2 nicht unabhängig sind, zum Beispiel für n 1 = n 2 sind dann aber die Zufallsvariablen Z i := X i − Yi unabhängig. Dies führt zu Tests mit verbundenen Stichproben, beispielsweise wenn in einer Medikamentenstudie die Patienten erst das erste und dann das zweite Medikament einnehmen. In der Praxis liegen oft Hypothesen der Form {µ1 ≥ µ2 + a} mit einem a ∈ R vor. Diese Situation lässt sich durch eine Translation auf die obigen Beispiele zurückführen. 95 4 Statistische Tests 4.4 Eine Anwendung von Tests In diesem Kapitel wollen wir uns ein ausführliches Beispiel anschauen, bei welchem verschiedene der bisher kennengelernten Techniken zum Einsatz kommen. 4.4.1 Informelle Beschreibung des Problems Es seien A und B zwei Algorithmen, die zu Datensätzen D = (( x1 , y1 ), . . . , ( xn , yn )) ∈ ( X ×{−1, 1})n Funktionen f A , f B : X → {−1, 1} ausgeben, wobei X eine Menge ist. Diese Funktionen sollen für einen neuen Eingabewert x den „zugehörigen“ Ausgabewert y durch f A ( x) und f B ( x) richtig beschreiben. Die Frage, mit der wir uns letztlich beschäftigen wollen, lautet: Welcher Algorithmus produziert die besseren Funktionen? Wir werden dabei jedoch nicht darauf eingehen, wie man diese Algorithmen konkret konstruieren kann. Die betrachteten Algorithmen sind so genannte Lernalgorithmen, welche die unbekannte Eingabe-Ausgabe-Beziehung zwischen x und y anhand von D „lernen“. Solche Algorithmen werden zunehmend interessant, da sehr komplexe Daten an Bedeutung gewinnen. Wir wollen an dieser Stelle einige Beispielanwendungen auflisten: • Textanalyse, maschinelle Sprachverarbeitung – Methoden zur Textkategorisierung (handelt es sich um Politik, Sport, Boulevard, . . . ?) – Spam-Filter • Bildanalyse – Optical Character Recognition (Handschrifterkennung) – Image Classification • Bioinformatik • Ingenieurswesen 4.4.2 Formale Beschreibung des Problems Wir haben ein völlig unbekanntes Wahrscheinlichkeitsmaß P auf X × {−1, 1} und einen Datensatz D ∼ P n . Jedes neue Paar ( x, y) ist ebenfalls P -verteilt und unabhängig, das heißt alle Daten sind i. i. d. Ist f : X → {−1, 1}, so heißt R P ( f ) := P ({( x, y) : f ( x) 6= y}) der mittlere Klassifikationsfehler beziehungsweise Klassifikationsrisiko. Ist ( x10 , y10 ), . . . , ( x0n0 , yn0 0 ) eine Folge 96 4.4 Eine Anwendung von Tests von zukünftigen Beobachtungen, so gilt mit dem starken Gesetz der großen Zahlen P ∞ -fast sicher n0 1 X 1{ f (x0 )6= y0 } → R P ( f ). i i n0 i=1 Die Funktion f B ist besser als f A genau dann, wenn R P ( f B ) < R P ( f A ) gilt. Unser Ziel ist es nun, zu entscheiden, ob der Algorithmus B besser ist als der Algorithmus A . Es gilt zu beachten, dass „Ist B besser als A ?“ und „Ist f B besser als f A ?“ unterschiedliche Fragen sind und wir oben nur für die Entscheidungsfunktionen definiert haben, was wir unter dem Begriff „besser“ verstehen. Dies wird zu verschiedenen Testproblemen führen. 4.4.3 Informelle Wahl der Hypothesen Wir betrachten A als einen älteren, bereits bekannten Algorithmus, während B ein neuer Algorithmus ist, von dem wir testen wollen, ob er besser als A ist. Im Sinne des wissenschaftlichen Fortschritts sollte das Testergebnis „B ist besser als A “ fundiert sein. Dies muss bei der Wahl der Hypothesen berücksichtigt werden. Dazu wählen folgenden Ansatz: H0 : B ist nicht besser als A H1 : B ist besser als A Ist ϕ ein Test zum Niveau α, so gilt, dass die Wahrscheinlichkeit für Fehler erster Art (also dafür, dass H0 wahr ist, während ϕ das Gegenteil sagt) kleiner oder gleich α ist. Wir können also durch α dafür sorgen, dass das Testergebnis „B ist besser als A “ fundiert ist, wir haben jedoch im Allgemeinen keine Kontrolle über die Wahrscheinlichkeit für Fehler zweiter Art und daher wissen wir nicht hinreichend sicher, ob das Testergebnis „B ist nicht besser als A “ stimmt. Diese Beobachtung gilt für jedes Testproblem, bei welchem die Fehler zweiter Art nicht kontrolliert werden können. Tests zum Niveau α können also nur mit hinreichender Sicherheit die Nullhypothese widerlegen, nicht jedoch bestätigen. 4.4.4 Test auf einem Datensatz Wir nehmen zunächst an, dass wir genau einen Trainingsdatensaz D und einen Testdatensatz D 0 := (( x10 , y10 ), . . . , ( x0n , yn0 )) haben. Präziser formuliert lautet unsere Frage nun: Hat B mit Hilfe von D die bessere Entscheidunsfunktion erzeugt? Dazu sei p A := R P ( f A ) und p B := R P ( f B ), wobei p A , p B ∈ [0, 1] unbekannt sind. Für das empirische Risiko n0 1 X R D 0 ( f ) := 0 1{ f (x0 )6= y0 } i i n i=1 97 4 Statistische Tests gilt nun R D 0 ( f A ) ∼ B( n0 , p A ) und R D 0 ( f B ) ∼ B( n0 , p B ). Nach dem zentralen Grenzwertsatz sind beide Zufallsvariablen (in D 0 ) approximativ normalverteilt und diese Tatsache werden wir nutzen. Wir können die Varianzen n0 p A (1 − p A ) und n0 p B (1 − p B ) jedoch nicht als gleich voraussetzen und können daher nicht auf die Beispiele in Kapitel 4.3 zurückgreifen. Nach dem zentralen Grenzwertsatz ist D 0 7→ R D 0 ( f A ) − R D 0 ( f B ) jedoch normalverteilt. Dazu betrachten wir einen Student- t-Test und es sei µ := p A − p B , Θ0 := {(µ, σ2 ) : µ ≤ 0, σ2 > 0}, wobei µ ≤ 0 äquivalent zu p A ≤ p B ist und daher auch dazu, dass B nicht besser als A ist, diese Hypothese entspricht also der bereits informell eingeführten Version. Entsprechend sei Θ1 := {(µ, σ2 ) : µ > 0, σ2 > 0}. Zudem betrachten wir die Zufallsvariablen z i := 1{ f A (x0 )6= y0 } − 1{ f B (x0 )6= y0 } i i i i P 0 und s2n := n01−1 ni=1 ( z i − z n0 )2 . Ferner sei T ( z) := p n0 z n0 p 0 R D 0 ( f A ) − R D 0 ( f B ) = n . s n0 s n0 Ist q 1−α das 1 − α-Quantil der t n0 −1 -Verteilung, so ist der Student- t-Test unseres Problems gegeben durch ( 1 falls T ( z) > q 1−α ϕ∗ ( z) = . 0 sonst Mit anderen Worten muss R D 0 ( f A ) also deutlich größer als R D 0 ( f B ) sein um die Nullhypothese zu widerlegen. Wie gut kontrolliert dieser Test nun Fehler zweiter Art? Sei dazu µ0 := p A − p B > P 0 0 0 0 0. Mit s2n = n0n−1 n10 ni=1 ( z i − z n0 )2 = n0n−1 VarD 0 id ≤ n2n 0 −1 gilt dann ! à ! à p p n 0 µ0 n 0 µ0 ≥ x = P µ0 ,σ2 T ≥ x + P µ0 ,σ2 T − s n0 s n0 à ! p n0 − 1 ≤ P µ0 ,σ 2 T ≥ x + p µ0 . 2 p Wir setzen nun x := q 1−α − n0 −1 p µ0 2 und erhalten damit βϕ∗ (µ0 , σ2 ) = Pµ0 ,σ2 (T ≥ q 1−α ) à ! p n 0 µ0 ≥ P µ0 , σ 2 T − ≥x s n0 = P T ([ x, ∞)) = 1 − P T ((−∞, x]). Die Wahrscheinlichkeit für Fehler zweiter Art, falls µ0 wahr ist, ist damit Ãà #! p n0 − 1 2 1 − βϕ∗ (µ0 , σ ) ≤ P T ((−∞, x]) = t n−1 −∞, q 1−α − p µ0 . 2 Für n0 → ∞ gilt p n0 −1 p µ0 2 → ∞ und damit geht die Fehlerwahrscheinlichkeit gegen Null. Wir haben unsere Eingangsfrage damit jedoch noch nicht beantwortet, da wir bis jetzt lediglich einen Test konstruiert haben, der entscheidet, ob B auf einem einzelnen Testdatensatz besser 98 4.4 Eine Anwendung von Tests als A ist. Wie können wir nun entscheiden, ob B besser als A für alle von P generierten Datensätze ist? Es gilt zu beachten, dass die Verteilungen der Zufallsvariablen D 7→ R P ( f A,D ) und D 7→ R P ( f B,D ) völlig unbekannt sind. 4.4.5 Test auf vielen Datensätzen I Bis jetzt haben wir noch nicht definiert, was wir darunter verstehen, dass B auf einer Verteilung P besser als A ist. Eine Möglichkeit hierfür ist es, ein n ∈ N zu fixieren und zu sagen, dass B für P und n besser als A ist genau dann, wenn ED ∼P n R P ( f B,D ) < ED ∼P n R P ( f A,D ) gilt. Mit anderen Worten ist das dann der Fall, wenn das mittlere Risiko von B kleiner als das mittlere Risiko von A ist. Wir schreiben p A := ED ∼P n R P ( f A,D ) und analog p B . Zudem wählen wir m-mal einen Trainingsdatensatz D i der Länge n und m-mal einen Testdatensatz D 0i der Länge n0 , wobei alles identisch und unabhängig verteilt sei. Wir betrachten die Zufallsvariablen z i := R D 0 ( f B,D i ) − i P 1 Pm 2 ( z − z ) . Man sieht, dass approximativ normalverteilt R D 0 ( f A,D i ) und s2m := m1−1 m z m i =1 i m i =1 i i ist, daher wollen wir einen t-Test auf z i konstruieren. Wir müssen zuvor nachprüfen, dass die Erwartungswerte der z i den Erwartungswerten unserer Definition von „besser“ entsprechen. Dazu betrachten wir à ! ´ n0 ³ 1 X ED i ∼P n ,D 0 ∼P n0 ( z i ) = ED i ∼P n ED 0 ∼P n0 0 1{ f B,D (x0 )6= y0 } − 1{ f A,D (x0 )6= y0 } j j i j i j i i n j=1 ³ ´ n0 1 X E(x0 ,y0 )∼P 1{ f B,D (x0 )6= y0 } − 1{ f A,D (x0 )6= y0 } = ED i ∼P n 0 j j i j i j n j=1 | j j {z } R P ( f B,D i )−R P ( f A,D i ) = pB − p A . Daher ergibt es Sinn, den t-Test anzuwenden, um zu entscheiden, ob E z i ≤ 0 gilt. Dazu wählen wir Θ0 := {(µ, σ2 ) : µ ≤ 0, σ2 > 0} und Θ1 := {(µ, σ2 ) : µ > 0, σ2 > 0}, wobei µ = E z i = p B − p A ist. p m Unsere Testgröße ist T ( z) = m szm , wobei z = ( z1 , . . . , z m ) ist. Dann ist unser Test gegeben durch ( 1 falls T ( z) > q 1−α ϕ∗ ( z) = , 0 sonst wobei q 1−α das 1 − α-Quantil von t m−1 ist. Ein Vorteil dieser Methode ist, dass sie immer anwendbar ist, ein Nachteil ist jedoch, dass sehr viele Daten benötigt werden. In der Praxis wird häufig ein bootstrap approach (dt. Stiefelschlaufen-Ansatz) durchgeführt: Man hat einen nicht besonders großen Datensatz vorliegen und zerlegt diesen m-mal zufällig in Trainings- und Testdatensatz, wobei Wiederholungen erlaubt sind. Bootstrapping funktioniert in vielen statistischen Problemen und ist ein oft verwendetes Werkzeug. 99 4 Statistische Tests 4.4.6 Test auf vielen Datensätzen II Die Erwartungswerte ED ∼P n (R P ( f D )) werden relativ stark durch Extremwertverhalten beeinflusst. Die Frage ist also, ob wir wirklich an mittleren Risiken interessiert sind. Als Alternative sagen wir daher, dass B besser als A ist genau dann, wenn P n (D : R P ( f B,D ) < R P ( f A,D )) > 12 gilt, das heißt in mindestens der Hälfte aller D ist B besser als A . Etwas pragmatischer ist die 0 Bedingung P n+n ((D, D 0 ) : R D 0 ( f B,D ) < R D 0 ( f A,D )) > 12 , mit der wir uns nun auseinandersetzen wollen. Dies kann durch den so genannten Vorzeichentest überprüft werden. Dazu sei ¢ 1 0¡ H0 : P n+n R D 0 ( f B,D ) ≥ R D 0 ( f A,D ) ≥ , 2 ¢ 1 ¢ 0¡ 0¡ 1 H1 : P n+n R D 0 ( f B,D ) ≥ R D 0 ( f A,D ) < ⇔ P n+n R D 0 ( f B,D ) < R D 0 ( f A,D ) > . 2 2 Diese Hypothesen sind nicht mehr parametrisch. Wir setzen nun z i := R D 0 ( f B,D i ) − R D 0 ( f A,D i ) i i P und T ( z) := m i =1 1{ z i ≥0} ∼ B( m, p), wobei p unbekannt ist. Die Nullhypothese besagt nun, dass p ≥ 12 ist. Dies wird nun wie im Beispiel 4.2.19 getestet. Es sei p 0 := 12 und k := mp 0 + p p m + mp 0 (1 − p 0 ) q 1−α = m 2 2 q 1−α , wobei q 1−α das 1 − α-Quantil der Standardnormalverteilung ist. Dann ist der Test gegeben durch ( 1 falls T ( z) < k ∗ ϕ ( z ) := . 0 sonst Mit anderen Worten bedeutet dies, dass die Nullhypothese abgelehnt wird, wenn nicht genügend Erfolge von A gezählt werden. Bis jetzt haben wir nur die Frage beantwortet, ob B besser als A für ein festes P ist. Eigentlich wollen wir dies aber für viele, unbekannte P wissen. Darunter fallen zum Einen ähnliche Verteilungen, die typisch für anwendungsnahe Betrachtungen sind, andererseits auch für unterschiedliche Verteilungen, die typisch für Mehrzweckalgorithmen sind. 100 Literaturverzeichnis [Witt85] H. Witting, Mathematische Statistik I, 1. Auflage, 1985 [Leh98] E. L. Lehmann und G. Casella, Theory of Point Estimation, 2nd edition, 1998 [Leh05] E. L. Lehmann und J. P. Romano, Testing Statistical Hypotheses, 3rd edition, 2005 [Rasch95] D. Rasch, Mathematische Statistik, 1. Auflage, 1995 [Schlitt96] R. Schlittgen, Statistische Referenz, 1. Auflage, 1996 101 Abbildungsverzeichnis 0.1 Übersicht der Zusammenhänge zwischen Stochastik, Wahrscheinlichkeitstheorie und Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1 Skizze einer empirischen Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . 19 2.1 Gegenüberstellung beser und gleichmäßig bester Schätzer . . . . . . . . . . . . . 45 3.1 α-Quantil für die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 α-Quantil für die Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Verteilungsfunktion und Umkehrfunktion der Standardnormalverteilung . . . 58 59 63 4.1 Darstellung einer Gütefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Illustration verschiedener α für den Zusammenhang zwischen Gütefunktionen und (unverfälschter) Tests zum Niveau α . . . . . . . . . . . . . . . . . . . . . . . 4.3 Illustration einer konsistenten Folge statistischer Tests . . . . . . . . . . . . . . 4.4 Erreichen eines vorgegebenen Niveaus durch Verwendung randomisierter Tests 4.5 Illustration des schlechstmöglichsten Verhaltens Fehler zweiter Art . . . . . . . 4.6 Strenge Monotonie der Gütefunktion in der Erweiterung von Satz 4.2.11 . . . . 73 74 75 79 83 86 103 Stichwortverzeichnis a-posteriori-Wahrscheinlichkeitsdichte, 44 a-priori-Verteilung, 44 Arithmetisches Mittel, 10 Atomlosigkeit, 59 Bayes-Schätzer, 45 Bias, 24 Chi-Quadrat-Verteilung, 16 Cramér-Rao-Ungleichung, 49 Einparametrige Exponentialfamilie, 82 Empirische Verteilungsfunktion, 19 Empirisches Maß, 19 Erwarteter Verlust, 25 Erwartungstreue, 10, 12, 24 Asymptotische, 24 Exass-Kurtosis, 26 Exponentialfamilie einparametrige, 82 Fisher-Information, 53 Gütefunktion, 73 Gammafunktion, 14 Gammaverteilung, 15 Gemittelter quadratischer Verlust, 46 Klassifikationsrisiko, 96 Konfidenzintervall, 57 asymptotisches, 58 minimales, 58 Konsistenz, 11, 12, 74 Kovarianz, 32 Lemma von Neyman-Pearson, 77 Lernalgorithmus, 96 Likelihood-Funktion, 37 log-Likelihood-Funktion, 38 Maximum-Likelihood-Schätzer, 37 Maxmin-Test, 83 mittlerer Klassifikationsfehler, 96 Momentenmethode, 35 Momentenschätzer, 35 Monotoner Dichtequotient, 80 Nullschätzer, 31 p-Wert, 76 Quantil, 58 Risiko, 25 Satz von Chapman-Robbins, 33 von Glivenko-Cantelli, 20 von Rao, 31 Schätzer, 23 Bayes-Schätzer, 45 bester unverzerrter, 30 Maximum-Likelihood-Schätzer, 37 Momentenschätzer, 35 Nullschätzer, 31 Schätzung, 23 Statistischer Raum, 7 Statistischer Test, 72 besserer, 75 gleichmäßig bester, 75 gleichmäßig bester unter allen unverfälschten, 87 konsistente Folge, 74 kritischer Bereich, 72 Macht, 73 Maxmin-Test, 83 nicht-randomisierter, 72 randomisierter, 72 Student- t-Test, 89 105 Stichwortverzeichnis unverfälschter, 74 zum Niveau α, 74 Zweistichproben- t-Test, 94 Zweistichproben-Gauß-Test, 95 Stichprobenmittel, 10 Stichprobenvarianz, 12 Student- t-Test, 89 Student- t-Verteilung, 17 Unverzerrtheit, 24 Verlustfunktion, 25 der kleinsten Quadrate, 25 Verzerrung, 24 Zufallsstichprobe, 10 Zweistichproben- t-Test, 94 Zweistichproben-Gauß-Test, 95 106