Einführung in die Statistik∗ Dr. Robert Philipowski Empfohlenes Lehrbuch: H.-O. Georgii, Stochastik (5. Auflage). Walter de Gruyter, Berlin, Boston, 2015. Inhaltsverzeichnis 1 Einführung 2 2 Punktschätzer 5 3 Maximum-Likelihood-Methode (Methode der maximalen Plausibilität) 8 4 Beste Schätzer 13 5 Informationsungleichung 13 6 Exponentielle Familien 17 7 Konsistenz 21 8 Konsistenz von Maximum-Likelihood-Schätzern 22 9 Bayessche Statistik 25 10 Konfidenzbereiche 28 11 Verteilungen rund um die Normalverteilung 30 12 Hypothesentests 34 13 Tests bei einfacher Nullhypothese und Alternative, Neyman-Pearson-Lemma, Lemma von Stein 37 14 Einseitige Tests bei eindimensionaler Parametermenge 41 15 Zweiseitige Tests in exponentiellen Modellen 45 16 Optimalität bei mehrdimensionaler Parametermenge 49 17 Nichtparametrische Statistik und der Satz von Glivenko-Cantelli 52 18 Beweis der quantitativen Form des Satzes von Glivenko-Cantelli 53 19 Der Kolmogorov-Smirnov-Test 58 20 Der Chiquadrat-Anpassungstest 59 21 Regressionsanalyse 61 ∗ Skript zu einer im Sommersemester 2016 an der Universität Bonn gehaltenen Vorlesung 1 1 Einführung Die Statistik besteht aus zwei Teilgebieten: 1. Beschreibende Statistik: Hier geht es um die übersichtliche Darstellung von Daten durch • Berechnung von Kennwerten (Mittelwert, Quantile, . . . ), • graphische Darstellung. Die Methoden der beschreibenden Statistik sind zwar in der Praxis sehr wichtig, aber aus mathematischer Sicht weitgehend uninteressant und daher nicht Gegenstand dieser Vorlesung. 2. Schließende Statistik (Thema dieser Vorlesung): Hier geht es darum, aus der beobachteten Realisierung einer Zufallsvariablen auf das zugrundeliegende Wahrscheinlichkeitsmaß zu schließen. Die Problemstellung der schließenden Statistik ist damit in gewisser Weise invers zur Problemstellung der Wahrscheinlichkeitsrechnung: • Wahrscheinlichkeitsrechnung: – Gegeben: Wahrscheinlichkeitsraum (Ω, A, P) – Gesucht: z.B. P(X ∈ B) für eine auf (Ω, A, P) definierte Zufallsvariable X und eine Menge B • Schließende Statistik: – Gegeben: a) Messraum (Ω, A) und eine Familie (Pθ )θ∈Θ von Wahrscheinlichkeitsmaßen auf (Ω, A) (Interpretation: das wahre Wahrscheinlichkeitsmaß ist unbekannt, aber man nimmt an, dass eines der Maße Pθ das wahre Wahrscheinlichkeitsmaß ist), b) Realisierung x einer auf (Ω, A) definierten Zufallsvariablen X – Gesucht: θ ∈ Θ derart, dass Pθ das wahre Wahrscheinlichkeitsmaß ist Definition 1.1. Ein statistisches Modell ist ein Tripel (Ω, A, (Pθ )θ∈Θ ) bestehend aus • einer Menge Ω, • einer σ-Algebra A auf Ω, • einer Familie (Pθ )θ∈Θ von Wahrscheinlichkeitsmaßen auf (Ω, A), wobei Θ eine nichtleere Menge ist. Definition 1.2. Sei (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell. Die kanonische Zufallsvariable auf (Ω, A) ist X = IdΩ , also X : Ω → Ω, X(ω) = ω für alle ω ∈ Ω. Bemerkung. Wenn Pθ das wahre Wahrscheinlichkeitsmaß ist, ist Pθ zugleich auch die Verteilung von X. Beispiel 1.3. Ein Obsthändler erhält eine Lieferung von N = 10.000 Apfelsinen und möchte wissen, wieviele davon faul sind. Theoretisch könnte er alle 10.000 Apfelsinen untersuchen. Eine solche Volluntersuchung ist aber oft zu aufwändig oder gar unmöglich. Daher zieht der Händler eine Stichprobe von z.B. k = 50 Apfelsinen. Dabei nehmen wir an, dass die 50 Apfelsinen zufällig und gleichverteilt aus der Menge aller 10.000 Apfelsinen gezogen werden, d.h. dass alle 50-elementigen Teilmengen die gleiche Wahrscheinlichkeit haben, gezogen zu werden. Sei X die Anzahl der faulen Apfelsinen in der Stichprobe. Da die Stichprobe zufällig gezogen wird, ist X eine Zufallsvariable. Der Händler untersucht nun die Apfelsinen in der Stichprobe und stellt fest, dass x von ihnen faul sind, d.h. er beobachtet die Realisierung x der Zufallsvariablen X. Was lässt sich aufgrund dieser Information über die Zahl θ aller faulen Apfelsinen sagen? Das Problem lässt sich wie folgt modellieren: 2 • Für Ω wählen wir die Menge aller möglichen Werte von X, also Ω = {0, . . . , k}. Für X wählen wir die kanonische Zufallsvariable, X = IdΩ . • Da Ω endlich ist, wählen wir A = P(Ω). • Für Θ wählen wir die Menge der möglichen Werte von θ, also Θ = {0, . . . , N }. • Wenn die Gesamtzahl der faulen Apfelsinen θ ist, ist die Anzahl X der faulen Apfelsinen in der Stichprobe hypergeometrisch verteilt mit Parametern N , θ und k, d.h. θ N −θ x Pθ [X = x] = k−x N k . Wir wählen daher Pθ = Hyp(N, θ, k). Zurück zur Frage: Was lässt sich über die Zahl θ aller faulen Apfelsinen sagen? In der schließenden Statistik interessiert man sich vor allem für die folgenden Antwortarten: 1. Punktschätzung: Es liegt nahe zu vermuten, dass der Anteil der faulen Apfelsinen in der Stichprobe ungefähr so groß ist wie insgesamt, dass also x θ ≈ k N gilt, und folglich θ≈ Nx . k Diese Idee führt zu dem Punktschätzer Nx . k θ̂(x) := Wie zuverlässig ist diese Schätzung? Beachte, dass x und folglich auch θ̂(x) die Realisierung einer Zufallsvariablen ist. 2. Konfidenzbereich: Wir wählen eine Zahl α ∈ (0, 1) (z.B. α = 5 %) und suchen eine von X abhängige Teilmenge C(X) von Θ (Konfidenzbereich), die den unbekannten Parameter θ mit einer Wahrscheinlichkeit von mindestens 1 − α enthält, ! P [C(X) 3 θ] ≥ 1 − α. Folgendes ist hier zu beachten: (a) Das Wahrscheinlichkeitsmaß P hängt von θ ab, P = Pθ . Die obige Bedingung muss daher wie folgt präzisiert werden: ! Pθ [C(X) 3 θ] ≥ 1 − α ∀θ ∈ Θ. (b) Da X zufällig ist, ist auch C(X) zufällig. Der Parameter θ hingegen ist zwar unbekannt, wird aber (zumindest in der klassischen Statistik) nicht als Zufallsvariable angesehen, da für ihn keine Verteilung spezifiziert ist. (Der Fall, dass für θ eine Wahrscheinlichkeitsverteilung gegeben ist, wird in der sog. Bayesschen Statistik behandelt.) (c) Eine Möglichkeit ist C(X) = Θ. Dies ist zwar ein Konfidenzbereich für jedes α ∈ (0, 1), aber praktisch völlig nutzlos. Es ist daher zusätzlich zu fordern, dass C(X) möglichst klein ist. 3 3. Hypothesentest: Der Lieferant behauptet, höchstens 5 % der Apfelsinen (also höchstens 500) seien faul. Diese Hypothese wollen wir anhand der Stichprobe überprüfen. Dazu formulieren wir die Nullhypothese H0 und die Alternativhypothese H1 , H0 : θ ≤ 500, H1 : θ > 500. Je nachdem, wie groß X ist, lehnen wir die Nullhypothese H0 ab oder nicht. Hierzu bestimmen wir einen Schwellenwert c und entscheiden wie folgt: X > c ⇒ Lehne H0 ab, X ≤ c ⇒ Lehne H0 nicht ab. Dabei sind zwei Arten von Fehlern möglich: (a) Die Nullhypothese wird abgelehnt, obwohl sie zutrifft (Fehler erster Art), (b) Die Nullhypothese wird nicht abgelehnt, obwohl sie falsch ist (Fehler zweiter Art). Üblicherweise fixiert man eine Irrtumswahrscheinlichkeit α und fordert, dass (a) die Wahrscheinlichkeit eines Fehlers erster Art (fälschliches Ablehnen der Nullhypothese) höchstens α beträgt, ! P [H0 abgelehnt, obwohl richtig] ≤ α, (b) die Wahrscheinlichkeit eines Fehlers zweiter Art (fälschliches Nichtablehnen der Nullhypothese) möglichst klein ist, P [H0 nicht abgelehnt, obwohl falsch] möglichst klein. Hierbei ist wieder zu beachten, dass das Wahrscheinlichkeitsmaß P von θ abhängt. Wir formulieren daher präziser: ! Pθ [H0 abgelehnt] ≤α für alle θ, für die H0 gilt, Pθ [H0 nicht abgelehnt] möglichst klein für alle θ, für die H0 nicht gilt. Einsetzen der Entscheidungsregel ergibt ! Pθ [X > c] ≤ α ∀θ ≤ 500, Pθ [X ≤ c] möglichst klein ∀θ > 500. Bemerkung. Oft führt man ein Zufallsexperiment nicht nur einmal, sondern mehrmals unabhängig voninander durch. Dies lässt sich mathematisch wie folgt erfassen: Definition 1.4 (Produktmodell). Sei (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell. Das zugehörige n-fache Produktmodell ist das Modell (Ωn , A⊗n , (P⊗n θ )θ∈Θ ). Die kanonische Zufallsvariable X = IdΩ ist dann ein Vektor X = (X1 , . . . , Xn ), dessen Komponenten Xi unter dem Wahrscheinlichkeitsmaß P⊗n θ unabhängig und gemäß Pθ verteilt sind. 4 2 Punktschätzer Oft ist man nicht an der vollständigen Kenntnis von θ interessiert, sondern nur an einer bestimmten Kenngröße, z.B. dem Erwartungswert einer gemäß Pθ verteilten Zufallsvariablen. Wir definieren daher: Definition 2.1 (Kenngröße). Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell und (Σ, S) ein Messraum. Eine Σ-wertige Kenngröße ist eine Abbildung τ : Θ → Σ. Oft ist Σ ⊇ Θ und τ (θ) = θ (so auch im Apfelsinenbeispiel: dort ist Θ = {0, . . . , N } und Σ = R), oft ist Σ aber deutlich kleiner als Θ, so dass mit der Beschränkung auf die Kenngröße ein Informationsverlust einhergeht, der aber bewusst in Kauf genommen wird. Definition 2.2 (Punktschätzer). Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, (Σ, S) ein Messraum und τ : Θ → Σ eine Kenngröße. Unter einem Punktschätzer oder kurz Schätzer für τ versteht man eine messbare Abbildung τ̂ : Ω → Σ. Bemerkung. 1. Ein Schätzer lässt sich auf zwei Arten interpretieren: (a) als Abbildung, die jeder möglichen Realisierung x der kanonischen Zufallsvariablen X einen Wert zuordnet, (b) als Zufallsvariable 2. Im Apfelsinenbeispiel ist Σ = R, τ (θ) = θ und θ̂(x) = N x/k. 3. Die obige Definition ist sehr allgemein gehalten. Insbesondere braucht ein Schätzer nicht unbedingt sinnvoll“ oder gut“ zu sein. ” ” Beispiel 2.3. Ein Zufallszahlengenerator lässt sich auf einen beliebigen Wert θ > 0 einstellen und liefert dann eine Folge unabhängiger und auf dem Intervall [0, θ] gleichverteilter Zufallszahlen. Sie kennen den eingestellten Wert nicht, dürfen den Generator aber n-mal betätigen und sollen daraufhin den Parameter θ so gut wie möglich“ schätzen. Wie gehen Sie vor? ” Zuerst spezifizieren wir das statistische Modell: • Die n Zufallszahlen können beliebige nichtnegative Werte annehmen. Daher wählen wir Ω = Rn+ . Für X wählen wir wieder die kanonische Zufallsvariable, X = IdΩ . Die Zufallszahlen sind dann die Komponenten Xi von X (i = 1, . . . , n). • Die kanonische Wahl für A ist die Borelsche σ-Algebra, A = B(Rn+ ). • Für Θ wählen wir die Menge der möglichen Werte von θ, also Θ = R>0 . • Wenn der Generator auf den Wert θ eingestellt ist, sind die Zufallszahlen Xi unabhängig und gleichverteilt auf dem Intervall [0, θ]. Daher wählen wir für Pθ die Gleichverteilung auf [0, θ]n . Jetzt zurück zur Frage: • Erster Ansatz: Es gilt Eθ (Xi ) = θ/2. Foglich gilt nach dem Gesetz der großen Zahlen für große n n 1X θ Xi ≈ . n 2 i=1 Daher sollte (zumindest für große n) n Tn := 2X Xi n i=1 ein guter Schätzer für θ sein. 5 • Zweiter Ansatz: Für große Werte von n gilt mit hoher Wahrscheinlichkeit max(X1 , . . . , Xn ) ≈ θ, denn zum einen gilt max(X1 , . . . , Xn ) ≤ θ, und zum anderen Pθ max(X1 , . . . , Xn ) < θ − ε = Pθ (X1 < θ − ε, . . . , Xn < θ − ε) = Pθ (X1 < θ − ε)n θ−ε n →0 = θ (n → ∞). Folglich sollte auch Mn := max(X1 , . . . , Xn ) ein guter Schätzer für θ sein. Welcher dieser beiden Schätzer ist besser“? ” • Beide Schätzer (genauer gesagt: beide Folgen von Schätzern) sind konsistent in dem Sinne, dass für alle θ ∈ Θ und alle ε > 0 gilt: Pθ (|Tn − θ| > ε) → 0 (n → ∞), und entsprechend für Mn . (Für Mn haben wir dies explizit nachgerechnet, und für Tn folgt die Aussage aus dem schwachen Gesetz der großen Zahlen.) Konsistenz ist eine wünschenswerte Eigenschaft, sagt aber nichts über das Verhalten für kleine n aus. • Tn ist erwartungstreu in dem Sinne, dass für alle θ ∈ Θ Eθ (Tn ) = θ gilt. Es gilt nämlich n 2X 2 θ Eθ (Tn ) = Eθ (Xi ) = n = θ. n n 2 i=1 Erwartungstreue eines Schätzers einer reellwertigen Kenngröße bedeutet, dass für keinen möglichen Parameterwert die Kenngröße systematisch über- oder unterschätzt wird, und ist folglich eine wünschenswerte Eigenschaft. • Mn ist sicher nicht erwartungstreu, denn für alle θ ∈ Θ gilt Mn < θ Pθ -f.s. und folglich Eθ (Mn ) < θ. Wir können aber zeigen, dass Mn für große Werte von n zumindest näherungsweise erwartungstreu ist. Um den Erwartungswert von Mn bzgl. Pθ zu berechnen, verfahren wir wie folgt: Für alle x ≤ θ gilt Pθ (Mn ≤ x)) = Pθ (X1 ≤ x, . . . , Xn ≤ x) = Pθ (X1 ≤ x)n x n , = θ folglich hat Mn unter Pθ die Dichte nxn−1 /θn auf [0, θ]. Es folgt Z θ nxn−1 n θn+1 n Eθ (Mn ) = x n dx = n = θ, θ θ n + 1 n + 1 0 6 Mn ist also zumindest asymptotisch erwartungstreu. Ferner ist der modifizierte Schätzer Mn0 := n+1 Mn n erwartungstreu. • Erwartungstreue ist zwar wünschenswert, genügt aber nicht, um einen Schätzer als gut zu bezeichnen. Man muss auch die Streuung berücksichtigen. Ein oft verwendetes Maß für die Güte eines Schätzers τ̂ einer reellen Kenngröße τ ist der mittlere quadratische Fehler (engl. mean squared error) MSEθ (τ̂ ) := Eθ (τ̂ − τ (θ))2 . Der mittlere quadratische Fehler lässt sich wie folgt umformen: Eθ (τ̂ − τ (θ))2 = Eθ (τ̂ 2 ) − 2Eθ (τ̂ )τ (θ) + τ (θ)2 + Eθ (τ̂ )2 − Eθ (τ̂ )2 = (Eθ (τ̂ ) − τ (θ))2 + Varθ (τ̂ ). Der mittlere quadratische Fehler eines Schätzers τ̂ ist also gleich der Summe aus dem Quadrat des systematischen Fehlers Eθ (τ̂ ) − τ (θ) und der Varianz von τ̂ . Für erwartungstreue Schätzer ist der systematische Fehler 0, und folglich stimmen mittlerer quadratischer Fehler und Varianz überein. • Für Tn erhalten wir Varθ (Tn ) = = = = 4 n Varθ (X1 ) n2 4 Eθ (X12 ) − Eθ (X1 )2 n 2 ! Z 4 1 θ 2 θ x dx − n θ 0 2 2 4 θ θ2 θ2 − = . n 3 4 3n Da Tn erwartungstreu ist, folgt MSEθ (Tn ) = Varθ (Tn ) = • Für Mn gilt Eθ Mn2 Z = 0 θ x2 θ2 . 3n n θn+2 nθ2 nxn−1 dx = = θn θn n + 2 n+2 und folglich Varθ (Mn ) = Eθ Mn2 − Eθ (Mn )2 nθ2 n2 θ 2 − n + 2 (n + 1)2 nθ2 . (n + 1)2 (n + 2) = = 7 Es folgt MSEθ (Mn ) = (Eθ (Mn ) − θ)2 + Varθ (Mn ) 2 θ nθ2 = + n+1 (n + 1)2 (n + 2) (2n + 2)θ2 = (n + 1)2 (n + 2) 2θ2 = . (n + 1)(n + 2) Im Sinne des mittleren quadratischen Fehlers ist also (für n ≥ 2) Mn besser als Tn , obwohl Mn im Gegensatz zu Tn nicht erwartungstreu ist. (Für n = 1 sind beide Schätzer gleich gut.) • Für Mn0 ergibt sich Varθ (Mn0 ) = (n + 1)2 nθ2 (n + 1)2 θ2 Var (M ) = = . n θ n2 n2 (n + 1)2 (n + 2) n(n + 2) Da Mn0 erwartungstreu ist, folgt MSEθ (Mn0 ) = Varθ (Mn0 ) = θ2 . n(n + 2) Für n ≥ 2 ist also Mn0 noch besser als Mn . Im Folgenden werden wir uns mit zwei Fragen befassen: 1. Gibt es eine Methode zur systematischen Konstruktion eines vernünftigen“ Schätzers? ” 2. Gibt es optimale“ Schätzer? ” 3 Maximum-Likelihood-Methode (Methode der maximalen Plausibilität) Die Grundidee der Maximum-Likelihood-Methode zur Schätzung von θ besteht darin, θ̂(x) so zu wählen, dass Pθ {X = x} für θ = θ̂(x) am größten wird. Problem. In vielen Modellen ist diese Wahrscheinlichkeit für alle θ gleich 0. Man arbeitet daher meist nicht mit Wahrscheinlichkeiten, sondern mit Wahrscheinlichkeitsdichten. Dazu muss vorausgesetzt werden, dass alle in Frage kommenden Wahrscheinlichkeitsmaße Pθ eine Dichte bzgl. eines gemeinsamen Referenzmaßes µ haben. Definition 3.1 (Standardmodell). Ein Standardmodell ist ein 4-Tupel (Ω, A, µ, (pθ )θ∈Θ ) bestehend aus • einer Menge Ω, • einer σ-Algebra A auf Ω, • einem σ-endlichen Maß µ auf (Ω, A), • einer Familie (pθ )θ∈Θ von Wahrscheinlichkeitsdichten bezüglich µ, wobei Θ eine beliebige nichtleere Menge ist. 8 Bemerkung. 1. Vermöge Pθ := pθ µ (= Wahrscheinlichkeitsmaß mit Dichte pθ bzgl. µ) ist jedem Standardmodell in kanonischer Weise ein statistisches Modell im Sinne unserer ursprünglichen Definition zugeordnet. 2. Die wichtigsten Fälle sind: (a) diskrete Modelle: hier ist Ω abzählbar, A die Potenzmenge von Ω und µ das Zählmaß, (b) stetige Modelle: hier ist Ω eine Borelsche Teilmenge von Rn , A = B(Ω) und µ das Lebesgue-Maß. 3. In diskreten Modellen ist pθ durch Pθ eindeutig bestimmt, im Allgemeinen (insbesondere in stetigen Modellen) gilt dies nur µ-fast überall. Sofern zunächst nur das Wahrscheinlichkeitsmaß Pθ gegeben ist, sollte man die Dichte pθ vernünftig“ wählen ” (z.B. nach Möglichkeit stetig). 4. Die Funktion p lässt sich auf zwei Arten interpretieren: (a) Wenn θ bekannt ist (Situation der Wahrscheinlichkeitsrechnung), ist pθ (x) die Wahrscheinlichkeitsdichte der Beobachtung x. (b) Wenn x bekannt ist (Situation der Statistik), gibt pθ (x) an, wie plausibel es ist, dass der wahre Parameter θ ist. Um die Abhängigkeit von θ zu betonen, schreiben wir oft px (θ) für pθ (x). Die Funktion θ 7→ px (θ) heißt Likelihoodfunktion zum Beobachtungswert x. Zusammengefasst: pθ (x) = Wahrscheinlichkeitsdichte der Beobachtung x gegeben, dass der Parameter θ ist, px (θ) = Plausibilität (Likelihood) des Parameters θ gegeben, dass die Beobachtung x ist. 5. Wenn wir p explizit als Funktion von zwei Variablen ansehen, schreiben wir p(x, θ). Definition 3.2. Sei (Ω, A, µ, (pθ )θ∈Θ ) ein Standardmodell. 1. Ein Schätzer θ̂ : Ω → Θ für θ heißt Maximum-Likelihood-Schätzer, wenn für alle x ∈ Ω θ̂(x) ∈ arg max px (θ) θ∈Θ gilt, wenn also θ̂(x) für alle x ∈ Ω die Likelihoodfunktion zum Beobachtungswert x maximiert. 2. Ein Schätzer τ̂ : Ω → Σ für eine Kenngröße τ : Θ → Σ heißt Maximum-LikelihoodSchätzer, wenn es einen Maximum-Likelihood-Schätzer θ̂ für θ gibt, so dass τ̂ = τ (θ̂). Beispiel 3.3 (Schätzung einer unbekannten Wahrscheinlichkeit). Es soll die unbekannte Erfolgswahrscheinlichkeit eines Zufallsexperiments geschätzt werden (z.B. die Wahrscheinlichkeit, dass eine manipulierte Münze Kopf“ zeigt). Dazu wird das Experiment n-mal unab” hängig voneinander wiederholt, und es wird erfasst, wie oft es erfolgreich ist. Diese Situation lässt sich durch das folgende statistische Modell beschreiben: Ω = {0, . . . , n}, A = P(Ω), Θ = [0, 1], Pθ = Bin(n, θ). 9 Es handelt sich also um ein diskretes Modell mit n x px (θ) = θ (1 − θ)n−x . x Zu gegebenem Beobachtungswert x ∈ {0, . . . , n} suchen wir die Menge der Maximierer der Funktion θ 7→ px (θ). • Für x = 0 ist px strikt fallend in θ, der eindeutige Maximierer ist folglich θ = 0. • Für x = n ist px strikt wachsend in θ, der eindeutige Maximierer ist folglich θ = 1. • Für x ∈ {1, . . . , n − 1} gilt px (0) = px (1) = 0, und für θ ∈ (0, 1) ist px (θ) strikt positiv. Folglich besitzt px einen Maximierer im offenen Intervall (0, 1). Um diesen zu finden, bilden wir die log-Likelihoodfunktion n log px (θ) = log + x log θ + (n − x) log(1 − θ) x und leiten sie nach θ ab: d x n−x log px (θ) = − . dθ θ 1−θ Nullsetzen liefert x(1 − θ) = (n − x)θ mit der einzigen Lösung θ= x . n Insgesamt sehen wir: Es gibt genau einen Maximum-Likelihood-Schätzer, und zwar x θ̂(x) = . n Ist θ̂ erwartungstreu? Es gilt Eθ (θ̂) = 1 1 Eθ (X) = nθ = θ, n n θ̂ ist also erwartungstreu. Ferner gilt Varθ (θ̂) = 1 1 θ(1 − θ) Var(X) = 2 nθ(1 − θ) = . n2 n n Beispiel 3.4 (Zufallszahlengenerator). Hier ist Ω = Rn+ , A = B(R+ ) die Borel-σ-Algebra, Θ = R>0 und Pθ die Gleichverteilung auf [0, θ]n . Es handelt sich also um ein stetiges Modell mit ( 1/θn falls θ ≥ max(x1 , . . . , xn ), px (θ) = 0 sonst. • Wenn max(x1 , . . . , xn ) > 0, hat die Funktion px genau einen Maximierer, nämlich max(x1 , . . . , xn ). • Wenn max(x1 , . . . , xn ) = 0 gilt, ist die Funktion px streng fallend. Folglich gibt es keinen für alle x ∈ Ω definierten Maximum-Likelihood-Schätzer. Der naheligende Ausweg besteht darin, θ = 0 zuzulassen und P0 := δ0 sowie θ̂(0, . . . , 0) := 0 zu setzen. Allerdings hat man dann streng genommen kein stetiges Modell mehr. (Man kann auch argumentieren, dass für jedes θ ∈ Θ die Wahrscheinlichkeit, das Ergebnis (0, . . . , 0) zu erhalten, 0 ist.) 10 Insgesamt sehen wir: Es gibt genau einen Maximum-Likelihood-Schätzer, nämlich θ̂(x) = max(x1 , . . . , xn ) = Mn (x). Dieser Schätzer ist nicht erwartungstreu. Bemerkung. Man hätte genauso gut ( 1/θn p̃x (θ) = 0 falls θ > max(x1 , . . . , xn ), sonst wählen können. Dann gäbe es keinen Maximum-Likelihood-Schätzer. Dieses Beispiel zeigt, dass es wichtig ist, die Dichte vernünftig“ zu wählen. ” Beispiel 3.5 (Gauß-Modell). Erwartungswert µ und Varianz σ 2 einer normalverteilten Zufallsvariablen sollen ausgehend von der Beobachtung von n unabhängigen Kopien dieser Variablen geschätzt werden. Zur Modellierung wählen wir das stetige Modell mit Ω = Rn , Θ = R × R>0 , n Y 1 (xi − µ)2 2 √ px (µ, σ ) = exp − 2 2σ 2 2πσ i=1 ! n 2 X (x − µ) i = (2πσ 2 )−n/2 exp − . 2σ 2 i=1 Für die log-Likelihoodfunktion ergibt sich n X (xi − µ)2 n n log px (µ, σ 2 ) = − log(2π) − log(σ 2 ) − . 2 2 2σ 2 i=1 • Wir maximieren zunächst bezüglich µ. Die log-Likelihoodfunktion ist quadratisch in µ mit negativem führenden Koeffizienten, folglich hat sie genau einen Maximierer, und dieser ist gleich der eindeutigen Nullstelle der Ableitung. Wir erhalten n ∂ log px 1 X = 2 (xi − µ). ∂µ σ i=1 Nullsetzen liefert n 1X µ = x̄ := xi . n i=1 Einsetzen in die log-Likelihoodfunktion ergibt n n 1 X n 2 (xi − x̄)2 . f (σ ) := log px (x̄, σ ) = − log(2π) − log(σ ) − 2 2 2 2σ 2 2 i=1 Pn 2 2 2 2 • Sofern i=1 (xi − x̄) > 0 ist, geht f (σ ) sowohl für σ → 0 als auch für σ → ∞ gegen −∞. Zur Maximierung leiten wir daher nach σ 2 ab: n X (xi − x̄)2 df n = − + . dσ 2 2σ 2 2σ 4 i=1 Nullsetzen liefert n σ2 = 1X (xi − x̄)2 . n i=1 11 Pn 2 • Wenn i=1 (xi − x̄) = 0 gilt (d.h. wenn x1 = . . . = xn ist), ist f streng fallend in σ 2 . Folglich gibt es keinen für alle x ∈ Ω definierten Maximum-Likelihood-Schätzer. Der naheliegende Ausweg besteht darin, σ 2 = 0 zuzulassen und Pµ,0 := δ0 zu setzen. Allerdings hat man dann streng genommen kein stetiges Modell mehr. (Man kann auch argumentieren, dass für n ≥ 2 für jedes (µ, σ 2 ) ∈ Θ die Wahrscheinlichkeit, eine Beobachtung der Form (x, . . . , x) zu erhalten, 0 ist.) c2 ), und Insgesamt sehen wir: Es gibt genau einen Maximum-Likelihood-Schätzer θ̂ = (µ̂, σ zwar ist µ̂ gleich dem empirischen Mittelwert oder Stichprobenmittel, n 1X µ̂(x) = x̄ := xi , n i=1 c2 ist gleich der Stichprobenvarianz, und σ n X c2 (x) = s2 := 1 (xi − x̄)2 . σ n i=1 Sind diese Schätzer erwartungstreu? • Für x̄ erhalten wir n Eµ,σ2 (x̄) = 1X Eµ,σ2 (Xi ) = µ, n i=1 das Stichprobenmittel ist also erwartungstreu. • Für s2 erhalten wir n 2 Eµ,σ2 (s ) = 1X Eµ,σ2 (Xi − X̄)2 n i=1 = = = n 1X Varµ,σ2 Xi − X̄ n i=1 n X X 1 1 n−1 Xi − Xj Varµ,σ2 n n n i=1 j6=i n 1 X (n − 1)2 2 1 2 σ + 2 (n − 1)σ n n2 n i=1 = n−1 2 σ , n die Stichprobenvarianz ist also nicht erwartungstreu. Wohl aber ist die korrigierte Stichprobenvarianz, n n 2 1 X s = (xi − x̄)2 , s2∗ := n−1 n−1 i=1 erwartungstreu. Bemerkung. Die Aussagen zur Erwartungstreue von Stichprobenmittel und Stichprobenvarianz gelten nicht nur im Normalverteilungsfall, sondern allgemein für reelle Produktmodelle, d.h. Modelle der Form (Rn , B(Rn ), (P⊗n θ )θ∈Θ ). Man muss nur voraussetzen, dass für alle θ ∈ Θ eine gemäß Pθ verteilte Zufallsvariable integrierbar bzw. quadratintegrierbar ist (und für die Schätzung der Varianz, dass n ≥ 2 ist). 12 4 Beste Schätzer Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell und τ : Θ → R eine reelle Kenngröße. Was sollte man unter einem besten Schätzer“ für τ verstehen? ” Naive Definition. Ein Schätzer T für τ ist ein bester Schätzer, wenn er für jeden möglichen Parameterwert θ mindestens so gut ist wie alle anderen Schätzer, d.h. wenn für alle Schätzer S und alle θ ∈ Θ gilt: MSEθ (T ) ≤ MSEθ (S). Diese Definition ist allerdings nicht sinnvoll, denn wenn der wahre Parameter θ ist, ist offenbar der konstante Schätzer τ (θ) optimal. Folglich gibt es (außer in Entartungsfällen) keinen besten Schätzer im obigen Sinn. Die Definition wird aber sinnvoll, wenn man sich auf erwartungstreue Schätzer beschränkt. Definition 4.1. Ein erwartungstreuer Schätzer T für τ heißt gleichmäßig varianzminimierend, wenn 1. Varθ (T ) für alle θ ∈ Θ endlich ist, 2. für alle erwartungstreuen Schätzer S und alle θ ∈ Θ gilt: Varθ (T ) ≤ Varθ (S). 5 Informationsungleichung Die Informationsungleichung von Cramér und Rao liefert eine untere Schranke für die Varianz eines erwartungstreuen Schätzers. Wir betrachten (zunächst) einparametrige Modelle, also Θ ⊆ R. Definition 5.1. Ein einparametriges Standardmodell (Ω, A, µ, (pθ )θ∈Θ ) heißt regulär, wenn gilt: 1. Θ ist ein offenes Intervall. 2. p(x, θ) > 0 für alle x ∈ Ω und alle θ ∈ Θ. 3. Für alle x ∈ Ω ist die Funktion θ 7→ p(x, θ) stetig nach θ differenzierbar. 4. Für alle θ ∈ Θ existiert das Integral Z Ω ∂p (x, θ)µ(dx), ∂θ und Differentiation und Integration können vertauscht werden, d.h. Z Z ∂p d (x, θ)µ(dx) = p(x, θ)µ(dx) = 0. dθ Ω Ω ∂θ 5. Für alle θ ∈ Θ ist die Fisher-Information Z I(θ) := Ω 2 ∂ log p (x, θ) p(x, θ)µ(dx) ∂θ strikt positiv und endlich. 13 Bemerkung. 1. Die Funktion ∂ log p (x, θ) ∂θ heißt die Score-Funktion des Modells. Bei gegebener Beobachtung x gibt die ScoreFunktion an, wie stark die Likelihood px (θ) vom Parameter θ abhängt. Uθ (x) := 2. Für festes θ lässt sich Uθ als Zufallsvariable auf (Ω, A, Pθ ) auffassen, und es gelten Z Z ∂p Uθ (x)p(x, θ)µ(dx) = Eθ (Uθ ) = (x, θ)µ(dx) = 0, ∂θ Ω Ω Z Uθ (x)2 p(x, θ)µ(dx) = I(θ). Varθ (Uθ ) = Eθ (Uθ2 ) = Ω Die Fisher-Information ist folglich ebenfalls ein Maß dafür, wie stark die Likelihood vom Parameter abhängt (daher die Bezeichnung als Information“). Bei der Fisher” Information wird allerdings im Gegensatz zur Score-Funktion das quadratische Mittel über alle möglichen Beobachtungsergebnisse betrachtet. 3. Die 4. Bedingung ist auf jeden Fall erfüllt, wenn Ω endlich ist. Darüber hinaus ist die folgende Bedingung hinreichend: Jedes θ0 ∈ Θ besitzt eine Umgebung N (θ0 ) derart, dass Z ∂p sup (x, θ) µ(dx) < ∞. Ω θ∈N (θ0 ) ∂θ (Differentiationslemma der Maß- und Integrationstheorie) Bemerkung (Additivität der Fisher-Information bei Unabhängigkeit). Es seien (Ω, A, µ, (pθ )θ∈Θ ) ein einparametriges reguläres Standardmodell mit Fisher-Information I, und (Ωn , A⊗n , µ⊗n , (p⊗n θ )θ∈Θ ) das zugehörige n-fache Produktmodell, d.h. • A⊗n = A ⊗ . . . ⊗ A ist die n-fache Produkt-σ-Algebra, • µ⊗n = µ ⊗ . . . ⊗ µ ist das n-fache Produktmaß, gegeben durch µ ⊗n (A1 , . . . , An ) = n Y µ(Ai ), i=1 • p⊗n θ ist gegeben durch p⊗n θ (x1 , . . . , xn ) = n Y pθ (xi ). i=1 Für die Fisher-Information In des n-fachen Produktmodells gilt In (θ) = nI(θ) für alle θ ∈ Θ. Beweis. Für die Scorefunktion Un,θ des Produktmodells gilt Un,θ (x1 , . . . , xn ) = = ∂ log p⊗n (x1 , . . . , xn , θ) ∂θ n Y ∂ log p(xi , θ) ∂θ i=1 n X ∂ = log p(xi , θ) ∂θ i=1 = n X i=1 14 Uθ (xi ). Fassen wir Un,θ als Zufallsvariable auf, bedeutet dies Un,θ = n X Uθ (Xi ). i=1 Es folgt In (θ) = Varθ (Un,θ ) ! n X = Varθ Uθ (Xi ) i=1 = = n X i=1 n X Varθ (Uθ (Xi )) I(θ). i=1 Definition 5.2. Es seien (Ω, A, µ, (pθ )θ∈Θ ) ein reguläres Standardmodell und τ : Θ → R eine reelle Kenngröße. Ein erwartungstreuer Schätzer T für τ heißt regulär, wenn R T (x)p(x, θ)µ(dx) nach θ differenzierbar ist und Differentiation und Integration vertauscht Ω werden können, Z Z d ∂p T (x)p(x, θ)µ(dx) = T (x) (x, θ)µ(dx). dθ Ω ∂θ Ω Bemerkung. 1. Wenn Ω endlich ist, ist jeder erwartungstreue Schätzer regulär. 2. Aufgrund des Differentiationslemmas der Maß- und Integrationstheorie ist die folgende Bedingung hinreichend für die Regularität von T : Jedes θ0 ∈ Θ besitzt eine Umgebung N (θ0 ) derart, dass Z ∂p sup T (x) (x, θ) µ(dx) < ∞. ∂θ Ω θ∈N (θ0 ) 3. Für das Integral auf der linken Seite gilt wegen der Erwartungstreue von T Z T (x)p(x, θ)µ(dx) = Eθ (T ) = τ (θ), Ω und für das Integral auf der rechten Seite gilt Z Z ∂p ∂ log p T (x) (x, θ)µ(dx) = T (x) (x, θ)p(x, θ)µ(dx) ∂θ ∂θ Ω Ω = Eθ (T Uθ ). Regularität von T impliziert also, dass τ differenzierbar ist und dass τ 0 (θ) = Eθ (T Uθ ) gilt. Satz 5.3 (Informationsungleichung von Cramér und Rao). Es seien (Ω, A, µ, (pθ )θ∈Θ ) ein einparametriges reguläres Standardmodell, τ : Θ → R eine reelle Kenngröße und T : Ω → R ein regulärer erwartungstreuer Schätzer für τ . Dann gilt für alle θ ∈ Θ: Varθ (T ) ≥ 15 τ 0 (θ)2 . I(θ) Beweis. Es gilt τ 0 (θ)2 = Eθ (T Uθ )2 = Covθ (T, Uθ )2 ≤ Varθ (T ) Varθ (Uθ ). Definition 5.4. Ein regulärer erwartungstreuer Schätzer T , für den in der Informationsungleichung Gleichheit gilt, heißt Cramér-Rao-Schätzer. Satz 5.5. Zusätzlich zu den Annahmen von Satz 5.3 gelte τ 0 (θ) 6= 0 für alle θ ∈ Θ. Dann gilt genau dann in der Informationsungleichung für alle θ ∈ Θ Gleichheit, wenn es stetig differenzierbare Funktionen a, b : Θ → R, eine messbare Funktion c : Ω → R und eine µ-Nullmenge N ∈ A gibt, so dass für alle x ∈ Ω \ N p(x, θ) = exp a(θ)T (x) − b(θ) + c(x) gilt. Ferner gilt in diesem Fall a0 (θ) 6= 0 für alle θ ∈ Θ. Beweis (Idee). Es habe zunächst p die oben angegebene Form. Dann gilt Uθ (x) = ∂ log p (x, θ) = a0 (θ)T (x) − b0 (θ). ∂θ Uθ und T sind also perfekt korreliert, und es folgt Covθ (T, Uθ )2 = Varθ (T ) Varθ (Uθ ) und damit die Gleichheit in der Informationsungleichung. Wir nehmen jetzt an, dass in der Informationsungleichung für alle θ ∈ Θ Gleichheit gilt. Dann gilt Cov(T, Uθ )2 = Var(T ) Var(Uθ ), und folglich sind T und Uθ bzgl. Pθ perfekt korreliert. Da nach Annahme T für kein θ Pθ -fast sicher konstant ist, folgt, dass es für jedes θ ∈ Θ Zahlen c1 (θ), c2 (θ) ∈ R mit Uθ = c1 (θ) + c2 (θ)T Pθ -f.s. gibt. Durch Bildung von Erwartungswert und Kovarianz bzgl. Pθ ergibt sich 0 = Eθ (Uθ ) = c1 (θ) + c2 (θ)Eθ (T ) = c1 (θ) + c2 (θ)τ (θ), τ 0 (θ)2 τ 0 (θ) = Covθ (Uθ , T ) = c2 (θ) Varθ (T ) = c2 (θ) . I(θ) Es folgt c2 (θ) = und damit für alle θ ∈ Θ Uθ = I(θ) , τ 0 (θ) c1 (θ) = − I(θ) (T − τ (θ)) τ 0 (θ) I(θ)τ (θ) , τ 0 (θ) Pθ -f.s. Da Pθ dieselben Nullmengen wie µ hat, folgt, dass es für alle θ ∈ Θ eine µ-Nullmenge Nθ ∈ A gibt mit I(θ) Uθ (x) = 0 (T (x) − τ (θ)) τ (θ) für alle θ ∈ Θ und alle x ∈ Ω \ Nθ . Man kann jetzt zeigen: 1. Es gibt eine von θ unabhängige Nullmenge N derart, dass diese Gleichheit für alle x ∈ Ω \ N und alle θ ∈ Θ gilt. 16 2. Die Funktion θ 7→ I(θ)/τ 0 (θ) ist stetig. Sei jetzt a eine Stammfunktion von I/τ 0 , und b eine Stammfunktion von Iτ /τ 0 . Dann folgt für x ∈ Ω \ N durch Integration log p(x, θ) = a(θ)T (x) − b(θ) + c(x) mit einer von x abhängigen Integrationskonstanten c(x). 6 Exponentielle Familien Definition 6.1. Es seien (Ω, A, µ) ein σ-endlicher Maßraum, Θ ⊆ R ein offenes Intervall und T : Ω → R messbar und nicht µ-f.ü. konstant. Eine Familie (pθ )θ∈Θ von Wahrscheinlichkeitsdichten auf (Ω, A, µ) heißt exponentielle Familie bzgl. T , wenn es stetig differenzierbare Funktionen a, b : Θ → R und eine messbare Funktion c : Ω → R mit a0 (θ) 6= 0 für alle θ ∈ Θ und p(x, θ) = exp a(θ)T (x) − b(θ) + c(x) gibt. In diesem Fall wird (Ω, A, µ, (pθ )θ∈Θ ) als exponentielles Modell bzgl. T bezeichnet. Satz 6.2. Es seien (Ω, A, µ, (pθ )θ∈Θ ) ein exponentielles Modell bzgl. T . Dann gelten: 1. Für alle θ ∈ Θ ist T bzgl. Pθ quadratintegrierbar, und es gilt b0 (θ) = a0 (θ)Eθ (T ). 2. Die Funktion θ 7→ τ (θ) := Eθ (T ) ist stetig differenzierbar, und für alle θ ∈ Θ gilt τ 0 (θ) = a0 (θ) Varθ (T ) 6= 0. 3. Für alle θ ∈ Θ gilt I(θ) = a0 (θ)τ 0 (θ). R T 4. Für alle S ∈ θ∈Θ L1 (Ω, A, Pθ ) ist die Funktion θ 7→ Ω S(x)p(x, θ)µ(dx) differenzierbar, und Differentiation und Integration können vertauscht werden, d.h. Z Z d ∂p S(x)p(x, θ)µ(dx) = S(x) (x, θ)µ(dx) dθ Ω ∂θ Ω oder, mit anderen Worten, d Eθ (S) = Eθ (SUθ ). dθ Korollar 6.3. 1. Jedes exponentielle Modell ist regulär. 2. Jeder erwartungstreue Schätzer für τ (θ) := Eθ (T ) ist regulär. 3. T ist ein gleichmäßig varianzminimierender erwatungstreuer Schätzer für τ . Beweis von Korollar 6.3. 1. RDie vierte Aussage des Satzes mit S ≡ 1 liefert die Existenz des Integrals Ω ∂p/∂θ(x, θ)µ(dx) und die Vertauschbarkeit von Integration und Differentiation. Aus der zweiten und dritten Aussage folgt, dass die Fisher-Information für alle θ ∈ Θ endlich und strikt positiv ist. 17 2. Die Regularität aller erwartungstreuen Schätzer folgt unmittelbar aus der zweiten Aussage des Satzes. 3. Aus der zweiten und dritten Aussage des Satzes folgt Varθ (T ) = τ 0 (θ) τ 0 (θ)2 = , a0 (θ) I(θ) d.h. T ist ein Cramér-Rao-Schätzer. Da alle erwartungstreuen Schätzer regulär sind, folgt, dass T gleichmäßig varianzminimierend ist. Beweis von Satz 6.2. 1. Es genügt, den Satz im Fall a(θ) = θ für alle θ ∈ Θ zu beweisen. Der allgemeine Fall lässt sich durch Umparametrisierung, d.h. durch Übergang zu θ̃ := a(θ), auf diesen Spezialfall zurückführen. Einzelheiten: Übung. T 2. Wir fixieren S ∈ θ∈Θ L1 (Ω, A, Pθ ) und θ ∈ Θ und wählen t ∈ R betragsmäßig so klein, dass θ + t, θ − t ∈ Θ. Dann gilt ! ∞ ∞ X X |t|k |t|k k k Eθ |S||T | |S||T | = Eθ k! k! k=0 k=0 |tT | = Eθ (|S|e ) Z = |S(x)|e|tT (x)| exp θT (x) − b(θ) + c(x) µ(dx) ZΩ = |S(x)| exp θT (x) + |t||T (x)| exp(c(x) − b(θ))µ(dx) ZΩ ≤ |S(x)| e(θ+t)T (x) + e(θ−t)T (x) exp(c(x) − b(θ))µ(dx) Ω Z b(θ+t)−b(θ) = e |S(x)|e(θ+t)T (x) exp(c(x) − b(θ + t))µ(dx) ΩZ |S(x)|e(θ−t)T (x) exp(c(x) − b(θ − t))µ(dx) + eb(θ−t)−b(θ) Ω Z b(θ+t)−b(θ) |S(x)|p(x, θ + t)µ(dx) = e ΩZ + eb(θ−t)−b(θ) |S(x)|p(x, θ − t)µ(dx) Ω = eb(θ+t)−b(θ) Eθ+t (|S|) + eb(θ−t)−b(θ) Eθ−t (|S|) < ∞. Für S ≡ 1 folgt hieraus die Quadratintegrierbarkeit von T bzgl. Pθ . 3. Mit dem Satz von Fubini folgt: ∞ k X t k=0 k! Eθ ST k ist wohldefiniert, und Summation und Integration können vertauscht werden, d.h. ! ∞ k ∞ k X X t t Eθ ST k = Eθ S Tk k! k! k=0 k=0 tT = Eθ Se Z = S(x)etT (x) exp θT (x) − b(θ) + c(x) µ(dx) Ω Z b(θ+t)−b(θ) = e S(x) exp (θ + t)T (x) − b(θ + t) + c(x) µ(dx) Ω b(θ+t)−b(θ) = e Eθ+t (S). 18 4. Sei uS (θ) := eb(θ) Eθ (S). Wir erhalten uS (θ + t) = eb(θ+t) Eθ+t (S) ∞ X Eθ ST k k b(θ) = e t . k! k=0 Die Funktion uS ist also analytisch, und u0S (θ) = eb(θ) Eθ (ST ), u00S (θ) = eb(θ) Eθ (ST 2 ). 5. Für S ≡ 1 folgt: b ist analytisch, und b0 (θ) = Eθ (T ) = τ (θ), b0 (θ)2 + b00 (θ) = Eθ (T 2 ), τ 0 (θ) = b00 (θ) = Varθ (T ) 6= 0, da T nicht µ-f.ü. konstant. 6. Für die Score-Funktion gilt Uθ (x) = ∂ log p (x, θ) = T (x) − b0 (θ), ∂θ und folglich I(θ) = Varθ (Uθ ) = Varθ (T ) = τ 0 (θ). 7. d d −b(θ) Eθ (S) = e uS (θ) dθ dθ = −b0 (θ)e−b(θ) uS (θ) + e−b(θ) u0S (θ) = −b0 (θ)Eθ (S) + Eθ (ST ) = Eθ (SUθ ). Beispiel 6.4 (Binomialverteilung mit unbekanntem Erfolgsparameter). Sei Ω = {0, . . . , n}, A = P(Ω), µ = Zählmaß, Θ = (0, 1), n x p(x, θ) = θ (1 − θ)n−x . x Dies ist ein exponentielles Modell bzgl. T (x) := x/n, und folglich ist T ein gleichmäßig varianzminimierender erwartungstreuer Schätzer für Eθ (T ) = θ. Beweis. Es gilt n p(x, θ) = exp log + x log θ + (n − x) log(1 − θ) x n θ = exp log + x log + n log(1 − θ) x 1−θ θ x n = exp n log + n log(1 − θ) + log . 1−θ n x 19 Beispiel 6.5 (Poisson-Verteilung mit unbekantem Parameter). Sei Ω = N0 , A = P(Ω), µ = Zählmaß, Θ = R>0 , θx p(x, θ) = e−θ . x! Dies ist ein exponentielles Modell bzgl. T (x) := x, und folglich ist T ein gleichmäßig varianzminimierender erwartungstreuer Schätzer für Eθ (T ) = θ. Beweis. Es gilt p(x, θ) = exp (−θ + x log θ − log(x!)) . Beispiel 6.6 (Normalverteilung mit unbekanntem Erwartungswert, aber bekannter Varianz). Sei σ > 0, und Ω = R, A = B(R), µ = Lebesque-Maß, Θ = R, (x − θ)2 . p(x, θ) = (2πσ 2 )−1/2 exp − 2σ 2 Dies ist ein exponentielles Modell bzgl. T (x) := x, und folglich ist T ein gleichmäßig varianzminimierender erwartungstreuer Schätzer für Eθ (T ) = θ. Beweis. Es gilt 1 (x − θ)2 2 p(x, θ) = exp − log(2πσ ) − 2 2σ 2 x2 θx θ2 1 = exp − log(2πσ 2 ) − 2 + 2 − 2 2 2σ σ 2σ 2 2 θ θ x 1 2 = exp x − 2 − 2 − log(2πσ ) . σ2 2σ 2σ 2 Beispiel 6.7 (Normalverteilung mit unbekannter Varianz, aber bekanntem Erwartungswert). Sei m ∈ R, und Ω = R, A = B(R), µ = Lebesque-Maß, Θ = R, p(x, θ) = (2πθ) −1/2 (x − m)2 exp − 2θ Dies ist ein exponentielles Modell bzgl. T (x) := (x − m)2 , und folglich ist T ein gleichmäßig varianzminimierender erwartungstreuer Schätzer für Eθ (T ) = θ. Beweis. Es gilt 1 (x − m)2 p(x, θ) = exp − log(2πθ) − 2 2θ 20 . Satz 6.8. Sei (Ω, A, µ, (pθ )θ∈Θ ) ein exponentielles Modell bzgl. T . Dann ist das zugehörige n-fache Produktmodell (Ωn , A⊗n , µ⊗n , (p⊗n θ )θ∈Θ ) eponentiell bzgl. n Tn (x1 , . . . , xn ) := 1X T (xi ). n i=1 Folgich ist Tn ein gleichmäßig varianzminimierender Schätzer für Eθ (Tn ) = Eθ (T ). Beweis. Es gelte p(x, θ) = exp a(θ)T (x) − b(θ) + c(x) . Dann gilt p⊗n θ (x1 , . . . , xn , θ) = n Y p(xi ) i=1 = exp a(θ) n X T (xi ) − nb(θ) + i=1 n X ! c(xi ) i=1 = exp na(θ)Tn (x1 , . . . , xn ) − nb(θ) + n X ! c(xi ) . i=1 7 Konsistenz Definition 7.1. Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, τ : Θ → R eine reelle Kenngröße und (Tn )n∈N eine Folge von Schätzern für τ . Die Folge (Tn )n∈N heißt konsistent für τ , wenn für alle θ ∈ Θ und alle ε > 0 gilt: Pθ |Tn − τ (θ)| > ε → 0 (n → ∞), wenn also Tn für alle θ ∈ Θ Pθ -stochastisch gegen τ (θ) konvergiert. Bemerkung. Viele Schätzer basieren auf der Beobachtung der Realisierungen von n unabhängigen und identisch verteilten Zufallsvariablen X1 , . . . , Xn , z.B. das Stichprobenmittel n 1X X̄n := Xi , n i=1 die Stichprobenvarianz n Sn2 1X := (Xi − X̄n )2 n i=1 und die korrigierte Stichprobenvarianz n 2 := S∗,n 1 X (Xi − X̄n )2 n−1 i=1 Wenn (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell für die einzelnen Variablen Xi ist, bietet es sich an, mit dem zugehörigen unendlichen Produktmodell zu arbeiten, d.h. mit dem Modell (ΩN , A⊗N , (P⊗N θ )θ∈Θ ). Die kanonische Zufallsvariable X = IdΩN ist dann eine Folge (Xn )n∈N Ω-wertiger Zufallsvariablen, und unter dem Maß P⊗N sind die Variablen Xn unabhängig und θ jeweils gemäß Pθ verteilt. 21 Beispiel 7.2 (Schätzung des Erwartungswerts durch das Stichprobenmittel). Sei (Pθ )θ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf (R, B(R)) derart, dass für alle θ ∈ Θ der Erwartungswert m(θ) einer gemäß Pθ verteilten Zufallsvariablen existiert und endlich ist. Wir betrachten das unendliche Produktmodell (RN , B(R)⊗N , (P⊗N θ )θ∈Θ ) und setzen n X̄n := 1X Xi , n i=1 Ist die Folge (X̄n )n∈N konsistent für m(θ)? Ja, nach dem schwachen Gesetz der großen Zahlen. Beispiel 7.3 (Schätzung der Varianz durch die Stichprobenvarianz). Sei (Pθ )θ∈Θ eine Familie von Wahrscheinlichkeitsmaßen auf (R, B(R)) derart, dass für alle θ ∈ Θ die Varianz σ 2 (θ) einer gemäß Pθ verteilten Zufallsvariablen endlich ist. Wir betrachten wieder das unendliche Produktmodell (RN , B(R)⊗N , (P⊗N θ )θ∈Θ ) und setzen n Sn2 := 1X (Xi − X̄n )2 , n n 2 S∗,n := i=1 1 X (Xi − X̄n )2 . n−1 i=1 2 ) 2 Sind die Folgen (Sn2 )n∈N und (S∗,n n∈N (X̄n )n∈N konsistent für σ (θ)? Wir betrachten zunächst die unkorrigierte Stichprobenvarianz. Es gilt n Sn2 = 1X (Xi − m(θ))2 − (X̄ − m(θ))2 n i=1 (Beweis durch Ausmultiplizieren). Der Minuend konvergiert nach dem schwachen Gesetz der 2 großen Zahlen P⊗N θ -stochastisch gegen Eθ ((X1 − m(θ)) ) = Varθ (X1 ), und der Subtrahend ⊗N konvergiert Pθ -stochastisch gegen 0. Folglich ist die Folge (Sn2 )n∈N und damit auch die Folge 2 ) 2 (S∗,n n∈N konsistent für σ (θ). 8 Konsistenz von Maximum-Likelihood-Schätzern Definition 8.1 (Relative Entropie). Es seien P und Q zwei Wahrscheinlichkeitsmaße auf einem Messraum (Ω, A). Die relative Entropie von Q bzgl. P ist definiert durch ( +∞ falls Q nicht absolutstetig bzgl. P ist, H(Q | P) := dQ dQ dQ E dP log dP = EQ log dP falls Q absolutstetig bzgl. P ist. Lemma 8.2. Für alle Wahrscheinlichkeitsmaße P und Q gilt H(Q | P) ≥ 0, mit Gleichheit genau dann, wenn Q = P. Beweis. Wir können annehmen, dass Q absolutstetig bzgl. P ist; die Dichte bezeichnen wir mit ρ. Da die Funktion f (x) := x log x streng konvex ist, impliziert die Jensensche Ungleichung, dass dQ H(Q | P) = EP f dP dQ ≥ f EP dP = f (1) = 0, mit Gleichheit genau dann, wenn ρ P-f.s. konstant ist, d.h. genau dann, wenn Q = P. 22 Lemma 8.3. Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen, deren Erwartungswert existiert und strikt positiv ist. Dann gilt ! n X P Xi > 0 → 1 (n → ∞). i=1 Beweis. Falls E(X1 ) < ∞, folgt dies unmittelbar aus dem schwachen Gesetz der großen Zahlen. Falls E(X1 ) = ∞, wähle k ∈ N so, dass E(X1 ∧ k) > 0. Dann gilt ! ! n n X X P Xi > 0 ≥ P (Xi ∧ k) > 0 → 1 (n → ∞). i=1 i=1 Satz 8.4 (Konsistenz des Maximum-Likelihood-Schätzers in Produktmodellen). Sei (Ω, A, µ, (pθ )θ∈Θ ) ein einparametriges Standardmodell und (ΩN , A⊗N , (P⊗N θ )θ∈Θ ) das zugehörige unendliche Produktmodell. Es gelte: 1. Θ ist ein offenes Intervall. 2. p(x, θ) > 0 für alle x ∈ Ω und alle θ ∈ Θ. 3. Das Modell ist identifizierbar, d.h. für θ 6= θ0 gilt Pθ 6= Pθ0 . 4. Für alle n ∈ N ist die n-fache Produkt-Likelihoodfunktion p⊗n (x, θ) = n Y p(xi , θ) i=1 unimodal in θ, d.h. für alle x ∈ ΩN existiert Tn (x) ∈ Θ derart, dass die Funktion θ 7→ p⊗n (x, θ) für θ ≤ Tn (x) wachsend und für θ ≥ Tn (x) fallend ist. (Tn ist dann ein Maximum-Likelihood-Schätzer für das auf den ersten n Beobachtungen basierende Modell (Ωn , A⊗n , µ⊗n , (p⊗n θ )θ∈Θ ).) Dann ist die Folge (Tn )n∈N konsistent für θ. Bemerkung. 1. Der Satz gilt auch ohne die zweite Annahme; der Beweis ist dann aber komplizierter. 2. Die vierte Bedingung ist insbesondere dann erfüllt, wenn die Funktion θ 7→ log p(x, θ) konkav ist mit zunächst positiver und dann negativer Steigung. Beweis. Wir fixieren θ ∈ Θ und wählen ε > 0 so klein, dass θ + ε, θ − ε ∈ Θ. Zu zeigen ist, dass P⊗N Tn ∈ [θ − ε, θ + ε] → 1 (n → ∞). θ Wegen der Unimodalität gilt ⊗n ⊗n ⊗n pθ > p⊗n θ+ε und pθ > pθ−ε ⊆ {θ − ε < Tn < θ + ε} und folglich ⊗n ⊗n ⊗n P⊗N Tn ∈ [θ − ε, θ + ε] ≥ P⊗N p⊗n θ θ > pθ+ε und pθ > pθ−ε θ ! ! ! ⊗n ⊗n p p θ θ = P⊗N log > 0 und log >0 . θ ⊗n p⊗n p θ+ε θ−ε Es genügt daher zu zeigen, dass ! ! p⊗n ⊗N θ Pθ log >0 →1 p⊗n θ+ε und 23 P⊗N θ log p⊗n θ p⊗n θ−ε ! ! >0 → 1. Nach Definition von p⊗n θ gilt log p⊗n θ p⊗n θ+ε ! = n X log i=1 pθ pθ+ε (Xi ), und pθ pθ EP⊗N log (X1 ) = EPθ log θ pθ+ε pθ+ε dPθ = EPθ log dPθ+ε = H(Pθ | Pθ+ε ) > 0, da nach Annahme Pθ 6= Pθ+ε . Folglich gilt nach dem letzten Lemma in der Tat ! ! ⊗n p θ >0 →1 (n → ∞). P⊗N log θ p⊗n θ+ε Auf dieselbe Weise erhält man P⊗N θ log p⊗n θ p⊗n θ−ε ! ! >0 →1 (n → ∞). Beispiel 8.5 (Poisson-Verteilung mit unbekanntem Parameter). Sei Ω = N0 , A = P(Ω), µ = Zählmaß, Θ = R>0 , θx p(x, θ) = e−θ . x! Es gilt d dθ d2 dθ2 log p(x, θ) = −θ + x log θ − log(x!), x log p(x, θ) = −1 + , θ x log p(x, θ) = − 2 < 0. θ Die Funktion θ 7→ log p(x, θ) ist also konkav mit zunächst positiver und dann negativer Steigung, die Voraussetzungen des Satzes sind also erfüllt. Ferner gilt log p ⊗n (x, θ) = n X (−θ + xi log θ − log(xi !)) i=1 = −n + nx̄ log θ − n X log(xi !) i=1 x̄ d log p⊗n (x, θ) = n −1 . dθ θ Folglich gibt es genau einen auf den ersten n Beobachtungen basierenden Maximum-LikelihoodSchätzer, nämlich Tn (x) = x̄, und die Folge (Tn )n∈N ist konsistent. Beispiel 8.6 (Exponentialverteilung mit unbekanntem Parameter). Sei Ω = R>0 , A = B(R>0 ), µ = Lebesgue-Maß, Θ = R>0 , p(x, θ) = θe−θx . 24 Es gilt d dθ d2 dθ2 log p(x, θ) = log θ − θx, 1 log p(x, θ) = − x, θ 1 log p(x, θ) = − 2 < 0. θ Die Funktion θ 7→ log p(x, θ) ist also konkav mit zunächst positiver und dann negativer Steigung, die Voraussetzungen des Satzes sind also erfüllt. Ferner gilt log p⊗n (x, θ) = n X (log θ − θxi ) i=1 = n log θ − nx̄, 1 d ⊗n log p (x, θ) = n − x̄ . dθ θ Folglich gibt es genau einen auf den ersten n Beobachtungen basierenden Maximum-LikelihoodSchätzer, nämlich 1 Tn (x) = , x̄ und die Folge (Tn )n∈N ist konsistent. 9 Bayessche Statistik In der Bayesschen Statistik wird im Gegensatz zur klassischen Statistik der unbekannte Parameter als Zufallsvariable mit bekannter Verteilung aufgefasst. Gegeben ist also nicht nur ein statistisches Modell (Ω, A, (Pθ )θ∈Θ ), sondern zusätzlich auf Θ eine σ-Algebra F und ein Wahrscheinlichkeitsmaß α. Man hat es dann mit einem zweistufigen Zufallsexperiment zu tun: 1. In der ersten Stufe ergibt sich der Parameter θ gemäß dem Wahrscheinlichkeitsmaß α. 2. In der zweiten Stufe ergibt sich X gemäß dem Wahrscheinlichkeitsmaß Pθ . Zur wahrscheinlickeitstheoretischen Modellierung eignet sich der Produktraum Θ×Ω, versehen mit der Produkt-σ-Algebra F ⊗ A und dem Wahrscheinlichkeitsmaß P definiert durch Z P(F × A) := Pθ (A)α(dθ). F Gegeben die Beobachtung X = x, interessiert man sich nun für die bedingte Verteilung von α gegeben diese Beobachtung. Das heißt, für F ∈ F interessiert man sich für P[θ ∈ F | X = x]. Wir nehmen zunächst an, dass P[X = x] > 0 ist. Dann gilt R Pθ ({x})α(dθ) P[θ ∈ F, X = x] P[θ ∈ F | X = x] = = RF . P[X = x] Θ Pθ ({x})α(dθ) Problem. In vielen Situationen sind Zähler und Nenner 0 (insbesondere in stetigen Modellen). Man arbeitet daher meist nicht mit der Wahrscheinlichkeit Pθ ({x}), sondern mit der Wahrscheinlichkeitsdichte. Dazu muss vorausgesetzt werden, dass die Wahrscheinlichkeitsmaße Pθ alle eine Dichte bzgl. eines gemeinsamen Referenzmaßes µ haben, dass wir es also mit einem Standardmodell zu tun haben. 25 Definition 9.1. Sei (Θ, F, α) ein Wahrscheinlichkeitsraum und (Ω, A, (pθ )θ∈Θ ) ein Standardmodell derart, dass die Funktion p : Θ×Ω → R messbar bzgl. der Produkt-σ-Algebra F ×A ist. Für alle x ∈ Ω gelte α{θ ∈ Θ | pθ (x) > 0} > 0. Dann heißt für x ∈ Ω das Wahrscheinlichkeitsmaß αx auf (Θ, F) definiert durch R pθ (x)α(dθ) αx (F ) := RF Θ pθ (x)α(dθ) die A-posteriori-Verteilung von θ gegeben die Beobachtung x. Das Wahrscheinlichkeitsmaß α wird in diesem Zusammenhang auch als A-priori-Verteilung von θ bezeichnet. Beispiel 9.2. Wir interessieren uns für die Wahrscheinlichkeit θ, dass eine manipulierte Münze Kopf“ zeigt. Aufgrund unserer Erfahrung mit manipulierten Münzen wissen wir, ” dass θ a priori gleichverteilt auf [0, 1] ist. Wir werfen die Münze n-mal und erhalten x-mal Kopf“. ” Frage. Was ist die A-posteriori-Verteilung von θ gegeben diese Beobachtung? Gegeben: Θ = [0, 1], F = B([0, 1]), α = Lebesgue-Maß, Ω = {0, . . . , n}, A = P(Ω), µ = Zählmaß, n x pθ (x) = θ (1 − θ)n−x . x Es folgt n x θ (1 − θ)n−x dθ RF1 nx x n−x dθ 0 x θ (1 − θ) R αx (F ) = R = RF1 0 θx (1 − θ)n−x dθ θx (1 − θ)n−x dθ , αx ist also die Beta-Verteilung mit Parametern x + 1 und n − x + 1. Lemma 9.3. Sei P das Wahrscheinlichkeitsmaß auf (Ω, A) definiert durch Z Pθ (A)α(dθ) = P(Θ × A). P (A) := Θ Dann gilt für alle messbaren Funktionen f : Ω×Θ → R, die nichtnegativ oder bzgl. P integrierbar sind: Z Z Z Z Z f (x, θ)P(dθ, dx) = f (x, θ)Pθ (dx)α(dθ) = f (x, θ)αx (dθ)P (dx). Θ×Ω Θ Ω Ω Θ Beweis. Sei zunächst f nichtnegativ. Nach Definition von αx gilt Z Z 1 R f (x, θ)αx (dθ) = f (x, θ)pθ (x)α(dθ). Θ Θ pθ (x)α(dθ) Θ Ferner gilt für alle messbaren Funktionen g : Ω → R+ : Z Z Z g(x)P (dx) = g(x) pθ (x)α(dθ)µ(dx). Ω Ω Θ 26 R Anwendung auf die Funktion g(x) := Θ f (x, θ)αx (dθ) liefert Z Z Z Z Z 1 R pθ (x)α(dθ)µ(dx) f (x, θ)αx (dθ)P (dx) = f (x, θ)pθ (x)α(dθ) Ω Θ pθ (x)α(dθ) Θ Θ Ω Θ Z Z f (x, θ)pθ (x)α(dθ)µ(dx) = Ω Θ Z Z f (x, θ)pθ (x)µ(dx)α(dθ). = Θ Ω R Definition 9.4. Sei τ : Θ → R eine messbare reelle Kenngröße mit Θ τ (θ)2 α(dθ) < ∞. Ein Schätzer T : Ω → R für τ heißt Bayes-Schätzer zur A-priori-Verteilung α, wenn er den über x und θ gemittelten quadratischen Fehler Z Eθ (T − τ (θ))2 α(dθ) MSEα (T ) := Θ minimiert. Satz 9.5. Es gibt bis auf fast P -fast sichere Gleichheit genau einen Bayes-Schätzer, nämlich Z τ (θ)αx (dθ). T (x) := Eαx (τ ) = Θ Beweis. Sei S : Ω → R irgendein Schätzer. Nach dem Lemma gilt Z Z MSEα (S) − MSEα (T ) = (S(x) − τ (θ))2 − (T (x) − τ (θ))2 Px (dθ)α(dθ) ZΘ Z Ω = S(x)2 − 2S(x)τ (θ) − T (x)2 + 2T (x)τ (θ) αx (dθ)P (dx). Ω Θ Mit der Definition von T folgt für das innere Integral Z S(x)2 − 2S(x)τ (θ) − T (x)2 + 2T (x)τ (θ) αx (dθ) = S(x)2 − 2S(x)T (x) − T (x)2 + 2T (x)2 Θ = (S(x) − T (x))2 = ≥ 0, mit Gleichheit genau dann, wenn S(x) = T (x). Beispiel 9.6. Es soll der Erwartungswert θ einer normalverteilten Zufallsvariablen X mit bekannter Varianz v > 0 geschätzt werden. A priori sei θ normalverteilt mit Erwartungswert m ∈ R und Varianz u > 0. Zur Schätzung von θ werden die Realisierungen von n unabhängigen Kopien X1 , . . . , Xn von X beobachtet. Gegeben: Θ = R, F = B(R), (θ − m)2 , α(dθ) = (2πu)−n/2 exp − 2u Ω = Rn , A = B(Rn ), µ = Lebesgue-Maß, −n/2 pθ (x) = (2πv) n 1 X exp − (xi − θ)2 2v i=1 27 ! . Es folgt αx (dθ) = Cpθ (x)α(dθ) n 1 X 0 = C exp − (xi − θ)2 2v ! (θ − m)2 exp − 2u i=1 ! n 1 X (θ − m)2 = C 0 exp − (xi − θ)2 − 2v 2u i=1 nx̄ m 1 n 2 00 θ − + + θ = C (x) exp − 2v 2u v u nux̄ + vm 2 θ− nu + v = C 000 (x) exp − . uv 2 nu + v αx ist also die Normalverteilung mit Mittelwert nux̄ + vm nu + v und Varianz uv . nu + v Der Bayes-Schätzer ist folglich durch T (x) = nux̄ + vm nu + v gegeben. Man beachte: 1. T (x) ist eine Konvexkombination aus dem A-priori-Erwartungswert m und dem empirischen Mittelwert x̄. 2. Je zuverlässiger die A-priori-Information ist (d.h. je kleiner die Varianz u), desto näher liegt T (x) an m. 3. Je größer die Zahl an Beobachtungen, desto näher liegt T (x) an x̄. 10 Konfidenzbereiche Definition 10.1. Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, (Σ, S) ein Messraum, τ : Θ → Σ eine Kenngröße und α ∈ (0, 1). Eine Abbildung C : Ω → P(Σ) heißt Konfidenzbereich für τ zum Irrtumsniveau α (oder Konfidenzniveau 1 − α), falls für alle θ ∈ Θ gilt: 1. {x ∈ Ω | C(x) 3 τ (θ)} ∈ A, 2. Pθ {x ∈ Ω | C(x) 3 τ (θ)} ≥ 1 − α. Bemerkung. 1. Die zweite Bedingung lässt sich auch schreiben als Pθ {C(X) 3 s(θ)} ≥ 1 − α für alle θ ∈ Θ. Dabei ist folgendes zu beachten: Da X zufällig ist, ist auch C(X) zufällig. Der Parameter θ (und damit auch τ (θ)) hingegen ist zwar unbekannt, wird aber nicht als Zufallsvariable angesehen (zumindest in der klassischen Statistik), da für ihn keine Verteilung spezifiziert ist. Es ist daher sinnlos zu behaupten, dass, gegeben die Beobachtung X = x, τ (θ) mit Wahrscheinlichkeit ≥ 1 − α in C(x) liege. Richtig ist vielmehr, dass man mit Wahrscheinlichkeit ≥ 1 − α eine Menge C(X) erhält, die τ (θ) enthält. 28 2. Eine Möglichkeit ist C(x) = Σ für alle x ∈ Ω. Dies ist zwar ein Konfidenzbereich für jedes α ∈ (0, 1), aber praktisch völlig nutzlos. Es ist daher zusätzlich zu fordern, dass C(x) möglichst klein ist. Insbesondere sollte die obige Wahrscheinlichkeit möglichst gleich 1 − α sein (oder zumindest so wenig wie möglich von 1 − α nach oben abweichen). 3. Wenn Σ ein Intervall ist, wählt man in der Regel C so, dass auch C(x) für alle x ∈ Ω ein Intervall ist. Man spricht dann auch von einem Konfidenzintervall. Beispiel 10.2 (Schätzung des Erwartungswerts einer normalverteilten Zufallsvariablen mit ⊗n bekannter Varianz). Sei σ > 0, Ω = Rn , A = B(Rn ), Θ = R, Pθ = Nθ,σ 2 . Ein Konfidenzintervall für den Erwartungswert θ zum Irrtumsniveau α lässt sich wie folgt bestimmen: 1. Ausgangspunkt ist das Stichprobenmittel n X̄ = 1X Xi . n i=1 Unter Pθ ist X̄ normalverteilt mit Erwartungswert θ und Varianz σ 2 /n. 2. Folglich ist √ n(X̄ − θ) σ standardnormalverteilt, und zwar unabhängig von θ. Zn := 3. Wir suchen nun eine Zahl z > 0 derart, dass Pθ (|Zn | ≤ z) = 1 − α. Denn dann gilt √ n|X̄ − θ| 1 − α = Pθ ≤z σ zσ = Pθ |X̄ − θ| ≤ √ n zσ zσ = Pθ X̄ − √ , X̄ + √ 3θ , n n d.h. zσ zσ X̄ − √ , X̄ + √ n n ist ein Konfidenzintervall für θ zum Konfidenzniveau 1 − α. 4. z lässt sich wie folgt bestimmen: Es gilt ! Pθ (|Zn | ≤ z) = 2Pθ (Zn ≤ z) − 1 = 1 − α, also ! Pθ (Zn ≤ z) = 1 − α/2, d.h. z ist das (1 − α/2)-Quantil der Standardnormalverteilung z1−α/2 . Zusammengefasst: Für alle θ ∈ R gilt z1−α/2 σ z1−α/2 σ , X̄ + √ 3 θ = 1 − α, Pθ X̄ − √ n n und folglich ist dieses Intervall ein Konfidenzintervall für θ zum Konfidenzniveau 1 − α. 29 Bemerkung. Es sei nun die Varianz σ 2 unbekannt. Das statistische Modell ist dann ⊗n (Rn , B(Rn ), (Nµ,σ 2 )µ∈R,σ∈R>0 ). Es liegt nahe, die Varianz durch die korrigierte Stichprobenvarianz n 1 X 2 S∗ = (Xi − X̄)2 n−1 i=1 zu schätzen und statt mit Zn mit der Größe √ n(X̄ − µ) Tn := S∗ zu arbeiten. Tn ist im Gegensatz zu Zn nicht normalverteilt; allerdings hängt die Verteilung von Tn bemerkenswerterweise nicht von µ oder σ ab. 11 Verteilungen rund um die Normalverteilung Lemma 11.1 (Transformationsformel für Dichten bzgl. des Lebesgue-Maßes). Seien B1 , B2 ⊆ Rn offen, µ ein Maß auf B1 mit Dichte ρ und T : B1 → B2 ein Diffeomorphismus. Dann hat das Bildmaß µT von µ unter T die Dichte ρT (y) = ρ(T −1 (y)) |det DT −1 (y)|. Beweis. Sei A ⊆ B2 offen. Dann gilt nach dem Transformationssatz für das Lebesgue-Integral µT (A) = µ(T −1 (A)) Z = ρ(x)dx T −1 (A) Z = ρ(T −1 (y) |det DT −1 (y)| dy. A Satz 11.2. Seien X1 , . . . , Xn n unabhängige standardnormalverteilte Zufallsvariablen und X der Vektor (X1 , . . . , Xn )T . Ferner seien A ∈ GLn (R) und m ∈ Rn . Dann hat der Vektor Y := AX + m die Dichte 1 (2π)−n/2 | det A|−1 exp − (y − m)T (AAT )−1 (y − m) 2 bzgl. des Lebesgue-Maßes. Beweis. Der Vektor X hat die Dichte |x|2 exp − 2 −n/2 (2π) Da A invertierbar ist, ist die Abbildung T : Rn → Rn , T (x) = Ax + m, ein Diffeomorphismus mit Umkehrabbildung T −1 (y) = A−1 (y−m). Die Behauptung folgt daher aus dem Lemma. Korollar 11.3. Wenn A orthogonal ist, sind die Komponenten von AX unabhängig und standardnormalverteilt. Beweis. In diesem Fall ist die Verteilung von AX dieselbe wie die von X. Definition 11.4. Die Gamma-Verteilung mit Parametern α > 0 und r > 0 ist das Wahrscheinlichkeitsmaß Γα,r auf R mit der Dichte γα,r (x) := 1{x>0} αr r−1 −αx x e Γ(r) bzgl. des Lebesgue-Maßes. Hierbei ist Z Γ(r) := ∞ y r−1 e−y dy 0 die Gamma-Funktion. 30 Satz 11.5. Sei X standardnormalverteilt. Dann ist X 2 Gamma-verteilt mit Parametern 1/2 und 1/2. Beweis. Die Dichte ρ von |X| ist 0 für x ≤ 0 und das Doppelte der Standardnormalverteilungsdichte für x > 0, also r 1 − x2 2 − x2 ρ(x) = 2 · 1{x>0} √ e 2 = 1{x>0} e 2. π 2π Sei T : R>0 → R>0 gegeben durch T (x) := x2 . Nach der Transformationsformel für Dichten folgt, dass X 2 die Dichte ρT hat, wobei ρT (y) = 1{y>0} ρ(T −1 (y)) |det DT −1 (y)| 1 √ = 1{y>0} ρ( y) √ 2 y r 2 −y/2 1 = 1{y>0} e √ π 2 y 1 = 1{y>0} √ y −1/2 e−y/2 . 2π Dies ist bis auf einen konstanten Faktor gleich γ1/2,1/2 (y). Definition 11.6. Die Beta-Verteilung mit Parametern a > 0 und b > 0 ist das Wahrscheinlichkeitsmaß Bα,r auf R mit der Dichte βa,b (x) := 1{x∈(0,1)} a−1 x (1 − x)b−1 B(a, b) bzgl. des Lebesgue-Maßes. Hierbei ist Z B(a, b) := 1 y a−1 (1 − y)b−1 dy 0 die Eulersche Beta-Funktion. Satz 11.7. Seien α, r, s > 0 und X und Y unabhängige Zufallsvariablen, wobei X Gammaverteilt mit Parametern α und r und Y Gamma-verteilt mit Parametern α und s sei. Dann gilt: 1. X + Y und X/(X + Y ) sind unabhängig. 2. X + Y ist Gamma-verteilt mit Parametern α und r + s. 3. X/(X + Y ) ist Beta-verteilt mit Parametern r und s. Beweis. Da X und Y unabhängig sind, ist die gemeinsame Verteilung von X und Y das Produktmaß Γα,r ⊗ Γα,s mit Dichte 1{x>0,y>0} αr+s r−1 s−1 −α(x+y) ρ(x, y) = γα,r (x)γα,s (y) = x y e . Γ(r)Γ(s) Wir betrachten jetzt die Abbildung T : R2>0 → R>0 × (0, 1) gegeben durch x T (x, y) = x + y, . x+y T ist ein Diffeomorphismus mit Umkehrfunktion T −1 (u, v) = (uv, u(1 − v)) . 31 Es gilt DT −1 (u, v) = v u 1 − v −u und folglich | det DT −1 (u, v)| = u. Es folgt, dass der Vektor (X + Y, X/(X + Y )) = T (X, Y ) die Dichte ρT hat, wobei ρT (u, v) = 1{u>0,v∈(0,1)} ρ(T −1 (u, v)) |det T −1 (u, v)| = 1{u>0,v∈(0,1)} ρ(uv, u(1 − v))u = = 1{u>0,v∈(0,1)} αr+s (uv)r−1 (u(1 − v))s−1 e−αu u Γ(r)Γ(s) 1{u>0,v∈(0,1)} αr+s r+s−1 −αu r−1 u e v (1 − s)s−1 . Γ(r)Γ(s) KorollarP 11.8. Es seien X1 , . . . , Xn n unabhängige standardnormalverteilte Zufallsvariablen. Dann ist ni=1 Xi2 Gamma-verteilt mit Parametern 1/2 und n/2. Bemerkung. Die Gamma-Verteilung mit Parametern 1/2 und n/2 wird auch als ChiquadratVerteilung mit n Freiheitsgraden bezeichnet. Das Korollar besagt also, dass die Summe der Quadrate von n unabhängigen standardnormalverteilten Zufallsvariablen Chiquadrat-verteilt mit n Freiheitsgraden ist. Satz 11.9. Es seien X1 , . . . , Xm , Y1 , . . . , Yn m+n unabhängige standardnormalverteilte Zufallsvariablen. Dann ist der Quotient Fm,n 1 Pm 2 i=1 Xi m := 1 Pn Y2 n j=1 j Fisher-verteilt (oder F -verteilt) mit m Zählerfreiheitsgraden und n Nennerfreiheitsgraden, d.h. seine Verteilung besitzt die Dichte fm,n (x) := 1{x>0} mm/2 nn/2 xm/2−1 B(m/2, n/2) (n + mx)(m+n)/2 bzgl. des Lebesgue-Maßes. Beweis. Es seien X := m X Xi2 , Y := i=1 n X Yi2 . i=1 Dann sind X und Y unabhängig, X ist Gamma-verteilt mit Parametern 1/2 und m/2, und Y ist Gamma-verteilt mit Parametern 1/2 und n/2. Folglich ist Z := X X +Y Beta-verteilt mit Parametern m/2 und n/2. Ferner gilt Z X/(X + Y ) X = = 1−Z Y /(X + Y ) Y und damit Fm,n = nX n Z = = T (Z), mY m1−Z 32 wobei T (z) := nz . m(1 − z) T ist ein Diffeomorphismus von (0, 1) auf R>0 mit Umkehrabbildung T −1 (x) = mx n =1− , n + mx n + mx (T −1 )0 (x) = nm (n + mx)2 Folglich hat Fm,n die Dichte βm/2,n/2 (T −1 (x))|(T −1 )0 (x)| 1{T −1 (x)∈(0,1)} −1 m/2−1 nm = T (x) (1 − T −1 (x))n/2−1 B(m/2, n/2) (n + mx)2 m/2−1 n/2−1 1{x>0} mx mx nm = 1− B(m/2, n/2) n + mx n + mx (n + mx)2 = 1{x>0} mm/2 nn/2 xm/2−1 . B(m/2, n/2) (n + mx)(m+n)/2 Satz 11.10. Es seien X, Y1 , . . . , Yn n+1 unabhängige standardnormalverteilte Zufallsvariablen. Dann ist X T := q P n 1 2 i=1 Yj n t-verteilt mit n Freiheitsgraden, d.h. die Verteilung von T hat die Dichte tn (x) := nn/2 B(1/2, n/2)(n + x2 )(n+1)/2 bzgl. des Lebesgue-Maßes. Beweis. Nach dem vorigen Satz ist T 2 F -verteilt mit einem √ Zählerfreiheitsgrad und n Nennerfreiheitsgraden. Folglich hat die Verteilung von |T | = T 2 die Dichte 1{x>0} nn/2 x−1 · 2x B(1/2, n/2) (n + x2 )(1+n)/2 = 2 · 1{x>0} tn (x). f1,n (x2 ) · 2x = Da aus Symmetriegründen −T dieselbe Verteilung hat wie T , folgt die Behauptung. Satz 11.11. Es seien X1 , . . . , Xn unabhängig und normalverteilt mit Erwartungswert m ∈ R und Varianz σ 2 > 0. Dann gilt: 1. X̄ und S∗2 sind unabhängig. n−1 2 S ist Chiquadrat-verteilt mit n − 1 Freiheitsgraden. σ2 ∗ √ n(X̄ − m) 3. Tn := ist t-verteilt mit n − 1 Freiheitsgraden. S∗ 2. Beweis. Wir können annehmen, dass die Variablen Xi standardnormalverteilt sind; andernfalls gehen wir zu den standardisierten Variablen (Xi −m)/σ über. Sei X := (X1 , . . . , Xn ), und √ sei U ∈ O(n) eine orthogonale Matrix, deren Einträge in der ersten Zeile alle gleich 1/ n sind. 33 Sei Y := U X. Dann sind die Komponenten von Y unabhängig und standardnormalverteilt; ferner gelten √ n nX̄ = 1 X √ Xi = Y1 , n i=1 (n − 1)S∗2 = n X (Xi − X̄)2 i=1 = n X Xi2 − nX̄ 2 i=1 = |Y |2 − Y12 n X = Yi2 , i=2 √ Tn = = nX̄ S∗ 1 n−1 Y1 Pn 2 i=2 Yi . Aus der Unabhängigkeit der Variablen Yi folgen dann alle drei Behauptungen. Korollar 11.12 (Konfidenzintervall für den Erwartungswerts einer normalverteilten Zufalls⊗n variablen mit unbekannter Varianz). Sei Ω = Rn , A = B(Rn ), Θ = R × R>0 , Pm,σ2 = Nm,σ 2. 2 Dann gilt für alle (m, σ ) ∈ Θ: tn−1,1−α/2 S∗ tn−1,1−α/2 S∗ √ √ Pm,σ2 X̄ − , X̄ + 3 m = 1 − α, n n wobei tn−1,1−α/2 das (1 − α/2)-Quantil der t-Verteilung mit n − 1 Freiheitsgraden bezeichne. Folglich ist die Abbildung tn−1,1−α/2 s∗ tn−1,1−α/2 s∗ √ √ x 7→ C(x) := x̄ − , x̄ + n n ein Konfidenzintervall für m zum Irrtumsniveau α. 12 Hypothesentests Gegeben: Eine Behauptung H0 über den Parameter θ ( Nullhypothese“, mathematisch: eine ” Teilmenge Θ0 von Θ), deren Gültigkeit überprüft werden soll. Idee: H0 wird verworfen, wenn unter H0 die Beobachtung x zu unwahrscheinlich ist. Definition 12.1. Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, Θ0 eine nichtleere echte Teilmenge von Θ und Θ1 := Θ \ Θ0 . 1. Die Nullhypothese ist die Behauptung H0 : θ ∈ Θ0 . 2. Die Alternativhypothese oder Alternative ist die Behauptung H1 : θ ∈ Θ1 . 3. Ein Test von H0 gegen H1 (oder Θ0 gegen Θ1 ) ist eine messbare Abbildung ϕ : Ω → [0, 1]. Interpretation. Wir beobachten die Realisierung x der kanonischen Zufallsvariablen X und entscheiden dann wie folgt: 1. Wenn ϕ(x) = 1, verwerfen wir die Nullhypothese. 34 2. Wenn ϕ(x) = 0, verwerfen wir die Nullhypothese nicht. 3. Wenn ϕ(x) ∈ (0, 1), verwerfen wir die Nullhypothese mit Wahrscheinlichkeit ϕ(x). (Wir können z.B. unabhängig von X eine in [0, 1] gleichverteilte Zufallszahl ziehen und H0 genau dann verwerfen, wenn diese Zufallszahl kleiner als ϕ(x) ist.) Definition 12.2. 1. Ein Test ϕ : Ω → [0, 1] heißt nichtrandomisiert, wenn ϕ nur die Werte 0 und 1 annimmt. Andernfalls heißt er randomisiert. (In der Praxis sind Tests in aller Regel nichtrandomisiert. Aus theoretischen Gründen ist es allerdings zweckmäßig, auch randomisierte Tests zuzulassen.) 2. Man nennt • {x ∈ Ω | ϕ(x) = 1} den Verwerfungsbereich, Ablehnungsbereich oder kritischen Bereich, • {x ∈ Ω | ϕ(x) = 0} den Annahmebereich, und • {x ∈ Ω | ϕ(x) ∈ (0, 1)} den Randomisierungsbereich des Tests ϕ. Die Bezeichnung Annahmebereich“ ist allerdings etwas irreführend: Wenn ϕ(x) = 0 ist, ” wird die Nullhypothese NICHT in dem Sinne angenommen“, dass davon ausgegangen ” wird, dass sie zutrifft. Die Nullhypothese wird dann lediglich nicht verworfen. 3. Ein Fehler erster Art liegt vor, wenn die Nullhypothese verworfen wird, obwohl sie zutrifft. (Wenn der wahre Parameter θ ∈ Θ0 ist, beträgt die Wahrscheinlichkeit eines Fehlers erster Art bei einem nichtrandomisierten Test Pθ (ϕ = 1) und im Allgemeinen Eθ (ϕ). 4. Ein Fehler zweiter Art liegt vor, wenn die Nullhypothese nicht verworfen wird, obwohl sie falsch ist. (Wenn der wahre Parameter θ ∈ Θ1 ist, beträgt die Wahrscheinlichkeit eines Fehlers zweiter Art bei einem nichtrandomisierten Test Pθ (ϕ = 0) und im Allgemeinen 1 − Eθ (ϕ). 5. Sei α ∈ (0, 1). Ein Test ϕ heißt Test zum Irrtumsniveau (Signifikanzniveau, Niveau) α, wenn die Wahrscheinlichkeit eines Fehlers erster Art höchstens α beträgt, wenn also Eθ (ϕ) ≤ α für alle θ ∈ Θ0 gilt. Das effektive Niveau eines Tests ist supθ∈Θ0 Eθ (ϕ). 6. Die Gütefunktion eines Tests ϕ ist die Abbildung Gϕ : Θ → [0, 1], Gϕ (θ) := Eθ (ϕ). (Für θ ∈ Θ1 ist Gϕ (θ) die Wahrscheinlichkeit, mit der die Nullhypothese zutreffenderweise verworfen wird, und wird als Macht des Tests bei θ bezeichnet. Für θ ∈ Θ0 hingegen ist Gϕ (θ) die Wahrscheinlichkeit, dass die Nullhypothese fälschlicherweise verworfen wird.) Satz 12.3 (Äquivalenz von Konfidenzbereichen und nichtrandomisierten Tests punktförmiger Nullhypothesen). Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, (Σ, S) ein Messraum, τ : Θ → Σ eine nichtkonstante Kenngröße und α ∈ (0, 1). Für jedes s ∈ τ (Θ) seien Θ0 (s) := τ −1 (s) und Θ1 (s) := Θ \ Θ0 (s). 35 1. Sei C : Ω → P(Σ) ein Konfidenzbereich für τ zum Irrtumsniveau α. Dann ist für jedes s ∈ τ (Θ) die Abbildung ϕs : Ω → {0, 1} mit ( 0 wenn s ∈ C(x), ϕs (x) := 1 wenn s ∈ / C(x) ein nichtrandomisierter Test von Θ0 (s) gegen Θ1 (s) zum Irrtumsniveau α. 2. Umgekehrt sei für jedes s ∈ τ (Θ) ein nichtrandomisierter Test ϕs von Θ0 (s) gegen Θ1 (s) zum Irrtumsniveau α gegeben. Dann ist die Abbildung C : Ω → P(Σ) mit C(x) := {s ∈ Σ | ϕs (x) = 0} ein Konfidenzbereich für τ zum Irrtumsniveau α. 3. Diese beiden Operationen sind invers zueinander. Beweis. Übung (folgt direkt aus den Definitionen). Bemerkung. 1. Eine entsprechende Aussage gilt auch für randomisierte Tests; man erhält dann randomisierte Konfidenzbereiche. 2. Die Theorie der Konfidenzbereiche lässt sich aufgrund dieses Satzes auf die Theorie der Tests zurückführen. Beispiel 12.4 (Tests im Gauß-Modell). Es seien X1 , . . . , Xn unabhängige identisch normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ. Getestet werden soll die Nullhypothese H0 : µ = µ0 gegen die Alternative H1 : µ 6= µ0 , und zwar auf dem Niveau α ∈ (0, 1). 1. Es sei zunächst die Varianz σ 2 bekannt. Dann ist die Abbildung C : Rn → P(R), σz1−α/2 σz1−α/2 C(x) = x̄ − √ , x̄ + √ n n ein Konfidenzbereich für µ zum Irrtumsniveau α. Folglich ist für jedes µ0 ∈ R die Abbildung ϕ : R → {0, 1} mit √ n|x̄ − µ0 | 0 wenn zn := ≤ z1−α/2 , ϕ(x) = σ 1 wenn z > z , n 1−α/2 ein nichtrandomisierter Test der Nullhypothese H0 : µ = µ0 zum Niveau α (sog. z-Test). 2. Entsprechendes gilt bei unbekannter Varianz für die Abbildung ϕ : R → {0, 1}, √ 0 wenn t := n|x̄ − µ0 | ≤ t n n−1,1−α/2 , ϕ(x) = s∗ 1 wenn tn > tn−1,1−α/2 (sog. t-Test). Frage. Sind diese Tests optimal“? ” Definition 12.5. Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, Θ0 eine nichtleere echte Teilmenge von Θ, Θ1 := Θ \ Θ0 und α ∈ (0, 1). Ein Test ϕ von Θ0 gegen Θ1 heißt gleichmäßig bester Test zum Niveau α, falls gilt: 1. ϕ ist ein Test zum Niveau α. 2. Für alle Tests ψ von Θ0 gegen Θ1 zum Niveau α und alle θ ∈ Θ1 gilt Gϕ (θ) ≥ Gψ (θ). 36 13 Tests bei einfacher Nullhypothese und Alternative, Neyman-Pearson-Lemma, Lemma von Stein Wir betrachten in diesem Abschnitt den einfachsten Fall, nämlich den eines Standardmodells, bei dem sowohl die Nullhypothese als auch die Alternative einfach, d.h. einelementig, sind. Sei also • Θ = {0, 1}, • (Ω, A, µ, p0 , p1 ) ein Standardmodell, • Θ0 = {0}, Θ1 = {1}. Dann ist es naheliegend, die Testentscheidung vom Wert des Dichtequotienten ( p1 (x)/p0 (x) falls p0 (x) > 0, R(x) := ∞ falls p0 (x) = 0. abhängig zu machen. (Je größer R(x), desto plausibler ist die Alternative, und desto eher sollte die Nullhypothese verworfen werden.) Definition 13.1. Sei (Ω, A, µ, p0 , p1 ) ein Standardmodell mit einfacher Nullhypothese Θ0 = {0} und einfacher Alternative Θ1 = {1}. Ein Test ϕ : Ω → [0, 1] von Θ0 gegen Θ1 heißt Neyman-Pearson-Test, falls es eine Zahl c > 0 (den Schwellenwert des Tests) gibt mit ( 0 falls R(x) < c, ϕ(x) = 1 falls R(x) > c. Satz 13.2 (Neyman-Pearson-Lemma). 1. Zu jedem α ∈ (0, 1) gibt es einen Neyman-Pearson-Test ϕ mit E0 (ϕ) = α. 2. Jeder Neyman-Pearson-Test ϕ mit E0 (ϕ) = α ist ein gleichmäßig bester Test zum Niveau α. 3. Ist ϕ ein Neyman-Pearson-Test mit E0 (ϕ) = α und Schwellenwert c und ist ψ ein weiterer gleichmäßig bester Test zum Niveau α, so gibt es eine Menge N ∈ A mit P0 (N ) = P1 (N ) = 0 derart, dass ψ(x) = ϕ(x) für alle x ∈ Ω \ (N ∪ {R = c}). Beweis. 1. Sei c ein (1 − α)-Quantil der Verteilung von R unter P0 , d.h. eine Zahl mit P0 (R ≤ c) ≥ 1 − α und P0 (R ≥ c) ≥ α. Wir definieren nun ϕ durch 0 ϕ(x) := γ 1 wobei 0 γ := α − P0 (R > c) P0 (R = c) falls R(x) < c, falls R(x) = c, falls R(x) > c. falls P0 (R = c) = 0, falls P0 (R = c) > 0. Wenn P0 (R = c) = 0, gilt E0 (ϕ) = P0 (R > c) = α, 37 und wenn P0 (R = c) > 0, dann E0 (ϕ) = P0 (R > c) + γP0 (R = c) α − P0 (R > c) = P0 (R > c) + P0 (R = c) P0 (R = c) = α. 2. Sei ϕ ein Neyman-Pearson-Test mit E0 (ϕ) = α und Schwellenwert c und ψ ein beliebiger Test zum Niveau α. Dann gilt Gϕ (1) − Gψ (1) = E1 (ϕ) − E1 (ψ) Z (ϕ(x) − ψ(x)) p1 (x)µ(dx). = Ω Für den Integranden gilt das Folgende: (a) Wenn ϕ(x) > ψ(x) ist, gilt ϕ(x) > 0, folglich R(x) ≥ c und damit p1 (x) ≥ cp0 (x). (b) Wenn ϕ(x) < ψ(x) ist, gilt ϕ(x) < 1, folglich R(x) ≤ c und damit p1 (x) ≤ cp0 (x). In beiden Fällen gilt (ϕ(x) − ψ(x))p1 (x) ≥ c(ϕ(x) − ψ(x))p0 (x) und damit Z Gϕ (1) − Gψ (1) = (ϕ(x) − ψ(x)) p1 (x)µ(dx) Ω Z ≥ c (ϕ(x) − ψ(x)) p0 (x)µ(dx) Ω = c E0 (ϕ) − E0 (ψ) | {z } | {z } =α ≤α ≥ 0. 3. Sei nun ψ ein gleichmäßig bester Test zum Niveau α. Dann gilt in der obigen Ungleichungskette an beiden Stellen Gleichheit und folglich (ϕ(x) − ψ(x))p1 (x) = c(ϕ(x) − ψ(x))p0 (x) µ-f.ü. Es gibt also eine µ-Nullmenge N1 mit (ϕ(x) − ψ(x))(p1 (x) − cp0 (x)) = 0 für alle x ∈ Ω \ N1 . Sei nun N := N1 ∪ {p0 = p1 = 0}. Dann gilt P0 (N ) = P1 (N ) = 0, und außerhalb von N ∪ {R = c} gilt ψ = ϕ. Beispiel 13.3 (Normalverteilung mit bekannter Varianz). Es seien X1 , . . . , Xn unabhängige identisch normalverteilte Zufallsvariablen mit bekannter Varianz σ 2 > 0 und Erwartungswert entweder m0 oder m1 , wobei m1 > m0 . Wir verwenden das statistische Modell Ω = Rn , A = B(Rn ), µ = Lebesgue-Maß, ! n X (xi − mj )2 2 −n/2 pj (x) = (2πσ ) exp − , j ∈ {0, 1}. 2σ 2 i=1 38 1. Der Dichtequotient beträgt R(x) = p1 (x) p0 (x) = exp − n X (xi − m1 )2 − (xi − m0 )2 ! 2σ 2 i=1 n = exp − 2 −2x̄m1 + m21 + 2x̄m0 − m20 2σ n = exp − 2 (m1 − m0 )(m1 + m0 − 2x̄) 2σ m1 + m0 n(m1 − m0 ) x̄ − . = exp σ2 2 2. Da nach Voraussetzung m1 > m0 , ist R eine streng wachsende Funktion des empirischen Mittelwertes X̄. Folglich hat der Neyman-Pearson-Test die Form ϕ(x) = 1{x̄>b} , wobei b ∈ R so zu wählen ist, dass P0 (X̄ ≤ b) = 1 − α. Da X̄ unter P0 normalverteilt mit Erwartungswert m0 und Varianz σ 2 /n ist, gilt X̄ − m0 b − m0 √ ≤ √ P0 (X̄ ≤ b) = P0 σ/ n σ/ n b − m0 √ = Φ σ/ n ! = 1 − α, also σz1−α b = m0 + √ . n 3. Zusammenfassung: H1 wird genau dann abgelehnt, wenn σz1−α x̄ > m0 + √ . n 4. Wie groß ist die Wahrscheinlichkeit eines Fehlers zweiter Art (wenn H1 zutrifft)? Diese Wahrscheinlichkeit beträgt σz1−α P1 (ϕ = 0) = P1 X̄ ≤ m0 + √ . n Unter P1 ist X̄ normalverteilt mit Erwartungswert m1 und Varianz σ 2 /n. Folglich gilt √ σz1−α X̄ − m1 n(m0 − m1 ) √ ≤ P1 X̄ ≤ m0 + √ = P1 + z1−α σ n σ/ n √ n(m0 − m1 ) = Φ + z1−α . σ Wegen m0 < m1 geht dies für n → ∞ gegen 0, und zwar exponentiell schnell. (Man kann zeigen, dass Φ(x) lim =1 x→−∞ ν(x)/|x| gilt, wobei ν(x) := (2π)−1/2 exp(−x2 /2) die Dichte der Standardnormalverteilung bezeichnet.) 39 Satz 13.4 (Lemma von Stein). Sei (Ω, A, µ, p0 , p1 ) ein Standardmodell mit überall strikt positiven Dichten p0 und p1 , Θ0 := {0}, Θ1 := {1} und α ∈ (0, 1). Für jedes n ∈ N sei ⊗n n (Ωn , A⊗n , µ⊗n , p⊗n 0 , p1 ) das zugehörige n-fache Produktmodell und ϕn : Ω → [0, 1] ein Neyman-Pearson-Test mit E0 (ϕn ) = α. Dann gilt 1 log 1 − Gϕn (1) = −H(P0 | P1 ). n→∞ n | {z } lim =E1 (ϕn ) Beweis. 1. Für x = (x1 , . . . , xn ) ∈ Ωn seien n Rn (x) := Y p1 (xi ) p⊗n 1 (x) = , ⊗n p0 (x) i=1 p0 (xi ) 1 1 hn (x) := − log Rn (x) = − log n n p⊗n 1 (x) p⊗n 0 (x) n 1X = log n i=1 Dann gilt: (a) Es gibt eine Konstante an ∈ R mit ( 1 falls hn (x) < an , ϕn (x) = 0 falls hn (x) > an . (b) E0 (hn ) = E0 log p0 (X1 ) p1 (X1 ) = H(P0 | P1 ). 2. Abschätzung nach oben: Wir zeigen jetzt, dass lim sup n→∞ 1 log 1 − E1 (ϕn ) ≤ −H(P0 | P1 ) n gilt: Für alle x ∈ Ωn mit ϕn (x) < 1 gilt hn (x) ≥ an und folglich p⊗n 1 (x) = exp(−nhn (x)) ≤ exp(−nan ). ⊗n p0 (x) Hieraus folgt p⊗n 1 E1 (1 − ϕn ) = E0 (1 − ϕn ) ⊗n p0 ≤ exp(−nan )E0 (1 − ϕn ) ≤ exp(−nan ) und damit 1 log 1 − E1 (ϕn ) ≤ −an . n Es bleibt also zu zeigen, dass lim inf an ≥ H(P0 | P1 ), n→∞ d.h. dass für alle a < H(P0 | P1 ) gilt: an > a für alle hinreichend großen n ∈ N. 40 p0 (xi ) . p1 (xi ) Um dies zu zeigen, fixieren wir a < H(P0 | P1 ) und erhalten einerseits P0 (hn ≤ a) → 0 (wegen des schwachen Gesetzes der großen Zahlen), und andererseits P0 (hn ≤ an ) ≥ E0 (ϕn ) = α > 0 und damit in der Tat an > a für alle genügend großen n ∈ N. 3. Abschätzung nach unten: Wir zeigen jetzt, dass lim inf n→∞ 1 log 1 − E1 (ϕn ) ≥ −H(P0 | P1 ) n gilt: Hierzu zeigen wir: Für alle a > H(P0 | P1 ) gilt lim inf n→∞ 1 log 1 − E1 (ϕn ) ≥ −a : n Wir erhalten E1 (1 − ϕn (x)) = ≥ ≥ = ≥ = p⊗n 1 E0 (1 − ϕn ) ⊗n p0 p⊗n 1 E0 (1 − ϕn ) ⊗n 1{hn ≤a} p0 −na e E0 (1 − ϕn ) 1{hn ≤a} e−na P0 (hn ≤ a) − E0 ϕn 1{hn ≤a} e−na P0 (hn ≤ a) − E0 (ϕn ) e−na P0 (hn ≤ a) − α und damit 1 1 lim inf log 1 − E1 (ϕn ) ≥ −a + lim inf log P0 (hn ≤ a) − α . n→∞ n n→∞ n Nach dem schwachen Gesetz der großen Zahlen gilt P0 (hn ≤ a) → 1 für n → ∞ und folglich 1 log P0 (hn ≤ a) − α → 0 (n → ∞). n 14 Einseitige Tests bei eindimensionaler Parametermenge Wir nehmen jetzt an, dass Θ ⊆ R ist und betrachten einseitige Tests, d.h. Tests der Nullhypothese H0 : θ ≤ θ0 gegen die Alternative H1 : θ > θ0 . (Der umgekehrte Fall, H0 : θ ≥ θ0 gegen H1 : θ < θ0 , lässt sich auf den hier betrachteten durch die Transformation θ 7→ −θ zurückführen.) Wichtigstes Beispiel: Normalverteilung mit unbekanntem Erwartungswert, aber bekannter Varianz. Definition 14.1. Es seien (Ω, A, µ, (pθ )θ∈Θ ) ein Standardmodell mit Θ ⊆ R und T : Ω → R̄ messbar. Man sagt, das Modell habe bzgl. T wachsende Dichtequotienten, wenn es für alle θ, θ0 ∈ Θ mit θ < θ0 eine wachsende Funktion fθ,θ0 : R̄ → R̄ gibt, so dass Rθ,θ0 (x) = fθ,θ0 (T (x)) für alle x ∈ Ω. Hierbei ist ( pθ0 (x)/pθ (x) falls pθ (x) > 0, Rθ,θ0 (x) := ∞ falls pθ (x) = 0. 41 Beispiel 14.2 (Modelle, bei denen Nullhypothese und Alternative beide einfach sind). Hier können wir T (x) = R(x) = R0,1 (x) und f0,1 = IdR̄ wählen. Beispiel 14.3 (Exponentielle Modelle). Sei (Ω, A, µ, (pθ )θ∈Θ ) ein exponentielles Modell bzgl. einer messbaren und nicht µ-f.ü. konstanten Abbildung T : Ω → R. Es sei also Θ ⊆ R ein offenes Intervall, und es gebe stetig differenzierbare Funktionen a, b : Θ → R und eine messbare Funktion c : Ω → R mit a0 (θ) 6= 0 für alle θ ∈ Θ und p(x, θ) = exp a(θ)T (x) − b(θ) + c(x) . Dann hat das Modell wachsende Dichtequotienten bzgl. T (wenn a wachsend ist) oder −T (wenn a fallend ist). (Da a0 nirgends verschwindet, ist a entweder wachsend oder fallend.) Beweis. Es gilt Rθ,θ0 (x) = exp a(θ0 ) − a(θ) T (x) + b(θ0 ) − b(θ) . Wenn a wachsend ist, wählen wir fθ,θ0 (y) := exp a(θ0 ) − a(θ) y + b(θ0 ) − b(θ) . a(θ) − a(θ0 ) y + b(θ0 ) − b(θ) . Wenn a fallend ist, wählen wir fθ,θ0 (y) := exp Satz 14.4. Sei (Ω, A, µ, (pθ )θ∈Θ ) ein Standardmodell mit Θ ⊆ R und bzgl. T : Ω → R wachsenden Dichtequotienten. Ferner seien θ0 ∈ Θ und α ∈ (0, 1). Dann gilt: 1. Der folgende Test ϕ ist ein gleichmäßig bester Test zum Niveau α der Nullhypothese H0 : θ ≤ θ0 gegen die Alternative H1 : θ > θ0 : 0 falls T (x) < c, ϕ(x) := γ falls T (x) = c, 1 falls T (x) > c, wobei c ein (1 − α)-Quantil der Verteilung von T unter Pθ0 ist und 0 falls Pθ0 (T = c) = 0, γ := α − Pθ0 (T > c) falls Pθ0 (T = c) > 0. P0 (T = c) 2. Ist ψ ein weiterer gleichmäßig bester Test, so gibt es eine P0 -Nullmenge N ∈ A derart, dass ψ(x) = ϕ(x) für alle x ∈ Ω \ (N ∪ {T = c}). 3. Die Gütefunktion eines jeden gleichmäßig besten Tests ψ ist wachsend. Beweis. 1. Für alle θ < θ0 ist ϕ ein Neyman-Pearson-Test der Nullhypothese {θ} gegen die Alternative {θ0 }. Denn aufgrund der Monotonie von fθ,θ0 gilt für c̃ := fθ,θ0 (c): ( 0 falls Rθ,θ0 (x) < c̃, ϕ(x) = 1 falls Rθ,θ0 (x) > c̃. 2. Wir zeigen jetzt die Monotonie von Gϕ . Hierzu fixieren wir θ < θ0 ∈ Θ, setzen β := Eθ (ϕ) und betrachten den Test ψ mit ψ(x) := β für alle x ∈ Ω. Da ϕ ein gleichmäßig bester Test zum Niveau β der Nullhypothese {θ} gegen die Alternative {θ0 } ist, gilt Gϕ (θ0 ) ≥ Gψ (θ0 ) = β = Gϕ (θ). 42 3. Nach Konstruktion gilt Eθ0 (ϕ) = α. Wegen der Monotonie von Gϕ folgt hieraus Eθ (φ) ≤ α für alle θ ≤ θ0 , ϕ ist also ein Test zum Niveau α. Ferner gilt nach Schritt 1 für alle Tests ψ zum Niveau α und alle θ0 > θ0 , dass Gϕ (θ0 ) ≥ Gψ (θ0 ). ϕ ist also ein gleichmäßig bester Test zum Niveau α. 4. Die Eindeutigkeitsaussage folgt aus der Eindeutigkeitsaussage des Neyman-PearsonLemmas. Die Monotonie von Gψ ergibt sich dann auf dieselbe Weise wie die Monotonie von Gϕ . Bemerkung. Ein analoges Resultat gilt für Tests der Nullhypothese H0 : θ ≥ θ0 gegen die Alternative H1 : θ < θ0 , und zwar lautet der (im Wesentlichen eindeutige) optimale Test ϕ dann 0 falls T (x) > c, ϕ(x) := γ falls T (x) = c, 1 falls T (x) < c, wobei c ein α-Quantil der Verteilung von T unter Pθ0 ist und 0 falls Pθ0 (T = c) = 0, γ := α − Pθ0 (T < c) falls Pθ0 (T = c) > 0. P0 (T = c) Beispiel 14.5 (Gauß-Modell mit unbekanntem Erwartungswert, aber bekannter Varianz). Es seien X1 , . . . , Xn unabhängige identisch normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert θ ∈ R und bekannter Varianz σ 2 > 0. Getestet werden soll die Nullhypothese H0 : θ ≤ θ0 gegen die Alternative H1 : θ > θ0 . Wir verwenden das statistische Modell Ω = Rn , A = B(Rn ), µ = Lebesgue-Maß, Θ = R, ! n X (xi − θ)2 2 −n/2 pθ (x) = (2πσ ) exp − . 2σ 2 i=1 Wir wissen bereits, dass dies ein exponentielles Modell bzgl. T (x) = x̄ ist. Es gilt nämlich ! n nθ nθ2 1 X 2 n 2 pθ (x) = exp x̄ − 2 − 2 xi − log(2πσ ) . σ2 2σ 2σ 2 i=1 Es gibt folglich zu jedem α ∈ (0, 1) einen gleichmäßig besten Test ϕ, und dieser hat die Form ( 0 falls x̄ ≤ c ϕ(x) = 1 falls x̄ > c. Dabei ist c ∈ R so zu wählen, dass Eθ0 (ϕ) = α. Wir erhalten Eθ0 (ϕ) = Pθ0 (X̄ > c) X̄ − θ0 c − θ0 √ > √ = Pθ0 σ/ n σ/ n c − θ0 ! √ = 1−Φ =α σ/ n und damit σz1−α ! c = θ0 + √ . n Zusammenfassung: Der Test ϕ mit ( √ 0 falls x̄ ≤ θ0 + σz1−α / n, ϕ(x) = √ 1 falls x̄ > θ0 + σz1−α / n ist ein gleichmäßig bester Test zum Niveau α der Nullhypothese H0 : θ ≤ θ0 gegen die Alternative H1 : θ > θ0 (sog. einseitiger z-Test). 43 Bemerkung. Soll stattdessen die Nullhypothese H0 : θ ≥ θ0 gegen die Alternative θ < θ0 getestet werden, so ist der folgende Test ϕ optimal: ( √ 0 falls x̄ ≥ θ0 − σz1−α / n, ϕ(x) = √ 1 falls x̄ < θ0 − σz1−α / n. Beispiel 14.6 (Gauß-Modell mit bekanntem Erwartungswert, aber unbekannter Varianz). Nunmehr sei der Erwartungswert m bekannt und dafür die Varianz θ unbekannt. Getestet werden soll die Nullhypothese H0 : θ ≤ θ0 gegen die Alternative H1 : θ > θ0 . Wir verwenden das statistische Modell Ω = Rn , A = B(Rn ), µ = Lebesgue-Maß, Θ = R>0 , ! n 2 X (x − m) i pθ (x) = (2πθ)−n/2 exp − . 2θ i=1 Pn − m)2 ist. Es gilt nämlich ! n 1 X n 2 pθ (x) = exp − (xi − m) − log(2πθ) . 2θ 2 Dies ist ein exponentielles Modell bzgl. T (x) = i=1 (xi i=1 Es gibt folglich zu jedem α ∈ (0, 1) einen gleichmäßig besten Test ϕ, und dieser hat die Form ( Pn (xi − m)2 ≤ c 0 falls ϕ(x) = Pi=1 n 2 1 falls i=1 (xi − m) > c. Dabei ist c ∈ R so zu wählen, dass Eθ0 (ϕ) = α. Wir erhalten ! n X 2 Eθ0 (ϕ) = Pθ0 (Xi − m) > c i=1 = 1 − Pθ0 Da Pn Xi −m 2 i=1 √ θ0 n X c Xi − m 2 √ ≤ θ θ0 0 i=1 ! ! = α. unter Pθ0 Chiquadrat-verteilt mit n Freiheitsgraden ist, folgt c = θ0 χ2n,1−α , wobei χ2n,1−α das (1−α)-Quantil der Chiquadrat-Verteilung mit n Freiheitsgraden bezeichnet. Zusammenfassung: Der Test ϕ mit ( Pn 0 falls (xi − m)2 ≤ θ0 χ2n,1−α , ϕ(x) = Pni=1 2 2 1 falls i=1 (xi − m) > θ0 χn,1−α ist ein gleichmäßig bester Test zum Niveau α der Nullhypothese H0 : θ ≤ θ0 gegen die Alternative H1 : θ > θ0 . Bemerkung. Soll stattdessen die Nullhypothese H0 : θ ≥ θ0 gegen die Alternative θ < θ0 getestet werden, so ist der folgende Test ϕ optimal: ( Pn 0 falls (xi − m)2 ≥ θ0 χ2n,α , ϕ(x) = Pi=1 n 2 2 1 falls i=1 (xi − m) < θ0 χn,α . 44 15 Zweiseitige Tests in exponentiellen Modellen Wir betrachten jetzt zweiseitige Tests, d.h. Tests der Nullhypothese H0 : θ = θ0 gegen die Alternative H1 : θ 6= θ0 . In diesem Fall gibt es in der Regel keine gleichmäßig besten Tests. Sei nämlich ϕ ein gleichmäßig bester Test zum Niveau α ∈ (0, 1). Dann ist ϕ auch • ein gleichmäßig bester Test zum Niveau α von H0 : θ = θ0 gegen H1> : θ > θ0 , und • ein gleichmäßig bester Test zum Niveau α von H0 : θ = θ0 gegen H1< : θ < θ0 . Wenn das Modell wachsende Dichtequotienten hat, folgt wegen der Monotonie der Gütefunktion, dass Gϕ (θ) = α für alle θ ∈ θ gilt, d.h. ϕ ist nicht besser als der Test, der konstant α ist (bei dem ausschließlich randomisiert wird). Allerdings gibt es in vielen Situationen optimale Tests, wenn man sich auf unverfälschte Tests beschränkt. Definition 15.1. Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, Θ0 eine nichtleere echte Teilmenge von Θ, Θ1 := Θ \ Θ0 und α ∈ (0, 1). Ein Test ϕ von Θ0 gegen Θ1 heißt unverfälscht zum Niveau α, falls gilt: 1. ϕ ist ein Test zum Niveau α. 2. Für alle θ ∈ Θ1 gilt Gϕ (θ) ≥ α. Bemerkung. Ist ϕ unverfälscht, so gilt insbesondere Gϕ (θ0 ) ≥ Gϕ (θ) für alle θ ∈ Θ0 und alle θ0 ∈ Θ1 . Wenn die Nullhypothese falsch ist, ist die Wahrscheinlichkeit, sie zu verwerfen, also mindestens so groß, wie wenn sie richtig ist. Bemerkung. Jeder gleichmäßig beste Test ϕ zum Niveau α ist unverfälscht zum Niveau α. Beweis. Vergleiche ϕ mit dem trivialen Test ψ mit ψ(x) = α für alle x ∈ Ω. Sei jetzt (Ω, A, µ, (pθ )θ∈Θ ) ein exponentielles Modell bzgl. einer messbaren und nicht µ-f.ü. konstanten Abbildung T : Ω → R. Es sei also Θ ⊆ R ein offenes Intervall, und es gebe stetig differenzierbare Funktionen a, b : Θ → R und eine messbare Funktion c : Ω → R mit a0 (θ) 6= 0 für alle θ ∈ Θ und p(x, θ) = exp a(θ)T (x) − b(θ) + c(x) . Ferner sei θ0 ∈ Θ, und wir betrachten Tests der Nullhypothese H0 : θ = θ0 gegen die Alternative H1 : θ 6= θ0 . Lemma 15.2. In diesem Kontext gelten für jeden zum Niveau α unverfälschten Test ϕ: 1. Eθ0 (ϕ) = α, 2. Eθ0 (ϕT ) = αEθ0 (T ). Beweis. Wir verwenden die folgenden Aussagen über exponentielle Modelle: T 1. Für alle Funktionen S ∈ θ∈Θ L1 (Ω, A, Pθ ) (insbesondere für S = ϕ) ist die Funktion θ 7→ Eθ (S) differenzierbar, und es gilt ∂ log p d Eθ (S) = Eθ S . dθ ∂θ 2. Es gilt b0 (θ) = a0 (θ)Eθ (T ). 45 Sei nun ϕ ein unverfälschter Test zum Niveau α. Dann gelten Eθ0 (ϕ) ≤ α und Eθ (ϕ) ≥ α für alle θ 6= θ0 . Da die Funktion θ 7→ Eθ (ϕ) differenzierbar und folglich insbesondere stetig ist, folgt die erste Behauptung. Da außerdem die Funktion θ 7→ Eθ (ϕ) an der Stelle θ0 ihr Minimum annimmt, folgt d 0 = Eθ (ϕ) dθ θ=θ0 ∂ log p = Eθ0 ϕ ∂θ 0 = Eθ0 ϕ a (θ0 )T − b0 (θ0 ) und folglich (mit der ersten Behauptung) a0 (θ0 )Eθ0 (ϕT ) = b0 (θ0 )Eθ0 (ϕ) = a0 (θ0 )Eθ0 (T )α. Definition 15.3. Sei θ1 ∈ Θ \ {θ0 }. Ein Test ϕ : Ω → [0, 1] heißt modifizierter NeymanPearson-Test der Nullhypothese H0 : θ = θ0 gegen die Alternative H10 : θ = θ1 , falls es Zahlen κ, λ ∈ R gibt, so dass ( 0 falls pθ1 (x) < (κ + λT (x))pθ0 (x), ϕ(x) = 1 falls pθ1 (x) > (κ + λT (x))pθ0 (x). Satz 15.4. Sei ϕ : Ω → [0, 1] ein modifizierter Neyman-Pearson-Test mit Eθ0 (ϕ) = α und Eθ0 (ϕT ) = αEθ0 (T ). Dann gilt für alle Tests ψ : Ω → [0, 1] mit Eθ0 (ψ) = α und Eθ0 (ψT ) = αEθ0 (T ): Eθ1 (ϕ) ≥ Eθ1 (ψ). Beweis. Es gilt Z Eθ1 (ϕ − ψ) = (ϕ(x) − ψ(x)) pθ1 (x)µ(dx). Ω Für den Integranden gilt das Folgende: 1. Wenn ϕ(x) > ψ(x) ist, gilt ϕ(x) > 0 und folglich pθ1 (x) > (κ + λT (x))pθ0 (x). 2. Wenn ϕ(x) < ψ(x) ist, gilt ϕ(x) < 1 und folglich pθ1 (x) > (κ + λT (x))pθ0 (x). In beiden Fällen gilt (ϕ(x) − ψ(x))pθ1 (x) ≥ (ϕ(x) − ψ(x))(κ + λT (x))pθ0 (x) und damit Z Eθ1 (ϕ − ψ) ≥ (ϕ(x) − ψ(x)) (κ + λT (x))pθ0 (x)µ(dx) = κ Eθ0 (ϕ) − Eθ0 (ψ) + λ Eθ0 (ϕT ) − Eθ0 (ψT ) | {z } | {z } | {z } | {z } Ω =α =α =αEθ0 (T ) =αEθ0 (T ) = 0. Lemma 15.5. Es seien θ0 6= θ1 ∈ Θ. Ferner sei für c1 ≤ c2 ∈ R und γ1 , γ2 ∈ [0, 1] der Test ϕc1 ,c2 ,γ1 ,γ2 definiert durch 0 falls T (x) ∈ (c1 , c2 ) 1 falls T (x) ∈ / [c1 , c2 ], ϕc1 ,c2 ,γ1 ,γ2 (x) = γ1 falls T (x) = c1 , γ falls T (x) = c . 2 2 Dann ist ϕc1 ,c2 ,γ1 ,γ2 ein modifizierter Neyman-Pearson-Test der Nullhypothese H0 : θ = θ0 gegen die Alternative H10 : θ = θ1 . 46 Beweis. Gesucht sind Zahlen κ, λ ∈ R mit den Eigenschaften pθ1 (x) < (κ + λT (x))pθ0 (x) ⇒ T (x) ∈ (c1 , c2 ), (1) pθ1 (x) > (κ + λT (x))pθ0 (x) ⇒ T (x) ∈ / [c1 , c2 ]. (2) Es seien a := a(θ1 ) − a(θ0 ) und b := b(θ0 ) − b(θ1 ). Dann gelten {pθ1 (x) < (κ + λT (x))pθ0 (x)} = {exp (a(θ1 )T (x) − b(θ1 ) + c(x)) < (κ + λT (x)) exp (a(θ0 )T (x) − b(θ0 ) + c(x))} = {exp aT (x) + b < κ + λT (x)} und entsprechend {pθ1 (x) > (κ + λT (x))pθ0 (x)} = {exp aT (x) + b > κ + λT (x)}. Wir nehmen zunächst an, dass c1 < c2 . Dann definieren wir (κ, λ) als die eindeutige Lösung des linearen Gleichungssystems κ + λc1 = exp(ac1 + b) κ + λc2 = exp(ac2 + b). Zeichnung!!!! Wegen der strengen Konvexität der Funktion t 7→ exp(at + b) sind dann (1) und (2) erfüllt. Falls c1 = c2 gilt, definieren wir (κ, λ) als die eindeutige Lösung des linearen Gleichungssystems κ + λc1 = exp(ac1 + b) λ = a exp(ac1 + b). Zeichnung!!!! Auch in diesem Fall sind wegen der strengen Konvexität der Funktion t 7→ exp(at + b) (1) und (2) erfüllt. Satz 15.6. Sei θ0 ∈ Θ. Ferner seien c1 ≤ c2 ∈ R und γ1 , γ2 ∈ [0, 1]. Falls der Test ϕ = ϕc1 ,c2 ,γ1 ,γ2 die Bedingungen Eθ0 (ϕ) = α und Eθ0 (ϕT ) = αEθ0 (T ) erfüllt, ist ϕ ein gleichmäßig bester unverfälschter Test zum Niveau α der Nullhypothese H0 : θ = θ0 gegen die Alternative H1 : θ 6= θ0 . Das heißt, ϕ ist unverfälscht, und es gilt Eθ (ϕ) ≥ Eθ (ψ) für alle zum Niveau α unverfälschten Tests ψ und alle θ 6= θ0 . 47 Beweis. Nach dem letzten Lemma ist ϕ für jedes θ1 ∈ Θ \ {θ0 } ein modifizierter NeymanPearson-Test von H0 : θ = θ0 gegen H10 : θ = θ1 . Nach dem letzten Satz folgt Eθ1 (ϕ) ≥ Eθ1 (ψ) für alle Tests ψ mit Eθ0 (ψ) = α und Eθ0 (ψT ) = αEθ0 (T ), also insbesondere für alle zum Niveau α unverfälschten Tests. Es bleibt zu zeigen, dass ϕ selbst unverfälscht ist. Hierzu wenden wir die letzte Ungleichung auf den Test ψ mit ψ(x) = α für alle x ∈ Ω an und erhalten damit Eθ1 (ϕ) ≥ α. Da θ1 ∈ Θ \ {θ0 } beliebig ist, folgt die Behauptung. Satz 15.7 (Existenz eines besten unverfälschten Tests). Es gebe eine Zahl a0 ∈ R derart, dass die Verteilung von T unter Pθ0 symmetrisch bzgl. a0 ist, d.h. unter Pθ0 sei die Verteilung von T − a0 gleich der Verteilung von a0 − T . Sei k ein (1 − α/2)-Quantil dieser Verteilung und 0 falls Pθ0 (|T − a0 | = k) = 0, γ := α − Pθ0 (|T − a0 | > k) falls Pθ0 (|T − a0 | = k) > 0. P0 (|T − a0 | = k) Dann ist der folgende Test ϕ ein gleichmäßig bester unverfälschter Test zum Niveau α der Nullhypothese H0 : θ = θ0 gegen die Alternative H1 : θ 6= θ0 : 0 falls |T (x) − a0 | < k, ϕ(x) = 1 falls |T (x) − a0 | > k, γ falls |T (x) − a0 | = k. Beweis. Es gilt ϕ = ϕa0 −k,a0 +k,γ,γ . Zu zeigen ist daher, dass 1. Eθ0 (ϕ) = α und 2. Eθ0 (ϕT ) = αEθ0 (T ) gelten: 1. Wir nehmen zunächst an, dass Pθ0 (|T − a0 | = k) = 0 gilt. Dann gilt Eθ0 (ϕ) = Pθ0 (|T − a0 | > k) = 2Pθ0 (T > a0 + k) = 2 1 − Pθ0 T ≤ a0 + k {z } | =1−α/2 = α. Wenn Pθ0 (|T − a0 | = k) > 0, erhalten wir Eθ0 (ϕ) = Pθ0 (|T − a0 | > k) + γPθ0 (|T − a0 | = k) α − Pθ0 (|T − a0 | > k) Pθ0 (|T − a0 | = k) = Pθ0 (|T − a0 | > k) + P0 (|T − a0 | = k) = α. 2. Wir erhalten Eθ0 (ϕT ) = Eθ0 (ϕ(T − a0 )) + a0 Eθ0 (ϕ) = Eθ0 (ϕ(T − a0 )) + a0 α. Aus Symmetriegründen a0 = Eθ0 (T ). verschwindet 48 der erste Summand, und ferner gilt Beispiel 15.8 (Zweiseitiger z-Test). Es seien X1 , . . . , Xn unabhängige identisch normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert θ ∈ R und bekannter Varianz σ 2 > 0. Getestet werden soll auf dem Niveau α die Nullhypothese H0 : θ = θ0 gegen die Alternative H1 : θ 6= θ0 . Wir verwenden das statistische Modell Ω = Rn , A = B(Rn ), µ = Lebesgue-Maß, Θ = R, ! n X (xi − θ)2 2 −n/2 pθ (x) = (2πσ ) exp − . 2σ 2 i=1 Dies ist ein exponentielles Modell bzgl. T (x) = x̄. Es gilt nämlich pθ (x) = exp ! n nθ nθ2 1 X 2 n x̄ − 2 − 2 xi − log(2πσ 2 ) . σ2 2σ 2σ 2 i=1 Ferner ist die Verteilung von T unter Pθ0 , nämlich die Normalverteilung mit Erwartungswert θ0 und Varianz σ 2 /n, symmetrisch bzgl. θ0 . Folglich ist der letzte Satz anwendbar, und es folgt, dass der zweiseitige z-Test ( √ 0 falls |x̄ − θ0 | ≤ σz1−α/2 / n, ϕ(x) = √ 1 falls |x̄ − θ0 | > σz1−α/2 / n, ein gleichmäßig bester unverfälschter Test ist. 16 Optimalität bei mehrdimensionaler Parametermenge Wenn die Parametermenge Θ mehrdimensional ist, ist der Nachweis der Optimalität (ggf. in der Klasse der unverfälschten Tests) wesentlich schwieriger. Wir behandeln daher nur ein Beispiel. Beispiel 16.1 (Einseitiger Test für die Varianz im Gauß-Modell, wenn Erwartungswert und Varianz beide unbekannt sind). Es seien Ω = Rn , A = B(Rn ), µ = Lebesgue-Maß, Θ = R × R>0 , ! n 2 X (x − m) i pm,σ2 (x) = (2πσ 2 )−n/2 exp − . 2σ 2 i=1 Wir betrachten das folgende Testproblem für die Varianz: H0 : σ 2 ≤ σ02 gegen H1 : σ 2 > σ02 . Bei bekanntem Erwartungswert m lautet der gleichmäßig beste Test zum Niveau α ( Pn 0 falls (xi − m)2 ≤ σ02 χ2n,1−α , ϕ(x) = Pni=1 2 2 2 1 falls i=1 (xi − m) > σ0 χn,1−α . n 1 X (Xi −m)2 Chiquadratσ02 i=1 verteilt mit n Freiheitsgraden ist. Bei unbekanntem Erwartungswert ist es naheliegend, m durch den empirischen Mittelwert x̄ zu ersetzen und auszunutzen, dass, wenn σ 2 = σ02 n 1 X (n − 1) 2 S∗ Chiquadrat-verteilt mit n − 1 Freiheitsgraden ist. Diese gilt, 2 (Xi − X̄)2 = σ0 i=1 σ02 Idee führt auf den folgenden Test ϕ: ( Pn 0 falls (xi − x̄)2 ≤ σ02 χ2n−1,1−α , ϕ(x) = Pi=1 n 2 2 2 1 falls i=1 (xi − x̄) > σ0 χn−1,1−α . Bei der Herleitung haben wir ausgenutzt, dass, wenn σ 2 = σ02 gilt, Satz 16.2. Der Test ϕ ist ein gleichmäßig bester Test zum Niveau α der Nullhypothese H0 : σ 2 ≤ σ02 gegen die Alternative H1 : σ 2 > σ02 . 49 Beweis. Wir zeigen zuerst, dass ϕ ein Test zum Niveau α ist: Für σ 2 ≤ σ02 und m ∈ R gilt ! n X 2 2 2 Em,σ2 (ϕ) = Pm,σ2 (Xi − X̄) > σ0 χn−1,1−α i=1 ≤ Pm,σ2 n X ! (Xi − X̄)2 > σ 2 χ2n−1,1−α i=1 (n − 1) 2 S∗ ≤ χ2n−1,1−α σ02 = 1 − (1 − α) = α. = 1 − Pm,σ2 Jetzt zeigen wir, dass ϕ ein gleichmäßig bester Test zum Niveau α ist. Hierzu fixieren wir θ1 = (m1 , σ12 ) ∈ Θ1 . Für σ 2 > 0 definieren wir nun die Wahrscheinlichkeitsdichte n−1 2 (m1 − x̄)2 2 , p̄σ2 (x) := exp − s − b(σ ) − 2σ 2 ∗ 2σ12 /n wobei b(σ 2 ) so gewählt wird, dass p̄σ2 tatsächlich eine Wahrscheinlichkeitsdichte ist, und betrachten das statistische Modell (Rn , B(Rn ), Lebesgue-Maß, (p̄σ2 )σ2 >0 ). Dann gilt: 1. Das Modell (Rn , B(Rn ), Lebesgue-Maß, (p̄σ2 )σ2 >0 ) ist exponentiell bzgl. der Abbildung T (x) = s2∗ , und die Funktion a(σ 2 ) = −(n − 1)/σ 2 ist wachsend. 2. Für alle x ∈ Rn und alle 0 < σ 2 ≤ σ12 gilt Z pm,σ2 (x) Nm1 ,(σ12 −σ2 )/n (dm). p̄σ2 = R Insbesondere gilt für σ 2 = σ12 p̄σ12 (x) = pm,σ12 (x). (Nachrechnen mühselig, aber elementar) Wir betrachten nun in dem Modell (Rn , B(Rn ), Lebesgue-Maß, (p̄σ2 )σ2 >0 ) das Testproblem H̄0 : σ 2 ≤ σ02 gegen H̄1 : σ 2 > σ02 . Sei ϕ̄ der gleichmäßig beste Test zum Niveau α, gegeben durch ( 0 falls T (x) = s2∗ ≤ c, ϕ̄(x) = 1 falls s2∗ > c, wobei c ein (1 − α)-Quantil der Verteilung von T = S∗2 unter P̄σ02 ist, d.h. P̄σ02 S∗2 ≤ c = 1 − α. Wir erhalten P̄σ02 S∗2 Z Pm,σ02 (S∗2 ≤ c)Nm1 ,(σ12 −σ2 )/n (dm) Z (n − 1)S∗2 (n − 1)c = Pm,σ2 ≤ Nm1 ,(σ12 −σ2 )/n (dm). σ2 σ02 R ≤c = R Unter Pm,σ02 ist (n − 1)S∗2 /σ02 Chiquadrat-verteilt mit n − 1 Freiheitsgraden. Folglich gilt c= σ02 2 χ n − 1 n−1,1−α und damit ϕ̄ = ϕ. 50 Sei nun ψ ein beliebiger Test von H0 gegen H1 zum Niveau α. Fassen wir ψ als Test von H̄0 gegen H̄1 auf, so ergibt sich Z Em,σ02 (ψ)Nm1 ,(σ12 −σ2 )/n (dm) ≤ α, Ēσ02 (ψ) = R d.h. ψ hat auch als Test von H̄0 gegen H̄1 das Niveau α. Da ϕ für das Testproblem H̄0 gegen H̄1 optimal ist, folgt Em1 ,σ12 (ϕ) = Ēσ12 (ϕ) ≥ Ēσ12 (ψ) = Em1 ,σ12 (ψ). Da m1 ∈ R und σ12 > σ02 beliebig gewählt wurden, folgt die Behauptung. Gilt das analoge Resultat auch für das Testproblem H0 : σ 2 ≥ σ02 ? Das heißt, ist der folgende Test ϕ ein gleichmäßig bester Test zum Niveau α von H0 gegen H1 ? ( Pn 0 falls (xi − x̄)2 ≥ σ02 χ2n−1,α , ϕ(x) = Pi=1 n 2 2 2 1 falls i=1 (xi − x̄) < σ0 χn−1,α . Bemerkenswerterweise lautet die Antwort Nein“. Für dieses Testproblem gibt es keinen ” gleichmäßig besten Test. Für m0 ∈ R sei nämlich ϕm0 der in dem Fall, dass der Erwartungswert m bekannt und gleich m0 ist, optimale Test, also ( Pn (xi − m0 )2 ≥ σ02 χ2n,α , 0 falls ϕm0 (x) = Pi=1 n 0 2 2 2 1 falls i=1 (xi − m ) < σ0 χn,α . Der Test ϕm0 ist ein Test zum Niveau α, denn für alle m ∈ R und alle σ 2 ≥ σ02 gilt ! n X 0 2 2 2 Em,σ2 (ϕm0 ) = Pm,σ2 (Xi − m ) < σ0 χn,α i=1 ≤ Pm,σ2 n X ! (Xi − m)2 < σ02 χ2n,α i=1 = Pm,σ2 ≤ Pm,σ2 n X Xi − m 2 σ2 < 02 χ2n,α σ σ i=1 ! n X Xi − m 2 2 < χn,α σ ! i=1 = α. Nun wissen wir aber bereits, dass unter allen Tests zum Niveau α der Test ϕm0 an allen Stellen (σ 2 , m0 ) mit σ 2 < σ02 maximale Macht besitzt. Das heißt, an verschiedenen Stellen haben verschiedene Tests zum Niveau α maximale Macht. Es gibt daher keinen gleichmäßig besten Test zum Niveau α. Übung. Was passiert, wenn man dieses Argument auf den vorher behandelten Fall H0 : σ 2 ≤ σ02 gegen H1 : σ 2 > σ02 anwendet? Man kann allerdings zeigen, das ϕ ein gleichmäßig bester unverfälschter Test zum Niveau α ist. 51 17 Nichtparametrische Statistik und der Satz von GlivenkoCantelli Bisher haben wir meist parametrische Modelle betrachtet, d.h. Modelle mit Θ ⊆ Rd . Dies ist dann sinnvoll, wenn der Typ der zugrundeliegenden Verteilung bekannt ist (z.B. Normalverteilung) und nur eine oder mehrere Kenngrößen unbekannt sind (z.B. der Erwartungswert und/oder die Varianz). Wenn die Voraussetzung Θ ⊆ Rd nicht erfüllt ist, spricht man von einem nichtparametrischen Modell. Beispiel 17.1. Es seien X1 , . . . , Xn unabhängige und identisch verteilte reellwertige Zufallsvariablen, deren Verteilung völlig unbekannt sei. Zur Modellierung eignet sich das statistische Modell (Rn , B(Rn ), (Pµ )µ∈Θ ), wobei Θ die Menge aller Wahrscheinlichkeitsmaße auf (R, B(R)) ist und Pµ := µ⊗n . Das Ziel ist dann, aus der Realisierung x1 , . . . , xn von X1 , . . . , Xn auf das zugrundeliegende Wahrscheinlichkeitsmaß µ zu schließen. Satz 17.2 (Glivenko-Cantelli). Sei (Xn )n∈N eine Folge unabhängiger identisch verteilter reellwertiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Wir bezeichnen mit F die Verteilungsfunktion von X1 , definiert durch F (t) := P(X1 ≤ t), und mit Fn die empirische Verteilungsfunktion der ersten n Variablen X1 , . . . , Xn , d.h. n Fn (t) := 1X 1{Xi ≤t} . n i=1 P (Fn ist die Verteilungsfunktion der empirischen Verteilung µn := n1 ni=1 δXi . Man beachte, dass Fn eine zufällige Funktion und µn ein zufälliges Maß ist.) Dann gilt sup |Fn (t) − F (t)| → 0 P-f.s. t∈R Bemerkung. Der Satz besagt, dass fast sicher die Folge der empirischen Verteilungsfunktionen gleichmäßig gegen die theoretische Verteilungsfunktion konvergiert, so dass die Folge (Fn )n∈N eine konsistente Folge von Schätzern für F ist. Aus diesem Grund wird der Satz von GlivenkoCantelli manchmal als Hauptsatz der mathematischen Statistik“ bezeichnet. ” Beweis. Für jedes feste t ∈ R gilt nach dem starken Gesetz der großen Zahlen n Fn (t) = 1X 1{Xi ≤t} n i=1 → E(1{X1 ≤t} ) = P(X1 ≤ t) = F (t) P-f.s. (n → ∞) und n Fn (t− ) = 1X 1{Xi <t} n i=1 → E(1{X1 <t} ) = P(X1 < t) = F (t− ) P-f.s. (n → ∞) Zu jedem k ∈ N definieren wir die Punkte tkj ∈ R̄, j = 0, . . . , k, durch tkj := inf{t ∈ R | F (t) ≥ j/k} (mit der Konvention F (−∞) := 0, F (+∞) := 1). Sei nun Rnk := max |Fn (tkj ) − F (tkj )| + |Fn (tkj− ) − F (tkj− )| . j=1,...,k−1 52 Dann gibt es eine Nullmenge N ∈ A derart, dass für alle ω ∈ Ω \ N und alle k ∈ N gilt: lim Rnk (ω) = 0. n→∞ Wir fixieren jetzt ω ∈ Ω \ N . Zu gegebenem ε > 0 wählen wir k ≥ 2/ε. Dann gibt es für jedes t ∈ R genau ein j ∈ {1, . . . , k} derart, dass t ∈ [tj−1 , tj ). Es folgt einerseits Fn (t) ≤ Fn (tkj− ) ≤ F (tkj− ) + Rnk 1 ≤ F (t) + + Rnk , k andererseits Fn (t) ≥ Fn (tkj−1 ) ≥ F (tkj−1 ) − Rnk 1 ≥ F (t) − − Rnk k und insgesamt |Fn (t) − F (t)| ≤ Rnk + 1 ≤ ε, k |{z} ≤ε/2 wenn n groß genug. Bemerkung. Der Satz von Glivenko-Cantelli sagt nichts über die Frage der Konvergenzgeschwindigkeit. Diese Frage wird durch den folgenden Satz beantwortet: Satz 17.3 (Quantitative Form des Satzes von Glivenko-Cantelli). Für alle ε > 0 und alle n ∈ N gilt ! r 8 log(n + 1) P kFn − F k∞ > ε + ≤ exp(−2nε2 ). n Bemerkung. 1. Für alle n ∈ N mit p 8 log(n + 1)/n ≤ ε folgt, dass r P (kFn − F k∞ > 2ε) ≤ P kFn − F k∞ > ε + 8 log(n + 1) n ! ≤ exp(−2nε2 ). 2. Hieraus wiederum lässt sich die übliche Form des Satzes P von Glivenko-Cantelli mit Hilfe 2 des Borel-Cantelli-Lemmas ableiten: Für alle ε > 0 ist ∞ n=1 exp(−2nε ) endlich, und folglich gilt P (kFn − F k∞ > 2ε für unendlich viele n) = 0. Diese Aussage bedeutet aber gerade fast sichere Konvergenz von kFn (t)−F (t)k∞ gegen 0. 18 Beweis der quantitativen Form des Satzes von GlivenkoCantelli Für den Beweis der quantitativen Version des Satzes von Glivenko-Cantelli benötigen wir eine Reihe von Lemmata: 53 Lemma 18.1 (Lemma von Hoeffding). Es seien a < 0 < b und X eine Zufallsvariable mit Werten in [a, b] und E(X) = 0. Dann gilt für alle s ≥ 0 2 s (b − a)2 sX . E(e ) ≤ exp 8 Beweis. Die Funktion x 7→ esx ist konvex. Folglich gilt für alle λ ∈ [0, 1]: exp s λa + (1 − λ)b ≤ λesa + (1 − λ)esb . Wir wählen jetzt λ= b−X . b−a Dann gelten 1−λ= X −a b−a und λa + (1 − λ)b = X. Es folgt b − X sa X − a sb e + e b−a b−a esX ≤ und damit besa − aesb b− a b a s(b−a) sa = e − e b−a b−a a a s(b−a) sa = e 1+ − e . b−a b−a E(esX ) ≤ Es seien nun θ := − a >0 b−a und u := s(b − a) ≥ 0. Dann gilt sa = −sθ(b − a) = −θu und folglich E(esX ) ≤ e−θu (1 − θ + θeu ). Sei jetzt für u ≥ 0 ϕ(u) := −θu + log(1 − θ + θeu ). Dies ist wohldefiniert, denn für θ > 0 und u ≥ 0 gilt 1 − θ + θeu ≥ 1 > 0. Einsetzen ergibt E(esX ) ≤ eϕ(u) . Für die Funktion ϕ gelten ϕ(0) = 0, θeu , ϕ0 (0) = 0, 1 − θ + θeu (1 − θ + θeu )θeu − θ2 e2u (1 − θ + θeu )2 2 θeu θeu 1 − ≤ . u u 1 − θ + θe 1 − θ + θe 4 ϕ0 (u) = −θ + ϕ00 (u) = = 54 Nach der Taylor-Formel gibt es für jedes u ≥ 0 ein ξ ∈ [0, u] mit 1 u2 ϕ(u) = ϕ(0) + ϕ0 (0) u + ϕ00 (ξ) u2 ≤ . |{z} | {z } 2 | {z } 8 =0 =0 ≤1/4 Es folgt sX E(e )≤e u2 /8 = exp s2 (b − a)2 . 8 Lemma 18.2 (Ungleichung von McDiarmid). Es seien X1 , . . . , Xn unabhängige reellwertige Zufallsvariablen und ϕ : Rn → R eine messbare Abbildung mit folgender Eigenschaft: Für alle i ∈ {1, . . . , n} gebe es eine Zahl ci > 0 derart, dass für alle (x1 , . . . , xn ) ∈ Rn und alle x0i ∈ R gilt: ϕ(x1 , . . . , xn ) − ϕ(x1 , . . . , xi−1 , x0i , xi+1 , . . . , xn ) ≤ ci . Dann gilt für alle t ≥ 0 2t2 P ϕ(X1 , . . . , Xn ) − E(ϕ(X1 , . . . , . . . , Xn )) ≥ t ≤ exp − Pn 2 . i=1 ci Beweis (nur für n = 1). Sei Y := ϕ(X1 ) − E(ϕ(X1 )). Dann gelten E(Y ) = 0 und sup Y − inf Y ≤ c1 , und mit dem Lemma von Hoeffding folgt für alle s ≥ 0 2 2 s c1 sY E(e ) ≤ exp . 8 Es folgt P ϕ(X1 ) − E(ϕ(X1 ) ≥ t = P(Y ≥ t) ≤ e−st E(esY ) s2 c21 . ≤ exp −st + 8 Dies wird minimal für s = 4t/c21 , und die Behauptung folgt. Bemerkung. Im allgemeinen Fall betrachte man Yi := E ϕ(X1 , . . . , Xn ) | X1 , . . . , Xi − E ϕ(X1 , . . . , Xn ) | X1 , . . . , Xi−1 . Dann gelten E(Yi | X1 , . . . , Xi−1 ) = 0 und sup Yi − inf Yi ≤ ci , und es folgt !! n X −st P ϕ(X1 , . . . , Xn ) − E(ϕ(X1 , . . . , Xn )) ≥ t ≤ e E exp s Yi i=1 −st = e E n Y ! exp (sYi ) i=1 = e−st n Y i=1 n Y E (exp (sYi ) | X1 , . . . , Xi−1 ) s2 c2i ≤ e exp 8 i=1 Pn 2 2 s i=1 ci = exp −st + . 8 −st Dies wird minimal für s = 4t/ Pn 2 i=1 ci , und die Behauptung folgt. 55 n (0) die Kugel mit Radius R um 0 in Rn , und sei A Lemma 18.3 (Lemma von Massart). Sei BR n (0). Seien ferner σ , . . . , σ unabhängige Zufallsvariablen mit eine endliche Teilmenge von BR 1 n P(σi = 1) = P(σi = −1) = 1/2. Dann gilt ! n X p E max σi ai ≤ R 2 log(#A). a∈A i=1 Beweis. Sei Y := max n X a∈A σi ai . i=1 Dann gilt für alle s > 0 E(esY ) = E exp s max a∈A = E max exp s a∈A X ≤ E = exp s !! σi ai n X !! σi ai ! exp (sσi ai ) i=1 a∈A = σi ai i=1 n Y E i=1 n X !! i=1 a∈A X n X n XY E (exp (sσi ai )) . a∈A i=1 Die Zufallsvariable σi ai hat Erwartungswert 0 und nimmt nur Werte zwischen −ai und ai an. Folglich gilt nach dem Lemma von Hoeffding 2 2 2 s ai s (2ai )2 = exp E (exp (sσi ai )) ≤ exp 8 2 und damit sY E e n XY s2 a2i ≤ exp 2 a∈A i=1 P X s2 ni=1 a2i = exp 2 a∈A 2 2 s R ≤ (#A) exp . 2 Ferner gilt nach der Jensenschen Ungleichung E(esY ) ≥ exp(sE(Y )) und folglich E(Y ) ≤ ≤ Dies wird minimal für s = 1 log E(esY ) s log(#A) sR2 + . s 2 p 2 log(#A)/R, und die Behauptung folgt. 56 Beweis der quantitativen Form des Satzes von Glivenko-Cantelli. Zu zeigen ist: Für alle ε > 0 und alle n ∈ N gilt ! r 8 log(n + 1) P kFn − F k∞ > ε + ≤ exp(−2nε2 ). n Für x1 , . . . , xn ∈ R sei n 1 X f (x1 , . . . , xn ) := sup 1{xi ≤t} − F (t). n t∈R i=1 Für i ∈ {1, . . . , n} und x0i ∈ R gilt |f (x1 , . . . , xn ) − f (x1 , . . . , xi−1 , x0i , xi+1 , . . . , xn )| ≤ 1 . n Wir können daher die Ungleichung von McDiarmid anwenden und erhalten P sup |Fn (t) − F (t)| − E sup |Fn (t) − F (t)| ≥ ε ≤ exp −2ε2 n t∈R t∈R Zu zeigen bleibt daher, dass r 8 log(n + 1) E sup |Fn (t) − F (t)| ≤ n t∈R gilt. Hierzu seien X10 , . . . , Xn0 unabhängige Kopien von X1 , . . . , Xn , und σ1 , . . . , σn seien von den Zufallsvariablen Xi und Xi0 unabhängige Zufallsvariablen mit P(σi = 1) = P(σi = −1) = 1/2. Für alle x1 , . . . , xn ∈ R gilt n n n 1 X 1 X X 1 sup 1{xi ≤t} − F (t) = sup 1{xi ≤t} − E(1{Xi0 ≤t} ) n t∈R n i=1 t∈R n i=1 i=1 ! n X 1 E sup 1{xi ≤t} − 1{Xi0 ≤t} ) . ≤ n t∈R i=1 Durch Wahl von xi = Xi folgt hieraus E sup |Fn (t) − F (t)| ≤ t∈R = ≤ = ! n X 1 E sup 1{Xi ≤t} − 1{Xi0 ≤t} n t∈R i=1 ! n X 1 E sup σi 1{Xi ≤t} − 1{Xi0 ≤t} n t∈R i=1 n ! X 2 σi 1{Xi ≤t} E sup n t∈R i=1 ! n X 2 E sup σi 1{Yi ≤t} , n t∈R i=1 wobei wir mit Y1 ≤ . . . ≤ Yn die der Größe nach geordneten Variablen Xi bezeichnen. Den letztgenannten Erwartungswert schätzen wir jetzt dadurch ab, dass wir zunächst für feste Werte y1 ≤ . . . ≤ yn den Erwartungswert ! n X E sup σi 1{yi ≤t} t∈R i=1 57 mit Hilfe des Lemmas von Massart abschätzen und anschließend yi = Yi setzen. Sei dazu A ⊆ Rn definiert durch A := {(1{y1 ≤t} , . . . , 1{yn ≤t} ) | t ∈ R}. Wegen y1 ≤ . . . ≤ yn gilt A ⊆ {(0, . . . , 0), (1, 0, . . . , 0), . . . , (1, . . . , 1)}. n (0). Das Lemma von Massart liefert daher Hieraus folgen #(A) ≤ n + 1 und A ⊂ B√ n ! n X p √ p E sup σi 1{yi ≤t} ≤ n 2 log(n + 1) = 2n log(n + 1), t∈R i=1 und es folgt r 2p 8 log(n + 1) E sup |Fn (t) − F (t)| ≤ 2n log(n + 1) = . n n t∈R 19 Der Kolmogorov-Smirnov-Test Es seien X1 , . . . , Xn unabhängige identische verteilte reellwertige Zufallsvariablen mit unbekannter Verteilungsfunktion F . Zu einer gegebenen Verteilungsfunktion F0 soll die Nullhypothese H0 : F = F0 gegen die Alternative H1 : F 6= F0 getestet werden. Wie bisher bezeichnen wir mit Fn die empirische Verteilungsfunktion der Variablen X1 , . . . , Xn , n 1X Fn (t) = 1{Xi ≤t} . n i=1 In Anbetracht des Satzes von Glivenko-Cantelli liegt es nahe, die Testentscheidung von der Größe Dn := sup |Fn (t) − F0 (t)| t∈R abhängig zu machen. Die praktische Durchführbarkeit dieser Idee beruht auf dem folgenden Satz: Satz 19.1. Wenn F0 stetig ist, hängt die Verteilung von Dn unter H0 nicht von F0 ab. Man bezeichnet diese Verteilung als Kolmogorov-Smirnov-Verteilung mit n Freiheitsgraden. Korollar 19.2. Sei F0 stetig und Kn,1−α das (1 − α)-Quantil der Kolmogorov-SmirnovVerteilung mit n Freiheitsgraden. Dann hat der folgende Test ϕ von H0 : F = F0 gegen H1 : F 6= F0 das effektive Niveau α: ( 0 wenn Dn ≤ Kn,1−α , ϕ(x1 , . . . , xn ) = 1 wenn Dn > Kn,1−α . Dieser Test heißt Kolmogorov-Smirnov-Test. Für den Beweis von Satz 19.1 benötigen wir das folgende Lemma: Lemma 19.3. Sei F eine beliebige (nicht unbedingt stetige) Verteilungsfunktion, und für F (λ) das untere λ-Quantil von F , definiert durch λ ∈ (0, 1) sei q− F q− (λ) := inf{s ∈ R | F (s) ≥ λ}. Ferner sei U eine im Intervall (0, 1) gleichverteilte Zufallsvariable. Dann ist q− (U ) gemäß F verteilt. 58 Beweis. Nach Konstruktion gilt für alle λ ∈ (0, 1) und alle t ∈ R F q− (λ) ≤ t ⇐⇒ λ ≤ F (t). Hieraus folgt F P q− (U ) ≤ t = P(U ≤ F (t)) = F (t). Beweis von Satz 19.1. Die Verteilung von Dn hängt nur von der gemeinsamen Verteilung der Variablen X1 , . . . , Xn ab. Wir können daher ohne Beschränkung der Allgemeinheit annehmen, F0 dass Xi = q− (Ui ) für unabhängige in (0, 1) gleichverteilte Zufallsvariablen U1 , . . . , Un . Dann gilt n 1X 1{Xi ≤t} n Fn (t) = i=1 = n 1X n 1 qF0 (U )≤to i n − = n 1X 1{Ui ≤F0 (t)} n i=1 i=1 und folglich Dn = sup |Fn (t) − F0 (t)| t∈R n 1 X 1{Ui ≤F0 (t)} − F0 (t) . = sup t∈R n i=1 Da nach Voraussetzung F0 stetig ist, folgt n 1 X Dn = sup 1{Ui ≤y} − y . y∈[0,1] n i=1 Da in dieser Darstellung F0 nicht auftritt, folgt die Behauptung. 20 Der Chiquadrat-Anpassungstest Es seien X1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit Werten in einem beliebigen Messraum (E, B). Die Verteilung P dieser Zufallsvariablen sei unbekannt; getestet werden soll die Nullhypothese P = P0 gegen die Alternative H1 : P 6= P0 . Für die Anwendung des Chiquadrat-Anpassungstests zerlegt man E in r paarweise disjunkte messbare Teilmengen E1 , . . . , Er (sog. Klassen) mit pj := P0 (Ej ) > 0 für alle j ∈ {1, . . . , r} und arbeitet nicht unmittelbar mit den beobachteten Werten xi , sondern mit den Klassenstärken Zjn (x1 , . . . , xn ) := #{i ∈ {1, . . . , n} | xi ∈ Ej }. Wenn die Nullhypothese zutrifft, wird man für große n erwarten, dass Zjn ≈ npj für alle j ∈ {1, . . . , r}. Beim Chiquadrat-Anpassungstest wird die Testentscheidung von der Größe Tn (x1 , . . . , xn ) := r X (Zjn (x1 , . . . , xn ) − npj )2 npj j=1 abhängig gemacht. 59 Satz 20.1 (Pearson). Unter H0 konvergiert die Verteilung von Tn = Tn (X1 , . . . , Xn ) schwach gegen die Chiquadrat-Verteilung mit r − 1 Freiheitsgraden. Beweis. Der entscheidende Punkt ist, dass Zjn eine Summe unabhängiger und identisch verteilter Zufallsvariablen ist. Es gilt nämlich Zjn = n X 1{Xi ∈Ej } . i=1 n ) Man kann daher den zentralen Grenzwertsatz P auf den Zufallsvektor Z n := (Z1n , . . . , Zr−1 r anwenden. (Zrn kann außer acht bleiben wegen j=1 Zjn = n.) Hierzu benötigen wir E0 (Zjn ), Var0 (Zjn ) und Cov0 (Zjn , Zkn ) für j 6= k. Wir erhalten E0 (Zjn ) = nP0 (X1 ∈ Ej ) = npj , Var0 (Zjn ) = n Var0 (1{X1 ∈Ej } ) = npj (1 − pj ), Cov0 (Zjn , Zkn ) = n Cov(1{X1 ∈Ej } , 1{X1 ∈Ek } ) = −npj pk (j 6= k). Wir betrachten jetzt den Zufallsvektor n n − np Zr−1 Z1 − np1 r−1 n √ √ ,..., Z̃ := n n Nach dem zentralen Grenzwertsatz konvergiert die (r − 1)-dimensionale Normalverteilung mit K = (κij )r−1 i,j=1 , wobei ( pj (1 − pj ) κjk = −pj pk Z̃ n für n → ∞ in Verteilung gegen Erwartungswert 0 und Kovarianzmatrix falls j = k, falls j = 6 k. Die Matrix K ist invertierbar und für ihre Inverse A = K −1 = (ajk )r−1 j,k=1 gilt ajk ( 1/pj + 1/pr = 1/pr falls j = k, falls j = 6 k. Es gelten nämlich r−1 X κjk akj = κjj ajj + k=1 X κjk akj k6=j X 1 1 1 + − pj pk = pj (1 − pj ) pj pr pr k6=j X pj 1 − pj − pk = 1 − pj + pr k6=j | {z } =pr = 1, 60 und für l 6= j r−1 X X κjk akl = κjj ajl + κjl all + κjk akj k∈{j,l} / k=1 X 1 1 1 1 − pj pk = pj (1 − pj ) − pj pl + pr pl pr pr k∈{j,l} / X pj = pk − pj 1 − pj − pl − pr k∈{j,l} / = 0. Es folgt, dass A1/2 Z̃ n in Verteilung gegen die (r − 1)-dimensionale Standardnormalverteilung konvergiert, also gegen die gemeinsame Verteilung von n − 1 unabhängigen eindimensionalen standardnormalverteilten Zufallsvariablen. Hieraus wiederum folgt, dass |A1/2 Z̃ n |2 in Verteilung gegen die Chiquadrat-Verteilung mit r − 1 Freiheitsgraden konvergiert. Ferner gilt |A1/2 Z̃ n |2 = (Z̃ n )T AZ̃ n r−1 X = ajk Z̃jn Z̃kn j,k=1 = n r−1 X r−1 X Zj − npj 2 X 1 Zjn − npj Zkn − npk 1 1 √ √ √ + + pj pr pr n n n j=1 k6=j j=1 r−1 X 1 pj Zjn 2 r−1 X 1 Zjn − npj Zkn − npk √ √ pr n n j=1 j,k=1 2 r−1 r−1 X X (Zjn − npj )2 1 = + (Zjn − npj ) npj npr = − npj √ n + j=1 = = r−1 X j=1 r X j=1 j=1 (Zjn − npj npj )2 + 1 (n − Zrn − n(1 − pr ))2 npr (Zjn − npj )2 npj = Tn . Definition 20.2 (Chiquadrat-Anpassungstest). Der Chiquadrat-Anpassungstest zum asymptotischen effektiven Niveau α ist definiert durch ( 0 falls Tn (x1 , . . . , xn ) ≤ χ2r−1,1−α , ϕ(x1 , . . . , xn ) := 1 falls Tn (x1 , . . . , xn ) > χ2r−1,1−α . Bemerkung. Der Chiquadrat-Anpassungstest ist ein asymptotischer Test in dem Sinne, dass sich eine allgemeine Aussage über sein effektives Niveau nur im Limes n → ∞ treffen lässt. Er sollte daher nur verwendet werden, wenn n groß genug ist. Eine oft verwendete Faustregel ist, dass npj ≥ 5 für alle j ∈ {1, . . . , r} gelten sollte. 21 21.1 Regressionsanalyse Einfache lineare Regression Beispiel 21.1 (Wärmeausdehnung eines Metallstabs). Aus theoretischen Überlegungen sei bekannt, dass die Länge X eines Metallstabs (innerhalb eines bestimmten Bereichs) linear von 61 der Temperatur t abhängt, d.h. dass X = γ0 + γ1 t gilt, wobei die Koeffizienten γ0 , γ1 ∈ R unbekannt sind und bestimmt werden sollen. Könnte man X exakt messen, so könnte man γ0 und γ1 durch Messung von X bei zwei verschiedenen Temperaturen t1 und t2 bestimmen. Falls aber die Messung von X fehlerbehaftet ist, bietet es sich an, n Messungen (bei Temperaturen t1 , . . . , tn ) durchzuführen. Dies führt auf eine lineare Regressionsgleichung der Form √ Xk = γ0 + γ1 tk + vεk , k = 1, . . . , n. Hierbei bezeichnet v ≥ 0 die (ebenfalls unbekannte) Varianz der Messfehler, und die εk sind paarweise unkorrelierte Zufallsvariablen mit E(εk ) = 0 und Var(εk ) = 1. In vektoriellen Form lautet die Regressionsgleichung √ X = γ0 1 + γ1 t + vε, wobei X = (X1 , . . . , Xn )T , 1 = (1, . . . , 1)T , t = (t1 , . . . , tn )T . Bemerkung. Die Variablen haben die folgenden Eigenschaften: • t ∈ Rn ist vorgegeben und damit deterministisch und bekannt. • ε ∈ Rn ist zufällig, aber nicht beobachtbar. Die Verteilung von ε wird als bekannt angenommen. (Meist nimmt man an, dass die Variablen εk unabhängig und normalverteilt sind.) • γ = (γ0 , γ1 ) ∈ R2 und v ∈ R+ sind unbekannte Parameter. • X ∈ Rn ist zufällig und beobachtbar. Die Verteilung von X ist durch die Verteilung von ε sowie die Werte der Parameter γ und v eindeutig bestimmt. Bezeichnen wir diese Verteilung mit Pγ,v , so erhalten wir das statistische Modell (Rn , B(Rn ), (Pγ,v )γ∈R2 ,v≥0 ). In der Regressionsanalyse geht es (wie auch sonst in der Statistik) vor allem um die beiden folgenden Probleme: 1. Schätzung der unbekannten Parameter γ und v, 2. Tests von Hypothesen über diese Parameter. Der übliche Ansatz zur Schätzung von γ ist die von Gauß und Legendre um 1800 entwickelte Methode der kleinsten Quadrate: Definition 21.2. Ein Schätzer γ̂ = (γ̂0 , γ̂1 ) für γ = (γ0 , γ1 ) heißt Kleinste-Quadrate-Schäzer, wenn er die Summe der quadratischen Fehler F (γ0 , γ1 ) := n X (Xk − (γ0 + γ1 tk ))2 k=1 minimiert. Zeichnung!!!! 62 Satz 21.3. 1. Wenn die Zahlen tk nicht alle gleich sind, gibt es genau einen Kleinste-QuadrateSchätzer γ̂ = (γ̂0 , γ̂1 ), und zwar γ̂0 = X̄ − t̄C(t, X) , V (t) γ̂1 = C(t, X) , V (t) wobei n X̄ = n 1X Xk , n t̄ = k=1 n 1X tk , n V (t) = k=1 n 1X 2 2 tk −t̄ , n C(t, X) = k=1 1X tk Xk −t̄X̄. n k=1 (Es gilt V (t) 6= 0 genau dann, wenn die Zahlen tk nicht alle gleich sind.) 2. Die Schätzer γ̂0 und γ̂1 sind beide erwartungstreu. Beweis. 1. Die notwendigen Bedingungen für das Vorliegen eines Minimierers lauten n X ∂F ! = −2 (Xk − γ0 − γ1 tk ) = 0, ∂γ0 k=1 ∂F ∂γ1 = −2 n X ! tk (Xk − γ0 − γ1 tk ) = 0. k=1 Anders formuliert, γ0 + t̄γ1 = X̄, n n 1X 1X 2 t k γ1 = tk Xk . t̄γ0 + n n k=1 k=1 Wenn V (t) 6= 0 ist, hat dieses System genau eine Lösung, nämlich die oben angegebene. Wegen F (γ0 , γ1 ) → ∞ für kγk → ∞ handelt es sich dabei tatsächlich um den eindeutigen Minimierer. 2. Aus der Gleichung Xk = γ0 + γ1 tk + √ vεk folgt Eγ,v (Xk ) = γ0 + γ1 tk und folglich Eγ,v (X̄) = γ0 + γ1 t̄, n 1X Eγ,v (C(t, X)) = tk (γ0 + γ1 tk ) − t̄(γ0 + γ1 t̄) n k=1 n = γ0 t̄ + γ1 1X 2 tk − γ0 t̄ − γ1 t̄2 n k=1 = γ1 V (t), Eγ,v (γ̂0 ) = γ0 + γ1 t̄ − t̄γ1 V (t) V (t) = γ0 , Eγ,v (γ̂1 ) = γ1 . Bemerkung. Der Vektor γ̂0 1 + γ̂1 t ist die orthogonale Projektion des Beobachtungsvektors X ∈ Rn auf den von den Vektoren 1 und t aufgespannten Teilraum L := {γ0 1 + γ1 t | γ0 , γ1 ∈ R} von Rn . Bei der Methode der kleinsten Quadrate werden nämlich γ̂0 und γ̂1 gerade so bestimmt, dass der Vektor γ̂0 1 + γ̂1 t unter allen Vektoren in L den kleinsten euklidischen Abstand zu X hat. 63 21.2 Lineare Modelle Wir betrachten das Regressionsproblem jetzt in allgemeinerer Form: Definition 21.4. Seien s, n ∈ N mit s ≤ n. Ein lineares Modell für n reellwertige Beobachtungen mit unbekanntem s-dimensionalen Verschiebungsvektor γ = (γ1 , . . . , γs )T ∈ Rs und ebenfalls unbekanntem Skalenparameter v ≥ 0 besteht aus • einer reellen (n × s)-Matrix A mit vollem Rang s, der sogenannten Designmatrix und • einem Zufallsvektor ε = (ε1 , . . . , εn )T mit bekannter Verteilung und den Eigenschaften E(εk ) = 0 und Var(εk ) = 1 sowie Cov(εk , εl ) = 0 für k 6= l. Der n-dimensionale Beobachtungsvektor X = (X1 , . . . , Xn )T ergibt sich aus diesen Größen durch die lineare Gleichung √ X = Aγ + vε Das zugehörige statistische Modell ist (Rn , B(Rn ), (Pγ,v )γ∈Rs ,v≥0 ), wobei Pγ,v die Verteilung von Aγ + √ vε bezeichnet. Beispiel 21.5 (Einfache lineare Regression, z.B. Metallstab). Hier ist s = 2 und 1 t1 A = ... ... . 1 tn A hat genau dann vollen Rang, wenn die Zahlen tk nicht alle gleich sind. Beispiel 21.6 (Polynomiale Regression). Geht man statt von einem linearen Zusammenhang √ der Form Xk = γ0 + γ1 tk + vεk allgemeiner von einem polynomialen Zusammenhang der Form d X √ Xk = γi tik + vεk , k = 1, . . . , n i=0 aus, sind s = d + 1 und 1 t1 · · · .. .. A= . . 1 tn · · · td1 .. . tdn zu wählen. A hat genau dann vollen Rang, wenn die Menge {t1 , . . . , tn } mindestens d + 1 Elemente hat. Beispiel 21.7 (Mehrfache lineare Regression). Wenn mehrere Einflussgrößen vorliegen und der Einfluss jeder dieser Größen als linear angenommen wird, gelangt man zu der Gleichung Xk = γ0 + d X γl tkl + √ vεk , k = 1, . . . , n. l=1 Hierbei ist d die Anzahl der Einflussgrößen und tkl der bei der k-ten Beobachtung verwendete Wert der l-ten Einflussgröße. Um diese Gleichung in Matrixform zu schreiben, wähle man 1 t11 · · · t1d .. .. A = ... . . 1 tn1 · · · 64 tnd Gemäß dem Prinzip der kleinsten Quadrate wird bei gegebener Beobachtung x ∈ Rn der Schätzwert γ̂ = γ̂(x) für γ so bestimmt, dass kx − Aγk für γ = γ̂ minimal wird. Das heißt, Aγ̂(x) ist die orthogonale Projektion von x auf den linearen Teilraum L(A) := {Aγ | γ ∈ Rs } von Rn . Lemma 21.8. Die orthogonale Projektion auf L(A) ist durch ΠA := A(AT A)−1 AT gegeben. (AT A ist invertierbar, da nach Voraussetzung A vollen Rang s hat.) Insbesondere gilt für den Kleinste-Quadrate-Schätzer γ̂(x) = (AT A)−1 AT x. Beweis. Zu zeigen ist: 1. ΠA x ∈ L(A) für alle x ∈ Rn , 2. x − ΠA x ⊥ L(A) für alle x ∈ Rn . Die erste Eigenschaft ist offensichtlich. Ferner gilt für alle γ ∈ Rs hx − ΠA x, Aγi = hx, Aγi − hA(AT A)−1 AT x, Aγi = hAT x, γi − hAT x, γi = 0. Bemerkung. Der Kleinste-Quadrate-Schätzer γ̂ = (AT A)−1 AT X für γ ist linear in X und erwartungstreu. Beweis. Die Linearität ist offensichtlich. Ferner gilt für alle (γ, v) ∈ Rs × R+ Eγ,v (γ̂) = Eγ,v (AT A)−1 AT X = (AT A)−1 AT Eγ,v (X) = (AT A)−1 AT Aγ = γ. Satz 21.9 (Gauß, Markov). Sei c ∈ Rs . Dann gilt: 1. hc, γ̂i ist ein linearer erwartungstreuer Schätzer für hc, γi. 2. In der Klasse der linearen erwartungstreuen Schätzer für hc, γi ist hc, γ̂i gleichmäßig varianzminimierend und durch diese Eigenschaft eindeutig bestimmt. Beweis. Die erste Aussage folgt unmittelbar aus der letzten Bemerkung. Sei nun S ein beliebiger linearer erwartungstreuer Schätzer für hc, γi. Wegen der Linearität von S existiert ein Vektor b ∈ Rn mit S(x) = hb, xi. 65 Auch der Schätzer hc, γ̂i hat diese Form: hc, γ̂(x)i = hc, (AT A)−1 AT xi = hA(AT A)−1 c, xi. Da S erwartungstreu ist, gilt für alle (γ, v) ∈ Rs × R+ hb, Aγi = Eγ,v (hb, Xi) = Eγ,v (S) = hc, γi = hAT A(AT A)−1 c, γi = hA(AT A)−1 c, Aγi. Es gilt also b − A(AT A)−1 c ⊥ Aγ für alle γ ∈ Rs . Das heißt, A(AT A)−1 c ist die orthogonale Projektion von b auf L(A). Dies impliziert insbesondere, dass kA(AT A)−1 ck ≤ kbk gilt, mit Gleichheit genau dann, wenn A(AT A)−1 c = b. Wir erhalten jetzt Varγ,v (S) = Varγ,v (hb, Xi) = bT Covγ,v (X)b = bT Covγ,v (Aγ + √ vε)b 2 = vkbk und entsprechend Varγ,v (hc, γ̂i) = Varγ,v A(AT A)−1 c, X = vkA(AT A)−1 ck2 ≤ Varγ,v (S), mit Gleichheit (wenn v > 0) genau dann, wenn A(AT A)−1 c = b, d.h. genau dann, wenn S = hc, γ̂i. Satz 21.10. Für alle (γ, v) ∈ Rs × R+ gilt Eγ,v kX − Aγ̂k2 = (n − s)v. Folglich ist die korrigierte Stichprobenvarianz V ∗ (x) := 1 kx − Aγ̂k2 n−s ein erwartungstreuer Schätzer für die Fehlervarianz v. Beweis. Es gelten X = Aγ + √ vε und Aγ̂ = A(AT A)−1 AT X √ = Aγ + vΠA ε und folglich kX − Aγ̂k2 = vk(In − ΠA εk2 . 66 Sei jetzt M := In − ΠA . M ist die orthogonale Projektion von Rn auf das orthogonale Komplement von L(A). Folglich gelten M T M = M 2 = M und Spur(M ) = dim(L(A)⊥ ) = n − s. Es folgt kX − Aγ̂k2 = vkM εk2 = vεT M T M ε = vεT M ε = v Spur(εT M ε) = v Spur(M εεT ). Hieraus folgt Eγ,v kX − Aγ̂k2 = v Spur M Eγ,v (εεT ) | {z } =In = v Spur(M ) = v(n − s). Bemerkung. Wenn man annimmt, dass die Fehlervariablen εk unabhängig und normalverteilt sind, kann man die Verteilungen der Schätzer γ̂ und V ∗ explizit berechnen und darauf aufbauend Konfidenzbereiche und Hypothesentests für γ und v konstruieren. 67