Einführung in die Statistik

Werbung
Einführung in die Statistik∗
Dr. Robert Philipowski
Empfohlenes Lehrbuch:
H.-O. Georgii, Stochastik (5. Auflage). Walter de Gruyter, Berlin, Boston, 2015.
Inhaltsverzeichnis
1 Einführung
2
2 Punktschätzer
5
3 Maximum-Likelihood-Methode (Methode der maximalen Plausibilität)
8
4 Beste Schätzer
13
5 Informationsungleichung
13
6 Exponentielle Familien
17
7 Konsistenz
21
8 Konsistenz von Maximum-Likelihood-Schätzern
22
9 Bayessche Statistik
25
10 Konfidenzbereiche
28
11 Verteilungen rund um die Normalverteilung
30
12 Hypothesentests
34
13 Tests bei einfacher Nullhypothese und Alternative, Neyman-Pearson-Lemma,
Lemma von Stein
37
14 Einseitige Tests bei eindimensionaler Parametermenge
41
15 Zweiseitige Tests in exponentiellen Modellen
45
16 Optimalität bei mehrdimensionaler Parametermenge
49
17 Nichtparametrische Statistik und der Satz von Glivenko-Cantelli
52
18 Beweis der quantitativen Form des Satzes von Glivenko-Cantelli
53
19 Der Kolmogorov-Smirnov-Test
58
20 Der Chiquadrat-Anpassungstest
59
21 Regressionsanalyse
61
∗
Skript zu einer im Sommersemester 2016 an der Universität Bonn gehaltenen Vorlesung
1
1
Einführung
Die Statistik besteht aus zwei Teilgebieten:
1. Beschreibende Statistik: Hier geht es um die übersichtliche Darstellung von Daten durch
• Berechnung von Kennwerten (Mittelwert, Quantile, . . . ),
• graphische Darstellung.
Die Methoden der beschreibenden Statistik sind zwar in der Praxis sehr wichtig, aber
aus mathematischer Sicht weitgehend uninteressant und daher nicht Gegenstand dieser
Vorlesung.
2. Schließende Statistik (Thema dieser Vorlesung): Hier geht es darum, aus der beobachteten Realisierung einer Zufallsvariablen auf das zugrundeliegende Wahrscheinlichkeitsmaß
zu schließen. Die Problemstellung der schließenden Statistik ist damit in gewisser Weise
invers zur Problemstellung der Wahrscheinlichkeitsrechnung:
• Wahrscheinlichkeitsrechnung:
– Gegeben: Wahrscheinlichkeitsraum (Ω, A, P)
– Gesucht: z.B. P(X ∈ B) für eine auf (Ω, A, P) definierte Zufallsvariable X und eine
Menge B
• Schließende Statistik:
– Gegeben:
a) Messraum (Ω, A) und eine Familie (Pθ )θ∈Θ von Wahrscheinlichkeitsmaßen auf
(Ω, A) (Interpretation: das wahre Wahrscheinlichkeitsmaß ist unbekannt, aber
man nimmt an, dass eines der Maße Pθ das wahre Wahrscheinlichkeitsmaß ist),
b) Realisierung x einer auf (Ω, A) definierten Zufallsvariablen X
– Gesucht: θ ∈ Θ derart, dass Pθ das wahre Wahrscheinlichkeitsmaß ist
Definition 1.1. Ein statistisches Modell ist ein Tripel (Ω, A, (Pθ )θ∈Θ ) bestehend aus
• einer Menge Ω,
• einer σ-Algebra A auf Ω,
• einer Familie (Pθ )θ∈Θ von Wahrscheinlichkeitsmaßen auf (Ω, A), wobei Θ eine nichtleere
Menge ist.
Definition 1.2. Sei (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell. Die kanonische Zufallsvariable
auf (Ω, A) ist X = IdΩ , also X : Ω → Ω, X(ω) = ω für alle ω ∈ Ω.
Bemerkung. Wenn Pθ das wahre Wahrscheinlichkeitsmaß ist, ist Pθ zugleich auch die Verteilung von X.
Beispiel 1.3. Ein Obsthändler erhält eine Lieferung von N = 10.000 Apfelsinen und möchte
wissen, wieviele davon faul sind. Theoretisch könnte er alle 10.000 Apfelsinen untersuchen.
Eine solche Volluntersuchung ist aber oft zu aufwändig oder gar unmöglich. Daher zieht der
Händler eine Stichprobe von z.B. k = 50 Apfelsinen. Dabei nehmen wir an, dass die 50 Apfelsinen zufällig und gleichverteilt aus der Menge aller 10.000 Apfelsinen gezogen werden, d.h.
dass alle 50-elementigen Teilmengen die gleiche Wahrscheinlichkeit haben, gezogen zu werden.
Sei X die Anzahl der faulen Apfelsinen in der Stichprobe. Da die Stichprobe zufällig
gezogen wird, ist X eine Zufallsvariable. Der Händler untersucht nun die Apfelsinen in der
Stichprobe und stellt fest, dass x von ihnen faul sind, d.h. er beobachtet die Realisierung x
der Zufallsvariablen X. Was lässt sich aufgrund dieser Information über die Zahl θ aller faulen
Apfelsinen sagen?
Das Problem lässt sich wie folgt modellieren:
2
• Für Ω wählen wir die Menge aller möglichen Werte von X, also Ω = {0, . . . , k}. Für X
wählen wir die kanonische Zufallsvariable, X = IdΩ .
• Da Ω endlich ist, wählen wir A = P(Ω).
• Für Θ wählen wir die Menge der möglichen Werte von θ, also Θ = {0, . . . , N }.
• Wenn die Gesamtzahl der faulen Apfelsinen θ ist, ist die Anzahl X der faulen Apfelsinen
in der Stichprobe hypergeometrisch verteilt mit Parametern N , θ und k, d.h.
θ N −θ
x
Pθ [X = x] =
k−x
N
k
.
Wir wählen daher Pθ = Hyp(N, θ, k).
Zurück zur Frage: Was lässt sich über die Zahl θ aller faulen Apfelsinen sagen? In der
schließenden Statistik interessiert man sich vor allem für die folgenden Antwortarten:
1. Punktschätzung: Es liegt nahe zu vermuten, dass der Anteil der faulen Apfelsinen in der
Stichprobe ungefähr so groß ist wie insgesamt, dass also
x
θ
≈
k
N
gilt, und folglich
θ≈
Nx
.
k
Diese Idee führt zu dem Punktschätzer
Nx
.
k
θ̂(x) :=
Wie zuverlässig ist diese Schätzung? Beachte, dass x und folglich auch θ̂(x) die Realisierung einer Zufallsvariablen ist.
2. Konfidenzbereich: Wir wählen eine Zahl α ∈ (0, 1) (z.B. α = 5 %) und suchen eine von X
abhängige Teilmenge C(X) von Θ (Konfidenzbereich), die den unbekannten Parameter θ
mit einer Wahrscheinlichkeit von mindestens 1 − α enthält,
!
P [C(X) 3 θ] ≥ 1 − α.
Folgendes ist hier zu beachten:
(a) Das Wahrscheinlichkeitsmaß P hängt von θ ab, P = Pθ . Die obige Bedingung muss
daher wie folgt präzisiert werden:
!
Pθ [C(X) 3 θ] ≥ 1 − α
∀θ ∈ Θ.
(b) Da X zufällig ist, ist auch C(X) zufällig. Der Parameter θ hingegen ist zwar unbekannt, wird aber (zumindest in der klassischen Statistik) nicht als Zufallsvariable
angesehen, da für ihn keine Verteilung spezifiziert ist. (Der Fall, dass für θ eine
Wahrscheinlichkeitsverteilung gegeben ist, wird in der sog. Bayesschen Statistik
behandelt.)
(c) Eine Möglichkeit ist C(X) = Θ. Dies ist zwar ein Konfidenzbereich für jedes
α ∈ (0, 1), aber praktisch völlig nutzlos. Es ist daher zusätzlich zu fordern, dass
C(X) möglichst klein ist.
3
3. Hypothesentest: Der Lieferant behauptet, höchstens 5 % der Apfelsinen (also höchstens
500) seien faul. Diese Hypothese wollen wir anhand der Stichprobe überprüfen. Dazu
formulieren wir die Nullhypothese H0 und die Alternativhypothese H1 ,
H0 :
θ ≤ 500,
H1 :
θ > 500.
Je nachdem, wie groß X ist, lehnen wir die Nullhypothese H0 ab oder nicht. Hierzu
bestimmen wir einen Schwellenwert c und entscheiden wie folgt:
X > c ⇒ Lehne H0 ab,
X ≤ c ⇒ Lehne H0 nicht ab.
Dabei sind zwei Arten von Fehlern möglich:
(a) Die Nullhypothese wird abgelehnt, obwohl sie zutrifft (Fehler erster Art),
(b) Die Nullhypothese wird nicht abgelehnt, obwohl sie falsch ist (Fehler zweiter Art).
Üblicherweise fixiert man eine Irrtumswahrscheinlichkeit α und fordert, dass
(a) die Wahrscheinlichkeit eines Fehlers erster Art (fälschliches Ablehnen der Nullhypothese) höchstens α beträgt,
!
P [H0 abgelehnt, obwohl richtig] ≤ α,
(b) die Wahrscheinlichkeit eines Fehlers zweiter Art (fälschliches Nichtablehnen der
Nullhypothese) möglichst klein ist,
P [H0 nicht abgelehnt, obwohl falsch]
möglichst klein.
Hierbei ist wieder zu beachten, dass das Wahrscheinlichkeitsmaß P von θ abhängt. Wir
formulieren daher präziser:
!
Pθ [H0 abgelehnt]
≤α
für alle θ, für die H0 gilt,
Pθ [H0 nicht abgelehnt] möglichst klein für alle θ, für die H0 nicht gilt.
Einsetzen der Entscheidungsregel ergibt
!
Pθ [X > c] ≤ α
∀θ ≤ 500,
Pθ [X ≤ c] möglichst klein ∀θ > 500.
Bemerkung. Oft führt man ein Zufallsexperiment nicht nur einmal, sondern mehrmals unabhängig voninander durch. Dies lässt sich mathematisch wie folgt erfassen:
Definition 1.4 (Produktmodell). Sei (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell. Das zugehörige
n-fache Produktmodell ist das Modell (Ωn , A⊗n , (P⊗n
θ )θ∈Θ ).
Die kanonische Zufallsvariable X = IdΩ ist dann ein Vektor X = (X1 , . . . , Xn ), dessen
Komponenten Xi unter dem Wahrscheinlichkeitsmaß P⊗n
θ unabhängig und gemäß Pθ verteilt
sind.
4
2
Punktschätzer
Oft ist man nicht an der vollständigen Kenntnis von θ interessiert, sondern nur an einer
bestimmten Kenngröße, z.B. dem Erwartungswert einer gemäß Pθ verteilten Zufallsvariablen.
Wir definieren daher:
Definition 2.1 (Kenngröße). Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell und (Σ, S) ein
Messraum. Eine Σ-wertige Kenngröße ist eine Abbildung τ : Θ → Σ.
Oft ist Σ ⊇ Θ und τ (θ) = θ (so auch im Apfelsinenbeispiel: dort ist Θ = {0, . . . , N } und
Σ = R), oft ist Σ aber deutlich kleiner als Θ, so dass mit der Beschränkung auf die Kenngröße
ein Informationsverlust einhergeht, der aber bewusst in Kauf genommen wird.
Definition 2.2 (Punktschätzer). Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, (Σ, S) ein
Messraum und τ : Θ → Σ eine Kenngröße. Unter einem Punktschätzer oder kurz Schätzer
für τ versteht man eine messbare Abbildung
τ̂ : Ω → Σ.
Bemerkung.
1. Ein Schätzer lässt sich auf zwei Arten interpretieren:
(a) als Abbildung, die jeder möglichen Realisierung x der kanonischen Zufallsvariablen X einen Wert zuordnet,
(b) als Zufallsvariable
2. Im Apfelsinenbeispiel ist Σ = R, τ (θ) = θ und θ̂(x) = N x/k.
3. Die obige Definition ist sehr allgemein gehalten. Insbesondere braucht ein Schätzer nicht
unbedingt sinnvoll“ oder gut“ zu sein.
”
”
Beispiel 2.3. Ein Zufallszahlengenerator lässt sich auf einen beliebigen Wert θ > 0 einstellen
und liefert dann eine Folge unabhängiger und auf dem Intervall [0, θ] gleichverteilter Zufallszahlen. Sie kennen den eingestellten Wert nicht, dürfen den Generator aber n-mal betätigen
und sollen daraufhin den Parameter θ so gut wie möglich“ schätzen. Wie gehen Sie vor?
”
Zuerst spezifizieren wir das statistische Modell:
• Die n Zufallszahlen können beliebige nichtnegative Werte annehmen. Daher wählen
wir Ω = Rn+ . Für X wählen wir wieder die kanonische Zufallsvariable, X = IdΩ . Die
Zufallszahlen sind dann die Komponenten Xi von X (i = 1, . . . , n).
• Die kanonische Wahl für A ist die Borelsche σ-Algebra, A = B(Rn+ ).
• Für Θ wählen wir die Menge der möglichen Werte von θ, also Θ = R>0 .
• Wenn der Generator auf den Wert θ eingestellt ist, sind die Zufallszahlen Xi unabhängig
und gleichverteilt auf dem Intervall [0, θ]. Daher wählen wir für Pθ die Gleichverteilung
auf [0, θ]n .
Jetzt zurück zur Frage:
• Erster Ansatz: Es gilt Eθ (Xi ) = θ/2. Foglich gilt nach dem Gesetz der großen Zahlen
für große n
n
1X
θ
Xi ≈ .
n
2
i=1
Daher sollte (zumindest für große n)
n
Tn :=
2X
Xi
n
i=1
ein guter Schätzer für θ sein.
5
• Zweiter Ansatz: Für große Werte von n gilt mit hoher Wahrscheinlichkeit
max(X1 , . . . , Xn ) ≈ θ, denn zum einen gilt
max(X1 , . . . , Xn ) ≤ θ,
und zum anderen
Pθ max(X1 , . . . , Xn ) < θ − ε
= Pθ (X1 < θ − ε, . . . , Xn < θ − ε)
= Pθ (X1 < θ − ε)n
θ−ε n
→0
=
θ
(n → ∞).
Folglich sollte auch
Mn := max(X1 , . . . , Xn )
ein guter Schätzer für θ sein.
Welcher dieser beiden Schätzer ist besser“?
”
• Beide Schätzer (genauer gesagt: beide Folgen von Schätzern) sind konsistent in dem
Sinne, dass für alle θ ∈ Θ und alle ε > 0 gilt:
Pθ (|Tn − θ| > ε) → 0
(n → ∞),
und entsprechend für Mn . (Für Mn haben wir dies explizit nachgerechnet, und für Tn
folgt die Aussage aus dem schwachen Gesetz der großen Zahlen.) Konsistenz ist eine
wünschenswerte Eigenschaft, sagt aber nichts über das Verhalten für kleine n aus.
• Tn ist erwartungstreu in dem Sinne, dass für alle θ ∈ Θ
Eθ (Tn ) = θ
gilt. Es gilt nämlich
n
2X
2 θ
Eθ (Tn ) =
Eθ (Xi ) = n = θ.
n
n 2
i=1
Erwartungstreue eines Schätzers einer reellwertigen Kenngröße bedeutet, dass für keinen
möglichen Parameterwert die Kenngröße systematisch über- oder unterschätzt wird, und
ist folglich eine wünschenswerte Eigenschaft.
• Mn ist sicher nicht erwartungstreu, denn für alle θ ∈ Θ gilt
Mn < θ
Pθ -f.s.
und folglich
Eθ (Mn ) < θ.
Wir können aber zeigen, dass Mn für große Werte von n zumindest näherungsweise
erwartungstreu ist. Um den Erwartungswert von Mn bzgl. Pθ zu berechnen, verfahren
wir wie folgt: Für alle x ≤ θ gilt
Pθ (Mn ≤ x)) = Pθ (X1 ≤ x, . . . , Xn ≤ x)
= Pθ (X1 ≤ x)n
x n
,
=
θ
folglich hat Mn unter Pθ die Dichte nxn−1 /θn auf [0, θ]. Es folgt
Z θ
nxn−1
n θn+1
n
Eθ (Mn ) =
x n dx = n
=
θ,
θ
θ
n
+
1
n
+
1
0
6
Mn ist also zumindest asymptotisch erwartungstreu. Ferner ist der modifizierte Schätzer
Mn0 :=
n+1
Mn
n
erwartungstreu.
• Erwartungstreue ist zwar wünschenswert, genügt aber nicht, um einen Schätzer als gut
zu bezeichnen. Man muss auch die Streuung berücksichtigen. Ein oft verwendetes Maß
für die Güte eines Schätzers τ̂ einer reellen Kenngröße τ ist der mittlere quadratische
Fehler (engl. mean squared error)
MSEθ (τ̂ ) := Eθ (τ̂ − τ (θ))2 .
Der mittlere quadratische Fehler lässt sich wie folgt umformen:
Eθ (τ̂ − τ (θ))2 = Eθ (τ̂ 2 ) − 2Eθ (τ̂ )τ (θ) + τ (θ)2 + Eθ (τ̂ )2 − Eθ (τ̂ )2
= (Eθ (τ̂ ) − τ (θ))2 + Varθ (τ̂ ).
Der mittlere quadratische Fehler eines Schätzers τ̂ ist also gleich der Summe aus dem
Quadrat des systematischen Fehlers
Eθ (τ̂ ) − τ (θ)
und der Varianz von τ̂ . Für erwartungstreue Schätzer ist der systematische Fehler 0,
und folglich stimmen mittlerer quadratischer Fehler und Varianz überein.
• Für Tn erhalten wir
Varθ (Tn ) =
=
=
=
4
n Varθ (X1 )
n2
4
Eθ (X12 ) − Eθ (X1 )2
n
2 !
Z
4 1 θ 2
θ
x dx −
n θ 0
2
2
4 θ
θ2
θ2
−
=
.
n 3
4
3n
Da Tn erwartungstreu ist, folgt
MSEθ (Tn ) = Varθ (Tn ) =
• Für Mn gilt
Eθ Mn2
Z
=
0
θ
x2
θ2
.
3n
n θn+2
nθ2
nxn−1
dx
=
=
θn
θn n + 2
n+2
und folglich
Varθ (Mn ) = Eθ Mn2 − Eθ (Mn )2
nθ2
n2 θ 2
−
n + 2 (n + 1)2
nθ2
.
(n + 1)2 (n + 2)
=
=
7
Es folgt
MSEθ (Mn ) = (Eθ (Mn ) − θ)2 + Varθ (Mn )
2
θ
nθ2
=
+
n+1
(n + 1)2 (n + 2)
(2n + 2)θ2
=
(n + 1)2 (n + 2)
2θ2
=
.
(n + 1)(n + 2)
Im Sinne des mittleren quadratischen Fehlers ist also (für n ≥ 2) Mn besser als Tn ,
obwohl Mn im Gegensatz zu Tn nicht erwartungstreu ist. (Für n = 1 sind beide Schätzer
gleich gut.)
• Für Mn0 ergibt sich
Varθ (Mn0 ) =
(n + 1)2
nθ2
(n + 1)2
θ2
Var
(M
)
=
=
.
n
θ
n2
n2
(n + 1)2 (n + 2)
n(n + 2)
Da Mn0 erwartungstreu ist, folgt
MSEθ (Mn0 ) = Varθ (Mn0 ) =
θ2
.
n(n + 2)
Für n ≥ 2 ist also Mn0 noch besser als Mn .
Im Folgenden werden wir uns mit zwei Fragen befassen:
1. Gibt es eine Methode zur systematischen Konstruktion eines vernünftigen“ Schätzers?
”
2. Gibt es optimale“ Schätzer?
”
3
Maximum-Likelihood-Methode (Methode der maximalen
Plausibilität)
Die Grundidee der Maximum-Likelihood-Methode zur Schätzung von θ besteht darin, θ̂(x) so
zu wählen, dass
Pθ {X = x}
für θ = θ̂(x) am größten wird.
Problem. In vielen Modellen ist diese Wahrscheinlichkeit für alle θ gleich 0. Man arbeitet
daher meist nicht mit Wahrscheinlichkeiten, sondern mit Wahrscheinlichkeitsdichten. Dazu
muss vorausgesetzt werden, dass alle in Frage kommenden Wahrscheinlichkeitsmaße Pθ eine
Dichte bzgl. eines gemeinsamen Referenzmaßes µ haben.
Definition 3.1 (Standardmodell). Ein Standardmodell ist ein 4-Tupel (Ω, A, µ, (pθ )θ∈Θ )
bestehend aus
• einer Menge Ω,
• einer σ-Algebra A auf Ω,
• einem σ-endlichen Maß µ auf (Ω, A),
• einer Familie (pθ )θ∈Θ von Wahrscheinlichkeitsdichten bezüglich µ, wobei Θ eine beliebige
nichtleere Menge ist.
8
Bemerkung.
1. Vermöge Pθ := pθ µ (= Wahrscheinlichkeitsmaß mit Dichte pθ bzgl. µ) ist jedem
Standardmodell in kanonischer Weise ein statistisches Modell im Sinne unserer ursprünglichen Definition zugeordnet.
2. Die wichtigsten Fälle sind:
(a) diskrete Modelle: hier ist Ω abzählbar, A die Potenzmenge von Ω und µ das Zählmaß,
(b) stetige Modelle: hier ist Ω eine Borelsche Teilmenge von Rn , A = B(Ω) und µ das
Lebesgue-Maß.
3. In diskreten Modellen ist pθ durch Pθ eindeutig bestimmt, im Allgemeinen (insbesondere
in stetigen Modellen) gilt dies nur µ-fast überall. Sofern zunächst nur das
Wahrscheinlichkeitsmaß Pθ gegeben ist, sollte man die Dichte pθ vernünftig“ wählen
”
(z.B. nach Möglichkeit stetig).
4. Die Funktion p lässt sich auf zwei Arten interpretieren:
(a) Wenn θ bekannt ist (Situation der Wahrscheinlichkeitsrechnung), ist pθ (x) die
Wahrscheinlichkeitsdichte der Beobachtung x.
(b) Wenn x bekannt ist (Situation der Statistik), gibt pθ (x) an, wie plausibel es ist,
dass der wahre Parameter θ ist. Um die Abhängigkeit von θ zu betonen, schreiben
wir oft px (θ) für pθ (x). Die Funktion θ 7→ px (θ) heißt Likelihoodfunktion zum
Beobachtungswert x.
Zusammengefasst:
pθ (x) = Wahrscheinlichkeitsdichte der Beobachtung x
gegeben, dass der Parameter θ ist,
px (θ) = Plausibilität (Likelihood) des Parameters θ
gegeben, dass die Beobachtung x ist.
5. Wenn wir p explizit als Funktion von zwei Variablen ansehen, schreiben wir p(x, θ).
Definition 3.2. Sei (Ω, A, µ, (pθ )θ∈Θ ) ein Standardmodell.
1. Ein Schätzer θ̂ : Ω → Θ für θ heißt Maximum-Likelihood-Schätzer, wenn für alle x ∈ Ω
θ̂(x) ∈ arg max px (θ)
θ∈Θ
gilt, wenn also θ̂(x) für alle x ∈ Ω die Likelihoodfunktion zum Beobachtungswert x
maximiert.
2. Ein Schätzer τ̂ : Ω → Σ für eine Kenngröße τ : Θ → Σ heißt Maximum-LikelihoodSchätzer, wenn es einen Maximum-Likelihood-Schätzer θ̂ für θ gibt, so dass τ̂ = τ (θ̂).
Beispiel 3.3 (Schätzung einer unbekannten Wahrscheinlichkeit). Es soll die unbekannte
Erfolgswahrscheinlichkeit eines Zufallsexperiments geschätzt werden (z.B. die Wahrscheinlichkeit, dass eine manipulierte Münze Kopf“ zeigt). Dazu wird das Experiment n-mal unab”
hängig voneinander wiederholt, und es wird erfasst, wie oft es erfolgreich ist. Diese Situation
lässt sich durch das folgende statistische Modell beschreiben:
Ω = {0, . . . , n},
A = P(Ω),
Θ = [0, 1],
Pθ = Bin(n, θ).
9
Es handelt sich also um ein diskretes Modell mit
n x
px (θ) =
θ (1 − θ)n−x .
x
Zu gegebenem Beobachtungswert x ∈ {0, . . . , n} suchen wir die Menge der Maximierer der
Funktion θ 7→ px (θ).
• Für x = 0 ist px strikt fallend in θ, der eindeutige Maximierer ist folglich
θ = 0.
• Für x = n ist px strikt wachsend in θ, der eindeutige Maximierer ist folglich
θ = 1.
• Für x ∈ {1, . . . , n − 1} gilt px (0) = px (1) = 0, und für θ ∈ (0, 1) ist px (θ) strikt positiv.
Folglich besitzt px einen Maximierer im offenen Intervall (0, 1). Um diesen zu finden,
bilden wir die log-Likelihoodfunktion
n
log px (θ) = log
+ x log θ + (n − x) log(1 − θ)
x
und leiten sie nach θ ab:
d
x n−x
log px (θ) = −
.
dθ
θ
1−θ
Nullsetzen liefert
x(1 − θ) = (n − x)θ
mit der einzigen Lösung
θ=
x
.
n
Insgesamt sehen wir: Es gibt genau einen Maximum-Likelihood-Schätzer, und zwar
x
θ̂(x) = .
n
Ist θ̂ erwartungstreu? Es gilt
Eθ (θ̂) =
1
1
Eθ (X) = nθ = θ,
n
n
θ̂ ist also erwartungstreu. Ferner gilt
Varθ (θ̂) =
1
1
θ(1 − θ)
Var(X) = 2 nθ(1 − θ) =
.
n2
n
n
Beispiel 3.4 (Zufallszahlengenerator). Hier ist Ω = Rn+ , A = B(R+ ) die Borel-σ-Algebra,
Θ = R>0 und Pθ die Gleichverteilung auf [0, θ]n . Es handelt sich also um ein stetiges Modell
mit
(
1/θn falls θ ≥ max(x1 , . . . , xn ),
px (θ) =
0
sonst.
• Wenn max(x1 , . . . , xn ) > 0, hat die Funktion px genau einen Maximierer, nämlich
max(x1 , . . . , xn ).
• Wenn max(x1 , . . . , xn ) = 0 gilt, ist die Funktion px streng fallend. Folglich gibt es keinen für alle x ∈ Ω definierten Maximum-Likelihood-Schätzer. Der naheligende Ausweg
besteht darin, θ = 0 zuzulassen und P0 := δ0 sowie θ̂(0, . . . , 0) := 0 zu setzen. Allerdings
hat man dann streng genommen kein stetiges Modell mehr. (Man kann auch argumentieren, dass für jedes θ ∈ Θ die Wahrscheinlichkeit, das Ergebnis (0, . . . , 0) zu erhalten,
0 ist.)
10
Insgesamt sehen wir: Es gibt genau einen Maximum-Likelihood-Schätzer, nämlich
θ̂(x) = max(x1 , . . . , xn ) = Mn (x).
Dieser Schätzer ist nicht erwartungstreu.
Bemerkung. Man hätte genauso gut
(
1/θn
p̃x (θ) =
0
falls θ > max(x1 , . . . , xn ),
sonst
wählen können. Dann gäbe es keinen Maximum-Likelihood-Schätzer. Dieses Beispiel zeigt,
dass es wichtig ist, die Dichte vernünftig“ zu wählen.
”
Beispiel 3.5 (Gauß-Modell). Erwartungswert µ und Varianz σ 2 einer normalverteilten
Zufallsvariablen sollen ausgehend von der Beobachtung von n unabhängigen Kopien dieser
Variablen geschätzt werden. Zur Modellierung wählen wir das stetige Modell mit
Ω = Rn ,
Θ = R × R>0 ,
n Y
1
(xi − µ)2
2
√
px (µ, σ ) =
exp −
2
2σ 2
2πσ
i=1
!
n
2
X
(x
−
µ)
i
= (2πσ 2 )−n/2 exp −
.
2σ 2
i=1
Für die log-Likelihoodfunktion ergibt sich
n
X (xi − µ)2
n
n
log px (µ, σ 2 ) = − log(2π) − log(σ 2 ) −
.
2
2
2σ 2
i=1
• Wir maximieren zunächst bezüglich µ. Die log-Likelihoodfunktion ist quadratisch in µ
mit negativem führenden Koeffizienten, folglich hat sie genau einen Maximierer, und
dieser ist gleich der eindeutigen Nullstelle der Ableitung. Wir erhalten
n
∂ log px
1 X
= 2
(xi − µ).
∂µ
σ
i=1
Nullsetzen liefert
n
1X
µ = x̄ :=
xi .
n
i=1
Einsetzen in die log-Likelihoodfunktion ergibt
n
n
1 X
n
2
(xi − x̄)2 .
f (σ ) := log px (x̄, σ ) = − log(2π) − log(σ ) − 2
2
2
2σ
2
2
i=1
Pn
2
2
2
2
• Sofern
i=1 (xi − x̄) > 0 ist, geht f (σ ) sowohl für σ → 0 als auch für σ → ∞
gegen −∞. Zur Maximierung leiten wir daher nach σ 2 ab:
n
X (xi − x̄)2
df
n
=
−
+
.
dσ 2
2σ 2
2σ 4
i=1
Nullsetzen liefert
n
σ2 =
1X
(xi − x̄)2 .
n
i=1
11
Pn
2
• Wenn
i=1 (xi − x̄) = 0 gilt (d.h. wenn x1 = . . . = xn ist), ist f streng fallend
in σ 2 . Folglich gibt es keinen für alle x ∈ Ω definierten Maximum-Likelihood-Schätzer.
Der naheliegende Ausweg besteht darin, σ 2 = 0 zuzulassen und Pµ,0 := δ0 zu setzen.
Allerdings hat man dann streng genommen kein stetiges Modell mehr. (Man kann auch
argumentieren, dass für n ≥ 2 für jedes (µ, σ 2 ) ∈ Θ die Wahrscheinlichkeit, eine Beobachtung der Form (x, . . . , x) zu erhalten, 0 ist.)
c2 ), und
Insgesamt sehen wir: Es gibt genau einen Maximum-Likelihood-Schätzer θ̂ = (µ̂, σ
zwar ist µ̂ gleich dem empirischen Mittelwert oder Stichprobenmittel,
n
1X
µ̂(x) = x̄ :=
xi ,
n
i=1
c2 ist gleich der Stichprobenvarianz,
und σ
n
X
c2 (x) = s2 := 1
(xi − x̄)2 .
σ
n
i=1
Sind diese Schätzer erwartungstreu?
• Für x̄ erhalten wir
n
Eµ,σ2 (x̄) =
1X
Eµ,σ2 (Xi ) = µ,
n
i=1
das Stichprobenmittel ist also erwartungstreu.
• Für s2 erhalten wir
n
2
Eµ,σ2 (s ) =
1X
Eµ,σ2 (Xi − X̄)2
n
i=1
=
=
=
n
1X
Varµ,σ2 Xi − X̄
n
i=1


n
X
X
1
1
n−1
Xi −
Xj 
Varµ,σ2 
n
n
n
i=1
j6=i
n
1 X (n − 1)2 2
1
2
σ + 2 (n − 1)σ
n
n2
n
i=1
=
n−1 2
σ ,
n
die Stichprobenvarianz ist also nicht erwartungstreu. Wohl aber ist die korrigierte
Stichprobenvarianz,
n
n 2
1 X
s =
(xi − x̄)2 ,
s2∗ :=
n−1
n−1
i=1
erwartungstreu.
Bemerkung. Die Aussagen zur Erwartungstreue von Stichprobenmittel und Stichprobenvarianz gelten nicht nur im Normalverteilungsfall, sondern allgemein für reelle Produktmodelle,
d.h. Modelle der Form (Rn , B(Rn ), (P⊗n
θ )θ∈Θ ). Man muss nur voraussetzen, dass für alle θ ∈ Θ
eine gemäß Pθ verteilte Zufallsvariable integrierbar bzw. quadratintegrierbar ist (und für die
Schätzung der Varianz, dass n ≥ 2 ist).
12
4
Beste Schätzer
Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell und τ : Θ → R eine reelle Kenngröße. Was
sollte man unter einem besten Schätzer“ für τ verstehen?
”
Naive Definition. Ein Schätzer T für τ ist ein bester Schätzer, wenn er für jeden möglichen
Parameterwert θ mindestens so gut ist wie alle anderen Schätzer, d.h. wenn für alle Schätzer S
und alle θ ∈ Θ gilt:
MSEθ (T ) ≤ MSEθ (S).
Diese Definition ist allerdings nicht sinnvoll, denn wenn der wahre Parameter θ ist, ist
offenbar der konstante Schätzer τ (θ) optimal. Folglich gibt es (außer in Entartungsfällen)
keinen besten Schätzer im obigen Sinn.
Die Definition wird aber sinnvoll, wenn man sich auf erwartungstreue Schätzer beschränkt.
Definition 4.1. Ein erwartungstreuer Schätzer T für τ heißt gleichmäßig varianzminimierend,
wenn
1. Varθ (T ) für alle θ ∈ Θ endlich ist,
2. für alle erwartungstreuen Schätzer S und alle θ ∈ Θ gilt:
Varθ (T ) ≤ Varθ (S).
5
Informationsungleichung
Die Informationsungleichung von Cramér und Rao liefert eine untere Schranke für die Varianz
eines erwartungstreuen Schätzers. Wir betrachten (zunächst) einparametrige Modelle, also
Θ ⊆ R.
Definition 5.1. Ein einparametriges Standardmodell (Ω, A, µ, (pθ )θ∈Θ ) heißt regulär, wenn
gilt:
1. Θ ist ein offenes Intervall.
2. p(x, θ) > 0 für alle x ∈ Ω und alle θ ∈ Θ.
3. Für alle x ∈ Ω ist die Funktion θ 7→ p(x, θ) stetig nach θ differenzierbar.
4. Für alle θ ∈ Θ existiert das Integral
Z
Ω
∂p
(x, θ)µ(dx),
∂θ
und Differentiation und Integration können vertauscht werden, d.h.
Z
Z
∂p
d
(x, θ)µ(dx) =
p(x, θ)µ(dx) = 0.
dθ Ω
Ω ∂θ
5. Für alle θ ∈ Θ ist die Fisher-Information
Z I(θ) :=
Ω
2
∂ log p
(x, θ) p(x, θ)µ(dx)
∂θ
strikt positiv und endlich.
13
Bemerkung.
1. Die Funktion
∂ log p
(x, θ)
∂θ
heißt die Score-Funktion des Modells. Bei gegebener Beobachtung x gibt die ScoreFunktion an, wie stark die Likelihood px (θ) vom Parameter θ abhängt.
Uθ (x) :=
2. Für festes θ lässt sich Uθ als Zufallsvariable auf (Ω, A, Pθ ) auffassen, und es gelten
Z
Z
∂p
Uθ (x)p(x, θ)µ(dx) =
Eθ (Uθ ) =
(x, θ)µ(dx) = 0,
∂θ
Ω
Ω
Z
Uθ (x)2 p(x, θ)µ(dx) = I(θ).
Varθ (Uθ ) = Eθ (Uθ2 ) =
Ω
Die Fisher-Information ist folglich ebenfalls ein Maß dafür, wie stark die Likelihood
vom Parameter abhängt (daher die Bezeichnung als Information“). Bei der Fisher”
Information wird allerdings im Gegensatz zur Score-Funktion das quadratische Mittel
über alle möglichen Beobachtungsergebnisse betrachtet.
3. Die 4. Bedingung ist auf jeden Fall erfüllt, wenn Ω endlich ist. Darüber hinaus ist die
folgende Bedingung hinreichend: Jedes θ0 ∈ Θ besitzt eine Umgebung N (θ0 ) derart,
dass
Z
∂p
sup (x, θ) µ(dx) < ∞.
Ω θ∈N (θ0 ) ∂θ
(Differentiationslemma der Maß- und Integrationstheorie)
Bemerkung (Additivität der Fisher-Information bei Unabhängigkeit). Es seien
(Ω, A, µ, (pθ )θ∈Θ ) ein einparametriges reguläres Standardmodell mit Fisher-Information I, und
(Ωn , A⊗n , µ⊗n , (p⊗n
θ )θ∈Θ ) das zugehörige n-fache Produktmodell, d.h.
• A⊗n = A ⊗ . . . ⊗ A ist die n-fache Produkt-σ-Algebra,
• µ⊗n = µ ⊗ . . . ⊗ µ ist das n-fache Produktmaß, gegeben durch
µ
⊗n
(A1 , . . . , An ) =
n
Y
µ(Ai ),
i=1
• p⊗n
θ ist gegeben durch
p⊗n
θ (x1 , . . . , xn ) =
n
Y
pθ (xi ).
i=1
Für die Fisher-Information In des n-fachen Produktmodells gilt
In (θ) = nI(θ)
für alle θ ∈ Θ.
Beweis. Für die Scorefunktion Un,θ des Produktmodells gilt
Un,θ (x1 , . . . , xn ) =
=
∂ log p⊗n
(x1 , . . . , xn , θ)
∂θ
n
Y
∂
log
p(xi , θ)
∂θ
i=1
n
X
∂
=
log p(xi , θ)
∂θ
i=1
=
n
X
i=1
14
Uθ (xi ).
Fassen wir Un,θ als Zufallsvariable auf, bedeutet dies
Un,θ =
n
X
Uθ (Xi ).
i=1
Es folgt
In (θ) = Varθ (Un,θ )
!
n
X
= Varθ
Uθ (Xi )
i=1
=
=
n
X
i=1
n
X
Varθ (Uθ (Xi ))
I(θ).
i=1
Definition 5.2. Es seien (Ω, A, µ, (pθ )θ∈Θ ) ein reguläres Standardmodell und τ : Θ → R
eine
reelle Kenngröße. Ein erwartungstreuer Schätzer T für τ heißt regulär, wenn
R
T
(x)p(x,
θ)µ(dx) nach θ differenzierbar ist und Differentiation und Integration vertauscht
Ω
werden können,
Z
Z
d
∂p
T (x)p(x, θ)µ(dx) =
T (x) (x, θ)µ(dx).
dθ Ω
∂θ
Ω
Bemerkung.
1. Wenn Ω endlich ist, ist jeder erwartungstreue Schätzer regulär.
2. Aufgrund des Differentiationslemmas der Maß- und Integrationstheorie ist die folgende
Bedingung hinreichend für die Regularität von T : Jedes θ0 ∈ Θ besitzt eine Umgebung
N (θ0 ) derart, dass
Z
∂p
sup T (x) (x, θ) µ(dx) < ∞.
∂θ
Ω θ∈N (θ0 )
3. Für das Integral auf der linken Seite gilt wegen der Erwartungstreue von T
Z
T (x)p(x, θ)µ(dx) = Eθ (T ) = τ (θ),
Ω
und für das Integral auf der rechten Seite gilt
Z
Z
∂p
∂ log p
T (x) (x, θ)µ(dx) =
T (x)
(x, θ)p(x, θ)µ(dx)
∂θ
∂θ
Ω
Ω
= Eθ (T Uθ ).
Regularität von T impliziert also, dass τ differenzierbar ist und dass
τ 0 (θ) = Eθ (T Uθ )
gilt.
Satz 5.3 (Informationsungleichung von Cramér und Rao). Es seien (Ω, A, µ, (pθ )θ∈Θ ) ein
einparametriges reguläres Standardmodell, τ : Θ → R eine reelle Kenngröße und T : Ω → R
ein regulärer erwartungstreuer Schätzer für τ . Dann gilt für alle θ ∈ Θ:
Varθ (T ) ≥
15
τ 0 (θ)2
.
I(θ)
Beweis. Es gilt
τ 0 (θ)2 = Eθ (T Uθ )2
= Covθ (T, Uθ )2
≤ Varθ (T ) Varθ (Uθ ).
Definition 5.4. Ein regulärer erwartungstreuer Schätzer T , für den in der Informationsungleichung Gleichheit gilt, heißt Cramér-Rao-Schätzer.
Satz 5.5. Zusätzlich zu den Annahmen von Satz 5.3 gelte τ 0 (θ) 6= 0 für alle θ ∈ Θ. Dann
gilt genau dann in der Informationsungleichung für alle θ ∈ Θ Gleichheit, wenn es stetig
differenzierbare Funktionen a, b : Θ → R, eine messbare Funktion c : Ω → R und eine µ-Nullmenge N ∈ A gibt, so dass für alle x ∈ Ω \ N
p(x, θ) = exp a(θ)T (x) − b(θ) + c(x)
gilt. Ferner gilt in diesem Fall a0 (θ) 6= 0 für alle θ ∈ Θ.
Beweis (Idee). Es habe zunächst p die oben angegebene Form. Dann gilt
Uθ (x) =
∂ log p
(x, θ) = a0 (θ)T (x) − b0 (θ).
∂θ
Uθ und T sind also perfekt korreliert, und es folgt
Covθ (T, Uθ )2 = Varθ (T ) Varθ (Uθ )
und damit die Gleichheit in der Informationsungleichung.
Wir nehmen jetzt an, dass in der Informationsungleichung für alle θ ∈ Θ Gleichheit gilt.
Dann gilt
Cov(T, Uθ )2 = Var(T ) Var(Uθ ),
und folglich sind T und Uθ bzgl. Pθ perfekt korreliert. Da nach Annahme T für kein θ Pθ -fast
sicher konstant ist, folgt, dass es für jedes θ ∈ Θ Zahlen c1 (θ), c2 (θ) ∈ R mit
Uθ = c1 (θ) + c2 (θ)T
Pθ -f.s.
gibt. Durch Bildung von Erwartungswert und Kovarianz bzgl. Pθ ergibt sich
0 = Eθ (Uθ ) = c1 (θ) + c2 (θ)Eθ (T ) = c1 (θ) + c2 (θ)τ (θ),
τ 0 (θ)2
τ 0 (θ) = Covθ (Uθ , T ) = c2 (θ) Varθ (T ) = c2 (θ)
.
I(θ)
Es folgt
c2 (θ) =
und damit für alle θ ∈ Θ
Uθ =
I(θ)
,
τ 0 (θ)
c1 (θ) = −
I(θ)
(T − τ (θ))
τ 0 (θ)
I(θ)τ (θ)
,
τ 0 (θ)
Pθ -f.s.
Da Pθ dieselben Nullmengen wie µ hat, folgt, dass es für alle θ ∈ Θ eine µ-Nullmenge Nθ ∈ A
gibt mit
I(θ)
Uθ (x) = 0
(T (x) − τ (θ))
τ (θ)
für alle θ ∈ Θ und alle x ∈ Ω \ Nθ . Man kann jetzt zeigen:
1. Es gibt eine von θ unabhängige Nullmenge N derart, dass diese Gleichheit für alle
x ∈ Ω \ N und alle θ ∈ Θ gilt.
16
2. Die Funktion θ 7→ I(θ)/τ 0 (θ) ist stetig.
Sei jetzt a eine Stammfunktion von I/τ 0 , und b eine Stammfunktion von Iτ /τ 0 . Dann folgt
für x ∈ Ω \ N durch Integration
log p(x, θ) = a(θ)T (x) − b(θ) + c(x)
mit einer von x abhängigen Integrationskonstanten c(x).
6
Exponentielle Familien
Definition 6.1. Es seien (Ω, A, µ) ein σ-endlicher Maßraum, Θ ⊆ R ein offenes Intervall und
T : Ω → R messbar und nicht µ-f.ü. konstant. Eine Familie (pθ )θ∈Θ von Wahrscheinlichkeitsdichten auf (Ω, A, µ) heißt exponentielle Familie bzgl. T , wenn es stetig differenzierbare Funktionen a, b : Θ → R und eine messbare Funktion c : Ω → R mit a0 (θ) 6= 0 für alle θ ∈ Θ
und
p(x, θ) = exp a(θ)T (x) − b(θ) + c(x)
gibt. In diesem Fall wird (Ω, A, µ, (pθ )θ∈Θ ) als exponentielles Modell bzgl. T bezeichnet.
Satz 6.2. Es seien (Ω, A, µ, (pθ )θ∈Θ ) ein exponentielles Modell bzgl. T . Dann gelten:
1. Für alle θ ∈ Θ ist T bzgl. Pθ quadratintegrierbar, und es gilt
b0 (θ) = a0 (θ)Eθ (T ).
2. Die Funktion θ 7→ τ (θ) := Eθ (T ) ist stetig differenzierbar, und für alle θ ∈ Θ gilt
τ 0 (θ) = a0 (θ) Varθ (T ) 6= 0.
3. Für alle θ ∈ Θ gilt
I(θ) = a0 (θ)τ 0 (θ).
R
T
4. Für alle S ∈ θ∈Θ L1 (Ω, A, Pθ ) ist die Funktion θ 7→ Ω S(x)p(x, θ)µ(dx) differenzierbar,
und Differentiation und Integration können vertauscht werden, d.h.
Z
Z
d
∂p
S(x)p(x, θ)µ(dx) =
S(x) (x, θ)µ(dx)
dθ Ω
∂θ
Ω
oder, mit anderen Worten,
d
Eθ (S) = Eθ (SUθ ).
dθ
Korollar 6.3.
1. Jedes exponentielle Modell ist regulär.
2. Jeder erwartungstreue Schätzer für τ (θ) := Eθ (T ) ist regulär.
3. T ist ein gleichmäßig varianzminimierender erwatungstreuer Schätzer für τ .
Beweis von Korollar 6.3.
1. RDie vierte Aussage des Satzes mit S ≡ 1 liefert die Existenz des Integrals
Ω ∂p/∂θ(x, θ)µ(dx) und die Vertauschbarkeit von Integration und Differentiation. Aus
der zweiten und dritten Aussage folgt, dass die Fisher-Information für alle θ ∈ Θ endlich
und strikt positiv ist.
17
2. Die Regularität aller erwartungstreuen Schätzer folgt unmittelbar aus der zweiten Aussage des Satzes.
3. Aus der zweiten und dritten Aussage des Satzes folgt
Varθ (T ) =
τ 0 (θ)
τ 0 (θ)2
=
,
a0 (θ)
I(θ)
d.h. T ist ein Cramér-Rao-Schätzer. Da alle erwartungstreuen Schätzer regulär sind,
folgt, dass T gleichmäßig varianzminimierend ist.
Beweis von Satz 6.2.
1. Es genügt, den Satz im Fall a(θ) = θ für alle θ ∈ Θ zu beweisen. Der allgemeine Fall lässt
sich durch Umparametrisierung, d.h. durch Übergang zu θ̃ := a(θ), auf diesen Spezialfall
zurückführen. Einzelheiten: Übung.
T
2. Wir fixieren S ∈ θ∈Θ L1 (Ω, A, Pθ ) und θ ∈ Θ und wählen t ∈ R betragsmäßig so klein,
dass θ + t, θ − t ∈ Θ. Dann gilt
!
∞
∞
X
X
|t|k |t|k
k
k
Eθ |S||T |
|S||T |
= Eθ
k!
k!
k=0
k=0
|tT |
= Eθ (|S|e )
Z
=
|S(x)|e|tT (x)| exp θT (x) − b(θ) + c(x) µ(dx)
ZΩ
=
|S(x)| exp θT (x) + |t||T (x)| exp(c(x) − b(θ))µ(dx)
ZΩ
≤
|S(x)| e(θ+t)T (x) + e(θ−t)T (x) exp(c(x) − b(θ))µ(dx)
Ω
Z
b(θ+t)−b(θ)
= e
|S(x)|e(θ+t)T (x) exp(c(x) − b(θ + t))µ(dx)
ΩZ
|S(x)|e(θ−t)T (x) exp(c(x) − b(θ − t))µ(dx)
+ eb(θ−t)−b(θ)
Ω
Z
b(θ+t)−b(θ)
|S(x)|p(x, θ + t)µ(dx)
= e
ΩZ
+ eb(θ−t)−b(θ)
|S(x)|p(x, θ − t)µ(dx)
Ω
= eb(θ+t)−b(θ) Eθ+t (|S|) + eb(θ−t)−b(θ) Eθ−t (|S|)
< ∞.
Für S ≡ 1 folgt hieraus die Quadratintegrierbarkeit von T bzgl. Pθ .
3. Mit dem Satz von Fubini folgt:
∞ k
X
t
k=0
k!
Eθ ST k
ist wohldefiniert, und Summation und Integration können vertauscht werden, d.h.
!
∞ k
∞ k
X
X
t
t
Eθ ST k
= Eθ S
Tk
k!
k!
k=0
k=0
tT
= Eθ Se
Z
=
S(x)etT (x) exp θT (x) − b(θ) + c(x) µ(dx)
Ω
Z
b(θ+t)−b(θ)
= e
S(x) exp (θ + t)T (x) − b(θ + t) + c(x) µ(dx)
Ω
b(θ+t)−b(θ)
= e
Eθ+t (S).
18
4. Sei
uS (θ) := eb(θ) Eθ (S).
Wir erhalten
uS (θ + t) = eb(θ+t) Eθ+t (S)
∞
X
Eθ ST k k
b(θ)
= e
t .
k!
k=0
Die Funktion uS ist also analytisch, und
u0S (θ) = eb(θ) Eθ (ST ),
u00S (θ) = eb(θ) Eθ (ST 2 ).
5. Für S ≡ 1 folgt: b ist analytisch, und
b0 (θ) = Eθ (T ) = τ (θ),
b0 (θ)2 + b00 (θ) = Eθ (T 2 ),
τ 0 (θ) = b00 (θ) = Varθ (T ) 6= 0, da T nicht µ-f.ü. konstant.
6. Für die Score-Funktion gilt
Uθ (x) =
∂ log p
(x, θ) = T (x) − b0 (θ),
∂θ
und folglich
I(θ) = Varθ (Uθ ) = Varθ (T ) = τ 0 (θ).
7.
d
d −b(θ)
Eθ (S) =
e
uS (θ)
dθ
dθ
= −b0 (θ)e−b(θ) uS (θ) + e−b(θ) u0S (θ)
= −b0 (θ)Eθ (S) + Eθ (ST )
= Eθ (SUθ ).
Beispiel 6.4 (Binomialverteilung mit unbekanntem Erfolgsparameter). Sei
Ω = {0, . . . , n},
A = P(Ω),
µ = Zählmaß,
Θ = (0, 1),
n x
p(x, θ) =
θ (1 − θ)n−x .
x
Dies ist ein exponentielles Modell bzgl. T (x) := x/n, und folglich ist T ein gleichmäßig varianzminimierender erwartungstreuer Schätzer für Eθ (T ) = θ.
Beweis. Es gilt
n
p(x, θ) = exp log
+ x log θ + (n − x) log(1 − θ)
x
n
θ
= exp log
+ x log
+ n log(1 − θ)
x
1−θ
θ
x
n
= exp n log
+ n log(1 − θ) + log
.
1−θ n
x
19
Beispiel 6.5 (Poisson-Verteilung mit unbekantem Parameter). Sei
Ω = N0 ,
A = P(Ω),
µ = Zählmaß,
Θ = R>0 ,
θx
p(x, θ) = e−θ .
x!
Dies ist ein exponentielles Modell bzgl. T (x) := x, und folglich ist T ein gleichmäßig varianzminimierender erwartungstreuer Schätzer für Eθ (T ) = θ.
Beweis. Es gilt
p(x, θ) = exp (−θ + x log θ − log(x!)) .
Beispiel 6.6 (Normalverteilung mit unbekanntem Erwartungswert, aber bekannter Varianz).
Sei σ > 0, und
Ω = R,
A = B(R),
µ = Lebesque-Maß,
Θ = R,
(x − θ)2
.
p(x, θ) = (2πσ 2 )−1/2 exp −
2σ 2
Dies ist ein exponentielles Modell bzgl. T (x) := x, und folglich ist T ein gleichmäßig varianzminimierender erwartungstreuer Schätzer für Eθ (T ) = θ.
Beweis. Es gilt
1
(x − θ)2
2
p(x, θ) = exp − log(2πσ ) −
2
2σ 2
x2
θx
θ2
1
= exp − log(2πσ 2 ) − 2 + 2 − 2
2
2σ
σ
2σ
2
2
θ
θ
x
1
2
= exp
x − 2 − 2 − log(2πσ ) .
σ2
2σ
2σ
2
Beispiel 6.7 (Normalverteilung mit unbekannter Varianz, aber bekanntem Erwartungswert).
Sei m ∈ R, und
Ω = R,
A = B(R),
µ = Lebesque-Maß,
Θ = R,
p(x, θ) = (2πθ)
−1/2
(x − m)2
exp −
2θ
Dies ist ein exponentielles Modell bzgl. T (x) := (x − m)2 , und folglich ist T ein gleichmäßig
varianzminimierender erwartungstreuer Schätzer für Eθ (T ) = θ.
Beweis. Es gilt
1
(x − m)2
p(x, θ) = exp − log(2πθ) −
2
2θ
20
.
Satz 6.8. Sei (Ω, A, µ, (pθ )θ∈Θ ) ein exponentielles Modell bzgl. T . Dann ist das zugehörige
n-fache Produktmodell (Ωn , A⊗n , µ⊗n , (p⊗n
θ )θ∈Θ ) eponentiell bzgl.
n
Tn (x1 , . . . , xn ) :=
1X
T (xi ).
n
i=1
Folgich ist Tn ein gleichmäßig varianzminimierender Schätzer für Eθ (Tn ) = Eθ (T ).
Beweis. Es gelte
p(x, θ) = exp a(θ)T (x) − b(θ) + c(x) .
Dann gilt
p⊗n
θ (x1 , . . . , xn , θ)
=
n
Y
p(xi )
i=1
= exp a(θ)
n
X
T (xi ) − nb(θ) +
i=1
n
X
!
c(xi )
i=1
= exp na(θ)Tn (x1 , . . . , xn ) − nb(θ) +
n
X
!
c(xi ) .
i=1
7
Konsistenz
Definition 7.1. Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, τ : Θ → R eine reelle
Kenngröße und (Tn )n∈N eine Folge von Schätzern für τ . Die Folge (Tn )n∈N heißt konsistent
für τ , wenn für alle θ ∈ Θ und alle ε > 0 gilt:
Pθ |Tn − τ (θ)| > ε → 0
(n → ∞),
wenn also Tn für alle θ ∈ Θ Pθ -stochastisch gegen τ (θ) konvergiert.
Bemerkung. Viele Schätzer basieren auf der Beobachtung der Realisierungen von n unabhängigen und identisch verteilten Zufallsvariablen X1 , . . . , Xn , z.B. das Stichprobenmittel
n
1X
X̄n :=
Xi ,
n
i=1
die Stichprobenvarianz
n
Sn2
1X
:=
(Xi − X̄n )2
n
i=1
und die korrigierte Stichprobenvarianz
n
2
:=
S∗,n
1 X
(Xi − X̄n )2
n−1
i=1
Wenn (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell für die einzelnen Variablen Xi ist, bietet es
sich an, mit dem zugehörigen unendlichen Produktmodell zu arbeiten, d.h. mit dem Modell
(ΩN , A⊗N , (P⊗N
θ )θ∈Θ ). Die kanonische Zufallsvariable X = IdΩN ist dann eine Folge (Xn )n∈N
Ω-wertiger Zufallsvariablen, und unter dem Maß P⊗N
sind die Variablen Xn unabhängig und
θ
jeweils gemäß Pθ verteilt.
21
Beispiel 7.2 (Schätzung des Erwartungswerts durch das Stichprobenmittel). Sei (Pθ )θ∈Θ
eine Familie von Wahrscheinlichkeitsmaßen auf (R, B(R)) derart, dass für alle θ ∈ Θ der
Erwartungswert m(θ) einer gemäß Pθ verteilten Zufallsvariablen existiert und endlich ist. Wir
betrachten das unendliche Produktmodell (RN , B(R)⊗N , (P⊗N
θ )θ∈Θ ) und setzen
n
X̄n :=
1X
Xi ,
n
i=1
Ist die Folge (X̄n )n∈N konsistent für m(θ)? Ja, nach dem schwachen Gesetz der großen Zahlen.
Beispiel 7.3 (Schätzung der Varianz durch die Stichprobenvarianz). Sei (Pθ )θ∈Θ eine Familie
von Wahrscheinlichkeitsmaßen auf (R, B(R)) derart, dass für alle θ ∈ Θ die Varianz σ 2 (θ)
einer gemäß Pθ verteilten Zufallsvariablen endlich ist. Wir betrachten wieder das unendliche
Produktmodell (RN , B(R)⊗N , (P⊗N
θ )θ∈Θ ) und setzen
n
Sn2 :=
1X
(Xi − X̄n )2 ,
n
n
2
S∗,n
:=
i=1
1 X
(Xi − X̄n )2 .
n−1
i=1
2 )
2
Sind die Folgen (Sn2 )n∈N und (S∗,n
n∈N (X̄n )n∈N konsistent für σ (θ)? Wir betrachten zunächst
die unkorrigierte Stichprobenvarianz. Es gilt
n
Sn2 =
1X
(Xi − m(θ))2 − (X̄ − m(θ))2
n
i=1
(Beweis durch Ausmultiplizieren). Der Minuend konvergiert nach dem schwachen Gesetz der
2
großen Zahlen P⊗N
θ -stochastisch gegen Eθ ((X1 − m(θ)) ) = Varθ (X1 ), und der Subtrahend
⊗N
konvergiert Pθ -stochastisch gegen 0. Folglich ist die Folge (Sn2 )n∈N und damit auch die Folge
2 )
2
(S∗,n
n∈N konsistent für σ (θ).
8
Konsistenz von Maximum-Likelihood-Schätzern
Definition 8.1 (Relative Entropie). Es seien P und Q zwei Wahrscheinlichkeitsmaße auf
einem Messraum (Ω, A). Die relative Entropie von Q bzgl. P ist definiert durch
(
+∞
falls Q nicht absolutstetig bzgl. P ist,
H(Q | P) :=
dQ
dQ
dQ
E dP log dP = EQ log dP
falls Q absolutstetig bzgl. P ist.
Lemma 8.2. Für alle Wahrscheinlichkeitsmaße P und Q gilt
H(Q | P) ≥ 0,
mit Gleichheit genau dann, wenn Q = P.
Beweis. Wir können annehmen, dass Q absolutstetig bzgl. P ist; die Dichte bezeichnen wir
mit ρ. Da die Funktion f (x) := x log x streng konvex ist, impliziert die Jensensche Ungleichung, dass
dQ
H(Q | P) = EP f
dP
dQ
≥ f EP
dP
= f (1)
= 0,
mit Gleichheit genau dann, wenn ρ P-f.s. konstant ist, d.h. genau dann, wenn Q = P.
22
Lemma 8.3. Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen,
deren Erwartungswert existiert und strikt positiv ist. Dann gilt
!
n
X
P
Xi > 0 → 1
(n → ∞).
i=1
Beweis. Falls E(X1 ) < ∞, folgt dies unmittelbar aus dem schwachen Gesetz der großen Zahlen. Falls E(X1 ) = ∞, wähle k ∈ N so, dass E(X1 ∧ k) > 0. Dann gilt
!
!
n
n
X
X
P
Xi > 0 ≥ P
(Xi ∧ k) > 0 → 1
(n → ∞).
i=1
i=1
Satz 8.4 (Konsistenz des Maximum-Likelihood-Schätzers in Produktmodellen). Sei (Ω, A, µ,
(pθ )θ∈Θ ) ein einparametriges Standardmodell und (ΩN , A⊗N , (P⊗N
θ )θ∈Θ ) das zugehörige unendliche Produktmodell. Es gelte:
1. Θ ist ein offenes Intervall.
2. p(x, θ) > 0 für alle x ∈ Ω und alle θ ∈ Θ.
3. Das Modell ist identifizierbar, d.h. für θ 6= θ0 gilt Pθ 6= Pθ0 .
4. Für alle n ∈ N ist die n-fache Produkt-Likelihoodfunktion
p⊗n (x, θ) =
n
Y
p(xi , θ)
i=1
unimodal in θ, d.h. für alle x ∈ ΩN existiert Tn (x) ∈ Θ derart, dass die Funktion
θ 7→ p⊗n (x, θ) für θ ≤ Tn (x) wachsend und für θ ≥ Tn (x) fallend ist. (Tn ist dann ein
Maximum-Likelihood-Schätzer für das auf den ersten n Beobachtungen basierende Modell
(Ωn , A⊗n , µ⊗n , (p⊗n
θ )θ∈Θ ).)
Dann ist die Folge (Tn )n∈N konsistent für θ.
Bemerkung.
1. Der Satz gilt auch ohne die zweite Annahme; der Beweis ist dann aber komplizierter.
2. Die vierte Bedingung ist insbesondere dann erfüllt, wenn die Funktion θ 7→ log p(x, θ)
konkav ist mit zunächst positiver und dann negativer Steigung.
Beweis. Wir fixieren θ ∈ Θ und wählen ε > 0 so klein, dass θ + ε, θ − ε ∈ Θ. Zu zeigen ist,
dass
P⊗N
Tn ∈ [θ − ε, θ + ε] → 1
(n → ∞).
θ
Wegen der Unimodalität gilt
⊗n
⊗n
⊗n
pθ > p⊗n
θ+ε und pθ > pθ−ε ⊆ {θ − ε < Tn < θ + ε}
und folglich
⊗n
⊗n
⊗n
P⊗N
Tn ∈ [θ − ε, θ + ε] ≥ P⊗N
p⊗n
θ
θ > pθ+ε und pθ > pθ−ε
θ
!
!
!
⊗n
⊗n
p
p
θ
θ
= P⊗N
log
> 0 und log
>0 .
θ
⊗n
p⊗n
p
θ+ε
θ−ε
Es genügt daher zu zeigen, dass
!
!
p⊗n
⊗N
θ
Pθ
log
>0 →1
p⊗n
θ+ε
und
23
P⊗N
θ
log
p⊗n
θ
p⊗n
θ−ε
!
!
>0
→ 1.
Nach Definition von p⊗n
θ gilt
log
p⊗n
θ
p⊗n
θ+ε
!
=
n
X
log
i=1
pθ
pθ+ε
(Xi ),
und
pθ
pθ
EP⊗N log
(X1 )
= EPθ log
θ
pθ+ε
pθ+ε
dPθ
= EPθ log
dPθ+ε
= H(Pθ | Pθ+ε ) > 0,
da nach Annahme Pθ 6= Pθ+ε . Folglich gilt nach dem letzten Lemma in der Tat
!
!
⊗n
p
θ
>0 →1
(n → ∞).
P⊗N
log
θ
p⊗n
θ+ε
Auf dieselbe Weise erhält man
P⊗N
θ
log
p⊗n
θ
p⊗n
θ−ε
!
!
>0
→1
(n → ∞).
Beispiel 8.5 (Poisson-Verteilung mit unbekanntem Parameter). Sei Ω = N0 , A = P(Ω),
µ = Zählmaß, Θ = R>0 ,
θx
p(x, θ) = e−θ .
x!
Es gilt
d
dθ
d2
dθ2
log p(x, θ) = −θ + x log θ − log(x!),
x
log p(x, θ) = −1 + ,
θ
x
log p(x, θ) = − 2 < 0.
θ
Die Funktion θ 7→ log p(x, θ) ist also konkav mit zunächst positiver und dann negativer Steigung, die Voraussetzungen des Satzes sind also erfüllt. Ferner gilt
log p
⊗n
(x, θ) =
n
X
(−θ + xi log θ − log(xi !))
i=1
= −n + nx̄ log θ −
n
X
log(xi !)
i=1
x̄
d
log p⊗n (x, θ) = n
−1 .
dθ
θ
Folglich gibt es genau einen auf den ersten n Beobachtungen basierenden Maximum-LikelihoodSchätzer, nämlich
Tn (x) = x̄,
und die Folge (Tn )n∈N ist konsistent.
Beispiel 8.6 (Exponentialverteilung mit unbekanntem Parameter). Sei Ω = R>0 , A = B(R>0 ),
µ = Lebesgue-Maß, Θ = R>0 ,
p(x, θ) = θe−θx .
24
Es gilt
d
dθ
d2
dθ2
log p(x, θ) = log θ − θx,
1
log p(x, θ) =
− x,
θ
1
log p(x, θ) = − 2 < 0.
θ
Die Funktion θ 7→ log p(x, θ) ist also konkav mit zunächst positiver und dann negativer Steigung, die Voraussetzungen des Satzes sind also erfüllt. Ferner gilt
log p⊗n (x, θ) =
n
X
(log θ − θxi )
i=1
= n log θ − nx̄,
1
d
⊗n
log p (x, θ) = n
− x̄ .
dθ
θ
Folglich gibt es genau einen auf den ersten n Beobachtungen basierenden Maximum-LikelihoodSchätzer, nämlich
1
Tn (x) = ,
x̄
und die Folge (Tn )n∈N ist konsistent.
9
Bayessche Statistik
In der Bayesschen Statistik wird im Gegensatz zur klassischen Statistik der unbekannte Parameter als Zufallsvariable mit bekannter Verteilung aufgefasst. Gegeben ist also nicht nur
ein statistisches Modell (Ω, A, (Pθ )θ∈Θ ), sondern zusätzlich auf Θ eine σ-Algebra F und ein
Wahrscheinlichkeitsmaß α. Man hat es dann mit einem zweistufigen Zufallsexperiment zu tun:
1. In der ersten Stufe ergibt sich der Parameter θ gemäß dem Wahrscheinlichkeitsmaß α.
2. In der zweiten Stufe ergibt sich X gemäß dem Wahrscheinlichkeitsmaß Pθ .
Zur wahrscheinlickeitstheoretischen Modellierung eignet sich der Produktraum Θ×Ω, versehen
mit der Produkt-σ-Algebra F ⊗ A und dem Wahrscheinlichkeitsmaß P definiert durch
Z
P(F × A) :=
Pθ (A)α(dθ).
F
Gegeben die Beobachtung X = x, interessiert man sich nun für die bedingte Verteilung von α
gegeben diese Beobachtung. Das heißt, für F ∈ F interessiert man sich für
P[θ ∈ F | X = x].
Wir nehmen zunächst an, dass P[X = x] > 0 ist. Dann gilt
R
Pθ ({x})α(dθ)
P[θ ∈ F, X = x]
P[θ ∈ F | X = x] =
= RF
.
P[X = x]
Θ Pθ ({x})α(dθ)
Problem. In vielen Situationen sind Zähler und Nenner 0 (insbesondere in stetigen Modellen).
Man arbeitet daher meist nicht mit der Wahrscheinlichkeit Pθ ({x}), sondern mit der
Wahrscheinlichkeitsdichte. Dazu muss vorausgesetzt werden, dass die Wahrscheinlichkeitsmaße Pθ alle eine Dichte bzgl. eines gemeinsamen Referenzmaßes µ haben, dass wir es also
mit einem Standardmodell zu tun haben.
25
Definition 9.1. Sei (Θ, F, α) ein Wahrscheinlichkeitsraum und (Ω, A, (pθ )θ∈Θ ) ein Standardmodell derart, dass die Funktion p : Θ×Ω → R messbar bzgl. der Produkt-σ-Algebra F ×A ist.
Für alle x ∈ Ω gelte α{θ ∈ Θ | pθ (x) > 0} > 0. Dann heißt für x ∈ Ω das Wahrscheinlichkeitsmaß αx auf (Θ, F) definiert durch
R
pθ (x)α(dθ)
αx (F ) := RF
Θ pθ (x)α(dθ)
die A-posteriori-Verteilung von θ gegeben die Beobachtung x. Das Wahrscheinlichkeitsmaß α
wird in diesem Zusammenhang auch als A-priori-Verteilung von θ bezeichnet.
Beispiel 9.2. Wir interessieren uns für die Wahrscheinlichkeit θ, dass eine manipulierte
Münze Kopf“ zeigt. Aufgrund unserer Erfahrung mit manipulierten Münzen wissen wir,
”
dass θ a priori gleichverteilt auf [0, 1] ist. Wir werfen die Münze n-mal und erhalten x-mal
Kopf“.
”
Frage. Was ist die A-posteriori-Verteilung von θ gegeben diese Beobachtung?
Gegeben:
Θ = [0, 1],
F
= B([0, 1]),
α = Lebesgue-Maß,
Ω = {0, . . . , n},
A = P(Ω),
µ = Zählmaß,
n x
pθ (x) =
θ (1 − θ)n−x .
x
Es folgt
n x
θ (1 − θ)n−x dθ
RF1 nx
x
n−x dθ
0 x θ (1 − θ)
R
αx (F ) =
R
= RF1
0
θx (1 − θ)n−x dθ
θx (1 − θ)n−x dθ
,
αx ist also die Beta-Verteilung mit Parametern x + 1 und n − x + 1.
Lemma 9.3. Sei P das Wahrscheinlichkeitsmaß auf (Ω, A) definiert durch
Z
Pθ (A)α(dθ) = P(Θ × A).
P (A) :=
Θ
Dann gilt für alle messbaren Funktionen f : Ω×Θ → R, die nichtnegativ oder bzgl. P integrierbar sind:
Z
Z Z
Z Z
f (x, θ)P(dθ, dx) =
f (x, θ)Pθ (dx)α(dθ) =
f (x, θ)αx (dθ)P (dx).
Θ×Ω
Θ
Ω
Ω
Θ
Beweis. Sei zunächst f nichtnegativ. Nach Definition von αx gilt
Z
Z
1
R
f (x, θ)αx (dθ) =
f (x, θ)pθ (x)α(dθ).
Θ
Θ pθ (x)α(dθ) Θ
Ferner gilt für alle messbaren Funktionen g : Ω → R+ :
Z
Z
Z
g(x)P (dx) =
g(x)
pθ (x)α(dθ)µ(dx).
Ω
Ω
Θ
26
R
Anwendung auf die Funktion g(x) := Θ f (x, θ)αx (dθ) liefert
Z
Z
Z Z
Z
1
R
pθ (x)α(dθ)µ(dx)
f (x, θ)αx (dθ)P (dx) =
f (x, θ)pθ (x)α(dθ)
Ω Θ pθ (x)α(dθ) Θ
Θ
Ω Θ
Z Z
f (x, θ)pθ (x)α(dθ)µ(dx)
=
Ω
Θ
Z Z
f (x, θ)pθ (x)µ(dx)α(dθ).
=
Θ
Ω
R
Definition 9.4. Sei τ : Θ → R eine messbare reelle Kenngröße mit Θ τ (θ)2 α(dθ) < ∞.
Ein Schätzer T : Ω → R für τ heißt Bayes-Schätzer zur A-priori-Verteilung α, wenn er den
über x und θ gemittelten quadratischen Fehler
Z
Eθ (T − τ (θ))2 α(dθ)
MSEα (T ) :=
Θ
minimiert.
Satz 9.5. Es gibt bis auf fast P -fast sichere Gleichheit genau einen Bayes-Schätzer, nämlich
Z
τ (θ)αx (dθ).
T (x) := Eαx (τ ) =
Θ
Beweis. Sei S : Ω → R irgendein Schätzer. Nach dem Lemma gilt
Z Z
MSEα (S) − MSEα (T ) =
(S(x) − τ (θ))2 − (T (x) − τ (θ))2 Px (dθ)α(dθ)
ZΘ Z Ω
=
S(x)2 − 2S(x)τ (θ) − T (x)2 + 2T (x)τ (θ) αx (dθ)P (dx).
Ω
Θ
Mit der Definition von T folgt für das innere Integral
Z
S(x)2 − 2S(x)τ (θ) − T (x)2 + 2T (x)τ (θ) αx (dθ) = S(x)2 − 2S(x)T (x) − T (x)2 + 2T (x)2
Θ
= (S(x) − T (x))2
= ≥ 0,
mit Gleichheit genau dann, wenn S(x) = T (x).
Beispiel 9.6. Es soll der Erwartungswert θ einer normalverteilten Zufallsvariablen X mit
bekannter Varianz v > 0 geschätzt werden. A priori sei θ normalverteilt mit Erwartungswert
m ∈ R und Varianz u > 0. Zur Schätzung von θ werden die Realisierungen von n unabhängigen
Kopien X1 , . . . , Xn von X beobachtet.
Gegeben:
Θ = R,
F
= B(R),
(θ − m)2
,
α(dθ) = (2πu)−n/2 exp −
2u
Ω = Rn ,
A = B(Rn ),
µ = Lebesgue-Maß,
−n/2
pθ (x) = (2πv)
n
1 X
exp −
(xi − θ)2
2v
i=1
27
!
.
Es folgt
αx (dθ) = Cpθ (x)α(dθ)
n
1 X
0
= C exp −
(xi − θ)2
2v
!
(θ − m)2
exp −
2u
i=1
!
n
1 X
(θ − m)2
= C 0 exp −
(xi − θ)2 −
2v
2u
i=1
nx̄ m 1
n
2
00
θ −
+
+
θ
= C (x) exp −
2v 2u
v
u
 
nux̄ + vm 2
θ−


nu + v


= C 000 (x) exp −
.
uv


2
nu + v
αx ist also die Normalverteilung mit Mittelwert
nux̄ + vm
nu + v
und Varianz
uv
.
nu + v
Der Bayes-Schätzer ist folglich durch
T (x) =
nux̄ + vm
nu + v
gegeben. Man beachte:
1. T (x) ist eine Konvexkombination aus dem A-priori-Erwartungswert m und dem empirischen Mittelwert x̄.
2. Je zuverlässiger die A-priori-Information ist (d.h. je kleiner die Varianz u), desto näher
liegt T (x) an m.
3. Je größer die Zahl an Beobachtungen, desto näher liegt T (x) an x̄.
10
Konfidenzbereiche
Definition 10.1. Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, (Σ, S) ein Messraum,
τ : Θ → Σ eine Kenngröße und α ∈ (0, 1). Eine Abbildung C : Ω → P(Σ) heißt Konfidenzbereich für τ zum Irrtumsniveau α (oder Konfidenzniveau 1 − α), falls für alle θ ∈ Θ gilt:
1. {x ∈ Ω | C(x) 3 τ (θ)} ∈ A,
2. Pθ {x ∈ Ω | C(x) 3 τ (θ)} ≥ 1 − α.
Bemerkung.
1. Die zweite Bedingung lässt sich auch schreiben als
Pθ {C(X) 3 s(θ)} ≥ 1 − α
für alle θ ∈ Θ.
Dabei ist folgendes zu beachten: Da X zufällig ist, ist auch C(X) zufällig. Der Parameter θ (und damit auch τ (θ)) hingegen ist zwar unbekannt, wird aber nicht als Zufallsvariable angesehen (zumindest in der klassischen Statistik), da für ihn keine Verteilung
spezifiziert ist. Es ist daher sinnlos zu behaupten, dass, gegeben die Beobachtung X = x,
τ (θ) mit Wahrscheinlichkeit ≥ 1 − α in C(x) liege. Richtig ist vielmehr, dass man mit
Wahrscheinlichkeit ≥ 1 − α eine Menge C(X) erhält, die τ (θ) enthält.
28
2. Eine Möglichkeit ist C(x) = Σ für alle x ∈ Ω. Dies ist zwar ein Konfidenzbereich für jedes
α ∈ (0, 1), aber praktisch völlig nutzlos. Es ist daher zusätzlich zu fordern, dass C(x)
möglichst klein ist. Insbesondere sollte die obige Wahrscheinlichkeit möglichst gleich
1 − α sein (oder zumindest so wenig wie möglich von 1 − α nach oben abweichen).
3. Wenn Σ ein Intervall ist, wählt man in der Regel C so, dass auch C(x) für alle x ∈ Ω
ein Intervall ist. Man spricht dann auch von einem Konfidenzintervall.
Beispiel 10.2 (Schätzung des Erwartungswerts einer normalverteilten Zufallsvariablen mit
⊗n
bekannter Varianz). Sei σ > 0, Ω = Rn , A = B(Rn ), Θ = R, Pθ = Nθ,σ
2 . Ein Konfidenzintervall für den Erwartungswert θ zum Irrtumsniveau α lässt sich wie folgt bestimmen:
1. Ausgangspunkt ist das Stichprobenmittel
n
X̄ =
1X
Xi .
n
i=1
Unter Pθ ist X̄ normalverteilt mit Erwartungswert θ und Varianz σ 2 /n.
2. Folglich ist
√
n(X̄ − θ)
σ
standardnormalverteilt, und zwar unabhängig von θ.
Zn :=
3. Wir suchen nun eine Zahl z > 0 derart, dass
Pθ (|Zn | ≤ z) = 1 − α.
Denn dann gilt
√
n|X̄ − θ|
1 − α = Pθ
≤z
σ
zσ
= Pθ |X̄ − θ| ≤ √
n
zσ
zσ
= Pθ X̄ − √ , X̄ + √
3θ ,
n
n
d.h.
zσ
zσ
X̄ − √ , X̄ + √
n
n
ist ein Konfidenzintervall für θ zum Konfidenzniveau 1 − α.
4. z lässt sich wie folgt bestimmen: Es gilt
!
Pθ (|Zn | ≤ z) = 2Pθ (Zn ≤ z) − 1 = 1 − α,
also
!
Pθ (Zn ≤ z) = 1 − α/2,
d.h. z ist das (1 − α/2)-Quantil der Standardnormalverteilung z1−α/2 .
Zusammengefasst: Für alle θ ∈ R gilt
z1−α/2 σ
z1−α/2 σ
, X̄ + √
3 θ = 1 − α,
Pθ X̄ − √
n
n
und folglich ist dieses Intervall ein Konfidenzintervall für θ zum Konfidenzniveau 1 − α.
29
Bemerkung. Es sei nun die Varianz σ 2 unbekannt. Das statistische Modell ist dann
⊗n
(Rn , B(Rn ), (Nµ,σ
2 )µ∈R,σ∈R>0 ). Es liegt nahe, die Varianz durch die korrigierte Stichprobenvarianz
n
1 X
2
S∗ =
(Xi − X̄)2
n−1
i=1
zu schätzen und statt mit Zn mit der Größe
√
n(X̄ − µ)
Tn :=
S∗
zu arbeiten. Tn ist im Gegensatz zu Zn nicht normalverteilt; allerdings hängt die Verteilung
von Tn bemerkenswerterweise nicht von µ oder σ ab.
11
Verteilungen rund um die Normalverteilung
Lemma 11.1 (Transformationsformel für Dichten bzgl. des Lebesgue-Maßes). Seien B1 , B2 ⊆
Rn offen, µ ein Maß auf B1 mit Dichte ρ und T : B1 → B2 ein Diffeomorphismus. Dann hat
das Bildmaß µT von µ unter T die Dichte
ρT (y) = ρ(T −1 (y)) |det DT −1 (y)|.
Beweis. Sei A ⊆ B2 offen. Dann gilt nach dem Transformationssatz für das Lebesgue-Integral
µT (A) = µ(T −1 (A))
Z
=
ρ(x)dx
T −1 (A)
Z
=
ρ(T −1 (y) |det DT −1 (y)| dy.
A
Satz 11.2. Seien X1 , . . . , Xn n unabhängige standardnormalverteilte Zufallsvariablen und X
der Vektor (X1 , . . . , Xn )T . Ferner seien A ∈ GLn (R) und m ∈ Rn . Dann hat der Vektor
Y := AX + m die Dichte
1
(2π)−n/2 | det A|−1 exp − (y − m)T (AAT )−1 (y − m)
2
bzgl. des Lebesgue-Maßes.
Beweis. Der Vektor X hat die Dichte
|x|2
exp −
2
−n/2
(2π)
Da A invertierbar ist, ist die Abbildung T : Rn → Rn , T (x) = Ax + m, ein Diffeomorphismus
mit Umkehrabbildung T −1 (y) = A−1 (y−m). Die Behauptung folgt daher aus dem Lemma.
Korollar 11.3. Wenn A orthogonal ist, sind die Komponenten von AX unabhängig und
standardnormalverteilt.
Beweis. In diesem Fall ist die Verteilung von AX dieselbe wie die von X.
Definition 11.4. Die Gamma-Verteilung mit Parametern α > 0 und r > 0 ist das
Wahrscheinlichkeitsmaß Γα,r auf R mit der Dichte
γα,r (x) :=
1{x>0} αr r−1 −αx
x e
Γ(r)
bzgl. des Lebesgue-Maßes. Hierbei ist
Z
Γ(r) :=
∞
y r−1 e−y dy
0
die Gamma-Funktion.
30
Satz 11.5. Sei X standardnormalverteilt. Dann ist X 2 Gamma-verteilt mit Parametern 1/2
und 1/2.
Beweis. Die Dichte ρ von |X| ist 0 für x ≤ 0 und das Doppelte der Standardnormalverteilungsdichte für x > 0, also
r
1 − x2
2 − x2
ρ(x) = 2 · 1{x>0} √ e 2 = 1{x>0}
e 2.
π
2π
Sei T : R>0 → R>0 gegeben durch T (x) := x2 . Nach der Transformationsformel für Dichten
folgt, dass X 2 die Dichte ρT hat, wobei
ρT (y) = 1{y>0} ρ(T −1 (y)) |det DT −1 (y)|
1
√
= 1{y>0} ρ( y) √
2 y
r
2 −y/2 1
= 1{y>0}
e
√
π
2 y
1
= 1{y>0} √ y −1/2 e−y/2 .
2π
Dies ist bis auf einen konstanten Faktor gleich γ1/2,1/2 (y).
Definition 11.6. Die Beta-Verteilung mit Parametern a > 0 und b > 0 ist das
Wahrscheinlichkeitsmaß Bα,r auf R mit der Dichte
βa,b (x) :=
1{x∈(0,1)} a−1
x (1 − x)b−1
B(a, b)
bzgl. des Lebesgue-Maßes. Hierbei ist
Z
B(a, b) :=
1
y a−1 (1 − y)b−1 dy
0
die Eulersche Beta-Funktion.
Satz 11.7. Seien α, r, s > 0 und X und Y unabhängige Zufallsvariablen, wobei X Gammaverteilt mit Parametern α und r und Y Gamma-verteilt mit Parametern α und s sei. Dann
gilt:
1. X + Y und X/(X + Y ) sind unabhängig.
2. X + Y ist Gamma-verteilt mit Parametern α und r + s.
3. X/(X + Y ) ist Beta-verteilt mit Parametern r und s.
Beweis. Da X und Y unabhängig sind, ist die gemeinsame Verteilung von X und Y das
Produktmaß Γα,r ⊗ Γα,s mit Dichte
1{x>0,y>0} αr+s r−1 s−1 −α(x+y)
ρ(x, y) = γα,r (x)γα,s (y) =
x y e
.
Γ(r)Γ(s)
Wir betrachten jetzt die Abbildung T : R2>0 → R>0 × (0, 1) gegeben durch
x
T (x, y) = x + y,
.
x+y
T ist ein Diffeomorphismus mit Umkehrfunktion
T −1 (u, v) = (uv, u(1 − v)) .
31
Es gilt
DT
−1
(u, v) =
v
u
1 − v −u
und folglich
| det DT −1 (u, v)| = u.
Es folgt, dass der Vektor (X + Y, X/(X + Y )) = T (X, Y ) die Dichte ρT hat, wobei
ρT (u, v) = 1{u>0,v∈(0,1)} ρ(T −1 (u, v)) |det T −1 (u, v)|
= 1{u>0,v∈(0,1)} ρ(uv, u(1 − v))u
=
=
1{u>0,v∈(0,1)} αr+s
(uv)r−1 (u(1 − v))s−1 e−αu u
Γ(r)Γ(s)
1{u>0,v∈(0,1)} αr+s r+s−1 −αu r−1
u
e
v (1 − s)s−1 .
Γ(r)Γ(s)
KorollarP
11.8. Es seien X1 , . . . , Xn n unabhängige standardnormalverteilte Zufallsvariablen.
Dann ist ni=1 Xi2 Gamma-verteilt mit Parametern 1/2 und n/2.
Bemerkung. Die Gamma-Verteilung mit Parametern 1/2 und n/2 wird auch als ChiquadratVerteilung mit n Freiheitsgraden bezeichnet. Das Korollar besagt also, dass die Summe der
Quadrate von n unabhängigen standardnormalverteilten Zufallsvariablen Chiquadrat-verteilt
mit n Freiheitsgraden ist.
Satz 11.9. Es seien X1 , . . . , Xm , Y1 , . . . , Yn m+n unabhängige standardnormalverteilte Zufallsvariablen. Dann ist der Quotient
Fm,n
1 Pm
2
i=1 Xi
m
:=
1 Pn
Y2
n j=1 j
Fisher-verteilt (oder F -verteilt) mit m Zählerfreiheitsgraden und n Nennerfreiheitsgraden, d.h.
seine Verteilung besitzt die Dichte
fm,n (x) :=
1{x>0} mm/2 nn/2
xm/2−1
B(m/2, n/2) (n + mx)(m+n)/2
bzgl. des Lebesgue-Maßes.
Beweis. Es seien
X :=
m
X
Xi2 ,
Y :=
i=1
n
X
Yi2 .
i=1
Dann sind X und Y unabhängig, X ist Gamma-verteilt mit Parametern 1/2 und m/2, und
Y ist Gamma-verteilt mit Parametern 1/2 und n/2. Folglich ist
Z :=
X
X +Y
Beta-verteilt mit Parametern m/2 und n/2. Ferner gilt
Z
X/(X + Y )
X
=
=
1−Z
Y /(X + Y )
Y
und damit
Fm,n =
nX
n Z
=
= T (Z),
mY
m1−Z
32
wobei
T (z) :=
nz
.
m(1 − z)
T ist ein Diffeomorphismus von (0, 1) auf R>0 mit Umkehrabbildung
T −1 (x) =
mx
n
=1−
,
n + mx
n + mx
(T −1 )0 (x) =
nm
(n + mx)2
Folglich hat Fm,n die Dichte
βm/2,n/2 (T −1 (x))|(T −1 )0 (x)|
1{T −1 (x)∈(0,1)} −1 m/2−1
nm
=
T (x)
(1 − T −1 (x))n/2−1
B(m/2, n/2)
(n + mx)2
m/2−1 n/2−1
1{x>0}
mx
mx
nm
=
1−
B(m/2, n/2) n + mx
n + mx
(n + mx)2
=
1{x>0} mm/2 nn/2
xm/2−1
.
B(m/2, n/2) (n + mx)(m+n)/2
Satz 11.10. Es seien X, Y1 , . . . , Yn n+1 unabhängige standardnormalverteilte Zufallsvariablen.
Dann ist
X
T := q P
n
1
2
i=1 Yj
n
t-verteilt mit n Freiheitsgraden, d.h. die Verteilung von T hat die Dichte
tn (x) :=
nn/2
B(1/2, n/2)(n + x2 )(n+1)/2
bzgl. des Lebesgue-Maßes.
Beweis. Nach dem vorigen Satz ist T 2 F -verteilt mit einem
√ Zählerfreiheitsgrad und n Nennerfreiheitsgraden. Folglich hat die Verteilung von |T | = T 2 die Dichte
1{x>0} nn/2
x−1
· 2x
B(1/2, n/2) (n + x2 )(1+n)/2
= 2 · 1{x>0} tn (x).
f1,n (x2 ) · 2x =
Da aus Symmetriegründen −T dieselbe Verteilung hat wie T , folgt die Behauptung.
Satz 11.11. Es seien X1 , . . . , Xn unabhängig und normalverteilt mit Erwartungswert m ∈ R
und Varianz σ 2 > 0. Dann gilt:
1. X̄ und S∗2 sind unabhängig.
n−1 2
S ist Chiquadrat-verteilt mit n − 1 Freiheitsgraden.
σ2 ∗
√
n(X̄ − m)
3. Tn :=
ist t-verteilt mit n − 1 Freiheitsgraden.
S∗
2.
Beweis. Wir können annehmen, dass die Variablen Xi standardnormalverteilt sind; andernfalls gehen wir zu den standardisierten Variablen (Xi −m)/σ über. Sei X := (X1 , . . . , Xn ), und
√
sei U ∈ O(n) eine orthogonale Matrix, deren Einträge in der ersten Zeile alle gleich 1/ n sind.
33
Sei Y := U X. Dann sind die Komponenten von Y unabhängig und standardnormalverteilt;
ferner gelten
√
n
nX̄ =
1 X
√
Xi = Y1 ,
n
i=1
(n − 1)S∗2 =
n
X
(Xi − X̄)2
i=1
=
n
X
Xi2 − nX̄ 2
i=1
= |Y |2 − Y12
n
X
=
Yi2 ,
i=2
√
Tn =
=
nX̄
S∗
1
n−1
Y1
Pn
2
i=2 Yi
.
Aus der Unabhängigkeit der Variablen Yi folgen dann alle drei Behauptungen.
Korollar 11.12 (Konfidenzintervall für den Erwartungswerts einer normalverteilten Zufalls⊗n
variablen mit unbekannter Varianz). Sei Ω = Rn , A = B(Rn ), Θ = R × R>0 , Pm,σ2 = Nm,σ
2.
2
Dann gilt für alle (m, σ ) ∈ Θ:
tn−1,1−α/2 S∗
tn−1,1−α/2 S∗
√
√
Pm,σ2
X̄ −
, X̄ +
3 m = 1 − α,
n
n
wobei tn−1,1−α/2 das (1 − α/2)-Quantil der t-Verteilung mit n − 1 Freiheitsgraden bezeichne.
Folglich ist die Abbildung
tn−1,1−α/2 s∗
tn−1,1−α/2 s∗
√
√
x 7→ C(x) := x̄ −
, x̄ +
n
n
ein Konfidenzintervall für m zum Irrtumsniveau α.
12
Hypothesentests
Gegeben: Eine Behauptung H0 über den Parameter θ ( Nullhypothese“, mathematisch: eine
”
Teilmenge Θ0 von Θ), deren Gültigkeit überprüft werden soll.
Idee: H0 wird verworfen, wenn unter H0 die Beobachtung x zu unwahrscheinlich ist.
Definition 12.1. Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, Θ0 eine nichtleere echte
Teilmenge von Θ und Θ1 := Θ \ Θ0 .
1. Die Nullhypothese ist die Behauptung H0 : θ ∈ Θ0 .
2. Die Alternativhypothese oder Alternative ist die Behauptung H1 : θ ∈ Θ1 .
3. Ein Test von H0 gegen H1 (oder Θ0 gegen Θ1 ) ist eine messbare Abbildung ϕ : Ω → [0, 1].
Interpretation. Wir beobachten die Realisierung x der kanonischen Zufallsvariablen X und
entscheiden dann wie folgt:
1. Wenn ϕ(x) = 1, verwerfen wir die Nullhypothese.
34
2. Wenn ϕ(x) = 0, verwerfen wir die Nullhypothese nicht.
3. Wenn ϕ(x) ∈ (0, 1), verwerfen wir die Nullhypothese mit Wahrscheinlichkeit ϕ(x). (Wir
können z.B. unabhängig von X eine in [0, 1] gleichverteilte Zufallszahl ziehen und H0
genau dann verwerfen, wenn diese Zufallszahl kleiner als ϕ(x) ist.)
Definition 12.2.
1. Ein Test ϕ : Ω → [0, 1] heißt nichtrandomisiert, wenn ϕ nur die Werte 0 und 1
annimmt. Andernfalls heißt er randomisiert. (In der Praxis sind Tests in aller Regel nichtrandomisiert. Aus theoretischen Gründen ist es allerdings zweckmäßig, auch randomisierte Tests zuzulassen.)
2. Man nennt
• {x ∈ Ω | ϕ(x) = 1} den Verwerfungsbereich, Ablehnungsbereich oder kritischen
Bereich,
• {x ∈ Ω | ϕ(x) = 0} den Annahmebereich, und
• {x ∈ Ω | ϕ(x) ∈ (0, 1)} den Randomisierungsbereich des Tests ϕ.
Die Bezeichnung Annahmebereich“ ist allerdings etwas irreführend: Wenn ϕ(x) = 0 ist,
”
wird die Nullhypothese NICHT in dem Sinne angenommen“, dass davon ausgegangen
”
wird, dass sie zutrifft. Die Nullhypothese wird dann lediglich nicht verworfen.
3. Ein Fehler erster Art liegt vor, wenn die Nullhypothese verworfen wird, obwohl sie
zutrifft. (Wenn der wahre Parameter θ ∈ Θ0 ist, beträgt die Wahrscheinlichkeit eines
Fehlers erster Art bei einem nichtrandomisierten Test Pθ (ϕ = 1) und im Allgemeinen
Eθ (ϕ).
4. Ein Fehler zweiter Art liegt vor, wenn die Nullhypothese nicht verworfen wird, obwohl sie
falsch ist. (Wenn der wahre Parameter θ ∈ Θ1 ist, beträgt die Wahrscheinlichkeit eines
Fehlers zweiter Art bei einem nichtrandomisierten Test Pθ (ϕ = 0) und im Allgemeinen
1 − Eθ (ϕ).
5. Sei α ∈ (0, 1). Ein Test ϕ heißt Test zum Irrtumsniveau (Signifikanzniveau, Niveau) α,
wenn die Wahrscheinlichkeit eines Fehlers erster Art höchstens α beträgt, wenn also
Eθ (ϕ) ≤ α
für alle θ ∈ Θ0 gilt. Das effektive Niveau eines Tests ist supθ∈Θ0 Eθ (ϕ).
6. Die Gütefunktion eines Tests ϕ ist die Abbildung Gϕ : Θ → [0, 1],
Gϕ (θ) := Eθ (ϕ).
(Für θ ∈ Θ1 ist Gϕ (θ) die Wahrscheinlichkeit, mit der die Nullhypothese zutreffenderweise verworfen wird, und wird als Macht des Tests bei θ bezeichnet. Für θ ∈ Θ0 hingegen
ist Gϕ (θ) die Wahrscheinlichkeit, dass die Nullhypothese fälschlicherweise verworfen
wird.)
Satz 12.3 (Äquivalenz von Konfidenzbereichen und nichtrandomisierten Tests punktförmiger
Nullhypothesen). Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, (Σ, S) ein Messraum,
τ : Θ → Σ eine nichtkonstante Kenngröße und α ∈ (0, 1). Für jedes s ∈ τ (Θ) seien Θ0 (s) :=
τ −1 (s) und Θ1 (s) := Θ \ Θ0 (s).
35
1. Sei C : Ω → P(Σ) ein Konfidenzbereich für τ zum Irrtumsniveau α. Dann ist für jedes
s ∈ τ (Θ) die Abbildung ϕs : Ω → {0, 1} mit
(
0 wenn s ∈ C(x),
ϕs (x) :=
1 wenn s ∈
/ C(x)
ein nichtrandomisierter Test von Θ0 (s) gegen Θ1 (s) zum Irrtumsniveau α.
2. Umgekehrt sei für jedes s ∈ τ (Θ) ein nichtrandomisierter Test ϕs von Θ0 (s) gegen Θ1 (s)
zum Irrtumsniveau α gegeben. Dann ist die Abbildung C : Ω → P(Σ) mit
C(x) := {s ∈ Σ | ϕs (x) = 0}
ein Konfidenzbereich für τ zum Irrtumsniveau α.
3. Diese beiden Operationen sind invers zueinander.
Beweis. Übung (folgt direkt aus den Definitionen).
Bemerkung.
1. Eine entsprechende Aussage gilt auch für randomisierte Tests; man erhält dann randomisierte Konfidenzbereiche.
2. Die Theorie der Konfidenzbereiche lässt sich aufgrund dieses Satzes auf die Theorie der
Tests zurückführen.
Beispiel 12.4 (Tests im Gauß-Modell). Es seien X1 , . . . , Xn unabhängige identisch normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ. Getestet werden soll die Nullhypothese H0 : µ = µ0 gegen die Alternative H1 : µ 6= µ0 , und zwar auf dem Niveau α ∈ (0, 1).
1. Es sei zunächst die Varianz σ 2 bekannt. Dann ist die Abbildung C : Rn → P(R),
σz1−α/2
σz1−α/2
C(x) = x̄ − √
, x̄ + √
n
n
ein Konfidenzbereich für µ zum Irrtumsniveau α. Folglich ist für jedes µ0 ∈ R die
Abbildung ϕ : R → {0, 1} mit

√
n|x̄ − µ0 |

0 wenn zn :=
≤ z1−α/2 ,
ϕ(x) =
σ
1 wenn z > z
,
n
1−α/2
ein nichtrandomisierter Test der Nullhypothese H0 : µ = µ0 zum Niveau α (sog. z-Test).
2. Entsprechendes gilt bei unbekannter Varianz für die Abbildung ϕ : R → {0, 1},
√

0 wenn t := n|x̄ − µ0 | ≤ t
n
n−1,1−α/2 ,
ϕ(x) =
s∗

1 wenn tn > tn−1,1−α/2
(sog. t-Test).
Frage. Sind diese Tests optimal“?
”
Definition 12.5. Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, Θ0 eine nichtleere echte
Teilmenge von Θ, Θ1 := Θ \ Θ0 und α ∈ (0, 1). Ein Test ϕ von Θ0 gegen Θ1 heißt gleichmäßig
bester Test zum Niveau α, falls gilt:
1. ϕ ist ein Test zum Niveau α.
2. Für alle Tests ψ von Θ0 gegen Θ1 zum Niveau α und alle θ ∈ Θ1 gilt
Gϕ (θ) ≥ Gψ (θ).
36
13
Tests bei einfacher Nullhypothese und Alternative, Neyman-Pearson-Lemma, Lemma von Stein
Wir betrachten in diesem Abschnitt den einfachsten Fall, nämlich den eines Standardmodells,
bei dem sowohl die Nullhypothese als auch die Alternative einfach, d.h. einelementig, sind.
Sei also
• Θ = {0, 1},
• (Ω, A, µ, p0 , p1 ) ein Standardmodell,
• Θ0 = {0}, Θ1 = {1}.
Dann ist es naheliegend, die Testentscheidung vom Wert des Dichtequotienten
(
p1 (x)/p0 (x) falls p0 (x) > 0,
R(x) :=
∞
falls p0 (x) = 0.
abhängig zu machen. (Je größer R(x), desto plausibler ist die Alternative, und desto eher
sollte die Nullhypothese verworfen werden.)
Definition 13.1. Sei (Ω, A, µ, p0 , p1 ) ein Standardmodell mit einfacher Nullhypothese
Θ0 = {0} und einfacher Alternative Θ1 = {1}. Ein Test ϕ : Ω → [0, 1] von Θ0 gegen Θ1
heißt Neyman-Pearson-Test, falls es eine Zahl c > 0 (den Schwellenwert des Tests) gibt mit
(
0 falls R(x) < c,
ϕ(x) =
1 falls R(x) > c.
Satz 13.2 (Neyman-Pearson-Lemma).
1. Zu jedem α ∈ (0, 1) gibt es einen Neyman-Pearson-Test ϕ mit E0 (ϕ) = α.
2. Jeder Neyman-Pearson-Test ϕ mit E0 (ϕ) = α ist ein gleichmäßig bester Test zum
Niveau α.
3. Ist ϕ ein Neyman-Pearson-Test mit E0 (ϕ) = α und Schwellenwert c und ist ψ ein
weiterer gleichmäßig bester Test zum Niveau α, so gibt es eine Menge N ∈ A mit
P0 (N ) = P1 (N ) = 0 derart, dass ψ(x) = ϕ(x) für alle x ∈ Ω \ (N ∪ {R = c}).
Beweis.
1. Sei c ein (1 − α)-Quantil der Verteilung von R unter P0 , d.h. eine Zahl mit
P0 (R ≤ c) ≥ 1 − α
und P0 (R ≥ c) ≥ α.
Wir definieren nun ϕ durch


0
ϕ(x) := γ


1
wobei

0
γ := α − P0 (R > c)

P0 (R = c)
falls R(x) < c,
falls R(x) = c,
falls R(x) > c.
falls P0 (R = c) = 0,
falls P0 (R = c) > 0.
Wenn P0 (R = c) = 0, gilt
E0 (ϕ) = P0 (R > c) = α,
37
und wenn P0 (R = c) > 0, dann
E0 (ϕ) = P0 (R > c) + γP0 (R = c)
α − P0 (R > c)
= P0 (R > c) +
P0 (R = c)
P0 (R = c)
= α.
2. Sei ϕ ein Neyman-Pearson-Test mit E0 (ϕ) = α und Schwellenwert c und ψ ein beliebiger
Test zum Niveau α. Dann gilt
Gϕ (1) − Gψ (1) = E1 (ϕ) − E1 (ψ)
Z
(ϕ(x) − ψ(x)) p1 (x)µ(dx).
=
Ω
Für den Integranden gilt das Folgende:
(a) Wenn ϕ(x) > ψ(x) ist, gilt ϕ(x) > 0, folglich R(x) ≥ c und damit p1 (x) ≥ cp0 (x).
(b) Wenn ϕ(x) < ψ(x) ist, gilt ϕ(x) < 1, folglich R(x) ≤ c und damit p1 (x) ≤ cp0 (x).
In beiden Fällen gilt
(ϕ(x) − ψ(x))p1 (x) ≥ c(ϕ(x) − ψ(x))p0 (x)
und damit
Z
Gϕ (1) − Gψ (1) =
(ϕ(x) − ψ(x)) p1 (x)µ(dx)
Ω
Z
≥ c
(ϕ(x) − ψ(x)) p0 (x)µ(dx)


Ω


= c E0 (ϕ) − E0 (ψ)
| {z } | {z }
=α
≤α
≥ 0.
3. Sei nun ψ ein gleichmäßig bester Test zum Niveau α. Dann gilt in der obigen
Ungleichungskette an beiden Stellen Gleichheit und folglich
(ϕ(x) − ψ(x))p1 (x) = c(ϕ(x) − ψ(x))p0 (x)
µ-f.ü.
Es gibt also eine µ-Nullmenge N1 mit
(ϕ(x) − ψ(x))(p1 (x) − cp0 (x)) = 0
für alle x ∈ Ω \ N1 . Sei nun N := N1 ∪ {p0 = p1 = 0}. Dann gilt P0 (N ) = P1 (N ) = 0,
und außerhalb von N ∪ {R = c} gilt ψ = ϕ.
Beispiel 13.3 (Normalverteilung mit bekannter Varianz). Es seien X1 , . . . , Xn unabhängige
identisch normalverteilte Zufallsvariablen mit bekannter Varianz σ 2 > 0 und Erwartungswert
entweder m0 oder m1 , wobei m1 > m0 . Wir verwenden das statistische Modell Ω = Rn ,
A = B(Rn ), µ = Lebesgue-Maß,
!
n
X
(xi − mj )2
2 −n/2
pj (x) = (2πσ )
exp −
,
j ∈ {0, 1}.
2σ 2
i=1
38
1. Der Dichtequotient beträgt
R(x) =
p1 (x)
p0 (x)
= exp −
n
X
(xi − m1 )2 − (xi − m0 )2
!
2σ 2
i=1
n
= exp − 2 −2x̄m1 + m21 + 2x̄m0 − m20
2σ
n
= exp − 2 (m1 − m0 )(m1 + m0 − 2x̄)
2σ
m1 + m0
n(m1 − m0 )
x̄ −
.
= exp
σ2
2
2. Da nach Voraussetzung m1 > m0 , ist R eine streng wachsende Funktion des empirischen
Mittelwertes X̄. Folglich hat der Neyman-Pearson-Test die Form
ϕ(x) = 1{x̄>b} ,
wobei b ∈ R so zu wählen ist, dass
P0 (X̄ ≤ b) = 1 − α.
Da X̄ unter P0 normalverteilt mit Erwartungswert m0 und Varianz σ 2 /n ist, gilt
X̄ − m0
b − m0
√ ≤
√
P0 (X̄ ≤ b) = P0
σ/ n
σ/ n
b − m0
√
= Φ
σ/ n
!
= 1 − α,
also
σz1−α
b = m0 + √ .
n
3. Zusammenfassung: H1 wird genau dann abgelehnt, wenn
σz1−α
x̄ > m0 + √ .
n
4. Wie groß ist die Wahrscheinlichkeit eines Fehlers zweiter Art (wenn H1 zutrifft)? Diese
Wahrscheinlichkeit beträgt
σz1−α
P1 (ϕ = 0) = P1 X̄ ≤ m0 + √
.
n
Unter P1 ist X̄ normalverteilt mit Erwartungswert m1 und Varianz σ 2 /n. Folglich gilt
√
σz1−α
X̄ − m1
n(m0 − m1 )
√ ≤
P1 X̄ ≤ m0 + √
= P1
+ z1−α
σ
n
σ/ n
√
n(m0 − m1 )
= Φ
+ z1−α .
σ
Wegen m0 < m1 geht dies für n → ∞ gegen 0, und zwar exponentiell schnell. (Man
kann zeigen, dass
Φ(x)
lim
=1
x→−∞ ν(x)/|x|
gilt, wobei ν(x) := (2π)−1/2 exp(−x2 /2) die Dichte der Standardnormalverteilung
bezeichnet.)
39
Satz 13.4 (Lemma von Stein). Sei (Ω, A, µ, p0 , p1 ) ein Standardmodell mit überall strikt
positiven Dichten p0 und p1 , Θ0 := {0}, Θ1 := {1} und α ∈ (0, 1). Für jedes n ∈ N sei
⊗n
n
(Ωn , A⊗n , µ⊗n , p⊗n
0 , p1 ) das zugehörige n-fache Produktmodell und ϕn : Ω → [0, 1] ein
Neyman-Pearson-Test mit E0 (ϕn ) = α. Dann gilt
1
log 1 − Gϕn (1) = −H(P0 | P1 ).
n→∞ n
| {z }
lim
=E1 (ϕn )
Beweis.
1. Für x = (x1 , . . . , xn ) ∈ Ωn seien
n
Rn (x) :=
Y p1 (xi )
p⊗n
1 (x)
=
,
⊗n
p0 (x) i=1 p0 (xi )
1
1
hn (x) := − log Rn (x) = − log
n
n
p⊗n
1 (x)
p⊗n
0 (x)
n
1X
=
log
n
i=1
Dann gilt:
(a) Es gibt eine Konstante an ∈ R mit
(
1 falls hn (x) < an ,
ϕn (x) =
0 falls hn (x) > an .
(b) E0 (hn ) = E0 log
p0 (X1 )
p1 (X1 )
= H(P0 | P1 ).
2. Abschätzung nach oben: Wir zeigen jetzt, dass
lim sup
n→∞
1
log 1 − E1 (ϕn ) ≤ −H(P0 | P1 )
n
gilt: Für alle x ∈ Ωn mit ϕn (x) < 1 gilt hn (x) ≥ an und folglich
p⊗n
1 (x)
= exp(−nhn (x)) ≤ exp(−nan ).
⊗n
p0 (x)
Hieraus folgt
p⊗n
1
E1 (1 − ϕn ) = E0 (1 − ϕn ) ⊗n
p0
≤ exp(−nan )E0 (1 − ϕn )
≤ exp(−nan )
und damit
1
log 1 − E1 (ϕn ) ≤ −an .
n
Es bleibt also zu zeigen, dass
lim inf an ≥ H(P0 | P1 ),
n→∞
d.h. dass für alle a < H(P0 | P1 ) gilt:
an > a für alle hinreichend großen n ∈ N.
40
p0 (xi )
.
p1 (xi )
Um dies zu zeigen, fixieren wir a < H(P0 | P1 ) und erhalten einerseits
P0 (hn ≤ a) → 0
(wegen des schwachen Gesetzes der großen Zahlen), und andererseits
P0 (hn ≤ an ) ≥ E0 (ϕn ) = α > 0
und damit in der Tat an > a für alle genügend großen n ∈ N.
3. Abschätzung nach unten: Wir zeigen jetzt, dass
lim inf
n→∞
1
log 1 − E1 (ϕn ) ≥ −H(P0 | P1 )
n
gilt: Hierzu zeigen wir: Für alle a > H(P0 | P1 ) gilt
lim inf
n→∞
1
log 1 − E1 (ϕn ) ≥ −a :
n
Wir erhalten
E1 (1 − ϕn (x)) =
≥
≥
=
≥
=
p⊗n
1
E0 (1 − ϕn ) ⊗n
p0
p⊗n
1
E0 (1 − ϕn ) ⊗n 1{hn ≤a}
p0
−na
e
E0 (1 − ϕn ) 1{hn ≤a}
e−na P0 (hn ≤ a) − E0 ϕn 1{hn ≤a}
e−na P0 (hn ≤ a) − E0 (ϕn )
e−na P0 (hn ≤ a) − α
und damit
1
1
lim inf log 1 − E1 (ϕn ) ≥ −a + lim inf log P0 (hn ≤ a) − α .
n→∞ n
n→∞ n
Nach dem schwachen Gesetz der großen Zahlen gilt P0 (hn ≤ a) → 1 für n → ∞ und
folglich
1
log P0 (hn ≤ a) − α → 0
(n → ∞).
n
14
Einseitige Tests bei eindimensionaler Parametermenge
Wir nehmen jetzt an, dass Θ ⊆ R ist und betrachten einseitige Tests, d.h. Tests der Nullhypothese H0 : θ ≤ θ0 gegen die Alternative H1 : θ > θ0 . (Der umgekehrte Fall, H0 : θ ≥ θ0
gegen H1 : θ < θ0 , lässt sich auf den hier betrachteten durch die Transformation θ 7→ −θ
zurückführen.) Wichtigstes Beispiel: Normalverteilung mit unbekanntem Erwartungswert, aber
bekannter Varianz.
Definition 14.1. Es seien (Ω, A, µ, (pθ )θ∈Θ ) ein Standardmodell mit Θ ⊆ R und T : Ω → R̄
messbar. Man sagt, das Modell habe bzgl. T wachsende Dichtequotienten, wenn es für alle
θ, θ0 ∈ Θ mit θ < θ0 eine wachsende Funktion fθ,θ0 : R̄ → R̄ gibt, so dass
Rθ,θ0 (x) = fθ,θ0 (T (x))
für alle x ∈ Ω. Hierbei ist
(
pθ0 (x)/pθ (x) falls pθ (x) > 0,
Rθ,θ0 (x) :=
∞
falls pθ (x) = 0.
41
Beispiel 14.2 (Modelle, bei denen Nullhypothese und Alternative beide einfach sind). Hier
können wir T (x) = R(x) = R0,1 (x) und f0,1 = IdR̄ wählen.
Beispiel 14.3 (Exponentielle Modelle). Sei (Ω, A, µ, (pθ )θ∈Θ ) ein exponentielles Modell bzgl.
einer messbaren und nicht µ-f.ü. konstanten Abbildung T : Ω → R. Es sei also Θ ⊆ R ein
offenes Intervall, und es gebe stetig differenzierbare Funktionen a, b : Θ → R und eine messbare
Funktion c : Ω → R mit a0 (θ) 6= 0 für alle θ ∈ Θ und
p(x, θ) = exp a(θ)T (x) − b(θ) + c(x) .
Dann hat das Modell wachsende Dichtequotienten bzgl. T (wenn a wachsend ist) oder −T
(wenn a fallend ist). (Da a0 nirgends verschwindet, ist a entweder wachsend oder fallend.)
Beweis. Es gilt
Rθ,θ0 (x) = exp
a(θ0 ) − a(θ) T (x) + b(θ0 ) − b(θ) .
Wenn a wachsend ist, wählen wir
fθ,θ0 (y) := exp
a(θ0 ) − a(θ) y + b(θ0 ) − b(θ) .
a(θ) − a(θ0 ) y + b(θ0 ) − b(θ) .
Wenn a fallend ist, wählen wir
fθ,θ0 (y) := exp
Satz 14.4. Sei (Ω, A, µ, (pθ )θ∈Θ ) ein Standardmodell mit Θ ⊆ R und bzgl. T : Ω → R
wachsenden Dichtequotienten. Ferner seien θ0 ∈ Θ und α ∈ (0, 1). Dann gilt:
1. Der folgende Test ϕ ist ein gleichmäßig bester Test zum Niveau α der Nullhypothese
H0 : θ ≤ θ0 gegen die Alternative H1 : θ > θ0 :


0 falls T (x) < c,
ϕ(x) := γ falls T (x) = c,


1 falls T (x) > c,
wobei c ein (1 − α)-Quantil der Verteilung von T unter Pθ0 ist und

0
falls Pθ0 (T = c) = 0,
γ := α − Pθ0 (T > c)

falls Pθ0 (T = c) > 0.
P0 (T = c)
2. Ist ψ ein weiterer gleichmäßig bester Test, so gibt es eine P0 -Nullmenge N ∈ A derart,
dass ψ(x) = ϕ(x) für alle x ∈ Ω \ (N ∪ {T = c}).
3. Die Gütefunktion eines jeden gleichmäßig besten Tests ψ ist wachsend.
Beweis.
1. Für alle θ < θ0 ist ϕ ein Neyman-Pearson-Test der Nullhypothese {θ} gegen die Alternative {θ0 }. Denn aufgrund der Monotonie von fθ,θ0 gilt für c̃ := fθ,θ0 (c):
(
0 falls Rθ,θ0 (x) < c̃,
ϕ(x) =
1 falls Rθ,θ0 (x) > c̃.
2. Wir zeigen jetzt die Monotonie von Gϕ . Hierzu fixieren wir θ < θ0 ∈ Θ, setzen β := Eθ (ϕ)
und betrachten den Test ψ mit ψ(x) := β für alle x ∈ Ω. Da ϕ ein gleichmäßig bester
Test zum Niveau β der Nullhypothese {θ} gegen die Alternative {θ0 } ist, gilt
Gϕ (θ0 ) ≥ Gψ (θ0 ) = β = Gϕ (θ).
42
3. Nach Konstruktion gilt Eθ0 (ϕ) = α. Wegen der Monotonie von Gϕ folgt hieraus
Eθ (φ) ≤ α für alle θ ≤ θ0 , ϕ ist also ein Test zum Niveau α. Ferner gilt nach Schritt 1
für alle Tests ψ zum Niveau α und alle θ0 > θ0 , dass Gϕ (θ0 ) ≥ Gψ (θ0 ). ϕ ist also ein
gleichmäßig bester Test zum Niveau α.
4. Die Eindeutigkeitsaussage folgt aus der Eindeutigkeitsaussage des Neyman-PearsonLemmas. Die Monotonie von Gψ ergibt sich dann auf dieselbe Weise wie die Monotonie
von Gϕ .
Bemerkung. Ein analoges Resultat gilt für Tests der Nullhypothese H0 : θ ≥ θ0 gegen die
Alternative H1 : θ < θ0 , und zwar lautet der (im Wesentlichen eindeutige) optimale Test ϕ
dann


0 falls T (x) > c,
ϕ(x) := γ falls T (x) = c,


1 falls T (x) < c,
wobei c ein α-Quantil der Verteilung von T unter Pθ0 ist und

0
falls Pθ0 (T = c) = 0,
γ := α − Pθ0 (T < c)

falls Pθ0 (T = c) > 0.
P0 (T = c)
Beispiel 14.5 (Gauß-Modell mit unbekanntem Erwartungswert, aber bekannter Varianz).
Es seien X1 , . . . , Xn unabhängige identisch normalverteilte Zufallsvariablen mit unbekanntem
Erwartungswert θ ∈ R und bekannter Varianz σ 2 > 0. Getestet werden soll die Nullhypothese
H0 : θ ≤ θ0 gegen die Alternative H1 : θ > θ0 . Wir verwenden das statistische Modell Ω = Rn ,
A = B(Rn ), µ = Lebesgue-Maß, Θ = R,
!
n
X
(xi − θ)2
2 −n/2
pθ (x) = (2πσ )
exp −
.
2σ 2
i=1
Wir wissen bereits, dass dies ein exponentielles Modell bzgl. T (x) = x̄ ist. Es gilt nämlich
!
n
nθ
nθ2
1 X 2 n
2
pθ (x) = exp
x̄ − 2 − 2
xi − log(2πσ ) .
σ2
2σ
2σ
2
i=1
Es gibt folglich zu jedem α ∈ (0, 1) einen gleichmäßig besten Test ϕ, und dieser hat die Form
(
0 falls x̄ ≤ c
ϕ(x) =
1 falls x̄ > c.
Dabei ist c ∈ R so zu wählen, dass Eθ0 (ϕ) = α. Wir erhalten
Eθ0 (ϕ) = Pθ0 (X̄ > c)
X̄ − θ0
c − θ0
√ >
√
= Pθ0
σ/ n
σ/ n
c − θ0 !
√
= 1−Φ
=α
σ/ n
und damit
σz1−α
!
c = θ0 + √ .
n
Zusammenfassung: Der Test ϕ mit
(
√
0 falls x̄ ≤ θ0 + σz1−α / n,
ϕ(x) =
√
1 falls x̄ > θ0 + σz1−α / n
ist ein gleichmäßig bester Test zum Niveau α der Nullhypothese H0 : θ ≤ θ0 gegen die
Alternative H1 : θ > θ0 (sog. einseitiger z-Test).
43
Bemerkung. Soll stattdessen die Nullhypothese H0 : θ ≥ θ0 gegen die Alternative θ < θ0
getestet werden, so ist der folgende Test ϕ optimal:
(
√
0 falls x̄ ≥ θ0 − σz1−α / n,
ϕ(x) =
√
1 falls x̄ < θ0 − σz1−α / n.
Beispiel 14.6 (Gauß-Modell mit bekanntem Erwartungswert, aber unbekannter Varianz).
Nunmehr sei der Erwartungswert m bekannt und dafür die Varianz θ unbekannt. Getestet
werden soll die Nullhypothese H0 : θ ≤ θ0 gegen die Alternative H1 : θ > θ0 . Wir verwenden
das statistische Modell Ω = Rn , A = B(Rn ), µ = Lebesgue-Maß, Θ = R>0 ,
!
n
2
X
(x
−
m)
i
pθ (x) = (2πθ)−n/2 exp −
.
2θ
i=1
Pn
− m)2 ist. Es gilt nämlich
!
n
1 X
n
2
pθ (x) = exp −
(xi − m) − log(2πθ) .
2θ
2
Dies ist ein exponentielles Modell bzgl. T (x) =
i=1 (xi
i=1
Es gibt folglich zu jedem α ∈ (0, 1) einen gleichmäßig besten Test ϕ, und dieser hat die Form
(
Pn
(xi − m)2 ≤ c
0 falls
ϕ(x) =
Pi=1
n
2
1 falls
i=1 (xi − m) > c.
Dabei ist c ∈ R so zu wählen, dass Eθ0 (ϕ) = α. Wir erhalten
!
n
X
2
Eθ0 (ϕ) = Pθ0
(Xi − m) > c
i=1
= 1 − Pθ0
Da
Pn Xi −m 2
i=1
√
θ0
n X
c
Xi − m 2
√
≤
θ
θ0
0
i=1
!
!
= α.
unter Pθ0 Chiquadrat-verteilt mit n Freiheitsgraden ist, folgt
c = θ0 χ2n,1−α ,
wobei χ2n,1−α das (1−α)-Quantil der Chiquadrat-Verteilung mit n Freiheitsgraden bezeichnet.
Zusammenfassung: Der Test ϕ mit
(
Pn
0 falls
(xi − m)2 ≤ θ0 χ2n,1−α ,
ϕ(x) =
Pni=1
2
2
1 falls
i=1 (xi − m) > θ0 χn,1−α
ist ein gleichmäßig bester Test zum Niveau α der Nullhypothese H0 : θ ≤ θ0 gegen die
Alternative H1 : θ > θ0 .
Bemerkung. Soll stattdessen die Nullhypothese H0 : θ ≥ θ0 gegen die Alternative θ < θ0
getestet werden, so ist der folgende Test ϕ optimal:
(
Pn
0 falls
(xi − m)2 ≥ θ0 χ2n,α ,
ϕ(x) =
Pi=1
n
2
2
1 falls
i=1 (xi − m) < θ0 χn,α .
44
15
Zweiseitige Tests in exponentiellen Modellen
Wir betrachten jetzt zweiseitige Tests, d.h. Tests der Nullhypothese H0 : θ = θ0 gegen die
Alternative H1 : θ 6= θ0 . In diesem Fall gibt es in der Regel keine gleichmäßig besten Tests.
Sei nämlich ϕ ein gleichmäßig bester Test zum Niveau α ∈ (0, 1). Dann ist ϕ auch
• ein gleichmäßig bester Test zum Niveau α von H0 : θ = θ0 gegen H1> : θ > θ0 , und
• ein gleichmäßig bester Test zum Niveau α von H0 : θ = θ0 gegen H1< : θ < θ0 .
Wenn das Modell wachsende Dichtequotienten hat, folgt wegen der Monotonie der Gütefunktion, dass Gϕ (θ) = α für alle θ ∈ θ gilt, d.h. ϕ ist nicht besser als der Test, der konstant
α ist (bei dem ausschließlich randomisiert wird).
Allerdings gibt es in vielen Situationen optimale Tests, wenn man sich auf unverfälschte
Tests beschränkt.
Definition 15.1. Es seien (Ω, A, (Pθ )θ∈Θ ) ein statistisches Modell, Θ0 eine nichtleere echte
Teilmenge von Θ, Θ1 := Θ \ Θ0 und α ∈ (0, 1). Ein Test ϕ von Θ0 gegen Θ1 heißt unverfälscht
zum Niveau α, falls gilt:
1. ϕ ist ein Test zum Niveau α.
2. Für alle θ ∈ Θ1 gilt Gϕ (θ) ≥ α.
Bemerkung. Ist ϕ unverfälscht, so gilt insbesondere
Gϕ (θ0 ) ≥ Gϕ (θ)
für alle θ ∈ Θ0 und alle θ0 ∈ Θ1 . Wenn die Nullhypothese falsch ist, ist die Wahrscheinlichkeit,
sie zu verwerfen, also mindestens so groß, wie wenn sie richtig ist.
Bemerkung. Jeder gleichmäßig beste Test ϕ zum Niveau α ist unverfälscht zum Niveau α.
Beweis. Vergleiche ϕ mit dem trivialen Test ψ mit ψ(x) = α für alle x ∈ Ω.
Sei jetzt (Ω, A, µ, (pθ )θ∈Θ ) ein exponentielles Modell bzgl. einer messbaren und nicht µ-f.ü.
konstanten Abbildung T : Ω → R. Es sei also Θ ⊆ R ein offenes Intervall, und es gebe stetig
differenzierbare Funktionen a, b : Θ → R und eine messbare Funktion c : Ω → R mit a0 (θ) 6= 0
für alle θ ∈ Θ und
p(x, θ) = exp a(θ)T (x) − b(θ) + c(x) .
Ferner sei θ0 ∈ Θ, und wir betrachten Tests der Nullhypothese H0 : θ = θ0 gegen die Alternative H1 : θ 6= θ0 .
Lemma 15.2. In diesem Kontext gelten für jeden zum Niveau α unverfälschten Test ϕ:
1. Eθ0 (ϕ) = α,
2. Eθ0 (ϕT ) = αEθ0 (T ).
Beweis. Wir verwenden die folgenden Aussagen über exponentielle Modelle:
T
1. Für alle Funktionen S ∈ θ∈Θ L1 (Ω, A, Pθ ) (insbesondere für S = ϕ) ist die Funktion
θ 7→ Eθ (S) differenzierbar, und es gilt
∂ log p
d
Eθ (S) = Eθ S
.
dθ
∂θ
2. Es gilt
b0 (θ) = a0 (θ)Eθ (T ).
45
Sei nun ϕ ein unverfälschter Test zum Niveau α. Dann gelten Eθ0 (ϕ) ≤ α und Eθ (ϕ) ≥ α
für alle θ 6= θ0 . Da die Funktion θ 7→ Eθ (ϕ) differenzierbar und folglich insbesondere stetig
ist, folgt die erste Behauptung. Da außerdem die Funktion θ 7→ Eθ (ϕ) an der Stelle θ0 ihr
Minimum annimmt, folgt
d 0 =
Eθ (ϕ)
dθ θ=θ0
∂ log p
= Eθ0 ϕ
∂θ
0
= Eθ0 ϕ a (θ0 )T − b0 (θ0 )
und folglich (mit der ersten Behauptung)
a0 (θ0 )Eθ0 (ϕT ) = b0 (θ0 )Eθ0 (ϕ) = a0 (θ0 )Eθ0 (T )α.
Definition 15.3. Sei θ1 ∈ Θ \ {θ0 }. Ein Test ϕ : Ω → [0, 1] heißt modifizierter NeymanPearson-Test der Nullhypothese H0 : θ = θ0 gegen die Alternative H10 : θ = θ1 , falls es Zahlen
κ, λ ∈ R gibt, so dass
(
0 falls pθ1 (x) < (κ + λT (x))pθ0 (x),
ϕ(x) =
1 falls pθ1 (x) > (κ + λT (x))pθ0 (x).
Satz 15.4. Sei ϕ : Ω → [0, 1] ein modifizierter Neyman-Pearson-Test mit Eθ0 (ϕ) = α
und Eθ0 (ϕT ) = αEθ0 (T ). Dann gilt für alle Tests ψ : Ω → [0, 1] mit Eθ0 (ψ) = α und
Eθ0 (ψT ) = αEθ0 (T ):
Eθ1 (ϕ) ≥ Eθ1 (ψ).
Beweis. Es gilt
Z
Eθ1 (ϕ − ψ) =
(ϕ(x) − ψ(x)) pθ1 (x)µ(dx).
Ω
Für den Integranden gilt das Folgende:
1. Wenn ϕ(x) > ψ(x) ist, gilt ϕ(x) > 0 und folglich pθ1 (x) > (κ + λT (x))pθ0 (x).
2. Wenn ϕ(x) < ψ(x) ist, gilt ϕ(x) < 1 und folglich pθ1 (x) > (κ + λT (x))pθ0 (x).
In beiden Fällen gilt
(ϕ(x) − ψ(x))pθ1 (x) ≥ (ϕ(x) − ψ(x))(κ + λT (x))pθ0 (x)
und damit
Z
Eθ1 (ϕ − ψ) ≥
(ϕ(x) − ψ(x)) (κ + λT (x))pθ0 (x)µ(dx)
= κ Eθ0 (ϕ) − Eθ0 (ψ) + λ Eθ0 (ϕT ) − Eθ0 (ψT )
| {z } | {z }
| {z } | {z }
Ω
=α
=α
=αEθ0 (T )
=αEθ0 (T )
= 0.
Lemma 15.5. Es seien θ0 6= θ1 ∈ Θ. Ferner sei für c1 ≤ c2 ∈ R und γ1 , γ2 ∈ [0, 1] der Test
ϕc1 ,c2 ,γ1 ,γ2 definiert durch


0 falls T (x) ∈ (c1 , c2 )



1 falls T (x) ∈
/ [c1 , c2 ],
ϕc1 ,c2 ,γ1 ,γ2 (x) =

γ1 falls T (x) = c1 ,



γ falls T (x) = c .
2
2
Dann ist ϕc1 ,c2 ,γ1 ,γ2 ein modifizierter Neyman-Pearson-Test der Nullhypothese H0 : θ = θ0
gegen die Alternative H10 : θ = θ1 .
46
Beweis. Gesucht sind Zahlen κ, λ ∈ R mit den Eigenschaften
pθ1 (x) < (κ + λT (x))pθ0 (x) ⇒ T (x) ∈ (c1 , c2 ),
(1)
pθ1 (x) > (κ + λT (x))pθ0 (x) ⇒ T (x) ∈
/ [c1 , c2 ].
(2)
Es seien a := a(θ1 ) − a(θ0 ) und b := b(θ0 ) − b(θ1 ). Dann gelten
{pθ1 (x) < (κ + λT (x))pθ0 (x)}
= {exp (a(θ1 )T (x) − b(θ1 ) + c(x)) < (κ + λT (x)) exp (a(θ0 )T (x) − b(θ0 ) + c(x))}
= {exp aT (x) + b < κ + λT (x)}
und entsprechend
{pθ1 (x) > (κ + λT (x))pθ0 (x)} = {exp aT (x) + b > κ + λT (x)}.
Wir nehmen zunächst an, dass c1 < c2 . Dann definieren wir (κ, λ) als die eindeutige Lösung
des linearen Gleichungssystems
κ + λc1 = exp(ac1 + b)
κ + λc2 = exp(ac2 + b).
Zeichnung!!!!
Wegen der strengen Konvexität der Funktion t 7→ exp(at + b) sind dann (1) und (2) erfüllt.
Falls c1 = c2 gilt, definieren wir (κ, λ) als die eindeutige Lösung des linearen Gleichungssystems
κ + λc1 = exp(ac1 + b)
λ = a exp(ac1 + b).
Zeichnung!!!!
Auch in diesem Fall sind wegen der strengen Konvexität der Funktion t 7→ exp(at + b)
(1) und (2) erfüllt.
Satz 15.6. Sei θ0 ∈ Θ. Ferner seien c1 ≤ c2 ∈ R und γ1 , γ2 ∈ [0, 1]. Falls der Test
ϕ = ϕc1 ,c2 ,γ1 ,γ2 die Bedingungen Eθ0 (ϕ) = α und Eθ0 (ϕT ) = αEθ0 (T ) erfüllt, ist ϕ ein
gleichmäßig bester unverfälschter Test zum Niveau α der Nullhypothese H0 : θ = θ0 gegen
die Alternative H1 : θ 6= θ0 . Das heißt, ϕ ist unverfälscht, und es gilt
Eθ (ϕ) ≥ Eθ (ψ)
für alle zum Niveau α unverfälschten Tests ψ und alle θ 6= θ0 .
47
Beweis. Nach dem letzten Lemma ist ϕ für jedes θ1 ∈ Θ \ {θ0 } ein modifizierter NeymanPearson-Test von H0 : θ = θ0 gegen H10 : θ = θ1 . Nach dem letzten Satz folgt
Eθ1 (ϕ) ≥ Eθ1 (ψ)
für alle Tests ψ mit Eθ0 (ψ) = α und Eθ0 (ψT ) = αEθ0 (T ), also insbesondere für alle zum
Niveau α unverfälschten Tests. Es bleibt zu zeigen, dass ϕ selbst unverfälscht ist. Hierzu
wenden wir die letzte Ungleichung auf den Test ψ mit ψ(x) = α für alle x ∈ Ω an und
erhalten damit
Eθ1 (ϕ) ≥ α.
Da θ1 ∈ Θ \ {θ0 } beliebig ist, folgt die Behauptung.
Satz 15.7 (Existenz eines besten unverfälschten Tests). Es gebe eine Zahl a0 ∈ R derart, dass
die Verteilung von T unter Pθ0 symmetrisch bzgl. a0 ist, d.h. unter Pθ0 sei die Verteilung von
T − a0 gleich der Verteilung von a0 − T . Sei k ein (1 − α/2)-Quantil dieser Verteilung und

0
falls Pθ0 (|T − a0 | = k) = 0,
γ := α − Pθ0 (|T − a0 | > k)

falls Pθ0 (|T − a0 | = k) > 0.
P0 (|T − a0 | = k)
Dann ist der folgende Test ϕ ein gleichmäßig bester unverfälschter Test zum Niveau α der
Nullhypothese H0 : θ = θ0 gegen die Alternative H1 : θ 6= θ0 :


0 falls |T (x) − a0 | < k,
ϕ(x) = 1 falls |T (x) − a0 | > k,


γ falls |T (x) − a0 | = k.
Beweis. Es gilt ϕ = ϕa0 −k,a0 +k,γ,γ . Zu zeigen ist daher, dass
1. Eθ0 (ϕ) = α und
2. Eθ0 (ϕT ) = αEθ0 (T ) gelten:
1. Wir nehmen zunächst an, dass Pθ0 (|T − a0 | = k) = 0 gilt. Dann gilt
Eθ0 (ϕ) = Pθ0 (|T − a0 | > k)
= 2Pθ0 (T > a0 + k)
= 2 1 − Pθ0 T ≤ a0 + k
{z
}
|
=1−α/2
= α.
Wenn Pθ0 (|T − a0 | = k) > 0, erhalten wir
Eθ0 (ϕ) = Pθ0 (|T − a0 | > k) + γPθ0 (|T − a0 | = k)
α − Pθ0 (|T − a0 | > k)
Pθ0 (|T − a0 | = k)
= Pθ0 (|T − a0 | > k) +
P0 (|T − a0 | = k)
= α.
2. Wir erhalten
Eθ0 (ϕT ) = Eθ0 (ϕ(T − a0 )) + a0 Eθ0 (ϕ)
= Eθ0 (ϕ(T − a0 )) + a0 α.
Aus Symmetriegründen
a0 = Eθ0 (T ).
verschwindet
48
der
erste
Summand,
und
ferner
gilt
Beispiel 15.8 (Zweiseitiger z-Test). Es seien X1 , . . . , Xn unabhängige identisch normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert θ ∈ R und bekannter Varianz
σ 2 > 0. Getestet werden soll auf dem Niveau α die Nullhypothese H0 : θ = θ0 gegen
die Alternative H1 : θ 6= θ0 . Wir verwenden das statistische Modell Ω = Rn , A = B(Rn ),
µ = Lebesgue-Maß, Θ = R,
!
n
X
(xi − θ)2
2 −n/2
pθ (x) = (2πσ )
exp −
.
2σ 2
i=1
Dies ist ein exponentielles Modell bzgl. T (x) = x̄. Es gilt nämlich
pθ (x) = exp
!
n
nθ
nθ2
1 X 2 n
x̄ − 2 − 2
xi − log(2πσ 2 ) .
σ2
2σ
2σ
2
i=1
Ferner ist die Verteilung von T unter Pθ0 , nämlich die Normalverteilung mit Erwartungswert θ0
und Varianz σ 2 /n, symmetrisch bzgl. θ0 . Folglich ist der letzte Satz anwendbar, und es folgt,
dass der zweiseitige z-Test
(
√
0 falls |x̄ − θ0 | ≤ σz1−α/2 / n,
ϕ(x) =
√
1 falls |x̄ − θ0 | > σz1−α/2 / n,
ein gleichmäßig bester unverfälschter Test ist.
16
Optimalität bei mehrdimensionaler Parametermenge
Wenn die Parametermenge Θ mehrdimensional ist, ist der Nachweis der Optimalität (ggf.
in der Klasse der unverfälschten Tests) wesentlich schwieriger. Wir behandeln daher nur ein
Beispiel.
Beispiel 16.1 (Einseitiger Test für die Varianz im Gauß-Modell, wenn Erwartungswert
und Varianz beide unbekannt sind). Es seien Ω = Rn , A = B(Rn ), µ = Lebesgue-Maß,
Θ = R × R>0 ,
!
n
2
X
(x
−
m)
i
pm,σ2 (x) = (2πσ 2 )−n/2 exp −
.
2σ 2
i=1
Wir betrachten das folgende Testproblem für die Varianz: H0 : σ 2 ≤ σ02 gegen H1 : σ 2 > σ02 .
Bei bekanntem Erwartungswert m lautet der gleichmäßig beste Test zum Niveau α
(
Pn
0 falls
(xi − m)2 ≤ σ02 χ2n,1−α ,
ϕ(x) =
Pni=1
2
2 2
1 falls
i=1 (xi − m) > σ0 χn,1−α .
n
1 X
(Xi −m)2 Chiquadratσ02 i=1
verteilt mit n Freiheitsgraden ist. Bei unbekanntem Erwartungswert ist es naheliegend,
m durch den empirischen Mittelwert x̄ zu ersetzen und auszunutzen, dass, wenn σ 2 = σ02
n
1 X
(n − 1) 2
S∗ Chiquadrat-verteilt mit n − 1 Freiheitsgraden ist. Diese
gilt, 2
(Xi − X̄)2 =
σ0 i=1
σ02
Idee führt auf den folgenden Test ϕ:
(
Pn
0 falls
(xi − x̄)2 ≤ σ02 χ2n−1,1−α ,
ϕ(x) =
Pi=1
n
2
2 2
1 falls
i=1 (xi − x̄) > σ0 χn−1,1−α .
Bei der Herleitung haben wir ausgenutzt, dass, wenn σ 2 = σ02 gilt,
Satz 16.2. Der Test ϕ ist ein gleichmäßig bester Test zum Niveau α der Nullhypothese
H0 : σ 2 ≤ σ02 gegen die Alternative H1 : σ 2 > σ02 .
49
Beweis. Wir zeigen zuerst, dass ϕ ein Test zum Niveau α ist: Für σ 2 ≤ σ02 und m ∈ R gilt
!
n
X
2
2 2
Em,σ2 (ϕ) = Pm,σ2
(Xi − X̄) > σ0 χn−1,1−α
i=1
≤ Pm,σ2
n
X
!
(Xi − X̄)2 > σ 2 χ2n−1,1−α
i=1
(n − 1) 2
S∗ ≤ χ2n−1,1−α
σ02
= 1 − (1 − α) = α.
= 1 − Pm,σ2
Jetzt zeigen wir, dass ϕ ein gleichmäßig bester Test zum Niveau α ist. Hierzu fixieren wir
θ1 = (m1 , σ12 ) ∈ Θ1 . Für σ 2 > 0 definieren wir nun die Wahrscheinlichkeitsdichte
n−1 2
(m1 − x̄)2
2
,
p̄σ2 (x) := exp −
s − b(σ ) −
2σ 2 ∗
2σ12 /n
wobei b(σ 2 ) so gewählt wird, dass p̄σ2 tatsächlich eine Wahrscheinlichkeitsdichte ist, und
betrachten das statistische Modell (Rn , B(Rn ), Lebesgue-Maß, (p̄σ2 )σ2 >0 ). Dann gilt:
1. Das Modell (Rn , B(Rn ), Lebesgue-Maß, (p̄σ2 )σ2 >0 ) ist exponentiell bzgl. der Abbildung
T (x) = s2∗ , und die Funktion a(σ 2 ) = −(n − 1)/σ 2 ist wachsend.
2. Für alle x ∈ Rn und alle 0 < σ 2 ≤ σ12 gilt
Z
pm,σ2 (x) Nm1 ,(σ12 −σ2 )/n (dm).
p̄σ2 =
R
Insbesondere gilt für σ 2 = σ12
p̄σ12 (x) = pm,σ12 (x).
(Nachrechnen mühselig, aber elementar)
Wir betrachten nun in dem Modell (Rn , B(Rn ), Lebesgue-Maß, (p̄σ2 )σ2 >0 ) das Testproblem
H̄0 : σ 2 ≤ σ02 gegen H̄1 : σ 2 > σ02 . Sei ϕ̄ der gleichmäßig beste Test zum Niveau α, gegeben
durch
(
0 falls T (x) = s2∗ ≤ c,
ϕ̄(x) =
1 falls s2∗ > c,
wobei c ein (1 − α)-Quantil der Verteilung von T = S∗2 unter P̄σ02 ist, d.h.
P̄σ02 S∗2 ≤ c = 1 − α.
Wir erhalten
P̄σ02
S∗2
Z
Pm,σ02 (S∗2 ≤ c)Nm1 ,(σ12 −σ2 )/n (dm)
Z
(n − 1)S∗2
(n − 1)c
=
Pm,σ2
≤
Nm1 ,(σ12 −σ2 )/n (dm).
σ2
σ02
R
≤c =
R
Unter Pm,σ02 ist (n − 1)S∗2 /σ02 Chiquadrat-verteilt mit n − 1 Freiheitsgraden. Folglich gilt
c=
σ02 2
χ
n − 1 n−1,1−α
und damit ϕ̄ = ϕ.
50
Sei nun ψ ein beliebiger Test von H0 gegen H1 zum Niveau α. Fassen wir ψ als Test von
H̄0 gegen H̄1 auf, so ergibt sich
Z
Em,σ02 (ψ)Nm1 ,(σ12 −σ2 )/n (dm) ≤ α,
Ēσ02 (ψ) =
R
d.h. ψ hat auch als Test von H̄0 gegen H̄1 das Niveau α. Da ϕ für das Testproblem H̄0 gegen
H̄1 optimal ist, folgt
Em1 ,σ12 (ϕ) = Ēσ12 (ϕ)
≥ Ēσ12 (ψ)
= Em1 ,σ12 (ψ).
Da m1 ∈ R und σ12 > σ02 beliebig gewählt wurden, folgt die Behauptung.
Gilt das analoge Resultat auch für das Testproblem H0 : σ 2 ≥ σ02 ? Das heißt, ist der
folgende Test ϕ ein gleichmäßig bester Test zum Niveau α von H0 gegen H1 ?
(
Pn
0 falls
(xi − x̄)2 ≥ σ02 χ2n−1,α ,
ϕ(x) =
Pi=1
n
2
2 2
1 falls
i=1 (xi − x̄) < σ0 χn−1,α .
Bemerkenswerterweise lautet die Antwort Nein“. Für dieses Testproblem gibt es keinen
”
gleichmäßig besten Test. Für m0 ∈ R sei nämlich ϕm0 der in dem Fall, dass der Erwartungswert
m bekannt und gleich m0 ist, optimale Test, also
(
Pn
(xi − m0 )2 ≥ σ02 χ2n,α ,
0 falls
ϕm0 (x) =
Pi=1
n
0 2
2 2
1 falls
i=1 (xi − m ) < σ0 χn,α .
Der Test ϕm0 ist ein Test zum Niveau α, denn für alle m ∈ R und alle σ 2 ≥ σ02 gilt
!
n
X
0 2
2 2
Em,σ2 (ϕm0 ) = Pm,σ2
(Xi − m ) < σ0 χn,α
i=1
≤ Pm,σ2
n
X
!
(Xi − m)2 < σ02 χ2n,α
i=1
= Pm,σ2
≤ Pm,σ2
n X
Xi − m 2
σ2
< 02 χ2n,α
σ
σ
i=1
!
n
X
Xi − m 2
2
< χn,α
σ
!
i=1
= α.
Nun wissen wir aber bereits, dass unter allen Tests zum Niveau α der Test ϕm0 an allen
Stellen (σ 2 , m0 ) mit σ 2 < σ02 maximale Macht besitzt. Das heißt, an verschiedenen Stellen
haben verschiedene Tests zum Niveau α maximale Macht. Es gibt daher keinen gleichmäßig
besten Test zum Niveau α.
Übung. Was passiert, wenn man dieses Argument auf den vorher behandelten Fall
H0 : σ 2 ≤ σ02 gegen H1 : σ 2 > σ02 anwendet?
Man kann allerdings zeigen, das ϕ ein gleichmäßig bester unverfälschter Test zum Niveau α
ist.
51
17
Nichtparametrische Statistik und der Satz von GlivenkoCantelli
Bisher haben wir meist parametrische Modelle betrachtet, d.h. Modelle mit Θ ⊆ Rd . Dies
ist dann sinnvoll, wenn der Typ der zugrundeliegenden Verteilung bekannt ist (z.B. Normalverteilung) und nur eine oder mehrere Kenngrößen unbekannt sind (z.B. der Erwartungswert
und/oder die Varianz). Wenn die Voraussetzung Θ ⊆ Rd nicht erfüllt ist, spricht man von
einem nichtparametrischen Modell.
Beispiel 17.1. Es seien X1 , . . . , Xn unabhängige und identisch verteilte reellwertige Zufallsvariablen, deren Verteilung völlig unbekannt sei. Zur Modellierung eignet sich das statistische
Modell (Rn , B(Rn ), (Pµ )µ∈Θ ), wobei Θ die Menge aller Wahrscheinlichkeitsmaße auf (R, B(R))
ist und Pµ := µ⊗n . Das Ziel ist dann, aus der Realisierung x1 , . . . , xn von X1 , . . . , Xn auf das
zugrundeliegende Wahrscheinlichkeitsmaß µ zu schließen.
Satz 17.2 (Glivenko-Cantelli). Sei (Xn )n∈N eine Folge unabhängiger identisch verteilter reellwertiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Wir bezeichnen mit F
die Verteilungsfunktion von X1 , definiert durch
F (t) := P(X1 ≤ t),
und mit Fn die empirische Verteilungsfunktion der ersten n Variablen X1 , . . . , Xn , d.h.
n
Fn (t) :=
1X
1{Xi ≤t} .
n
i=1
P
(Fn ist die Verteilungsfunktion der empirischen Verteilung µn := n1 ni=1 δXi . Man beachte,
dass Fn eine zufällige Funktion und µn ein zufälliges Maß ist.) Dann gilt
sup |Fn (t) − F (t)| → 0
P-f.s.
t∈R
Bemerkung. Der Satz besagt, dass fast sicher die Folge der empirischen Verteilungsfunktionen
gleichmäßig gegen die theoretische Verteilungsfunktion konvergiert, so dass die Folge (Fn )n∈N
eine konsistente Folge von Schätzern für F ist. Aus diesem Grund wird der Satz von GlivenkoCantelli manchmal als Hauptsatz der mathematischen Statistik“ bezeichnet.
”
Beweis. Für jedes feste t ∈ R gilt nach dem starken Gesetz der großen Zahlen
n
Fn (t)
=
1X
1{Xi ≤t}
n
i=1
→ E(1{X1 ≤t} ) = P(X1 ≤ t) = F (t)
P-f.s. (n → ∞)
und
n
Fn (t− )
=
1X
1{Xi <t}
n
i=1
→ E(1{X1 <t} ) = P(X1 < t) = F (t− )
P-f.s. (n → ∞)
Zu jedem k ∈ N definieren wir die Punkte tkj ∈ R̄, j = 0, . . . , k, durch
tkj := inf{t ∈ R | F (t) ≥ j/k}
(mit der Konvention F (−∞) := 0, F (+∞) := 1). Sei nun
Rnk := max
|Fn (tkj ) − F (tkj )| + |Fn (tkj− ) − F (tkj− )| .
j=1,...,k−1
52
Dann gibt es eine Nullmenge N ∈ A derart, dass für alle ω ∈ Ω \ N und alle k ∈ N gilt:
lim Rnk (ω) = 0.
n→∞
Wir fixieren jetzt ω ∈ Ω \ N . Zu gegebenem ε > 0 wählen wir k ≥ 2/ε. Dann gibt es für jedes
t ∈ R genau ein j ∈ {1, . . . , k} derart, dass t ∈ [tj−1 , tj ). Es folgt einerseits
Fn (t) ≤ Fn (tkj− )
≤ F (tkj− ) + Rnk
1
≤ F (t) + + Rnk ,
k
andererseits
Fn (t) ≥ Fn (tkj−1 )
≥ F (tkj−1 ) − Rnk
1
≥ F (t) − − Rnk
k
und insgesamt
|Fn (t) − F (t)| ≤ Rnk +
1
≤ ε,
k
|{z}
≤ε/2
wenn n groß genug.
Bemerkung. Der Satz von Glivenko-Cantelli sagt nichts über die Frage der Konvergenzgeschwindigkeit. Diese Frage wird durch den folgenden Satz beantwortet:
Satz 17.3 (Quantitative Form des Satzes von Glivenko-Cantelli). Für alle ε > 0 und alle
n ∈ N gilt
!
r
8 log(n + 1)
P kFn − F k∞ > ε +
≤ exp(−2nε2 ).
n
Bemerkung.
1. Für alle n ∈ N mit
p
8 log(n + 1)/n ≤ ε folgt, dass
r
P (kFn − F k∞ > 2ε) ≤ P kFn − F k∞ > ε +
8 log(n + 1)
n
!
≤ exp(−2nε2 ).
2. Hieraus wiederum lässt sich die übliche Form des Satzes P
von Glivenko-Cantelli mit Hilfe
2
des Borel-Cantelli-Lemmas ableiten: Für alle ε > 0 ist ∞
n=1 exp(−2nε ) endlich, und
folglich gilt
P (kFn − F k∞ > 2ε für unendlich viele n) = 0.
Diese Aussage bedeutet aber gerade fast sichere Konvergenz von kFn (t)−F (t)k∞ gegen 0.
18
Beweis der quantitativen Form des Satzes von GlivenkoCantelli
Für den Beweis der quantitativen Version des Satzes von Glivenko-Cantelli benötigen wir eine
Reihe von Lemmata:
53
Lemma 18.1 (Lemma von Hoeffding). Es seien a < 0 < b und X eine Zufallsvariable mit
Werten in [a, b] und E(X) = 0. Dann gilt für alle s ≥ 0
2
s (b − a)2
sX
.
E(e ) ≤ exp
8
Beweis. Die Funktion x 7→ esx ist konvex. Folglich gilt für alle λ ∈ [0, 1]:
exp s λa + (1 − λ)b ≤ λesa + (1 − λ)esb .
Wir wählen jetzt
λ=
b−X
.
b−a
Dann gelten
1−λ=
X −a
b−a
und
λa + (1 − λ)b = X.
Es folgt
b − X sa X − a sb
e +
e
b−a
b−a
esX ≤
und damit
besa − aesb
b− a
b
a s(b−a)
sa
= e
−
e
b−a b−a
a
a s(b−a)
sa
= e
1+
−
e
.
b−a b−a
E(esX ) ≤
Es seien nun
θ := −
a
>0
b−a
und
u := s(b − a) ≥ 0.
Dann gilt sa = −sθ(b − a) = −θu und folglich
E(esX ) ≤ e−θu (1 − θ + θeu ).
Sei jetzt für u ≥ 0
ϕ(u) := −θu + log(1 − θ + θeu ).
Dies ist wohldefiniert, denn für θ > 0 und u ≥ 0 gilt 1 − θ + θeu ≥ 1 > 0. Einsetzen ergibt
E(esX ) ≤ eϕ(u) .
Für die Funktion ϕ gelten
ϕ(0) = 0,
θeu
,
ϕ0 (0) = 0,
1 − θ + θeu
(1 − θ + θeu )θeu − θ2 e2u
(1 − θ + θeu )2
2
θeu
θeu
1
−
≤ .
u
u
1 − θ + θe
1 − θ + θe
4
ϕ0 (u) = −θ +
ϕ00 (u) =
=
54
Nach der Taylor-Formel gibt es für jedes u ≥ 0 ein ξ ∈ [0, u] mit
1
u2
ϕ(u) = ϕ(0) + ϕ0 (0) u + ϕ00 (ξ) u2 ≤
.
|{z} | {z }
2 | {z }
8
=0
=0
≤1/4
Es folgt
sX
E(e
)≤e
u2 /8
= exp
s2 (b − a)2
.
8
Lemma 18.2 (Ungleichung von McDiarmid). Es seien X1 , . . . , Xn unabhängige reellwertige
Zufallsvariablen und ϕ : Rn → R eine messbare Abbildung mit folgender Eigenschaft: Für alle
i ∈ {1, . . . , n} gebe es eine Zahl ci > 0 derart, dass für alle (x1 , . . . , xn ) ∈ Rn und alle x0i ∈ R
gilt:
ϕ(x1 , . . . , xn ) − ϕ(x1 , . . . , xi−1 , x0i , xi+1 , . . . , xn ) ≤ ci .
Dann gilt für alle t ≥ 0
2t2
P ϕ(X1 , . . . , Xn ) − E(ϕ(X1 , . . . , . . . , Xn )) ≥ t ≤ exp − Pn
2 .
i=1 ci
Beweis (nur für n = 1). Sei
Y := ϕ(X1 ) − E(ϕ(X1 )).
Dann gelten E(Y ) = 0 und sup Y − inf Y ≤ c1 , und mit dem Lemma von Hoeffding folgt für
alle s ≥ 0
2 2
s c1
sY
E(e ) ≤ exp
.
8
Es folgt
P ϕ(X1 ) − E(ϕ(X1 ) ≥ t = P(Y ≥ t)
≤ e−st E(esY )
s2 c21
.
≤ exp −st +
8
Dies wird minimal für s = 4t/c21 , und die Behauptung folgt.
Bemerkung. Im allgemeinen Fall betrachte man
Yi := E ϕ(X1 , . . . , Xn ) | X1 , . . . , Xi − E ϕ(X1 , . . . , Xn ) | X1 , . . . , Xi−1 .
Dann gelten E(Yi | X1 , . . . , Xi−1 ) = 0 und sup Yi − inf Yi ≤ ci , und es folgt
!!
n
X
−st
P ϕ(X1 , . . . , Xn ) − E(ϕ(X1 , . . . , Xn )) ≥ t
≤ e E exp s
Yi
i=1
−st
= e
E
n
Y
!
exp (sYi )
i=1
= e−st
n
Y
i=1
n
Y
E (exp (sYi ) | X1 , . . . , Xi−1 )
s2 c2i
≤ e
exp
8
i=1
Pn 2 2
s
i=1 ci
= exp −st +
.
8
−st
Dies wird minimal für s = 4t/
Pn
2
i=1 ci ,
und die Behauptung folgt.
55
n (0) die Kugel mit Radius R um 0 in Rn , und sei A
Lemma 18.3 (Lemma von Massart). Sei BR
n (0). Seien ferner σ , . . . , σ unabhängige Zufallsvariablen mit
eine endliche Teilmenge von BR
1
n
P(σi = 1) = P(σi = −1) = 1/2. Dann gilt
!
n
X
p
E max
σi ai ≤ R 2 log(#A).
a∈A
i=1
Beweis. Sei
Y := max
n
X
a∈A
σi ai .
i=1
Dann gilt für alle s > 0
E(esY ) = E exp s max
a∈A
= E max exp s
a∈A
X
≤ E
=
exp s
!!
σi ai
n
X
!!
σi ai
!
exp (sσi ai )
i=1
a∈A
=
σi ai
i=1
n
Y
E
i=1
n
X
!!
i=1
a∈A
X
n
X
n
XY
E (exp (sσi ai )) .
a∈A i=1
Die Zufallsvariable σi ai hat Erwartungswert 0 und nimmt nur Werte zwischen −ai und ai an.
Folglich gilt nach dem Lemma von Hoeffding
2 2
2
s ai
s (2ai )2
= exp
E (exp (sσi ai )) ≤ exp
8
2
und damit
sY
E e
n
XY
s2 a2i
≤
exp
2
a∈A i=1
P
X
s2 ni=1 a2i
=
exp
2
a∈A
2 2
s R
≤ (#A) exp
.
2
Ferner gilt nach der Jensenschen Ungleichung
E(esY ) ≥ exp(sE(Y ))
und folglich
E(Y ) ≤
≤
Dies wird minimal für s =
1
log E(esY )
s
log(#A) sR2
+
.
s
2
p
2 log(#A)/R, und die Behauptung folgt.
56
Beweis der quantitativen Form des Satzes von Glivenko-Cantelli. Zu zeigen ist: Für alle ε > 0
und alle n ∈ N gilt
!
r
8 log(n + 1)
P kFn − F k∞ > ε +
≤ exp(−2nε2 ).
n
Für x1 , . . . , xn ∈ R sei
n
1 X
f (x1 , . . . , xn ) := sup 1{xi ≤t} − F (t).
n
t∈R
i=1
Für i ∈ {1, . . . , n} und x0i ∈ R gilt
|f (x1 , . . . , xn ) − f (x1 , . . . , xi−1 , x0i , xi+1 , . . . , xn )| ≤
1
.
n
Wir können daher die Ungleichung von McDiarmid anwenden und erhalten
P sup |Fn (t) − F (t)| − E sup |Fn (t) − F (t)| ≥ ε ≤ exp −2ε2 n
t∈R
t∈R
Zu zeigen bleibt daher, dass
r
8 log(n + 1)
E sup |Fn (t) − F (t)| ≤
n
t∈R
gilt. Hierzu seien X10 , . . . , Xn0 unabhängige Kopien von X1 , . . . , Xn , und σ1 , . . . , σn seien von
den Zufallsvariablen Xi und Xi0 unabhängige Zufallsvariablen mit P(σi = 1) = P(σi = −1) =
1/2. Für alle x1 , . . . , xn ∈ R gilt
n
n
n
1 X
1 X
X
1
sup 1{xi ≤t} − F (t) = sup 1{xi ≤t} −
E(1{Xi0 ≤t} )
n
t∈R n i=1
t∈R n i=1
i=1
!
n X
1
E sup 1{xi ≤t} − 1{Xi0 ≤t} ) .
≤
n
t∈R
i=1
Durch Wahl von xi = Xi folgt hieraus
E sup |Fn (t) − F (t)|
≤
t∈R
=
≤
=
!
n X
1
E sup 1{Xi ≤t} − 1{Xi0 ≤t} n
t∈R i=1
!
n
X
1
E sup σi 1{Xi ≤t} − 1{Xi0 ≤t} n
t∈R i=1
n
!
X
2
σi 1{Xi ≤t} E sup n
t∈R i=1
!
n
X
2
E sup σi 1{Yi ≤t} ,
n
t∈R i=1
wobei wir mit Y1 ≤ . . . ≤ Yn die der Größe nach geordneten Variablen Xi bezeichnen. Den
letztgenannten Erwartungswert schätzen wir jetzt dadurch ab, dass wir zunächst für feste
Werte y1 ≤ . . . ≤ yn den Erwartungswert
!
n
X
E sup σi 1{yi ≤t} t∈R
i=1
57
mit Hilfe des Lemmas von Massart abschätzen und anschließend yi = Yi setzen. Sei dazu
A ⊆ Rn definiert durch
A := {(1{y1 ≤t} , . . . , 1{yn ≤t} ) | t ∈ R}.
Wegen y1 ≤ . . . ≤ yn gilt
A ⊆ {(0, . . . , 0), (1, 0, . . . , 0), . . . , (1, . . . , 1)}.
n (0). Das Lemma von Massart liefert daher
Hieraus folgen #(A) ≤ n + 1 und A ⊂ B√
n
!
n
X
p
√ p
E sup σi 1{yi ≤t} ≤ n 2 log(n + 1) = 2n log(n + 1),
t∈R i=1
und es folgt
r
2p
8 log(n + 1)
E sup |Fn (t) − F (t)| ≤
2n log(n + 1) =
.
n
n
t∈R
19
Der Kolmogorov-Smirnov-Test
Es seien X1 , . . . , Xn unabhängige identische verteilte reellwertige Zufallsvariablen mit
unbekannter Verteilungsfunktion F . Zu einer gegebenen Verteilungsfunktion F0 soll die Nullhypothese H0 : F = F0 gegen die Alternative H1 : F 6= F0 getestet werden. Wie bisher
bezeichnen wir mit Fn die empirische Verteilungsfunktion der Variablen X1 , . . . , Xn ,
n
1X
Fn (t) =
1{Xi ≤t} .
n
i=1
In Anbetracht des Satzes von Glivenko-Cantelli liegt es nahe, die Testentscheidung von der
Größe
Dn := sup |Fn (t) − F0 (t)|
t∈R
abhängig zu machen. Die praktische Durchführbarkeit dieser Idee beruht auf dem folgenden
Satz:
Satz 19.1. Wenn F0 stetig ist, hängt die Verteilung von Dn unter H0 nicht von F0 ab. Man
bezeichnet diese Verteilung als Kolmogorov-Smirnov-Verteilung mit n Freiheitsgraden.
Korollar 19.2. Sei F0 stetig und Kn,1−α das (1 − α)-Quantil der Kolmogorov-SmirnovVerteilung mit n Freiheitsgraden. Dann hat der folgende Test ϕ von H0 : F = F0 gegen
H1 : F 6= F0 das effektive Niveau α:
(
0 wenn Dn ≤ Kn,1−α ,
ϕ(x1 , . . . , xn ) =
1 wenn Dn > Kn,1−α .
Dieser Test heißt Kolmogorov-Smirnov-Test.
Für den Beweis von Satz 19.1 benötigen wir das folgende Lemma:
Lemma 19.3. Sei F eine beliebige (nicht unbedingt stetige) Verteilungsfunktion, und für
F (λ) das untere λ-Quantil von F , definiert durch
λ ∈ (0, 1) sei q−
F
q−
(λ) := inf{s ∈ R | F (s) ≥ λ}.
Ferner sei U eine im Intervall (0, 1) gleichverteilte Zufallsvariable. Dann ist q− (U ) gemäß F
verteilt.
58
Beweis. Nach Konstruktion gilt für alle λ ∈ (0, 1) und alle t ∈ R
F
q−
(λ) ≤ t
⇐⇒
λ ≤ F (t).
Hieraus folgt
F
P q−
(U ) ≤ t = P(U ≤ F (t)) = F (t).
Beweis von Satz 19.1. Die Verteilung von Dn hängt nur von der gemeinsamen Verteilung der
Variablen X1 , . . . , Xn ab. Wir können daher ohne Beschränkung der Allgemeinheit annehmen,
F0
dass Xi = q−
(Ui ) für unabhängige in (0, 1) gleichverteilte Zufallsvariablen U1 , . . . , Un . Dann
gilt
n
1X
1{Xi ≤t}
n
Fn (t) =
i=1
=
n
1X n
1 qF0 (U )≤to
i
n
−
=
n
1X
1{Ui ≤F0 (t)}
n
i=1
i=1
und folglich
Dn = sup |Fn (t) − F0 (t)|
t∈R
n
1 X
1{Ui ≤F0 (t)} − F0 (t) .
= sup t∈R n
i=1
Da nach Voraussetzung F0 stetig ist, folgt
n
1 X
Dn = sup 1{Ui ≤y} − y .
y∈[0,1] n
i=1
Da in dieser Darstellung F0 nicht auftritt, folgt die Behauptung.
20
Der Chiquadrat-Anpassungstest
Es seien X1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit Werten in einem
beliebigen Messraum (E, B). Die Verteilung P dieser Zufallsvariablen sei unbekannt; getestet
werden soll die Nullhypothese P = P0 gegen die Alternative H1 : P 6= P0 . Für die Anwendung
des Chiquadrat-Anpassungstests zerlegt man E in r paarweise disjunkte messbare Teilmengen
E1 , . . . , Er (sog. Klassen) mit
pj := P0 (Ej ) > 0
für alle j ∈ {1, . . . , r} und arbeitet nicht unmittelbar mit den beobachteten Werten xi , sondern
mit den Klassenstärken
Zjn (x1 , . . . , xn ) := #{i ∈ {1, . . . , n} | xi ∈ Ej }.
Wenn die Nullhypothese zutrifft, wird man für große n erwarten, dass Zjn ≈ npj für alle
j ∈ {1, . . . , r}. Beim Chiquadrat-Anpassungstest wird die Testentscheidung von der Größe
Tn (x1 , . . . , xn ) :=
r
X
(Zjn (x1 , . . . , xn ) − npj )2
npj
j=1
abhängig gemacht.
59
Satz 20.1 (Pearson). Unter H0 konvergiert die Verteilung von Tn = Tn (X1 , . . . , Xn ) schwach
gegen die Chiquadrat-Verteilung mit r − 1 Freiheitsgraden.
Beweis. Der entscheidende Punkt ist, dass Zjn eine Summe unabhängiger und identisch verteilter Zufallsvariablen ist. Es gilt nämlich
Zjn
=
n
X
1{Xi ∈Ej } .
i=1
n )
Man kann daher den zentralen Grenzwertsatz P
auf den Zufallsvektor Z n := (Z1n , . . . , Zr−1
r
anwenden. (Zrn kann außer acht bleiben wegen j=1 Zjn = n.) Hierzu benötigen wir E0 (Zjn ),
Var0 (Zjn ) und Cov0 (Zjn , Zkn ) für j 6= k. Wir erhalten
E0 (Zjn ) = nP0 (X1 ∈ Ej )
= npj ,
Var0 (Zjn )
= n Var0 (1{X1 ∈Ej } )
= npj (1 − pj ),
Cov0 (Zjn , Zkn )
= n Cov(1{X1 ∈Ej } , 1{X1 ∈Ek } )
= −npj pk
(j 6= k).
Wir betrachten jetzt den Zufallsvektor
n
n − np
Zr−1
Z1 − np1
r−1
n
√
√
,...,
Z̃ :=
n
n
Nach dem zentralen Grenzwertsatz konvergiert
die (r − 1)-dimensionale Normalverteilung mit
K = (κij )r−1
i,j=1 , wobei
(
pj (1 − pj )
κjk =
−pj pk
Z̃ n für n → ∞ in Verteilung gegen
Erwartungswert 0 und Kovarianzmatrix
falls j = k,
falls j =
6 k.
Die Matrix K ist invertierbar und für ihre Inverse A = K −1 = (ajk )r−1
j,k=1 gilt
ajk
(
1/pj + 1/pr
=
1/pr
falls j = k,
falls j =
6 k.
Es gelten nämlich
r−1
X
κjk akj
= κjj ajj +
k=1
X
κjk akj
k6=j
X
1
1
1
+
−
pj pk
= pj (1 − pj )
pj
pr
pr
k6=j
X
pj
1 − pj −
pk
= 1 − pj +
pr
k6=j
|
{z
}
=pr
= 1,
60
und für l 6= j
r−1
X
X
κjk akl = κjj ajl + κjl all +
κjk akj
k∈{j,l}
/
k=1
X
1
1
1
1
−
pj pk
= pj (1 − pj ) − pj pl
+
pr
pl pr
pr
k∈{j,l}
/


X
pj 
=
pk  − pj
1 − pj − pl −
pr
k∈{j,l}
/
= 0.
Es folgt, dass A1/2 Z̃ n in Verteilung gegen die (r − 1)-dimensionale Standardnormalverteilung
konvergiert, also gegen die gemeinsame Verteilung von n − 1 unabhängigen eindimensionalen
standardnormalverteilten Zufallsvariablen. Hieraus wiederum folgt, dass |A1/2 Z̃ n |2 in Verteilung gegen die Chiquadrat-Verteilung mit r − 1 Freiheitsgraden konvergiert. Ferner gilt
|A1/2 Z̃ n |2 = (Z̃ n )T AZ̃ n
r−1
X
=
ajk Z̃jn Z̃kn
j,k=1
=
n
r−1 X
r−1 X
Zj − npj 2 X
1 Zjn − npj Zkn − npk
1
1
√
√
√
+
+
pj
pr
pr
n
n
n
j=1 k6=j
j=1
r−1
X
1
pj
Zjn
2
r−1
X
1 Zjn − npj Zkn − npk
√
√
pr
n
n
j=1
j,k=1

2
r−1
r−1
X
X
(Zjn − npj )2
1 
=
+
(Zjn − npj )
npj
npr
=
− npj
√
n
+
j=1
=
=
r−1
X
j=1
r
X
j=1
j=1
(Zjn
− npj
npj
)2
+
1
(n − Zrn − n(1 − pr ))2
npr
(Zjn − npj )2
npj
= Tn .
Definition 20.2 (Chiquadrat-Anpassungstest). Der Chiquadrat-Anpassungstest zum asymptotischen effektiven Niveau α ist definiert durch
(
0 falls Tn (x1 , . . . , xn ) ≤ χ2r−1,1−α ,
ϕ(x1 , . . . , xn ) :=
1 falls Tn (x1 , . . . , xn ) > χ2r−1,1−α .
Bemerkung. Der Chiquadrat-Anpassungstest ist ein asymptotischer Test in dem Sinne, dass
sich eine allgemeine Aussage über sein effektives Niveau nur im Limes n → ∞ treffen lässt.
Er sollte daher nur verwendet werden, wenn n groß genug ist. Eine oft verwendete Faustregel
ist, dass npj ≥ 5 für alle j ∈ {1, . . . , r} gelten sollte.
21
21.1
Regressionsanalyse
Einfache lineare Regression
Beispiel 21.1 (Wärmeausdehnung eines Metallstabs). Aus theoretischen Überlegungen sei
bekannt, dass die Länge X eines Metallstabs (innerhalb eines bestimmten Bereichs) linear von
61
der Temperatur t abhängt, d.h. dass
X = γ0 + γ1 t
gilt, wobei die Koeffizienten γ0 , γ1 ∈ R unbekannt sind und bestimmt werden sollen. Könnte
man X exakt messen, so könnte man γ0 und γ1 durch Messung von X bei zwei verschiedenen
Temperaturen t1 und t2 bestimmen. Falls aber die Messung von X fehlerbehaftet ist, bietet
es sich an, n Messungen (bei Temperaturen t1 , . . . , tn ) durchzuführen. Dies führt auf eine
lineare Regressionsgleichung der Form
√
Xk = γ0 + γ1 tk + vεk ,
k = 1, . . . , n.
Hierbei bezeichnet v ≥ 0 die (ebenfalls unbekannte) Varianz der Messfehler, und die εk sind
paarweise unkorrelierte Zufallsvariablen mit E(εk ) = 0 und Var(εk ) = 1. In vektoriellen Form
lautet die Regressionsgleichung
√
X = γ0 1 + γ1 t + vε,
wobei
X = (X1 , . . . , Xn )T ,
1 = (1, . . . , 1)T ,
t = (t1 , . . . , tn )T .
Bemerkung. Die Variablen haben die folgenden Eigenschaften:
• t ∈ Rn ist vorgegeben und damit deterministisch und bekannt.
• ε ∈ Rn ist zufällig, aber nicht beobachtbar. Die Verteilung von ε wird als bekannt angenommen. (Meist nimmt man an, dass die Variablen εk unabhängig und normalverteilt
sind.)
• γ = (γ0 , γ1 ) ∈ R2 und v ∈ R+ sind unbekannte Parameter.
• X ∈ Rn ist zufällig und beobachtbar. Die Verteilung von X ist durch die Verteilung
von ε sowie die Werte der Parameter γ und v eindeutig bestimmt. Bezeichnen wir diese
Verteilung mit Pγ,v , so erhalten wir das statistische Modell
(Rn , B(Rn ), (Pγ,v )γ∈R2 ,v≥0 ).
In der Regressionsanalyse geht es (wie auch sonst in der Statistik) vor allem um die beiden
folgenden Probleme:
1. Schätzung der unbekannten Parameter γ und v,
2. Tests von Hypothesen über diese Parameter.
Der übliche Ansatz zur Schätzung von γ ist die von Gauß und Legendre um 1800 entwickelte
Methode der kleinsten Quadrate:
Definition 21.2. Ein Schätzer γ̂ = (γ̂0 , γ̂1 ) für γ = (γ0 , γ1 ) heißt Kleinste-Quadrate-Schäzer,
wenn er die Summe der quadratischen Fehler
F (γ0 , γ1 ) :=
n
X
(Xk − (γ0 + γ1 tk ))2
k=1
minimiert. Zeichnung!!!!
62
Satz 21.3.
1. Wenn die Zahlen tk nicht alle gleich sind, gibt es genau einen Kleinste-QuadrateSchätzer γ̂ = (γ̂0 , γ̂1 ), und zwar
γ̂0 = X̄ −
t̄C(t, X)
,
V (t)
γ̂1 =
C(t, X)
,
V (t)
wobei
n
X̄ =
n
1X
Xk ,
n
t̄ =
k=1
n
1X
tk ,
n
V (t) =
k=1
n
1X 2 2
tk −t̄ ,
n
C(t, X) =
k=1
1X
tk Xk −t̄X̄.
n
k=1
(Es gilt V (t) 6= 0 genau dann, wenn die Zahlen tk nicht alle gleich sind.)
2. Die Schätzer γ̂0 und γ̂1 sind beide erwartungstreu.
Beweis.
1. Die notwendigen Bedingungen für das Vorliegen eines Minimierers lauten
n
X
∂F
!
= −2
(Xk − γ0 − γ1 tk ) = 0,
∂γ0
k=1
∂F
∂γ1
= −2
n
X
!
tk (Xk − γ0 − γ1 tk ) = 0.
k=1
Anders formuliert,
γ0 + t̄γ1 = X̄,
n
n
1X
1X 2
t k γ1 =
tk Xk .
t̄γ0 +
n
n
k=1
k=1
Wenn V (t) 6= 0 ist, hat dieses System genau eine Lösung, nämlich die oben angegebene.
Wegen F (γ0 , γ1 ) → ∞ für kγk → ∞ handelt es sich dabei tatsächlich um den eindeutigen
Minimierer.
2. Aus der Gleichung
Xk = γ0 + γ1 tk +
√
vεk
folgt
Eγ,v (Xk ) = γ0 + γ1 tk
und folglich
Eγ,v (X̄) = γ0 + γ1 t̄,
n
1X
Eγ,v (C(t, X)) =
tk (γ0 + γ1 tk ) − t̄(γ0 + γ1 t̄)
n
k=1
n
= γ0 t̄ + γ1
1X 2
tk − γ0 t̄ − γ1 t̄2
n
k=1
= γ1 V (t),
Eγ,v (γ̂0 ) = γ0 + γ1 t̄ −
t̄γ1 V (t)
V (t)
= γ0 ,
Eγ,v (γ̂1 ) = γ1 .
Bemerkung. Der Vektor γ̂0 1 + γ̂1 t ist die orthogonale Projektion des Beobachtungsvektors
X ∈ Rn auf den von den Vektoren 1 und t aufgespannten Teilraum
L := {γ0 1 + γ1 t | γ0 , γ1 ∈ R}
von Rn . Bei der Methode der kleinsten Quadrate werden nämlich γ̂0 und γ̂1 gerade so bestimmt,
dass der Vektor γ̂0 1 + γ̂1 t unter allen Vektoren in L den kleinsten euklidischen Abstand zu X
hat.
63
21.2
Lineare Modelle
Wir betrachten das Regressionsproblem jetzt in allgemeinerer Form:
Definition 21.4. Seien s, n ∈ N mit s ≤ n. Ein lineares Modell für n reellwertige Beobachtungen mit unbekanntem s-dimensionalen Verschiebungsvektor γ = (γ1 , . . . , γs )T ∈ Rs und
ebenfalls unbekanntem Skalenparameter v ≥ 0 besteht aus
• einer reellen (n × s)-Matrix A mit vollem Rang s, der sogenannten Designmatrix und
• einem Zufallsvektor ε = (ε1 , . . . , εn )T mit bekannter Verteilung und den Eigenschaften
E(εk ) = 0 und Var(εk ) = 1 sowie Cov(εk , εl ) = 0 für k 6= l.
Der n-dimensionale Beobachtungsvektor X = (X1 , . . . , Xn )T ergibt sich aus diesen Größen
durch die lineare Gleichung
√
X = Aγ + vε
Das zugehörige statistische Modell ist
(Rn , B(Rn ), (Pγ,v )γ∈Rs ,v≥0 ),
wobei Pγ,v die Verteilung von Aγ +
√
vε bezeichnet.
Beispiel 21.5 (Einfache lineare Regression, z.B. Metallstab). Hier ist s = 2 und


1 t1


A =  ... ...  .
1 tn
A hat genau dann vollen Rang, wenn die Zahlen tk nicht alle gleich sind.
Beispiel 21.6 (Polynomiale Regression). Geht man statt von einem linearen Zusammenhang
√
der Form Xk = γ0 + γ1 tk + vεk allgemeiner von einem polynomialen Zusammenhang der
Form
d
X
√
Xk =
γi tik + vεk ,
k = 1, . . . , n
i=0
aus, sind s = d + 1 und

1 t1 · · ·
 .. ..
A= . .
1 tn · · ·

td1
.. 
. 
tdn
zu wählen. A hat genau dann vollen Rang, wenn die Menge {t1 , . . . , tn } mindestens d + 1
Elemente hat.
Beispiel 21.7 (Mehrfache lineare Regression). Wenn mehrere Einflussgrößen vorliegen und
der Einfluss jeder dieser Größen als linear angenommen wird, gelangt man zu der Gleichung
Xk = γ0 +
d
X
γl tkl +
√
vεk ,
k = 1, . . . , n.
l=1
Hierbei ist d die Anzahl der Einflussgrößen und tkl der bei der k-ten Beobachtung verwendete
Wert der l-ten Einflussgröße. Um diese Gleichung in Matrixform zu schreiben, wähle man


1 t11 · · · t1d

..
.. 
A =  ...
.
. 
1 tn1 · · ·
64
tnd
Gemäß dem Prinzip der kleinsten Quadrate wird bei gegebener Beobachtung x ∈ Rn der
Schätzwert γ̂ = γ̂(x) für γ so bestimmt, dass
kx − Aγk
für γ = γ̂ minimal wird. Das heißt, Aγ̂(x) ist die orthogonale Projektion von x auf den linearen
Teilraum
L(A) := {Aγ | γ ∈ Rs }
von Rn .
Lemma 21.8. Die orthogonale Projektion auf L(A) ist durch
ΠA := A(AT A)−1 AT
gegeben. (AT A ist invertierbar, da nach Voraussetzung A vollen Rang s hat.) Insbesondere
gilt für den Kleinste-Quadrate-Schätzer
γ̂(x) = (AT A)−1 AT x.
Beweis. Zu zeigen ist:
1. ΠA x ∈ L(A) für alle x ∈ Rn ,
2. x − ΠA x ⊥ L(A) für alle x ∈ Rn .
Die erste Eigenschaft ist offensichtlich. Ferner gilt für alle γ ∈ Rs
hx − ΠA x, Aγi = hx, Aγi − hA(AT A)−1 AT x, Aγi
= hAT x, γi − hAT x, γi
= 0.
Bemerkung. Der Kleinste-Quadrate-Schätzer
γ̂ = (AT A)−1 AT X
für γ ist linear in X und erwartungstreu.
Beweis. Die Linearität ist offensichtlich. Ferner gilt für alle (γ, v) ∈ Rs × R+
Eγ,v (γ̂) = Eγ,v (AT A)−1 AT X
= (AT A)−1 AT Eγ,v (X)
= (AT A)−1 AT Aγ
= γ.
Satz 21.9 (Gauß, Markov). Sei c ∈ Rs . Dann gilt:
1. hc, γ̂i ist ein linearer erwartungstreuer Schätzer für hc, γi.
2. In der Klasse der linearen erwartungstreuen Schätzer für hc, γi ist hc, γ̂i gleichmäßig
varianzminimierend und durch diese Eigenschaft eindeutig bestimmt.
Beweis. Die erste Aussage folgt unmittelbar aus der letzten Bemerkung. Sei nun S ein beliebiger linearer erwartungstreuer Schätzer für hc, γi. Wegen der Linearität von S existiert ein
Vektor b ∈ Rn mit
S(x) = hb, xi.
65
Auch der Schätzer hc, γ̂i hat diese Form:
hc, γ̂(x)i = hc, (AT A)−1 AT xi
= hA(AT A)−1 c, xi.
Da S erwartungstreu ist, gilt für alle (γ, v) ∈ Rs × R+
hb, Aγi = Eγ,v (hb, Xi)
= Eγ,v (S)
= hc, γi
= hAT A(AT A)−1 c, γi
= hA(AT A)−1 c, Aγi.
Es gilt also
b − A(AT A)−1 c ⊥ Aγ
für alle γ ∈ Rs . Das heißt, A(AT A)−1 c ist die orthogonale Projektion von b auf L(A). Dies
impliziert insbesondere, dass
kA(AT A)−1 ck ≤ kbk
gilt, mit Gleichheit genau dann, wenn A(AT A)−1 c = b. Wir erhalten jetzt
Varγ,v (S) = Varγ,v (hb, Xi)
= bT Covγ,v (X)b
= bT Covγ,v (Aγ +
√
vε)b
2
= vkbk
und entsprechend
Varγ,v (hc, γ̂i) = Varγ,v
A(AT A)−1 c, X
= vkA(AT A)−1 ck2
≤ Varγ,v (S),
mit Gleichheit (wenn v > 0) genau dann, wenn A(AT A)−1 c = b, d.h. genau dann, wenn
S = hc, γ̂i.
Satz 21.10. Für alle (γ, v) ∈ Rs × R+ gilt
Eγ,v kX − Aγ̂k2 = (n − s)v.
Folglich ist die korrigierte Stichprobenvarianz
V ∗ (x) :=
1
kx − Aγ̂k2
n−s
ein erwartungstreuer Schätzer für die Fehlervarianz v.
Beweis. Es gelten
X = Aγ +
√
vε
und
Aγ̂ = A(AT A)−1 AT X
√
= Aγ + vΠA ε
und folglich
kX − Aγ̂k2 = vk(In − ΠA εk2 .
66
Sei jetzt
M := In − ΠA .
M ist die orthogonale Projektion von Rn auf das orthogonale Komplement von L(A). Folglich
gelten M T M = M 2 = M und Spur(M ) = dim(L(A)⊥ ) = n − s. Es folgt
kX − Aγ̂k2 = vkM εk2
= vεT M T M ε
= vεT M ε
= v Spur(εT M ε)
= v Spur(M εεT ).
Hieraus folgt
Eγ,v kX − Aγ̂k2
= v Spur M Eγ,v (εεT )
| {z }
=In
= v Spur(M )
= v(n − s).
Bemerkung. Wenn man annimmt, dass die Fehlervariablen εk unabhängig und normalverteilt sind, kann man die Verteilungen der Schätzer γ̂ und V ∗ explizit berechnen und darauf
aufbauend Konfidenzbereiche und Hypothesentests für γ und v konstruieren.
67
Herunterladen