Methoden der Statistik

Werbung
Methoden der Statistik
Mathias Trabs
1. September 2015
Inhaltsverzeichnis
1 Grundbegrie der Statistik
1.1
2
Drei grundlegende Fragestellungen
. . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.1.1
Schätzprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.1.2
Hypothesentests
6
1.1.3
Kondenzmengen (Bereichsschätzung) . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.2
Minimax- und Bayesansatz
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.3
Ergänzungen: Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2 Lineares Modell
15
2.1
Regression und kleinste Quadrate
. . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
Inferenz unter Normalverteilungsannahme . . . . . . . . . . . . . . . . . . . . . . .
21
2.3
Varianzanalyse
26
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Exponentialfamilien and verallgemeinerte lineare Modelle
15
30
3.1
Die Informationsungleichung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.2
Verallgemeinerte Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.3
Ergänzung: Numerische Bestimmung des Maximum-Likelihood-Schätzers . . . . . .
37
4 Klassikation
38
4.1
Logistische Regression
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2
Bayesklassikation
4.3
Lineare Diskriminanzanalyse
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Ausblick
38
40
42
43
Literatur
ˆ
Georgii, H.-O.: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik, de
Gruyter, 2007
ˆ
James, G., Witten, D., Hastie, T., Tibshirani, R.: An Introduction to Statistical Learning
(with Applications in R), Springer, 2013
ˆ
Lehmann, E.L., Romano, J.P.: Testing Statistical Hypotheses, Springer, 2005
ˆ
Lehmann, E.L. and G. Casella: Theory of Point Estimation, Springer, 2003
ˆ
Shao, J: Mathematical Statistics, Springer, 2003
ˆ
Venables, W.N., Ripley, B.D.: Modern Applied Statistics with S-Plus, Springer, 1997
ˆ
Wasserman, L.: All of Statistics, Springer, 2003
ˆ
Witting, H.: Mathematische Statistik I, Teubner, 1985
1
1 Grundbegrie der Statistik
Während die Wahrscheinlichkeitstheorie anhand eines gegebenen Modells die Eigenschaften der
(zufälligen) Ereignisse untersucht, ist das Ziel der Statistik genau andersherum: Wie kann man
aus den gegebenen Beobachtungen Rückschlüsse auf das Modell ziehen?
Beispiel 1.1
.
(Werbung)
Wir verwenden den Advertising-Datensatz aus James et al. (2013).
Für 200 Märkte haben wir die Anzahl der verkauften Produkte
Fernsehwerbung
XF ,
für Radiowerbung
XR
Y
sowie das jeweilige Budget für
und für Zeitungsannoncen
XZ
gegeben.
Betrachten wir das Modell
Yi = aXiF + b + εi ,
wobei die zufälligen Störgröÿen
εi
i = 1, . . . , 200,
Marktunsicherheiten, externe Einüsse etc. modellieren. Plau-
sible Annahmen an das Modell sind
(i)
(εi )
sind unabhängig (näherungsweise),
(ii)
(εi )
sind identisch verteilt,
(iii)
E[εi ] = 0
(iv)
εi
(kein systematischer Fehler)
normalverteilt (wegen ZGWS).
Naheliegende Ziele/Fragestellungen:
(i) Es sollen
a, b
anhand der Daten ermittelt werden. Ein mögliches Schätzverfahren ist der
Kleinste-Quadrate-Schätzer
(b
a, bb) := arg min
a,b
n
X
(Yi − aXi − b)2
i=1
(wir minimieren die Summe der quadrierten Residuen). Mit
onsgrade
b
a, bb
erhalten wir die Regressi-
y=b
axF + bb.
(ii) Sind die Modellannahmen erfüllt? Histogramm, Boxplot und QQ-Plot (Quantil-QuantilPlot) der Residuen.
b
a kennen (Verteilungsannahme an ε nötig!), können wir InterI = [b
a − c, b
a + c] für c > 0 konstruieren, so dass der tatsächlich Parameter a
vorgegebener Wahrscheinlichkeit in I liegt.
(iii) Wenn wir die Verteilung von
valle der Form
mit
(iv) Wir wollen testen, ob es einen Eekt gibt, d.h. gilt die Hypothese
H0 : a = 0
sie verworfen werden? Beispielsweise kann man die Hypothese verwerfen, falls
einen kritischen Wert
c > 0.
(εi ).
Wir können das Modell auf polynomielle Regression
Yi = a0 +
für
Um einen sinnvollen Wert zu bestimmen, benötigen wir wieder
Verteilungsannahmen an die Fehler
multiple Regression
oder kann
|b
a| > c
a1 XiF
+
a2 XiR
+
Yi = a0 + a1 XiF + · · · + an (XiF )n + εi oder
+ εi erweitern. Dies führt auf das Problem
a3 XiZ
der Modellwahl.
Denition 1.2.
Ein messbarer Raum
(X , F )
(Pϑ )ϑ∈Θ von WahrΘ 6= ∅ heiÿt statistisches Experiment
(F, S )-messbare Funktion Y : X → S
versehen mit einer Familie
scheinlichkeitsmaÿen mit einer beliebigen Parametermenge
oder statistisches Modell.
X
heiÿt Stichprobenraum. Jede
(S, S ) und induziert das statistische Modell
Y1 , . . . , Yn für jedes Pϑ unabhängig und identisch ver-
heiÿt Beobachtung oder Statistik mit Werten in
(S, S , (PYϑ )ϑ∈Θ ).
Sind die Beobachtungen
teilt (iid.), so nennt man
Y1 , . . . , Yn
eine mathematische Stichprobe.
2
Beispiel 1.3
. Für n ∈ N seien X1 , . . . , Xn iid. verteilte ZufallsX und Randverteilung X1 ∼ Pϑ mit Parameter
ϑ ∈ Θ. Dann ist der
Qn
(X1 , . . . , Xn ) gemäÿ dem Produktmaÿ Pnϑ (dx) = i=1 Pϑ (dxi ) auf (X n , F ⊗n )
(mathematische Stichprobe)
variablen mit Werten in
Stichprobenvektor
verteilt.
Wir werden uns in dieser Vorlesung weitgehend mit (verallgemeinerten) linearen Modellen
befassen, d.h. die Abhängigkeit der Zufallsvariablen
Xi
bzw. deren Verteilung vom unbekannten
Parameter kann durch eine lineare Abbildung dargestellt werden.
1.1 Drei grundlegende Fragestellungen
Die meisten statistischen Fragestellungen kann man einer der drei Grundprobleme Schätzen, Testen
und Kondenzintervalle zuordnen. Diese werden im folgenden kurz umrissen und im Laufe der
Vorlesung weiter vertieft.
1.1.1 Schätzprobleme
Ziel ist es, aufgrund der vorhandenen Beobachtungen den unbekannten Parameter im statistischen Modell
(X , F , (Pϑ )ϑ∈Θ )
zu bestimmen, also einen einzelnen (bestmöglichen) Wert anzuge-
ben (Punktschätzung ). Damit ist ein Schätzer eine Abbildung, die nur von den Beobachtungen
abhängt.
Denition 1.4.
(X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell, ρ : Θ → Rd ein (abgeleiteter) db: X → Rd . Gilt
dimensionaler Parameter, d ∈ N. Ein Schätzer ist eine messbare Abbildung ρ
Eϑ [b
ρ] = ρ(ϑ) so heiÿt ρb unverzerrt oder erwartungstreu (engl.: unbiased).
Beispiel 1.5.
p ∈ (0, 1).
Also ist p
bn
Sei
Seien
X1 , . . . , Xn
eine Bernoulli-verteilte mathematische Stichprobe mit Parameter
Pn
pn ] = n−1 i=1 E[Xi ] = p.
i=1 Xi . Dann gilt Ep [b
erwartungstreu. Um die Streuung des Schätzers um den wahren Parameter p zu messen,
Betrachte den Schätzer
pbn := n−1
berechnen wir
Varp (b
pn ) = n−2
Pn
n
X
Varp (Xi ) =
i=1
p(1 − p)
.
n
Für gröÿer werdenden Stichprobenumfang konzentriert sich also
pbn
um
p.
Wie gut ein Schätzer ist, wird mithilfe einer Verlustfunktion bestimmt. Diese misst den Abstand
zwischen geschätztem und wahrem Parameter.
Denition 1.6.
ϑ∈Θ
Eine Funktion
L : Θ × Rd → R+ heiÿt Verlustfunktion, falls L(ϑ, ·) für jedes
R(ϑ, ρb) := Eϑ [L(ϑ, ρb)] eines Schätzers ρb heiÿt Risiko.
messbar ist. Der erwartete Verlust
Typische Verlustfunktionen sind
(i) der 0-1-Verlust
L(ϑ, r) = 1{r6=ρ(ϑ)} ,
(ii) der absolute Verlust
L(ϑ, r) = |r − ρ(ϑ)|
(iii) der quadratische Verlust
Rp )
sowie
L(ϑ, r) = |r − ρ(ϑ)|2 .
Lemma 1.7 (Bias-Varianz-Zerlegung).
Rd
(euklidischer Abstand im
ein Schätzer des Parameters
ρ(ϑ)
(X , F , (Pϑ )ϑ∈Θ ) ein statistisches
Eϑ [|b
ρ|2 ] < ∞ für alle ϑ ∈ Θ. Dann
Sei
mit
Modell und
ρb: X →
gilt für den quadra-
tischen Verlust
Eϑ |b
ρ − ρ(ϑ)|2 = Varϑ (b
ρ) + | Eϑ [b
ρ] − ρ(ϑ) |2
|
{z
}
für alle
ϑ ∈ Θ.
Bias
Beweis. Es gilt
Eϑ |b
ρ − ρ(ϑ)|2 =Eϑ |b
ρ − Eϑ [b
ρ] + Eϑ [b
ρ] − ρ(ϑ)|2
=Eϑ [|b
ρ − Eϑ [b
ρ]|2 ] + 2Eϑ (b
ρ − Eϑ [b
ρ])> (Eϑ [b
ρ] − ρ(ϑ)) + |Eϑ [b
ρ] − ρ(ϑ)|2
= Varϑ (b
ρ) + |Eϑ [b
ρ] − ρ(ϑ)|2 .
3
Beispiel.
2).
In der Situation von Beispiel 1.5, betrachten wir den Schätzer
Dieser hat den Bias
1 − 2p
n+2
E[e
pn ] − p =
und die Varianz
np(1 − p)
.
(n + 2)2
Var(e
pn ) =
Damit hat
pen
Pn
pen := ( i=1 Xi +1)/(n+
einen kleineren quadratischen Fehler als
pbn ,
wenn
√
|p − 1/2| 6 1/ 8.
Bemerkung 1.8. Ein Schätzproblem, bei dem der interessierende Parameter nur endliche viele
Werte annehmen kann, heiÿt auch Klassikationsproblem und der entsprechende Schätzer heiÿt
Klassizierer (mehr dazu in Kapitel 4).
Obwohl wir in dieser Vorlesung keine Asymptotik, d.h. das Verhalten der Schätzer bei Stichprobenumfängen
n → ∞,
Denition 1.9.
Sei
ρbn
vom abgeleiteten
behandeln, seien noch zwei weitere wichtige Grundbegrie erwähnt.
iid.
X1 , . . . , Xn ∼ Pϑ eine mathematische
Parameter ρ(ϑ) konsistent, falls
P
ϑ
ρbn →
ρ(ϑ)
Der Schätzer
ρbn
Stichprobe. Dann heiÿt ein Schätzer
n → ∞.
für
E[|b
ρn |2 ] < ∞
heiÿt asymptotisch normalverteilt, falls
ρbn − Eϑ [b
ρn ] L
p
→ N (0, 1)
Varϑ (b
ρn )
unter
und
Pϑ .
Aufgrund des zentralen Grenzwertsatzes sind viele Schätzer asymptotisch normalverteilt, so
auch in Beispiel 1.5. Daher kommt der Untersuchung von statistischen Modellen unter Normalverteilungsannahme eine besondere Bedeutung zu.
Zwei
wichtige
Konstruktionsprinzipien
von
Schätzern
sind
die
Momentenmethode
und
Maximum-Likelihood-Schätzer:
Methode 1: Momentenmethode.
Sei X1 , . . . , Xn eine mathematische Stichprobe reeller
E[|X1 |d ] < ∞. Oensichtlich hängen i.A. die Momente einer Verteilung
mk = mk (ϑ) := Eϑ [X1k ], k ∈ N, von ihrem Parameter ϑ ∈ Rd ab. Aufgrund des Gesetzes
der groÿen Zahlen ist der kanonische Schätzer von mk gegeben durch das Stichprobenmoment
Pn
m
b k := n1 j=1 Xjk . Der Momentenschätzer ϑb von ϑ ist deniert als die Lösung der d-Gleichungen
Zufallsvariablen mit
b
m1 (ϑ)
b
m2 (ϑ)
=
m
b 1,
=
m
b 2,
.
.
.
.
.
.
b
md (ϑ)
Beispiel 1.10.
.
.
.
=
m
b d.
iid.
X1 , . . . , Xn ∼ N (µ, σ 2 ). Dann ist m1 = Eµ,σ2 [X1 ] = µ und m2 = Eµ,σ2 [X12 ] =
Varµ,σ2 (X1 ) + Eµ,σ2 [X1 ]2 = σ 2 + µ2 . Folglich müssen wir die Gleichungen
Sei
n
µ
b=
1X
Xj
n j=1
n
σ
b2 + µ
b2 =
und
lösen. Bezeichnen wir das Stichprobenmittel mit
X n :=
n
µ
b = X n,
σ
b2 =
1
n
1X 2
X
n j=1 j
Pn
j=1
Xj ,
1X
(Xj − X n )2 .
n j=1
4
erhalten wir die Lösung
Die Momentenmethode kann auf die Erwartungswerte allgemeinerer Funktionale verallgemeinert werden (siehe Übung
2
). Für die zweite Methode benötigen wir etwas mehr Struktur, die wir
auch im weiteren Verlauf der Vorlesung immer wieder aufgreifen.
Denition 1.11.
Maÿ
µ
Ein statistisches Modell
gibt, so dass
Pϑ
(X , F , (Pϑ )ϑ∈Θ ) heiÿt dominiert, falls es ein σ -endliches
µ ist (Pϑ µ) für alle ϑ ∈ Θ. Die durch ϑ parametri-
absolut stetig bzgl.
sierte Radon-Nikodym-Dichte
L(ϑ, x) :=
dPϑ
(x),
dµ
ϑ ∈ Θ, x ∈ X
heiÿt Likelihoodfunktion, wobei diese meist als durch
x
parametrisierte Funktion in
ϑ
aufgefasst
wird.
Beispiel 1.12.
(i)
X = R, F = B(R), Pϑ ist gegeben durch die Lebesguedichte fϑ ,
N (µ, σ 2 ) oder Pϑ = U([0, ϑ]). Dann ist L(ϑ, x) = fϑ (x).
beispielsweise
Pµ,σ2 =
(N, P(N)) oder allgemeiner auf einem
(X , P(X )) ist vom Zählmaÿ dominiert. Die Likelihoodfunktion ist durch
(ii) Jedes statistische Modell auf dem Stichprobenraum
abzählbaren Raum
die Zähldichte gegeben.
(iii) Ist
Θ = {ϑ1 , ϑ2 , . . . }
abzählbar, so ist
µ=
P
i ci Pϑi mit
ci > 0
und
P
i ci
=1
ein dominie-
rendes Maÿ.
Methode 2: Maximum-Likelihood-Prinzip.
Likelihoodfunktion
L(ϑ, x)
heiÿt eine Statistik
Für ein dominiertes statistisches Modell mit
ϑb : X → Θ (Θ
trage eine
σ -Algebra)
Maximum-
Likelihood-Schätzer (MLE: maximum likelihood estimator), falls
b x) = sup L(ϑ, x)
L(ϑ,
für
Pϑ -f.a. x ∈ X
und alle
ϑ ∈ Θ.
ϑ∈Θ
Beispiel 1.13.
Betrachten wir wieder eine mathematische Stichprobe
(Rn , B(Rn ), Pnµ,σ2 ) mit Pµ,σ2 = N (µ, σ 2 )
n
Likelihoodfunktion, x = (x1 , . . . , xn ) ∈ R ,
Zufallsvariablen. Dann ist
dominiertes Modell mit
L(µ, σ 2 ; x) = (2πσ 2 )−n/2
X1 , . . . , Xn normalverteilter
Rn
ein vom Lebesguemaÿ auf
n
Y
(x − µ)2 j
.
exp −
2σ 2
j=1
Um den Maximum-Likelihood-Schätzer zu berechnen, nutzen wir die Monotonie des Logarithmus
und betrachten
n
X
(xj − µ)2
n
→ max
.
log L(µ, σ 2 ; x) = − (log(2π) + log σ 2 ) −
2
2σ 2
µ,σ 2
j=1
Ableiten nach
µ
und
σ2
führt auf die Gleichungen
0 = σ −2
n
X
(xj − µ),
j=1
n
n
1 X
=
(xj − µ)2 .
2σ 2
2σ 4 j=1
µ liefert µ
b = X n und Einsetzen in die zweite Gleichung ergibt
2
(X
−
X
)
.
Es
ist
leicht
nachzuprüfen,
dass µ
b und σ
b2 tatsächlich das Maximierungsj
n
j
Umstellen der ersten Gleichung nach
σ
b2 = n−1
P
problem lösen (und messbar sind). In diesem Fall stimmt der Maximum-Likelihood-Schätzer also
mit dem Momentenschätzer überein.
5
Beispiel 1.14.
λ > 0,
d.h.
X =
X1 , . . . , Xn eine Poisson-verteilte mathematische Stichprobe mit Parameter
k −k
e
n
. Dann ist die gemeinsame Verteilung
Z+ , F = P(X ) und Pλ (X1 = k) = λ k!
Sei
gegeben durch
Pλ (X1 = k1 , . . . , Xn = kn ) =
Ableiten nach
λ
P
ki −nλ
e
(k!)n
i
k1 , . . . , kn ∈ Z+ .
,
b = X n (hinreichende
λ und null setzen führt auf den Maximum-Likelihood-Schätzer λ
Bedingung prüfen!).
1.1.2 Hypothesentests
Häug interessiert man sich weniger für die gesamte zugrunde liegende Verteilung, als die Frage,
ob eine bestimmte Eigenschaft erfüllt ist, oder nicht. Beispielsweise möchte man wissen, ob eine
neue Behandlungsmethode I besser ist als die alte bisher genutzte Methode II. Aufgrund einer
Beobachtung soll entschieden werden, ob die Hypothese I ist besser als II akzeptiert werden
kann oder verworfen werden sollte.
Um derartige Fragestellungen in einem statistischen Modell
wird die Parametermenge in zwei disjunkte Teilmengen
∅ = Θ0 ∩ Θ1 .
Θ0
und
(X , F , (Pϑ )ϑ∈Θ ) zu formalisieren,
Θ1 zerlegt, d.h. Θ = Θ0 ∪ Θ1 und
Das Testproblem liest sich dann als
H0 : ϑ ∈ Θ0
versus
H1 : ϑ ∈ Θ1 .
H0 , H1 als Hypothesen bezeichnet, genauer heiÿt H0 Nullhypothese und H1 Alternativhypothese oder Alternative. Ein statistischer Test entscheidet nun zwischen H0 und H1 aufgrund
Dabei werden
einer Beobachtung
Denition 1.15.
x ∈ X.
Ein (nicht-randomisierter) statistischer Test ist eine messbare Abbildung
ϕ : (X , F ) → ({0, 1}, P({0, 1})),
ϕ(x) = 1 heiÿt, dass die Nullhypothese verworfen/ die
ϕ(x) = 0 bedeutet, dass die Nullhypothese nicht verworfen
wird/ akzeptiert wird. Die Menge {ϕ = 1} = {x ∈ X : ϕ(x) = 1} heiÿt Ablehnbereich von ϕ.
Allgemeiner ist ein randomisierter statistischer Test eine messbare Abbildung ϕ : (X , F ) →
([0, 1], B([0, 1])). Im Fall ϕ(x) ∈ (0, 1) entscheidet ein unabhängiges Bernoulli-Zufallsexperiment
mit Erfolgswahrscheinlichkeit p = ϕ(x), ob die Hypothese verworfen wird.
wobei
Alternative angenommen wird und
Testen beinhaltet mögliche Fehlerentscheidungen:
(i) Fehler 1. Art (α-Fehler, type I error): Entscheidung für
H1 ,
(ii) Fehler 2. Art (β -Fehler, type II error): Entscheidung für
Denition 1.16.
Sei
obwohl
H0 ,
H0
obwohl
H1
wahr ist,
wahr ist.
ϕ ein Test der Hypothese H0 : ϑ ∈ Θ0 gegen die Alternative H1 : ϑ ∈ Θ1
(X , F , (Pϑ )ϑ∈Θ ). Die Gütefunktion von ϕ ist deniert als
im statistischen Modell
βϕ : Θ → R+ , ϑ 7→ Eϑ [ϕ]
ϕ erfüllt das Signikanzniveau α ∈ [0, 1] (oder ϕ ist Test zum Niveau α), falls βϕ (ϑ) 6 α
ϑ ∈ Θ0 . Ein Test ϕ zum Niveau α heiÿt unverfälscht, falls βϕ (ϑ) > α für alle ϑ ∈ Θ1 .
Ein Test
für alle
Somit hat ein nicht-randomisierten Test das Niveau
Pϑ (ϕ = 1) 6 α,
α ∈ (0, 1),
für alle
falls
ϑ ∈ Θ0 ,
beschränkt also die Wahrscheinlichkeit des Fehlers 1. Art mit der vorgegeben oberen Schranke
α.
In der Regel ist es nicht möglich, die Wahrscheinlichkeiten für die Fehler 1. und 2. Art gleichzeitig
zu minimieren. Daher werden diese typischerweise asymmetrisch betrachtet:
(i) Begrenzung der Fehlerwahrscheinlichkeit 1. Art durch ein vorgegebenes Signikanzniveau
6
α.
(ii) Unter der Maÿgabe (i) wird die Wahrscheinlichkeit für Fehler 2. Art minimiert.
Eine zum Niveau
H1
α
statistisch abgesicherte Entscheidung kann also immer nur zu Gunsten von
getroen werden. Daraus folgt die Merkregel Was nachzuweisen ist, stets als Alternative
H1
formulieren.
Beispiel 1.17
.
(Einseitiger Binomialtest)
Von den 13 Todesfällen unter 55- bis 65-jährigen Ar-
beitern eines Kernkraftwerkes im Jahr 1995 waren 5 auf einen Tumor zurückzuführen. Die Todesursachenstatistik 1995 weist aus, dass Tumore bei etwa 1/5 aller Todesfälle die Ursache in der
betreenden Altersklasse (in der Gesamtbevölkerung) darstellen. Ist die beobachtete Häufung von
tumorbedingten Todesfällen signikant zum Niveau 5%?
Bezeichne
X
die Anzahl der Tumortoten unter
Modell gegeben durch
X = {0, . . . n}, F = P(X )
n = 13 Todesfällen. Dann ist das statistische
Pp = Bin(13, p) mit Parameter p ∈ [0, 1]
und
und das Testproblem ist gegeben durch
H0 : p 6 1/5
Ziel ist ein nicht-randomisierter Test zum Niveau
ϕ(x) =
1{x>c}
wobei der kritische Wert
c > 0
k∈X
c
supp61/5 Pp (X > c) 6 α.
unter dieser Nebenbedingung möglichst klein
k X
13
l
l=0
p 7→ Pp (X 6 k) für alle k ∈ X
c) = P1/5 (X > c). Wegen
Da
pl (1 − p)13−l .
monoton fallend auf
P1/5 (X 6 4) ≈ 0, 901
c = 5. Somit
ϕ
Naheliegenderweise konstruieren wir
gilt
Pp (X 6 k) =
wählen wir
α = 0, 05.
so gewählt wird, dass
Um eine möglichst groÿe Güte zu erreichen, sollte
gewählt werden. Für
H1 : p > 1/5.
versus
und
[0, 1]
ist (ableiten), folgt
supp61/5 Pp (X >
P1/5 (X 6 5) ≈ 0, 970,
kann die Hypothese zum Niveau
0, 05
nicht verworfen werden. Die
Gütefunktion von
βϕ (p) = Pp (X > 5) =
13 X
13 l
p (1 − p)13−l ,
l
p ∈ [0, 1],
l=6
ist monoton wachsend und somit ist
ϕ
auch unverfälscht.
Dieses Beispiel führt uns auf ein allgemeines Konstruktionsprinzip von Tests einer Hypothese
H0 : ϑ ∈ Θ0
vs.
H1 : ϑ ∈ Θ1
mit
Methode 3: Teststatistiken.
T : (X , F ) → (R, B(R))
Θ0 6= ∅
und
Θ1 = Θ \ Θ0 .
Für Ablehnbereiche
(Γα )α∈(0,1) ⊆ B(R)
und eine Teststatistik
sei ein Test gegeben durch
ϕ(x) = 1{T (x)∈Γα } ,
x ∈ X.
(1.1)
Γα = (cα , ∞) konstruiert für kritische
n
o
cα = inf c ∈ R : sup Pϑ (T (X) > c) 6 α , α ∈ (0, 1).
Oft werden die Ablehnbereiche als Intervalle
Werte
(1.2)
ϑ∈Θ0
Ist
Θ0 = {ϑ0 } einelementig, dann sind die kritischen Werte genau das (1 − α)-Quantil der VerT unter Pϑ0 . Ein wichtiges Konzept in der Testtheorie, insbesondere in Anwendungen,
teilung von
sind die p-Werte.
Denition 1.18.
H0 : ϑ ∈ Θ0 6= ∅
Sei
(X , F , (Pϑ )ϑ∈Θ )
deniert als
pϕ (x) =
ϕ der Hypothese
x ∈ X bezüglich ϕ
ein statistisches Modell und der Test
gegeben durch (1.1). Dann ist der p-Wert einer Realisierung
inf
sup Pϑ (T (X) ∈ Γα ).
α:T (x)∈Γα ϑ∈Θ0
7
Statt nur zu prüfen, ob ein Test eine Hypothese akzeptiert oder ablehnt, gibt der p-Wert (die
Signikanzwahrscheinlichkeit) das kleinste Signikanzniveau an, zu dem eine Hypothese abgelehnt
würde. Damit gibt der p-Wert Aufschluss darüber wie stark die Daten der Hypothese widersprechen.
Satz 1.19.
Sei (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell und sei ϕ ein Test der Hypothese H0 :
ϑ ∈ Θ0 6= ∅ gegeben durch ϕ = 1{T >cα } für eine Teststatistik T : X → R und kritische Werten
(cα )α∈(0,1) aus (1.2). Dann ist der p-Wert einer Realisierung x ∈ X bezüglich ϕ gegeben durch
pϕ (x) = sup Pϑ (T (X) > t∗ )
mit
t∗ := T (x).
ϑ∈Θ0
Sei
α ∈ (0, 1)
ein
fest vorgegebenes
ϕ(x) = 1
Ist
PTϑ
⇐⇒
pϕ (x) < α
(topologisch) diskret verteilt für alle
ϕ(x) = 1
Beweis. Deniere
⇐⇒
P0 := supϑ∈Θ0 Pϑ .
pϕ (x) =
Da
Niveau. Ist die Verteilung
cα < t∗
ϑ ∈ Θ0 ,
pϕ (x) 6 α
Da
Pϑ − f.s.
inf
äquivalent zur Existenz eines
stetig für alle
für alle
ϑ ∈ Θ0 .
für alle
ϑ ∈ Θ0 .
ϑ ∈ Θ0 ,
gilt
gilt
Pϑ − f.s.
c 7→ P0 (T > c)
α:t∗ >cα
PTϑ
monoton fallend ist, gilt
P0 (T > cα ) > P0 (T > t∗ ).
c < t∗
mit
P0 (T > c) 6 α
ist, folgt aus
P0 (T > cα ) 6 α
(Rechtsstetigkeit der Verteilungsfunktion), dass
pϕ (x) 6 inf{α : cα < t∗ } 6 inf α : P0 ∩c<t∗ {T > c} 6 α = P0 (T > t∗ ).
Zusammen erhalten wir
Sei nun
α
∗
folgt
(c, t )) = 0
pϕ (x) = P0 (T > t∗ ).
T zunächst stetig verteilt. Aus pϕ (x) = P0 (T > t∗ ) < α und limc↑t∗ P0 (T ∈
P0 (T > c) 6 α für ein c < t∗ . Dann muss aber ϕ(x) = 1 gelten. Andersherum gilt
fest und
ϕ(x) = 1
⇒
∃c < t∗ : P0 (T > t∗ ) 6 α − P0 (T ∈ (c, t∗ )).
Pϑ (T ∈ (c, t∗ )) = Pϑ (T ∈ (c, T (x))) > 0 für Pϑ -f.a. x ∈ X und für alle ϑ ∈ Θ0 .
∗
∗
verteilt, bleibt zu bemerken, dass pϕ (x) = P0 (T > t ) = P0 (T > c) für ein c < t .
Dabei gilt
diskret
Ist
T
Bemerkung 1.20.
(i) Der Vorteil von p-Werten ist, dass sie unabhängig von einem a priori festgesetzten Signikanzniveau
α
berechnet werden können. Deshalb werden in allen gängigen Statistik-
Softwaresystemen statistische Hypothesentests über die Berechnung von p-Werten implementiert.
(ii)
Warnung: Alle Rahmenbedingungen des Experiments, insbesondere also das Signikanzniveau, müssen vor dessen Durchführung festgelegt werden! Ein Signikanzniveau darf nicht
a posteriori aufgrund der erzielten p-Werte festgelegt werden. Dies widerspricht richtiger
statistischer Praxis! Insbesondere wäre
α
eine Zufallsvariable (als Funktion in den Beobach-
tungen) und obiger Satz kann nicht angewendet werden.
(iii) Der p-Wert gibt eine Antwort auf die Frage: Wie wahrscheinlich sind die gemessenen Daten,
gegeben, dass die Nullhypothese stimmt? (und
nicht auf die Frage Wie wahrscheinlich ist
es, dass die Nullhypothese wahr ist, gegeben den gemessenen Daten?)
Beispiel 1.21.
Geburten in Berlin:
8
(i) Hypothese : Es werden genauso viele Jungen wie Mädchen geboren.
Sind von
n∈N
Geburten
w6n
Mädchen zur Welt gekommen, ist das statistische Modell
X = {0, . . . , n} und somit (X , P(X ), (Pϑ )ϑ∈[0,1] ) mit
Pϑ = Bin(n, ϑ). Die Hypothese führt auf das zweiseitige Testproblem
gegeben durch den Stichprobenraum
Binomialverteilungen
H0 : ϑ = 1/2
w∈X
−
ϑ|
führt
|w
n
wobei
versus
H1 : ϑ 6= 1/2,
beobachtet wird. Wir setzten das Niveau
α = 0, 05.
Die Teststatistik
T (w) =
auf einen zweiseitigen Binomialtest.
(ii) Hypothese : Höchstens die Hälfte der geborenen Kinder hat nicht verheiratete Eltern.
Von
n∈N
geboren Kindern haben
v 6n
verheiratete Eltern. Mit
(X , P(X ), (Pϑ )ϑ∈[0,1] )
wie oben betrachten wir hier das einseitige Testproblem
H0 : ϑ 6 1/2
wobei
w
n
−ϑ
v∈X
beobachtet wird. Das Niveau
versus
H1 : ϑ > 1/2,
α = 0, 05 zusammen mit der Teststatistik T (w) =
führt auf einen einseitigen Binomialtest.
Bemerkung 1.22. Bei groÿen Stichprobenumfängen ist es sinnvoll, einen Gauÿ-Test für geeignet
normalisierter Teststatistik zu verwenden, um Binomialtest zu approximieren: Für
normalisieren wir die Beobachtung
X ∼ Bin(n, ϑ)
durch
Y := √X−nϑ
nϑ(1−ϑ)
Grenzwertsatz folgt dann für eine standardnormalverteilte Zufallsvariable
q
ϑ0 (1−ϑ0 ) −1
Φ (1
n
− 2α)
mit
Z ∼ N (0, 1),
dass
r
|X − nϑ|
n
Pϑ p
>
cα
ϑ(1 − ϑ)
nϑ(1 − ϑ)
r
n
n→∞
cα
−→ P |Z| >
ϑ(1 − ϑ)
r
1
n
!
1−Φ
cα
= α,
=
2
ϑ(1 − ϑ)
q
ϑ0 (1−ϑ0 )
Φ(x) = P(Z 6 x). Folglich wählen wir cα =
q1−2α =
n
Pϑ (T (X) > cα )
Mit der Verteilungsfunktion
ϑ ∈ (0, 1)
. Aus dem Zentralen
ϑ = ϑ0
=
unter
H0 .
1.1.3 Kondenzmengen (Bereichsschätzung)
Während ein (Punkt-)Schätzer einen einzelnen Wert angibt, möglichst in der Nähe des wahren Parameters, um Rückschlüsse auf das zugrunde liegende Modell zu ziehen, geben Kondenzbereiche
ein Intervall an, in dem der Parameter mit gegebener Wahrscheinlichkeit liegt.
Denition 1.23.
Sei
(X , F , (Pϑ )ϑ∈Θ )
ein statistisches Modell mit abgeleitetem Parameter
C : X → P(Rd ) heiÿt Kondenzmenge zum
Kondenzniveau 1 − α (oder zum Irrtumsniveau α) für α ∈ (0, 1), falls die Messbarkeitsbedingung {x ∈ X : ρ(ϑ) ∈ C(x)} ∈ F für alle ϑ ∈ Θ erfüllt ist und es gilt
Pϑ (ρ(ϑ) ∈ C) = Pϑ {x ∈ X : ρ(ϑ) ∈ C(x)} > 1 − α für alle ϑ ∈ Θ.
ρ : Θ → Rd .
Im Fall
d=1
Eine mengenwertige Abbildung
und falls
Beachte, dass
ρ(ϑ)
C(x)
x∈X
ein Intervall ist, heiÿt
C
Kondenzintervall.
C zufällig ist. Man muss Kondenzmengen also wie folgt
m unabhängigen Experimenten für (verschiedene) Parameter Kondenz-
x ist, während
interpretieren : Werden in
mengen zum Niveau
für jedes
0, 95
konstruiert, dann liegt der unbekannte Parameter in 95% der Fälle im
der jeweiligen Kondenzmenge (für
m
groÿ genug; starkes Gesetz der groÿen Zahlen).
Ein verbreitetes Konstruktionsprinzip für die Kondenzintervalle ist die Verwendung eines
Schätzers und dessen Verteilung, wie im nächsten Beispiel illustriert.
9
Beispiel 1.24.
Im Bernoulli-Experiment von Beispiel 1.5 gilt für
Cn := [b
pn − εn , pbn + εn ]
n
X
!
Pp (p ∈ Cn ) = Pp (|b
pn − p| < εn ) = Pp (Xi − p) < nεn > 1 − α.
i=1
Da
Pn
i=1
Xi ∼ Bin(n, p)
n könnte
men. Für groÿe
können wir
εn
mithilfe der Quantile der Binomialverteilung bestim-
man wieder eine Normalapproximation verwenden. Das resultierende
Kondenzintervall besitzt dann aber nur asymptotisch das Niveau
1 − α.
Eine alternative Konstruktion von Kondenzmengen bietet folgender Korrespondenzsatz:
Satz 1.25.
Sei
(X , F , (Pϑ )ϑ∈Θ )
ein statistisches Modell und
α ∈ (0, 1).
Dann gilt:
ϑ0 ∈ Θ ein Test ϕϑ0 der Hypothese H0 : ϑ = ϑ0 zum Signikanzniveau α vor,
C(x) = {ϑ ∈ Θ : ϕϑ (x) = 0} eine Kondenzmenge zum Kondenzniveau 1 − α.
(i) Liegt für jedes
so deniert
C eine Kondenzmenge zum Niveau 1 − α,
α-Test der Hypothese H0 : ϑ = ϑ0 .
(ii) Ist
dann ist
ϕϑ0 (x) = 1 − 1C(x) (ϑ0 )
ein Niveau-
Beweis. Nach Konstruktion erhält man in beiden Fällen,
∀ϑ ∈ Θ : ∀x ∈ X : ϕϑ (x) = 0
Damit ist
ϕϑ
ein Test zum Niveau
α
für alle
ϑ
⇐⇒
ϑ ∈ C(x).
genau dann, wenn
1 − α 6 Pϑ (ϕ = 0) = Pϑ ({x : ϑ ∈ C(x)})
und somit ist
C
Beispiel 1.26.
0, 95
eine Kondenzmenge zum Niveau
α.
Mit Hilfe des Korrespondenzsatzes können wir ein Kondenzintervall zum Niveau
für die Geburtswahrscheinlichkeit von Mädchen in Berlin berechnen. Im Modell aus Beispiel
1.21(i) ist das Kondenzintervall gegeben durch
C(w) = {ϑ ∈ [0, 1] : |
wobei
pϕ (w)
ϕ gehörigen
2
).
den zu
zintervall? (Übung
w
− ϑ| 6 c0,05 } = {ϑ ∈ [0, 1], pϕ (w) > 0, 05},
n
p-Wert der Realisierung
w
bezeichnet. Ist
C
sogar ein Konden-
1.2 Minimax- und Bayesansatz
Wir haben bereits verschiedene Schätzmethoden, wie den Maximum-Likelihood-Schätzer oder die
Momentenmethode kennen gelernt. Natürlich gibt es noch viel mehr Konstruktionen. Wie sollte
(X , F , (Pϑ )ϑ∈Θ )
ρ : Θ → Rd und Verlustfunktion L. Als mögliches Vergleichskriterium käme die Risikofunktion R(ϑ, ρ
b) = Eϑ [L(ϑ, ρb)] eines Schätzers ρb in Frage.
eine Methode anhand des gegeben Schätzproblems ausgewählt werden? Sei also
ein statistisches Modell mit abgeleitetem Parameter
Beachte jedoch folgendes Beispiel:
Beispiel 1.27.
µ
b1 = X
und
X ∼ N (µ, 1), µ ∈ R,
Sei
µ
b2 = 5.
und
L(µ, µ
b) = (b
µ − µ)2 .
R(µ, µ
b1 ) = Eϑ [(X − µ)2 ] = 1
Damit hat
µ
b1
kleineres Risiko als
Denition 1.28.
Rd
Betrachte die zwei Schätzer
Die Risiken sind dann gegeben durch
µ
b2
genau dann, wenn
Im statistischen Modell
und Verlustfunktion
L,
und
R(µ, µ
b2 ) = (5 − µ)2 .
µ∈
/ [4, 6].
(X , F , (Pϑ )ϑ∈Θ ) mit
ρb minimax, falls
abgeleitetem Parameter
ρ: Θ →
heiÿt ein Schätzer
sup R(ϑ, ρb) = inf sup R(ϑ, ρe),
ϑ∈Θ
ρ
e ϑ∈Θ
wobei sich das Inmum über alle Schätzer (d.h. messbaren Funktionen)
10
ρe: X → Rd
erstreckt.
Denition 1.29.
Der Parameterraum Θ trage eine σ -Algebra FΘ , die Verlustfunktion L sei proϑ 7→ Pϑ (B) sei messbar für alle B ∈ F . Die a-priori-Verteilung π des Parameters
ϑ ist gegeben durch ein Wahrscheinlichkeitsmaÿ auf (Θ, FΘ ). Das zu π assoziierte Bayesrisiko eines
Schätzers ρ
b ist
ˆ ˆ
Rπ (b
ρ) := Eπ [R(ϑ, ρb)] =
L(ϑ, ρb(x))Pϑ (dx)π(dϑ).
duktmessbar und
X
Θ
Der Schätzer
ρb heiÿt
Bayesschätzer oder Bayes-optimal (bezüglich
π ),
falls
Rπ (ρ) = inf Rπ (e
ρ),
ρ
e
wobei sich das Inmum über alle Schätzer (d.h. messbaren Funktionen)
ρe: X → Rd
erstreckt.
Während ein Minimaxschätzer den maximal zu erwartenden Verlust minimiert, kann das Bayesrisiko als ein (mittels
ternativ wird
π
π)
gewichtetes Mittel der zu erwartenden Verluste angesehen werden. Al-
als die subjektive Einschätzung der Verteilung des zugrundeliegenden Parameters
interpretiert.
Beispiel 1.27 (fortgesetzt).
µ
b2 kein Minimaxschätzer sein. Zunächst ist es
µ
b2 gibt. Tatsächlich werden wir später beweisen,
dass µ
b1 minimax ist. Unter der a-priori-Verteilung µ ∼ π = U([4, 6]) hat jedoch µ
b2 das kleinere
Bayesrisiko Rπ (b
µ2 ) = 31 < 1 = Rπ (b
µ1 ).
Oensichtlich kann
aber nicht klar, ob es einen besseren Schätzer als
Das Bayesrisiko kann auch als insgesamt zu erwartender Verlust in folgendem Sinne verstanden
Ω := X × Θ und die gemeinsame Verteilung von Beobachtung und Parameter
e
(X × Θ, F ⊗ FΘ ) gemäÿ P(dx,
dϑ) = Pϑ (dx)π(dϑ). Bezeichnen X und T die Koordinatenprojektionen von Ω auf X bzw. Θ, dann gilt Rπ (b
ρ) = EeP [L(T, ρb(X))].
werden: Deniere
e
P
auf
Wiederholung:
Auf einem Wahrscheinlichkeitsraum (Ω,F ,P) ist die bedingte Wahrscheinlich-
keit eines Ereignisses
Sei
die
Ω=
S
i∈I Bi
A∈F
gegeben
B∈F
P(B) > 0 deniert als P(A|B) = P(A ∩ B)/P(B).
Bi ∈ F , dann besagt
P(A) > 0 und alle k ∈ I
mit
eine abzählbare Zerlegung in paarweise disjunkte Ereignisse
Bayesformel für jedes A ∈ F
mit
P(Bk )P(A|Bk )
.
i∈I P(Bi )P(A|Bi )
P(Bk |A) = P
Mittels bedingten Erwartungswerten (Stochastik II) kann diese Formel auf Dichten ausgedehnt
werden.
Denition 1.30. Sei (X , F , (Pϑ )ϑ∈Θ ) ein von µ dominiertes statistisches Modell mit Dichten
ϑ
fX|T =ϑ := dP
dµ . Sei π eine a-priori-Verteilung auf (Θ, FΘ ) mit Dichte fT bzgl. einem Maÿ ν . Ist
fX|T =· : X × Θ → R+ (F ⊗ FΘ )-messbar, dann ist die a-posteriori-Verteilung des Parameters
gegeben der Beobachtung X = x deniert durch die ν -Dichte
fT |X=x (ϑ) = ´
fX|T =ϑ (x)fT (ϑ)
,
f
(x)fT (t)ν(dt)
Θ X|T =t
ϑ∈Θ
eX -f.ü.).
(P
(1.3)
ρb gegeben X = x ist deniert durch
ˆ
Rπ (b
ρ|x) =
L(ϑ, ρb(x))fT |X=x (ϑ)ν(dϑ).
Das a-posteriori-Risiko eines Schätzers
Θ
Beachte, dass im Nenner in (1.3) die Randdichte
in
e
(X × Θ, F ⊗ FΘ , P)
fX =
´
steht, so dass der Nenner in (1.3) für
11
fX|T =t (·)fT (t)ν(dt) bzgl. µ von X
e
PX -f.a. x ∈ X gröÿer als null ist.
Θ
Beispiel 1.31.
π
Verteilung
und
P1
Θ = {0, 1}, L(ϑ, r) = |ϑ − r| (0-1-Verlust) und betrachte eine a-prioriπ({0}) =: π0 und π({1}) =: π1 = 1 − π0 . Die Wahrscheinlichkeitsmaÿe P0
Dichten p0 und p1 bzgl. einem Maÿ µ besitzen (z.B. µ = P0 + P1 ). Dann ist die
Setze
mit
mögen
a-posteriori-Verteilung durch die Zähldichte
fT |X=x (i) =
πi pi (x)
,
π0 p0 (x) + π1 p1 (x)
i = 0, 1
gegeben. Damit ist das a-posteriori-Risiko eines Schätzers
eX -f.ü.)
(P
ϑb : X → {0, 1}
gegeben durch
b
b
b = ϑ(x)π0 p0 (x) + (1 − ϑ(x))π1 p1 (x) .
Rπ (ϑ|x)
π0 p0 (x) + π1 p1 (x)
Satz 1.32.
Schätzers
Es gelten die Bedingungen der vorangegangenen Denition. Für das Bayesrisiko eines
ρb gilt
ˆ
Rπ (b
ρ) =
Minimiert
ρb(x)
für
eX -f.a.
P
Rπ (b
ρ|x)fX (x)µ(dx).
das a-posteriori-Risiko
mint∈ran(ρ) Rπ (t|x),
dann ist
ρb Bayesschätzer.
fT |x=x (ϑ)fX (x) = fX|T =ϑ (x)fT (ϑ). Der Satz von Fubini ergibt
ˆ ˆ
Rπ (b
ρ) =
L(ϑ, ρb(x))Pϑ (dx)π(dϑ)
ˆΘ ˆX
ˆ
=
L(ϑ, ρb(x))fT |x=x (ϑ)fX (x)µ(dx)ν(dϑ) =
Rπ (b
ρ|x)µ(dx).
Beweis. Aus (1.3) folgt
Θ
Korollar 1.33.
X
X
Unter quadratischem Verlust ist der Bayesschätzer gegeben durch
ˆ
ρb(x) =
ρ(ϑ)fT |X=x (ϑ)ν(dϑ) =: E[ρ(ϑ)|X = x].
Θ
Der Bayesschätzer bzgl. absolutem Verlust ist gegeben durch den Median der a-posterioriVerteilung. Für den 0-1-Verlust ist der Bayesschätzer der Modus der a-posteriori-Verteilung.
Beweis. Übung
2
.
Methode 4: Bayesschätzer.
Durch
die
Wahl
einer
Verlustfunktion
und
einer
a-priori-
Verteilung im statistischen Modell erhalten wir nach Berechnung der a-posteriori-Verteilung und
durch das vorangegangene Korollar einen expliziten Bayesschätzer.
Beispiel 1.34.
X1 , . . . , Xn ∼ N (µ, σ 2 ) eine mathematische Stichprobe mit bekanntem σ 2 > 0
2
und a-priori-Verteilung µ ∼ N (a, b ). Mittels Bayesformel kann die a-posteriori-Verteilung für eine
Realisierung x = (x1 , . . . , xn ) berechnet werden:
Sei
fT |X=x (µ) ∼fX|T =µ (x)fT (µ)
n
X
(µ − a)2 (xi − µ)2 ∼ exp −
exp
−
2σ 2
2b2
i=1
µ2 − 2µx
µ2 − 2aµ n
∼ exp −
−
2σ 2 /n
2b2
(b2 + σ 2 /n)µ2 − 2µ(b2 x + aσ 2 /n) n
∼ exp −
2b2 σ 2 /n
1 n
1 b2 xn
aσ 2 /n 2 ∼ exp −
+
µ
−
−
.
2 σ2
b2
b2 + σ 2 /n b2 + σ 2 /n
12
Gegeben der Beobachtung
X
N
ϑ
ist
also a-posteriori verteilt gemäÿ
σ²
n
1 −1 b2
n
+
.
a,
X
−
n
σ2
b2
b2 + σn²
b2 + σn²
Der Bayesschätzer bzgl. quadratischem Verlust, gegeben durch den a-posteriori Mittelwert, ist
damit
ϑbn =
σ²
b2
n
X
−
a.
n
b2 + σn²
b2 + σn²
Bemerkung 1.35. Erhalten wir bei Wahl einer Klasse von a-priori-Verteilungen für ein statistisches Modell dieselbe Klasse (i.A. mit anderen Parametern) als a-posteriori-Verteilung zurück, so
nennt man die entsprechenden Verteilungsklassen konjugiert. Im obigen Beispiel haben wir gesehen, dass die Normalverteilungen zur den Normalverteilungen konjugiert sind (genauer müsste
man sagen, dass für unbekannten Mittelwert in der Normalverteilung a-priori Normalverteilungen
konjugiert sind). Als weiteres Beispiel sind die Beta-Verteilungen zur Binomialverteilung konjugiert sind (siehe Übung
2
). In diesen (Einzel-)Fällen ist es besonders einfach, die Bayesschätzer zu
konstruieren. Für komplexere Modelle werden häug computer-intensive Methoden wie MCMC
(Markov Chain Monte Carlo) verwendet, um die a-posteriori-Verteilung zu berechnen (Problem:
i.A. hochdimensionale Integration).
Lemma 1.36.
Unter den Bedingungen der vorangegangen Denition gilt für jeden Schätzer
ρb
sup R(ϑ, ρb) = sup Rπ (b
ρ),
π
ϑ∈Θ
wobei sich das zweite Supremum über alle a-priori-Verteilungen
π
erstreckt. Insbesondere ist das
Risiko eines Bayesschätzers stets kleiner oder gleich dem Minimaxrisiko.
Beweis. Natürlich gilt
priori-Verteilung
δϑ
Rπ (b
ρ) =
´
R(ϑ, ρb)π(dϑ) 6 supϑ∈Θ R(ϑ, ρb).
Θ
Durch Betrachtung der a-
folgt daher die Behauptung.
Durch dieses Lemma können wir untere Schranken für das Minimaxrisiko durch das Risiko von
Bayesschätzern abschätzen. Mögliche Anwendungen illustriert folgender Satz.
Satz 1.37.
X1 , . . . , Xn eine N (µ, σ 2 )-verteilte mathematische Stichprobe mit unbekanntem
µ ∈ R und bekanntem σ 2 > 0. Bezüglich quadratischem Risiko ist das arithmetische Mittel X n ein
Minimaxschätzer von µ.
Sei
Beweis. Wir betrachten a-priori-Verteilungen
µ ∼ π = N (0, b2 ).
Nach Beispiel 1.34 ist die a-
posteriori-Verteilung
N
b2 X
n
−1 n
−2
,
+
b
,
2
σ2
b2 + σn
der Bayesschätzer bzgl. quadratischem Risiko ist gegeben durch den a-posteriori-Erwartungswert
µ
bn = b2 X n /(b2 + σ 2 n−1 ) und dessen a-posteriori-Risiko ist gegeben durch die
e, folgt aus Satz 1.32
posteriori-Verteilung. Ist fX die Randdichte von X von P
ˆ
Rπ (b
µn ) =
VarT |X=x (µ)fX (x)dx
n
ˆR
−1
−1
=
nσ −2 + b−2
fX (x)dx = nσ −2 + b−2
.
Varianz der a-
Rn
Somit können wir das Minimaxrisiko nach unten abschätzen:
inf sup R(µ, µ
e) = inf sup Rπ (e
µ) > inf sup RN (0,b2 ) (e
µ)
µ
e µ∈R
µ
e
µ
e b>0
π
> sup inf RN (0,b2 ) (e
µ) = sup nσ 2 + b−2
e
b>0 µ
wie behauptet, da
2
R(µ, X n ) = σ /n.
13
b>0
−1
=
σ2
,
n
1.3 Ergänzungen: Quantile
Denition.
Sei
P((−∞, x]).
Für
P ein Wahrscheinlichkeitsmaÿ auf (R, B(R)) mit Verteilungsfunktion F (x) =
α ∈ (0, 1) ist das α-Quantil qα ∈ R von P deniert durch
P((−∞, qα )) 6 α 6 P((−∞, qα ]).
Die Quantilfunktion ist deniert als verallgemeinertes Inverses von
F −1 (p) := inf{x ∈ R : F (x) > p},
α-Quantile
Lemma.
sind nicht eindeutig, falls
F −1 (α)
ist ein
F
auf dem Niveau
F
lim
r↑F −1 (α)
F (x) =
Das verallgemeinerte Inverse hat folgende
(i)
(ii)
irgendwo konstant ist. Es gilt aber
F (F −1 (α)) > α.
Für alle
x < F −1 (α)
gilt
F
lim
r↑F −1 (α)
P((−∞, r]) = P((−∞, r)).
Eigenschaften:
F −1 (p) 6 x ⇔ p 6 F (x);
F ◦ F −1 (p) > p
und Gleichheit gilt genau dann, wenn
dann nicht gelten, wenn
(iii)
gilt
und wegen der linken Grenzwerte von
α>
p ∈ [0, 1].
α-Qunatil.
Beweis. Aufgrund der Rechtsstetigkeit von
F (x) < α
α
F:
F −1 ◦ F (x) 6 x,
F
unstetig bei
F −1 (p)
p ∈ ran F.
wobei Gleichheit genau dann nicht gilt wenn
Rand einer Ebene (kein Anstieg) von
F
Die Gleichheit kann nur
ist;
x
im Inneren oder am rechten
liegt.
F ◦ F −1 (p) = p auf (0, 1) genau dann, wenn F stetig ist (d.h. ran F = [0, 1]) und
F ◦ F (x) = x gilt auf R genau dann, wenn F strikt monoton wachsend ist. Folglich ist F −1 ein
echtes Inverses genau dann, wenn F stetig und streng monoton wachsend ist.
Damit gilt
−1
Satz.
Ist
U ∼ U ni([0, 1]),
dann besitzt die Zufallsvariable
(Quantilstransformation). Besitzt
nau dann, wenn
F
die Verteilungsfunktion
stetig ist.
Beweis. Aus (i) folgt
p ∈ (0, 1)
X
F −1 (U ) die Verteilungsfunktion F
F , dann gilt F (X) ∼ U ni([0, 1]) ge-
P(F −1 (U ) 6 x) = P(U 6 F (x)) = F (x)
für alle
P(F (X) 6 p) = P(X 6 F −1 (p)) = F (F −1 (p)) = p
Schlieÿlich
rische
x ∈ R.
Anderseits gilt für
wegen (i) und (ii)
wollen
wir
Verteilungsfunktion
Pn
F (x) = n1 i=1 1{Xi 6x} .
´ nx
2
(2π)−1/2 e−y /2 dy . Für
−∞
noch
einer
den
QQ-Plot
⇐⇒
(Qunatil-Quantil-Plot)
mathematischen
Stichprobe
p ∈ ran F.
verstehen:
X1 , . . . , Xn
ist
Die
empi-
gegeben
durch
Φ(x) =
Fn die wahre Verteilungsfunktion F , da nach
dem starken Gesetz der groÿen Zahlen Fn (x) → E[1{X1 6x} ] = F (x) P-f.s. für alle x ∈ R gilt (tatsächlich gilt diese Konvergenz sogar gleichmäÿig auf R nach dem Satz von Borel-Cantelli). Falls
Xi ∼ N (µ, σ 2 ), so gilt F (x) = Φ( x−m
σ ). Für die Quantilfunktion gilt also
Die Verteilungsfunktion der Standardnormalverteilung ist
groÿe
n
approximiert
F −1 (Φ(x)) = Φ−1 (Φ(x)) · σ + m = σ · x + m,
d.h.
F −1 ◦ Φ
ist eine Gerade. Im QQ-Plot wird
tragen und unter einer
2
N (µ, σ )-Annahme
Fn−1
(die empirischen Quantile) gegen
Φ−1
aufge-
sollten die Werte in etwa auf einer Geraden liegen.
14
2 Lineares Modell
2.1 Regression und kleinste Quadrate
Regression ist eine Methode um den Zusammenhang zwischen einer Zielgröÿe (Response-Variable )
Y
und einem Vektor von erklärenden Variablen (Kovariablen, Regressoren )
X = (x1 , . . . , xk )
zu
analysieren. Beginnen wir mit dem einfachen linearen Modell
Yi = axi + b + εi ,
i = 1, . . . , n,
ε1 , . . . , εn , die zentriert sind (Ei [εi ] = 0) und endliche Varianz Var(εi ) = σ 2 >
0 haben. Die Parameter a, b ∈ R, σ > 0 sind unbekannt. Gesucht ist eine Regressionsgerade der
Form y = ax + b, die die Beobachtungen möglichst gut erklärt. Der Parameter σ ist typischerweise
mit Zufallsvariablen
nicht das Ziel der statistischen Inferenz und somit ein Störparameter.
Beispiel 2.1.
Kovariable
xi
Yi
ist das Wachstum von Deutschlands Bruttoinlandsproduktes im Jahr
i.
Die
ist die Veränderung der Arbeitslosenquote im Vergleich zum Vorjahr. Unter Ver-
wendung der Daten von 1992 bis 2012 aus den World Development Indicators der Weltbank
erhalten als Regressionsgrade erhalten wir
y = −1, 080 · x + 1, 338. Betrachten wir alle sechs Grüny = −1, 075 · x + 1, 819 Der
dungsmitglieder der EU im gleichen Zeitraum ergibt ganz ähnlich
lineare Zusammenhang beider Gröÿen ist als Okuns Gesetz bekannt.
Um die Situation weiter zu vereinfachen nehmen wir zunächst an, dass
und
N (0, σ 2 )-verteilt
ε1 , . . . , ε n
unabhängig
sind. Nun können wir den Maximum-Likelihood-Schätzer bestimmen: Der
Beobachtungsvektor ist verteilt gemäÿ der Lebesguedichte
L(a, b, σ; y) =
n
Y
(y − ax − b)2 i
i
(2πσ 2 )−1/2 exp −
2
2σ
i=1
n
1 X
(yi − axi − b)2 ,
= (2πσ 2 )−n/2 exp − 2
2σ i=1
y ∈ Rn .
Somit ist die Loglikelihoodfunktion
n
n
1 X
l(a, b, σ; y) := log L(a, b, σ; y) = − (log σ 2 + log(2π)) − 2
(yi − axi − b)2 .
2
2σ i=1
a, b
Das Maximieren der Likelihood über
ist also äquivalent zum Minimieren der Summe der
quadrierten Residuen (RSS: residual sum of squares). Auch wenn die Fehler nicht normalverteilt
sind, kann diese Methode gute Ergebnisse erzielen.
Methode 5: Methode der kleinesten Quadrate.
Kleinste-Quadrate-Schätzer
b
a, bb durch
Im einfachen linearen Modell sind die
Minimierung der Summe quadratischen Abstände
(b
a, bb) := arg min
a,b
n
X
(Yi − axi − b)2
i=1
gegeben.
Satz 2.2.
Im einfachen linearen Modell mit unabhängigen und
N (0, σ 2 )-verteilten Fehlern, ist der
Maximum-Likelihood-Schätzer gleich dem Kleinste-Quadrate-Schätzer und es gilt
Pn
b
a=
wobei
Yn =
1
n
Pn
i=1
Yi
und
(x − xn )(Yi −
i=1
Pni
2
i=1 (xi − xn )
xn =
1
n
Pn
i=1
Y n)
xi .
15
und
bb = Y n − b
axn ,
Beweis. Es bleibt festzustellen, dass wir durch Dierentiation folgende Normalgleichungen erhalten:
0=
n
X
xi (Yi − axi − b)
0=
und
i=1
n
X
(Yi − axi − b),
i=1
die leicht gelöst werden können.
Bemerkung 2.3. Bei der Wahl anderer Fehlerverteilungen ergibt das Maximum-Likelihood-Prinzip
andere (nicht weniger sinnvolle) Schätzer (Übung
2
),
die aber im Allgemeinen nicht in ge-
schlossener Form darstellbar sind. Populäre nicht gauÿsche Fehlerverteilungen sind Laplace- und
Exponential-Verteilungen.
Haben wir
k > 2
Kovariablen und
n
Beobachtungen
Yi ,
führt das zur multiplen linearen
Regression
Yi = β0 +
k
X
βj xi,j + εi ,
i = 1, . . . , n,
j=1
wobei die Fehlerterme
(εi ) iid. und zentriert sind mit 0 < Var(εi ) =: σ 2 < ∞. In Vektorschreibweise
erhalten wir
Y = (Y1 , . . . , Yn )> ∈ Rn


1 x1,1 · · · x1,k

.
. 
n×(k+1)
.
.  ∈ R
X :=  ...
.
.
1 xn,1 · · · xn,k
Response-Vektor,
Design-Matrix,
ε := (ε1 , . . . , εn )> ∈ Rn
>
β := (β0 , . . . , βk ) ∈ R
Vektor der Fehlerterme,
k+1
Parametervektor,
so dass das multiple Regressionsmodell in der Form
Y = Xβ + ε
geschrieben werden kann. Der kleinste-Quadrate-Schätzer löst folglich das Minimierungsproblem
min |Xb − Y |2 .
b
Beispiel 2.4.
Im crime-Datensatz von Agresti and Finlay (1997, Kap. 9) stehen für die 51
Staaten der USA die beiden Responsevariablen
ˆ
Anzahl der Gewaltverbrechen pro 100.000 Einwohnern (crime),
ˆ
Morde pro 1.000.000 Einwohner (murder),
und folgende Kovariablen zur Verfügung:
ˆ
Prozentualer Anteil der Bevölkerung die in Ballungs-/ Groÿstadtgebieten leben (pctmetro),
ˆ
Prozentualer Anteil der weiÿen Bevölkerung (pctwhite),
ˆ
Prozentualer Anteil der Bevölkerung mit einem High-School-Abschluss (pcths),
ˆ
Prozentualer Anteil der Bevölkerung der unter der Armutsgrenze leben (poverty) und
ˆ
Prozentualer Anteil der Bevölkerung mit alleinerziehenden Eltern (single).
16
Bemerkung 2.5. Wechselwirkungen zwischen zwei Kovariablen
tionsterme
xi · xj
xi
und
xj
werden durch Interak-
modelliert. Kategorielle Kovariablen sollten durch eine Menge von sogenann-
ten Dummy-Indikatoren kodiert werden, um nicht implizit eine (inadäquate) Metrisierung auf
dem diskreten Wertebereich solcher Kovariablen zu induzieren. Eine kategorielle Kovariable mit
`
möglichen Ausprägungen wird dabei durch
j -te
repräsentiert. Der
(` − 1)
Indikatoren (d.h.
{0, 1}-wertige
Variablen)
Dummy-Indikator kodiert dabei das Ereignis, dass die Kategorie
bei der zugehörigen Kovariablen vorliegt,
j = 1, . . . , ` − 1.
Sind also alle
(` − 1)
(j + 1)
Indikatoren gleich
Null, so entspricht dies der (Referenz-) Kategorie 1 der zugehörigen kategoriellen Kovariable (vgl.
Varianzanalyse).
Dies führt uns zur allgemeinen Denition des linearen Modells:
Denition 2.6. Ein lineares Modell mit n reellwertigen Beobachtungen Y = (Y1 , . . . , Yn )> und
k -dimensionalem Parameter β ∈ Rk , k < n, besteht aus einer reellen Matrix X ∈ Rn×k von
>
vollem Rang k , der Designmatrix, und einem Zufallsvektor ε = (ε1 , . . . , εn ) , den Fehler- oder
Störgröÿen, mit E[εi ] = 0, Cov(εi , εj ) = Σi,j für eine Kovarianzmatrix Σ > 0. Beobachtet wird
eine Realisierung von
Der (gewichtete)
Y = Xβ + ε.
b von β
Kleinste-Quadrate-Schätzer β
minimiert den gewichteten Euklidischen
Abstand zwischen Beobachtungen und Modellvorhersage:
|Σ−1/2 (X βb − Y )|2 = inf |Σ−1/2 (Xb − Y )|2 .
b∈Rk
Im gewöhnlichen Fall
Σ = σ 2 En
mit Fehlerniveau
σ>0
erhalten wir den gewöhnlichen Kleinste-
Quadrate-Schätzer (OLS: ordinary least squares)
|X βb − Y |2 = inf |Xb − Y |2 ,
b∈Rk
der unabhängig von der Kenntniss von
σ2
ist.
Σ > 0, falls Σ eine symmetrische, strikt positiv-denite Matrix
Σ = T DT > , D = diag(λ1 , . . . , λn ) Diagonalmatrix und T
−1/2
−1/2
−1/2
orthogonale Matrix, und wir setzen Σ
:= T D−1/2 T > mit D1/2 := diag(λ1 , . . . , λn ). Wie
−1/2 2
−1
−1/2 2
−1
erwartet, gilt (Σ
) = Σ und somit |Σ
v| = hΣ v, vi.
Bemerkung 2.7. Wir schreiben
ist. Dann ist
Σ
diagonalisierbar mit
Zusätzlich zur einfachen und multiplen Regression umfasst das lineare Modell weitere Beispiele.
Beispiel 2.8 (Polynomiale Regression).
Wir beobachten
Yi = a0 + a1 xi + a2 x2i + · · · + ak−1 xk−1
+ εi ,
i
Damit ergibt sich als Parameter
β = (a0 , . . . , ak−1 )>
i = 1, . . . , n.
und eine Designmatrix vom Vandermonde-
Typ

1
.
X =  ..
1
Die Matrix hat vollen Rang, sofern
Lemma 2.9.
Bildraum
Setze
ran(XΣ )
k
XΣ := Σ−1/2 X .
x1
x21
.
.
.
.
.
.
xn
x2n
···
.
.
.
···
der Designpunkte
Mit
ΠX Σ
xk−1
1


.
xk−1
n
(xi )
verschieden sind.
werde die Orthogonalprojektion von
Rn
bezeichnet. Dann gilt
ΠΣ = XΣ (XΣ> XΣ )−1 XΣ>
und für den Kleinste-Quadrate-Schätzer
βb = (X > Σ−1 X)−1 X > Σ−1 Y.
Insbesondere existiert der Kleinste-Quadrate-Schätzer, ist eindeutig und erwartungstreu.
17
auf den
XΣ> XΣ = X > Σ−1 X
an X :
Beweis. Zunächst beachte, dass
von
Σ
und der Rangbedingung
invertierbar ist wegen der Invertierbarkeit
X > Σ−1 Xv = 0 ⇒ v > X > Σ−1 Xv = 0 ⇒ |Σ−1/2 Xv| = 0 ⇒ |Xv| = 0 ⇒ v = 0.
PXΣ := XΣ (XΣ> XΣ )−1 XΣ> und w = PXΣ v für ein v ∈ Rn . Dann folgt w ∈ ran(XΣ ) und im
Fall v = XΣ u durch Einsetzen w = PXΣ XΣ u = v, so dass PXΣ eine Projektion auf ran(XΣ ) ist.
Da PXΣ selbstadjungiert (symmertrisch) ist, handelt es sich um die Orthogonalprojektion ΠXΣ :
Setze
∀u ∈ Rn , ∀w ∈ ran XΣ : hu − PXΣ u, wi = hu, wi − hu, PXΣ wi = 0.
b = arg min |Σ−1/2 (Y − Xb)|2 folgt, dass βb die beste Approximation von
Aus der Eigenschaft β
b
Σ−1/2 Y durch XΣ b liefert. Diese ist durch die Orthogonalprojektionseigenschaft ΠXΣ Σ−1/2 Y =
XΣ βb bestimmt. Es folgt
b
XΣ> ΠXΣ Σ−1/2 Y = (XΣ> XΣ )βb ⇒ (XΣ> XΣ )−1 X > Σ−1 Y = β.
Schlieÿlich folgt aus der Linearität des Erwartungswertes und
E[ε] = 0:
b = E[(X > XΣ )−1 X > Σ−1 (Xβ + ε)] = β + 0 = β.
E[β]
Σ
Bemerkung 2.10.
ˆ
Im
gewöhnlichen
(X > X)−1 X > Y
linearen
Modell
bzw.
der
multiplen
linearen
Regression
und ist somit unabhängig vom unbekannten Parameter
ˆ XΣ† := (XΣ> XΣ )−1 XΣ> heiÿt auch Moore-Penrose-(Pseudo-)Inverse
XΣ† Σ−1/2 Y bzw. βb = X † Y im gewöhnlichen linearen Modell gilt.
gilt
βb =
σ > 0.
XΣ ,
von
so dass
βb =
Wir kommen zum zentralen Satz in der Regressionsanalyse:
Satz 2.11
.
ρ = hβ, vi für ein v ∈ Rk im linearen Modell
ein (in den Daten Y ) linearer erwartungstreuer Schätzer, der
erwartungstreuen Schätzern minimale Varianz besitzt, nämlich Var(b
ρ) =
(Gauÿ-Markov)
zu schätzen, so ist
unter allen linearen
|XΣ (XΣ> XΣ )−1 v|2 .
Ist der Parameter
b vi
ρb = hβ,
Beweis. Die Linearität ist klar und aus dem vorangegangen Lemma folgt, dass
ist. Sei nun
alle
β ∈ Rk
und somit
ρe = hY, wi
ρ.
ein beliebiger linearer erwartungstreuer Schätzer von
ρb erwartungstreu
Dies impliziert für
E[hY, wi] = ρ ⇒ hXβ, wi = hβ, vi ⇒ hX > w − v, βi = 0
v = X > w = XΣ> Σ1/2 w.
Nach Pythagoras erhalten wir
Var(e
ρ) = E[hε, wi2 ] = E[w> εε> w]
= w> Σw = |Σ1/2 w|2 = |ΠXΣ (Σ1/2 w)|2 + |(En − ΠΣ )(Σ1/2 w)|2 .
Damit gilt
Var(e
ρ) > |ΠXΣ (Σ1/2 w)|2 = |XΣ (XΣ> XΣ )−1 X > w| = |XΣ (XΣ> XΣ )−1 v| = Var(b
ρ).
Bemerkung 2.12. Man sagt, dass der Schätzer
ρb
im Satz von Gauÿ-Markov bester linearer
erwartungstreuer Schätzer (blue: best linear unbiased estimator) ist. Eingeschränkt auf lineare
Schätzer ist der Kleinste-Quadrate-Schätzer damit minimax. Ob es einen besseren nichtlinearen
Schätzer geben kann, werden wir in Kapitel 3 beantworten.
Im gewöhnlichen linearen Modell ist die optimale Varianz insbesondere
diesem Spezialfall ist es auch von Interesse das Rauschniveau
insbesondere Tests und Kondenzbereiche zu konstruieren.
18
σ
2
σ 2 |X(X > X)−1 v|2 .
In
zu schätzen. Dies ermöglicht es
Lemma 2.13.
X βb = ΠX Y
Im gewöhnlichen linearen Modell mit
und
R := Y − X βb
σ>0
und Kleinste-Quadrate-Schätzer
βb gilt
bezeichne den Vektor der Residuen. Die geeignet normalisierte
Stichprobenvarianz
σ
b2 :=
ist erwartungstreuer Schätzer von
σ2 .
X βb = ΠX Y folgt aus Lemma
E[|(En − ΠX )ε|2 ]. Ist nun e1 , . . . , en−k
ran(En − ΠX ) ⊆ Rn , so folgt
Beweis.
b2
|R|2
|Y − X β|
=
n−k
n−k
b 2 ] = E[|Y − ΠX Y |2 ] =
E[|Y − X β|
Orthnormalbasis vom (n − k)-dimensionalen Bild
2.9. Einsetzen zeigt
eine
E[|(En − ΠX )ε|2 ] =
n−k
X
E[hε, ei i2 ] = σ 2 (n − k),
i=1
was die Behauptung impliziert.
Beachte, dass der Maximum-Likelihood-Schätzer von
σ
b
2
(Übung
Varianz als
2
). Der
2
σ
bM
L.
erwartungstreue Schätzer
σ
b
2
σ2
2
−1
σ
bM
|R|2 6=
L = n
gegeben ist durch
wird in der Praxis bevorzugt, hat jedoch gröÿere
Bevor wir uns mit statistischer Inferenz, also der Konstruktion von Tests und Kondenzintervallen, im linearen Modell beschäftigen, soll der Baysianische Ansatz auf das Regressionsproblem
angewendet werden.
Satz 2.14.
σ>0
Im gewöhnlichen linearen Modell
k
genüge β ∈ R der a-priori-Verteilung
Y = Xβ + ε
ε ∼ N (0, σ 2 En )
mit
und bekanntem
β ∼ N (m, σ 2 M )
mit Parametern
m ∈ Rk
k×k
und symmetrisch positiv deniter Matrix M ∈ R
. Dann ist die an
gegeben einer Realisierung y ∈ R gegeben durch
β
posteriori-Verteilung von
β|Y = y ∼ N (µy , Σy )
mit
Σy = σ 2 X > X + M −1
−1
, µy = Σy (σ −2 X > y + σ −2 M −1 m).
Insbesondere ist der Bayesschätzer bzgl. quadratischem Verlust gegeben durch
−1 >
M −1
(X Y + M −1 m).
βbBayes = X > X +
t ∈ Rk gilt
1
1
fβ|Y =y (t) ∼ exp − 2 (y − Xt)> (y − Xt) exp − 2 (t − m)> M −1 (t − m)
2σ
2σ
1
1 > >
1 > −1
1
> >
∼ exp 2 t X y − 2 t X Xt − 2 t M t + 2 t> M −1 m
σ
2σ
2σ
σ
1
1 > >
>
>
−1
−1
= exp 2 t X y + M m − 2 t X X + M
t .
σ
2σ
Beweis. Für die a-posteriori-Dichte an der Stelle
Daher ist
β
Y = y normalverteilt mit
µy = Σy (X > y + M −1 m)/σ 2 .
gegeben
und Mittelwert
Kovarianzmatrix
Es ist erneut bemerkenswert, dass der Bayesschätzer
Bemerkung 2.15. Indem wir auch den Parameter
σ
2
βbBayes
Σy = (σ −2 X > X + σ −2 M −1 )−1
nicht von
σ2
abhängt.
mit einer a-priori-Verteilung versehen, er-
halten wir ein (mehrstuges) Bayesmodell. Da wir besonders an konjugierten Verteilungsklassen
interessiert sind, wird hierzu oft die inverse Gamma-Verteilung verwendet: Ist
1/Z ∼ IG(a, b)
invers Gamma-verteilt mit Parametern
fa,b (x) =
a, b > 0
ba −(a−1) −a/x
x
e
1(0,∞) (x),
Γ(a)
19
Z ∼ Γ(a, b)
und Lebesguedichte
x ∈ R.
so ist
Das Bayesmodell ist also gegeben durch
Y |β, σ 2 ∼ N (Xβ, σ 2 En ),
Die gemeinsame Verteilung von
β|σ 2 ∼ N (m, σ 2 M ),
σ ∼ IG(a, b).
(β, σ 2 ) ∼ N IG(m, M, a, b) wird Normal-inverse Gammaverteilung
genannt und besitzt die Dichte
2
1
ba
>
−1
exp
−
(β
−
m)
M
(β
−
m)
e−a/σ
2
2
a+1
2
k/2
1/2
2σ
Γ(a)(σ )
(2πσ ) |M |
1
1
∼ 2 k/2+a+1 exp
β ∈ Rk , σ 2 > 0.
(β − m)> M −1 (β − m) + b ,
2σ 2
(σ )
1
f (β, σ 2 ) =
In diesem Modell ist die a-posteriori-Verteilung von
0
0
IG(a , b )
mit
0
a =a+
n
2
+
σ2
gegeben
β
und
Y
gegeben durch
σ 2 |β, Y ∼
k
2 und
1
1
b0 = b + (Y − Xβ)> (Y − Xβ) + (β − m)> M −1 (β − m).
2
2
Die a-posteriori-Verteilung von
(β, σ 2 ) gegeben Y
ist
f, e
(β, σ 2 )|Y ∼ N IG(m,
e M
a, eb) mit Parametern
f = (X > X + M −1 )−1 , m
f(M −1 m + X > y),
e =M
M
n
1
f−1 m
e
a = a + , eb = b +
Y > Y + m> M −1 m − m
e >M
e ,
2
2
siehe Fahrmeir et al. (2009, Kap. 3.5).
Korollar 2.16.
τ 2 Ek , τ > 0,
Unter den Voraussetzungen des vorangegangenen Satzes mit
m = 0
und
M =
gilt für den Bayesschätzer unter quadratischem Verlust
1
βbBayes = arg min |Y − Xβ|2 + 2 |β|2 .
τ
β∈Rk
Beweis. Im Spezialfall m = 0 und
−1 >
τ −2 Ek
X y . Andererseits gilt
M = τ 2 Ek
folgt aus obigem Satz
βbBayes =
X >X +
1
arg min (Y > − β > X > )(Y − Xβ) + 2 β > β
τ
β
1
= arg min − 2Y > Xβ + β > (X > X + 2 Ek )β .
τ
β
β 7→ −2Y > Xβ + β > (X > X + τ12 Ek )β liefert 0 =
1
−2Y X +2β (X X + τ 2 Ek ), so dass aus der positiv Denitheit und Symmetrie von X > X + τ12 Ek
die Behauptung folgt.
Null setzen des Dierenzials der Funktion
>
>
>
Der Bayesansatz führt uns also zu einer neuen Schätzmethode im linearen Modell:
Methode 6: Ridge-Regression.
Ridge-Regressionsschätzer
koezient
λ>0
oder
Im
linearen
Schrumpfungsschätzer
Modell
(engl.:
Y
=
Shrinkage)
Xβ + ε
mit
ist
der
Schrumpfungs-
deniert als
βbridge = arg min |Y − Xβ|2 + λ|β|2 .
β∈Rk
Durch Einführung des Strafterms (engl.: penalty )
λ|β|2
wird die Varianz auf Kosten eines Bias
verringert. Dies ist insbesondere sinnvoll, wenn einige (wenige) Koezienten von
β
groÿ sind und
die übrigen klein und liefert in diesen Fällen gute Schätzergebnisse auch wenn die Parameterdi-
∼ p). Dies
λ ist allerdings
mension in einer ähnlichen Gröÿenordnung liegt wie die Anzahl der Beobachtungen (n
wird im nächsten Beispiel illustriert. Die richtige Wahl des Strumpfungsparameters
ein schwieriges Problem.
20
Beispiel 2.17.
rameter
β ∈ R
Betrachten wir das Modell
p
und
iid.
εi ∼ N (0, 1)
Yi = x>
i β + εi
i = 1, . . . , n.
mit
mit Kovariablenvektor
n = 50
Wir wählen
x i ∈ Rp ,
p = 30
und
Pa-
wobei 10
Koezienten groÿ sind (zwischen 0,5 und 1) und 20 klein (zwischen 0 und 0,3) und bestimmen
den mittleren Quadratischen Fehler aus 200 Simulationen für verschiedene Werte von
(Übung
λ ∈ [0, 20]
2
).
2.2 Inferenz unter Normalverteilungsannahme
Im Folgenden werden wir das gewöhnliche lineare Modell unter der Normalverteilungsannahme
(εi ) ∼ N (0, σ 2 En )
Beispiel 2.18.
für
v∈R
k
betrachten.
(εi ) ∼ N (0, σ 2 En )
Sind die Messfehler
βb ∼ N (β, σ 2 (X > X)−1 )
Ist
σ>0
gemeinsam normalverteilt und
ρ = hv, βi
, so gilt
b ∼ N (γ, σ 2 v > (X > X)−1 v).
ρb = hv, βi
und
95% für ρ gegeben durch
q
v > (X > X)> v, ρb + 1, 96σ v > (X > X)> v .
bekannt, so ist ein Kondenzintervall zum Niveau
I0,95 (ρ) := ρb − 1, 96σ
q
1, 96 gerade das 0,975-Qunatil bzw. 0,025 Fraktil der Standardnormalverteilung.
H0 : ρ = ρ0 gegen
H1 : ρ 6= ρ0 zum
Niveau
α
∈
(0,
1)
konstruiert:
Wähle
die
Teststatistik
|b
ρ
−
ρ
|
und den kritischen
0
p
Wert q1−α/2 σ
v > (X > X)> v mit dem (1 − α/2)-Quantil von N (0, 1).
Dabei ist der Wert
Analog (Korrespondenzsatz) wird der zweiseitige Gauÿ-Test der Hypothese
Ist
σ
unbekannt, so ist eine Idee, einfach
σ
durch den Schätzer
σ
b
in obiger Formel zu ersetzen.
Allerdings wird dann das vorgegebene Niveau nur noch asymptotisch erreicht für einen konsistenten
Schätzer (Slutsky-Lemma). Im vorliegenden Fall können wir aber sogar die Verteilung für endliche
Stichprobenumfänge exakt bestimmen.
Denition 2.19.
auf
(R, B(R))
t(n)
Die t-Verteilung
(oder Student-t-Verteilung) mit
n ∈ N
Freiheitsgraden
ist gegeben durch die Lebesguedichte
tn (x) =
Die F-Verteilung
F (m, n)
Γ( n+1
x2 −(n+1)/2
2 )
,
1+
n √
n
Γ( 2 ) πn
x ∈ R.
(m, n) ∈ N2
(oder Fisher-Verteilung) mit
Freiheitsgraden auf
(R, B(R))
ist gegeben durch die Lebesguedichte
fm,n (x) =
Dabei bezeichnet
Γ(p) =
´∞
0
mm/2 nn/2
xm/2−1
1 + (x),
n
(m+n)/2 R
B( m
2 , 2 ) (mx + n)
tp−1 e−t dt
die Gamma-Funktion und
x ∈ R.
B(p, q) =
Γ(p)Γ(q)
Γ(p+q) die Beta-
Funktion.
Erinnerung: Für X1 , . . . , Xm ∼ N (0, 1) ist
−1 m/2−1 −x/2
fX (x) = (2m/2 Γ( m
x
e
R+ (x).
2 ))
1
Lemma 2.20.
Es seien
X :=
X1 , . . . , Xm , Y1 , . . . , Yn
Pm
i=1
unabhängige
Dann gilt
X1
Tn := q P
n
1
n
Beweis. Es gilt
gilt. Da
Tn
∼ t(n)
2
j=1 Yj
Tn2 = F1,n ,
Fm,n
N (0, 1)-verteilte
Tn ,
−Tn )
sofern
Zufallsvariablen.
Pm
1
X2
m
:= 1 Pni=1 2i ∼ F (m, n).
j=1 Yj
n
f|Tn | (x) = fF1,n (x2 )2x, x > 0,
= FF1,n (x2 )|x|, x ∈ R, und Einsetzen
so dass mittels Dichtetransformation
symmetrisch (wie
zeigt die Behauptung für
und
Xi2 ∼ χ2 (n) verteilt mit Lebesguedichte
verteilt ist, folgt fTn
F1,n F (1, n)-verteilt ist.
21
Um die Behauptung für
Pn
Fm,n
2
2
Y :=
j=1 Yj χ (n)-verteilt
w = x/y )
Pm
X := i=1 Xi2 χ2 (m)-verteilt und
von X und Y gilt für z > 0 (setze
nachzuweisen, benutze, dass
sind. Wegen Unabhängigkeit
ˆ ˆ
P(X/Y 6 z) =
ˆ
=
1{x/y6z} fx (x)fY (y)dxdy
1{w6z}
so dass sich die Dichte wie folgt ergibt (setze
ˆ
fX (wy)fY (y)ydy dw,
w = (z + 1)y )
ˆ
fX/Y (z) =
fX (zy)fY (y)ydy
ˆ
2−(m+n)/2 ∞
(zy)m/2−1 y n/2 e−(zy+y)/2 dy
= m
Γ( 2 )Γ( n2 ) 0
ˆ
2−(m+n)/2 ∞
= m
(zw/(z + 1))m/2−1 (w/(z + 1))n/2 e−w/2 (z + 1)−1 dw
Γ( 2 )Γ( n2 ) 0
=
Γ( m+n
2 )
z m/2−1 (z + 1)−(m+n)/2 ,
m
Γ( 2 )Γ( n2 )
Fm,n =
Dichtetransformation ergibt damit für
z > 0.
m
n X
m Y die Dichte n fX/Y
(m
n x) = fm,n (x).
Tn2 = F1,n . Für n = 1 ist die t(n)-Verteilung gerade die Cauchy-Verteilung
und für n → ∞ konvergiert sie schwach gegen die Standardnormalverteilung. Für jedes n ∈ N
besitzt t(n) nur Momente bis zur Ordnung p < n (sie ist heavy-tailed ). Ähnliches gilt für die
2
F-Verteilung, insbesondere konvergiert die Verteilung von mFm,n für n → ∞ gegen die χ (m)Bemerkung 2.21. Es gilt
Verteilung.
Aus diesem Lemma ergeben sich die Standardtests für die Parameter der Normalverteilung,
siehe Witting (1985, S. 200-204).
Bevor wir zur Konstruktion von Tests und Kondenzbändern im linearen Modell kommen noch
ein weiteres nützliches Hilfsresultat zur Verteilung quadratischer Formen:
Lemma 2.22.
R = R>
(i)
(ii)
und
Seien
R2 = R)
X ∼ N (0, En ) und R eine symmetrische,
mit rank(R) = r 6 n. Dann gilt
idempotente
(n × n)-Matrix
(d.h.
X > RX ∼ χ2 (r),
X > RX
ist unabhängig von
BX
für jede Matrix
B ∈ Rp×n
(iii) für jede weitere symmetrische, idempotente Matrix
RS = 0 sind X > RX und X > SX unabhängig und
mit
S ∈ Rn×n
p6n
mit
und
BR = 0,
rank(S) = s 6 n
und
s X > RX
∼ F (r, s).
r X > SX
Beweis. (i) Da
P Dr P
>
R
symmetrisch und idempotent ist, existiert eine Orthogonalmatrix
, wobei
Dr =
P > X ∼ N (0, En ).
Er
0
0
.
0
Da
P
orthogonal ist und
X
Wegen
r
X
i=1
X > RX χ2 (r)-verteilt.
22
mit
standardnormalverteilt, folgt
X > RX =X > R2 X = (RX)> (RX) = (P Dr W )> (P Dr W ) = W > Dr W =
ist
P
Wi2
R=
W :=
(ii) Wir setzen
Y := BX ∼ N (0, B > B)
und
Z := RX ∼ N (0, R).
Dann gilt
Cov(Y, Z) = B Var(X)R> = BR = 0.
Da
(X, Y )
als Lineartransformation von
X
gemeinsam normalverteilt ist, folgt aus der Unkorre-
liertheit bereits die Unabhängigkeit.
Y := SX und Z := RX und somit
Z Z = X > RX . Zusammen mit (i) und dem
(iii) Genau wie in (ii) folgt die Unabhängigkeit von
>
>
>
auch die Unabhängigkeit von
Y Y = X SX
und
vorangegangenen Lemma folgt die Behauptung.
Als Korollar erhalten wir Kondenzbereiche für die Schätzung von
β
und linearen Funktionalen
im gewöhnlichen linearen Modell unter der Normalverteilungsannahme.
Satz 2.23.
N (0, σ 2 En )
(i) Ist
(εi ) ∼
Im gewöhnlichen linearen Modell unter der Normalverteilungsannahme
für
σ>0
qF (k,n−k);1−α
gelten folgende Kondenzaussagen für gegebenes Niveau
(1 − α)-Quantil
das
der
F (k, n − k)-Verteilung,
α ∈ (0, 1)
:
so ist
b 2 < kb
σ 2 qF (k,n−k);1−α
C := β ∈ Rk |X(β − β)|
ein Kondenzellipsoid zum Kondenzniveau
(ii) Ist
qt(n−k);1−α/2
das
h
I := ρb − σ
b
(1 − α2 )-Quantil
q
der
1−α
für
β.
t(n − k)-Verteilung,
so ist
q
i
v > (X > X)−1 vqt(n−k);1−α/2 , ρb + σ
b v > (X > X)−1 vqt(n−k);1−α/2
ein Kondenzintervall zum Kondenzniveau
1−α
für
ρ = hv, βi.
Beweis. (i) Nach Konstruktion gilt
X βb = XX † Y = ΠX Y = Xβ + ΠX ε,
Da
ΠX
und
σ
b2 =
|(En − ΠX )ε|2
.
(n − k)
(En − ΠX ) symmetrische, idempotente Matrizen mit Rang k bzw. (n − k) sind
ran X bzw. (ran X)⊥ ) und es gilt (En + ΠX )ΠX = 0, folgt aus Lemma 2.22:
(Pro-
jektionen auf
b 2
|X(β − β)|
(n − k) ε> (En − ΠX )ε
=
∼ F (k, n − k).
2
kb
σ
k
ε> ΠX ε
Durch die Wahl des Quaniles folgt die Kondenzaussage
(ii) Wegen
ρb ∼ N (ρ, σ 2 v > (X > X)−1 v)
ρ − ρb
σ
Andererseits sind
2
Z ∼ χ (n − k).
ρb
und
Damit ist
σ
b2
p
Pβ (β ∈ C) = 1 − α.
nach dem Satz von Gauÿ-Markov, ist
v > (X > X)−1 v
unabhängig und es gilt
∼ N (0, 1).
σ
b2 = σ 2 Z/(n − k)
für eine Zufallsvariable
ρ − ρb
p
∼ t(n − k).
2
>
σ
b v (X > X)−1 v
Bemerkung 2.24. Ebenso kann man ein Kondenzintervall für die Varianz konstruieren (Übung
2
).
Zusammen mit dem Korrespondenzsatz liefert dieses Resultat:
23
Methode 7: t-Test und F-Test.
Im gewöhnlichen linearen Modell unter Normalverteilungs-
(εi ) ∼ N (0, σ 2 En ) ist der (zweiseitige) t-Test der Hypothese H0 : ρ = ρ0
Alternative H1 : ρ 6= ρ0 für ρ0 = hv, β0 i zum Niveau α ∈ (0, 1) gegeben durch
gegen die
annahme
ϕρ0 (Y ) = 1{|Tn−k (Y )|>qt(n−k);1−α/2 }
Der F-Test der Hypothese
H0 : β = β 0
vs.
Tn−k (Y ) :=
mit
H1 : β 6= β0
ϕβ0 (Y ) = 1{Fk,n−k (Y )>qF (k,n−k);1−α }
ρ − ρb
p 0
.
>
σ
b v (X > X)−1 v
zum Niveau
α ∈ (0, 1)
Fk,n−k (Y ) :=
mit
ist gegeben durch
b 2
|X(β0 − β)|
.
kb
σ2
Schlieÿlich wollen wir Hypothesentests noch für den allgemeineren Fall von linearen (bzw.
anen) Hypothesen konstruieren.
Denition 2.25.
Im gewöhnlichen linearen Modell ist ein (zweiseitiges) lineares Testproblem
gegeben durch
H0 : Kβ = d
für eine (deterministische) Matrix
r
d∈R .K
K ∈ Rr×k
H1 : Kβ 6= d
versus
mit vollem Rang
wird Kontrastmatrix genannt. Unter der Hypothese
rank(K) = r 6 k und einem Vektor
H0 sind also insgesamt r 6 k linear
unabhängige Bedingungen an die Parameter des linearen Modells gestellt.
Beispiel 2.26.
2 6 j < l 6 k
Test auf Gleichheit zweier Regressionskoezienten: Für
ist das
Testproblem gegeben durch
H0 : β j = β l
Damit ist die Kontrastmatrix
K = (a1,i ) ∈ R
Weitere Beispiele sind der Globaltest (Übung
H0 : ∀j ∈ {1, . . . , k} : βj = 0
sowie der Test eines Subvektors
H1 : βj 6= βl .
versus
1×k
gegeben durch
2
):
versus
β ∗ = (β1∗ , . . . , βr∗ )>
H0 : ∀j ∈ {1, . . . , r} : βj = βj∗
r6k
(Übung
H1 : ∃j ∈ {1, . . . , r} : βj 6= βj∗ .
Kleinste-Quardrate-Schätzers mit den Residuen des auf
βbH0 ,
H0 : Kβ = d
b2
RSS = |Y − X β|
des
eingeschränkten Kleinste-
d.h.
RSSH0 := |Y − X βbH0 |2
|Y − X βbH0 |2 =
mit
zu vergleichen. Ist die Abweichung (relativ zu
Satz 2.27.
d = 0.
2
):
Die Grundidee für das Testen linearer Hypothesen ist, die Residuen
Quardate-Schätzers
und
H1 : ∃j ∈ {1, . . . , k} : βj 6= 0
mit
versus
a1,i = 1{i=j} − 1{i=l}
RSS )
min
β∈Rk :Kβ=d
|Y − Xβ|2 ,
zu groÿ, spricht dies gegen die Hypothese.
Im gewöhnlichen linearen Modell unter Normalverteilungsannahme
(εj ) ∼ N (0, σ 2 En )
ist die lineare Hypothese
H0 : Kβ = d
mit Kontrastmatrix
(i)
(ii)
K∈R
r×k
und
d∈R
r
versus
H1 : Kβ 6= d
zu testen. Es gilt
βbH0 = βb − (X > X)−1 K > (K(X > X)−1 K > )−1 (K βb − d),
RSSH0 − RSS = (K βb − d)> (K(X > X)−1 K > )−1 (K βb − d)
unter H0
(iii) die Fisher-Statistik
F :=
n−k RSSH0 −RSS
ist unter
r
RSS
24
H0
und
gemäÿ
(RSSH0 − RSS)/σ 2 ∼ χ2 (r)
F (r, n − k)
verteilt.
Beweis. (i) Für jeden Vektor
γ ∈ Rk ,
der die Nebenbedingung
Kγ =d
erfüllt, gilt
b 2 + |X(βb − γ)|2
|Y − Xγ|2 = |Y − X βb + X(βb − γ)|2 = |Y − X β|
nach Pythagoras, da
Y − X βb = (En − ΠX )Y ⊥ ran(X).
Auÿerdem ist
|X(βb − γ)|2 = |X(βb − βbH0 )|2 + |X(βbH0 − γ)|2 + 2hX(βb − βbH0 ), X(βbH0 − γ)i.
Die Wahl von
βbH0
impliziert jedoch
>
hX(βb − βbH0 ), X(βbH0 − γ)i = (X > X)−1 K > (K(X > X)−1 K > )−1 (K βb − d) X > X(βbH0 − γ)
=(K βb − d)> (K(X > X)−1 K > )−1 (K βbH − Kγ) = 0,
0
denn
βbH0
erfüllt die Nebenbedingung:
K βbH0 = K βb − K(X > X)−1 K > (K(X > X)−1 K > )−1 (K βb − d) = d.
Insgesamt erhalten wir also
b 2 + |X(βb − βbH )|2 + |X(βbH − γ)|2 ,
|Y − Xγ|2 = |Y − X β|
0
0
γ = βbH0
bH
mit γ = β
0
was oensichtlich für
(ii) Aus (2.1)
(2.1)
minimal ist.
folgt durch Einsetzen von
βbH0
b 2 = |X(βb − βbH )|2
RSSH0 − RSS =|Y − X βbH0 |2 − |Y − X β|
0
=(βb − βbH )> X > X(βb − βbH )
0
0
=(K βb − d)> (K(X > X)−1 K > )−1 (K βb − d).
Z := K βb, dass E[Z] = d und Var(Z) = σ 2 K(X > X)−1 K > .
2
2
b
Aus der Normalverteilung von β folgt daher (RSSH0 − RSS)/σ ∼ χ (r).
b
(iii) Da RSSH0 − RSS eine Funktion von β ist und somit unabhängig von RSS ist
(Lemma 2.22), folgt die Verteilungsaussage für F aus der Charakterisierung der F (r, n − p)-
Unter
H0
gilt für die Zufallsvariable
Verteilung.
Bemerkung 2.28.
W := rF
ein linearer Unterraum von
Y
auf
L.
heiÿt auch Wald-Statistik. Im Fall
ran X
und
X βbH0 = ΠL Y
d = 0 ist L := {Xβ|β ∈ Rk , Kβ = 0}
die Orthogonalprojektion der Beobachtungen
In diesem Fall gilt nach Pythagoras
RSSH0 = |Y − ΠL Y |2 = |Y − ΠX Y + (ΠX − ΠL )Y |2 = |Y − ΠX Y |2 + |X βb − X βbH0 |2 ,
so dass die Fisher-Statistik auch als
F =
|X βb − X βbH0 |2
rb
σ2
geschrieben werden kann.
Beispiel 2.26 (fortgesetzt).
Einsetzen von
F =
K
und
d
liefert
n−k
(βbj − βbl )2
.
RSS K(X > X)−1 K >
b = σ 2 K(X > X)−1 K > ist Var
d (βbj -βbl ) = K(X > X)−1 K > σ
Var(βbj − βbl ) = Var(K β)
b2 mit
σ
b = RSS/(n − k) der natürliche (plug-in) Varianzschätzer. Damit können wir die Test-Statistik
F als
(βbj − βbl )2 H0
∼ F (1, n − k)
F =
d βbj − βbl )
Var(
Wegen
2
25
schreiben. Dieser F-Test ist äquivalent zum (zweiseitigen) t-Test mit der Teststatistik
T =
Beispiel 2.29
betrachten
βbj − βbl
∼ t(n − k).
d βbj − βbl ))1/2
(Var(
.
(Klimaentwicklung)
die
mittleren
Wir
folgen
Augusttemperaturen
Beispiel
von
1799
12.24
bis
von
2008
in
Georgii
(2007)
Karlsruhe
und
(Quelle:
http://www.klimadiagramme.de/Europa/special01.htm). Für die Jahre 1854 und 1945 liegen
n = 208 Beobachtungen haben. Eine polynomielle Regression in der
Zeit t (in Jahrhunderten beginnend bei 1799) mit Graden d = 1, . . . , 4 liefert
keine Daten vor, so dass wir
p1 (t) = 18, 7 + 0, 1t,
p2 (t) = 20, 0 − 3, 5t + 1, 7t2 ,
p3 (t) = 19, 5 − 0, 6t − 1, 7t2 + 1, 1t3 ,
p4 (t) = 19, 4 + 0, 5t − 4, 1t2 + 2, 9t3 − 0, 4t4 .
Zunächst ist es plausibel, dass die zufälligen Schwankungen unabhängig von einander sind und als
näherungsweise normalverteilt angenommen werden können (QQ-Plot). Um statistisch verwertbare Aussagen zu treen, setzen wir noch das Niveau
β = (β0 , . . . , βd )> .
α = 0, 05
fest. Der Parametervektor ist
Welcher Grad des Regressionspolynoms ist sinnvoll?
Frage 1 : Ist der positive Trend von p1 signikant? H0 : β1 6 0 vs. H1 : β1 > 0. Die zugehörige
b1
β
≈ 0, 62 liegt deutlich unter dem kritischen Wert qt(n−2),1−α ≈ 1, 65
t-Statistik T = √
σ
b v > (X > X)−1 v
(einseitiger T-Test), so dass die Hypothese nicht verworfen werden kann.
Frage 2 : Liegt den Beobachtungen ein linearer Zusammenhang zugrunde (im Modell mit
d=
4)? H0 : β2 = β3 = β4 = 0. Mittels Bemerkung 2.28 berechnen wir die Fisher-Statistik
Pn
(p4 (tk ) − p1 (tk ))2
F = k=1
≈ 13, 68 > 2, 65 ≈ qF (3,n−5),1−α .
3b
σ2
Folglich kann die Hypothese abgelehnt werden und wir schlussfolgern, dass eine Regressionsgerade
unzureichend ist.
Frage 3 : Benötigen wir ein Polynom vierten Grades?
den Wert
−0, 41
H0 : β4 = 0. Die zugehörige t-Statistik hat
qt(n−5),0.975 ≈ 1, 97 ist (zweiseitiger
dessen Absolutbetrag kleiner als das Quantil
t-Test). Diese Nullhypothese kann also akzeptiert werden.
Frage 4: Benötigen wir ein Polynom dritten Grades ? H0 : β3 = 0 (im Modell mit d =
3). Die zugehörige t-Statistik hat den Wert 2, 05 dessen Absolutbetrag gröÿer als das Quantil
qt(n−4),0.975 ≈ 1, 97 ist. Die Hypothese kann also abgelehnt werden und der kubische Anteil im
Regressionspolynom ist signikant, d.h. p3 ist signikant besser geeignet die Beobachtungen zu
beschreiben als p2 .
p3 zeigt einen deutlichen Anstieg der Temperaturen im 19. Jahrhundert. Es sei bemerkt, dass
wir hier nur eine Zeitreihe betrachtet haben und somit nicht auf einen allgemeinen Zusammenhang
schlieÿen können (Aufgabe der Klimatologen).
2.3 Varianzanalyse
Beispiel 2.30.
k ∈ N verschiedenen Düngemitteln auf den Ernteertrag zu
i ∈ {1, . . . , k} auf ni verschiedenen Agrarächen ausgebracht.
Der durch Witterungseinüsse etc. zufällige Ernteertrag kann mittels Yij = µi +εij für j = 1, . . . , ni
und i = 1, . . . , k modelliert werden, wobei µi der mittlere Ernteertrag von Düngemittel i ist und
εij unabhängige, zentrierte Störgröÿen sind. Wir fragen uns also ob µ1 = · · · = µk gilt oder nicht.
Um den Einuss von
vergleichen wird jedes Düngemittel
Denition 2.31.
Das Modell der einfaktoriellen Varianzanalyse (ANOVA1: (one-way) analysis
of variance) ist gegeben durch Beobachtungen
Yij = µi + εij ,
i = 1, . . . , k, j = 1, . . . , ni ,
26
mit iid.-verteilten Störgröÿen
und den Wert
i = 1, . . . , k
εij ∼ N (0, σ 2 ).
Wir bezeichnen die erste Dimension als den Faktor
gigen Versuchswiederholungen pro Faktor an und
Gilt
n1 = · · · = nk ,
(ni )i=1,...,k die Anzahl der unabhäni=1 ni ist der Gesamtstichprobenumfang.
als die Faktorstufe. Folglich geben
n :=
Pk
so sprechen wir von balanciertem Design.
Damit ist das ANOVA1-Modell ein Spezialfall des gewöhnlichen linearen Modells der Form

1
 ..   ..
 .  .
 

 Y1n1  1
 

 

Rn 3 Y :=  ...  =  ...
 

 Yk1  0
 

 .  .
.
 .   ..
0
Yknk
|

Beachte, dass
rank X = k .
Y11

···
0
.
.
.
···
0
.
.
.
0
···
0
···
{z
=:X∈Rn×k



0
ε11
 .. 
.
.


.
    . 



0
µ1
 ε1n1 




.
. 
.
. ·  .  +  .  .
.
.
 . 
 εk1 
1
 µk


 . 
.  | {z }
.  =:µ∈Rk
.
 . 
.
1
εknk
}
Die klassische Fragestellung der Varianzanalyse lautet: Existieren
Unterschiede in den Faktorstufen-spezischen Mittelwerten
µi ?
oder anders formuliert Hat der
Faktor einen Einuss auf die Response oder nicht?. Dies führt auf das Testproblem
H0 : µ1 = · · · = µk
Satz 2.32 (Streuungszerlegung).
1, . . . , k ,
H1 : ∃i, l ∈ {1, . . . , k} : µi 6= µl .
versus
Im ANOVA1-Modell denieren wir das i-te Gruppenmittel,
i=
bzw. das Gesamtmittel als
Y i• :=
sowie
SSB :=
k
X
ni
1 X
Yij
ni j=1
n
k
bzw.
ni (Y i• − Y •• )2
und
Y •• :=
i
1 XX
Yij
n i=1 j=1
SSW :=
ni
k X
X
(Yij − Y i• )2
i=1 j=1
i=1
(SSB: sum of squares between groups; SSW: sum of squares within groups ). Dann gilt
SST :=
ni
k X
X
(Yij − Y •• )2 = SSB + SSW.
i=1 j=1
Beweis. Es gilt
SST =
XX
=
XX
i
i
(Yij − Y •• )2 =
j
XX
(Yij − Y i• + Y i• − Y •• )2
i
j
2
(Yij − Y i• ) + 2(Yij − Y i• )(Y i• − Y •• ) + (Y i• − Y •• )2 ,
j
wobei
XX
i
j
(Yij − Y i• )(Y i• − Y •• ) =
X
X
(Y i• − Y •• )
(Yij − Y i• )
i
j
X
=
(Y i• − Y •• )(ni Y i• − ni Y i• ) = 0.
i
Oenbar spricht es gegen die Nullhypothese, wenn die Streuung zwischen den Gruppen gröÿer
ist als die Streuung innerhalb der Gruppen. Dies motiviert sowohl den Namen ANOVA als auch
folgende Methode:
27
zwischen
innerhalb
total
Fg
Quadratsummen
Quadratmittel
F-Statistik
k−1
n−k
n−1
Pk
SSB = i=1 ni (Y i• − Y •• )2
Pk Pni
(Yij − Y i• )2
SSW = i=1 j=1
Pk Pni
SST = i=1 j=1 (Yij − Y •• )2
SSB/(k − 1)
SSW/(n − k)
SST /(n − 1)
n − k SSB
k − 1 SSW
Tabelle 1: ANOVA-Tafel
Methode 8: Einfaktorielle Varianzanalyse (ANOVA1).
Im Modell der einfaktoriellen Va-
rianzanalyse testen wir
H0 : µ1 = · · · = µk
zum Niveau
α ∈ (0, 1)
H1 : ∃i, l ∈ {1, . . . , k} : µi 6= µl
versus
durch den F-Test
ϕµ (Y ) = 1{F (Y )>qF (k−1,n−k);1−α }
wobei
qF (k−1,n−k);1−α
Satz 2.33.
das
(1 − α)-Quantil
(ii)
(iii)
Kleinste-Quadrate-Schätzer
>
1• , . . . , Y k,• ) .
SSW/σ 2 ∼ χ2 (n − k)
SSW
n − k SSB
,
k − 1 SSW
F (k − 1, n − k)-Verteilung
ist.
Im einfaktoriellen Varianzanalysemodell gilt:
(i) Der
(Y
der
F (Y ) :=
mit
und
SSB
und unter
µ
von
H0
(µ1 , . . . , µk )>
=
ist
gegeben
durch
µ
b
=
SSB/σ 2 ∼ χ2 (k − 1)
gilt
sind unabhängig und somit
F :=
n−k SSB H0
k−1 SSW ∼
F (k − 1, n − k).
Beweis. (i) Nachrechnen zeigt

1/n1

>
−1 >
µ
b = (X X) X Y = 
0
..

.


=
Y 1•
.
.
.


.
Y k•
SSW/σ 2 ∼ χ2 (n−k) und die Unabhängigkeit
von SSW und µ
b aus Lemma 2.22. Nach dem vorangegangen Satz gilt weiterhin SSB = SST −
SSW . Somit folgt die Behauptung aus Satz 2.27, falls SST = RSSH0 . Nun gilt
 
 
1
µ 2
2
 .. 
 ..  RSSH0 = min Y − X  .  = min Y −  .  µ .
µ∈R
µ∈R
µ
1
| {z }
| {z }
(ii)+(iii) Wegen
RSS = |Y −X µ
b|2 = SSW
 Pn1
j=1 Y1j


.
.


Pnk.
1/nk
j=1 Ykj
0
folgt
=:X0 ∈Rn• ×1
∈Rk
Dieses Minimierungsproblem wird gelöst durch
Damit folgt
RRSH0 = SST .
µ
bH0 = (X0> X0 )−1 X0> Y = n−1
P
i,j
Yij = Y •• .
Bemerkung 2.34. In der Eektdarstellung wird das einfaktorielle Varianzanalysemodell als
Yij = µ0 + αi + εij ,
i = 1, . . . , k, j = 1, . . . , ni ,
Pk
1
i=1 ni µi = E[Y•• ] und αi := µi − µ0 , den Eekt der
n
Faktorstufe i = 1, . . . , k . Insbesondere muss in dieser Darstellung die Nebenbedingung 0 =
Pk
Pk−1
i=1 ni αi oder äquivalent nk αk = −
i=1 ni αi beachtet werden, damit die Designmatrix weiter
>
vollen Rang hat. Der Parametervektor ist also gegeben durch (µ0 , α1 , . . . , αk−1 ) . Die F-Statistik
geschrieben mit Intercept
um die Globalhypothese
µ0 :=
H0 : α1 = · · · = αk−1 = 0
Satz 2.33.
28
zu überprüfen, ist identisch zur Statistik aus
Beispiel 2.35
(Zweistichproben t-Test)
getestet werden, ist
k = 2
nY •• = n1 Y 1• + n2 Y 2•
.
Soll die Gleichwertigkeit von bspw. zwei Düngemitteln
H0 : µ1 = µ2
und das Testproblem
versus
H1 : µ1 6= µ2 .
Wegen
gilt
SSB = n1 (Y 1• − Y •• )2 + n2 (Y 2• − Y •• )2
2
2
2
= n1 Y 1• + n2 Y 2• + nY •• − 2(n1 Y 1• + n2 Y 2• )Y ••
2
1
n1 n2
2
2
2
2 2
= n1 Y 1• + n2 Y 2• −
n1 Y 1• + n2 Y 2• =
Y 1• − Y 2• .
n
n
Somit ist
ϕ = 1{|T |>qt(n−2),1−α/2 }
(1 − α/2)-Quantil
α ∈ (0, 1).
mit dem
Niveau
Denition 2.36.
der
T := q
mit
Y 1• − Y 2•
( n11
+
1
n2 )SSW/(n
t(n − 2)-Verteilung qt(n−2),1−α/2
− 2)
ein Test der Hypothese
H0
zum
Das Modell der zweifaktoriellen Varianzanalyse mit balanciertem Design (ANO-
VA2) ist gegeben durch Beobachtungen
Yijk =µij + εijk ,
i = 1, . . . , I, j = 1, . . . , J, k = 1, . . . , K
=µ0 + αi + βj + γij + εijk
I, J, K > 2,
mit
iid.-verteilten Störgröÿen
εijk ∼ N (0, σ 2 )
und Nebenbedingungen (der Eektdar-
stellung)
I
X
αi =
i=1
J
X
βj =
j=1
I
X
i=1
Wir haben also zwei Faktoren mit Faktorstufen
(βj )
γij =
J
X
γij = 0.
j=1
i = 1, . . . , I und j = 1, . . . , J . (αi )
(γij ) heiÿen Interaktions-
heiÿen Haupteekte des ersten bzw. zweiten Faktors.
bzw.
bzw.
Wechselwirkungseekte.
Das ANOVA2-Modell ist also ein lineares Modell mit zwei kategoriellen Kovariablen. Die Gesamtanzahl an Beobachtungen ist gegeben durch
Satz 2.37.
n = I · J · K.
Die typische Testprobleme sind
H0 : ∀i : αi = 0
versus
H1 : ∃i ∈ {1, . . . , I} : αi 6= 0,
(2.2)
H0 : ∀j : βj = 0
versus
H1 : ∃j ∈ {1, . . . , J} : βj 6= 0,
(2.3)
H0 : ∀i, j : γij = 0
versus
H1 : ∃i ∈ {1, . . . , I}, j ∈ {1, . . . , J} : γij 6= 0.
(2.4)
Im zweifaktoriellen Varianzanalysemodell mit balanciertem Design gilt:
µ0 , αi , βj und γij , i = 1, . . . , I − 1, j =
sind gegeben durch (• heiÿt, dass über die jeweilige Koordinate gemittelt wird)
(i) Die Kleinsten-Quadrate-Schätzer für
1, . . . , J − 1,
α
bi = Y i•• − Y ••• , βbj = Y •j• − Y ••• ,
γ
bij = (Y ij• − Y ••• ) − α
bi − βbj = Y ij• − Y i•• − Y •j• + Y ••• .
µ
b0 = Y ••• ,
(ii) Denieren wir
SSW :=
I X
J X
K
X
(Yijk − Y ij• )2 ,
i=1 j=1 k=1
SSB1 := JK
I
X
(Y i•• − Y ••• )2 ,
i=1
SSB12 := K
SSB2 := IK
J
X
(Y •j• − Y ••• )2 ,
j=1
I X
J
X
(Y ij• − Y i•• − Y •j• + Y ••• )2 ,
i=1 j=1
29
dann können die Hypothesen (2.2), (2.3) bzw. (2.4) mit den F-Statistiken
IJ(K − 1) SSB2
IJ(K − 1) SSB1
∼ F (I − 1, IJ(K − 1)),
∼ F (J − 1, IJ(K − 1))
I − 1 SSW
J − 1 SSW
IJ(K − 1) SSB12
∼ F (I − 1)(J − 1), IJ(K − 1)
(I − 1)(J − 1) SSW
bzw.
getestet werden.
Beweis. Übung
2
.
Bemerkung 2.38. Selbstverständlich erhält man analoge Resultate, wenn wir für jede Zelle
{1, . . . , I} × {1, . . . , J}
Beispiel 2.39.
verschiedene Stichprobenumfänge
nij > 2
(i, j) ∈
beobachten.
Ein Bauer möchte wissen ob die Gröÿe seiner geernteten Kohlköpf sich für zwei
verschiedene Kultursorten unterscheidet. Auch der Panztag könnte eine Rolle spielen.
3 Exponentialfamilien and verallgemeinerte lineare Modelle
3.1 Die Informationsungleichung
Der Satz von Gauÿ-Markov hat uns bereits ein Optimalitätsresultat geliefert, dass allerdings auf
lineare Schätzer im linearen Modell eingeschränkt ist. Wir suchen nun allgemeiner nach unverzerrten Schätzern deren Schätzwerte möglichst wenig um den korrekten Wert streuen.
Denition 3.1.
Sei
(X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell. Ein erwartungstreuer Schätzer T
ρ(ϑ) heiÿt varianzminimierend bzw. (gleichmäÿig) bester Schätzer
eines abgeleiteten Parameters
(UMVUE: uniformly minimum variance unbiased estimator), wenn für jeden weiteren erwartungs-
S
treuen Schätzer
gilt:
Varϑ (T ) 6 Varϑ (S)
für alle
ϑ ∈ Θ.
Wir werden zunächst eine untere Schranke für die Varianz beweisen und anschlieÿend untersuchen, für welche Schätzer diese erreicht wird.
Denition 3.2.
Ein vom Maÿ
µ
dominiertes, statistisches Modell
(X , F , (Pϑ )ϑ∈Θ )
heiÿt regulär,
wenn die folgenden Eigenschaften erfüllt sind:
(i)
Θ
ist eine oene Menge in
(ii) Die Likelihood-Funktion
Rd , d > 1 .
L(ϑ, x) ist auf Θ×X strikt positiv und nach ϑ stetig dierenzierbar.
∂
∂ >
ϑ mit ∇ϑ = ( ∂ϑ
, . . . , ∂ϑ
) , existiert insbesondere die
1
d
Bezeichnen wir den Gradienten in
Scorefunktion
Uϑ (x) := ∇ϑ log L(ϑ, x) =
(iii) Für jedes
ϑ∈Θ
∇ϑ L(ϑ, x)
.
L(ϑ, x)
existiert die Fisher-Information
h
i
I(ϑ) := Eϑ Uϑ (X)Uϑ (X)>
und ist positiv denit.
(iv) Es gilt die Vertauschungsrelation
ˆ
ˆ
h(x)∇ϑ L(ϑ, x)µ(dx) = ∇ϑ
für
h(x) = 1.
30
h(x)L(ϑ, x)µ(dx)
(3.1)
Ein Schätzer
T: X →R
heiÿt regulär, falls
E[|T (X)|2 ] < ∞
und (3.1) auch für
h(x) = T (x)
gilt.
Bemerkung 3.3.
(i) Der Satz von Lebesgue liefert eine hinreichende Bedingung für die Vertauschungsrelation
(3.1): Sie gilt falls für jedes
ϑ0 ∈ Θ eine Umgebung Vϑ0 ⊆ Θ existiert,
ˆ
sup ∇ϑ L(ϑ, x)µ(dx) < ∞.
so dass
X ϑ∈Vϑ0
Auÿerdem kann man (3.1) für jedes gegebene Modell (und jeden Schätzer) explizit nachprüfen.
(ii) Als Konsequenz von (3.1) ergibt sich
ˆ
und damit
L(ϑ, x)µ(dx) = ∇ϑ 1 = 0
Varϑ (Uϑ ) = I(ϑ).
ϑ zweimal stetig dierenzierbar und gilt (3.1) mit h(x) = 1 und L ersetzt mit
i ∈ {1, . . . , d}, dann gilt I(ϑ) = −Eϑ [HUϑ (X) (ϑ)] für die Hesse-Matrix HU· (x) der
Scorefunktion ϑ 7→ Uϑ (x) (Übung 2
).
(iii) Ist
L(ϑ, x)
ˆ
∇ϑ L(ϑ, x)µ(dx) = ∇ϑ
Eϑ [Uϑ ] =
in
∂L
∂ϑi für alle
I(ϑ) Information? Erstens: I(ϑ) = 0 gilt auf einer Umgebung Θ0 ⊆ Θ genau
Uϑ (x) = 0 für alle ϑ ∈ Θ0 und µ-f.a. x ∈ X , also wenn L(ϑ, x) für µ-f.s. konstant
somit keine Beobachtung die Parameter in Θ0 unterscheiden kann (dieser Fall ist
(iv) Warum heiÿt
dann, wenn
ist und
daher in der Denition ausgeschlossen). Zweitens, verhält sich die Fisher-Information bei
(X , F , (Pϑ )ϑ∈Θ ) ein reguläres Modell mit Fisher⊗n
I , so hat das Produktmodell (X n , F ⊗n , (P⊗n
=
ϑ )ϑ∈Θ ) die Fisher-Information I
als Übung 2
).
unabhängigen Beobachtungen additiv: Ist
Information
nI
(Beweis
Satz 3.4 (Cramér-Rao-Ungleichung, Informationsschranke).
sches Modell
(X , F, (Pϑ )ϑ∈Θ ),
ein regulärer erwartungstreuer Schätzer
T
von
ρ.
Beweis. Aus der Zentriertheit von
Uϑ
ρ : Θ → R,
und
Dann gilt
>
Varϑ (T ) > ∇ρ(ϑ) I(ϑ)−1 ∇ρ(ϑ)
wir
Gegeben seien ein reguläres statisti-
eine zu schätzende stetig dierenzierbare Funktion
für alle
ϑ ∈ Θ.
und der Regularität und Erwartungstreue von
(3.2)
T
erhalten
ˆ
Covϑ (Uϑ , T ) = Eϑ [T Uϑ ] =
T (x)∇ϑ L(ϑ, x)µ(dx)
X
ˆ
=∇
T (x)L(ϑ, x)µ(dx) = ∇Eϑ [T ] = ∇ρ
X
für alle
ϑ ∈ Θ.
Für jeden Vektor
e ∈ Rd
ergibt die Cauchy-Schwarz-Ungleichung somit
(he, ∇ρi)2 = Covϑ (he, Uϑ i, T )2 6 Varϑ (he, Uϑ i) Varϑ (T ) = hI(ϑ)e, ei Varϑ (T ),
also
Varϑ (T ) >
(h∇ρ, ei)2
.
hI(ϑ)e, ei
e = I(ϑ)−1 ∇ρ(ϑ)
Maximieren über
e ∈ Rd
Denition 3.5.
Ein regulärer erwartungstreuer Schätzer für den Gleichheit in (3.2) gilt, heiÿt
ergibt mit
Cramér-Rao-ezient.
31
die Behauptung.
Im Folgenden beschränken wir uns auf einparametrische (d
Satz 3.6.
Unter den Bedingungen von Satz 3.4 mit
Schranke für alle
ϑ∈Θ
genau dann, wenn
µ-f.ü.
ρ0 6= 0
Modelle.
erreicht der Schätzer
T
die untere
gilt
T − ρ(ϑ) = ρ0 (ϑ)I(ϑ)−1 Uϑ
Falls
Θ ⊆ R
= 1)
für alle
ϑ ∈ Θ.
ist dies äquivalent zu
L(ϑ, x) = exp η(ϑ)T (x) − ζ(ϑ) c(x),
η : Θ → R eine Stammfunktion von I/ρ0 , c : X → (0, ∞)
c(x) exp(η(ϑ)T (x))µ(dx) eine Normierungsfunktion sind.
wobei
log
´
Beweis. Denieren wir
0
v(ϑ) := ρ0 (ϑ)I −1 (ϑ)
(konstant in
x)
messbar und
erhalten wir wegen
ζ(ϑ) =
Covϑ (Uϑ , T ) =
ρ (ϑ)
0 6 Varϑ T − v(ϑ)Uϑ
= Varϑ (T ) + v(ϑ)2 Varϑ (Uϑ ) − 2v(ϑ) Covϑ (Uϑ , T ) = Varϑ (T ) − ρ0 (ϑ)2 I −1 (ϑ),
also wieder die Informationsungleichung. Gleichheit gilt genau dann, wenn
konstant also gleich seinem Erwartungswert
µ(T − ρ(ϑ) 6= v(ϑ)Uϑ ) = 0.
ρ(ϑ)
ist. Da
Wenn dies nun für alle
µ T − ρ(ϑ) 6= v(ϑ)Uϑ
ϑ∈Θ
für ein
denn aus Stetigkeitsgründen kann man sich auf rationale
T − v(ϑ)Uϑ Pϑ -f.s.
µ-Dichte hat gilt
eine strikt positive
Pϑ
gilt, so folgt sogar
ϑ ∈ Θ = 0,
ϑ
beschränken und die abzählbare Ver-
einigung von Nullmengen ist wieder eine Nullmenge. Die explizite Form der Likelihood-Funktion
folgt durch unbestimmte Integration bzgl.
ϑ.
Dieser Satz führt uns in natürlicher Weise auf eine wichtige Klasse von statistischen Modellen:
Denition 3.7.
(X , F , (Pϑ )ϑ∈Θ ) ein von µ dominiertes statistisches Modell mit Θ ⊆ R
(Pϑ )ϑ∈Θ (einparametrische) Exponentialfamilie in η(ϑ) und T , wenn messbare
η : Θ → R, T : X → R und c : X → (0, ∞) existieren, so dass
Es sei
oen. Dann heiÿt
Funktionen
dPϑ
(x) = c(x) exp η(ϑ)T (x) − ζ(ϑ) ,
dµ
wobei
stant
x ∈ X , ϑ ∈ Θ,
´
ζ(ϑ) := log c(x) exp(η(ϑ)T (x))µ(dx). Dabei wird angenommen,
ist. η(ϑ) heiÿt natürlicher Parameter der Exponentialfamilie und
ˆ
n
o
Ξ := η ∈ R :
c(x)eηT (x) µ(dx) ∈ (0, ∞)
dass
T
nicht
µ-f.s.
kon-
X
heiÿt natürlicher Parameterraum. Ist die Exponentialfamilie durch
η ∈ Ξ
parametrisiert, dann
wird sie als natürliche Exponentialfamilie bezeichnet.
Bemerkung 3.8.
a 6= 0 erhält man beispielsweise eine ExponenTe(x) = T (x)/a. Auÿerdem kann die Funktion c in das
werden: µ
e(dx) := c(x)µ(dx).
(i) Die Darstellung ist nicht eindeutig, mit
tialfamilie in
ηe(ϑ) = aη(ϑ)
und
dominierenden Maÿ absorbiert
(ii) Die Identizierbarkeitsfordung
Pϑ 6= Pϑ0
für alle
Beispiel 3.9.
32
ϑ 6= ϑ0
ist äquivalent zur Injektivität von
η.
(i)
(N (µ, σ 2 ))µ∈R
mit
σ>0
L(ϑ, x) = √
bekannt ist eine Exponentialfamilie in
1
2
2πσ 2
e−(x−µ)
/(2σ 2 )
(ii) Die Familie der Poissonverteilungen
=√
1
2πσ 2
e−(x
2
η(µ) = µ/σ 2
−2µx+µ2 )/(2σ 2 )
und
T (x) = x:
x ∈ R.
,
(P oiss(λ))λ>0 mit Intensitätsparameter λ
η(λ) = log λ und T (x) = x:
bildet eine
Exponentialfamilie mit natürlichem Parameter
1
λx e−λ
= ex log λ−λ ,
x!
x!
L(λ, x) =
Lemma 3.10.
R
x ∈ Z+ .
Ist ein statistisches Modell durch eine Exponentialfamilie in
mit dierenzierbarem
η
S : X → R mit existierendem Erwartungswert
ρ0 (ϑ) = η 0 (ϑ) Varϑ (T ) 6= 0, ϑ ∈ Θ.
(i) Jede Statistik
η : Θ → R und T : X →
gegeben, so ist dieses regulär. Ferner gilt
ρ(ϑ) := Eϑ [T ]
ist
ζ 0 (ϑ) = η 0 (ϑ)Eϑ [T ]
für
ist regulär.
stetig dierenzierbar mit
(ii) Die Normierungsfunktion
ϑ ∈ Θ.
ζ
Θ ⊆ R stetig dierenzierbar
Uϑ = η 0 (ϑ)T − ζ 0 (ϑ).
ist auf
Die Scorefunktion ist
(iii) Für die Fisher-Information gilt
η(ϑ) = ϑ
Beweis. O.B.d.A. ist
I(ϑ) = η 0 (ϑ)ζ 00 (ϑ) = η 0 (ϑ)ρ0 (ϑ)
und somit
0
η =1
für alle
ϑ ∈ Θ.
mit
für alle
ϑ ∈ Θ.
Der allgemeine Fall ergibt sich
durch Reparametrisierung und Anwendung der Kettenregel.
S
Schritt 1: Sei
eine beliebige reelle Statistik mit
S ∈ L1 (Pϑ )
für alle
ϑ ∈ Θ.
Dann ist die
ˆ
Funktion
uS (ϑ) := eζ(ϑ) Eϑ [S] =
S(x)eϑT (x) c(x)µ(dx)
X
auf
Θ
wohl deniert. Wir zeigen nun, dass
Ist
ϑ ∈ Θ und t ∈ R
X |t|k ˆ
k>0
k!
ˆ
us beliebig oft dierenzierbar ist.
ϑ ± t ∈ Θ, so gilt mittels monotoner Konvergenz
ˆ
k ϑT (x)
|S(x)||T (x)| e
c(x)µ(dx) =
|S(x)|eϑT (x)+|tT (x)| c(x)dx
so klein, dass auch
X
X
|S(x)| e(ϑ+t)T (x) + e(ϑ−t)T (x) c(x)dx < ∞.
6
X
Also ist
k
1
ST ∈ L (Pϑ )
für alle
ϑ∈Θ
Xt
k>0
k
k!
und insbesondere
ˆ
T ∈ L2 (Pϑ )
für alle
ϑ.
Ferner ist die Reihe
S(x)T (x)k eϑT (x) c(x)µ(dx)
X
absolut konvergent und Summation und Integration können vertauscht werden. Die Reihe nimmt
uS (ϑ + t) an. Damit ist uS sogar analytisch.
ζ(ϑ)
0
Eϑ [ST ] und insbesondere u01 (ϑ) = u1 (ϑ)Eϑ [T ] sowie
Schritt 2: Es folgt uS (ϑ) = e
2
u1 (ϑ)Eϑ [T ]. Für ζ(ϑ) = log u1 (ϑ) bekommen wir also ζ 0 (ϑ) = Eϑ [T ] =: ρ(ϑ) und
daher den Wert
u001 (ϑ) =
ρ0 (ϑ) = ζ 00 (ϑ) = u001 (ϑ)/u1 (ϑ) − (u01 (ϑ)/u1 (ϑ))2 = Varϑ (T ).
Aus der Dierenzierbarkeit von
ζ
folgt
∂
log L(ϑ, x) = T − ζ 0 (ϑ), ϑ ∈ Θ
∂ϑ
I(ϑ) = Varϑ (Uϑ ) = Varϑ (T ) > 0. Weiter können wir schreiben
0
d
Eϑ [S] = uS (ϑ)e−ζ(ϑ) = u0S (ϑ) − uS (ϑ)ζ 0 (ϑ) e−ζ(ϑ)
dϑ
=Eϑ [ST ] − Eϑ [S]ζ 0 (ϑ) = Eϑ [SUϑ ]
ˆ
∂
=
S(x) L(ϑ, x)µ(dx).
∂ϑ
X
Uϑ =
und somit
Daher gilt einerseits (3.1) für alle
h ∈ L1 (Pϑ ) und anderseits folgt die Regularität des Modells.
33
Korollar 3.11 (Existenz von besten Schätzern).
Exponentialfamlie mit dierenzierbarem
η
und
bester und Cramér-Rao-ezienter Schätzer für
Varϑ (T ) = ρ0 (ϑ)/η 0 (ϑ)
und
Für jedes statistische Modell gegeben durch eine
η 0 6= 0 ist die zugrunde liegende Statistik T
ρ(ϑ) := Eϑ [T ] = ζ 0 (ϑ)/η 0 (ϑ). In dem Fall gilt
I(ϑ) = η 0 (ϑ)ρ0 (ϑ)
Für natürliche Exponentialfamilien gilt also insbesondere
für alle
ein
ϑ ∈ Θ.
Varη (T ) = I(η).
Beweis. Folgt unmittelbar aus Satz 3.4 und Lemma 3.10. Für natürliche Exponentialfamilien
0
0
2
gilt also Varη (T ) = ρ (η) = I(η) und die Informationsschranke ist gegeben durch ρ (η) /I(η) =
I(η).
Beispiel 3.9 (fortgesetzt).
(i)
(N (µ, σ 2 ))µ∈R und bekanntem σ > 0 ist wie oben gesehen eine Exponentialfamilie in η(µ) =
µ/σ 2 , T (x) = x und mit ζ(µ) = µ2 /(2σ 2 ). Somit ist ρ(µ) = Eµ [T ] = µ und Varµ (T ) = σ 2 .
Da T nicht von σ > 0 abhängt, ist T sogar bester Schätzer für den Erwartungswert für alle
Normalverteilungen.
(P oiss(λ))λ>0 in η(λ) = log λ und T (x) = x gilt ζ(λ) = λ. Wegen
Varλ (T ) = λ ist T bester Schätzer für λ.
(ii) Für die Exponentialfamilie
ρ(λ) = Eλ [T ] = λ
und
Lemma 3.12.
Ist (Pϑ )ϑ∈Θ auf (X , F ) eine Exponentialfamilie in η : Θ → R und T : X → R
⊗n
n
⊗n
so ist (Pϑ )ϑ∈Θ eine Exponentialfamilie auf (X , F
) mit zugrundeliegender Statistik Tn =
Pn
1
0
T
◦
X
.
Ist
η
dierenzierbar
mit
η
=
6
0
,
folgt
insbesondere,
dass Tn ein bester Schätzer für
i
i=1
n
ρ(ϑ) = Eϑ [T ] ist.
Beweis. Übung
2
.
Abschlieÿend klären wir noch die Frage was das Maximum-Likelihood-Prinzip für natürliche
Exponentialfamilien ergibt.
Lemma 3.13.
Ist (Pϑ )ϑ∈Θ auf (X , F ) eine natürliche Exponentialfamilie in η ∈ Ξ und T : X →
0
auf dem Ereignis {T (X) ∈ ran(ζ )} der eindeutige Maximum-Likelihood-Schätzer
0
des Parameters ρ(η) := Eη [T ]. Ferner ist ζ : Θ → R invertierbar und der eindeutige Maximum-
R,
dann ist
T
Likelihood-Schätzer des natürlichen Parameters
η
ist gegeben durch
ηb = (ζ 0 )−1 (T (X)).
Beweis. Um die Maximalstelle der Likelihood-Funktion zu nden, setzen wir die Scorefunktion
0
gleich null. Auf
{T (X) ∈ ran(ζ )}
gilt
∂η log L(η, x) = Uη (x) = 0
⇔
T (x) = ζ 0 (η).
∂η2 log L(η, x) = −ζ 00 (η) = − Varη (T ) < 0, ist η 7→ − log L(η, x) konvex und somit T der eindeu0
00
tige Maximum-Likelihood-Schätzer des Parameters ρ(η) = ζ (η). Aus ζ > 0 folgt auÿerdem, dass
0
ζ invertierbar ist, so dass der Maximum-Likelihood-Schätzer des natürlichen Parameters gegeben
0 −1
ist durch (ζ )
◦ T.
Da
3.2 Verallgemeinerte Lineare Modelle
Mit Hilfe von Exponentialfamilien wollen wir nun lineare Modelle verallgemeinern. Wie in Bei-
(N (µ, σ 2 ))µ∈R eine Exponentialfamilie mit natürlichem Parameter η(µ) =
T (x) = x, die ein ezienter Schätzer des Parameters ρ(µ) = Eµ [T ] = µ ist. Im
spiel 3.9 gesehen bildet
µ/σ
2
und Statistik
gewöhnlichen linearen Modell sind nun die Beobachtungen gegeben durch
Rn 3 Y = Xβ + ε,
34
mit Parametervektor
Varianz
σ > 0.
β ∈ Rk ,
Designmatrix
X ∈ Rn×k
x1
mit Zeilenvektoren
Yi gemäÿ N (xi β, σ 2 ) verteilt, folgt
ρi (β) = xi β , i = 1, . . . , n. Lassen wir nun
ist Beobachtung
und
mit

 
X =  ... 
xn
xi β/σ
εi ∼ N (0, σ 2 )
Schreiben wir die Designmatrix als

2
und iid. Fehlervariablen
x 1 , . . . , x n ∈ Rk ,
also einer Exponentialfamilie mit
sowohl Situationen modellieren in den der Zusammenhang zwischen
(codiert in der Designmatrix
Denition 3.14.
X)
Auf einem Produktmodell
(GLM: generalized linear model) mit
Randverteilungen von
Yi
E[Yi ]
und den Kovariablen
nichtlinear ist als auch diskrete Beobachtungen
n
(X , F
n
ηi (β) =
andere Exponentialfamilien zu, können wir
⊗n
Yi
zulassen.
) liegt ein verallgemeinertes lineares Modell
Y1 , . . . , Yn vor, falls die
unabhängigen Beobachtungen
durch natürliche Exponentialfamilien gegeben sind mit Dichten
dPYηii
dµ
(yi ) = exp
η y − ζ(η ) i i
i
c(yi , ϕ),
ϕ
i = 1, . . . , n,
µ, mit unbekanntem Dispersionsparameter ϕ > 0,
ˆ
n
o
ηi ∈ Ξ = η ∈ R :
eηy/ϕ c(y, ϕ)µ(dy) ∈ (0, ∞) ⊆ R
bzgl. einem dominierenden Maÿ
X
i und bekannten Funktionen ζ : Ξ → R und c : X → R+ mit ζ 00 (η) > 0 für alle inneren
◦
k
Punkte η ∈ Ξ . Setze ρ(ηi ) := Eη [Yi ]. Für einen unbekannten Parametervektor β ∈ R , eine
n×k
Designmatrix X ∈ R
und eine bijektive, stetig dierenzierbare Funktion g : R → R gelte weiter


g(ρ(η1 ))


.
.

 = Xβ.
.
für alle
g(ρ(ηn ))
g
heiÿt Linkfunktion. Falls
ρ = g −1 ,
gilt
(η1 , . . . , ηn )> = Xβ
und
g
heiÿt kanonische Linkfunktion
(oder kanonischer Link).
Während
xiertes
ϕ
ist
β
Yi
der interessierende Parameter ist, wird
ϕ
als Störparameter angesehen. Für -
also gemäÿ einer natürlichen Exponentialfamilie in
T (y) = y/ϕ
verteilt. Aus den
Eigenschaften natürlicher Exponentialfamilien folgt
Eβ,ϕ [Yi ] = ζ 0 (ηi )
Beispiel 3.15.
Varβ,ϕ (Yi ) = ϕζ 00 (ηi ),
und
i = 1, . . . , n.
Das gewöhnliche lineare Modell ist ein GLM mit kanonischer Linkfunktion
g(x) = x, ζ(η) = η 2 /2
und Dispersionsparameter
ϕ = σ2 .
Lassen wir allgemeinere Linkfunk-
tionen zu erhalten wir nicht-lineare Regressionsmodelle (mit normalverteilten Fehlern) gegeben
durch Beobachtungen
Yi ∼ N (g −1 ((Xβ)i ), ϕ).
Der Dispersionsparameter wird dazu verwendet eine Unterschätzung der (empirisch beobachteten) Varianz durch das Modell auszugleichen (siehe Übung
Um den unbekannten Parametervektor
β
2
).
in einem verallgemeinerten linearen Modell zu schät-
ζ 0 streng monoton wachsend und die
ψ := (g ◦ ρ)−1 . Ist xi ∈ Rk wieder die i-te
zen, verwenden wir den Maximum-Likelihood-Ansatz. Da
Linkfunktion
Zeile von
X,
g
invertierbar sind, existiert die Funktion
kann Loglikelihood-Funktion geschrieben werden als
log L(β, ϕ; y) =
n X
ψ(xi β)yi − ζ(ψ(xi β))
ϕ
i=1
+ log(c(yi , ϕ)) .
Als notwendige Bedingung an einen Maximum-Likelihood-Schätzer
b ϕ; y) =
∇β log L(β,
1
ϕ
n
X
βb erhalten
b ψ 0 (xi β)x
b > = 0.
yi − ρ(ψ(xi β))
i
i=1
35
wir durch Ableiten
(3.3)
Lemma 3.16.
In einem verallgemeinerten linearen Modell mit kanonischer Linkfunktion ist die
Fisher-Information gegeben durch
n
1 X 00
k×k
I(β) =
ζ (xi β)x>
.
i xi ∈ R
ϕ i=1
I(β)
Ist
positiv denit für alle
β
βb
und existiert eine Lösung
Maximum-Likelihood-Schätzer von
von (3.3), so ist
βb
der eindeutige
β.
Beweis. Aus Lemma 3.10 folgt, dass die Fisher-Information im natürlichen Parameter
Pn
(η1 , . . . , ηn )> gegeben ist durch ϕ1 i=1 ζ 00 (ηi ). Die Reparametrisierung ηi = xi β zusammen mit
der Kettenregel ergibt die Darstellung von
Der kanonische Link ist gegeben durch
ρ = ζ 0,
I(β).
g = ρ−1 ,
gilt also
so dass
ψ
in (3.3) die Identität ist. Wegen
n
1 X 00
∂ 2 log L(β, ϕ; y)
=−
ζ (xi β)x>
i xi = −I(β).
>
∂β∂β
ϕ i=1
Da
I(β) > 0,
ist
β 7→ − log L(β, ϕ; y)
streng konvex und somit
βb
der eindeutige Maximum-
Likelihood-Schätzer.
Bemerkung 3.17.
(i) Typischerweise besitzt
βb keine geschlossene Form mehr und muss durch numerische Verfahren
bestimmt werden. Fishers Scoring-Methode verwendet hierfür das iterative Verfahren
βb(t+1) = βb(t) + I(β)−1 ∇β log L(βb(t) , ϕ; y),
(Beachte, dass sich der unbekannte Dispersionsparameter
ϕ
t = 0, 1, . . .
gerade rauskürzt). Für den ka-
nonischen Link ist dieses Verfahren äquivalent zur Newton-Raphson-Methode.
(ii) Ist
g
nicht der kanonische Link ist eine Lösung von (3.3) nicht notwendigerweise ein
Maximum-Likelihood-Schätzer.
Zwei wichtige Beispielklassen für verallgemeinerte lineare Modelle sind die Poisson-Regression
und die logistische Regression, die abschlieÿend eingeführt werden.
Die Poisson-Regression modelliert unabhängige Poisson-verteilte Beobachtungen, deren Intensitätsparameter von Kovariablen abhängen. Sie eignet sich also für Beobachtungen die Zähldatenstruktur haben. Wir hatten bereits gesehen dass die Familie
in
η(λ) = log λ
und
T (x) = x
durch
L(λ, x) =
und es gilt
(P oiss(λ))λ>0 eine Exponentialfamilie
ist: Bezüglich des Zählmaÿes ist die Likelihood-Funktion gegeben
λx e−λ
1
= ex log λ−λ ,
x!
x!
x ∈ Z+ ,
ρ(λ) = Eλ [T ] = λ.
Denition
3.18.
Ein
verallgemeinertes
lineares
Modell
Poisson-Regression, falls die unabhängigen Beobachtungen
λ i = e ηi
mit natürlichen Parametern
ηi ∈ R, i = 1, . . . , n,
auf
(Zn+ , P(Zn+ ))
Yi P oiss(λi )-verteilt
heiÿt
sind, wobei
und
η = (η1 , . . . , ηn )> = Xβ
mit unbekanntem
β ∈ Rk
und Designmatrix
X ∈ Rn×k .
g(λ) = log λ. In der Praxis wird
Yi ∼ P oiss(λi · si ) verwendet für einen so genannten Zählrahmen si > 0,
Eβ [Yi ] = exp(xi β + log(si )) mit den Zeilen xi von X . Der Term log(si )
Bemerkung 3.19. Wir verwenden hier also den kanonischen Link
oft das erweiterte Modell
i = 1, . . . , n.
Dann gilt
wird als Oset bezeichnet, da er jeder Beobachtung einen individuellen Intercept zuweist.
36
Beispiel 3.20.
In einem groÿen Krankenhaus wird die Anzahl der Beschwerden über
n = 44
Notfallärzten untersucht (Daten aus Le (2003)). Der Zählrahmen pro Arzt ist die Anzahl an
Patientenbesuchen, die vier zu berücksichtigenden Kovariablen sind Vergütung (in $/h), Erfahrung
(in h), Geschlecht und Facharztausbildung (ja/nein).
Lemma 3.21.
tialfamilie in
Die Familie der Bernoulli-Verteilungen
p
1−p und T (x) = x.
(Bernoulli(p))p∈(0,1)
bildet eine Exponen-
η(p) = log
Beweis. Die vom Zählmaÿ dominierte Familie besitzt die Likelihood-Funktion
p x
p L(p, x) = px (1 − p)1−x = (1 − p)
= exp x log
+ log(1 − p) ,
1−p
1−p
Denition 3.22.
x ∈ {0, 1}.
({0, 1}n , P({0, 1}n )) heiÿt logistische
Regression, falls die unabhängigen Beobachtungen Yi Bernoulli(pi )-verteilt sind, i = 1, . . . , n, mit
natürlichem Parameterraum R, der kanonischen Link-Funktion g : (0, 1) → R, g(p) = log(p/(1−p))
Ein verallgemeinertes lineares Modell auf
und
η = (g(p1 ), . . . , g(pn ))> = Xβ
β ∈ Rk und Designmatrix X ∈ Rn×k . Die Funktion g heiÿt Logit-Funktion
−1
Umkehrfunktion g
: R → (0, 1), g −1 (x) = (1 + e−x )−1 heiÿt logistische Funktion.
mit unbekanntem
ihre
Bemerkung 3.23. Es gilt also
E[Yi ] = g −1 (ηi ) = eηi /(1 + eηi ),
wobei die Funktion
g −1
und
gerade die
Verteilungsfunktion der standardisierten logistischen Verteilung ist (welche im Allgmeinen einen
Mittelwerts- und einen Streuungsparameter besitzt). Das motiviert ein populäres Beispiel für eine
nicht kanonische Linkfunktion: die Probit-Funktion
der Standardnormalverteilung
g(λ) = Φ−1 (λ)
mit der Verteilungsfunktion
Φ.
Da wir hier ein Modell gefunden haben um
{0, 1}-wertige Zufallsvariablen durch Kovariablen zu
erklären, werden wir die logistische Regression im nächsten Kapitel zur Klassikation verwenden.
3.3 Ergänzung: Numerische Bestimmung des Maximum-LikelihoodSchätzers
Das vermutlich grundlegendste numerische Verfahren zur Bestimmung von Nullstellen ist das
Newton-Verfahren oder Newton-Raphson-Verfahren:
ˆ
Ziel: Finde
ˆ
Verfahren:
x∗ ∈ R: f (x∗ ) = 0
(i) Wähle einen Startpunkt
(ii) Approximiere
x
∗
für eine Funktion
x0 ∈ R
(der möglichst nahe an
Abbruchkriterien:
Geometrisch ist
(xn , f (xn )).
xn+1
f (xn )
f 0 (xn )
|f (xn )| < ε
oder
Im allgemeineren Fall
falls
|xn+1 − nn | < ε
genau die Nullstelle der Tangente
k
f: R →R
Jf (xn )(xn+1 − xn ) = −f (xn )
mit der Jacobi-Matrix
x∗
liegen sollte).
mit der rekursiven Vorschrift
xn+1 := xn −
ˆ
f : R → R.
k
f 0 (xn ) 6= 0
für ein
ε > 0.
y = f (xn ) + f 0 (xn )(x − xn ) an f
im Punkt
erhalten wir die Rekursionsvorschrift
xn+1 = xn − Jf (xn )−1 f (xn )
⇐⇒
∂fi
Jf (x) = ( ∂x
)i,j=1,...,k ∈ Rk×k
j
falls diese positiv denit ist.
Das Newton-Verfahren soll nun verwendet werden um den Maximum-Likelihood-Schätzer
βb
in einem verallgemeinerten linearen Modell (X , F
, (P⊗n
β,ϕ )β∈Rk ,ϕ>0 ) mit kanonischem Link zu
bestimmen. Zur Erinnerung ist in diesem Fall die Likelihood-Funktion gegeben durch
n
L(β, ϕ; y) =
n
Y
i=1
exp
⊗n
(x β)y − ζ(x β) i
i
i
c(yi , ϕ)
ϕ
37
mit
n
Zeilenvektoren
x i ∈ Rk .
Setzen wir also
f (β) = ∇β log L(β, ϕ; y) =
n
1X
yi − ζ 0 (xi β) x>
i ,
ϕ i=1
dann ist die Jacobi-Matrix gleich der Hesse-Matrix der Loglikelihood-Funktion
Jf (β) =
n
∂ log L(β, ϕ; y) 1 X 00
βl
=−
ζ (xi β)xi,l xi,j
∂βj
ϕ i=1
l,j=1,...,k
l,j=1,...,k
n
=−
Da diese nicht mehr von
y
1 X 00
ζ (xi β)x>
i xi .
ϕ i=1
abhängt, erhalten wir
Jf (β) = Eβ Hlog L(·,ϕ,Y ) (β) = −I(β).
Einsetzen in obige Iterationsvorschrift liefert Fishers Scoring-Methode:
βb(t+1) = βb(t) + I(β)−1 ∇β log L(βb(t) , ϕ; y)
n
n
X
−1 X
ζ 00 (xi βb(t) )x>
Yi − ζ 0 (xi βb(t) ) x>
= βb(t) −
i xi
i ,
i=1
wobei wir
βb(0) = 0
t ∈ N,
i=1
setzen.
4 Klassikation
Während im linearen Modell die Zielvariable quantitativ ist, gibt es viele Situationen in denen
die Daten qualitativ bzw. kategoriell sind. Das Grundprinzip der Klassikation ist anhand einer
sogenannten Trainingsmenge
(x1 , Y1 ), . . . , (xn , Yn )
zu lernen, die Klassen zu unterscheiden, um
xn+1 , . . . , xn+m gehören
klassiziert werden.
anschlieÿend vorherzusagen, zu welcher Klasse Beobachtungen zu neuen
(statistisches Lernen ). Anders ausgedrückt, sollen
Beispiel 4.1.
xn+1 , . . . , xn+m
Auf Grundlage vom monatlichen Kontostand der Kreditkarte und dem Jahresein-
kommen soll vorhergesagt werden ob jemand zahlungsunfähig wird oder nicht. Als Trainingsdatensatz haben wir Daten
(xi,1 , xi,2 , Yi )
für
i = 1, . . . , n
xi,1 bzw. xi,2
i sind und Yi
default-Datensatz
Personen gegeben, wobei
der monatliche Kontostand der Kreditkarte bzw. das Jahreseinkommen von Person
die Frage Zahlungsunfähig? mit Ja oder Nein beantwortet (simulierter
aus James et al. (2013)). Etwa 3% der Personen sind zahlungsunfähig. Beachte, dass in realen
Anwendungen die Beziehung zwischen Ko- und Zielvariablen typischerweise nicht so eindeutig
sind.
4.1 Logistische Regression
Stammen die Zielvariablen nur aus zwei verschiedenen Klassen (die mit 0 und 1 codiert werden),
bietet sich die logistische Regression aus Kapitel 3 als Modell an. Zur Erinnerung heiÿt ein stati-
({0, 1}n , P({0, 1}n ), (Pβ ⊗n )β∈Rk )
k
blen xi = (1, xi,1 , . . . , xi,k−1 ) ∈ R (Zeilenvektor mit
ist, wobei pi = p(xi , β) gegeben ist durch
sches Experiment
log
multiple logistische Regression mit KovariaAbsolutglied), falls
k−1
p X
i
= β0 +
βj xi,j
1 − pi
j=1
für
Yi Bernoulli(pi )-verteilt
i = 1, . . . , n.
Äquivalent gilt
p(xi , β) =
Die Wahrscheinlichkeit, dass
Yi
exi β
.
1 + exi β
zur Klasse 1 gehört, wird also durch die
38
k − 1 Kovariablen erklärt.
Methode 9: Klassikation mittels logistischer Regression.
Nach Schätzung des Parame-
βb auf der Trainingsmenge (xi , Yi )i=1,...,n können wir für eine jede neue
xn+1 = (1, xn+1,1 , . . . , xn+1,k−1 ) (Zeilenvektor) einen zugehörigen Wert
tervektors
lisierung
Kovariablenrea-
exn+1 β
b
b =
pbn+1 = p(xn+1 , β)
vorhersagen und
xn+1
der Klasse 1 zuordnen, falls
Andernfalls klassizieren wir
xn+1
mit 0.
1 + exn+1 βb
pbn+1 > τ
für einen Schwellenwert
τ ∈ [0, 1].
Der Maximum-Likelihood-Ansatz führt auf die Maximierung der Loglikelihood-Funktion
`(β, y) := log L(β, y) =
n
X
yi log p(xi , β) + (1 − yi )(1 − p(xi , β)
i=1
=
n X
yi (xi β) − log 1 + exi β
.
i=1
Nullsetzen des Gradienten führt auf
k
Gleichungen, die nichtlinear in
β
sind. Um den Maximum-
Likelihood-Schätzer numerisch zu bestimmen, verwenden wir wieder das Newton-Verfahren. Dieses
führt uns auf die iterativ neugewichteten Kleinste-Quadrate-Methode (IRLS: iteratively reweighted
least squares):
Lemma 4.2.
In der logistischen Regression mit Designmatrix
X
von vollem Rang ist der
(t+1)ste
Iterationsschritt von Fishers Scoring-Methode gegeben durch
1/2
2
βb(t+1) = (X > Wβb(t) X)−1 X > Wβb(t) Zβb(t) = arg min W b(t) (Zβb(t) − Xb)
b
mit adjustiertem Responsevektor
Zβ = Xβ + Wβ−1 (Y − pβ ),
pβ = p(x1 , β), . . . , p(xn , β)
>
∈ Rn
β
wobei
und
Wβ = diag p(x1 , β)(1 − p(x1 , β), . . . , p(xn , β)(1 − p(xn , β)) ∈ Rn×n .
g(x) = ex /(1 + ex ) gilt g 0 (x) = g(x)(1 − g(x)). Aus der
expliziten Form der Loglikelihood-Funktion `(β) folgt damit, dass Scorefunction und Hesse-Matrix
Beweis. Für die logistische Funktion
gegeben sind durch
∇β `(β, y) = X > (y − pβ )
bzw.
H`(·,y) (β) = −X > Wβ X.
Somit ist der Iterationsschritt von Fishers Scoring-Methode
−1 >
βb(t+1) = βb(t) + X > Wβb(t) X
X (Y − pβb(t) )
−1
= X > Wβb(t) X
X > Wβb(t) X βb(t) + W −1 (Y − pβb(t) )
−1 >
= X > Wβb(t) X
X Wβb(t) Zβb(t) .
Wie in Kapitel 2 gesehen, ist dies gerade die Lösung des gewichteten Kleinste-Quadrate-Problems.
Bemerkung 4.3.
(i) Der Maximum-Likelihood-Schätzer
erste Koezient von
xi
gleich 1 ist
b y) = Pn x> (y − p(xi , β))
b = 0. Da
βb erfüllt ∇β `(β,
i=1 i
P
P
b
folgt
i yi =
i p(xi , β), d.h. die erwartete Anzahl
Beobachtungen in Klasse eins stimmt mit der beobachteten Anzahl überein.
39
der
der
βb die Lösung eines
−1
b
gewichteten Kleinste-Quadrate-Problems mit Responsevektor Z b = X β + W b (Y − p b) und
β
β
β
b
Gewichten wi = p
bi (1 − pbi ), wobei beides wieder von β abhängt. Die gewichteten Quadrat-
(ii) Insbesondere zeigt dieses Lemma, dass der Maximum-Likelihood-Schätzer
summen der Residuen sind dann
n
X
(Yi − pbi )2
i=1
pbi (1 − pbi )
und messen die Abweichung der Daten von der Modellvorhersage.
Beispiel 4.4.
Wir betrachten wieder den Datensatz aus Beispiel 4.1, wobei wir eine zusätzliche
Kovariable Student mit Werten Ja oder Nein zur Verfügung haben. Eine Logistische Regression, die nur Student und einen Intercept verwendet führt zu einem positiven Koezienten
der Dummy-Variable, d.h. die Zahlungsunfähigkeitswahrscheinlichkeit ist für Studenten höher als
für Nicht-Studenten. Verwenden wir alle drei Kovariablen erhalten wir jedoch einen negativen
Zusammenhang! Wie kann man diesen so genannten Konfundierungseekt erklären?
Die logistische Regression kann auch auf mehr als zwei Klassen ausgeweitet werden, indem wir
statt der Bernoulli-Verteilung die Multinomialverteilung verwenden. Häug wird jeden die Methode des nächsten Abschnittes dieser Variante vorgezogen. Inferenz für die logistische Regression
beruht auf asymptotischen Überlegungen auf die wir in dieser Vorlesung nicht weiter eingehen
werden.
4.2 Bayesklassikation1
P(Y = 1) unter Verwendung des Rex für zwei Klassen 0 und 1. Verstehen wir den Kovariablenvektor als Zufallsvariable
X , wird also die bedingte Wahrscheinlichkeit P(Y = 1|X = x) der Klasse 1 gegeben einer Kovariablenrealisierung X = x modelliert. Stattdessen wird nun ein Bayesianischer Ansatz verfolgt.
d
Gegeben sei das zufällige Paar X, Y , welches Werte in R × 1, . . . , K
annimmt. Hierbei
bezeichnet Y die Klassizierung von X . Das heiÿt, dass die Verteilung PX von X durch die bedingte
Verteilung PX|Y festgelegt wird. Dieser Zusammenhang wird später durch die Bayesformel genauer
erläutert. Wie in der logistischen Klassizierung möchten wir einen Klassikator C konstruieren,
der einer Realisierung X = x eine Klasse C(x) ∈ 1, . . . , K
zuordnet. Formal haben wir es also
Die logistische Regression modelliert die Wahrscheinlichkeit
gressorvektors
mit einer deterministischen Abbildung
C : Rd 7→ 1, . . . , K
zu tun. In der Praxis wird
C
normalerweise über ein Trainingsample
Xn = (x1 , y1 ), . . . , (xn , yn )
konstruiert, worauf wir später genauer eingehen werden. Ein wesentliche Frage bezüglich eines
Klassikators ist seine Qualität hinsichtlich einer korrekten Klassizierung. Diese können wir über
die Wahrscheinlichkeit einer fehlerhaften Klassizierung
P C(X) 6= Y
beschreiben, und bezeich-
nen sie allgemein mit
R C = P C(X) 6= Y .
R(C)
entspricht also dem 0-1-Risiko. Ein optimaler Klassizierer
barkeit)
C opt = arg min R C .
C
1 Vielen Dank an Moritz Jirak für die Ausarbeitung dieses Abschnitts
40
C opt
wäre daher (gegeben Mess-
Wie können wir diesen konstruieren? Zunächst ist es günstig das Risiko
ˆ
R C
umzuformen:
R C = P C(X) 6= Y = P C(x) 6= Y X = x PX (dx)
ˆ
=
1 − P(C(x) = Y X = x) PX (dx)
ˆ
= 1 − P C(x) = Y X = x PX (dx).
Wir sehen also, dass
R C
klein ist, wenn die bedingte Wahrscheinlichkeit
möglichst groÿ ist. Bedingen auf
R C =1−
ˆ X
K
Y
P C(x) = Y X = x
liefert weiter
P C(x) = k Y = k, X = x P Y = k X = x PX (dx).
k=1
Nun benutzen wir die Tatsache, dass
Unabhängigkeit von
Y ).
C
deterministisch ist (eine leichte Verallgemeinerung ist
Dadurch erhalten wir
P C(x) = k Y = k, X = x = P C(x) = k = 1{C(x)=k} ,
und somit
R C =1−
ˆ X
K
1{C(x)=k} P Y = kX = x PX (dx).
k=1
Wir haben es nun mit einer überraschend einfachen Optimierung zu tun. Um
R C
zu minimieren,
genügt es den Ausdruck
A(x) :=
K
X
α(k, x)P Y = k X = x
mit
α(k, x) = 1{C(x)=k} ,
k=1
für jedes
x ∈ Rd
α(k, x) ∈ {0, 1}. Die Gröÿe A(x) ist folglich
α(k, x) = 1) auf
max P Y = k X = x
zu maximieren. Es gilt nun allerdings
genau dann maximal, wenn wir das meiste Gewicht (und somit
1≤k≤K
legen (dies kann leicht bewiesen werden).
A(x)
ist also genau dann maximal, wenn wir für jedes
x ∈ Rd
(
α(k, x) =
Dieses
k∗
1,
0,
k = k∗ ,
sonst,
für
wobei
k ∗ = arg maxk=1,...,K P Y = k X = x .
liefert uns automatisch die optimale Klassikation:
C opt x = arg maxk=1,...,K P Y = k X = x .
Theorem 4.5.
Der deterministische Klassikator, welcher das Risiko
(4.1)
R C
minimiert, ist durch
die Klassikation in (4.1) gegeben und wird Bayesklassikator genannt.
Bemerkung 4.6.
(i) Die Optimalität der Bayesklassikation hängt essentiell mit der Denition des Risikos
R C
zusammen.
K = 2,
(ii) Falls
1/2,
erhalten wir eine sehr einfache Klassizierungsregel: Wenn
dann wählen wir Klasse
k = 1,
ansonsten Klasse
P Y = 1X = x ≥
k = 2.
Viele Klassikationsalgorithmen versuchen die Bayesklassikation zu imitieren. Ein allgemeiner
Zugang ist die bedingte Wahrscheinlichkeit
P Y = k X = x
anhand eines Trainingsamples zu
schätzen. Ein bekannter Repräsentant dieser Art ist das KNN-Verfahren (K-nearest neighbour,
Übung
wird.
2
).
Ein anderes ist die lineare Diskrimimanzanalyse, die im nächsten Abschnitt behandelt
41
4.3 Lineare Diskriminanzanalyse2
Das Problem der Bayesklassikation ist, dass es nicht so einfach ist, gute Schätzer für die bedingten
Wahrscheinlichkeiten
P Y = k X = x
zu konstruieren. Allerdings kann die Bayesformel hier
helfen. Wir modellieren die Verteilung von
gegeben
Y)
X
für jede Klasse
k ∈ {1, . . . , K}
mit
K > 2
(also
durch eine Dichte
fk (x) = P(X = dx|Y = k)
und wählen a-priori-Wahrscheinlichkeiten der Klassen πk = P(Y = k) ∈ [0, 1] für k = 1, . . . , K
P
k πk = 1. Die Bayesformel liefert dann die a-posteriori-Zähldichte von Y
P X = dxY = k P Y = k
πk fk (x)
pk (x) = P Y = k X = dx =
.
= PK
P X=x
l=1 πl fl (x)
Die Idee der linearen Diskrimimanzanalyse (LDA) ist nun,
fk (x)
mit
als Gauÿdichte (univariat) zu
modellieren, also
1
(x − µk )2
fk (x) = √
exp −
,
2σk2
2πσk
wobei µk und σk der Mittelwert und die Varianz der k -ten Klasse
2
in der folgenden Diskussion. Dann erhalten wir
σ12 = . . . = σK
sind. Der Einfachheit halber sei
2
1
k)
πk √2πσ
exp − (x−µ
2
2σ
k
k
pk (x) = PK
.
(x−µl )2 √ 1
π
exp
−
l
l=1
2σ 2
2πσ
l
Durch umformen erhalten wir, dass
pk (x)
(4.2)
l
genau dann maximal ist, wenn
δk (x)
maximal ist, gege-
ben durch
δk (x) = x
Tatsächlich sind die Werte
πk , µk
und
σ2
µk
µ2k
−
+ log πk .
2
2
σ
2σ
aber unbekannt, und müssen geschätzt werden.
Methode 10: Lineare Diskriminanzanalyse.
π
bk =
nk
,
n
µ
bk =
1 X
xj
|nk |
und
Wir denieren
σ
b2 =
K
2
1 X X
xj − µ
bk ,
n−K
k=1 j:yj =k
j: yj =k
n die Gesamtanzahl des Trainingssamples Xn und nk die
k -ten Klasse sind. Dann ist der Klassizierer gegeben durch
wobei
der
(4.3)
C(x) = arg maxk=1,...,K δbk (x)
mit
Anzahl des Trainingssamples in
µ
bk
µ
b2
δbk (x) = x 2 − k2 + log π
bk .
σ
b
2b
σ
Im multivariaten Fall erhalten wir analog die Klassizierungsregel
1
−1
δk (x) = x> Σ−1 µk − µ>
µk + log πk ,
kΣ
2
(4.4)
Σ die d-dimensionale Kovarianzmatrix von X ∈ Rd ist, und µk ∈ Rd der Vektor der komponentenweisen Erwartungswerte. Dabei können Σ, µ1 , . . . , µK sowie π1 , . . . , πK wieder über Plug-in
wobei
bzw. relative Häugkeiten geschätzt werden.
Bemerkung 4.7. Eine weitere Verallgemeinerung stellt die quadratische Diskriminanzanalyse
(QDA) dar, wo jede Klasse
k
eigene, im allgemeinen unterschiedliche Kovarianzmatrizen
sitzen. Dies führt zu einer quadratischen Klassizierungsregel.
2 Vielen Dank an Moritz Jirak für die Ausarbeitung dieses Abschnitts
42
Σk
be-
Obwohl die Motivation für die logistische Klassikation und LDA unterschiedlich ist, gibt es
einen engen Zusammenhang. Betrachten wir den Fall
K = 2. Dann gilt p2 (x) = 1 − p1 (x) und eine
kurze Rechnung ergibt für die LDA
log
wobei die Konstanten
c1 , c2
p1 (x)
1 − p1 (x)
von
µ1 , µ2
und
= log
σ2
p1 (x)
p2 (x)
= c1 + c2 x,
abhängen. Im Fall der logistischen Klassizierung
haben wir:
log
p1 (x)
1 − p1 (x)
= log
p1 (x)
p2 (x)
= β1 + β2 x.
Der Unterschied liegt also nur in der Art und Weise, wie die Konstanten geschätzt werden! In der
Praxis führt das oft zu sehr ähnlichen Ergebnissen, aber nicht immer.
5 Ausblick
Im letzten Teil der Vorlesung werden (voraussichtlich) noch folgende Themen behandelt:
(i) Modellwahl und statistisches Lernen
(a) Variablenselektion (Cp , AIC, BIC,
R2 )
(b) Lasso
(c) Dimensionsreduktion / Hauptkompontenanalyse
(ii) Resampling
(a) Bootstrap
(b) Kreuzvalidierung
Literatur
Agresti, A. and Finlay, B. (1997). Statistical Methods for Social Sciences. Prentice Hall.
Fahrmeir, L., Kneib, T., and Lang, S. (2009). Regression: Modelle, Methoden und Anwendungen.
Springer, Berlin.
Georgii, H.-O. (2007). Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. de
Gruyter, Berlin.
James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An Introduction to Statistical Lear-
ning (with Applications in R). Springer, New York.
Le, C. T. (2003). Introductory biostatistics. John Wiley & Sons.
Witting, H. (1985). Mathematische Statistik I. Teubner.
43
Herunterladen