Lineare Modelle Quadratsummenzerlegung Zerlegung ohne

Werbung
Einführung und Beispiele
Vorlesung: Lineare Modelle
1
Das einfache lineare Regressionsmodell
2
Das multiple lineare Regressionsmodell
Prof. Dr. Helmut Küchenhoff
Institut für Statistik, LMU München
Quadratsummenzerlegung und statistische Inferenz im multiplen
linearen Regressionsmodell
SoSe 2014
Diskrete Einflußgrößen: Dummy- und Effektkodierung,
Mehrfaktorielle Varianzanalyse
Quadratsummenzerlegung
Zerlegung ohne Absolutglied
Gegeben sei das Modell (2.1) mit Design-Matrix X und
rg (X ) = p + 1 =: p 0 .
Die Zerlegung (3.2) setzt ein Absolutglied in der Regression voraus.
(3.1)
Dann gilt:
(Y − Ȳ )0 (Y − Ȳ ) = (Y − Ŷ )0 (Y − Ŷ ) + (Ŷ − Ȳ )0 (Ŷ − Ȳ )
|
{z
}
|
{z
} |
{z
}
SST
SSE
SSM
Helmut Küchenhoff (Institut für Statistik, LMU)
0
Y
Y =
|{z}
SST*
(3.2)
Interpretation:
SST : Gesamt-Streuung, (korrigierte) Gesamt-Quadratsumme, “Total”
SSE
: Fehler-Quadratsumme, “Error”
SSM : Modell-Quadratsumme, “Model”
Lineare Modelle SoSe 2014
Weitere Zerlegung, die nicht notwendig ein Absolutglied in der Regression
voraussetzt:
55 / 233
SST ∗
:
SSE
SSM ∗
:
:
0
(Y − Ŷ )0 (Y − Ŷ ) + Ŷ
Ŷ
|
{z
} |{z}
SSM*
SSE
(3.3)
nicht korrigierte Gesamt-Quadratsumme
Erfasst auch Abweichungen von Y = 0 und nicht nur von Ȳ .
Fehler-Quadratsumme, wie bei (3.2)
nicht korrigierte Modell-Quadratsumme
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
56 / 233
Nachweis der Quadratsummenzerlegung (3.3)
Nachweis der Quadratsummenzerlegung (3.2) I
Wir definieren:
Pe = e(e 0 e)−1 e 0 , Qe = I − Pe mit e = (1, 1, . . . , 1)0 .
Y 0 Y = Y 0 IY
(3.4)
Pe entspricht der Regression auf eine Konstante (E (Y ) = β0 )
= Y 0 (Q + P)Y
Pe Y =
Qe Y =
= Y 0 QY + Y 0 PY
= Y 0 Q 0 QY + Y 0 P 0 PY
= ε̂0 ε̂ + Ŷ 0 Ŷ
Ȳ
Y − Ȳ
( Mittelwert bilden“)
”
( Mittelwertsbereinigung“)
”
qed
(Y − Ȳ )0 (Y − Ȳ ) = Y 0 Qe0 Qe Y = Y 0 Qe Y
= Y 0 Qe (Q + P)Y = Y 0 Qe QY + Y 0 Qe PY
P und Q Projektionsmatrizen.
(∗)
= ...
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
57 / 233
Nachweis der Quadratsummenzerlegung (3.2) II
(∗)
Qe QY = Qe ε̂
Qe PQe PY
= Qe P Ŷ − Qe P Ȳ
58 / 233
Erwartungswerte der Quadratsummen
Wir betrachten das multiple Regressionsmodell (2.1) mit (2.2) bis (2.4)
und
Pe = e(e 0 e)−1 e 0 , Qe = I − Pe mit e = (1, 1, . . . , 1)0 .
= Qe PQe Ŷ = Qe P(Ŷ − Ȳ )
= Qe Ŷ − Qe Ȳ = Qe Ŷ − 0
↑
Regression auf Ŷ und Ȳ liefert Identität“
”
Dann gilt für die Erwartungswerte der Quadratsummen:
E (SST ∗ ) = E (Y 0 Y )
(Y − Ȳ )0 (Y − Ȳ ) = Y 0 Qe0 Qe Y = Y 0 Qe Y
0
E (SST ) = E (Y − Ȳ ) (Y − Ȳ )
= Y 0 Qe (Q + P)Y = Y 0 Qe QY + Y 0 Qe PY
(∗)
0
0
E (SSE ) = E (ε̂ ε̂)
0
= Y QY + Y Qe PQe PY
∗
= ε̂0 ε̂ + Y 0 P 0 Qe PY
0
= (Ŷ − Ȳ ) (Ŷ − Ȳ )
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
= ε̂ = QY
↑
Residuen haben Mittelwert 0“
”
(∗)
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
59 / 233
0
=
=
=
E (SSM ) = E (Ŷ Ŷ )
=
E (SSM) = E (Ŷ − Ȳ )0 (Ŷ − Ȳ )
=
Lineare Modelle SoSe 2014
σ2 n + β 0 X 0 X β
0
2
(3.5)
0
σ (n − 1) + β (Qe X ) (Qe X )β (3.6)
σ 2 (n − p 0 )
2 0
0
(3.7)
0
σ p + β X Xβ
(3.8)
σ 2 p + β 0 (Qe X )0 (Qe X )β
(3.9)
Helmut Küchenhoff (Institut für Statistik, LMU)
60 / 233
Bemerkungen
1
2
3
Beweisidee
Die stochastischen Eigenschaften der Quadratsummen werden zur
Konstruktion von Tests bezüglich β genutzt
β = 0 =⇒ E (Y 0 Y ) = σ 2 n
Allgemein berechnet man den Erwartungswert von quadratischen Formen
wie folgt:
E (Y 0 AY )
2
β1 , ...βp = 0 =⇒ E (SSM) = σ p
i=1 j=1
=
Zum Nachweis von 3. benutzt man, dass Qe der
Mittelwertsbereinigungs- Operator“ ist:
”
=
V (Y )
Qe x = (I − Pe )x = x − x̄
Helmut Küchenhoff (Institut für Statistik, LMU)
61 / 233
Mittlere Quadratsummen
i=1 j=1
aij E (Yi )E (Yj ) +
i=1 j=1
0
n X
n
X
aij Cov (Yi , Yj )
i=1 j=1
E (Y ) AE (Y ) + Sp(AV (Y ))
Varianz-Kovarianzmatrix von Y
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
62 / 233
Verteilungsdefinitionen
Wir definieren entsprechend der Zahl der Freiheitsgrade die mittleren
Quadratsummen:
Lineare Modelle SoSe 2014
:=
n X
n
X
Unter Benutzung von Sp(AV (Y )) = sp(A) ∗ σ 2 = rang (A) ∗ σ 2 für
Projektionsmatrizen erhält man obige Identitäten.
Die erste Spalte von Qe X ist also der Nullvektor.
Lineare Modelle SoSe 2014
=


n X
n
n X
n
X
X
E
aij Yi Yj  =
aij E (Yi Yj )
MST ∗
:=
MST
:=
MSE
:=
MSM ∗
:=
MSM
:=
SST ∗
n
SST
n−1
SSE
n − p0
SSM ∗
p0
SSM
p
Helmut Küchenhoff (Institut für Statistik, LMU)
Normalverteilung
(3.10)
(3.11)
(3.12)
(3.13)
(3.14)
63 / 233
Ein n-dimensionaler Zufallsvektor Z heißt multivariat normalverteilt,
falls für seine Dichtefunktion gilt:
1
1
0 −1
p
fz (z) = √
exp − (z − µ) Σ (z − µ)
(3.15)
2
det Σ (2π)n
mit positiv definiter, symmetrischer Matrix Σ.
Bezeichnung:
Lineare Modelle SoSe 2014
Z ∼ Nn (µ, Σ)
Helmut Küchenhoff (Institut für Statistik, LMU)
64 / 233
Eigenschaften der Normalverteilung
Chi-Quadrat-Verteilung I
Ist Z ∼ Nn (µ, Σ), so gilt:
1
Momente:
E (Z )
V (Z )
2
=
=
µ
Σ
Ist Z ∼ Nn (µ, I ) so heißt X = Z 0 Z (nicht-zentral) Chi-Quadrat-verteilt.
Lineare Transformationen:
Ist A : R n −→ R m eine lineare Tranformation mit rg (A) = m
=⇒ AZ ∼ Nm (Aµ, AΣA0 )
3
(3.16)
Orthogonale Transformation in unabhängige Komponenten
(Spektralzerlegung)
Es existiert eine Matrix T ∈ R n×n mit T 0 T = I und
T ΣT 0 = diag (λ1 , . . . , λn ), so dass
TZ ∼ Nn (T µ, diag (λ1 , . . . , λn )) gilt.
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
X ∼ χ2 (n, δ)
Bezeichnung:
n:
δ := µ0 µ:
Zahl der Freiheitsgrade
Nichtzentralitätsparameter
Im Fall δ = 0 erhält man die zentrale χ2 (n)-Verteilung.
(3.17)
65 / 233
Chi-Quadrat-Verteilung II
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
66 / 233
t-Verteilung
Seien Z und W voneinander unabhängige Zufallsgrößen mit
Z
Eigenschaften: Ist X ∼ χ2 (n, δ), so gilt:
1
2
W
Momente:
∼ χ2 (n).
Dann heißt X = √ZW (nicht-zentral) t-verteilt.
E (X )
= n+δ
V (X )
=
n
2n + 4δ
Bezeichnung:
X ∼ t(n, δ)
n: Zahl der Freiheitsgrade,
δ: Nicht-Zentralitätsparameter
Allgemeiner Bezug zur Normalverteilung
Z ∼ Nn (µ, Σ)
Lineare Modelle SoSe 2014
∼ N(δ, 1),
=⇒ Z 0 Σ−1 Z ∼ χ2 (n, µ0 Σ−1 µ)
Helmut Küchenhoff (Institut für Statistik, LMU)
(3.18)
Erwartungswert: Ist X ∼ t(n, δ),so gilt:
r
n Γ( n−1
2 )
E (X ) = δ
n
2 Γ( 2 )
67 / 233
Lineare Modelle SoSe 2014
für n > 1.
Helmut Küchenhoff (Institut für Statistik, LMU)
(3.19)
68 / 233
F-Verteilung
Unabhängigkeit von Quadratsummen (Satz von Cochran)
Seien W1 und W2 voneinander unabhängige Zufallsgrößen mit
∼ χ2 (n1 , δ)
W1
Dann heißt X =
W1 /n1
W2 /n2
Sei Z ∼ N(µ, I ), dim Z = n,
A ∈ R n×n , A0 = A, rg (A) = r , A2 = A,
B ∈ R n×n , B 2 = B, B = B 0 ,
C ∈ R m×n .
∼ χ2 (n2 )
W2
(nicht-zentral) F-verteilt.
Dann gilt:
Bezeichnung:
X ∼ F (n1 , n2 , δ)
n1 : Zählerfreiheitsgrade
n2 : Nennerfreiheitsgrade
δ:
Nichtzentralitätsparameter
Z 0 AZ ∼ χ2 (r , µ0 Aµ)
0
CA = 0 =⇒ CZ und Z AZ sind unabh.
0
0
AB = 0 =⇒ Z AZ und Z BZ sind unabh.
(3.21)
(3.22)
(3.23)
Erwartungswert: Ist X ∼ F (n1 , n2 , δ), so gilt:
E (X ) =
Lineare Modelle SoSe 2014
n2
(1 + δ/n1 ) für n2 > 2.
n2 − 2
Helmut Küchenhoff (Institut für Statistik, LMU)
(3.20)
69 / 233
Beweis von (3.21)
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
70 / 233
Beweis von (3.22) und (3.23)
Spektralzerlegung von A (3.17)
A = T ΣT 0
Cov (CZ , Z 0 A) = CCov (Z , Z 0 )A = CA = 0

1



Σ=


|
⇒ Z 0 AZ = Z 0 T ΣT 0 Z
..

.
1
0
{z
r
}






0
Damit sind CZ und Z 0 A unabhängig (NV-Annahme!)
⇒ CZ und (Z 0 A)(Z 0 A)0 = Z 0 AZ unabh.
da A = A
Cov (AZ , Z 0 B) = ACov (Z , Z 0 )B = AB = 0
Damit sind AZ und Z 0 B unabhängig (NV-Annahme!)
⇒ (AZ )0 (AZ ) = Z 0 AZ und (Z 0 B)(Z 0 B)0 = Z 0 BZ unabh.
Var (T 0 Z ) = T 0 IT = I
Pr
⇒ Z 0 AZ = ZeΣZ = i=1 zei2 ∼ χ2 (r , µ0 Aµ)
Lineare Modelle SoSe 2014
qed
2
Helmut Küchenhoff (Institut für Statistik, LMU)
71 / 233
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
qed
72 / 233
Verteilung des KQ-Schätzers unter Normalverteilung
Sei multiples Regressionsmodell (2.1) mit (2.5) und rg (X ) = p 0 gegeben.
Für den KQ-Schätzer β̂ gilt:
β̂
Σ̂β̂
N(β, σ 2 (X 0 X )−1 )
∼
2
:=
0
(3.24)
−1
(3.25)
0
σ̂ (X X )
σ̂ 2
(n − p ) 2
σ
σ̂ und β̂
∼
χ (n − p )
(3.26)
sind
(3.27)
σ̂β̂k
:=
unabhängig
√
ckk σ̂,
0
2
(3.28)
Beweis
(3.24) (Normalverteilung von β) folgt aus Eigenschaften der NV (3.16)
(3.26) folgt aus (3.21), da σ̂ 2 =
rg (Q) = sp(Q)
∼
Lineare Modelle SoSe 2014
0
t(n − p , 0)
1
0
n−p 0 Y QY
C ∈ R p×n , CA = 0 =⇒ CZ und Z 0 AZ sind unabh.
mit
C := (X 0 X )−1 X 0 , A := Q, Z := Y
CA = (X 0 X )−1 X 0 Q = (X 0 X )−1 X 0 (I − P) =
(3.29)
Helmut Küchenhoff (Institut für Statistik, LMU)
=
(3.27) folgt aus (3.22):
(ckk entspr. Diagonalelement von (X 0 X )−1 )
β̂k − βk
σ̂β̂k
1
0
n−p 0 ε̂ ε̂
73 / 233
Overall-Tests
(X 0 X )−1 X 0 − (X 0 X )−1 X 0 X (X 0 X )−1 X 0 = 0.
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
74 / 233
Overall Test mit β0 = 0
Sei Modell (2.1) mit (2.5) und rg (X ) = p 0 gegeben. Dann gilt für die
mittlere Quadratsummen:
FO =
MSM
MSE
∼ F (p, n − p 0 , σ −2 β 0 (Qe X )0 (Qe X )β)
(3.30)
(3.30) folgt aus (3.21) und (3.23) mit
MSM
MSE
QP − QPe = 0
Helmut Küchenhoff (Institut für Statistik, LMU)
∼ F (p 0 , n − p 0 , σ −2 β 0 (X 0 X )β)
(3.32)
Lehne H0O∗ ab, falls
= SSE /(n − p 0 ) = Y 0 QY /(n − p 0 )
F0∗ > F1−α (p 0 , n − p 0 )
Die Verteilung wird zur Konstruktion des folgenden Tests benutzt:
H0O : β1 = β2 = · · · = βp = 0
Lehne H0O ab, falls
FO > F1−α (p, n − p 0 )
(3.31)
Lineare Modelle SoSe 2014
MSM ∗
MSE
H0O∗ : β0 = β1 = · · · = βp = 0
= SSM/p = Y 0 (P − Pe )Y /p
Q(P − Pe ) =
FO∗ =
75 / 233
(3.33)
F1−α (p, n − p 0 ) : (1 − α)-Quantil der zentralen F (p, n − p 0 )–Verteilung.
Dieser Test wird nur in Ausnahmefällen angewendet.
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
76 / 233
Lineare Hypothesen
Allgemeine lineare Hypothese, Wald-Test
0
Es sollen Hypothesen, die sich mit Hilfe linearer Transformationen von β
darstellen lassen, betrachtet werden:
A∈R
a×(p+1)
a
,c ∈ R ,
Sei das Modell (2.1) mit (2.5) und A ∈ R a×p , rg (A) = a, c ∈ R a
gegeben.
V (Aβ̂ − c)
SSH
σ
Aβ = c mit rg (A) = a
−2
Beispiele:
p = 2 β1 = β2
↔ A=
p = 4 β 3 = β4 = 0 ↔ A =
p = 4 β2 = 3 β 3 + β4 = 1 ↔ A =
0
1
0
0
0
0
0
0
0
0
−1
0
0
1
0
,c = 0
1 0
,c = 0
0 1
0 0
3
,c =
1 1
1
MSH
MSE
=
:=
SSH
∼
MSH
:=
∼
σ 2 A(X 0 X )−1 A0
0
(3.34)
0
(Aβ̂ − c) (A(X X )
2
χ (a, σ
SSH
a
−2
−1
0
0 −1
A)
0
(Aβ̂ − c)
(Aβ − c) (A(X X )
−1
0 −1
A)
(3.35)
(Aβ − c)) (3.36)
(3.37)
F (a, n − p 0 , σ −2 (Aβ − c)0 (A(X 0 X )−1 A0 )−1 (Aβ − c)) (3.38)
SSH: Quadratsumme, die die Abweichung von der Hypothese Aβ = c
beschreibt.
Test nach Wald: H0 : Aβ = c. Lehne H0 ab, falls:
TF = MSH/MSE > F1−α (a, n − p 0 )
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
77 / 233
Overall-Test und zweiseitiger t-Test
Lineare Modelle SoSe 2014
(3.39)
Helmut Küchenhoff (Institut für Statistik, LMU)
78 / 233
Lineare Hypothese und Modell mit Restriktion
Die Overall-Tests aus (3.31) und (3.33) sind spezielle Wald-Tests.
Wir betrachten das lineare Modell mit der linearen Restriktion Aβ = c.
ˆ gekennzeichnet.
Alle Schätzungen aus diesem Modell werden mit ˆ
Nachweis von (3.33) erfolgt direkt, da hier A = I ist.
Wir lösen das Minimierungsproblem:
Der Nachweis von (3.31) erfolgt später.
(y − X β)0 (y − X β) → min
S(β, λ) = (y − X β)0 (Y − X β) + 2λ0 (Aβ − c)
λ ist der Vektor der Lagrange-Multiplikationen.
Der Nachweis erfolgt direkt unter Benutzung von A = (0 · · · 1 · · · 0)
Helmut Küchenhoff (Institut für Statistik, LMU)
Aβ = c
mit der Lagrange-Methode:
Der mit Hilfe von (3.29) konstruierte zweiseitige Test auf βk = βk0 ist
ebenfalls ein Wald-Test.
Lineare Modelle SoSe 2014
unter
79 / 233
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
80 / 233
ˆ
Berechnung der Lösung β̂
∂S
∂β
∂S
∂λ
0
=
0 ⇔ −2X 0 Y + 2X 0 X β̂ˆ + 2A0 λ = 0
=
0 ⇔ Aβ̂ˆ = c
Aλ
=
(X 0 X )−1 A0 λ
=
⇒ A(X 0 X )−1 A0 λ
=
⇒λ
(∗) ⇒ β̂ˆ
w
Lineare Modelle SoSe 2014
Darstellung von SSH
=
=
:=
ˆ
Ŷ
ε̂ˆ =
ˆ
X Y − X X β̂ | · (X 0 X )−1
β̂ − β̂ˆ | · A (∗)
0
0
(A(X 0 X )−1 A0 )−1 (Aβ̂ − c)
0
−1
β̂ − (X X )
0
(X X )
ˆ0 ˆ
⇒ ε̂ ε̂ =
=
⇒ SSH
ˆ
(Aβ̂ = c)
Aβ̂ − c
−1
0
0
−1
−1
0 −1
A [A(X X )
0
0
A [A(X X )
0 −1
A]
A]
=
=
ˆ
X β̂ = Ŷ − Xw
ˆ
Y − Ŷ = ε̂ + Xw
ε̂0 ε̂ + w 0 X 0 Xw (da X 0 ε̂ = 0)
ε̂0 ε̂ + (Aβ̂ − c)0 [A(X 0 X )−1 A0 ]−1 (Aβ̂ − c)
ε̂ˆ0 ε̂ˆ − ε̂0 ε̂
Damit haben wir eine andere Möglichkeit, SSH aus den
Residuenquadratsummen zu berechnen.
(Aβ̂ − c)
(Aβ̂ − c)
Helmut Küchenhoff (Institut für Statistik, LMU)
81 / 233
Lineare Hypothese (alternative Durchführung)
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
82 / 233
Spezialfall: Overall - Test
0
Sei das Modell (2.1) mit (2.5) und A ∈ R a×p , rg (A) = a, c ∈ R a
gegeben.
Overall- Test
H0 : Aβ = c
H0O : β1 = β2 = . . . = βp = 0
Berechne SSE des Modells und des Modells unter H0 :
SSE
SSE (H0 )
ε̂0 ε̂0
:= ε̂ˆ0 ε̂ˆ
=
SSH
=
MSH
=
TF
TF
SSE (H0 ) − SSE
Das Modell unter H0 ist y = β0
(3.40)
(3.41)
SSE (H0 )
SSH/a
(SSE (H0 ) − SSE )/a
:= MSH/MSE =
SSE /(n − p 0 )
∼ F (a, n − p 0 ) unter H0
SSH
(3.42)
=
ˆ0 )0 (Y − βˆ
ˆ0 ) = SST
(Y − βˆ
= SSE (H0 ) − SSE = SSM
Damit entspricht hier der Wald -Test dem Test (3.31)
(3.43)
Das Vorgehen entspricht dem Wald- Test (3.39).
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
83 / 233
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
84 / 233
Beispiel: Welche Faktoren stehen in Zusammenhang
Weglassen von Einflussgrößen
mit den Fehlern bei einem Lesetest
Lineare Hypothese:
Daten von Christa Kieferle (Pädagogik, LMU)
Daten von 180 Kindern aus den 8 Klassen (3. und 4. Klassen
Grundschule)
H0 : βk = βk+1 = . . . = βp = 0
Das Modell unter H0 ist M1:
y = β0 + β1 x1 + . . . + βk−1 xk−1
Zielgröße:
Anzahl der Fehler bei einem Lesetest
SSE (H0 )
potentielle Einflussgrößen:
Geschlecht, Jahrgang, Leseförderzeit, sonstiges lesen (1= oft,.. 5= fast
nie), Gameboy (1= oft,.. 5= fast nie), Jahrgang.
SSH
= SSE (M1)
= SSE (M1) − SSE
Vergleich der SSE der beiden Modelle.
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
85 / 233
Modell
Helmut Küchenhoff (Institut für Statistik, LMU)
86 / 233
Auswertung
Y = β0 +β1 ∗GE +β2 ∗JG +β3 ∗LZ +β4 ∗WOL+β5 ∗WOG +β6 ∗WOTV
Y:
GE:
JG:
LZ:
WOL:
WOG:
WOTV:
Lineare Modelle SoSe 2014
Anzahl der Fehler
Indikator für männlich (= 1 für männlich, 0 sonst)
Indikator für Klassenstufe (=1 für 3. Klasse, 0 für 4.Klasse)
Lesezeit in der Schule
Wie oft wird sonst gelesen
Wie oft wird Gameboy gespielt
Wie oft TV
Interpretation der Parameter, z.B β1 : Geschlechtsunterschied
Helmut Küchenhoff (Institut für Statistik, LMU)
Schätzung des Gesamtmodells
2
Gibt es einen Zusammenhang zwischen den Variablen WOL, WOG,
WOTV und Y ?
3
Ist der Einfluss von WOG und WOTV auf die Fehlerzahl gleich ?
4
Gibt es einen Zusammenhang von Lesezeit und WOL und der
Fehlerzahl ?
5
Wie lässt die Assoziation zur Lesezeit quantifizieren?
Fragen 2-4 lassen sich als lineare Hypothesen in dem Modell formulieren.
Fragen 1 und 5 betreffen die Schätzung des Modells.
Annahme: Bei WOL ist der durchschnittliche Unterschied in der
Fehlerzahl zwischen den Stufen 1-5 gleich groß (Änderung um 1
entspricht β4
Lineare Modelle SoSe 2014
1
87 / 233
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
88 / 233
Reparametrisierung des Modells unter linearer Restriktion
Wir betrachten das Modell (2.1) mit (2.5) unter der linearen Restriktion
0
Aβ = c mit A ∈ R a×p , rg (A) = a, c ∈ R a .
0
0
0
Dann gibt es Matrizen B ∈ R p ×(p −a) und d ∈ R p mit:
V
=
Zγ + ε
(3.44)
V
:= Y − Xd
(3.45)
Z
:= XB
(3.46)
Das Modell ist das reparametrisierte Modell mit:
V = Y − Xd ∈ R n
0
Z , Z ∈ R n×(p −a) ; rgZ = p 0 − a
0
γ ∈ R p −a
ε stimmt mit dem aus dem Grundmodell überein!
Zielgröße:
Design-Matrix:
Parameter:
Störterm :
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
89 / 233
ML-Schätzung
Zusammenhang Reparametrisierung und Modell
unter linearer Restriktion
Es gilt:
β̂ˆ = B γ̂ + d
SSH = ε̂ˆ0 ε̂ˆ − ε̂0 ε̂
β̂ˆ :
mit γ̂ :
ε̂ˆ :
(3.48)
KQ-Schätzer unter Restriktion Aβ = c
KQ-Schätzer aus Modell (3.44)
Residuenvektor aus Modell (3.44) =
Residuenvektor aus KQ-Schätzung unter Restriktion.
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
90 / 233
Likelihood Quotienten-Test
Die maximierte Likelihood des Modells ist:
"
n
X
ε̂2i
−n/2
−n
(2π)
· σ̂ · exp −
2σ̂ 2
i=1
Grundidee des Likelihood-Quotienten-Tests:
Vergleiche (Bilde den Quotienten) maximierte Likelihood des Modells
unter H0 mit maximierter Likelihood ohne H0
#
Wir betrachten also den ML - Schätzer mit und ohne die Restriktion
Aβ = c:
Es folgt (siehe Nachweis ML = KQ aus Kapitel 1)
P
ε̂2i
n
MaxL = C ∗ σ̂ n = C ∗ (SSE /n)(n/2)
σ̂ 2
=
(3.49)
ε̂ˆ :
Residuen unter dem Modell mit H0
ε̂ :
Residuen unter dem Modell ohne Einschränkung
Die LQ- Teststatistik lautet dann:
(3.50)
τLQ =
Lineare Modelle SoSe 2014
(3.47)
Helmut Küchenhoff (Institut für Statistik, LMU)
91 / 233
Lineare Modelle SoSe 2014
ˆ
σ̂
σ̂
!−n
=
ε̂ˆ0 ε̂ˆ
ε̂0 ε̂
!−n/2
Helmut Küchenhoff (Institut für Statistik, LMU)
(3.51)
92 / 233
Wald-Test ist Likelihood-Quotienten-Test
Beweis
0
Sei das Modell (2.1) mit (2.5) und A ∈ R a×p , rg (A) = a, c ∈ R a
gegeben.
Damit ist τLQ eine monotone Funktion der Testgröße des Wald-Tests:
H0 : Aβ = c gegen H1 : Aβ 6= c
(ε̂ˆ0 ε̂ˆ − ε̂0 ε̂)/a
MSH
= 0
=: τW
MSE
ε̂ ε̂/(n − p 0 )
Dann ist der Wald-Test zu dem Likelihood-Quotienten-Test äquivalent,
d. h. :
Die Testgröße des LQ-Tests ist eine streng monotone Funktion der
Testgröße des Wald-Tests:
τLQ
=
g
MSH
MSE
⇒ τW ·
a
+1
(n − p)0
−n/2
= τLQ
(3.52)
g streng monoton
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
93 / 233
Sequentielle und Partielle Quadratsummen
M2:
M1:
SSH:
(3.53)
Helmut Küchenhoff (Institut für Statistik, LMU)
94 / 233
Die zu der Hypothese βi = 0 gehörigen Quadratsummen bzgl. des
Gesamtmodells heißen partielle Quadratsummen:
R(βi |β0 , . . . βi−1 , βi+1 , . . . , βp ) = SSE (M−i ) − SSE
(3.54)
M−k : Modell mit βk = 0.
Beachte: Die partiellen Quadratsummen führen im Allgemeinen zu keiner
Zerlegung von SST, d.h.
Modell, das die Parameter βi1 , . . . , βik , βj1 , . . . , βjl enthält.
Modell, das die Parameter βj1 , . . . , βjl enthält.
Hypothesenquadratsumme zur Hypothese
(βi1 = . . . = βik = 0) im Modell M2.
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
Partielle Quadratsummen
Gegeben sei das Modell (2.1). Wir betrachten nun Teilmodelle, die durch
Nullrestriktionen von Komponenten des Vektors β entstehen und deren
Residuenquadratsummen.
R(βi1 , . . . , βik |βj1 , . . . , βjl ) = SSH = SSE (M1) − SSE (M2)
Lineare Modelle SoSe 2014
SST 6=
95 / 233
Lineare Modelle SoSe 2014
p
X
k=1
R(βk |β0 , . . . , βk−1 , βk+1 , . . . , βp ) + SSE
Helmut Küchenhoff (Institut für Statistik, LMU)
(3.55)
96 / 233
Sequentielle Quadratsummen
Bereinigung
Wir betrachten die Folge von Modellen:
Wir betrachten folgende Zerlegung des Modells (2.1):
M0 :
Y = β0 + ε
(3.56)
M1 :
Y = β0 + β1 x 1 + ε
(3.57)
Mp :
···
Y
Y = Xβ + ε
heißen sequentielle Quadratsummen und es gilt:
SST =
k=1
Lineare Modelle SoSe 2014
R(βk |β0 , . . . , βk−1 ) + SSE
(3.60)
Helmut Küchenhoff (Institut für Statistik, LMU)
97 / 233
Beweis von (3.67) I
Y = X1 β1 + X2 β2 + ε
=
(X1 X2 )(β10 β20 )0
0
−1 0
Q2
:=
∗
X1∗
=⇒
Xβ + ε
=
Y
(3.59)
=
β̂
(3.58)
R(βk |β0 , . . . , βk−1 ) = SSE (Mk−1 ) − SSE (Mk )
p
X
Y
β̂1
+ ε = X1 β1 + X2 β2 + ε
(X X ) X Y = (β̂10 , β̂20 )0
I − X2 (X20 X2 )−1 X20
(3.62)
(3.63)
(3.64)
:= Q2 Y
(3.65)
:= Q2 X1
(3.66)
(X1∗ 0 X1∗ )−1 X1∗ 0 Y ∗
=
(3.67)
Y ∗ , X1∗ : von X2 bereinigte Variablen
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
98 / 233
Beweis von (3.67) II
X = (X1 X2 )
β=
β1
β2
Q2 Y
=
KQ:
Y = X1 β̂1 + X2 β̂2 + ε̂
Q2 X1 β̂1 + Q2 X2 β̂2 + Q2 ε̂
| {z }
|{z}
0
Q2 QY
| {z }
Q
Q2 = I − P2 = I − X2 (X20 X )−1 X20
⇒ Q2 Y
Y
Es gilt: Q2 Q = (I − P2 )(I − P) = I − P2 − P + P2 P = I − P = Q
|{z}
P2
∗
=
=
Q2 X1 β̂1 + ε̂
X1∗ β̂1 + ε̂
Bereinigte Variablen
X1∗ 0 ε̂ = (Q2 X1 )0 ε̂ = X10 Q2 Q ε̂ = X10 ε̂ = 0
(Residuen von Regression auf (Y1 Y2 ) und Residuen bzgl. Y2 )
Analog: QQ2 = Q
Lineare Modelle SoSe 2014
(3.61)
⇒ β̂1 ist KQ-Lösung der Regression von Y* auf X*.
Helmut Küchenhoff (Institut für Statistik, LMU)
99 / 233
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
100 / 233
Beispiele zur Bereinigung
Beispiel:
Zusammenhang zwischen Fehleranzahl bei
Test zu starken Verben
Mittelwerts-Bereinigung beim einfachen linearen Regressionsmodell
0∗
∗ −1
(X X )
X2
=
(1 . . . 1)0
X1
=
(x1 . . . xn )0
Y∗
=
X1∗
=
Y − ȳ
∗
=
0∗
X Y
Zielgröße :
Einflussgrößen :
Anzahl der Fehler bei Test
Geschlecht Alter Leseverhalten, Fernsehverhalten, etc.
Regression auf binäre Variable Geschlecht entspricht
Mittelwertsschätzung
x − x̄
Bereinigung nach Geschlecht: Abziehen des jeweiligen
Gruppenmittelwertes
Sx−2 Sxy
Geschlechtseffekt, Trendbereinigung
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
101 / 233
Bonferroni-Konfidenzintervalle
(3.68)
102 / 233
Sei das Modell (2.1) mit NV-Annahme (2.5) gegeben.
Dann ist
n
o
β | (β − β̂)0 (X 0 X )(β − β̂) ≤ p 0 σ̂ 2 F1−α (p 0 , n − p 0 )
(3.70)
eine Konfidenzregion für β.
simultane Konfidenzintervalle zum Sicherheitsniveau 1 − α:
P(es gibt l : |βil − β̂il | > σ̂βil t1−α/2k (n − p 0 )) ≤ α
Helmut Küchenhoff (Institut für Statistik, LMU)
Konfidenzellipsoide
Gegeben sei das Modell (2.1) mit der Normalverteilungsannahme (2.5).
Dann sind für die Parameter βi1 , . . . , βik
β̂il ± σ̂β̂il t1−α/2k (n − p 0 ), l = 1, . . . , k
Lineare Modelle SoSe 2014
(3.69)
Die Parameter βil können durch Linearkombinationen γl = a0 β mit den
entsprechenden geschätzten Standardabweichungen ersetzt werden.
Entsprechendes gilt für lineare Transformationen γ = Aβ:
−1
0[
0
γ | (γ − γ̂) V (γ̂) (γ − γ̂) < dim γ · F1−α (dim(γ), n − p ))
ist Konfidenzregion zum Sicherheitsniveau 1 − α.
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
103 / 233
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
104 / 233
Konfidenzintervalle nach Scheffe
Sei Modell (2.1) mit NV-Annahme (2.5) gegeben.
Dann sind
p
β̂j ± p 0 F1−α (p 0 , n − p 0 ) σ̂β̂j
Bemerkungen
Die KIs nach Scheffe sind bei einer Vielzahl von Parametern sinnvoll
(3.71)
Es gibt in Analogie zu den KIs einen entsprechenden multiplen Test
für die Parameter βj und
γ̂ ±
p
p 0 F1−α (p 0 , n − p 0 ) σ̂γ̂
für beliebige Linearkombinationen γ = a0 β simultane Konfidenzintervalle.
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
Die KIs nach Scheffe sind z.B zur Bestimmung von simultanen
Konfidenzregionen für Y geeignet
105 / 233
Das Gauss-Markov-Theorem
Allgemeine Strategie für KI siehe Hothorn, Bretz und Westfall:
Simultaneous inference in general parametric models. Biometrical
Journal, 2008; R-package multcomp“
”
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
106 / 233
Konsistenz des KQ–Schätzers I
Sei das Modell
Y
= X β + ε,
E (ε)
=
V (ε)
= σ2 I
Sei das Modell (2.1) - (2.4) gegeben. Wir betrachten nun das Modell mit
steigendem Stichprobenumfang n. Da die Einflussgrößen fest sind, gehen
wir von einer gegebenen Folge xn der Einflussgrößen aus.
rg X = p 0
0
gegeben.
Dann ist der KQ-Schätzer β̂ unter den erwartungsteuen linearen
Schätzern derjenige mit der kleinsten Varianz: β̂ ist BLUE-Schätzer (best
linear unbiased estimator).
Sei zu jedem n > p 0
Xn
β̂ (n)
:
:
Designmatrix, die aus den ersten n Beobachtungen besteht
KQ- Schätzer aus den ersten n Beobachtungen
Vor.: Xn hat vollen Rang für alle n ≥ p
Ist β̃ ein weiterer Schätzer von β mit E (β̃) = β und β̃ = CY , so gilt:
lim (Xn0 Xn )−1 = 0.
n→∞
V (β̃) ≥ V (β̂)
V (β̃) ≥ V (β̂) ⇔ V (β̃) = V (β̂) + M mit M positiv semidefinit.
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
107 / 233
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
108 / 233
Konsistenz des KQ–Schätzers II
Asymptotische Normalität des KQ–Schätzers
Sei das Modell (2.1) - (2.4) gegeben.
Dann folgt die schwache Konsistenz des KQ-Schätzers (Konvergenz in
Wahrscheinlichkeit):
P
β̂ (n) −→ β.
(3.72)
f.s.
Xn
β̂ (n)
:
:
Designmatrix, die aus den ersten n Beobachtungen besteht.
KQ- Schätzer aus den ersten n Beobachtungen
Vor.: Xn hat vollen Rang für alle n ≥ p
Sind die Störgrößen zusätzlich identisch verteilt, so folgt die starke
Konsistenz (fast sichere Konvergenz)
β̂ (n) −→ β.
Sei zu jedem n > p 0
lim max xi0 (Xn0 Xn )−1 xi = 0.
n→∞ 1≤i≤n
(3.73)
Dann folgt die asymptotische Normalität von β
d
σ −1 (Xn0 Xn )1/2 (β̂ (n) − β) −→ N(0, I ).
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
109 / 233
Lineare Modelle SoSe 2014
Helmut Küchenhoff (Institut für Statistik, LMU)
(3.74)
110 / 233
Herunterladen