Lineare Modelle Das allgemeine lineare Modell Der

Werbung
5
Metrische Einflußgrößen: Polynomiale Regression,
Trigonometrische Polynome, Regressionssplines,
Transformationen.
6
Modelldiagnose
7
Variablenselektion
8
Das allgemeine lineare Modell: Gewichtete KQ-Methode,
Autokorrelierte und heteroskedastische Störterme
10
Das logistische Regressionsmodell
11
Das gemischte lineare Regressionsmodell ( Linear mixed
”
Model“)
Vorlesung: Lineare Modelle
Prof. Dr. Helmut Küchenhoff
Institut für Statistik, LMU München
SoSe 2015
Das allgemeine lineare Modell
Der gewichtete KQ-Schätzer
Das lineare Modell mit heteroskedastischen Störgrößen ist gegeben durch:
:= (X 0 V −1 X )−1 X 0 V −1 Y
β̂W
Y
= Xβ + ε
(8.1)
ε
2
(8.2)
V
∼ N(0, σ V )
=
diag(v1 , v2 , . . . , vn )
(8.3)
V bekannte Matrix zur Beschreibung der Varianzstruktur
−1/2
Gewichtsmatrix: W = V −1/2 = diag (v1
Lineare Modelle SoSe 2015
−1/2
, v2
−1/2
, . . . , vn
Helmut Küchenhoff (Institut für Statistik, LMU)
σ̂
2
=
0
(ε̂ V
−1
0
ε̂)/(n − p )
(8.5)
β̂W ist ML-Schätzer und minimiert die gewichtete
Residuenquadratsumme
(Y − X β)0 V −1 (Y − X β).
)
187 / 240
(8.4)
Lineare Modelle SoSe 2015
Helmut Küchenhoff (Institut für Statistik, LMU)
(8.6)
188 / 240
Herleitung durch Transformation
Verallgemeinerte KQ-Methode
Das lineare Modell mit allgemeiner Varianzstruktur ist gegeben durch:
Das Modell (8.1)-(8.3) lässt sich in ein gewöhnliches lineares Modell
transformieren:
Y
Y
∗
:= WY
(8.7)
X
∗
:= WX
(8.8)
ε∗
:= W ε
(8.9)
Xβ + ε
(8.12)
ε ∼
2
(8.13)
N(0, σ V )
V ∈ R n×n : beliebige bekannte Kovarianzmatrix mit vollem Rang
Dann gibt es eine invertierbare Matrix T mit
Dann gilt:
TT 0 = V , W = T −1 Gewichtsmatrix.
Y∗
= X ∗ β + ε∗
∗
2
∼ N(0, σ I )
ε
(8.10)
(8.11)
Der verallgemeinerte KQ-Schätzer ist gegeben durch:
σ̂
Helmut Küchenhoff (Institut für Statistik, LMU)
:= (X 0 V −1 X )−1 X 0 V −1 Y
β̂W
β̂W ist KQ-Schätzer im transformierten Modell
Lineare Modelle SoSe 2015
=
189 / 240
Lineare Modelle SoSe 2015
2
=
0
(ε̂ V
−1
0
ε̂)/(n − p )
Helmut Küchenhoff (Institut für Statistik, LMU)
(8.14)
(8.15)
190 / 240
Eigenschaften des verallgemeinerten KQ-Schätzers
Das Modell (8.12)-(8.13) lässt sich wie oben in ein gewöhnliches lineares
Modell transformieren:
Gegeben sei das Modell (8.12) bis (8.13).
Y∗
:= WY
(8.16)
∗
:= WX
(8.17)
ε∗
:= W ε
(8.18)
= X ∗ β + ε∗
(8.19)
X
Dann gilt:
E (β̂W )
V (β̂W )
= β
(8.21)
2
0
= σ (X V
−1
X)
−1
(8.22)
Dann gilt:
Y∗
∗
ε
Lineare Modelle SoSe 2015
2
∼ N(0, σ I )
Helmut Küchenhoff (Institut für Statistik, LMU)
(8.20)
191 / 240
Alle Testverfahren und Quadratsummenzerlegungen lassen sich im Modell
Y ∗ = X ∗ β + ε∗ betrachten und damit auf den Fall homogener Varianzen
zurückführen.
Lineare Modelle SoSe 2015
Helmut Küchenhoff (Institut für Statistik, LMU)
192 / 240
Allgemeines Gauss-Markov-Theorem
Beispiele für Varianzstrukturen
Sei das Modell
Y
E (ε)
V (ε)
= X β + ε,
=
rg X = p 0
0
AR(1) (allgemeine Zeitreihenstruktur)
2
= σ V
Longitudinale Daten (Mehrdimensionale Zeitreihen) Blockdiagonale
Struktur
gegeben.
Symmetrische Struktur (gemischte Modelle)
Dann ist β̂W unter den erwartungstreuen linearen Schätzern derjenige
mit der kleinsten Varianz:
β̂W ist BLUE-Schätzer (best linear unbiased estimator).
Lineare Modelle SoSe 2015
Helmut Küchenhoff (Institut für Statistik, LMU)
193 / 240
Weitere Schätzstrategien
Lineare Modelle SoSe 2015
Helmut Küchenhoff (Institut für Statistik, LMU)
194 / 240
ML und REML-Schätzung I
Sei das Modell
Im Allgemeinen müssen die Parameter der Varianzstruktur geschätzt
werden.
Dazu gibt es verschiedene Verfahren:
Y
= X β + ε,
E (ε)
=
V (ε)
= σ 2 V (ϑ)
rg X = p 0
0
ML
gegeben. Der Parameter(vektor) ϑ ist zu schätzen.
Als Log-Likelihood ergibt sich (von additiven Konstanten abgesehen):
REML (Restricted Maximum Likelihood)
Robuste Varianzschätzung mit Working correlation“
”
Lineare Modelle SoSe 2015
Helmut Küchenhoff (Institut für Statistik, LMU)
l(β, ϑ ) = −
195 / 240
Lineare Modelle SoSe 2015
1
ϑ)| + (Y
Y − X β)0 V −1 (ϑ
ϑ)(Y
Y − X β)
ln |V (ϑ
2
Helmut Küchenhoff (Institut für Statistik, LMU)
(8.23)
196 / 240
ML und REML-Schätzung II
ML und REML-Schätzer
Ist ϑ bekannt, so ist der MLE von β bedingt auf ϑ (gewichteter
KQ-Schätzer:)
−1
ϑ) = X 0 V (ϑ
ϑ)−1 X
ϑ)Y .
β̂(ϑ
X 0 V −1 (ϑ
(8.24)
Maximieren von (10.22) bezüglich ϑ liefert ML-Schätzer.
Da dieser nicht erwartungstreu ist, verwendet man häufig den
sogenannten restringierten ML-Schätzer:
Dieser maximiert
1
ϑ)−1 X |
ϑ) = l(ϑ
ϑ) − ln|X 0 V (ϑ
LR (ϑ
2
Einsetzen liefert die Profil-Log-Likelihood:
ϑ) = −
l(ϑ
1
ϑ)| + (Y
Y − X β(ϑ
ϑ))0 V −1 (ϑ
ϑ)(Y
Y − X β(ϑ
ϑ))
ln |V (ϑ
2
Lineare Modelle SoSe 2015
Helmut Küchenhoff (Institut für Statistik, LMU)
(8.25)
197 / 240
(8.26)
Im einfachen linearen Modell entspricht der REML-Schätzer dem
erwartungstreuen Schätzer von σ 2 .
Lineare Modelle SoSe 2015
Helmut Küchenhoff (Institut für Statistik, LMU)
198 / 240
Beispiele
Inferenz bezüglich von β
Es gilt: β̂(ϑ) einer multivariaten Normalverteilung mit Erwartungswert β und
Kovarianzmatrix
β)
var(β̂
=
(X 0 V −1 X )−1
(8.27)
Da V unbekannt ist, wird es durch den (RE)ML-Schätzer V (ϑ̂) ersetzt.
Zur Konstruktion von Konfidenzintervallen und entsprechenden Tests nimmt
man an, dass β asymptotisch normalverteilt ist. Für spezielle Modelle ist dies
bewiesen, aber eine allgemeingültige asymptotische Normalverteilungsaussage
ist nicht nachgewiesen.
Wildzeitreihen:
Varianzstruktur: Unabhängigkeit der Einzelzeitreihen, aber
AR(1)-Struktur für jede einzelne Zeitreihe
Schuldaten mit Korrelation innerhalb einer Klasse
Da die Varianzmatrix V nur geschätzt wird, werden in der Praxis deshalb häufig
approximative t-Tests und entsprechende Konfidenzintervalle benutzt, die die
Verteilung von (β̂j − βj )/s.e.(
ˆ β̂j ) durch eine t-Verteilung approximieren und die
zugehörigen Freiheitsgrade geeignet schätzen.
Lineare Modelle SoSe 2015
Helmut Küchenhoff (Institut für Statistik, LMU)
199 / 240
Lineare Modelle SoSe 2015
Helmut Küchenhoff (Institut für Statistik, LMU)
200 / 240
Korrelationsmatrix Wilddaten






































1
ρ
1
Lineare Modelle SoSe 2015
ρ2
...

ρk
1
.
0
.
0
.
1
1
ρ
0
ρ2
.
.
.
.
.
.
ρk
ρ
1
ρ2
ρ
...
ρ2
...
...
1
..
.
.
...
...
...
.
.
...
ρk
ρk−1
.
.
.
.
.
.
.
.
.
1
0
.
0
0
Helmut Küchenhoff (Institut für Statistik, LMU)
.
.





































201 / 240
Herunterladen