Varianzkomponententschätzung - Charlotte-NGS

Werbung
Varianzkomponentenschätzung
Peter von Rohr
Qualitas AG
Multiple Lineare Regression
Annahmen
Modell
y = Xb + e
Varianz der Fehler ei ist konstant, d.h. Var (ei ) = σ 2 für alle i
Fehler ei sind nicht korreliert, d.h. Cov (ei , ej ) = 0 für i 6= j
Fehler e ist multivariat normal verteilt
Momente
Erwartungswerte: E [e] = 0, E [y = Xb]
Varianzen: Var (yi ) = σ 2 , Var (ei ) = σ 2 für alle i
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
2 / 23
Parameterschätzung
Im linearen Model y = Xb + e sind b und σ 2 unbekannte Parameter
Parameter sollen als Funktion der Daten (y) geschätzt werden
Ein möglicher Schätzer b̂LS für b kann mit Least Squares (kleinste
Quadrate) berechnet werden
−1 T
b̂LS = XT X
X y
Aber Least Squares gibt keine Schätzung für σ 2
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
3 / 23
Schätzung der Varianzkomonente σ 2
Eine Beobachtung betreffend der Eigenschaft der Erwartungstreue
(Unbiasedness) eines Schätzers führt zu folgendem Ergebnis
Erwartungstreue (Unbiasedness) ist eine Eigenschaft
eines Schätzers θ̂
h i
für einen Parameter θ, sofern gilt, dass E θ̂ = θ
Erwartungswert der Summe der quadrierten Residuen (ri )
" n
#
n
n
n
X
X
X
X
2
E
ri =
E ri2 =
Var (ri ) = σ 2
(1 − Pii )
i=1
i=1
i=1
i=1
= σ 2 (n − tr (P)) = σ 2 (n − p)
−1 T
T
wobei: ri = yi − ŷi = yi − xT
X ,
i b̂ und Matrix P = X X X
n: Anzahl Beobachtungen und p: Anzahl Parameter
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
4 / 23
Schätzung der Varianzkomonente σ 2 II
Somit gilt Erwartungstreue für den Schätzer
n
σˆ2 =
X
1
ri2
(n − p)
i=1
da für die Erwartungswerte gilt
#
#
"
" n
n
h i
X
X
1
1
ri2 =
E
ri2
E σˆ2 = E
(n − p)
(n − p)
i=1
=
i=1
2
1
σ (n − p) = σ 2
(n − p)
Dieser Schätzer wird oft als LS-Schätzer bezeichnet
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
5 / 23
Varianzanalyse - ANOVA
Effekte oder Faktoren im Modell (bis jetzt x Variable) sind
kategorisch oder qualitativ
Ziel ist es herauszufinden, wie viel von der totalen empirischen Varianz
in den Beobachtungen durch die Faktoren erklärt werden kann.
Folgendes Modell wird angenommen:
yij = µ + αi + eij
wobei: Faktor α i = 1, ..., I Stufen aufweist und j = 1, ..., Ji
Beobachtungen pro Stufe vorliegen.
Effekte sind nur unter gewissen
Restriktionen schätzbar. Häufig wird
P
die Summe aller Effekte i Ji αi = 0 gesetzt
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
6 / 23
Parameterschätzung ANOVA
Mit Restriktion
P
i
Ji αi = 0 folgen Schätzer
µ̂ = ȳ und α̂i = ȳi. − ȳ
wobei: ȳ der Mittelwert über alle Beobachtungen und ȳi. der
Mittelwert über alle Beobachtungen auf Stufe i ist.
Die Varianzanteile werden aufgrund der Summenquadrate bestimmt
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
7 / 23
Tabelle der Varianzanalyse - ANOVA Table
Quelle
Faktor α
Fehler e
Total
wobei
DF
i −1
n−i
n−1
SQ
SQZ
SQE
SQT
MSQ
MSQZ
MSQE
SQT =
F
MSQZ/MSQE
Ji
I X
X
P
(yij − ȳ )2
i=1 j=1
Ji
I X
X
(ȳi. − ȳ )2 ; MSQZ = SQZ /(i − 1)
SQZ =
i=1 j=1
SQE =
Ji
I X
X
(yij − ȳi. )2 ; MSQE = SQE /(n − i)
i=1 j=1
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
8 / 23
Beispieldatensatz
Koagulationsdatensatz von
https://cran.r-project.org/doc/contrib/Faraway-PRA.pdf
> if (!require(faraway)) {
+
install.packages("faraway");require(faraway)}
> data("coagulation")
> head(coagulation, n=5)
1
2
3
4
5
coag diet
62
A
60
A
63
A
59
A
63
B
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
9 / 23
Beispieldatensatz II
> summary(coagulation)
coag
Min.
:56.00
1st Qu.:61.75
Median :63.50
Mean
:64.00
3rd Qu.:67.00
Max.
:71.00
Qualitas AG
Peter von Rohr
diet
A:4
B:6
C:6
D:8
Folien ZL I+II LFW C11
October 29, 2015
10 / 23
Beispieldatensatz Anova
> lmCoDi <- lm(coag ~ diet, data = coagulation)
> anova(lmCoDi)
Analysis of Variance Table
Response: coag
Df Sum Sq Mean Sq F value
Pr(>F)
diet
3
228
76.0 13.571 4.658e-05 ***
Residuals 20
112
5.6
--Signif. codes: 0 ^
aĂŸ***^
aĂŹ 0.001 ^
aĂŸ**^
aĂŹ 0.01 ^
aĂŸ*^
aĂŹ 0.05
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
11 / 23
Maximum Likelihood
Definition der Likelihood als gemeinsame Dichteverteilung der Daten
(y) gegeben die Parameter (b, σ 2 )
Pr y|b, σ 2
Unter der Annahme einer Normalverteilung und nach Beobachtung
der Daten als Funktion der Parameter aufgefasst, folgt
2
L b, σ ; y = Pr y|b, σ
2
2 − n2
= (2πσ )
n
Y
i=1
Qualitas AG
Peter von Rohr
2
(yi − xT
i b)
exp −
2σ 2
Folien ZL I+II LFW C11
October 29, 2015
12 / 23
Maximierung der Likelihood Funktion
Maximierung der Likelihood Funktion L b, σ 2 ; y ist analog zur
Maximierung von
l b, σ 2 ; y = log L b, σ 2 ; y
n
n
1 X
2
2
= − log(2πσ ) − 2
(yi − xT
i b)
2
2σ
i=1
Schätzungen für b und σ erhalten
wir durch Nullsetzen der partiellen
Ableitungen von l b, σ 2 ; y nach b und σ
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
13 / 23
Partielle Ableitung nach b
Partielle Ableitung von l b, σ 2 ; y nach b
n
∂l
1 X
=− 2
2xi (yi − xT
i b)
∂b
2σ
i=1
Extremum ist erreicht, falls partielle Ableitung = 0, somit ist
n
X
n
X
xi xT
i b̂ =
i=1
b̂ML =
xi yi
i=1
n
X
i=1
!−1
xi xT
i
n
X
xi yi
i=1
Beobachtung: b̂LS = b̂ML
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
14 / 23
Schätzer für σ 2
Analoges Vorgehen, wie für b
Partielle Ableitung von l b, σ 2 ; y nach σ 2 null setzen
Für b setzen wir b̂ML ein
n
∂l
n
1 X
2
=
−
+
(yi − xT
i b)
∂σ 2
2σ 2 2σ 4
i=1
nσˆ2 ML =
n
X
2
(yi − xT
i b̂ML )
i=1
n
σˆ2 ML
Qualitas AG
1X
2
σˆ2 ML =
(yi − xT
i b̂ML )
n
i=1
h
i
ist nicht erwartungstreu, d.h. E σˆ2 ML 6= σ 2
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
15 / 23
REML
Restricted oder Residual Maximum Likelihood
Basiert auf der Log-likelihood Funktion
lREML (σ 2 ; y) = −
n
n−p
1 X 2
log(σ 2 ) − 2
ri
2
2σ
i=1
wobei:
ri = yi −
xT
i
n
X
!−1
xi xT
i
i=1
n
X
xi yi
i=1
lREML ist unabhängig von b
Maximierung von lREML führt zum Schätzer
σˆ2 REML =
n
1 X 2
ri
n−p
i=1
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
16 / 23
Bayes’sche Methoden
Philosophie
Welt der Statistik unterteilt sich in zwei Lager
1
2
Frequentisten
Bayesianer
Frequentisten
Parameterschätzungen basieren auf ML oder REML
Trennung zwischen Daten und Parameter, fehlende Daten werden
ignoriert
Effekte in Modellen werden in fix und zufällig unterteilt
Keine Berücksichtigung von a priori Information
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
17 / 23
Bayes’sche Methoden II
Bayesianer
Unterteilung in bekannte und unbekannte Grössen, dies können
Daten oder Parameter sein
Schätzung von unbekannten Grössen basieren auf der a posteriori
Verteilung der unbekannten Grössen gegeben die bekannten Grössen
Fehlende Daten können berücksichtigt werden
A priori Information wird berücksichtigt
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
18 / 23
Beispiel für Bayes’sche Parameterschätzung
Modell: y = Xb + e
Bekannte Grössen sind die beobachteten Daten y
Unbekannte Grössen sind die Parameter b und σ
Schätzungen für Unbekannte b und σ werden gemacht aufgrund der a
posteriori Dichteverteilungen f (b|y, σ 2 ) und f (σ 2 |y, b)
A posteriori Dichteverteilungen werden aufgrund des Satzes von
Bayes berechnet
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
19 / 23
Satz von Bayes
f (b|y, σ 2 ) =
f (y|b, σ 2 )f (b)f (σ 2 )
f (y, σ 2 )
wobei
f (y|b, σ 2 )
f (b)
f (σ 2 )
f (y, σ 2 )
Qualitas AG
Bayes’sche Likelihood
a priori Dichteverteilung von b
a priori Dichteverteilung von σ 2
Normalisierungskonstante
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
20 / 23
Bayes’sche Schätzung für b
Für Schätzung werden nur die von b abhängigen Teile aus f (b|y, σ 2 )
verwendet
Konstante f (σ 2 ) und f (y, σ 2 ) werden ignoriert
Daraus folgt
f (b|y, σ 2 ) ∝ f (y|b, σ 2 )f (b)
Ist a priori nichts über b bekannt, dann wird f (b) als konstant
angenommen (uninformativer Prior)
Weitere Vereinfachung zu
f (b|y, σ 2 ) ∝ f (y|b, σ 2 )
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
21 / 23
Bayes’sche Schätzung für b II
Unter der Annahme der Normalverteilung folgt
(y − Xb)T (y − Xb)
2
2 − n2
f (y|b, σ ) = (2πσ ) exp −
2σ 2
Damit die Dimensionen konsistent sind, machen wir folgende
Transformation
(y − Xb)T (y − Xb)
2
f (b|y, σ ) ∝ exp −
2σ 2
(
)
(b − b̂)T (XT X)(b − b̂)
∝ exp −
2σ 2
−1 T
X y
wobei: b̂ = XT X
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
22 / 23
Bayes’sche Schätzung III
Schätzung für σ 2 analog basierend auf f (σ 2 |y, b)
Schätzwerte basieren auf Momenten (Erwartungswert und Varianz)
der a posteriori Dichteverteilungen
Entsprechen die a posteriori Dichteverteilungen keinen
Standarddichteverteilungen (wie Normal, Student-t, Beta, Gamma,
...), dann werden Erwartungswert und Varianzen aufgrund von
Zufallszahlen von diesen Dichten approximiert
Zufallszahlen werden aufgrund von Markovketten generiert
Qualitas AG
Peter von Rohr
Folien ZL I+II LFW C11
October 29, 2015
23 / 23
Herunterladen