Varianzkomponentenschätzung Peter von Rohr Qualitas AG Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler ei ist konstant, d.h. Var (ei ) = σ 2 für alle i Fehler ei sind nicht korreliert, d.h. Cov (ei , ej ) = 0 für i 6= j Fehler e ist multivariat normal verteilt Momente Erwartungswerte: E [e] = 0, E [y = Xb] Varianzen: Var (yi ) = σ 2 , Var (ei ) = σ 2 für alle i Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Parameterschätzung Im linearen Model y = Xb + e sind b und σ 2 unbekannte Parameter Parameter sollen als Funktion der Daten (y) geschätzt werden Ein möglicher Schätzer b̂LS für b kann mit Least Squares (kleinste Quadrate) berechnet werden −1 T b̂LS = XT X X y Aber Least Squares gibt keine Schätzung für σ 2 Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 3 / 23 Schätzung der Varianzkomonente σ 2 Eine Beobachtung betreffend der Eigenschaft der Erwartungstreue (Unbiasedness) eines Schätzers führt zu folgendem Ergebnis Erwartungstreue (Unbiasedness) ist eine Eigenschaft eines Schätzers θ̂ h i für einen Parameter θ, sofern gilt, dass E θ̂ = θ Erwartungswert der Summe der quadrierten Residuen (ri ) " n # n n n X X X X 2 E ri = E ri2 = Var (ri ) = σ 2 (1 − Pii ) i=1 i=1 i=1 i=1 = σ 2 (n − tr (P)) = σ 2 (n − p) −1 T T wobei: ri = yi − ŷi = yi − xT X , i b̂ und Matrix P = X X X n: Anzahl Beobachtungen und p: Anzahl Parameter Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 4 / 23 Schätzung der Varianzkomonente σ 2 II Somit gilt Erwartungstreue für den Schätzer n σˆ2 = X 1 ri2 (n − p) i=1 da für die Erwartungswerte gilt # # " " n n h i X X 1 1 ri2 = E ri2 E σˆ2 = E (n − p) (n − p) i=1 = i=1 2 1 σ (n − p) = σ 2 (n − p) Dieser Schätzer wird oft als LS-Schätzer bezeichnet Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 5 / 23 Varianzanalyse - ANOVA Effekte oder Faktoren im Modell (bis jetzt x Variable) sind kategorisch oder qualitativ Ziel ist es herauszufinden, wie viel von der totalen empirischen Varianz in den Beobachtungen durch die Faktoren erklärt werden kann. Folgendes Modell wird angenommen: yij = µ + αi + eij wobei: Faktor α i = 1, ..., I Stufen aufweist und j = 1, ..., Ji Beobachtungen pro Stufe vorliegen. Effekte sind nur unter gewissen Restriktionen schätzbar. Häufig wird P die Summe aller Effekte i Ji αi = 0 gesetzt Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 6 / 23 Parameterschätzung ANOVA Mit Restriktion P i Ji αi = 0 folgen Schätzer µ̂ = ȳ und α̂i = ȳi. − ȳ wobei: ȳ der Mittelwert über alle Beobachtungen und ȳi. der Mittelwert über alle Beobachtungen auf Stufe i ist. Die Varianzanteile werden aufgrund der Summenquadrate bestimmt Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 7 / 23 Tabelle der Varianzanalyse - ANOVA Table Quelle Faktor α Fehler e Total wobei DF i −1 n−i n−1 SQ SQZ SQE SQT MSQ MSQZ MSQE SQT = F MSQZ/MSQE Ji I X X P (yij − ȳ )2 i=1 j=1 Ji I X X (ȳi. − ȳ )2 ; MSQZ = SQZ /(i − 1) SQZ = i=1 j=1 SQE = Ji I X X (yij − ȳi. )2 ; MSQE = SQE /(n − i) i=1 j=1 Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 8 / 23 Beispieldatensatz Koagulationsdatensatz von https://cran.r-project.org/doc/contrib/Faraway-PRA.pdf > if (!require(faraway)) { + install.packages("faraway");require(faraway)} > data("coagulation") > head(coagulation, n=5) 1 2 3 4 5 coag diet 62 A 60 A 63 A 59 A 63 B Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 9 / 23 Beispieldatensatz II > summary(coagulation) coag Min. :56.00 1st Qu.:61.75 Median :63.50 Mean :64.00 3rd Qu.:67.00 Max. :71.00 Qualitas AG Peter von Rohr diet A:4 B:6 C:6 D:8 Folien ZL I+II LFW C11 October 29, 2015 10 / 23 Beispieldatensatz Anova > lmCoDi <- lm(coag ~ diet, data = coagulation) > anova(lmCoDi) Analysis of Variance Table Response: coag Df Sum Sq Mean Sq F value Pr(>F) diet 3 228 76.0 13.571 4.658e-05 *** Residuals 20 112 5.6 --Signif. codes: 0 ^ aĂŸ***^ aĂŹ 0.001 ^ aĂŸ**^ aĂŹ 0.01 ^ aĂŸ*^ aĂŹ 0.05 Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 11 / 23 Maximum Likelihood Definition der Likelihood als gemeinsame Dichteverteilung der Daten (y) gegeben die Parameter (b, σ 2 ) Pr y|b, σ 2 Unter der Annahme einer Normalverteilung und nach Beobachtung der Daten als Funktion der Parameter aufgefasst, folgt 2 L b, σ ; y = Pr y|b, σ 2 2 − n2 = (2πσ ) n Y i=1 Qualitas AG Peter von Rohr 2 (yi − xT i b) exp − 2σ 2 Folien ZL I+II LFW C11 October 29, 2015 12 / 23 Maximierung der Likelihood Funktion Maximierung der Likelihood Funktion L b, σ 2 ; y ist analog zur Maximierung von l b, σ 2 ; y = log L b, σ 2 ; y n n 1 X 2 2 = − log(2πσ ) − 2 (yi − xT i b) 2 2σ i=1 Schätzungen für b und σ erhalten wir durch Nullsetzen der partiellen Ableitungen von l b, σ 2 ; y nach b und σ Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 13 / 23 Partielle Ableitung nach b Partielle Ableitung von l b, σ 2 ; y nach b n ∂l 1 X =− 2 2xi (yi − xT i b) ∂b 2σ i=1 Extremum ist erreicht, falls partielle Ableitung = 0, somit ist n X n X xi xT i b̂ = i=1 b̂ML = xi yi i=1 n X i=1 !−1 xi xT i n X xi yi i=1 Beobachtung: b̂LS = b̂ML Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 14 / 23 Schätzer für σ 2 Analoges Vorgehen, wie für b Partielle Ableitung von l b, σ 2 ; y nach σ 2 null setzen Für b setzen wir b̂ML ein n ∂l n 1 X 2 = − + (yi − xT i b) ∂σ 2 2σ 2 2σ 4 i=1 nσˆ2 ML = n X 2 (yi − xT i b̂ML ) i=1 n σˆ2 ML Qualitas AG 1X 2 σˆ2 ML = (yi − xT i b̂ML ) n i=1 h i ist nicht erwartungstreu, d.h. E σˆ2 ML 6= σ 2 Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 15 / 23 REML Restricted oder Residual Maximum Likelihood Basiert auf der Log-likelihood Funktion lREML (σ 2 ; y) = − n n−p 1 X 2 log(σ 2 ) − 2 ri 2 2σ i=1 wobei: ri = yi − xT i n X !−1 xi xT i i=1 n X xi yi i=1 lREML ist unabhängig von b Maximierung von lREML führt zum Schätzer σˆ2 REML = n 1 X 2 ri n−p i=1 Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 16 / 23 Bayes’sche Methoden Philosophie Welt der Statistik unterteilt sich in zwei Lager 1 2 Frequentisten Bayesianer Frequentisten Parameterschätzungen basieren auf ML oder REML Trennung zwischen Daten und Parameter, fehlende Daten werden ignoriert Effekte in Modellen werden in fix und zufällig unterteilt Keine Berücksichtigung von a priori Information Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 17 / 23 Bayes’sche Methoden II Bayesianer Unterteilung in bekannte und unbekannte Grössen, dies können Daten oder Parameter sein Schätzung von unbekannten Grössen basieren auf der a posteriori Verteilung der unbekannten Grössen gegeben die bekannten Grössen Fehlende Daten können berücksichtigt werden A priori Information wird berücksichtigt Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 18 / 23 Beispiel für Bayes’sche Parameterschätzung Modell: y = Xb + e Bekannte Grössen sind die beobachteten Daten y Unbekannte Grössen sind die Parameter b und σ Schätzungen für Unbekannte b und σ werden gemacht aufgrund der a posteriori Dichteverteilungen f (b|y, σ 2 ) und f (σ 2 |y, b) A posteriori Dichteverteilungen werden aufgrund des Satzes von Bayes berechnet Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 19 / 23 Satz von Bayes f (b|y, σ 2 ) = f (y|b, σ 2 )f (b)f (σ 2 ) f (y, σ 2 ) wobei f (y|b, σ 2 ) f (b) f (σ 2 ) f (y, σ 2 ) Qualitas AG Bayes’sche Likelihood a priori Dichteverteilung von b a priori Dichteverteilung von σ 2 Normalisierungskonstante Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 20 / 23 Bayes’sche Schätzung für b Für Schätzung werden nur die von b abhängigen Teile aus f (b|y, σ 2 ) verwendet Konstante f (σ 2 ) und f (y, σ 2 ) werden ignoriert Daraus folgt f (b|y, σ 2 ) ∝ f (y|b, σ 2 )f (b) Ist a priori nichts über b bekannt, dann wird f (b) als konstant angenommen (uninformativer Prior) Weitere Vereinfachung zu f (b|y, σ 2 ) ∝ f (y|b, σ 2 ) Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 21 / 23 Bayes’sche Schätzung für b II Unter der Annahme der Normalverteilung folgt (y − Xb)T (y − Xb) 2 2 − n2 f (y|b, σ ) = (2πσ ) exp − 2σ 2 Damit die Dimensionen konsistent sind, machen wir folgende Transformation (y − Xb)T (y − Xb) 2 f (b|y, σ ) ∝ exp − 2σ 2 ( ) (b − b̂)T (XT X)(b − b̂) ∝ exp − 2σ 2 −1 T X y wobei: b̂ = XT X Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 22 / 23 Bayes’sche Schätzung III Schätzung für σ 2 analog basierend auf f (σ 2 |y, b) Schätzwerte basieren auf Momenten (Erwartungswert und Varianz) der a posteriori Dichteverteilungen Entsprechen die a posteriori Dichteverteilungen keinen Standarddichteverteilungen (wie Normal, Student-t, Beta, Gamma, ...), dann werden Erwartungswert und Varianzen aufgrund von Zufallszahlen von diesen Dichten approximiert Zufallszahlen werden aufgrund von Markovketten generiert Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 23 / 23