3.Tutorium Generalisierte Regression - LMU Moodle

Werbung
3.Tutorium Generalisierte Regression
3.Tutorium Generalisierte Regression
- Allgemeine GLM-Theorie -
Minh Anh Le:
28.11.2016 und 05.12.2016
Nicole Schüller:
01.12.2016 und 08.12.2016
Institut für Statistik, LMU München
1 / 14
3.Tutorium Generalisierte Regression
Gliederung
1
Struktur von GLMs
2
Spezielle Verteilungen
3
Schätzung in GLMs
4
GLMs mit R
2 / 14
3.Tutorium Generalisierte Regression
Struktur von GLMs
Gliederung
1
Struktur von GLMs
2
Spezielle Verteilungen
3
Schätzung in GLMs
4
GLMs mit R
3 / 14
3.Tutorium Generalisierte Regression
Struktur von GLMs
Verteilungsannahme
Die bedingte Verteilung yi |xi folgt einer Exponentialfamilie, d.h.
die Dichte hat die Form
yi θi − b(θi )
+ c(yi ; φi )
f (yi |θi , φi ) = exp
φi
wobei:
θi : natürlicher bzw. kanonischer Parameter
φi : Dispersionsparameter
b(), c(): Funktionen
4 / 14
3.Tutorium Generalisierte Regression
Struktur von GLMs
Strukturannahme
Der (bedingte) Erwartungswert µi ist mit dem linearen Prädiktor
η i = xT
i β durch
µi = h(ηi )
bzw. ηi = g (µi )
verknüpft, wobei
h(): Responsefunktion und
g(): Linkfunktion
5 / 14
3.Tutorium Generalisierte Regression
Struktur von GLMs
Vergleich von LM und GLM
LMs
GLMs
Verteilungsannahme
n
o
i)
f(yi |θi , φi )=exp yi θi −b(θ
+ c(yi ; φi )
φi
Exponentialfamilie
Strukturannahme
Der Erwartungswert µi ist mit dem linearen Prädiktor
ηi = xT
i β verknüpft.
µi = ηi
µi = h(ηi ) bzw. ηi = g (µi )
Dabei ist h() die Responsefunktion
und g () die Linkfunktion
und es gilt g () = h()−1 .
Kanonischer bzw. natürlicher Link:
θi = ηi = xT
i β
yi |xi ∼ N(µi , σ 2 )
Normalverteilung
6 / 14
3.Tutorium Generalisierte Regression
Spezielle Verteilungen
Gliederung
1
Struktur von GLMs
2
Spezielle Verteilungen
3
Schätzung in GLMs
4
GLMs mit R
7 / 14
3.Tutorium Generalisierte Regression
Spezielle Verteilungen
Poisson-Verteilung
Dichtefunktion von yi |λi ∼ Po(λi ):
f (yi ; λi ) =
λyi i
exp{−λi },
yi !
λi > 0
Log-Link (Kanonischer bzw. natürlicher Link)
T
µi = λi = exp{xT
i β} ⇒ g (µi ) = g (λi ) = log (λi ) = log (µi ) = xi β
Interpretation
log(λi ): sog. Log-Link für Zähldatenmodelle
⇒ linearer Einfluss der Prädiktoren auf den logarithmierten
Erwartungswert
⇒ exponentieller Einfluss der Prädiktoren auf den
Erwartungswert
8 / 14
3.Tutorium Generalisierte Regression
Spezielle Verteilungen
Exponential-Verteilung
Dichtefunktion von yi |λi ∼ Exp(λi ):
f (yi ; λi ) = λi exp{−λi yi },
λi > 0
Kanonischer bzw. natürlicher Link
θ = −λi und µi =
1
λi
1
µi
⇒
θi = −
⇒
g (µi ) = −
1
= xT
i β
µi
Beachte
Kanonischer (bzw. natürlicher) Link ist in diesem Fall
problematisch, da yi > 0 gelten muss, daher besser:
µi = exp{xT
i β} (Log-Link wie bei Poisson-Verteilung)!
9 / 14
3.Tutorium Generalisierte Regression
Schätzung in GLMs
Gliederung
1
Struktur von GLMs
2
Spezielle Verteilungen
3
Schätzung in GLMs
4
GLMs mit R
10 / 14
3.Tutorium Generalisierte Regression
Schätzung in GLMs
Log-Likelihood
Unter Ausschluss der von θi unabhängigen Komponente
c(yi , φ), ∀i = 1, ..., n
⇒
`i (θi ) = log(f (yi |θi , φ)) =
yi θi − b(θi )
φ
Relation θi = θ(µi ) zw. nat. Parameter und Erwartungswert
⇒
`i (µi ) =
yi θ(µi ) − b(θ(µi ))
φ
Responsefunktion µi (β) = h(xT
i β)
⇒
`i (µi (β)) = `i (h(xT
i β)) =
T
yi θ(h(xT
i β)) − b(θ(h(xi β)))
φ
11 / 14
3.Tutorium Generalisierte Regression
Schätzung in GLMs
Scorefunktion
Beobachtungsspezifische Scorefunktion (vektoriell!):
si (β) = xi Di (β)σi−2 (β)[yi − µi (β)],
mit
µi (β) = h(xT
i β);
σi2 (β) = v (h(xT
i β))φ;
Di (β) =
∂h(xT
i β)
∂η
Fall der kanonischen (bzw. natürlichen) Linkfunktion:
si (β) = xi [yi −µφi (β)]
ML-Schätzer auf Basis der i-ten Beobachtung:
si (β) = 0
Problem: Oft nicht eindeutig oder nur mit sehr hohem
Aufwand lösbar! ⇒ Fisher-Scoring!
12 / 14
3.Tutorium Generalisierte Regression
GLMs mit R
Gliederung
1
Struktur von GLMs
2
Spezielle Verteilungen
3
Schätzung in GLMs
4
GLMs mit R
13 / 14
3.Tutorium Generalisierte Regression
GLMs mit R
Modellbildung
glm(formula=Modellformel, family = Verteilungsfamilie der abh.
Variable(link=”Link”), data=Quelldatensatz, ...)
1
Angabe der Modellformel:
Analog zu LMs!
2
Spezifizierung der Verteilungsfamilie:
Angabe der Verteilung der abhängigen Variable;
Voraussetzung: Verteilung ist Exponentialfamilie
3
Spezifikation der Linkfunktion:
Bei Verwendung des kanonischen bzw. natürlichen Links
vernachlässigbar
14 / 14
Herunterladen