3.Tutorium Generalisierte Regression 3.Tutorium Generalisierte Regression - Allgemeine GLM-Theorie - Minh Anh Le: 28.11.2016 und 05.12.2016 Nicole Schüller: 01.12.2016 und 08.12.2016 Institut für Statistik, LMU München 1 / 14 3.Tutorium Generalisierte Regression Gliederung 1 Struktur von GLMs 2 Spezielle Verteilungen 3 Schätzung in GLMs 4 GLMs mit R 2 / 14 3.Tutorium Generalisierte Regression Struktur von GLMs Gliederung 1 Struktur von GLMs 2 Spezielle Verteilungen 3 Schätzung in GLMs 4 GLMs mit R 3 / 14 3.Tutorium Generalisierte Regression Struktur von GLMs Verteilungsannahme Die bedingte Verteilung yi |xi folgt einer Exponentialfamilie, d.h. die Dichte hat die Form yi θi − b(θi ) + c(yi ; φi ) f (yi |θi , φi ) = exp φi wobei: θi : natürlicher bzw. kanonischer Parameter φi : Dispersionsparameter b(), c(): Funktionen 4 / 14 3.Tutorium Generalisierte Regression Struktur von GLMs Strukturannahme Der (bedingte) Erwartungswert µi ist mit dem linearen Prädiktor η i = xT i β durch µi = h(ηi ) bzw. ηi = g (µi ) verknüpft, wobei h(): Responsefunktion und g(): Linkfunktion 5 / 14 3.Tutorium Generalisierte Regression Struktur von GLMs Vergleich von LM und GLM LMs GLMs Verteilungsannahme n o i) f(yi |θi , φi )=exp yi θi −b(θ + c(yi ; φi ) φi Exponentialfamilie Strukturannahme Der Erwartungswert µi ist mit dem linearen Prädiktor ηi = xT i β verknüpft. µi = ηi µi = h(ηi ) bzw. ηi = g (µi ) Dabei ist h() die Responsefunktion und g () die Linkfunktion und es gilt g () = h()−1 . Kanonischer bzw. natürlicher Link: θi = ηi = xT i β yi |xi ∼ N(µi , σ 2 ) Normalverteilung 6 / 14 3.Tutorium Generalisierte Regression Spezielle Verteilungen Gliederung 1 Struktur von GLMs 2 Spezielle Verteilungen 3 Schätzung in GLMs 4 GLMs mit R 7 / 14 3.Tutorium Generalisierte Regression Spezielle Verteilungen Poisson-Verteilung Dichtefunktion von yi |λi ∼ Po(λi ): f (yi ; λi ) = λyi i exp{−λi }, yi ! λi > 0 Log-Link (Kanonischer bzw. natürlicher Link) T µi = λi = exp{xT i β} ⇒ g (µi ) = g (λi ) = log (λi ) = log (µi ) = xi β Interpretation log(λi ): sog. Log-Link für Zähldatenmodelle ⇒ linearer Einfluss der Prädiktoren auf den logarithmierten Erwartungswert ⇒ exponentieller Einfluss der Prädiktoren auf den Erwartungswert 8 / 14 3.Tutorium Generalisierte Regression Spezielle Verteilungen Exponential-Verteilung Dichtefunktion von yi |λi ∼ Exp(λi ): f (yi ; λi ) = λi exp{−λi yi }, λi > 0 Kanonischer bzw. natürlicher Link θ = −λi und µi = 1 λi 1 µi ⇒ θi = − ⇒ g (µi ) = − 1 = xT i β µi Beachte Kanonischer (bzw. natürlicher) Link ist in diesem Fall problematisch, da yi > 0 gelten muss, daher besser: µi = exp{xT i β} (Log-Link wie bei Poisson-Verteilung)! 9 / 14 3.Tutorium Generalisierte Regression Schätzung in GLMs Gliederung 1 Struktur von GLMs 2 Spezielle Verteilungen 3 Schätzung in GLMs 4 GLMs mit R 10 / 14 3.Tutorium Generalisierte Regression Schätzung in GLMs Log-Likelihood Unter Ausschluss der von θi unabhängigen Komponente c(yi , φ), ∀i = 1, ..., n ⇒ `i (θi ) = log(f (yi |θi , φ)) = yi θi − b(θi ) φ Relation θi = θ(µi ) zw. nat. Parameter und Erwartungswert ⇒ `i (µi ) = yi θ(µi ) − b(θ(µi )) φ Responsefunktion µi (β) = h(xT i β) ⇒ `i (µi (β)) = `i (h(xT i β)) = T yi θ(h(xT i β)) − b(θ(h(xi β))) φ 11 / 14 3.Tutorium Generalisierte Regression Schätzung in GLMs Scorefunktion Beobachtungsspezifische Scorefunktion (vektoriell!): si (β) = xi Di (β)σi−2 (β)[yi − µi (β)], mit µi (β) = h(xT i β); σi2 (β) = v (h(xT i β))φ; Di (β) = ∂h(xT i β) ∂η Fall der kanonischen (bzw. natürlichen) Linkfunktion: si (β) = xi [yi −µφi (β)] ML-Schätzer auf Basis der i-ten Beobachtung: si (β) = 0 Problem: Oft nicht eindeutig oder nur mit sehr hohem Aufwand lösbar! ⇒ Fisher-Scoring! 12 / 14 3.Tutorium Generalisierte Regression GLMs mit R Gliederung 1 Struktur von GLMs 2 Spezielle Verteilungen 3 Schätzung in GLMs 4 GLMs mit R 13 / 14 3.Tutorium Generalisierte Regression GLMs mit R Modellbildung glm(formula=Modellformel, family = Verteilungsfamilie der abh. Variable(link=”Link”), data=Quelldatensatz, ...) 1 Angabe der Modellformel: Analog zu LMs! 2 Spezifizierung der Verteilungsfamilie: Angabe der Verteilung der abhängigen Variable; Voraussetzung: Verteilung ist Exponentialfamilie 3 Spezifikation der Linkfunktion: Bei Verwendung des kanonischen bzw. natürlichen Links vernachlässigbar 14 / 14