Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Modellbasierte Imputationsverfahren im Vergleich Norbert Schöning Geschwister-Scholl-Institut Lehrstuhl für Empirische Politikforschung Interdisziplinäres Seminar zur Wahlforschung Prof. P.W. Thurner / Prof. H. Küchenhoff 28.01.2013 Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion 1 Thema des Vortrages 2 Grundlagen der Imputation 3 Modellbasierte Verfahren Multiple iterated chained equations / MICE Multivariate Normalmodels / AMELIA 4 BTW09: Modell und Daten Einschätzung des benutzten Imputationsmodells Imputationen mit MICE Imputationen mit Amelia 5 Diskussion Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Hintergrund des Vortrages Promotionsthema: Untersuchung des sog. Item-Nonresponse in Bundestagswahlstudien. Zwei wesentliche Ziele: Klärung über Art, Umfang und Folgen des Ausfalls hinsichtlich Modellierung des Wahlverhaltens auf Basis von Discrete-Choice Modellen. Adäquate Korrektur mittels Imputationsverfahren und Untersuchung der Auswirkungen dieser Korrektur auf ausgewählte Forschungsergebnisse. Frisch aus der Datenküche: Ergebnisse sind nur als vorläufig interpretierbar. Diverse Schritte, wie insbesondere Konstruktion des „optimalen“ Imputationsmodells und Überprüfung der MAR-Annahme stehen noch aus. Thema heute: Vorstellung von Zwischenergebnissen zweier modellbasierte Verfahren. Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Grundbegriffe Missing Data unterteilen sich in Unit-Nonresponse und Item-Nonresponse. Unit-Nonresponse meint den Totalausfall von Beobachtungen, Item-Nonresponse den selektiven Ausfall bei einer Menge von Items. Relevant für die Analyse nur der Datenverlust durch Item-Nonresponse (INR). INR führt bei der beabsichtigten Discrete Choice Analyse regelmäßig zu einem Ausfall von 40-60 % der Beobachtungen. Welche statistischen Probleme können bei „unbedarfter“ listwise (alternativewise) deletion einhergehen? Item-Nonresponse hat immer negative Auswirkungen! Je nach Missing-Mechanismus reichen die Auswirkung von Erhöhung von V (Q) bis verzerrte Puntschätzung von Estimand Q. Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Notation Yobs := Beobachtete Datenmatrix mit Anzahl n1 ; Ymis := Fehlende Werte mit Anzahl n0 ; Y = (Yobs , Ymis ) := Vollständige Daten. Die vollständigen Daten enthalten die unbeobachteten und unbekannten Werte Indikatormatrix R markiert Missing (rij = 0) oder beobachteten Wert (rij = 1). → Beobachtete Information sind Yobs und R. Zwei Parameter steuern den datengenerierenden Prozess: θ steuert Y . ψ steuert die Parameter des Missing-Data Modells und repräsentiert den Missing-Prozess, der die Verteilung von R hervorruft. Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Klassifikation von Missing Mechanismen MCAR: Fehlende Daten sind missing completely at random, wenn gilt: f (R|Y , ψ) = f (R|ψ). Unproblematischster, aber unwahrscheinlicher Fall MAR: Fehlende Daten sind missing at random, wenn gilt: f (R|Y , ψ) = f (R|Yobs , ψ). Mäßig problematisch und wahrscheinlicher Fall NMAR: Fehlende Daten sind not missing at random, wenn gilt: f (R|Y , ψ) = f (R|Y ψ). Sehr problematisch und nicht unwahrscheinlicher Fall Zentrale Annahme der Analyse ist MAR. Die Modellierung von NMAR-Ausfällen ist „tricky“, üblicherweise wird MAR als Startpunkt gewählt. Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Ignorierbarkeit I In der gemeinsamen Dichte f (Yobs , R|θ, ψ) wird Y von θ und R von ψ gesteuert. Hierzu kann die Likelihood formuliert werden: Lfull (θ, ψ|Yobs , R) ∼ f (Yobs , R|θ, ψ). ψ ist unbekannt und i.d.R. uninteressant. Beide Missing-Mechanismen MAR und MCAR hängen jedoch vom unbekannten Parameter ψ ab. Dementsprechend beinhaltet auch die Likelihood den Parameter des Missing-Modells. Dennoch (!) lässt sich ohne Kenntnis von ψ auf θ schließen, sofern „Ignorierbarkeit“ gegeben ist (Rubin 2002). Ignorierbarkeit liegt vor, wenn: 1 2 die Daten MAR oder MCAR sind θ und ψ unabhängig sind, d.h. der gemeinsame Parameterraum (θ, ψ) ist das Produkt von den Parameterräumen θ und ψ. Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Ignorierbarkeit II Ignorierbarkeit „schneidet“ R aus der Verteilung: P(Ymis |Yobs , R) = P(Ymis |Yobs ). Dies impliziert: P(Ymis |Yobs , R = 1) = P(Ymis |Yobs , R = 0), d.h. die Verteilung unterscheidet sich nicht zwischen Respondern und Nonrespondern. Dies erlaubt es, Züge aus der Verteilung der Responder zu ziehen und diese für die Nonresponder zu imputieren Beispiel In einem Datensatz liegen fehlende Werte in Wahlverhalten y vor, vollständig beobachtet sind Alter und Geschlecht. Alter und Geschlecht sind direkt und indirekt mit dem WV verbunden ⇒ Verbesserung der Imputation durch Nutzung von Geschlecht und Alter, da MAR die Gleichheit von Respondern und Nichtrespondern impliziert. Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Ignorierbarkeit III Durch die Ignorierbarkeit kann θ zwar aus der Posteori-Verteilung P(θ|Yobs ) geschätzt werden. Gleichzeitig ist diese Verteilung schwer bestimmbar. P(θ|Yobs ) kann jedoch dargestellt werden als (unendlich) gewichtete Summe der Verteilung der Posteori von θ zu den(hypothetischen) vollen Daten und der Posteori-Verteilung der fehlenden Daten zu den beobachteten Daten. Hauptsatz der Imputation P(θ|Yobs ) = R P(θ|Yobs , Ymis )P(Ymis |Yobs )dYmis Diese Darstellung vereinfacht das Schätzproblem erheblich und begründet iterative modellbasierte Verfahren wie MICE und AMELIA. Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Multiple Imputation Imputationsverfahren können danach unterschieden werden, ob sie für den fehlenden Wert genau einen oder m > 1 Werte schätzen. Single Imputations unterschätzen jedoch die Varianz von θ systematisch Modellbasierte Verfahren sind von Hot-Deck Verfahren abzugrenzen 1 2 Bei dieser Verfahrensklasse werden die Beobachtungen mit fehlenden Werten vollständigen Beobachtungen nach bestimmten Ähnlichkeitskriterien zugeordnet. Hot-Deck Verfahren können single und multipel imputieren als auch mit modellbasierten Verfahren kombiniert werden. Trennung von Imputation und Analyse: Bei multiplen Verfahren können die Parameter mithilfe der Rubin-Regeln"kombiniert werden. Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Univariate Imputationen Multivariate Imputationen in MICE stellen eine Kette von univariaten Imputationen dar (Chained equation-Ansatz). Je nach Skalierung und Modellierungsstrategie lassen sich verschiedene Modelle spezifizieren. Metrisches Skalenniveau I: NORM-Modell - Gewinne Imputationen aus linearer Regression ẏ mis = X βmis + ; optional mit Rauschen und Parameter-Unsicherheit für die Varianzmodellierung. Metrisches Skalenniveau II: Predictive Mean Matching Schätzung von Werten mit NORM und dann Bildung eines d-großen Pools y obs für jeden geschätzten Fehlendwert auf Basis minimierter Distanzen. Imputation durch Zufallszug aus dem Pool. Ordinales Skalenniveau: Ordinale logistische Regression, Imputation durch Zug aus der geschätzten WSK-Verteilung Nominales Skalenniveau: Multinomiale (binäre) logistische Regression, Imputation durch Zug aus der geschätzten WSK-Verteilung PMM I: Lineare Regression mit Bootstrap Regression mit Bootstrap 1 Ziehe Bootstrap-Stichprobe (ẏobs , Ẋobs ) vom Umfang n1 aus (yobs , Xobs ) 2 Berechne das Kreuzprodukt Ṡ = Ẋobs Ẋobs 3 Berechne V̇ = (Ṡ + diag(Ṡ)κ)−1 für kleine κ 4 Berechne die Regressionsgewichte für β̇ = V̇ Ẋobs ẏobs 5 Berechne σ̇ = (ẏobs − Ẋobs β̇) (ẏobs − Ẋobs β̇)/(n1 − q − 1) 6 Ziehe n0 unabhängige N(0, 1) Variaten für Vektor z˙2 Berechne die n0 Werte ẏ = Xmis β̇ + z2˙σ̇ 7 0 0 0 Matching-Komponente 1 Berechne die (hypothetischen) Distanzen η̇(i, j) = |Xobs,[i] β̂ − Xmis,[j] β̇ mit i = 1, ..., n1 und j = 1, ..., n0 2 Bilde n0 Spender-Pools. Jeder enthält d-Spender Zj aus Yobs , P sodass die die Bedingung [min: d η̇(i, j)] erfüllt ist. 3 Ziehe zufallsbasiert einen Spender ij aus Zj für j = 1, ..., n0 und wiederhole dies für M = 1, ..., m Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Multiple iterated chained equations / MICE Multivariate Normalmodels / AMELIA Multivariate Imputationen in MICE Während Chained-Equations Zug um Zug bedingte Verteilungen konstruieren (FCS: „Fully conditional specification“), modelliert AMELIA eine gemeinsame Verteilung (JM: „Joint Modelling“) Die theoretische Rechtfertigung für FCS ist die Idee, dass mithilfe von Zügen aus den bedingten Verteilungen die gemeinsame Verteilung modelliert werden kann (→ „Idee des Gibbs-Samplers“). Dementsprechend ist die Anzahl der 1, ..., M Imputationen zu unterscheiden von der Anzahl von t = 1, ..., T Iterationen der vollständigen Kette. Eine vollständige Kette regressiert bei p-Variablen p-fach. Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Multiple iterated chained equations / MICE Multivariate Normalmodels / AMELIA Algorithmus der multivariaten Imputation in MICE Spezifiziere das Imputationsmodell für alle j = 1, ..., p P(Yjmis |Yjobs , Y−j , R) anhand etwaiger Fehlendmuster und den Modellen univariater Imputation Generiere als Startwerte Yj0 für jedes j aus 1, ..., p durch Zufallsauswahl aus Yjobs und wiederhole für j = 1, ..., p und t = 1, ..., T und m = 1, ..., M t = Ẏ t = (Ẏ t , Ẏ t , Ẏ t−1 , ..., Ẏ t−1 als Definiere Ẏ−j p −j 1 j−1 j+1 vollständige Daten, aber ohne Yj t ,R Berechne φ̇tj ∼ P Yjmis |Yjobs , Ẏ−j t , R, φ̇t Imputiere Ẏjt ∼ P Yjmis |Yjobs , Ẏ−j j Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Multiple iterated chained equations / MICE Multivariate Normalmodels / AMELIA AMELIA I AMELIA beruht auf einer gemeinsamen Modellierung auf Basis der MVN: Y ∼ Nk (µ, Σ) MVN relativ robust (Schafer 1997), aber bei kategorialen Daten höhere WSK implausibler Werte/Verteilungen. King 2001: "We find that the normal approximation is usually good enough even in small, nonnormal samples so that the algorithm operates quickly" Zwei Algorithmenklassen zur Behandlung von Missing Data: IP und EM. IP beruht auf MCMC: Vorteil ist daher problemdäquat durch die Simulation von Verteilungen. Nachteil: IP besitzt die bekannten MCMC Nachteile: Rechenaufwändig und diagnostische Probleme (Konvergenz). Der EM ist hingegen ein likelihood-basierter deterministischer Algorithmus. Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Multiple iterated chained equations / MICE Multivariate Normalmodels / AMELIA AMELIA II Expectation-Maximization-Algorithmus besteht aus zwei Schritten: 1 2 E-Schritt: Q(θ|θt ) = EY mis |Y obs ,θt [logL(θ|Y mis , Y obs ] M-Schritt:θt+1 = maxθ Q(θ|θt ) Rechentechnisch gesehen basiert die Amelia-Imputation auf einem EM-Algorithmus mit vorgeschaltetem Bootstrapping 1 2 3 Schritt 1: Bootstrappe m Stichproben vom Umfang n aus Y Schritt 2: Imputiere mithilfe des EM-Algorithmus Schritt 3: Ersetze nun die gebootstrappten Fälle durch Y des vorliegenden Datensatzes und berechne für n0 in 1, .., M die Werte anhand der M EM-Regressionsgewichtsvektoren Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Einschätzung des benutzten Imputationsmodells Imputationen mit MICE Imputationen mit Amelia Analyse- und Imputationsmodell Analysemodell: Untersuchung des Wahlverhaltens (inkl. Enthaltung) mit Conditional-Logit. CL enthält policy und nonpolicy Komponente (so auch u.a. Adams 2005, Thurner 2012) Policy-Modell: Vier Issues in BTW09. Nonpolicy-Modell: Parteiidentifikation und Kandidatenorientierung + Religions- und Gewerkschaftszugehörigkeit. Imputationsmodell: 1 2 3 Alle Vars des Analysemodells PLUS Vars aus ITNRT-Arbeit, d.h. Werteorientierungen, Pol.Interesse und Bildung PLUS Soziodemografische Vars Alter und Geschlecht Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Einschätzung des benutzten Imputationsmodells Imputationen mit MICE Imputationen mit Amelia Tabelle der benutzten Variablen Var.name q59, q63 − q65 q57x , q63x − q65x q24a, q24c q139a, d288, d273 q1, q1a, q2 q144b + c, d206 Bemerkung: a:CDU Label EGO(LR SOE LA KE) Parteien(LR SOE LA KE) Kand.X PI, Gewerkschaft, Religion Geschlecht, Alter, Pol. Int. Sorgfalt Vertrauen Bildung b:SPD, c:FDP Skalierung Ordinal Ordinal Ordinal Nominal Nom, Metr,Ordinal Ordinal d:Grüne, e:Linke Tabelle : Vars Analyse und Impu-modell Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Missings der Variablen Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Einschätzung des benutzten Imputationsmodells Imputationen mit MICE Imputationen mit Amelia Konnektivität fehlender Daten I Beurteilung von I-Modell u.a. durch Konnektivtät Konnektivität K: Messung der Verbundenheit der Datenmatrix D. K(D) steigt, je mehr y mis in D durch vertikale und horizontale Züge erreichbar sind. K ist messbar über vier Größen: Anteil verwertbarer Fälle Ijk für Var j für Var k. Misst die Anzahl mit verwertbaren Paaren durch in Bezug zu des fehlenden Anteils von Var j Pn i (1 − rij )rik Ijk = P n i Norbert Schöning (1 − rij ) Modellbasierte Imputationsverfahren im Vergleich Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Einschätzung des benutzten Imputationsmodells Imputationen mit MICE Imputationen mit Amelia Konnektivität fehlender Daten II Influx-Koeffizient Ij misst die beziehbare Information von allen anderen Vars zu j Pp Pp Pn Ij = j i k (1 − rij )rik i rik Pp Pn k Outflux-Koeffizient Oj misst die nutzbare Information von Var j zu allen anderen Vars. Sie errechnet sich aus der Anzahl verwertbarer Paare (j, k) Pp Pp Pn Oj = j k (1 − rik )rij i (1 − rik ) i Pp Pn k Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Beurteilung des Imputationsmodells var q1a q57a q57c q57d q57e q57f q59 q60a q60c q60d q60e q60f q61a q61c q61d q61e q61f pobs 1.00 0.94 0.94 0.93 0.92 0.95 0.93 0.91 0.92 0.90 0.85 0.86 0.92 0.92 0.87 0.88 0.86 influx 0.00 0.04 0.04 0.05 0.05 0.03 0.05 0.07 0.06 0.08 0.12 0.12 0.06 0.05 0.10 0.09 0.11 outflux 1.00 0.62 0.65 0.59 0.60 0.70 0.64 0.61 0.57 0.51 0.40 0.44 0.59 0.57 0.41 0.46 0.43 var q62c q62d q62e q62f q63 q64 q65 d206f d273f q139af q144bf q144cf q1f q24af q24cf q2f d288f pobs 0.94 0.89 0.97 0.82 0.95 0.98 0.95 1.00 0.98 0.97 1.00 1.00 1.00 1.00 0.98 1.00 1.00 influx 0.04 0.09 0.02 0.15 0.04 0.02 0.04 0.00 0.02 0.02 0.00 0.00 0.00 0.00 0.01 0.00 0.00 outflux 0.65 0.49 0.77 0.41 0.82 0.89 0.79 0.99 0.96 0.93 0.99 0.98 1.00 1.00 0.94 1.00 0.99 MICE: Verteilung von Y und Diagnostik 1 Geschätzte Verteilung: Whisker-Plot Yo bs und Ẏi mp je Imputation 2 Diagnostik I: Kerndichteschätzer von Yo bs und Ẏi mp 3 Diagnostik II: Konvergenz Geschätzte Verteilung: Whisker-Plot Yobs und Ẏimp Diagnostik I: Kerndichteschätzer von Yobs und Ẏimp Diagnostik II: Konvergenz Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Einschätzung des benutzten Imputationsmodells Imputationen mit MICE Imputationen mit Amelia AMELIA: Verteilung von Y und Diagnostik 1 Geschätzte Verteilung: Yo bs und Ẏi mp über alle Imputationen 2 Diagnostik I: Modellierung mit Bounds 3 Diagnostik II: Konvergenz Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich Verteilung von Yobs und Ẏimp über alle Imputationen Diagnostik I: Modellierung ohne Bounds Diagnostik II: Konvergenz Thema des Vortrages Grundlagen der Imputation Modellbasierte Verfahren BTW09: Modell und Daten Diskussion Vielen Dank für die Aufmerksamkeit! Norbert Schöning Modellbasierte Imputationsverfahren im Vergleich