Modellbasierte Imputationsverfahren im Vergleich

Werbung
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Modellbasierte Imputationsverfahren im Vergleich
Norbert Schöning
Geschwister-Scholl-Institut
Lehrstuhl für Empirische Politikforschung
Interdisziplinäres Seminar zur Wahlforschung
Prof. P.W. Thurner / Prof. H. Küchenhoff
28.01.2013
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
1
Thema des Vortrages
2
Grundlagen der Imputation
3
Modellbasierte Verfahren
Multiple iterated chained equations / MICE
Multivariate Normalmodels / AMELIA
4
BTW09: Modell und Daten
Einschätzung des benutzten Imputationsmodells
Imputationen mit MICE
Imputationen mit Amelia
5
Diskussion
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Hintergrund des Vortrages
Promotionsthema: Untersuchung des sog. Item-Nonresponse
in Bundestagswahlstudien.
Zwei wesentliche Ziele: Klärung über Art, Umfang und Folgen
des Ausfalls hinsichtlich Modellierung des Wahlverhaltens auf
Basis von Discrete-Choice Modellen. Adäquate Korrektur
mittels Imputationsverfahren und Untersuchung der
Auswirkungen dieser Korrektur auf ausgewählte
Forschungsergebnisse.
Frisch aus der Datenküche: Ergebnisse sind nur als vorläufig
interpretierbar. Diverse Schritte, wie insbesondere
Konstruktion des „optimalen“ Imputationsmodells und
Überprüfung der MAR-Annahme stehen noch aus.
Thema heute: Vorstellung von Zwischenergebnissen zweier
modellbasierte Verfahren.
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Grundbegriffe
Missing Data unterteilen sich in Unit-Nonresponse und
Item-Nonresponse. Unit-Nonresponse meint den Totalausfall
von Beobachtungen, Item-Nonresponse den selektiven Ausfall
bei einer Menge von Items. Relevant für die Analyse nur der
Datenverlust durch Item-Nonresponse (INR).
INR führt bei der beabsichtigten Discrete Choice Analyse
regelmäßig zu einem Ausfall von 40-60 % der Beobachtungen.
Welche statistischen Probleme können bei „unbedarfter“
listwise (alternativewise) deletion einhergehen?
Item-Nonresponse hat immer negative Auswirkungen! Je nach
Missing-Mechanismus reichen die Auswirkung von Erhöhung
von V (Q) bis verzerrte Puntschätzung von Estimand Q.
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Notation
Yobs := Beobachtete Datenmatrix mit Anzahl n1 ;
Ymis := Fehlende Werte mit Anzahl n0 ;
Y = (Yobs , Ymis ) := Vollständige Daten. Die vollständigen
Daten enthalten die unbeobachteten und unbekannten Werte
Indikatormatrix R markiert Missing (rij = 0) oder
beobachteten Wert (rij = 1).
→ Beobachtete Information sind Yobs und R.
Zwei Parameter steuern den datengenerierenden Prozess: θ
steuert Y . ψ steuert die Parameter des Missing-Data Modells
und repräsentiert den Missing-Prozess, der die Verteilung von
R hervorruft.
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Klassifikation von Missing Mechanismen
MCAR: Fehlende Daten sind missing completely at
random, wenn gilt: f (R|Y , ψ) = f (R|ψ).
Unproblematischster, aber unwahrscheinlicher Fall
MAR: Fehlende Daten sind missing at random, wenn gilt:
f (R|Y , ψ) = f (R|Yobs , ψ).
Mäßig problematisch und wahrscheinlicher Fall
NMAR: Fehlende Daten sind not missing at random, wenn
gilt: f (R|Y , ψ) = f (R|Y ψ).
Sehr problematisch und nicht unwahrscheinlicher Fall
Zentrale Annahme der Analyse ist MAR. Die Modellierung
von NMAR-Ausfällen ist „tricky“, üblicherweise wird MAR als
Startpunkt gewählt.
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Ignorierbarkeit I
In der gemeinsamen Dichte f (Yobs , R|θ, ψ) wird Y von θ und
R von ψ gesteuert. Hierzu kann die Likelihood formuliert
werden: Lfull (θ, ψ|Yobs , R) ∼ f (Yobs , R|θ, ψ).
ψ ist unbekannt und i.d.R. uninteressant. Beide
Missing-Mechanismen MAR und MCAR hängen jedoch vom
unbekannten Parameter ψ ab.
Dementsprechend beinhaltet auch die Likelihood den
Parameter des Missing-Modells. Dennoch (!) lässt sich ohne
Kenntnis von ψ auf θ schließen, sofern „Ignorierbarkeit“
gegeben ist (Rubin 2002).
Ignorierbarkeit liegt vor, wenn:
1
2
die Daten MAR oder MCAR sind
θ und ψ unabhängig sind, d.h. der gemeinsame Parameterraum
(θ, ψ) ist das Produkt von den Parameterräumen θ und ψ.
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Ignorierbarkeit II
Ignorierbarkeit „schneidet“ R aus der Verteilung:
P(Ymis |Yobs , R) = P(Ymis |Yobs ).
Dies impliziert: P(Ymis |Yobs , R = 1) = P(Ymis |Yobs , R = 0),
d.h. die Verteilung unterscheidet sich nicht zwischen
Respondern und Nonrespondern.
Dies erlaubt es, Züge aus der Verteilung der Responder zu
ziehen und diese für die Nonresponder zu imputieren
Beispiel
In einem Datensatz liegen fehlende Werte in Wahlverhalten y vor,
vollständig beobachtet sind Alter und Geschlecht. Alter und
Geschlecht sind direkt und indirekt mit dem WV verbunden ⇒
Verbesserung der Imputation durch Nutzung von Geschlecht und
Alter, da MAR die Gleichheit von Respondern und Nichtrespondern
impliziert.
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Ignorierbarkeit III
Durch die Ignorierbarkeit kann θ zwar aus der
Posteori-Verteilung P(θ|Yobs ) geschätzt werden. Gleichzeitig
ist diese Verteilung schwer bestimmbar.
P(θ|Yobs ) kann jedoch dargestellt werden als (unendlich)
gewichtete Summe der Verteilung der Posteori von θ zu
den(hypothetischen) vollen Daten und der Posteori-Verteilung
der fehlenden Daten zu den beobachteten Daten.
Hauptsatz der Imputation
P(θ|Yobs ) =
R
P(θ|Yobs , Ymis )P(Ymis |Yobs )dYmis
Diese Darstellung vereinfacht das Schätzproblem erheblich
und begründet iterative modellbasierte Verfahren wie MICE
und AMELIA.
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Multiple Imputation
Imputationsverfahren können danach unterschieden werden,
ob sie für den fehlenden Wert genau einen oder m > 1 Werte
schätzen.
Single Imputations unterschätzen jedoch die Varianz von θ
systematisch
Modellbasierte Verfahren sind von Hot-Deck Verfahren
abzugrenzen
1
2
Bei dieser Verfahrensklasse werden die Beobachtungen mit
fehlenden Werten vollständigen Beobachtungen nach
bestimmten Ähnlichkeitskriterien zugeordnet.
Hot-Deck Verfahren können single und multipel imputieren als
auch mit modellbasierten Verfahren kombiniert werden.
Trennung von Imputation und Analyse: Bei multiplen
Verfahren können die Parameter mithilfe der
Rubin-Regeln"kombiniert werden.
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Univariate Imputationen
Multivariate Imputationen in MICE stellen eine Kette von
univariaten Imputationen dar (Chained equation-Ansatz).
Je nach Skalierung und Modellierungsstrategie lassen sich
verschiedene Modelle spezifizieren.
Metrisches Skalenniveau I: NORM-Modell - Gewinne
Imputationen aus linearer Regression ẏ mis = X βmis + ;
optional mit Rauschen und Parameter-Unsicherheit für die
Varianzmodellierung.
Metrisches Skalenniveau II: Predictive Mean Matching Schätzung von Werten mit NORM und dann Bildung eines
d-großen Pools y obs für jeden geschätzten Fehlendwert auf
Basis minimierter Distanzen. Imputation durch Zufallszug aus
dem Pool.
Ordinales Skalenniveau: Ordinale logistische Regression,
Imputation durch Zug aus der geschätzten WSK-Verteilung
Nominales Skalenniveau: Multinomiale (binäre) logistische
Regression, Imputation durch Zug aus der geschätzten
WSK-Verteilung
PMM I: Lineare Regression mit Bootstrap
Regression mit Bootstrap
1
Ziehe Bootstrap-Stichprobe (ẏobs , Ẋobs ) vom Umfang n1 aus
(yobs , Xobs )
2
Berechne das Kreuzprodukt Ṡ = Ẋobs Ẋobs
3
Berechne V̇ = (Ṡ + diag(Ṡ)κ)−1 für kleine κ
4
Berechne die Regressionsgewichte für β̇ = V̇ Ẋobs ẏobs
5
Berechne σ̇ = (ẏobs − Ẋobs β̇) (ẏobs − Ẋobs β̇)/(n1 − q − 1)
6
Ziehe n0 unabhängige N(0, 1) Variaten für Vektor z˙2
Berechne die n0 Werte ẏ = Xmis β̇ + z2˙σ̇
7
0
0
0
Matching-Komponente
1
Berechne die (hypothetischen) Distanzen
η̇(i, j) = |Xobs,[i] β̂ − Xmis,[j] β̇ mit i = 1, ..., n1 und j = 1, ..., n0
2
Bilde n0 Spender-Pools. Jeder enthält d-Spender Zj aus Yobs ,
P
sodass die die Bedingung [min: d η̇(i, j)] erfüllt ist.
3
Ziehe zufallsbasiert einen Spender ij aus Zj für j = 1, ..., n0
und wiederhole dies für M = 1, ..., m
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Multiple iterated chained equations / MICE
Multivariate Normalmodels / AMELIA
Multivariate Imputationen in MICE
Während Chained-Equations Zug um Zug bedingte
Verteilungen konstruieren (FCS: „Fully conditional
specification“), modelliert AMELIA eine gemeinsame
Verteilung (JM: „Joint Modelling“)
Die theoretische Rechtfertigung für FCS ist die Idee, dass
mithilfe von Zügen aus den bedingten Verteilungen die
gemeinsame Verteilung modelliert werden kann (→ „Idee des
Gibbs-Samplers“).
Dementsprechend ist die Anzahl der 1, ..., M Imputationen zu
unterscheiden von der Anzahl von t = 1, ..., T Iterationen der
vollständigen Kette. Eine vollständige Kette regressiert bei
p-Variablen p-fach.
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Multiple iterated chained equations / MICE
Multivariate Normalmodels / AMELIA
Algorithmus der multivariaten Imputation in MICE
Spezifiziere das Imputationsmodell für alle j = 1, ..., p
P(Yjmis |Yjobs , Y−j , R) anhand etwaiger Fehlendmuster und
den Modellen univariater Imputation
Generiere als Startwerte Yj0 für jedes j aus 1, ..., p durch
Zufallsauswahl aus Yjobs und wiederhole für j = 1, ..., p und
t = 1, ..., T und m = 1, ..., M
t = Ẏ t = (Ẏ t , Ẏ t , Ẏ t−1 , ..., Ẏ t−1 als
Definiere Ẏ−j
p
−j
1
j−1
j+1
vollständige Daten, aber ohne Yj
t ,R
Berechne φ̇tj ∼ P Yjmis |Yjobs , Ẏ−j
t , R, φ̇t
Imputiere Ẏjt ∼ P Yjmis |Yjobs , Ẏ−j
j
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Multiple iterated chained equations / MICE
Multivariate Normalmodels / AMELIA
AMELIA I
AMELIA beruht auf einer gemeinsamen Modellierung auf
Basis der MVN: Y ∼ Nk (µ, Σ)
MVN relativ robust (Schafer 1997), aber bei kategorialen
Daten höhere WSK implausibler Werte/Verteilungen. King
2001: "We find that the normal approximation is usually good
enough even in small, nonnormal samples so that the
algorithm operates quickly"
Zwei Algorithmenklassen zur Behandlung von Missing Data:
IP und EM. IP beruht auf MCMC:
Vorteil ist daher problemdäquat durch die Simulation von
Verteilungen.
Nachteil: IP besitzt die bekannten MCMC Nachteile:
Rechenaufwändig und diagnostische Probleme (Konvergenz).
Der EM ist hingegen ein likelihood-basierter deterministischer
Algorithmus.
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Multiple iterated chained equations / MICE
Multivariate Normalmodels / AMELIA
AMELIA II
Expectation-Maximization-Algorithmus besteht aus zwei
Schritten:
1
2
E-Schritt: Q(θ|θt ) = EY mis |Y obs ,θt [logL(θ|Y mis , Y obs ]
M-Schritt:θt+1 = maxθ Q(θ|θt )
Rechentechnisch gesehen basiert die Amelia-Imputation auf
einem EM-Algorithmus mit vorgeschaltetem Bootstrapping
1
2
3
Schritt 1: Bootstrappe m Stichproben vom Umfang n aus Y
Schritt 2: Imputiere mithilfe des EM-Algorithmus
Schritt 3: Ersetze nun die gebootstrappten Fälle durch Y des
vorliegenden Datensatzes und berechne für n0 in 1, .., M die
Werte anhand der M EM-Regressionsgewichtsvektoren
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Einschätzung des benutzten Imputationsmodells
Imputationen mit MICE
Imputationen mit Amelia
Analyse- und Imputationsmodell
Analysemodell: Untersuchung des Wahlverhaltens (inkl.
Enthaltung) mit Conditional-Logit. CL enthält policy und
nonpolicy Komponente (so auch u.a. Adams 2005, Thurner
2012)
Policy-Modell: Vier Issues in BTW09.
Nonpolicy-Modell: Parteiidentifikation und
Kandidatenorientierung + Religions- und
Gewerkschaftszugehörigkeit.
Imputationsmodell:
1
2
3
Alle Vars des Analysemodells PLUS
Vars aus ITNRT-Arbeit, d.h. Werteorientierungen,
Pol.Interesse und Bildung PLUS
Soziodemografische Vars Alter und Geschlecht
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Einschätzung des benutzten Imputationsmodells
Imputationen mit MICE
Imputationen mit Amelia
Tabelle der benutzten Variablen
Var.name
q59, q63 − q65
q57x , q63x − q65x
q24a, q24c
q139a, d288, d273
q1, q1a, q2
q144b + c, d206
Bemerkung: a:CDU
Label
EGO(LR SOE LA KE)
Parteien(LR SOE LA KE)
Kand.X
PI, Gewerkschaft, Religion
Geschlecht, Alter, Pol. Int.
Sorgfalt Vertrauen Bildung
b:SPD, c:FDP
Skalierung
Ordinal
Ordinal
Ordinal
Nominal
Nom, Metr,Ordinal
Ordinal
d:Grüne, e:Linke
Tabelle : Vars Analyse und Impu-modell
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Missings der Variablen
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Einschätzung des benutzten Imputationsmodells
Imputationen mit MICE
Imputationen mit Amelia
Konnektivität fehlender Daten I
Beurteilung von I-Modell u.a. durch Konnektivtät
Konnektivität K: Messung der Verbundenheit der Datenmatrix
D. K(D) steigt, je mehr y mis in D durch vertikale und
horizontale Züge erreichbar sind. K ist messbar über vier
Größen:
Anteil verwertbarer Fälle Ijk für Var j für Var k. Misst die
Anzahl mit verwertbaren Paaren durch in Bezug zu des
fehlenden Anteils von Var j
Pn
i (1 − rij )rik
Ijk = P
n
i
Norbert Schöning
(1 − rij )
Modellbasierte Imputationsverfahren im Vergleich
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Einschätzung des benutzten Imputationsmodells
Imputationen mit MICE
Imputationen mit Amelia
Konnektivität fehlender Daten II
Influx-Koeffizient Ij misst die beziehbare Information von allen
anderen Vars zu j
Pp Pp Pn
Ij =
j
i
k
(1 − rij )rik
i rik
Pp Pn
k
Outflux-Koeffizient Oj misst die nutzbare Information von Var
j zu allen anderen Vars. Sie errechnet sich aus der Anzahl
verwertbarer Paare (j, k)
Pp Pp Pn
Oj =
j
k
(1 − rik )rij
i (1 − rik )
i
Pp Pn
k
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Beurteilung des Imputationsmodells
var
q1a
q57a
q57c
q57d
q57e
q57f
q59
q60a
q60c
q60d
q60e
q60f
q61a
q61c
q61d
q61e
q61f
pobs
1.00
0.94
0.94
0.93
0.92
0.95
0.93
0.91
0.92
0.90
0.85
0.86
0.92
0.92
0.87
0.88
0.86
influx
0.00
0.04
0.04
0.05
0.05
0.03
0.05
0.07
0.06
0.08
0.12
0.12
0.06
0.05
0.10
0.09
0.11
outflux
1.00
0.62
0.65
0.59
0.60
0.70
0.64
0.61
0.57
0.51
0.40
0.44
0.59
0.57
0.41
0.46
0.43
var
q62c
q62d
q62e
q62f
q63
q64
q65
d206f
d273f
q139af
q144bf
q144cf
q1f
q24af
q24cf
q2f
d288f
pobs
0.94
0.89
0.97
0.82
0.95
0.98
0.95
1.00
0.98
0.97
1.00
1.00
1.00
1.00
0.98
1.00
1.00
influx
0.04
0.09
0.02
0.15
0.04
0.02
0.04
0.00
0.02
0.02
0.00
0.00
0.00
0.00
0.01
0.00
0.00
outflux
0.65
0.49
0.77
0.41
0.82
0.89
0.79
0.99
0.96
0.93
0.99
0.98
1.00
1.00
0.94
1.00
0.99
MICE: Verteilung von Y und Diagnostik
1
Geschätzte Verteilung: Whisker-Plot Yo bs und Ẏi mp je
Imputation
2
Diagnostik I: Kerndichteschätzer von Yo bs und Ẏi mp
3
Diagnostik II: Konvergenz
Geschätzte Verteilung: Whisker-Plot Yobs und Ẏimp
Diagnostik I: Kerndichteschätzer von Yobs und Ẏimp
Diagnostik II: Konvergenz
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Einschätzung des benutzten Imputationsmodells
Imputationen mit MICE
Imputationen mit Amelia
AMELIA: Verteilung von Y und Diagnostik
1
Geschätzte Verteilung: Yo bs und Ẏi mp über alle Imputationen
2
Diagnostik I: Modellierung mit Bounds
3
Diagnostik II: Konvergenz
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Verteilung von Yobs und Ẏimp über alle Imputationen
Diagnostik I: Modellierung ohne Bounds
Diagnostik II: Konvergenz
Thema des Vortrages
Grundlagen der Imputation
Modellbasierte Verfahren
BTW09: Modell und Daten
Diskussion
Vielen Dank für die
Aufmerksamkeit!
Norbert Schöning
Modellbasierte Imputationsverfahren im Vergleich
Herunterladen