Möglichkeiten der Verbesserung des EM-Algorithmus - TL

Werbung
Möglichkeiten der Verbesserung des EM-Algorithmus
für normalverteilte Daten
Dipl. Ing. Luis Huergo
Universität Tübingen
Lehrstuhl für Statistik, Ökonometrie und Unternehmensforschung
Prof. Dr. Dr. h.c. mult. Eberhard Schaich
([email protected])
08. Juli 2008
Luis Huergo
Erweiterung eines EM-Algorithmus
08. Juli 2008
1 / 11
Motivation
Neuartige Indikatoren für die wissensbasierte Wirtschaft
(knowledge-based economy) sollten zu einem einzigen
zusammengesetzten Indikator aggregiert und seine Eigenschaften
untersucht werden.
Es wurden 116 Indikatoren ausgewählt.
Kein einziges der 25 teilnehmenden europäischen Länder war in der
Lage, alle 116 Indikatoren zu liefern.
Der fertiggestellte Datensatz hatte 42% fehlende Daten.
Diese fehlenden Daten mussten imputiert werden.
Luis Huergo
Erweiterung eines EM-Algorithmus
08. Juli 2008
2 / 11
Imputation
Die (moderne) Imputation eines mit fehlenden Werten behafteten
Datensatzes kann mit der Rekonstruktion eines beschädigten Bildes
verglichen werden.
Luis Huergo
Erweiterung eines EM-Algorithmus
08. Juli 2008
3 / 11
Moderne Imputationsverfahren: EM-Algorithmus und
MCMC-Methoden
EM Algorithm
Joint distribution of the data
Expectation
T1
7,60
NA
11,95
20,21
NA
23,87
-7,47
8,13
18,76
1,31
NA
NA
-4,78
2,18
NA
-6,94
5,46
6,77
NA
7,08
5,84
NA
NA
4,82
1,90
3,65
7,24
NA
6,68
NA
2,46
8,18
5,95
4,55
6,01
1,94
NA
1,20
4,15
11,85
4,02
3,15
-0,70
-1,56
0,34
3,71
NA
NA
-1,91
0,21
NA
-0,58
-0,16
NA
1,13
-0,07
NA
4,34
NA
NA
T2
Tp
Y1
T11 T12 T1p
T22 T2p
Tpp
Y2
Y3
μ
μ Σ
Maximization
Luis Huergo
MCMC
P(ymis| yobs, θ) -Imputation-
Erweiterung eines EM-Algorithmus
Ym
P( θ| yobs, ymis) -Posterior-
08. Juli 2008
4 / 11
Ergebnisse der Simulation
Zeile 106, Spalte 4
Zeile 106, Spalte 5
0.8
0.6
Dichte
0.4
0.0
0.2
0.4
0.2
0.0
Dichte
0.6
0.8
Bekannte Parameter
Vollständiger Datensatz
Datensatz mit NA's
0
1
2
Luis Huergo
3
4
−1
0
1
2
3
Erweiterung eines EM-Algorithmus
08. Juli 2008
5 / 11
0.6
Probleme bei nicht normalverteilten Daten
Die Werte der rot markierten
Fläche sind unter der
rechtsschiefen Verteilung
unzulässig.
0.0
0.1
0.2
f(x)
0.3
0.4
0.5
Beide Verteilungen haben den
gleichen Erwartungswert und die
gleiche Varianz
−4
−2
0
2
4
6
8
x
Der Algorithmus kann jedoch, anhand der ihm verpassten Parameter,
ausschließlich diese Normalverteilung sehen“.
”
Luis Huergo
Erweiterung eines EM-Algorithmus
08. Juli 2008
6 / 11
Stark vereinfachtes Beispiel
Aufgrund der Schiefe der
Verteilungen weist die
Punktwolke einen nichtlinearen
Verlauf auf.
Die roten Punkte unterhalb
der gestrichelten grauen Linie
sind unter der ersten
Verteilung unzulässig.
Luis Huergo
Erweiterung eines EM-Algorithmus
08. Juli 2008
7 / 11
Momentenbedingungen im Falle einer multivariaten
Normalverteilung
Gegeben sei Y := Y θ normalverteilt.
E[(Y − µ)3+2k ] = 0
für k = 0, 1 . . .
Randverteilungen
E[(Y − µ)4 ] − 3σ 4 = 0

E[(ε)3+2k ] = 0
für k = 0, 1 . . . 
4
4
E[(ε) ] − 3σε = 0
Residuen

E[X β(ε2 − σε2 )] = 0






=: g





Diese Bedingungen sind im Falle einer multivariaten Normalverteilung stets
erfüllt.
Die Schätzstrategie besteht nun darin, dass eine geeignet gewichtete
quadratische Form der empirischen Momentenbedingungen bezüglich des
Potenzparameters minimiert wird:
min ĝ (θ)0 W ĝ (θ)
θ
Luis Huergo
Erweiterung eines EM-Algorithmus
08. Juli 2008
8 / 11
Vergleich beider Methoden
Proposed EM−general−imputation
1
8
e+04
1
e+04
e+04
●
Variable 2
●
●
●
●
●●
●
●
● ●
● ●
●
●●
●
●
● ●
●
●
●
●●
● ● ●
● ● ●
● ●
●●● ● ●● ●
●
●
●
●● ●
●
●●● ● ● ●
●● ●
●
●● ●●●● ●●
●
● ●
●●● ●
● ●● ●
●
●
●
●●●●
●● ●●
●
● ●
●●
●
●●
●●
●
●
● ●
●●●●●
● ●●
●
●
●●●●
●
●●
● ●● ●
●
●
●
●
●
●
●
●
●
●
●●●●●●
●
●
●●
●●
●● ● ●
●●●
●●●
●●● ●●●●
●
●
0
0
e+00
2
e+04
●
● ●
●
●
●
●●
● ● ●
● ● ●
● ●
●●● ● ●● ●
●
●
●
●● ●
●
●●● ● ● ●
●● ●
●
●● ●●●● ●●
●
● ●
●●● ●
● ●● ●
●
●
●
●●●●
●● ●●
●
● ●
●●
●
●●
●●
●
●
● ●
●●●●●
● ●●
●
●
●●●●
●
●●
● ●● ●
●
●
●
●
●
●
●
●
●
●
●●●●●●
●
●
●●
●●
●● ● ●
●●●
●●●
●●● ●●●●
●
● ●
4
●●
●
e+04
●
●
● ●
● ●
●
●
●
●
2
4
● ●
●●
●
e+00
e+04
●
●
●
6
e+04
6
●
●
●
●
●
e+04
8
●
●
Variable 2
●
e+05
●
e+05
Classical EM−normal−imputation
0
10
20
30
Variable 1
Luis Huergo
40
50
0
10
20
30
40
50
Variable 1
Erweiterung eines EM-Algorithmus
08. Juli 2008
9 / 11
EM-Algorithmus/Potenztransformation + MCMC
Luis Huergo
Erweiterung eines EM-Algorithmus
08. Juli 2008
10 / 11
Vielen Dank für Ihre Aufmerksamkeit.
Luis Huergo
Erweiterung eines EM-Algorithmus
08. Juli 2008
11 / 11
Herunterladen