Möglichkeiten der Verbesserung des EM-Algorithmus für normalverteilte Daten Dipl. Ing. Luis Huergo Universität Tübingen Lehrstuhl für Statistik, Ökonometrie und Unternehmensforschung Prof. Dr. Dr. h.c. mult. Eberhard Schaich ([email protected]) 08. Juli 2008 Luis Huergo Erweiterung eines EM-Algorithmus 08. Juli 2008 1 / 11 Motivation Neuartige Indikatoren für die wissensbasierte Wirtschaft (knowledge-based economy) sollten zu einem einzigen zusammengesetzten Indikator aggregiert und seine Eigenschaften untersucht werden. Es wurden 116 Indikatoren ausgewählt. Kein einziges der 25 teilnehmenden europäischen Länder war in der Lage, alle 116 Indikatoren zu liefern. Der fertiggestellte Datensatz hatte 42% fehlende Daten. Diese fehlenden Daten mussten imputiert werden. Luis Huergo Erweiterung eines EM-Algorithmus 08. Juli 2008 2 / 11 Imputation Die (moderne) Imputation eines mit fehlenden Werten behafteten Datensatzes kann mit der Rekonstruktion eines beschädigten Bildes verglichen werden. Luis Huergo Erweiterung eines EM-Algorithmus 08. Juli 2008 3 / 11 Moderne Imputationsverfahren: EM-Algorithmus und MCMC-Methoden EM Algorithm Joint distribution of the data Expectation T1 7,60 NA 11,95 20,21 NA 23,87 -7,47 8,13 18,76 1,31 NA NA -4,78 2,18 NA -6,94 5,46 6,77 NA 7,08 5,84 NA NA 4,82 1,90 3,65 7,24 NA 6,68 NA 2,46 8,18 5,95 4,55 6,01 1,94 NA 1,20 4,15 11,85 4,02 3,15 -0,70 -1,56 0,34 3,71 NA NA -1,91 0,21 NA -0,58 -0,16 NA 1,13 -0,07 NA 4,34 NA NA T2 Tp Y1 T11 T12 T1p T22 T2p Tpp Y2 Y3 μ μ Σ Maximization Luis Huergo MCMC P(ymis| yobs, θ) -Imputation- Erweiterung eines EM-Algorithmus Ym P( θ| yobs, ymis) -Posterior- 08. Juli 2008 4 / 11 Ergebnisse der Simulation Zeile 106, Spalte 4 Zeile 106, Spalte 5 0.8 0.6 Dichte 0.4 0.0 0.2 0.4 0.2 0.0 Dichte 0.6 0.8 Bekannte Parameter Vollständiger Datensatz Datensatz mit NA's 0 1 2 Luis Huergo 3 4 −1 0 1 2 3 Erweiterung eines EM-Algorithmus 08. Juli 2008 5 / 11 0.6 Probleme bei nicht normalverteilten Daten Die Werte der rot markierten Fläche sind unter der rechtsschiefen Verteilung unzulässig. 0.0 0.1 0.2 f(x) 0.3 0.4 0.5 Beide Verteilungen haben den gleichen Erwartungswert und die gleiche Varianz −4 −2 0 2 4 6 8 x Der Algorithmus kann jedoch, anhand der ihm verpassten Parameter, ausschließlich diese Normalverteilung sehen“. ” Luis Huergo Erweiterung eines EM-Algorithmus 08. Juli 2008 6 / 11 Stark vereinfachtes Beispiel Aufgrund der Schiefe der Verteilungen weist die Punktwolke einen nichtlinearen Verlauf auf. Die roten Punkte unterhalb der gestrichelten grauen Linie sind unter der ersten Verteilung unzulässig. Luis Huergo Erweiterung eines EM-Algorithmus 08. Juli 2008 7 / 11 Momentenbedingungen im Falle einer multivariaten Normalverteilung Gegeben sei Y := Y θ normalverteilt. E[(Y − µ)3+2k ] = 0 für k = 0, 1 . . . Randverteilungen E[(Y − µ)4 ] − 3σ 4 = 0 E[(ε)3+2k ] = 0 für k = 0, 1 . . . 4 4 E[(ε) ] − 3σε = 0 Residuen E[X β(ε2 − σε2 )] = 0 =: g Diese Bedingungen sind im Falle einer multivariaten Normalverteilung stets erfüllt. Die Schätzstrategie besteht nun darin, dass eine geeignet gewichtete quadratische Form der empirischen Momentenbedingungen bezüglich des Potenzparameters minimiert wird: min ĝ (θ)0 W ĝ (θ) θ Luis Huergo Erweiterung eines EM-Algorithmus 08. Juli 2008 8 / 11 Vergleich beider Methoden Proposed EM−general−imputation 1 8 e+04 1 e+04 e+04 ● Variable 2 ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●● ● ● ●●● ● ● ● ●● ● ● ●● ●●●● ●● ● ● ● ●●● ● ● ●● ● ● ● ● ●●●● ●● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ●●●●● ● ●● ● ● ●●●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●●●●● ● ● ●● ●● ●● ● ● ●●● ●●● ●●● ●●●● ● ● 0 0 e+00 2 e+04 ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●● ● ● ●●● ● ● ● ●● ● ● ●● ●●●● ●● ● ● ● ●●● ● ● ●● ● ● ● ● ●●●● ●● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ●●●●● ● ●● ● ● ●●●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●●●●● ● ● ●● ●● ●● ● ● ●●● ●●● ●●● ●●●● ● ● ● 4 ●● ● e+04 ● ● ● ● ● ● ● ● ● ● 2 4 ● ● ●● ● e+00 e+04 ● ● ● 6 e+04 6 ● ● ● ● ● e+04 8 ● ● Variable 2 ● e+05 ● e+05 Classical EM−normal−imputation 0 10 20 30 Variable 1 Luis Huergo 40 50 0 10 20 30 40 50 Variable 1 Erweiterung eines EM-Algorithmus 08. Juli 2008 9 / 11 EM-Algorithmus/Potenztransformation + MCMC Luis Huergo Erweiterung eines EM-Algorithmus 08. Juli 2008 10 / 11 Vielen Dank für Ihre Aufmerksamkeit. Luis Huergo Erweiterung eines EM-Algorithmus 08. Juli 2008 11 / 11