Clustering B EM-Algorithmus Automatische Bestimmung der Clusteranzahl Daniel Birkmaier, Erlangen, 04.07.2013 Inhalt ● EM-Algorithmus Grundlegendes ● Details ● Anwendung ● Beispiel ● ● Automatische Bestimmung der Cluster-Anzahl Grundlegendes ● Χ2-Statistiken ● ● ● ● Arten Prüfgrößen Beziehungen zum k-Means-Algorithmus Bootstrap-Verfahren ● Beispiel ● 2 EM-Algorithmus Grundlegendes Geschichte des EM-Algorithmus ● 1974 Entdeckung durch Goodman Häufige Verwendung von Autoren in bestimmten Spezialfällen ● 1977 Verallgemeinerung der Konvergenzanalyse auf breitere Klasse von Problemen durch Dempster, Laird und Rubin → Wichtiges Instrument für statische Analyse ● 1983 Veröffentlichung korrekter, nicht exponentieller Konvergenzanalyse durch Jeff Wu 4 Erinnerung an den k-Means-Algorithmus ● Schritt 1: Zufällige Zuordnung der Objekte zu k Clustern ● Schritt 2: Berechnung der Cluster-Zentren mit arithmetischem Mittel ● Schritt 3: Neuzuordnung der Objekte zum Cluster-Zentrum mit minimaler euklidischer Distanz ● Schritt 4: Iteration Bei Änderung der Cluster-Zuordnung der Objekte Wiederholung ab Schritt 2 5 Unterschiede zwischen k-Means- und EM-Algorithmus ● Verallgemeinerung des k-Means-Algorithmus (Ausnahme: TwoStep-Cluster) ● Schritt 2: Berechnung der Klassenzentren und Klassenanteilswerte Arithmetisches Mittel → Maximum-Likelihood-Schätzung ● Schritt 3: Klassenzuordnung Minimale euklidische Distanz → Zuordnungswahrscheinlichkeit ● Deterministische Zuordnung der Objekte zu den Klassen → Probabilistische Zuordnung der Objekte zu den Klassen ● Beschreibung und Interpretation einer Klassenlösung analog zu kMeans ● Unterschiede kaum bei Klassenzentren, eher bei Klassenanteilswerten 6 EM-Algorithmus ● Schritt 1: Zufällige Zuordnung der Objekte zu k Clustern ● Schritt 2: Berechnung der Cluster-Zentren mit Maximum-Likelihood-Schätzung ● Schritt 3: Neuzuordnung der Objekte zum Cluster-Zentrum mit höchster Zuordnungswahrscheinlichkeit ● Schritt 4: Iteration Bei Änderung der Cluster-Zuordnung der Objekte Wiederholung ab Schritt 2 7 Möglichkeiten der Beschreibung und Interpretation äquivalent k-Means-Algorithmus ● Prüfung jeder Variable auf signifikanten Beitrag zur Klassentrennung (Streuung der Variablen und F-Wert) ● Berechnung paarweiser Unterschiede von Klassen in den Variablen ● Zusammenfassung von Variablen innerhalb einer Klasse zu Gruppen ● Prüfung auf signifikante Abweichungen von den Gesamtmittelwerten durch Berechnung von z-Werten ● Beschreibung und inhaltliche Validitätsprüfung durch ● Deskriptionsvariablen ● bi-/multivariate Verfahren 8 Vorteile des EM-Algorithmus ● Gute Vergleichbarkeit ● Modellierbarkeit von Messfehlern in den Variablen ● Kleinere Anfälligkeit für Verzerrungen durch irrelevante Variablen ● Ermittlung von erwartungstreuen Schätzern für Cluster-Zentren ● Formal besser begründete Maßzahlen für Bestimmung der ClusterZahl ● Modellierung unterschiedlicher Variablentypen möglich 9 Nachteile des EM-Algorithmus ● Konvergente und stabile Lösungen benötigen größere Stichproben ● Verletzung von zu treffenden Annahmen kann zu verzerrten Schätzungen führen ● Untersuchung der Identifikation des zu schätzenden Modells 10 EM-Algorithmus Details Konzept der lokalen Unabhängigkeit ● Zentral für EM-Algorithmus ● Modellvorstellung: ● Grundstein der Daten: K latente/unbeobachtete Klassen ● Erklärung der Zusammenhänge zwischen den untersuchten manifesten/beobachteten Variablen durch Klassen ● Einführung der (latenten) Klassen als Kontrollvariablen in die Analyse → Verschwinden der empirischen Zusammenhänge ● Unabhängigkeit manifester Variablen innerhalb jeder Klasse 12 Modellansatz ● K latente Klassen ● Paarweise Unabhängigkeit aller Variablen innerhalb jeder Klasse ● Anteilswert π(k) jeder Klasse k an der Grundgesamtheit ● Normalverteilung mit einem Erwartungswert μkj und der Varianz σkj für jede Klasse k und jede Variable j 2 13 Normalverteilung der Variablen ● Zusammensetzung des beobachteten Wertes xgj der Variablen Xj eines Objekts g einer Klasse k: ● Klassenmittelwert μkj ● Fehlerterm εgj ● εgj ist Realisierung einer normalverteilten Zufallsvariable ξkj ● Erwartungswert 0 ● Varianz σkj2 ● ξkj paarweise unabhängig: cov(ξkj, ξkj*) = 0 14 Grundlegende Stochastikwerte ● Gesamtmittelwert für eine Variable: μ j = ∑ π ( k ) μ kj k ● Kovarianz zwischen zwei Variablen: σ jj = ∑ π ( k ) ( μ kj − μ j ) ( μ kj − μ j ∗ ∗ k ∗ ) ● Varianz einer Variablen: 2 σ = σ jj = ∑ π ( k ) σ + ∑ π ( k ) ( μ kj − μ j ) 2 j k 2 kj k 15 Bedingte Wahrscheinlichkeiten ● Bedingte Wahrscheinlichkeit für das Auftreten eines Objektes g mit bestimmtem Wert xgj für die Variable j in der Klasse k: 2 1 π ( x gj ∣ k ) = ϕ ( x gj ∣ μ kj , σ kj ) = e √ 2 π σ kj ( x gj − μ kj ) 2 2 σ kj ● Bedingte Wahrscheinlichkeit für die Zugehörigkeit eines Objektes g zu einer Klasse k: π ( g ∣ k ) = ∏ π ( x gj ∣ k ) j 16 Maximum-Likelihood-Schätzung ● Likelihood-Funktion L: L = ∏ ∑ π (k ) π (g ∣ k ) g k ● Log-Likelihood-Funktion LL: LL = lnL = ∑ ln ∑ π ( k ) π ( g ∣ k ) g k ● Schätzwertbestimmung durch Funktionsmaximierung 17 EM-Algorithmus Anwendung Grundprinzip des EM-Algorithmus ● Expectation-Schritt (E-Schritt): Abschätzung der Zuordnungswahrscheinlichkeiten π(k | g) Annahme: Modellparameter π(k), µkj und σkj sind gegeben ● Maximization-Schritt (M-Schritt): Abschätzung der Modellparameter π(k), µkj und σkj Annahme: Zuordnungswahrscheinlichkeiten π(k | g) sind gegeben 19 EM-Algorithmus ● Schritt 1: Zufällige Zuordnung der Objekte zu k Clustern ● Schritt 2: E-Schritt Berechnung der Cluster-Zentren mit Maximum-Likelihood-Schätzung ● Schritt 3: M-Schritt Neuzuordnung der Objekte zum Cluster-Zentrum mit höchster Zuordnungswahrscheinlichkeit ● Schritt 4: Iteration Bei Änderung der Cluster-Zuordnung der Objekte Wiederholung ab Schritt 2 20 Annahme ● Wahrscheinlichkeit für Auftreten einer Klasse bei Objekt g gegeben π (k ∣ g ) ● Vorsicht! ● Annahme entspricht nicht den Tatsachen ● Nicht verwechseln mit der bisher verwendeten Wahrscheinlichkeit: π (g ∣ k ) 21 Folgerung ● Log-Likelihood-Funktion LL = ∑ ln ∑ π ( k ) π ( g ∣ k ) g k ● Vereinfachung LL = ∑ ∑ π ( k ∣ g ) ( ln π ( k ) + ln π ( g ∣ k ) ) g = k ∑ ∑ π(k ∣ g) g k ( ) ln π ( k ) + ∑ ln π ( x gj ∣ k ) j 22 Schätzung von π(k | g) ● Satz von Bayes P ( A ∣B ) = P ( B ∣ A) P ( A) P(B) ● Schätzung p(k | g) von π(k | g) p(k ∣ g ) = p (k ) p( g ∣ k ) ∑ p (k )p ( g ∣ k ) k 23 EM-Algorithmus - Schritt 1 ● Berechnung oder Eingabe von Startwerten für ● Modellparameter oder ● Zuordnungswahrscheinlichkeiten (Bei Startwerten hierfür gehe zu Schritt 3) 24 EM-Algorithmus - Schritt 2 ● Schätzung der Zuordnungswahrscheinlichkeiten π(k | g): p (k ) p ( g ∣ k ) i−1 p(k ∣ g ) = i i−1 ∑ i −p1 ( k ) i −p1 ( g ∣ k ) k ● Hierbei gilt: ( p ( g ∣ k ) = ∏ p ( x gj ∣ k ) = ∏ ϕ x gj ∣ ̄ x i j i−1 j i −1 kj , s i −1 kj ) ● Mittig tiefgestellter Index: Iterationszähler 25 EM-Algorithmus - Schritt 3 ● Schätzung der Modellparameter π(k), µkj und σkj ∑ pi ( k ∣ g ) g p(k ) = n i x̄ kj = ∑ pi ( k ∣ g ) x gj g i ∑ pi ( k ∣ g ) g 2 kj s = i ( ∑ pi ( k ∣ g ) g 2 x gj − x ̄ kj i ) ∑ pi ( k ∣ g ) g 26 EM-Algorithmus - Schritt 4 ● Prüfung der Konvergenz Abbruch des Algorithmus unter folgenden Bedingungen: ● Verbesserung der Log-Likelihood-Funktion unter Schwellenwert (zum Beispiel 10-7) und/oder ● Maximale Abweichung aufeinanderfolgender Schätzwerte unter Schwellenwert (zum Beispiel 10-4) 27 Anzahl zu schätzender Parameter Anzahl Art K-1 Klassenanteilswerte π(k) (Definition eines Anteilwertes durch Bedingung, dass die Summe aller Werte gleich 1 ist.) Km Klassenzentren µkj: Erwartungswerte jeder Variablen für jede Klasse Km Klassenvarianzen: Varianzen σkj2 jeder Variablen für jede Klasse K(1 + 2m) - 1 Gesamtzahl zu schätzender Parameter =: mK 28 Überwachung der lokalen Unabhängigkeit ● Abspeicherung der Klassenzuordnungswahrscheinlichkeiten p(k | g) ● Berechnung einer Varianz-Kovarianz-Matrix Wk für jede Klasse (Gewichte: p(k | g)) ● Unabhängigkeit ↔ Wk ist Diagonalmatrix ● Möglichkeiten: ● Likelihood-Quotienten-Test ● Bivariate Residuen 29 Überwachung der Klassenüberlappungen ● Große Beeinflussung der Konvergenz und Stabilität → Überwachung sinnvoll ● Gefahr für Instabilität ab bestimmtem Überlappungsanteil stark erhöht ● Überwachungsmöglichkeiten: ● Dichotomisierung der Zuordnungswahrscheinlichkeiten und Berechnung aller Ausprägungskombinationen (Schwelle: 1/K) ● Fuzzy-Clustering-Messzahlen ● Empirische Stabilitätsuntersuchungen 30 Beispiel ● Zweidimensional ● Nicht überlappende Klassen 31 EM-Algorithmus Automatische Bestimmung der Cluster-Anzahl Grundprinzip ● Ausführung des EM-Algorithmus ● Für verschiedene Anzahlen von Klassen ● Mit verschiedenen Startwerten je Klasse ● Anwendung von ● Χ2-Statistiken ● Bootstrap-Verfahren ● Berechnungen für jede Klassenanzahl K 33 Χ2-Statistiken ● Ausmaß der durch das Modell unerklärbaren Beziehungen zwischen den Variablen ● Je größer die Statistik, desto schlechter das Modell 34 Indikator-Variablen ● Sichtbare Klassenvariablen y Latente Klassenvariablen ● Unsichtbare Klassenvariablen x Kovariaten ● Variablen z mit direktem Einfluss auf ● Indikator-Variablen und/oder ● Latente Klassenvariablen 35 Datenmuster ● Für ein Datenmuster i* haben alle enthaltenen Fälle i dieselben Ausprägungen in den Indikatoren und Kovariaten ● wi := Fallgewicht ● ni* := Auftrittshäufigkeit des Datenmusters i* ni = ∗ ∑ wi i ∈ i∗ 36 Weitere Annahmen und Voraussetzungen ● Kovariatenmuster wie bei Datenmuster i* ui ∗ ● Fallanzahl für Kovariatenmuster u i nu i ∗ ∗ ● Bedingte multinomiale Wahrscheinlichkeit für Datenmuster i* bei Kovariatenmuster u i ̂f ( y ∣ z ) ∗ i ∗ i ∗ ● Erwartete Zellhäufigkeiten ̂ = n f̂ ( y ∣ z ) m ∗ i ui ∗ i ∗ i ∗ 37 Χ2-Statistiken ● Likelihood-Ratio-Χ2-Statistik I∗ ni L = 2 ∑ n i ln ̂i m i =1 2 ∗ ∗ ∗ ∗ ● Pearson-Χ2-Statistik 2 Χ = I∗ ∑ ∗ i =1 2 ni −n ̂ mi ∗ ∗ ● Cressie-Read-Χ2-Statistik I ∗ CR 2 = 1,8 ∑ ni i∗ = 1 (( ) ) ni ̂i m ∗ ∗ 2 3 −1 ∗ 38 Anzahl Freiheitsgrade ● Anzahl an beobachteten Indikatoren im Kovariatenmuster i* ∗ Tu ● Anzahl der Kategorien des t-ten beobachteten Indikators ∗ M ut ● Anzahl Freiheitsgrade ( ( U df = min ∗ Tu ∑ ∏ M ∗ut − 1 u=1 t =1 ) ) , n − mK Freiheitsgrade df beruhen auf der Stichprobengröße n, wenn die Anzahl der unabhängigen Zellen in der hypothetischen Kreuztabelle größer ist als die Stichprobengröße 39 Informationsmaße - Likelihood-Funktion ● Akaike-Informationsmaß: AICK 2 AICK = LK − 2 df ● Akaike-3-Informationsmaß: AIC3K 2 AIC3K = L K − 3 df ● Bayes'sches Informationsmaß: BICK 2 BICK = LK − df ln n ● Konsistentes Akaike-Informationsmaß: CAICK 2 CAICK = LK − df ln ( n + 1 ) 40 Informationsmaße - Problem ● Ähnliche Ergebnisse bei Beurteilung eines Modellvergleichs ● Große Anzahl Freiheitsgrade df → Nicht verwertbare Ergebnisse möglich bei Berechnung mit L 2 → Notwendigkeit der Berechnung mit LL I LL = ∗ ∑ w i ln ̂f ( y i ∣ z i ) ∗ ∗ ∗ i =1 41 Informationsmaße - Log-Likelihood-Funktion ● Akaike-Informationsmaß: AICK AICK = 2 m K − LLK ● Akaike-3-Informationsmaß: AIC3K AIC3K = 3 m K − 2LL K ● Bayes'sches Informationsmaß: BICK BICK = m K ln n − 2LL K ● Konsistentes Akaike-Informationsmaß: CAICK CAICK = m K ln ( n + 1 ) − 2 LLK 42 Unähnlichkeitsindex ● Englisch: Dissimilarity Index I∗ n+ DI = ∑ (∣n i ∗ i =1 ∗ ̂i ∣ − m ̂i ) −m ∗ ∗ 2n ● Stärke der Abweichung der beobachteten und geschätzten Zellhäufigkeiten voneinander ● Für perfekte Modellanpassung zu verändernder Teil der Stichprobe 43 Berechnungen für jede Klassenanzahl K ● Prozentuelle Verbesserung zum Nullmodell: PV0K ∣LLK∣ PV0K = 1 − ∣LL0∣ ● Prozentuelle Verbesserung zu vorausgehendem Modell: PV K ∣LLK∣ PVK = 1 − ∣LL K − 1∣ ● Informationsmaß ● Unähnlichkeitsindex ● Veraltet: Likelihood-Quotienten-Statistiken 44 Beziehungen von EM- und k-Means-Modellprüfgrößen ● PV0K ↔ ηK2 (Erklärte Streuung) Auswahl von Lösungen mit bestimmtem Mindestwert für PV0K ● PVK ↔ PREK (Prozentuale Verbesserung zu vorheriger Lösung) Auswahl von Lösungen mit starkem Abfall bei nachfolgender Lösung ● Informationsmaße ↔ Fmax (Maximale F-Statistik) Auswahl von Lösung mit kleinstem Informationsmaß ● Likelihood-Quotienten-Statistiken ↔ Bealsche F-Werte Auswahl der Lösung, die im Vergleich zu allen ● vorausgehenden Lösungen signifikant ist ● nachfolgenden Lösungen nicht signifikant ist (Zur Signifikanzprüfung sind Bootstrap-Verfahren zu empfehlen) 45 Bootstrap-Verfahren ● Lieferungen von Wahrscheinlichkeiten für Modellprüfgrößen ● Statistiken besitzen keine Χ2-Verteilungen → Approximative Eigenschaften nicht erfüllt → Heute Bootstrap-Verfahren empfohlen statt Χ2-Statistiken 46 Beispiel ● Zweidimensional ● Überlappende Klassen 47 Noch Fragen? Anhang Literaturverzeichnis ● Johann Bacher, Andreas Pöge, Knut Wenzig (2010): Clusteranalyse Anwendungsorientierte Einführung in Klassifikationsverfahren. Oldenbourg Verlag München. ISBN 978-3-486-58457-8. ● Stuart Russell, Peter Norvig (2004): Künstliche Intelligenz. Pearson Studium. ISBN 3-86894-098-7. ● Bing Liu (2011): Web Data Mining – Exploring Hyperlinks, Contents, and Usage Data. Springer. ISBN 978-3-642-19459-7. ● Rob Sullivan (2012): Introduction to Data Mining for the Life Sciences. Springer. ISBN 978-1-58829-942-0. ● Ian H. Witten, Eibe Frank, Mark A. Hall (2011): Data Mining – Practical Machine Learning Tools and Techniques. Morgan Kaufmann. ISBN 978-0-12-374856-0. 50 Literaturverzeichnis ● Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B 39 (1): 1–38. JSTOR 2984875. MR 0501537. ● Sundberg, Rolf (1974). "Maximum likelihood theory for incomplete data from an exponential family". Scandinavian Journal of Statistics 1 (2): 49–58. JSTOR 4615553. MR 381110. ● Rolf Sundberg. 1971. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University. 51 Literaturverzeichnis ● Sundberg, Rolf (1976). "An iterative method for solution of the likelihood equations for incomplete data from exponential families". Communications in Statistics – Simulation and Computation 5 (1): 55–64. doi:10.1080/03610917608812007. MR 443190. ● Danksagung von Dempster, Laird und Rubin: S. 3, 5 und 11. ● G. Kulldorff. 1961. Contributions to the theory of estimation from grouped and partially grouped samples. Almqvist & Wiksell. ● Anders Martin-Löf. 1963. "Utvärdering av livslängder i subnanosekundsområdet" ("Evaluation of sub-nanosecond lifetimes"). ("Sundberg formula") ● Martin-Löf, Per The notion of redundancy and its use as a quantitative measure of the discrepancy between a statistical hypothesis and a set of observational data. Scand. J. Statist. 1 (1974), no. 1, 3–18. 52 Literaturverzeichnis ● Sundberg, Rolf (1976). "An iterative method for solution of the likelihood equations for incomplete data from exponential families". Communications in Statistics – Simulation and Computation 5 (1): 55–64. doi:10.1080/03610917608812007. MR 443190. ● Danksagung von Dempster, Laird und Rubin: S. 3, 5 und 11. ● G. Kulldorff. 1961. Contributions to the theory of estimation from grouped and partially grouped samples. Almqvist & Wiksell. ● Anders Martin-Löf. 1963. "Utvärdering av livslängder i subnanosekundsområdet" ("Evaluation of sub-nanosecond lifetimes"). ("Sundberg formula") ● Martin-Löf, Per The notion of redundancy and its use as a quantitative measure of the discrepancy between a statistical hypothesis and a set of observational data. Scand. J. Statist. 1 (1974), no. 1, 3–18. 53 Literaturverzeichnis ● Per Martin-Löf. 1966. Statistics from the point of view of statistical mechanics. Lecture notes, Mathematical Institute, Aarhus University. ("Sundberg formula" credited to Anders Martin-Löf). ● Per Martin-Löf. 1970. Statistika Modeller (Statistical Models): Anteckningar från seminarier läsåret 1969–1970 (Notes from seminars in the academic year 1969-1970), with the assistance of Rolf Sundberg. Stockholm University. ("Sundberg formula") ● Wu, C. F. Jeff (Mar. 1983). "On the Convergence Properties of the EM Algorithm". Annals of Statistics 11 (1): 95–103. doi:10.1214/aos/1176346060. JSTOR 2240463. MR 684867. 54 Literaturverzeichnis ● PMartin-Löf, P. The notion of redundancy and its use as a quantitative measure of the deviation between a statistical hypothesis and a set of observational data. With a discussion by F. Abildgård, A. P. Dempster, D. Basu, D. R. Cox, A. W. F. Edwards, D. A. Sprott, G. A. Barnard, O. Barndorff-Nielsen, J. D. Kalbfleisch and G. Rasch and a reply by the author. Proceedings of Conference on Foundational Questions in Statistical Inference (Aarhus, 1973), pp. 1–42. Memoirs, No. 1, Dept. Theoret. Statist., Inst. Math., Univ. Aarhus, Aarhus, 1974. 55