künstlichen norvig

Werbung
Clustering B
EM-Algorithmus
Automatische Bestimmung der Clusteranzahl
Daniel Birkmaier,
Erlangen, 04.07.2013
Inhalt
● EM-Algorithmus
Grundlegendes
● Details
● Anwendung
● Beispiel
●
● Automatische Bestimmung der Cluster-Anzahl
Grundlegendes
● Χ2-Statistiken
●
●
●
●
Arten
Prüfgrößen
Beziehungen zum k-Means-Algorithmus
Bootstrap-Verfahren
● Beispiel
●
2
EM-Algorithmus
Grundlegendes
Geschichte des EM-Algorithmus
● 1974 Entdeckung durch Goodman
Häufige Verwendung von Autoren in bestimmten Spezialfällen
● 1977 Verallgemeinerung der Konvergenzanalyse auf breitere Klasse
von Problemen durch Dempster, Laird und Rubin
→ Wichtiges Instrument für statische Analyse
● 1983 Veröffentlichung korrekter, nicht exponentieller
Konvergenzanalyse durch Jeff Wu
4
Erinnerung an den k-Means-Algorithmus
● Schritt 1:
Zufällige Zuordnung der Objekte zu k Clustern
● Schritt 2:
Berechnung der Cluster-Zentren mit arithmetischem Mittel
● Schritt 3:
Neuzuordnung der Objekte zum Cluster-Zentrum mit minimaler
euklidischer Distanz
● Schritt 4:
Iteration
Bei Änderung der Cluster-Zuordnung der Objekte
Wiederholung ab Schritt 2
5
Unterschiede zwischen k-Means- und EM-Algorithmus
● Verallgemeinerung des k-Means-Algorithmus
(Ausnahme: TwoStep-Cluster)
●
Schritt 2: Berechnung der Klassenzentren und Klassenanteilswerte
Arithmetisches Mittel → Maximum-Likelihood-Schätzung
●
Schritt 3: Klassenzuordnung
Minimale euklidische Distanz → Zuordnungswahrscheinlichkeit
● Deterministische Zuordnung der Objekte zu den Klassen
→ Probabilistische Zuordnung der Objekte zu den Klassen
● Beschreibung und Interpretation einer Klassenlösung analog zu kMeans
● Unterschiede kaum bei Klassenzentren, eher bei
Klassenanteilswerten
6
EM-Algorithmus
● Schritt 1:
Zufällige Zuordnung der Objekte zu k Clustern
● Schritt 2:
Berechnung der Cluster-Zentren mit Maximum-Likelihood-Schätzung
● Schritt 3:
Neuzuordnung der Objekte zum Cluster-Zentrum mit höchster
Zuordnungswahrscheinlichkeit
● Schritt 4:
Iteration
Bei Änderung der Cluster-Zuordnung der Objekte
Wiederholung ab Schritt 2
7
Möglichkeiten der Beschreibung und Interpretation
äquivalent k-Means-Algorithmus
● Prüfung jeder Variable auf signifikanten Beitrag zur Klassentrennung
(Streuung der Variablen und F-Wert)
● Berechnung paarweiser Unterschiede von Klassen in den Variablen
● Zusammenfassung von Variablen innerhalb einer Klasse zu Gruppen
● Prüfung auf signifikante Abweichungen von den Gesamtmittelwerten
durch Berechnung von z-Werten
● Beschreibung und inhaltliche Validitätsprüfung durch
●
Deskriptionsvariablen
●
bi-/multivariate Verfahren
8
Vorteile des EM-Algorithmus
● Gute Vergleichbarkeit
● Modellierbarkeit von Messfehlern in den Variablen
● Kleinere Anfälligkeit für Verzerrungen durch irrelevante Variablen
● Ermittlung von erwartungstreuen Schätzern für Cluster-Zentren
● Formal besser begründete Maßzahlen für Bestimmung der ClusterZahl
● Modellierung unterschiedlicher Variablentypen möglich
9
Nachteile des EM-Algorithmus
● Konvergente und stabile Lösungen benötigen größere Stichproben
● Verletzung von zu treffenden Annahmen kann zu verzerrten
Schätzungen führen
● Untersuchung der Identifikation des zu schätzenden Modells
10
EM-Algorithmus
Details
Konzept der lokalen Unabhängigkeit
● Zentral für EM-Algorithmus
● Modellvorstellung:
●
Grundstein der Daten: K latente/unbeobachtete Klassen
●
Erklärung der Zusammenhänge zwischen den untersuchten
manifesten/beobachteten Variablen durch Klassen
●
Einführung der (latenten) Klassen als Kontrollvariablen in die Analyse
→ Verschwinden der empirischen Zusammenhänge
●
Unabhängigkeit manifester Variablen innerhalb jeder Klasse
12
Modellansatz
● K latente Klassen
● Paarweise Unabhängigkeit aller Variablen innerhalb jeder Klasse
● Anteilswert π(k) jeder Klasse k an der Grundgesamtheit
● Normalverteilung mit einem Erwartungswert μkj und der Varianz σkj
für jede Klasse k und jede Variable j
2
13
Normalverteilung der Variablen
● Zusammensetzung des beobachteten Wertes xgj der Variablen Xj
eines Objekts g einer Klasse k:
●
Klassenmittelwert μkj
●
Fehlerterm εgj
● εgj ist Realisierung einer normalverteilten Zufallsvariable ξkj
●
Erwartungswert 0
●
Varianz σkj2
●
ξkj paarweise unabhängig: cov(ξkj, ξkj*) = 0
14
Grundlegende Stochastikwerte
● Gesamtmittelwert für eine Variable:
μ j = ∑ π ( k ) μ kj
k
● Kovarianz zwischen zwei Variablen:
σ jj = ∑ π ( k ) ( μ kj − μ j ) ( μ kj − μ j
∗
∗
k
∗
)
● Varianz einer Variablen:
2
σ = σ jj = ∑ π ( k ) σ + ∑ π ( k ) ( μ kj − μ j )
2
j
k
2
kj
k
15
Bedingte Wahrscheinlichkeiten
● Bedingte Wahrscheinlichkeit für das Auftreten eines Objektes g mit
bestimmtem Wert xgj für die Variable j in der Klasse k:
2
1
π ( x gj ∣ k ) = ϕ ( x gj ∣ μ kj , σ kj ) =
e
√ 2 π σ kj
( x gj − μ kj )
2
2 σ kj
● Bedingte Wahrscheinlichkeit für die Zugehörigkeit eines Objektes g
zu einer Klasse k:
π ( g ∣ k ) = ∏ π ( x gj ∣ k )
j
16
Maximum-Likelihood-Schätzung
● Likelihood-Funktion L:
L = ∏ ∑ π (k ) π (g ∣ k )
g
k
● Log-Likelihood-Funktion LL:
LL = lnL = ∑ ln ∑ π ( k ) π ( g ∣ k )
g
k
● Schätzwertbestimmung durch Funktionsmaximierung
17
EM-Algorithmus
Anwendung
Grundprinzip des EM-Algorithmus
● Expectation-Schritt (E-Schritt):
Abschätzung der Zuordnungswahrscheinlichkeiten π(k | g)
Annahme: Modellparameter π(k), µkj und σkj sind gegeben
● Maximization-Schritt (M-Schritt):
Abschätzung der Modellparameter π(k), µkj und σkj
Annahme: Zuordnungswahrscheinlichkeiten π(k | g) sind gegeben
19
EM-Algorithmus
● Schritt 1:
Zufällige Zuordnung der Objekte zu k Clustern
● Schritt 2: E-Schritt
Berechnung der Cluster-Zentren mit Maximum-Likelihood-Schätzung
● Schritt 3: M-Schritt
Neuzuordnung der Objekte zum Cluster-Zentrum mit höchster
Zuordnungswahrscheinlichkeit
● Schritt 4:
Iteration
Bei Änderung der Cluster-Zuordnung der Objekte
Wiederholung ab Schritt 2
20
Annahme
● Wahrscheinlichkeit für Auftreten einer Klasse bei Objekt g gegeben
π (k ∣ g )
● Vorsicht!
●
Annahme entspricht nicht den Tatsachen
●
Nicht verwechseln mit der bisher verwendeten Wahrscheinlichkeit:
π (g ∣ k )
21
Folgerung
● Log-Likelihood-Funktion
LL =
∑ ln ∑ π ( k ) π ( g ∣ k )
g
k
● Vereinfachung
LL =
∑ ∑ π ( k ∣ g ) ( ln π ( k ) + ln π ( g ∣ k ) )
g
=
k
∑ ∑ π(k ∣ g)
g
k
(
)
ln π ( k ) + ∑ ln π ( x gj ∣ k )
j
22
Schätzung von π(k | g)
● Satz von Bayes
P ( A ∣B ) =
P ( B ∣ A) P ( A)
P(B)
● Schätzung p(k | g) von π(k | g)
p(k ∣ g ) =
p (k ) p( g ∣ k )
∑ p (k )p ( g ∣ k )
k
23
EM-Algorithmus - Schritt 1
● Berechnung oder Eingabe von Startwerten für
●
Modellparameter
oder
●
Zuordnungswahrscheinlichkeiten
(Bei Startwerten hierfür gehe zu Schritt 3)
24
EM-Algorithmus - Schritt 2
● Schätzung der Zuordnungswahrscheinlichkeiten π(k | g):
p (k ) p ( g ∣ k )
i−1
p(k ∣ g ) =
i
i−1
∑ i −p1 ( k ) i −p1 ( g ∣ k )
k
● Hierbei gilt:
(
p ( g ∣ k ) = ∏ p ( x gj ∣ k ) = ∏ ϕ x gj ∣ ̄
x
i
j
i−1
j
i −1
kj
, s
i −1
kj
)
● Mittig tiefgestellter Index: Iterationszähler
25
EM-Algorithmus - Schritt 3
● Schätzung der Modellparameter π(k), µkj und σkj
∑ pi ( k ∣ g )
g
p(k ) =
n
i
x̄ kj =
∑ pi ( k ∣ g ) x gj
g
i
∑ pi ( k ∣ g )
g
2
kj
s =
i
(
∑ pi ( k ∣ g )
g
2
x gj − x
̄ kj
i
)
∑ pi ( k ∣ g )
g
26
EM-Algorithmus - Schritt 4
● Prüfung der Konvergenz
Abbruch des Algorithmus unter folgenden Bedingungen:
●
Verbesserung der Log-Likelihood-Funktion unter Schwellenwert
(zum Beispiel 10-7)
und/oder
●
Maximale Abweichung aufeinanderfolgender Schätzwerte unter
Schwellenwert (zum Beispiel 10-4)
27
Anzahl zu schätzender Parameter
Anzahl
Art
K-1
Klassenanteilswerte π(k)
(Definition eines Anteilwertes durch Bedingung, dass die
Summe aller Werte gleich 1 ist.)
Km
Klassenzentren µkj:
Erwartungswerte jeder Variablen für jede Klasse
Km
Klassenvarianzen:
Varianzen σkj2 jeder Variablen für jede Klasse
K(1 + 2m) - 1
Gesamtzahl zu schätzender Parameter =: mK
28
Überwachung der lokalen Unabhängigkeit
● Abspeicherung der Klassenzuordnungswahrscheinlichkeiten p(k | g)
● Berechnung einer Varianz-Kovarianz-Matrix Wk für jede Klasse
(Gewichte: p(k | g))
● Unabhängigkeit ↔ Wk ist Diagonalmatrix
● Möglichkeiten:
●
Likelihood-Quotienten-Test
●
Bivariate Residuen
29
Überwachung der Klassenüberlappungen
● Große Beeinflussung der Konvergenz und Stabilität
→ Überwachung sinnvoll
● Gefahr für Instabilität ab bestimmtem Überlappungsanteil stark erhöht
● Überwachungsmöglichkeiten:
●
Dichotomisierung der Zuordnungswahrscheinlichkeiten und Berechnung
aller Ausprägungskombinationen
(Schwelle: 1/K)
●
Fuzzy-Clustering-Messzahlen
●
Empirische Stabilitätsuntersuchungen
30
Beispiel
● Zweidimensional
● Nicht überlappende Klassen
31
EM-Algorithmus
Automatische Bestimmung der Cluster-Anzahl
Grundprinzip
● Ausführung des EM-Algorithmus
●
Für verschiedene Anzahlen von Klassen
●
Mit verschiedenen Startwerten je Klasse
● Anwendung von
●
Χ2-Statistiken
●
Bootstrap-Verfahren
● Berechnungen für jede Klassenanzahl K
33
Χ2-Statistiken
● Ausmaß der durch das Modell unerklärbaren Beziehungen zwischen
den Variablen
● Je größer die Statistik, desto schlechter das Modell
34
Indikator-Variablen
● Sichtbare Klassenvariablen y
Latente Klassenvariablen
● Unsichtbare Klassenvariablen x
Kovariaten
● Variablen z mit direktem Einfluss auf
●
Indikator-Variablen
und/oder
●
Latente Klassenvariablen
35
Datenmuster
● Für ein Datenmuster i* haben alle enthaltenen Fälle i dieselben
Ausprägungen in den Indikatoren und Kovariaten
● wi := Fallgewicht
● ni* := Auftrittshäufigkeit des Datenmusters i*
ni =
∗
∑ wi
i ∈ i∗
36
Weitere Annahmen und Voraussetzungen
● Kovariatenmuster wie bei Datenmuster i*
ui
∗
● Fallanzahl für Kovariatenmuster u i
nu
i
∗
∗
● Bedingte multinomiale Wahrscheinlichkeit für Datenmuster i* bei
Kovariatenmuster u i
̂f ( y ∣ z )
∗
i
∗
i
∗
● Erwartete Zellhäufigkeiten
̂ = n f̂ ( y ∣ z )
m
∗
i
ui
∗
i
∗
i
∗
37
Χ2-Statistiken
● Likelihood-Ratio-Χ2-Statistik
I∗
ni
L = 2 ∑ n i ln
̂i
m
i =1
2
∗
∗
∗
∗
● Pearson-Χ2-Statistik
2
Χ =
I∗
∑
∗
i =1
2
ni
−n
̂
mi
∗
∗
● Cressie-Read-Χ2-Statistik
I
∗
CR 2 = 1,8 ∑ ni
i∗ = 1
(( ) )
ni
̂i
m
∗
∗
2
3
−1
∗
38
Anzahl Freiheitsgrade
● Anzahl an beobachteten Indikatoren im Kovariatenmuster i*
∗
Tu
● Anzahl der Kategorien des t-ten beobachteten Indikators
∗
M ut
● Anzahl Freiheitsgrade
( (
U
df = min
∗
Tu
∑ ∏ M ∗ut − 1
u=1
t =1
) )
, n − mK
Freiheitsgrade df beruhen auf der Stichprobengröße n, wenn die
Anzahl der unabhängigen Zellen in der hypothetischen Kreuztabelle
größer ist als die Stichprobengröße
39
Informationsmaße - Likelihood-Funktion
● Akaike-Informationsmaß: AICK
2
AICK = LK − 2 df
● Akaike-3-Informationsmaß: AIC3K
2
AIC3K = L K − 3 df
● Bayes'sches Informationsmaß: BICK
2
BICK = LK − df ln n
● Konsistentes Akaike-Informationsmaß: CAICK
2
CAICK = LK − df ln ( n + 1 )
40
Informationsmaße - Problem
● Ähnliche Ergebnisse bei Beurteilung eines Modellvergleichs
● Große Anzahl Freiheitsgrade df
→ Nicht verwertbare Ergebnisse möglich bei Berechnung mit L 2
→ Notwendigkeit der Berechnung mit LL
I
LL =
∗
∑ w i ln ̂f ( y i ∣ z i )
∗
∗
∗
i =1
41
Informationsmaße - Log-Likelihood-Funktion
● Akaike-Informationsmaß: AICK
AICK = 2 m K − LLK
● Akaike-3-Informationsmaß: AIC3K
AIC3K = 3 m K − 2LL K
● Bayes'sches Informationsmaß: BICK
BICK = m K ln n − 2LL K
● Konsistentes Akaike-Informationsmaß: CAICK
CAICK = m K ln ( n + 1 ) − 2 LLK
42
Unähnlichkeitsindex
● Englisch: Dissimilarity Index
I∗
n+
DI =
∑ (∣n i
∗
i =1
∗
̂i ∣ − m
̂i )
−m
∗
∗
2n
● Stärke der Abweichung der beobachteten und geschätzten
Zellhäufigkeiten voneinander
● Für perfekte Modellanpassung zu verändernder Teil der Stichprobe
43
Berechnungen für jede Klassenanzahl K
● Prozentuelle Verbesserung zum Nullmodell: PV0K
∣LLK∣
PV0K = 1 −
∣LL0∣
● Prozentuelle Verbesserung zu vorausgehendem Modell: PV K
∣LLK∣
PVK = 1 −
∣LL K − 1∣
● Informationsmaß
● Unähnlichkeitsindex
● Veraltet: Likelihood-Quotienten-Statistiken
44
Beziehungen von EM- und k-Means-Modellprüfgrößen
● PV0K ↔ ηK2 (Erklärte Streuung)
Auswahl von Lösungen mit bestimmtem Mindestwert für PV0K
● PVK ↔ PREK (Prozentuale Verbesserung zu vorheriger Lösung)
Auswahl von Lösungen mit starkem Abfall bei nachfolgender Lösung
● Informationsmaße ↔ Fmax (Maximale F-Statistik)
Auswahl von Lösung mit kleinstem Informationsmaß
● Likelihood-Quotienten-Statistiken ↔ Bealsche F-Werte
Auswahl der Lösung, die im Vergleich zu allen
●
vorausgehenden Lösungen signifikant ist
●
nachfolgenden Lösungen nicht signifikant ist
(Zur Signifikanzprüfung sind Bootstrap-Verfahren zu empfehlen)
45
Bootstrap-Verfahren
● Lieferungen von Wahrscheinlichkeiten für Modellprüfgrößen
● Statistiken besitzen keine Χ2-Verteilungen
→ Approximative Eigenschaften nicht erfüllt
→ Heute Bootstrap-Verfahren empfohlen statt Χ2-Statistiken
46
Beispiel
● Zweidimensional
● Überlappende Klassen
47
Noch Fragen?
Anhang
Literaturverzeichnis
● Johann Bacher, Andreas Pöge, Knut Wenzig (2010): Clusteranalyse Anwendungsorientierte Einführung in Klassifikationsverfahren.
Oldenbourg Verlag München. ISBN 978-3-486-58457-8.
● Stuart Russell, Peter Norvig (2004): Künstliche Intelligenz. Pearson
Studium. ISBN 3-86894-098-7.
● Bing Liu (2011): Web Data Mining – Exploring Hyperlinks, Contents,
and Usage Data. Springer. ISBN 978-3-642-19459-7.
● Rob Sullivan (2012): Introduction to Data Mining for the Life
Sciences. Springer. ISBN 978-1-58829-942-0.
● Ian H. Witten, Eibe Frank, Mark A. Hall (2011): Data Mining –
Practical Machine Learning Tools and Techniques. Morgan
Kaufmann. ISBN 978-0-12-374856-0.
50
Literaturverzeichnis
● Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood
from Incomplete Data via the EM Algorithm". Journal of the Royal
Statistical Society, Series B 39 (1): 1–38. JSTOR 2984875. MR
0501537.
● Sundberg, Rolf (1974). "Maximum likelihood theory for incomplete
data from an exponential family". Scandinavian Journal of Statistics 1
(2): 49–58. JSTOR 4615553. MR 381110.
● Rolf Sundberg. 1971. Maximum likelihood theory and applications for
distributions generated when observing a function of an exponential
family variable. Dissertation, Institute for Mathematical Statistics,
Stockholm University.
51
Literaturverzeichnis
● Sundberg, Rolf (1976). "An iterative method for solution of the
likelihood equations for incomplete data from exponential families".
Communications in Statistics – Simulation and Computation 5 (1):
55–64. doi:10.1080/03610917608812007. MR 443190.
● Danksagung von Dempster, Laird und Rubin: S. 3, 5 und 11.
● G. Kulldorff. 1961. Contributions to the theory of estimation from
grouped and partially grouped samples. Almqvist & Wiksell.
● Anders Martin-Löf. 1963. "Utvärdering av livslängder i
subnanosekundsområdet" ("Evaluation of sub-nanosecond
lifetimes"). ("Sundberg formula")
● Martin-Löf, Per The notion of redundancy and its use as a quantitative
measure of the discrepancy between a statistical hypothesis and a
set of observational data. Scand. J. Statist. 1 (1974), no. 1, 3–18.
52
Literaturverzeichnis
● Sundberg, Rolf (1976). "An iterative method for solution of the
likelihood equations for incomplete data from exponential families".
Communications in Statistics – Simulation and Computation 5 (1):
55–64. doi:10.1080/03610917608812007. MR 443190.
● Danksagung von Dempster, Laird und Rubin: S. 3, 5 und 11.
● G. Kulldorff. 1961. Contributions to the theory of estimation from
grouped and partially grouped samples. Almqvist & Wiksell.
● Anders Martin-Löf. 1963. "Utvärdering av livslängder i
subnanosekundsområdet" ("Evaluation of sub-nanosecond
lifetimes"). ("Sundberg formula")
● Martin-Löf, Per The notion of redundancy and its use as a quantitative
measure of the discrepancy between a statistical hypothesis and a
set of observational data. Scand. J. Statist. 1 (1974), no. 1, 3–18.
53
Literaturverzeichnis
● Per Martin-Löf. 1966. Statistics from the point of view of statistical
mechanics. Lecture notes, Mathematical Institute, Aarhus University.
("Sundberg formula" credited to Anders Martin-Löf).
● Per Martin-Löf. 1970. Statistika Modeller (Statistical Models):
Anteckningar från seminarier läsåret 1969–1970 (Notes from
seminars in the academic year 1969-1970), with the assistance of
Rolf Sundberg. Stockholm University. ("Sundberg formula")
● Wu, C. F. Jeff (Mar. 1983). "On the Convergence Properties of the EM
Algorithm". Annals of Statistics 11 (1): 95–103.
doi:10.1214/aos/1176346060. JSTOR 2240463. MR 684867.
54
Literaturverzeichnis
● PMartin-Löf, P. The notion of redundancy and its use as a quantitative
measure of the deviation between a statistical hypothesis and a set of
observational data. With a discussion by F. Abildgård, A. P. Dempster,
D. Basu, D. R. Cox, A. W. F. Edwards, D. A. Sprott, G. A. Barnard, O.
Barndorff-Nielsen, J. D. Kalbfleisch and G. Rasch and a reply by the
author. Proceedings of Conference on Foundational Questions in
Statistical Inference (Aarhus, 1973), pp. 1–42. Memoirs, No. 1, Dept.
Theoret. Statist., Inst. Math., Univ. Aarhus, Aarhus, 1974.
55
Herunterladen