Data Mining - Datenbanken

Werbung
Data Mining
Sommersemester 09 - Dr. Alexander Hinneburg
Übung 7: Multinomial-Mischmodell (Abgabe bis 10.6.2008, 8.00 Uhr)
Geben Sie die Lösungen als Text- oder PDF-Datei ab.
Aufgabe 7.1: Numerische Berechnung der Posteriors Entwickeln Sie eine Berechnungsmethode für die Posteriors, Gleichung (146), des Multinomial-Mischmodels, die numerisch nicht auf Null durch Null führt und mittels Logarithmus funktioniert. Hinweis:
x = exp(log x) = exp(log x + log a − log a) = exp(log x − log a) exp(log a).
Aufgabe 7.2: Initialisierung der Parameter Der EM-Algorithmus wird mit zufällig gewählten Parameter initialisiert. Im Fall des Multinomial-Mischmodells sind die Parameter die π1 , . . . , πK und die ~µ1 , . . . ,~µK . Die Werte dürfen jedoch nicht einfach zufällig
gewählt werden, sondern müssen auch noch den Nebenbedingungen ∑K
k=1 πk = 1 und
D
∑i=1 µki = 1 gehorchen. Geometrisch liegen diese Vektoren in einem Simplex, (siehe
Abbildung bei Gleichung (63)).
Überlegen Sie sich ein Verfahren, dass Vektoren gleichmäsig verteilt in einem Simplex
würfelt.
Hinweis: Die Idee, einen Vektor gleichmäßig verteilt in [0, 1]D zu würfeln und dann zu
normalisieren, führt zu einen Häufungspunkt in der Mitte des Simplex und nicht zu einer
Gleichverteilung.
Aufgabe 7.3: Implementierung in SQL Unter https://dbs.informatik.uni-halle.de/
phpMyAdmin/index.php können Sie mit phpMyAdmin auf eine MySQL-Datenbank
zugreifen. Login und Passwort sind student und test. Wählen Sie nach dem Einloggen
auf der linken Seite die Datenbank dbworld aus. Die Datenbank besteht aus den drei
Tabellen doc(docid,doc), term(termid,term) und term doc(termid,docid,tf). Das Attribut
tf speichert, wie oft ein Wort in einem Dokument vorkommt. Im Hauptfenster können
Sie im Reiter SQL Befehle eingeben.
Die Datenbank enthält alle eMails, die von Januar bis zum 5. Mai 2009 über die dbworldMailing-Liste verschickt wurden. Die Titel und Absender der eMails sind nicht enthalten. Eine Liste der Mails bekommen Sie unter http://www.cs.wisc.edu/dbworld/
browse.html.
Geben Sie ein SQL-Statement an, um für das Multinomial-Modell alle Posteriors γ(znk )
für n = 1, . . . , N und k = 1, . . . , K entsprechend der Gleichung (146) zu berechnen. Initialisieren Sie die πk und~µk zufällig.
1
Herunterladen