Data Mining Sommersemester 09 - Dr. Alexander Hinneburg Übung 7: Multinomial-Mischmodell (Abgabe bis 10.6.2008, 8.00 Uhr) Geben Sie die Lösungen als Text- oder PDF-Datei ab. Aufgabe 7.1: Numerische Berechnung der Posteriors Entwickeln Sie eine Berechnungsmethode für die Posteriors, Gleichung (146), des Multinomial-Mischmodels, die numerisch nicht auf Null durch Null führt und mittels Logarithmus funktioniert. Hinweis: x = exp(log x) = exp(log x + log a − log a) = exp(log x − log a) exp(log a). Aufgabe 7.2: Initialisierung der Parameter Der EM-Algorithmus wird mit zufällig gewählten Parameter initialisiert. Im Fall des Multinomial-Mischmodells sind die Parameter die π1 , . . . , πK und die ~µ1 , . . . ,~µK . Die Werte dürfen jedoch nicht einfach zufällig gewählt werden, sondern müssen auch noch den Nebenbedingungen ∑K k=1 πk = 1 und D ∑i=1 µki = 1 gehorchen. Geometrisch liegen diese Vektoren in einem Simplex, (siehe Abbildung bei Gleichung (63)). Überlegen Sie sich ein Verfahren, dass Vektoren gleichmäsig verteilt in einem Simplex würfelt. Hinweis: Die Idee, einen Vektor gleichmäßig verteilt in [0, 1]D zu würfeln und dann zu normalisieren, führt zu einen Häufungspunkt in der Mitte des Simplex und nicht zu einer Gleichverteilung. Aufgabe 7.3: Implementierung in SQL Unter https://dbs.informatik.uni-halle.de/ phpMyAdmin/index.php können Sie mit phpMyAdmin auf eine MySQL-Datenbank zugreifen. Login und Passwort sind student und test. Wählen Sie nach dem Einloggen auf der linken Seite die Datenbank dbworld aus. Die Datenbank besteht aus den drei Tabellen doc(docid,doc), term(termid,term) und term doc(termid,docid,tf). Das Attribut tf speichert, wie oft ein Wort in einem Dokument vorkommt. Im Hauptfenster können Sie im Reiter SQL Befehle eingeben. Die Datenbank enthält alle eMails, die von Januar bis zum 5. Mai 2009 über die dbworldMailing-Liste verschickt wurden. Die Titel und Absender der eMails sind nicht enthalten. Eine Liste der Mails bekommen Sie unter http://www.cs.wisc.edu/dbworld/ browse.html. Geben Sie ein SQL-Statement an, um für das Multinomial-Modell alle Posteriors γ(znk ) für n = 1, . . . , N und k = 1, . . . , K entsprechend der Gleichung (146) zu berechnen. Initialisieren Sie die πk und~µk zufällig. 1