Dokumentenmodelle Gerhard Heyer, Patrick Jähnichen Universität Leipzig [email protected] [email protected] Institut für Informatik Ziel • Retrieval von Information – – – – • Clustering von Wörtern anhand Bedeutung(Semantik) Identifizierung von Synonymien und Polysemien Themenzuordnung von Dokumenten ...? Dimensionsreduktion – Trivial ist nur das Auszählen von Wörtern – Dimension hierbei: V (V aber oft sehr groß, oft >> 1000000) – Wie reduzierbar? Gerhard Heyer, Patrick Jähnichen Modul Textmining Grundlagen Institut für Informatik Aufbau von Textkorpora • • • • Korpus C enthält Menge von D Dokumenten Jedes Dokument enthält Menge von Nd Wörtern Gesamter Korpus enthält Vokabular von V voneinander verschiedenen Wörtern Länge des Korpus ist N Gerhard Heyer, Patrick Jähnichen Modul Textmining Vektorraummodell • Dokumente werden als Vektoren dargestellt – Jede Komponente im Vektor entspricht einem separaten Term – wenn dieser im Dokument vorkommt, ist der Vektor an dieser Stelle von 0 verschieden – Die Dimension des Vektors ist V (Größe des Vokabulars) – Möglichkeit der Nutzung von Vektoroperationen zum Vergleich von Dokumenten, z.B. Kosinusmaß – Häufig werden statt reinen Termfrequenzen tf-idf Gewichte als Vektorkomponenten genutzt Gerhard Heyer, Patrick Jähnichen Modul Textmining Tf-idf • • • • • Zähle Auftreten von Termen in Dokument Vergleiche Auftreten von Term in Dokument mit Logarithmus von inversem Auftreten des Terms in anderen Dokumenten des Korpus Ergebnis: Term-Dokumentmatrix (∈ RVxD) mit tf-idf Werten der Terme des Vokabular Reduktion von Dokumenten(unbestimmter Größe) auf Liste von Werten fixer Länge Berechnung: Gerhard Heyer, Patrick Jähnichen Modul Textmining Statistik • Multinomiale Verteilung – Generalisierung der Binomialverteilung – Binomialverteilung ist Wahrscheinlichkeitsverteilung der Anzahl Erfolge von n unbhänigen Bernoulli-Experimenten – Analogon der Bernoulli-Verteilung in mult. Verteilung ist die Kategoriale Verteilung, hier resultiert jeder der n Versuche in genau einem von K Ausgängen mit Wahrscheinlichkeiten p1, ..., pK und – Zeigt ein Zufallsvariable Xi die Anzahl der Ausgänge mit Ergebnis i an, so folgt der Vektor X = (X1, ..., XK) einer Multinomialverteilung mit Parameter n und p = (p1, ..., pK) – Im Bereich der automatischen Sprachverarbeitung sprechen wir meist von multinomialer Verteilung wenn wir eigentlich die Kategoriale Verteilung meinen Gerhard Heyer, Patrick Jähnichen Modul Textmining Statistik • Bedingte Wahrscheinlichkeit – Wahrscheinlichkeit für eine Beobachtung x unter der Voraussetzung dass Beobachtung y zuvor eingetreten ist heißt bedinge Wahrscheinlichkeit Sind x und y voneinander unabhängig, so gilt Und damit Gerhard Heyer, Patrick Jähnichen Modul Textmining Statistik • Bayestheorem • In Worten Gerhard Heyer, Patrick Jähnichen Modul Textmining Bag-of-words assumption • • • • Reihenfolge der Wörter wird nicht berücksichtigt Ein Dokument entspricht einem „Sack“ voller Wörter Für jedes Wort wird Frequenz gespeichert Annahme: – Informationen über Art und Anzahl von Wörtern reicht aus um Rückschlüsse auf die Struktur von Text zu ziehen – Grundlage: Satz von de Finetti • Annahme der Austauschbarkeit: • Austauschbare Zufallsvariablen folgen einer vermischten Verteilung (mixture distribution), meist unendlich Gerhard Heyer, Patrick Jähnichen Modul Textmining Singulärwertzerlegung • • • Ist die Darstellung einer Matrix als Produkt von drei speziellen Matrizen Singulärwerte sind spezifische Eigenschaft einer Matrix, vergleichbar mit Eigenwerten Singulärwertzerlegungen existieren für jede Art von Matrix Gerhard Heyer, Patrick Jähnichen Modul Textmining Singulärwertzerlegung - Anwendungen • Statistik – Hauptkomponentenanalyse (engl. Principal Component Analysis, PCA) • Strukturierung von Datensätzen durch Näherung von vielen statistischen Variabeln durch geringe Zahl von Linearkombinationen (den Hauptkomponenten) – Heißt auch Karhunen-Loève-Transformation • Bildkompression – – – – Bild (Matrix aus Farbwerten) wird zerlegt Nur stark von Null verschieden Singulärwerte werden berücksichtigt Rekonstruktion des Bildes möglich Weglassen kleiner Singulärwerte ist verlustbehaftete Modellreduktion Gerhard Heyer, Patrick Jähnichen Modul Textmining Latent Semantic Analysis - LSA Latent Semantic Indexing - LSI Institut für Informatik LSA (Deerwester et. al.) • • • • • Form der linearen Faktorisierung Grundlage bildet eine Wort-Dokument Kookkurrenzmatrix Diese wird per Singulärwertzerlegung in drei Matrizen zerlegt Alle bis auf n höchste Singulärwerte werden 0 gesetzt Ursprüngliche Matrix wird rekonstruiert (hat nun geringeren Rang n) Gerhard Heyer, Patrick Jähnichen Modul Textmining LSA Beispiel Gerhard Heyer, Patrick Jähnichen Modul Textmining LSA Beispiel - Termfrequenzmatrix Gerhard Heyer, Patrick Jähnichen Modul Textmining LSA Beispiel - Singulärwertzerlegung Gerhard Heyer, Patrick Jähnichen Modul Textmining LSA Beispiel - rekonstruierte Matrix mit geringerem Rang Gerhard Heyer, Patrick Jähnichen Modul Textmining LSA • Vorteil: – Keine Eins/Null Entscheidungen mehr – Dimensionsreduktion auf n Dimensionen („semantische Kategorien“) • Nachteil: – Verlustbehaftete Methode – Schlechtes zugrundeliegendes statistisches Model --> schlechte Begründbarkeit • Gemeinsame Verteilung von Wörtern und Dokumenten folgt nicht Gauss sondern Poissonverteilung – Kein Vorwissen über n – Polysemie • Jedes Wort wird genau einer semantischen Bedeutung zugeordnet (gleicher Datenpunkt im semantischen Raum) • D.h. Ergebnis ist Durchschnitt aller verschiedenen Bedeutungen einer Wortes (als Vektor) Gerhard Heyer, Patrick Jähnichen Modul Textmining LSA • Geometrische Interpretation – Reduzierte Dimensionen spannen „semantischen Raum“ – In Wortmatrix U • Winkel zwischen Wortvektoren (Cosinus-Maß) entspricht ihrer semantischen Ähnlichkeit • Möglichkeit semantisches Clustern – Ähnlich für Dokumentmatrix V • Clustering von ähnlichen Dokumenten Gerhard Heyer, Patrick Jähnichen Modul Textmining Latente Variablen • • • • Theoretische Konstrukte, abhängig von Modell Sind nicht direkt messbar Können ausgehend von messbaren Variablen (Observablen) bestimmt werden (auch: Operationalisierung) Beispiel: Intelligenzquotient – Kann nicht direkt gemessen werden – Wird anhand von vielen Testergebniss (Fragen) bestimmt – Da latente Variablen nur theoretische Konstrukte sind, ist der IQ nur so aussagekräftig, wie die Theorie plausibel (daher teils massive Kritik an IQ Messung) Gerhard Heyer, Patrick Jähnichen Modul Textmining probabilistic Latent Semantic Indexing - pLSI Institut für Informatik pLSI (Hofmann) • • • Stammt nicht aus linearer Algebra (wie LSI) Geht von vermischten Verteilungen und einem Modell der latenten Klassen aus Basiert auf Aspect-Modell – Ordnet jeder Beobachtung (Term) eine latenten Variable (Klasse) zu – Gemeinsame Wahrscheinlichkeit über Dokument und Terme wird definiert Gerhard Heyer, Patrick Jähnichen Modul Textmining pLSI • Generiert Dokumente: – Auswählen eines Dokuments d mit Wkt. P(d) – Auswählen einer latenten Klasse z mit Wkt. P(z|d) – Generieren von Wort w mit Wkt. P(w|z) • Übersetzung in Multivariates Modell • Modell basiert auf zwei Annahmen von Unabhängigkeit – Beispieltupel (d,w) werden unabhängig generiert (Bag-of-words) – Bedingte Unabhängigkeit zwischen w und d, sind nur über latente Klasse z gekoppelt Gerhard Heyer, Patrick Jähnichen Modul Textmining pLSI • Umstellen mit Hilfe des Bayestheorem Gerhard Heyer, Patrick Jähnichen Modul Textmining pLSI • Ähnlichkeit zu LSA – Definiere 3 Matrizen: – Gemeinsames Wahrscheinlichkeitsmodell gegeben durch: • Beobachtung – Äußere Produkte zwischen Zeilen von Û und V zeigen bedingte Unabhängigkeit – K Faktoren entsprechen Mischkomponenten aus Aspect-Model – Mischanteile ersetzen Singulärwerte Gerhard Heyer, Patrick Jähnichen Modul Textmining pLSI • Unterschied zu LSA – Funktion zum Bestimmen der optimalen Annäherung bei LSA: L2- oder Frobenius-Norm – Entspricht der Annahme eines Gauss-Rauschens auf den Termanzahlen – pLSI nutzt Likelihood-Funktion zur expliziten Maximierung der Vorhersagequalität des Modells • Dies entspricht der Minimierung der Kullback-Leibler Divergenz zwischen tatsächlicher und approximierter Wahrscheinlichkeitsverteilung Gerhard Heyer, Patrick Jähnichen Modul Textmining pLSI • Geometrische Deutung – K klassenspezifische Multinomialverteilungen werden im M-1 dimensionalen Simplex über alle möglichen Multinomialverteilungen dargestellt – Bilden K-1 dimensionalen Subsimplex – P(w|d) gegeben durch konvexkombinierte P(w|z) Gerhard Heyer, Patrick Jähnichen Modul Textmining pLSI • Würdigung – Approximation in P ist für jedes Wort eine wohldefinierte Wahrscheinlichkeitsverteilung – Faktoren haben klare probabilistische Bedeutung – LSA arbeitet nicht mit Wahrscheinlichkeiten, sogar negative Werte sind möglich – Keine offensichtliche Interpretation der Richtung im semantischen Raum von LSA, in pLSI ist Richtung interpretierbar als multinomiale Wortverteilung – Da probabilistisches Modell: Möglichkeiten der Modellselektion, Herausfinden von optimalem K (Anzahl der latenten Klassen) Gerhard Heyer, Patrick Jähnichen Modul Textmining Bildquellen • • • Wikipedia, Singulärwertzerlegung Deerwester, Dumais, Furnas, Landauer, Harshman: Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, 1990 Hofmann: Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second SIGIR, 1999 Gerhard Heyer, Patrick Jähnichen Modul Textmining