Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model Hyperspace Analogue to Language (HAL) Vektormodelle strukturierte Repräsentation natürlicher Sprache Modellierung von Inhalt/Bedeutung durch Merkmale (Features) als Vektoren in einem Vektorraum (Featureraum) Ziel: ähnliche Semantik ähnliche Vektoren Vorteile Strukturierte Daten Maschinell interpretierbar Die meisten Data Mining Algorithmen arbeiten auf Vektoren Numerische Repräsentation im Vektorraum eröffnet Zugang zu Vergleichsmetriken Featureraum Meist hochdimensionaler Vektorraum Dimensionen = Features (Merkmale) Skalierbares Merkmal Vektoren: geordnete Liste von Merkmalsgewichten Determiniert festen Punkt im Vektorraum Vektormodelle zeichnen sich aus durch… Definition von Merkmalen Gewichtung der Merkmale Vektorähnlichkeit Euklidische Distanz: Cosinusähnlichkeit Anwendungsbeispiele Z.B. Information Retrival Korpus aus Dokumentvektoren Anfrage als Querie-Vektor Klassifikation und Clustering Paarweiser Vergleich aller Dokumentvektoren eines Korpus Term-Vektor-Modell auch Bag of Words Model entwickelt von Zellig Harris (1954) Annahme: Die Termverteilung eines Dokuments spiegelt seinen Inhalt wieder Termverteilung als Basis für die Repräsentation war Mann „Es war einmal ein Mann, der hatte sieben Söhne“ sieben einmal ein der söhne hatte es Term-Vektor-Modell Merkmalsauswahl Vokabular des Korpus Potentielle Merkmale Merkmalsreduktion: Stoppwörter filtern Stemming Merkmalsgewichtung numerischer Ausdruck für Termrelevanz Grundprinzip: je relevanter ein Term für ein Dokument, desto höher der Wert naiver Ansatz: Termfrequenz Probleme Unterschiedliche Dokumentlängen Häufige Terme beschreiben ein Dokument nicht zwingend besser Tf-idf-Maß Beispiel d1: John likes movies. Mary likes movies too“ d2: „John also likes books“ Vokabular df d2 ntf d2 Tf-idf also 1 1/1 = 1 1*log(2/1)= log(2) book 1 1/1 = 1 1*log(2/1)= log(2) john 2 1/1 = 1 1*log(2/2)= log(1) like 2 1/1 = 1 1*log(2/2) = log(1) mary 1 0 0 movie 1 0 0 too 1 0 0 log(2) log(2) log(1) d2 = log(1) 0 0 0 Fazit Vorteile (gegenüber booleschem Modell) gewichtete Merkmale (statt binären) Zugang zu Vergleichsmetriken erlauben präziseren , graduellenVergleich von Dokumenten Kritik Reihenfolge der Wörter geht verloren Frege-Prinzip: Die Bedeutung eines Satzes ergibt sich aus den Bedeutungen seinerWörter und der Art ihrer Zusammensetzung Homonymie & Synonymie Lift – Aufzug Strauß, Bank Suffix Tree Document Model Entwickelt von H. Chim & X. Deng (2007) Berücksichtigt die Wortreihenfolge Aufbauend auf Suffix Trees Annahme: Die Knoten im Suffix Tree spiegeln den Inhalt eines Dokuments wieder „cat ate cheese“ Suffix Tree Document Model Datenstruktur zum Speichern von Dokumenten Gerichteter Wurzelbaum Stellt die interne Struktur eines Dokuments mit all seinen Suffixen dar Suffix Das i-te Suffix eines Dokuments d = {w1, w2, …,wn} ist der Substring von d der mit dem Wort wi startet Aufbau eines Suffix Trees „Cat ate cheese“ W Aufbau eines Suffix Trees „Cat ate cheese“ W cheese $ Aufbau eines Suffix Trees „Cat ate cheese“ W ate cheese $ cheese $ Suffix Tree Document-Model Merkmale Knoten im Suffix Tree Merkmalsgewichtung Tf-idf-Maß der Knoten Knotenfrequenz(k,d): Anzahl der Traversierungen Dokumentfrequenz(k): Anzahl der Dokumente die den Knoten k traversiert haben Vorgehensweise • Schreibe alle Dokumente in denselben Suffix Tree • Speichere für jeden Knoten die traversierenden Dokumente • …und die Häufigkeit der Traversierungen Beispiel d1: „cat ate cheese“ W d2: „mouse ate cheese“ ate cheese $ cheese $ Beispiel d1: „cat ate cheese“ W d2: „mouse ate cheese“ ate cheese $ cheese $ Beispiel d1: „cat ate cheese“ W d2: „mouse ate cheese“ ate cheese $ cheese $ Beispiel d1: „cat ate cheese“ W d2: „mouse ate cheese“ ate ate cheese $ cheese $ cheese $ Beispiel d1: „cat ate cheese“ W d2: „mouse ate cheese“ ate ate cheese $ df=2 d1:1 d2: 1 df=1 d1:0 d2: 1 cheese $ cheese $ Fazit Vorteile (gegenüber Vector-Space-Model) Berücksichtigt Termverteilung und Termreihenfolge Der Mann beißt den Hund ≠ Der Hund beißt den Mann Kritik Speicherkomplexität Homonymie & Synonymie ? Kritisch bei stark flektierende Sprachen Zeichenbasierter Suffix Tree ? Hyperspace Analogue to Language • Entwickelt von K. Lund und C. Burgess • Kognitives Wortbedeutungsmodell • Zielsetzung Quantifizierung der Bedeutungsähnlichkeit zwischen sprachlichen Ausdrücken Apfel – Birne vs. Apfel – Stuhl Modellierung der Struktur des menschlichen semantischen Gedächtnis Semantisches Gedächtnis • Allgemeines Weltwissen, Bedeutungen, Begriffe, Fakten Berlin ist die Hauptstadt von Deutschland Jeder Mensch hat einenVater und eine Mutter Spinat schmeckt scheußlich Bedeutung als Vektor Grundlage ist die statistische Verteilung von Wörtern in umfangreichen Korpora Distributionelle Hypothese Wörter, die in ähnlichen sprachlichen Kontexten auftreten ähneln sich auch in ihrer Bedeutung In der Garage parkt ein Flöppi Wir fahren heute mit dem Flöppi Heute lassen wir das Flöppistehen und gehen zufuß Mein neues Flöppi hat 120 PS Kookkurrenzen als Merkmale für Bedeutung Bedeutung als Vektor Vorgehensweise Korpus Bei Lund & Burgess: Textinhalt aus dem Usenet – ca. 160 Millionen Wörter Bestimmung des Kontext Kontextfenster der Länge 10 (5 links, 5 rechts) Gewichtung der Kontextwörter Nach Nachbarschaftsrang Beispiel: HAL „Der früheVogel fängt den Wurm“ 4 Rechter Kontext Linker Kontext 5 0 Der frühe Vogel fängt den Wurm Der 0 0 0 0 0 0 frühe 5 0 0 0 0 0 Vogel 4 5 0 0 0 0 fängt 3 4 5 0 0 0 den 2 3 4 5 0 0 5 Wur m 1 2 3 4 5 0 4 0 0 Vogel = 0 0 0 0 3 Ergebnis von Lund Burgess Die 5 nächsten Nachbarn von zufällig ausgewählten Wörtern aus dem Usenet-Korpus gemessen mit euklidischer Distanz Literatur CHIM, H. & DENG, X. (2007). A New Suffix Tree Similarity Measure for Document Clustering. Proceedings of the 16th international conference on World Wide Web. S. 121-130. LUND, K. & BURGESS, C. (1996). Producing high-dimensional semantic spaces from lecical cooccurrences. Behavior Research Methods, Instruments, & Computers, 28(2): S. 203-208.