Vektormodelle
Universität zu Köln
HS: Systeme der maschinellen Sprachverarbeitung
Prof. Dr. J. Rolshoven
Referentin: Alena Geduldig
Gliederung
Vektormodelle
Vector-Space-Model
Suffix Tree Document Model
Hyperspace Analogue to Language (HAL)
Vektormodelle
strukturierte Repräsentation natürlicher Sprache
Modellierung von Inhalt/Bedeutung durch Merkmale (Features)
als Vektoren in einem Vektorraum (Featureraum)
Ziel: ähnliche Semantik ähnliche Vektoren
Vorteile
Strukturierte Daten
Maschinell interpretierbar
Die meisten Data Mining Algorithmen arbeiten auf Vektoren
Numerische Repräsentation im Vektorraum eröffnet Zugang zu Vergleichsmetriken
Featureraum
Meist hochdimensionaler Vektorraum
Dimensionen = Features (Merkmale)
Skalierbares Merkmal
Vektoren: geordnete Liste von
Merkmalsgewichten
Determiniert festen Punkt im Vektorraum
Vektormodelle zeichnen sich aus durch…
Definition von Merkmalen
Gewichtung der Merkmale
Vektorähnlichkeit
Euklidische Distanz:
Cosinusähnlichkeit
Anwendungsbeispiele
Z.B. Information Retrival
Korpus aus Dokumentvektoren
Anfrage als Querie-Vektor
Klassifikation und Clustering
Paarweiser Vergleich aller Dokumentvektoren eines Korpus
Term-Vektor-Modell
auch Bag of Words Model
entwickelt von Zellig Harris (1954)
Annahme: Die Termverteilung eines Dokuments spiegelt seinen Inhalt wieder
Termverteilung als Basis für die Repräsentation
war
Mann
„Es war einmal ein Mann, der hatte sieben Söhne“
sieben
einmal
ein
der
söhne
hatte
es
Term-Vektor-Modell
Merkmalsauswahl
Vokabular des Korpus Potentielle Merkmale
Merkmalsreduktion:
Stoppwörter filtern
Stemming
Merkmalsgewichtung
numerischer Ausdruck für Termrelevanz
Grundprinzip: je relevanter ein Term für ein Dokument, desto höher der Wert
naiver Ansatz: Termfrequenz
Probleme
Unterschiedliche Dokumentlängen
Häufige Terme beschreiben ein Dokument nicht zwingend besser
Tf-idf-Maß
Beispiel
d1: John likes movies. Mary likes movies too“
d2: „John also likes books“
Vokabular
df
d2
ntf
d2
Tf-idf
also
1
1/1 = 1
1*log(2/1)= log(2)
book
1
1/1 = 1
1*log(2/1)= log(2)
john
2
1/1 = 1
1*log(2/2)= log(1)
like
2
1/1 = 1
1*log(2/2) = log(1)
mary
1
0
0
movie
1
0
0
too
1
0
0
log(2)
log(2)
log(1)
d2 =
log(1)
0
0
0
Fazit
Vorteile (gegenüber booleschem Modell)
gewichtete Merkmale (statt binären)
Zugang zu Vergleichsmetriken
erlauben präziseren , graduellenVergleich von Dokumenten
Kritik
Reihenfolge der Wörter geht verloren
Frege-Prinzip:
Die Bedeutung eines Satzes ergibt sich aus den Bedeutungen seinerWörter und der Art ihrer
Zusammensetzung
Homonymie & Synonymie
Lift – Aufzug
Strauß, Bank
Suffix Tree Document Model
Entwickelt von H. Chim & X. Deng (2007)
Berücksichtigt die Wortreihenfolge
Aufbauend auf Suffix Trees
Annahme: Die Knoten im Suffix Tree spiegeln den Inhalt
eines Dokuments wieder
„cat ate cheese“
Suffix Tree Document Model
Datenstruktur zum Speichern von Dokumenten
Gerichteter Wurzelbaum
Stellt die interne Struktur eines Dokuments mit all seinen Suffixen dar
Suffix
Das i-te Suffix eines Dokuments d = {w1, w2, …,wn} ist der Substring von d der mit dem
Wort wi startet
Aufbau eines Suffix Trees
„Cat ate cheese“
W
Aufbau eines Suffix Trees
„Cat ate cheese“
W
cheese $
Aufbau eines Suffix Trees
„Cat ate cheese“
W
ate
cheese $
cheese $
Suffix Tree Document-Model
Merkmale
Knoten im Suffix Tree
Merkmalsgewichtung
Tf-idf-Maß der Knoten
Knotenfrequenz(k,d): Anzahl der Traversierungen
Dokumentfrequenz(k): Anzahl der Dokumente die den Knoten k traversiert haben
Vorgehensweise
•
Schreibe alle Dokumente in denselben Suffix Tree
•
Speichere für jeden Knoten die traversierenden Dokumente
•
…und die Häufigkeit der Traversierungen
Beispiel
d1: „cat ate cheese“
W
d2: „mouse ate cheese“
ate
cheese $
cheese $
Beispiel
d1: „cat ate cheese“
W
d2: „mouse ate cheese“
ate
cheese $
cheese $
Beispiel
d1: „cat ate cheese“
W
d2: „mouse ate cheese“
ate
cheese $
cheese $
Beispiel
d1: „cat ate cheese“
W
d2: „mouse ate cheese“
ate
ate
cheese $
cheese $
cheese $
Beispiel
d1: „cat ate cheese“
W
d2: „mouse ate cheese“
ate
ate
cheese $
df=2
d1:1
d2: 1
df=1
d1:0
d2: 1
cheese $
cheese $
Fazit
Vorteile (gegenüber Vector-Space-Model)
Berücksichtigt Termverteilung und Termreihenfolge
Der Mann beißt den Hund ≠ Der Hund beißt den Mann
Kritik
Speicherkomplexität
Homonymie & Synonymie ?
Kritisch bei stark flektierende Sprachen
Zeichenbasierter Suffix Tree ?
Hyperspace Analogue to Language
•
Entwickelt von K. Lund und C. Burgess
•
Kognitives Wortbedeutungsmodell
•
Zielsetzung
Quantifizierung der Bedeutungsähnlichkeit zwischen sprachlichen Ausdrücken
Apfel – Birne vs. Apfel – Stuhl
Modellierung der Struktur des menschlichen semantischen Gedächtnis
Semantisches Gedächtnis
• Allgemeines Weltwissen, Bedeutungen, Begriffe, Fakten
Berlin ist die Hauptstadt von Deutschland
Jeder Mensch hat einenVater und eine Mutter
Spinat schmeckt scheußlich
Bedeutung als Vektor
Grundlage ist die statistische Verteilung von Wörtern in umfangreichen Korpora
Distributionelle Hypothese
Wörter, die in ähnlichen sprachlichen Kontexten auftreten ähneln sich auch in ihrer
Bedeutung
In der Garage parkt ein Flöppi
Wir fahren heute mit dem Flöppi
Heute lassen wir das Flöppistehen und gehen zufuß
Mein neues Flöppi hat 120 PS
Kookkurrenzen als Merkmale für Bedeutung
Bedeutung als Vektor
Vorgehensweise
Korpus
Bei Lund & Burgess: Textinhalt aus dem Usenet – ca. 160 Millionen Wörter
Bestimmung des Kontext
Kontextfenster der Länge 10 (5 links, 5 rechts)
Gewichtung der Kontextwörter
Nach Nachbarschaftsrang
Beispiel: HAL
„Der früheVogel fängt den Wurm“
4
Rechter Kontext
Linker Kontext
5
0
Der
frühe
Vogel
fängt
den
Wurm
Der
0
0
0
0
0
0
frühe
5
0
0
0
0
0
Vogel
4
5
0
0
0
0
fängt
3
4
5
0
0
0
den
2
3
4
5
0
0
5
Wur
m
1
2
3
4
5
0
4
0
0
Vogel =
0
0
0
0
3
Ergebnis von Lund Burgess
Die 5 nächsten Nachbarn von zufällig ausgewählten Wörtern aus dem Usenet-Korpus
gemessen mit euklidischer Distanz
Literatur
CHIM, H. & DENG, X. (2007). A New Suffix Tree Similarity Measure for Document Clustering.
Proceedings of the 16th international conference on World Wide Web. S. 121-130.
LUND, K. & BURGESS, C. (1996). Producing high-dimensional semantic spaces from lecical cooccurrences. Behavior Research Methods, Instruments, & Computers, 28(2): S. 203-208.