Vektormodelle - Universität zu Köln

Vektormodelle
Universität zu Köln
HS: Systeme der maschinellen Sprachverarbeitung
Prof. Dr. J. Rolshoven
Referentin: Alena Geduldig
Gliederung
 Vektormodelle
 Vector-Space-Model
 Suffix Tree Document Model
 Hyperspace Analogue to Language (HAL)
Vektormodelle

strukturierte Repräsentation natürlicher Sprache

Modellierung von Inhalt/Bedeutung durch Merkmale (Features)

als Vektoren in einem Vektorraum (Featureraum)

Ziel: ähnliche Semantik  ähnliche Vektoren
Vorteile

Strukturierte Daten

Maschinell interpretierbar

Die meisten Data Mining Algorithmen arbeiten auf Vektoren

Numerische Repräsentation im Vektorraum eröffnet Zugang zu Vergleichsmetriken
Featureraum

Meist hochdimensionaler Vektorraum

Dimensionen = Features (Merkmale)
 Skalierbares Merkmal

Vektoren: geordnete Liste von
Merkmalsgewichten
 Determiniert festen Punkt im Vektorraum
 Vektormodelle zeichnen sich aus durch…
 Definition von Merkmalen
 Gewichtung der Merkmale
Vektorähnlichkeit
Euklidische Distanz:
Cosinusähnlichkeit
Anwendungsbeispiele

Z.B. Information Retrival
 Korpus aus Dokumentvektoren
 Anfrage als Querie-Vektor

Klassifikation und Clustering
 Paarweiser Vergleich aller Dokumentvektoren eines Korpus
Term-Vektor-Modell

auch Bag of Words Model

entwickelt von Zellig Harris (1954)

Annahme: Die Termverteilung eines Dokuments spiegelt seinen Inhalt wieder
 Termverteilung als Basis für die Repräsentation
war
Mann
„Es war einmal ein Mann, der hatte sieben Söhne“
sieben
einmal
ein
der
söhne
hatte
es
Term-Vektor-Modell
Merkmalsauswahl

Vokabular des Korpus  Potentielle Merkmale

Merkmalsreduktion:
 Stoppwörter filtern
 Stemming
Merkmalsgewichtung

numerischer Ausdruck für Termrelevanz

Grundprinzip: je relevanter ein Term für ein Dokument, desto höher der Wert

naiver Ansatz: Termfrequenz

Probleme
 Unterschiedliche Dokumentlängen
 Häufige Terme beschreiben ein Dokument nicht zwingend besser
Tf-idf-Maß
Beispiel
d1: John likes movies. Mary likes movies too“
d2: „John also likes books“
Vokabular
df
d2
ntf
d2
Tf-idf
also
1
1/1 = 1
1*log(2/1)= log(2)
book
1
1/1 = 1
1*log(2/1)= log(2)
john
2
1/1 = 1
1*log(2/2)= log(1)
like
2
1/1 = 1
1*log(2/2) = log(1)
mary
1
0
0
movie
1
0
0
too
1
0
0
log(2)
log(2)
log(1)
d2 =
log(1)
0
0
0
Fazit
Vorteile (gegenüber booleschem Modell)
 gewichtete Merkmale (statt binären)
 Zugang zu Vergleichsmetriken
 erlauben präziseren , graduellenVergleich von Dokumenten
Kritik
 Reihenfolge der Wörter geht verloren
 Frege-Prinzip:
Die Bedeutung eines Satzes ergibt sich aus den Bedeutungen seinerWörter und der Art ihrer
Zusammensetzung
 Homonymie & Synonymie

Lift – Aufzug

Strauß, Bank
Suffix Tree Document Model

Entwickelt von H. Chim & X. Deng (2007)

Berücksichtigt die Wortreihenfolge

Aufbauend auf Suffix Trees

Annahme: Die Knoten im Suffix Tree spiegeln den Inhalt
eines Dokuments wieder
„cat ate cheese“
Suffix Tree Document Model

Datenstruktur zum Speichern von Dokumenten

Gerichteter Wurzelbaum

Stellt die interne Struktur eines Dokuments mit all seinen Suffixen dar
Suffix
Das i-te Suffix eines Dokuments d = {w1, w2, …,wn} ist der Substring von d der mit dem
Wort wi startet
Aufbau eines Suffix Trees
„Cat ate cheese“
W
Aufbau eines Suffix Trees
„Cat ate cheese“
W
cheese $
Aufbau eines Suffix Trees
„Cat ate cheese“
W
ate
cheese $
cheese $
Suffix Tree Document-Model
Merkmale
 Knoten im Suffix Tree
Merkmalsgewichtung
 Tf-idf-Maß der Knoten
 Knotenfrequenz(k,d): Anzahl der Traversierungen
 Dokumentfrequenz(k): Anzahl der Dokumente die den Knoten k traversiert haben
Vorgehensweise
•
Schreibe alle Dokumente in denselben Suffix Tree
•
Speichere für jeden Knoten die traversierenden Dokumente
•
…und die Häufigkeit der Traversierungen
Beispiel
d1: „cat ate cheese“
W
d2: „mouse ate cheese“
ate
cheese $
cheese $
Beispiel
d1: „cat ate cheese“
W
d2: „mouse ate cheese“
ate
cheese $
cheese $
Beispiel
d1: „cat ate cheese“
W
d2: „mouse ate cheese“
ate
cheese $
cheese $
Beispiel
d1: „cat ate cheese“
W
d2: „mouse ate cheese“
ate
ate
cheese $
cheese $
cheese $
Beispiel
d1: „cat ate cheese“
W
d2: „mouse ate cheese“
ate
ate
cheese $
df=2
d1:1
d2: 1
df=1
d1:0
d2: 1
cheese $
cheese $
Fazit
Vorteile (gegenüber Vector-Space-Model)

Berücksichtigt Termverteilung und Termreihenfolge
 Der Mann beißt den Hund ≠ Der Hund beißt den Mann
Kritik

Speicherkomplexität

Homonymie & Synonymie ?

Kritisch bei stark flektierende Sprachen
 Zeichenbasierter Suffix Tree ?
Hyperspace Analogue to Language
•
Entwickelt von K. Lund und C. Burgess
•
Kognitives Wortbedeutungsmodell
•
Zielsetzung
 Quantifizierung der Bedeutungsähnlichkeit zwischen sprachlichen Ausdrücken
Apfel – Birne vs. Apfel – Stuhl
 Modellierung der Struktur des menschlichen semantischen Gedächtnis
Semantisches Gedächtnis
• Allgemeines Weltwissen, Bedeutungen, Begriffe, Fakten
 Berlin ist die Hauptstadt von Deutschland
 Jeder Mensch hat einenVater und eine Mutter
 Spinat schmeckt scheußlich
Bedeutung als Vektor

Grundlage ist die statistische Verteilung von Wörtern in umfangreichen Korpora
Distributionelle Hypothese
Wörter, die in ähnlichen sprachlichen Kontexten auftreten ähneln sich auch in ihrer
Bedeutung
In der Garage parkt ein Flöppi
Wir fahren heute mit dem Flöppi
Heute lassen wir das Flöppistehen und gehen zufuß
Mein neues Flöppi hat 120 PS
 Kookkurrenzen als Merkmale für Bedeutung
Bedeutung als Vektor
Vorgehensweise

Korpus


Bei Lund & Burgess: Textinhalt aus dem Usenet – ca. 160 Millionen Wörter
Bestimmung des Kontext
 Kontextfenster der Länge 10 (5 links, 5 rechts)

Gewichtung der Kontextwörter

Nach Nachbarschaftsrang
Beispiel: HAL
„Der früheVogel fängt den Wurm“
4
Rechter Kontext
Linker Kontext
5
0
Der
frühe
Vogel
fängt
den
Wurm
Der
0
0
0
0
0
0
frühe
5
0
0
0
0
0
Vogel
4
5
0
0
0
0
fängt
3
4
5
0
0
0
den
2
3
4
5
0
0
5
Wur
m
1
2
3
4
5
0
4
0
0
Vogel =
0
0
0
0
3
Ergebnis von Lund Burgess
Die 5 nächsten Nachbarn von zufällig ausgewählten Wörtern aus dem Usenet-Korpus
gemessen mit euklidischer Distanz
Literatur

CHIM, H. & DENG, X. (2007). A New Suffix Tree Similarity Measure for Document Clustering.
Proceedings of the 16th international conference on World Wide Web. S. 121-130.

LUND, K. & BURGESS, C. (1996). Producing high-dimensional semantic spaces from lecical cooccurrences. Behavior Research Methods, Instruments, & Computers, 28(2): S. 203-208.