Ausarbeitung des Vortrags über „WordNet und semantische

Werbung
Intelligente Recherchestrategien für e-Humanities
Universität Duisburg-Essen
Ausarbeitung des Vortrags über „WordNet und semantische Ähnlichkeiten“
Bajcic, Gabriel; Jambreusic, Matthias; Janssen, Christian
1.)………..Semantische Ähnlichkeit
1.1)………Bedeutung in der Sprachtechnologie
2.)………..WordNet
2.1)………Knoten in WordNet
2.2)………Relationen in WordNet
2.4)...........Semantische Nähe in Wordnet
2.5)...........Semantische Ähnlichkeit in WordNet
3.)………..Quellen
1.) Semantische Ähnlichkeit
Unter semantischer Nähe versteht man das Vorkommen im selben Wortfeld.
Semantische Ähnlichkeit dagegen beschreibt den relativ konkreten gemeinsamen
Oberbegriff, sowie viele gemeinsame Merkmale dieser Begriffe.
Manche Wörter stehen in einer größeren semantischen Nähe zueinander als andere
Wörter. Die semantische Nähe beschreibt ein Konzept, das die Ähnlichkeit von
Begriffen nach Art ihres Inhaltes beschreibt.
Beispielsweise sind Wörter wie „Bank – Geld“, „Pinguin – Antarktis“, „Apfel – Obst“
sich semantisch nahe, wobei Wörter wie:
„Erdbeere – Pinguin“, „Geld – Stuhl“, „Vorlesung – Christbaum“ semantisch weit
voneinander entfernt sind.
Mit semantisch ähnlich beschreibt man folgende Beispiele:
„Bank – Stuhl“, „Füller – Bleistift“, „laufen – gehen“.
Semantische Ähnlichkeiten sind nicht kategorisch, sondern graduell. In automatisierten
Verfahren wird die semantische Ähnlichkeit zwischen Wörtern als numerischer Wert
bestimmt.
Ein Verfahren zur automatischen Bestimmung sind die statistischen
Assoziationsmaße, hierbei ist die tatsächliche Häufigkeit von kompositionellen
Ausdrücken höher als die auf Grund der Einzelhäufigkeiten erwartete Häufigkeit.
Aus dem Verhältnis dieser Häufigkeiten wird ein Wert berechnet, der die Stärke der
Assoziation zwischen den Teilworten ausdrückt. Dieser Wert drückt die Kollokation von
Begriffen aus.
Ein weiteres Verfahren ist die Nutzung digitaler lexikalisch-semantischer
Datenbanken. Welche sich unterteilen in semantische Wörterbücher und
semantische Wortnetze (WordNet, GermaNet, EuroWordNet,…).
1.1) Bedeutung in der Sprachtechnologie
Die Bestimmung semantischer Ähnlichkeiten / semantischer Nähe ist
Grundlage mehrerer sprachtechnologischer Anwendungen, die für
intelligente Recherche-Strategien von Bedeutung sind, z.B. semantische
Disambiguierung, d.h. eine Differenzierung der Bedeutung von Einzelwörtern. Hat ein
Wort mehrere mögliche Bedeutungen, so wählt man die Bedeutung aus, die eine hohe
semantische Nähe zu den Wörter im Satz besitzt.
•
Bank: Geld, Versicherung, sparen, Wertpapiere…=> Finanzinstitut
•
Bank: Tisch, Stuhl, sitzen, Möbelhaus…=> Möbelstück
2.) WordNet
Das, unter Computerlinguisten als „Mutter aller Netze“ bezeichnete WordNet besteht
seit 1985 und wurde an der Universität von Princeton entwickelt, um
natürlichsprachige Texte für Computer verstehbar zu machen. WordNet ist ein
lexikalisch-semantisches Wortnetz in Englisch und ist kostenlos verfügbar.
Es umfasst Nomen, Verben, Adjektive und Adverbien. WordNet besteht aus
semantischen Konzepten, so genannten Knoten und Relationen zwischen diesen
Knoten. Es umfasst 155.000 Wörter und 118.000 Konzepte (118.000 Nomen, 82.000
Nomen-Konzepte). (Aussprache, Beugung, Entymologie, Verwendungsweise und
Bilder sind in WordNet nicht vorhanden.)
2.1) Knoten in WordNet
Ein Knoten besteht aus einer Menge synonymer (bedeutungsgleicher) Wörter und
wird synset (=> „sets of synonyms“) genannt.
Beispiel für ein synset anhand des Verbes gehen:
gehen
laufen, maschieren, wandern, schreiten, wandeln, spazieren, schlendern, rennen,
bewegen, dackeln, kriechen, krabbeln, schleichen, flitzen, sausen, dahinpreschen, rasen,
stolzieren
2.2) Relationen in WordNet
Synsets sind sind durch verschiedene Typen von semantischen
Relationen verbunden.
Nomen sind in einer hauptsächlich auf Über- und Unterordnung basierenden
Hierarchie geordnet => Baumstruktur. Die Mehrzahl an Nomen haben ein übergeordnetes
und mindestens ein untergeordnetes Nomen.
Das übergeordnete Nomen nennt man
„Hyperonym“, dass untergeordnete „Hyponym“.
•
•
<person> ist Hyponym von <life_form>.
<life_form> ist Hyperonym von <person>
Die als „Antonymie“ bezeichnete Relation modelliert den Bedeutungsgegensatz von
Ausdrücken.
•
<lightness> und <darkness> sind Antonyme
Die Partitive Relation wird als „Meronymie“ bezeichnet und beschreibt eine Teil-vonBeziehung. Die hierzu konverse Relation nennt man „Holonymie“ Diese Relation ist
asymmetrisch. Auch gilt nicht notwendigerweise, dass 'a' das Holonym zu 'b' ist,
wenn 'b' das Meronym zu 'a' ist.
<hand> ist Meronym von <arm>
<arm> ist Holonym von <hand>
Am Beispiel des synsets „Atmungsorgan“ werden die semantischen Relationen
deutlich:
•
•
2.3) EuroWordNet
Das, in einem EU-Projekt entwickelte, EuroWordNet ist ein multilinguales
semantisches Netz in acht europäischen Sprachen: englisch, hollÄndisch, spanisch,
italienisch, deutsch, französisch, estnisch und tschechisch. Der deutsche Beitrag zum
EuroWordNet nennt sich GermaNet und ist zum Teil im EuroNet enthalten.
GermaNet wurde 1996 gegründet und wird weiter hin ausgebaut, sowie gepflegt. Es liegt
seit Juli 2006 bereits in der 5. Version vor.
2.4) Semantische Nähe in Wordnet
Zur Bestimmung semantischer Nähe in WordNet gibt es zwei grundlegende
Möglichkeiten. Zum einen durch die Zugehörigkeit zur selben DomÄne, also zum
selben Oberbegriff, zum anderen durch Überschneidungen der Definitionen. In
diesem Fall werden die einzelnen Definitionen und Beispiele auf gemeinsame Wörter
oder Wortketten überprüft. Je mehr Übereinstimmungen gefunden werden desto
größer ist die semantische Nähe.
2.5) Semantische Ähnlichkeit in WordNet
Zur Bestimmung semantischer Ähnlichkeit reicht ein Blick in die WordNet-Hierarchie
(Hierarchie-Baum). Je Näher zwei Konzepte zu eina.nder stehen, also je kürzer der
direkte Pfand von einem zum anderen Konzept, desto größer ist die Ähnlichkeit. Das
gilt auch, je tiefer sich das spezifischste gemeinsame Hyperonym (Ober-Konzept) in
der Konzept-Hierarchie befindet. Des Weiteren fließt der Abstraktionsgrad in die
Berechnung der Ähnlichkeit ein. Dieser ergibt sich aus der Vorkommenswahrscheinlichkeit verschiedener Maße, die sich auf eine oder mehrere der genannten
Möglichkeiten des Ober- und des Unter-Konzeptes in einem Korpus beziehen.
3.) Quellen
http://www.sfs.nphil.uni-tuebingen.de/lsd/GermaNet-Workshop/Einleitung.pdf
http://www.sfs.nphil.uni-tuebingen.de/lsd/GermaNet-Workshop/proceedings.html
Beiträge zum deutschen Wortnetz GermaNet.
http://www.ims.uni-stuttgart.de/~schulte/Teaching/Korpus-Semantik-07/Slides/mwelechler.pdf
Einführung zu Mehrwortausdrücken.
Das Dokument behandelt das Problem der semantischen Nicht-Kompositionalität in der
maschinellen Sprachverarbeitung, sowie Arbeiten zur automatischen Bestimmung von
nicht-kompositionellen Mehrwortausdrücken und Ambiguität.
http://www1.uni-hamburg.de/metaphern/wordnet.http://www.ims.unistuttgart.de/~schulte/Teaching/Korpus-Semantik-07/Slides/mwe-lechler.pdfhtml
Eine schnell Einführung in WordNet, zusammen gestellt von der Universität Hamburg.
http://de.wikipedia.org/wiki/Semantisches_Netz
http://de.wikipedia.org/wiki/Wortnetz_(Computerlinguistik)
http://de.wikipedia.org/wiki/Semantische_Nähehttp://www.ims.unistuttgart.de/~schulte/Teaching/Korpus-Semantik-07/Slides/mwe-lechler.pdf
http://de.wikipedia.org/wiki/Hyperonym
Wikipedias lexikale Grundlageneinführung.
Herunterladen