Intelligente Recherchestrategien für e-Humanities Universität Duisburg-Essen Ausarbeitung des Vortrags über „WordNet und semantische Ähnlichkeiten“ Bajcic, Gabriel; Jambreusic, Matthias; Janssen, Christian 1.)………..Semantische Ähnlichkeit 1.1)………Bedeutung in der Sprachtechnologie 2.)………..WordNet 2.1)………Knoten in WordNet 2.2)………Relationen in WordNet 2.4)...........Semantische Nähe in Wordnet 2.5)...........Semantische Ähnlichkeit in WordNet 3.)………..Quellen 1.) Semantische Ähnlichkeit Unter semantischer Nähe versteht man das Vorkommen im selben Wortfeld. Semantische Ähnlichkeit dagegen beschreibt den relativ konkreten gemeinsamen Oberbegriff, sowie viele gemeinsame Merkmale dieser Begriffe. Manche Wörter stehen in einer größeren semantischen Nähe zueinander als andere Wörter. Die semantische Nähe beschreibt ein Konzept, das die Ähnlichkeit von Begriffen nach Art ihres Inhaltes beschreibt. Beispielsweise sind Wörter wie „Bank – Geld“, „Pinguin – Antarktis“, „Apfel – Obst“ sich semantisch nahe, wobei Wörter wie: „Erdbeere – Pinguin“, „Geld – Stuhl“, „Vorlesung – Christbaum“ semantisch weit voneinander entfernt sind. Mit semantisch ähnlich beschreibt man folgende Beispiele: „Bank – Stuhl“, „Füller – Bleistift“, „laufen – gehen“. Semantische Ähnlichkeiten sind nicht kategorisch, sondern graduell. In automatisierten Verfahren wird die semantische Ähnlichkeit zwischen Wörtern als numerischer Wert bestimmt. Ein Verfahren zur automatischen Bestimmung sind die statistischen Assoziationsmaße, hierbei ist die tatsächliche Häufigkeit von kompositionellen Ausdrücken höher als die auf Grund der Einzelhäufigkeiten erwartete Häufigkeit. Aus dem Verhältnis dieser Häufigkeiten wird ein Wert berechnet, der die Stärke der Assoziation zwischen den Teilworten ausdrückt. Dieser Wert drückt die Kollokation von Begriffen aus. Ein weiteres Verfahren ist die Nutzung digitaler lexikalisch-semantischer Datenbanken. Welche sich unterteilen in semantische Wörterbücher und semantische Wortnetze (WordNet, GermaNet, EuroWordNet,…). 1.1) Bedeutung in der Sprachtechnologie Die Bestimmung semantischer Ähnlichkeiten / semantischer Nähe ist Grundlage mehrerer sprachtechnologischer Anwendungen, die für intelligente Recherche-Strategien von Bedeutung sind, z.B. semantische Disambiguierung, d.h. eine Differenzierung der Bedeutung von Einzelwörtern. Hat ein Wort mehrere mögliche Bedeutungen, so wählt man die Bedeutung aus, die eine hohe semantische Nähe zu den Wörter im Satz besitzt. • Bank: Geld, Versicherung, sparen, Wertpapiere…=> Finanzinstitut • Bank: Tisch, Stuhl, sitzen, Möbelhaus…=> Möbelstück 2.) WordNet Das, unter Computerlinguisten als „Mutter aller Netze“ bezeichnete WordNet besteht seit 1985 und wurde an der Universität von Princeton entwickelt, um natürlichsprachige Texte für Computer verstehbar zu machen. WordNet ist ein lexikalisch-semantisches Wortnetz in Englisch und ist kostenlos verfügbar. Es umfasst Nomen, Verben, Adjektive und Adverbien. WordNet besteht aus semantischen Konzepten, so genannten Knoten und Relationen zwischen diesen Knoten. Es umfasst 155.000 Wörter und 118.000 Konzepte (118.000 Nomen, 82.000 Nomen-Konzepte). (Aussprache, Beugung, Entymologie, Verwendungsweise und Bilder sind in WordNet nicht vorhanden.) 2.1) Knoten in WordNet Ein Knoten besteht aus einer Menge synonymer (bedeutungsgleicher) Wörter und wird synset (=> „sets of synonyms“) genannt. Beispiel für ein synset anhand des Verbes gehen: gehen laufen, maschieren, wandern, schreiten, wandeln, spazieren, schlendern, rennen, bewegen, dackeln, kriechen, krabbeln, schleichen, flitzen, sausen, dahinpreschen, rasen, stolzieren 2.2) Relationen in WordNet Synsets sind sind durch verschiedene Typen von semantischen Relationen verbunden. Nomen sind in einer hauptsächlich auf Über- und Unterordnung basierenden Hierarchie geordnet => Baumstruktur. Die Mehrzahl an Nomen haben ein übergeordnetes und mindestens ein untergeordnetes Nomen. Das übergeordnete Nomen nennt man „Hyperonym“, dass untergeordnete „Hyponym“. • • <person> ist Hyponym von <life_form>. <life_form> ist Hyperonym von <person> Die als „Antonymie“ bezeichnete Relation modelliert den Bedeutungsgegensatz von Ausdrücken. • <lightness> und <darkness> sind Antonyme Die Partitive Relation wird als „Meronymie“ bezeichnet und beschreibt eine Teil-vonBeziehung. Die hierzu konverse Relation nennt man „Holonymie“ Diese Relation ist asymmetrisch. Auch gilt nicht notwendigerweise, dass 'a' das Holonym zu 'b' ist, wenn 'b' das Meronym zu 'a' ist. <hand> ist Meronym von <arm> <arm> ist Holonym von <hand> Am Beispiel des synsets „Atmungsorgan“ werden die semantischen Relationen deutlich: • • 2.3) EuroWordNet Das, in einem EU-Projekt entwickelte, EuroWordNet ist ein multilinguales semantisches Netz in acht europäischen Sprachen: englisch, hollÄndisch, spanisch, italienisch, deutsch, französisch, estnisch und tschechisch. Der deutsche Beitrag zum EuroWordNet nennt sich GermaNet und ist zum Teil im EuroNet enthalten. GermaNet wurde 1996 gegründet und wird weiter hin ausgebaut, sowie gepflegt. Es liegt seit Juli 2006 bereits in der 5. Version vor. 2.4) Semantische Nähe in Wordnet Zur Bestimmung semantischer Nähe in WordNet gibt es zwei grundlegende Möglichkeiten. Zum einen durch die Zugehörigkeit zur selben DomÄne, also zum selben Oberbegriff, zum anderen durch Überschneidungen der Definitionen. In diesem Fall werden die einzelnen Definitionen und Beispiele auf gemeinsame Wörter oder Wortketten überprüft. Je mehr Übereinstimmungen gefunden werden desto größer ist die semantische Nähe. 2.5) Semantische Ähnlichkeit in WordNet Zur Bestimmung semantischer Ähnlichkeit reicht ein Blick in die WordNet-Hierarchie (Hierarchie-Baum). Je Näher zwei Konzepte zu eina.nder stehen, also je kürzer der direkte Pfand von einem zum anderen Konzept, desto größer ist die Ähnlichkeit. Das gilt auch, je tiefer sich das spezifischste gemeinsame Hyperonym (Ober-Konzept) in der Konzept-Hierarchie befindet. Des Weiteren fließt der Abstraktionsgrad in die Berechnung der Ähnlichkeit ein. Dieser ergibt sich aus der Vorkommenswahrscheinlichkeit verschiedener Maße, die sich auf eine oder mehrere der genannten Möglichkeiten des Ober- und des Unter-Konzeptes in einem Korpus beziehen. 3.) Quellen http://www.sfs.nphil.uni-tuebingen.de/lsd/GermaNet-Workshop/Einleitung.pdf http://www.sfs.nphil.uni-tuebingen.de/lsd/GermaNet-Workshop/proceedings.html Beiträge zum deutschen Wortnetz GermaNet. http://www.ims.uni-stuttgart.de/~schulte/Teaching/Korpus-Semantik-07/Slides/mwelechler.pdf Einführung zu Mehrwortausdrücken. Das Dokument behandelt das Problem der semantischen Nicht-Kompositionalität in der maschinellen Sprachverarbeitung, sowie Arbeiten zur automatischen Bestimmung von nicht-kompositionellen Mehrwortausdrücken und Ambiguität. http://www1.uni-hamburg.de/metaphern/wordnet.http://www.ims.unistuttgart.de/~schulte/Teaching/Korpus-Semantik-07/Slides/mwe-lechler.pdfhtml Eine schnell Einführung in WordNet, zusammen gestellt von der Universität Hamburg. http://de.wikipedia.org/wiki/Semantisches_Netz http://de.wikipedia.org/wiki/Wortnetz_(Computerlinguistik) http://de.wikipedia.org/wiki/Semantische_Nähehttp://www.ims.unistuttgart.de/~schulte/Teaching/Korpus-Semantik-07/Slides/mwe-lechler.pdf http://de.wikipedia.org/wiki/Hyperonym Wikipedias lexikale Grundlageneinführung.