Tanja Eder

Werbung
Tanja Eder
Lexikalische Datenbanken
WordNet – RussNet
EuroWordNet und Global WordNet
Association
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
WordNet
•
•
•
•
Über WordNet
Verwandte Projekte
Datenbank Statistiken
Häufig gestellte Fragen
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Über WordNet
• seit 1985 am Wahrnehmungswissenschaftlichen
Laboratorium der Princeton Universität entwickelter
Wortschatz der englischen Sprache, unter der
Leitung von Professor George A. Miller.
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Über WordNet
• WordNet besteht aus einer lexikalischen
Datenbank
• ursprünglich entwickelt, um
natürlichsprachliche Texte für den
Computer verständlich zu machen
• Datenbank - frei durchsuchbar und
kostenlos
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Über WordNet
• WordNet enthält nur englische Substantive,
Verben, Adjektive und Adverben
• Keine Präpositionen, Partikel,
Konjunktionen oder Pronomen wie of, an,
the, and, about, because, etc.
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Über WordNet
• Die folgenden Personen in Princeton
arbeiten an der ständigen Entwicklung von
WordNet:
- Professor George A. Miller
- Dr. Christiane Fellbaum
- Randee Tengi u.a.
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Über WordNet
• Developers Forum
Robert Oschler http://www.wordnetchat.com/phpBB2/
• Literatur
Christine Fellbaum (Hrsg.): Wordnet: An Electronic Lexical
Database, Bradford Book, 1998, ISBN 026206197X (englisch)
• Weblinks
http://wordnet.princeton.edu/ - WordNet-Homepage
http://www.globalwordnet.org/ - Global WordNet Association
http://staff.science.uva.nl/~kamps/wordnet/ WordNetVisualisierung
von http://de.wikipedia.org/wiki/WordNet
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Verwandte Projekte
•
•
•
•
•
Semantische Netzwerke
Web Interfaces (Schnittstellen)
Local Interfaces
Erweiterungen
Mappings
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Datenbank Statistiken
• http://wordnet.princeton.edu/man/wnstats.7
WN
• Die Summe von allen einzigartigen Nomen,
Verben, Adjektiven und Adverben beläuft
sich auf 147.249
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Häufig gestellte Fragen
• http://wordnet.princeton.edu/faq
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
EuroWordNet
• Mehrsprachige Datenbank mit WordNets
für mehrere europäische Sprachen
• Projektstart: März 1996
• Projektende: Juni 1999
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
EuroWordNet
• Selbe Struktur wie Princeton WordNet
• Synsets und semantische Beziehungen
• einzigartiges spracheninternes System von
Lexika
• alle WordNets sind mit einem intersprachlichen Index verbunden (ILI)
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
EuroWordNet
• http://www.illc.uva.nl/EuroWordNet/
• Über den Index sind die Sprachen
miteinander verbunden
• Wechsel von Wörtern in einer Sprache zu
ähnlichen Wörtern in jeder anderen Sprache
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
EuroWordNet
• Das Design der Datenbank, die festgelegten
Beziehungen und der inter-sprachliche
Index wurden auf Eis gelegt
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
EuroWordNet
• Institutionen und Forschungsgruppen
entwickeln ähnliche WordNets in anderen
Sprachen (europäische und nichteuropäische), die die technischen Daten von
EuroWordNet verwenden
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
EuroWordNet
• Entwicklung von WordNets für Schwedisch,
Norwegisch, Dänisch, Griechisch,
Portugisisch, Baskisch, Katalanisch,
Rumänisch, Lithauisch, Russisch,
Bulgarisch und Slowenisch
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
EuroWordNet
• Die Grundstruktur von EuroWordNet wird
durch die Global WordNet Association
weitergeführt
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Global WordNet Association
• freie und öffentliche Vereinigung, die auf
EuroWordNet und Princeton WordNet
aufgebaut ist
• Plattform für Diskussionen, zeigt die
Verbindung von WordNets in allen
Sprachen
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Global WordNet Association
• Ziel: weitere Entwicklung von WordNets
ankurbeln und WordNets in allen Sprachen
der Welt miteinander zu verbinden
• http://www.globalwordnet.org
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
RussNet
• Über RussNet
о РуссНет
• Ziel
цель
• Derzeitige Größe
теку́щий объём
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
RussNet
• Projekt Neuigkeiten
но́вости прое́кта
• Quellen
исто́чники
• Methoden
ме́тоды
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
RussNet
• Beziehungen
отноше́ния
• Datenbankstrukturen
структу́ра
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
RussNet
• Definitionen
определе́ния
• Anwendung
практи́ческое примене́ние
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Über RussNet
О РуссНет
• lexikalische, semantische Datenbank für die
Russische Sprache
• Abteilung für angewandte und
mathematische Linguistik - Philologische
Fakultät - St. Petersburger Staatsuniversität
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Über RussNet
О РуссНет
• Das Projekt startete 1999
• 57 (bzw. 8) Linguisten
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Ziel
Цель
• Entwicklung einer Quelle für allgemeine
Zwecke, die das lexikalische System des
Russischen als ganzes repräsentiert, das
Basisvokabular des modernen Russisch
enthält...
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Ziel
Цель
• ...und semantische, semantischgrammatische und semantisch-nachgeahmte
Beziehungen zwischen den Wörtern enthält,
die für das Russische relevant sind
http://www.phil.pu.ru/depts/12/RN/
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Derzeitige Größe
Теку́щий объём
•
-
Mehr als 5500 Synsets:
1300 Nomen Synsets,
1900 Verb Synsets,
1100 Adjektiv Synsets,
200 Adverb Synsets.
~10-12000 Synsets sind für die letzte
Ausgabe vorbereitet
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Projekt Neuheiten
Но́вости прое́кта
• 14 Dezember 2003
Beispiel für Datengrundsätze
• 15 Oktober 2003
Praktische Anwendung und Ergebnisse
• 13 Oktober 2003
Änderung des Designs. Entstehen der russ.
Seite
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Quellen
•
•
•
•
•
•
•
Исто́чники
Erklärende Wörterbücher
Häufigkeitslisten
Assoziationswörterbücher
Synonymwörterbücher
Thesauri
Künstlerische Texte
Publizistische Texte
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Methoden
Ме́тоды
•
•
•
•
•
Allgemeine Strategie
Sammeln von Grundkonzepten
Definitionsanalysen
Hergeleitete Analysen
Kontextanalysen
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Beziehungen
Отноше́ния
• Beziehungen zwischen Synsets
• Beziehungen zwischen Wörtern
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Datenbankstruktur
Структу́ра
• Vererbte Konstruktionsgrundsätze
• PoS files
Nomen
Verben
Adjektive
Adverben
• Erklärungen
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Definitionen
Определе́ния
• nicht nur für maschinelle Benutzung - auch
für die menschliche Interaktion entwickelt
• zusätzliche Informationen, die dem
Benutzer helfen Wortbedeutungen bzw.
Definitionen schnell zu erkennen
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Anwendung
Практи́ческое примене́ние
• RussNet als einsprachige Quelle
• RussNet als mehrsprachige Quelle
• http://www.phil.pu.ru/depts/12/RN/applicati
ons_ru.shtml
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Tanja Eder
Danke für eure Aufmerksamkeit!
Thank you for your attention!!
Спаси́бо за внима́ние!!!
Slawische Korpuslinguistik
515.005
Prof. Tosovic, SS 2006
Herunterladen