Tanja Eder Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder WordNet • • • • Über WordNet Verwandte Projekte Datenbank Statistiken Häufig gestellte Fragen Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Über WordNet • seit 1985 am Wahrnehmungswissenschaftlichen Laboratorium der Princeton Universität entwickelter Wortschatz der englischen Sprache, unter der Leitung von Professor George A. Miller. Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Über WordNet • WordNet besteht aus einer lexikalischen Datenbank • ursprünglich entwickelt, um natürlichsprachliche Texte für den Computer verständlich zu machen • Datenbank - frei durchsuchbar und kostenlos Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Über WordNet • WordNet enthält nur englische Substantive, Verben, Adjektive und Adverben • Keine Präpositionen, Partikel, Konjunktionen oder Pronomen wie of, an, the, and, about, because, etc. Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Über WordNet • Die folgenden Personen in Princeton arbeiten an der ständigen Entwicklung von WordNet: - Professor George A. Miller - Dr. Christiane Fellbaum - Randee Tengi u.a. Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Über WordNet • Developers Forum Robert Oschler http://www.wordnetchat.com/phpBB2/ • Literatur Christine Fellbaum (Hrsg.): Wordnet: An Electronic Lexical Database, Bradford Book, 1998, ISBN 026206197X (englisch) • Weblinks http://wordnet.princeton.edu/ - WordNet-Homepage http://www.globalwordnet.org/ - Global WordNet Association http://staff.science.uva.nl/~kamps/wordnet/ WordNetVisualisierung von http://de.wikipedia.org/wiki/WordNet Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Verwandte Projekte • • • • • Semantische Netzwerke Web Interfaces (Schnittstellen) Local Interfaces Erweiterungen Mappings Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Datenbank Statistiken • http://wordnet.princeton.edu/man/wnstats.7 WN • Die Summe von allen einzigartigen Nomen, Verben, Adjektiven und Adverben beläuft sich auf 147.249 Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Häufig gestellte Fragen • http://wordnet.princeton.edu/faq Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder EuroWordNet • Mehrsprachige Datenbank mit WordNets für mehrere europäische Sprachen • Projektstart: März 1996 • Projektende: Juni 1999 Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder EuroWordNet • Selbe Struktur wie Princeton WordNet • Synsets und semantische Beziehungen • einzigartiges spracheninternes System von Lexika • alle WordNets sind mit einem intersprachlichen Index verbunden (ILI) Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder EuroWordNet • http://www.illc.uva.nl/EuroWordNet/ • Über den Index sind die Sprachen miteinander verbunden • Wechsel von Wörtern in einer Sprache zu ähnlichen Wörtern in jeder anderen Sprache Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder EuroWordNet • Das Design der Datenbank, die festgelegten Beziehungen und der inter-sprachliche Index wurden auf Eis gelegt Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder EuroWordNet • Institutionen und Forschungsgruppen entwickeln ähnliche WordNets in anderen Sprachen (europäische und nichteuropäische), die die technischen Daten von EuroWordNet verwenden Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder EuroWordNet • Entwicklung von WordNets für Schwedisch, Norwegisch, Dänisch, Griechisch, Portugisisch, Baskisch, Katalanisch, Rumänisch, Lithauisch, Russisch, Bulgarisch und Slowenisch Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder EuroWordNet • Die Grundstruktur von EuroWordNet wird durch die Global WordNet Association weitergeführt Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Global WordNet Association • freie und öffentliche Vereinigung, die auf EuroWordNet und Princeton WordNet aufgebaut ist • Plattform für Diskussionen, zeigt die Verbindung von WordNets in allen Sprachen Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Global WordNet Association • Ziel: weitere Entwicklung von WordNets ankurbeln und WordNets in allen Sprachen der Welt miteinander zu verbinden • http://www.globalwordnet.org Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder RussNet • Über RussNet о РуссНет • Ziel цель • Derzeitige Größe теку́щий объём Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder RussNet • Projekt Neuigkeiten но́вости прое́кта • Quellen исто́чники • Methoden ме́тоды Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder RussNet • Beziehungen отноше́ния • Datenbankstrukturen структу́ра Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder RussNet • Definitionen определе́ния • Anwendung практи́ческое примене́ние Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Über RussNet О РуссНет • lexikalische, semantische Datenbank für die Russische Sprache • Abteilung für angewandte und mathematische Linguistik - Philologische Fakultät - St. Petersburger Staatsuniversität Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Über RussNet О РуссНет • Das Projekt startete 1999 • 57 (bzw. 8) Linguisten Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Ziel Цель • Entwicklung einer Quelle für allgemeine Zwecke, die das lexikalische System des Russischen als ganzes repräsentiert, das Basisvokabular des modernen Russisch enthält... Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Ziel Цель • ...und semantische, semantischgrammatische und semantisch-nachgeahmte Beziehungen zwischen den Wörtern enthält, die für das Russische relevant sind http://www.phil.pu.ru/depts/12/RN/ Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Derzeitige Größe Теку́щий объём • - Mehr als 5500 Synsets: 1300 Nomen Synsets, 1900 Verb Synsets, 1100 Adjektiv Synsets, 200 Adverb Synsets. ~10-12000 Synsets sind für die letzte Ausgabe vorbereitet Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Projekt Neuheiten Но́вости прое́кта • 14 Dezember 2003 Beispiel für Datengrundsätze • 15 Oktober 2003 Praktische Anwendung und Ergebnisse • 13 Oktober 2003 Änderung des Designs. Entstehen der russ. Seite Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Quellen • • • • • • • Исто́чники Erklärende Wörterbücher Häufigkeitslisten Assoziationswörterbücher Synonymwörterbücher Thesauri Künstlerische Texte Publizistische Texte Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Methoden Ме́тоды • • • • • Allgemeine Strategie Sammeln von Grundkonzepten Definitionsanalysen Hergeleitete Analysen Kontextanalysen Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Beziehungen Отноше́ния • Beziehungen zwischen Synsets • Beziehungen zwischen Wörtern Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Datenbankstruktur Структу́ра • Vererbte Konstruktionsgrundsätze • PoS files Nomen Verben Adjektive Adverben • Erklärungen Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Definitionen Определе́ния • nicht nur für maschinelle Benutzung - auch für die menschliche Interaktion entwickelt • zusätzliche Informationen, die dem Benutzer helfen Wortbedeutungen bzw. Definitionen schnell zu erkennen Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Anwendung Практи́ческое примене́ние • RussNet als einsprachige Quelle • RussNet als mehrsprachige Quelle • http://www.phil.pu.ru/depts/12/RN/applicati ons_ru.shtml Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006 Tanja Eder Danke für eure Aufmerksamkeit! Thank you for your attention!! Спаси́бо за внима́ние!!! Slawische Korpuslinguistik 515.005 Prof. Tosovic, SS 2006