D-SPIN Webservices

Werbung
IMS Stuttgart
SFS Tübingen
NLP-Werkzeuge als Webservices
Austauschformate
Momentan verfügbare Web Services am IMS Stuttgart
Werkzeug
Beschreibung des Werkzeugs
Verfügbare Sprachen
Trainierbarer Tokenizer Zerlegt Sätze in logisch zusammengehörige
(Schmid, 2001)
Einheiten (= Tokens)
Deutsch, Englisch, Französisch, Italienisch, Erweiterung
auf weitere Sprachen möglich
TreeTagger
(Schmid, 2004)
Reduziert Wörter auf ihre Grundform (Lemma) und
ordnet sie Wortarten zu
Deutsch, Englisch, Französisch, Italienisch, Erweiterung
auf weitere Sprachen möglich
SMOR
(Schmid et al., 2004)
Führt eine morphologische Analyse (und Zerlegung) Deutsch
auf Wortebene durch
BitPar
(Schmid, 2004)
Statistischer Parser. Führt eine syntaktische
Analyse auf Satzebene durch
Deutsch, Englisch
FSPAR
(Schiehlen, 2003)
Dependenzparser. Führt eine syntaktische
(Dependenz-) Analyse auf Satzebene durch
Deutsch
UCS Toolkit
(Evert, 2005)
Berechnet statistische Maße für
Wortpaar-Assoziationen
Sprachenunabhängig
Paketlösung zur Extraktion signifikanter
Wortpaare
(Fritzinger et al. 2009)
Bausteine:
Tokenizer, FSPAR, UCS
Deutsch
Web Services als Infrastruktur für Sprachressourcen
Grundidee:
• Arbeitsteilung innerhalb des Projektes
• Konzentration auf Zwischenebene:
• Werkzeuge sollten nicht verändert werden müssen
• stattdessen: Entwicklung von Wrappern
Application
Chain Builder
Application
Access
Wrapper
Tool
Web Service Interface
Converter
Service
Wrapper
Res.
Wrapper
Tool A
Wrapper
Res.
Webservices und Tool Chainer
Wrapper
Tool B
•
•
•
•
•
•
GermaNet: Ein semantisch / lexikalisches
Wortnetz des Deutschen
Formate sollen einfach sein
Kompaktheit: die Web Services müssen große Datenmengen übertragen
Grundlegende Kompatibilität mit Standards:
Formulierung in XML-Schema
Konzepte kompatibel mit Philosophie von GrAF – LAF – MAF/SznAF etc
Offen: Erweiterbarkeit
<?xml version=“1.0“ encoding=“utf-8“>
<D-Spin>
<metadata>
<source>IMS, Universität Stuttgart</source>
</metadata>
<TextCorpus
language=“de“
tokenisation=“yes“
POStagging =“STTS“
lemmatisation=“yes“
parsing=“FSPAR“
mweExtraction=“yes“>
<text>
Die zweite Studie lieferte ähnliche Ergebnisse.
</text>
<tokens>
<token id=“t1“ start=“1“ end=“3“>Die</token>
<token id=“t2“ start=“5“ end=“11“>zweite</token>
<token id=“t3“ start=“13“ end=“18“>Studie</token>
...
</tokens>
<POStags>
<tag tokID=“t1“>ART</tag>
<tag tokID=“t2“>ADJA</tag>
<tag tokID=“t3“>NN</tag>
</POStags>
<lemmas>
<lemma id=“L1“ tokID=“t1“>der/die/das</lemma>
<lemma id=“L2“ tokID=“t2“>zweit</lemma>
<lemma id=“L3“ tokID=“t3“>Studie</lemma>
...
</lemmas>
<depparsing>
<parsing>
<dependency function=“SPEC“ govID=“t3“ depID=“t1“/>
<dependency function=“ADJ“ govID=“t3“ depID=“t2“/>
<dependency function=“NP:nom“ govID=“t4“ depID=“t3“/>
<dependency function=“ADJ“ govID=“t6“ depID=“t5“/>
<dependency function=“NP:akk“ govID=“t4“ depID=“t6“/>
</parsing>
</depparsing>
<mwes>
<mwe type=“adj_nn“>
<k1 refid=“L2“/>
<k2 refid=“L3“/>
<loglik value =“237.44“/>
<absfreq value=“183“/>
</mwe>
</mwes>
</TextCorpus>
</D-Spin>
GermaNet ist ein Wort-Netz und gruppiert Substantive, Verben und Adjektive
desselben Konzepts (Synsets) und verknüpft diese untereinander mit semantischen und lexikalischen Relationen.
Verkettung von Webservices: Der D-Spin Tool Chainer
•
•
Die einzelnen Webservices bauen aufeinander auf und können in eine logische Kette
geschaltet werden
Einfacher Text wird von Webservice zu Webservice weitergereicht und mit linguistischen
Informationen angereichert
Verteilte
Webservices
Tafel
Schokolade, Schild, Eßtisch, Whiteboard, erlesenes Essen
Eingabe: Text
(Datei oder Textfeld)
Tool
(Tokenizer)
Tool
(Tagger)
Tool
(GermaNet)
Zwischenergebnisse
Können jederzeit als Ausgangspunkt für neue Ketten
dienen
Der Tool Chainer als Webapplikation:
lieferte
. TOP
TOP
StudieNP:nom
dieSPEC
Ergebnisse NP:akk
zweiteADJ
ähnlicheADJ
Nomen
Verb
Ergebnisse
liefern
abs LogL
7 22.82
Adjektiv
Nomen
abs
LogL
zweite
Studie
183
273.44
ähnlich
Ergebnis
64
357.20
IDS Mannheim
Cosmas II
Statistik
Synsets: 57776
Lexikalische Einheiten: 81773
Literale: 72057
1,42 lexikalische Einheiten pro Synset
1,13 Lesarten pro Literal
Lexikalische Relationen: 12042
Konzeptuelle Relationen: 68997
Universität Leipzig
Daten - Verfahren - Webservices - Anwendungen
Cosmas II
Das Deutsche Referenzkorpus DEREKO des Instituts für Deutsche Sprache bildet mit über 3,6
Milliarden Wörtern die weltweit größte linguistisch
motivierte Sammlung elektronischer Korpora mit
geschriebenen deutschsprachigen Texten aus der
Gegenwart und der neueren Vergangenheit. Das
Korpusanalyse und -recherchesystem Cosmas, das
mittlerweile in der zweiten Generation vorliegt, wurde
für die Recherche
in den Korpora des Instituts für Deutsche Sprache entwickelt. Eine eigens für
linguistisch motivierte Recherchen konzipierte Suchanfragesprache ermöglicht
in Cosmas II komplexe Suchanfragen. Verschiedene Ergebnispräsentationen erleichtern die Interpretation der Rechercheergebnisse, mit der ebenfalls am IDS
entwickelten Kookkurrenzanalyse lassen sich gefundene Treffer nach sprachlichen Mustern analysieren. Zur Zeit sind 16714 BenutzerInnen aus 86 Ländern
für Cosmas II registriert.
Im Rahmen der Deutschen Sprachressourcen-Infrastruktur D-SPIN werden die
Funktionalitäten von Cosmas II als Webservices definiert und implementiert. Im
Mittelpunkt steht hier die Integration und Verknüpfung mit den Webservices anderer Ressourcenanbietern.
Ergebnis
(XML)
Wortschatz - Monolinguale Corpora in 55 Sprachen
ASV Toolbox - Sprachidentifizierung, POS-tagging, Grundformreduktion, Eigennamenerkennung, Terminologieextraktion, ...
Wort des Tages - Tagesaktuellen Begriffe, ausgewählt aus Tageszeitungen und
Newsdiensten
ASV Webservices - Zugriff auf die Daten und Verfahren des Projektes Deutscher Wortschatz. Über 150Mio Anfragen seit 09/2006
Herunterladen