Nachhaltige Ressourcen durch Dokumentation von

Werbung
Nachhaltige Ressourcen durch
Dokumentation von Verarbeitungsschritten
Metadaten, Prozessmetadaten und
Workflowvisualisierung
Kerstin Eckart
Universität Stuttgart
Institut für Maschinelle Sprachverarbeitung
Pfaffenwaldring 5b
70569 Stuttgart
Berlin, 6. Mai 2015
1 Einordnung & Begriffe
2 Ressourcendokumentation
3 Metadaten
4 Prozessmetadaten
5 Workflows verwalten und visualisieren
6 Zusammenfassung
6.5.2015: Prozessmetadaten
2 / 57
Einordnung & Begriffe
Ressourcenbegriff
6.5.2015: Prozessmetadaten
3 / 57
Einordnung & Begriffe
Ressourcenbegriff
6.5.2015: Prozessmetadaten
3 / 57
Einordnung & Begriffe
Ressourcenbegriff
6.5.2015: Prozessmetadaten
3 / 57
Einordnung & Begriffe
Ressourcenbegriff
6.5.2015: Prozessmetadaten
3 / 57
Einordnung & Begriffe
Ressourcenbegriff
6.5.2015: Prozessmetadaten
3 / 57
Einordnung & Begriffe
Ressourcenbegriff
6.5.2015: Prozessmetadaten
3 / 57
Ressourcenbegriff
• Korpus
• Frequenzliste
• Tool
• Lemmaliste
• Grammatik
• Lexikon
Einordnung & Begriffe
• Sprachmodell
• WebService
• Umfragedaten
• Testdaten
• Wortliste
• Experiment-Daten
• Wortnetz
• Feldforschungsdaten
• ...
6.5.2015: Prozessmetadaten
4 / 57
Datenebenen
Einordnung & Begriffe
Beispielkorpus: DIRNDL [Eckart et al., 2012]
6.5.2015: Prozessmetadaten
5 / 57
Nachhaltigkeit
”Primärdaten als Grundlagen für Veröffentlichungen sollen auf
haltbaren und gesicherten Trägern in der Institution, wo sie
entstanden sind, für zehn Jahre aufbewahrt werden.”
Vorschläge zur Sicherung guter wissenschaftlicher Praxis:
Empfehlungen der Kommission „Selbstkontrolle in der Wissenschaft“;
Einordnung & Begriffe
Denkschrift DFG, 1998
6.5.2015: Prozessmetadaten
6 / 57
Nachhaltigkeit
”Primärdaten als Grundlagen für Veröffentlichungen sollen auf
haltbaren und gesicherten Trägern in der Institution, wo sie
entstanden sind, für zehn Jahre aufbewahrt werden.”
Vorschläge zur Sicherung guter wissenschaftlicher Praxis:
Empfehlungen der Kommission „Selbstkontrolle in der Wissenschaft“;
Einordnung & Begriffe
Denkschrift DFG, 1998
”Wenn aus Projektmitteln systematisch Forschungsdaten oder
Informationen gewonnen werden, die für die Nachnutzung durch
andere Wissenschaftlerinnen und Wissenschaftler geeignet sind,
legen Sie bitte dar, ob und auf welche Weise diese für andere zur
Verfügung gestellt werden. Bitte berücksichtigen Sie dabei auch sofern vorhanden - die in Ihrer Fachdisziplin existierenden
Standards und die Angebote existierender Datenrepositorien oder
Archive.”
DFG-Vordruck 54.01; Leitfaden für die Antragstellung Projektanträge [06/14]
6.5.2015: Prozessmetadaten
6 / 57
Aspekte der Nachhaltigkeit
• Ressourcen zur Verfügung stellen
Einordnung & Begriffe
• Ressourcen verwenden
6.5.2015: Prozessmetadaten
7 / 57
Aspekte der Nachhaltigkeit
Einordnung & Begriffe
• Ressourcen zur Verfügung stellen
• Aufbewahrung: Repositorien
• Auffindbarkeit: Persistente Identifikatoren
• Nutzbarkeit: Dokumentation, Metadaten
• Ressourcen verwenden
6.5.2015: Prozessmetadaten
7 / 57
Einordnung & Begriffe
Aspekte der Nachhaltigkeit
• Ressourcen zur Verfügung stellen
• Aufbewahrung: Repositorien
• Auffindbarkeit: Persistente Identifikatoren
• Nutzbarkeit: Dokumentation, Metadaten
• Ressourcen verwenden
• Auswählen: mithilfe von Metadaten
• Nachnutzung: für verschiedene Fachgebiete
• Reproduzierbarkeit, Vergleichbarkeit:
von abgeleiteten Datensätzen oder Ergebnissen
6.5.2015: Prozessmetadaten
7 / 57
Einordnung & Begriffe
Aspekte der Nachhaltigkeit
• Ressourcen zur Verfügung stellen
• Aufbewahrung: Repositorien
• Auffindbarkeit: Persistente Identifikatoren
• Nutzbarkeit: Dokumentation, Metadaten
• Ressourcen verwenden
• Auswählen: mithilfe von Metadaten
• Nachnutzung: für verschiedene Fachgebiete
• Reproduzierbarkeit, Vergleichbarkeit:
von abgeleiteten Datensätzen oder Ergebnissen
Vorteile der Nachnutzung
⇒ Aufwendige Erstellung der Ressourcen muss nicht
wiederholt werden
⇒ Arbeit, die in Ressourcen steckt, wird durch Zitierung sichtbar
6.5.2015: Prozessmetadaten
7 / 57
1 Einordnung & Begriffe
2 Ressourcendokumentation
Ressourcendokumentation
3 Metadaten
4 Prozessmetadaten
5 Workflows verwalten und visualisieren
6 Zusammenfassung
6.5.2015: Prozessmetadaten
8 / 57
Umfrage zum Thema Dokumentation
Rahmen
• Bachelorarbeit von Alisa Noha zum Thema
Ressourcendokumentation
Metadaten für computerlinguistische Ressourcen –
Anforderungen an die nachhaltige Dokumentation
• Umfrage im ersten Quartal 2014
• 30 Teilnehmer
• Fragen zu 10 Dokumentationsaspekten, basierend auf
• Elementen aus DCMI (Dublin Core Metadata Initiative)
• Erfahrungen aus der Metadatenerstellung mit CMDI
(Component MetaData Infrastructure)
6.5.2015: Prozessmetadaten
9 / 57
Umfrage zum Thema Dokumentation
Ressourcendokumentation
Gewählte Aspekte
• Rechte
• Sprache
• Name
• Relationen
• Kontakt
• Quelle
• Abdeckung
• Format
(räumlich / zeitlich)
• Version
Fragetypen
• Hintergrund der Teilnehmer (3 Fragen)
• Dokumentationspräferenz (12 Fragen)
• Einschätzung bisheriger Dokumentation (9 Fragen)
• Anmerkungen / Auflistungen (11 Fragen)
6.5.2015: Prozessmetadaten
10 / 57
Ressourcendokumentation
Teilnehmer – Tätigkeitsbereich
6.5.2015: Prozessmetadaten
11 / 57
Teilnehmer – Rolle
Ressourcendokumentation
In welcher Rolle sehen Sie sich selbst am ehesten?
6.5.2015: Prozessmetadaten
12 / 57
Beispielfragen zum Aspekt Sprache
• Dokumentationspräferenz
Ressourcendokumentation
Computerlinguistische Ressourcen sind oft an bestimmte
Sprachen gebunden (lateinisches Korpus; PoS-Tagger,
der für Altfranzösisch funktioniert). Entscheiden Sie bitte,
ob Sie die Sprache dokumentieren würden:
nicht
dokumentieren
6.5.2015: Prozessmetadaten
eher nicht
dokumentieren
eher
dokumentieren
unbedingt
dokumentieren
13 / 57
Beispielfragen zum Aspekt Sprache
• Dokumentationspräferenz
Ressourcendokumentation
Computerlinguistische Ressourcen sind oft an bestimmte
Sprachen gebunden (lateinisches Korpus; PoS-Tagger,
der für Altfranzösisch funktioniert). Entscheiden Sie bitte,
ob Sie die Sprache dokumentieren würden:
nicht
dokumentieren
eher nicht
dokumentieren
eher
dokumentieren
unbedingt
dokumentieren
• Einschätzung bisheriger Dokumentation
Schätzen Sie bitte ein, wie stark diese Information bereits
in bestehenden Dokumentationen dokumentiert wurde:
nie
oder fast nie
6.5.2015: Prozessmetadaten
eher
unsystematisch
immer
oder fast immer
13 / 57
Sprache – eigene Präferenz
Ressourcendokumentation
[. . . ] Entscheiden Sie bitte, ob Sie die Sprache dokumentieren
würden:
6.5.2015: Prozessmetadaten
14 / 57
Sprache – Einschätzung des Ist-Zustands
Ressourcendokumentation
Schätzen Sie bitte ein, wie stark diese Information bereits [. . . ]
dokumentiert wurde:
6.5.2015: Prozessmetadaten
15 / 57
Name – eigene Präferenz
Ressourcendokumentation
[. . . ] Sollen alle Namen unter denen eine Ressource bekannt ist
dokumentiert werden (Kurznamen, ausführliche Namen, evtl. mit
Projekt)?
6.5.2015: Prozessmetadaten
16 / 57
Name – eigene Präferenz
Ressourcendokumentation
Sollte Ihrer Meinung nach vor der Veröffentlichung ein Name
eingeführt werden, falls es noch keinen gibt?
6.5.2015: Prozessmetadaten
17 / 57
Name – Einschätzung des Ist-Zustands
Ressourcendokumentation
Schätzen Sie bitte ein, wie stark diese Information bereits [. . . ]
dokumentiert wurde:
6.5.2015: Prozessmetadaten
18 / 57
Statische Dokumentationsaspekte
Beschreibung
Title
Creator
Type
Date
Name oder Bezeichnung
Urheber der Ressource
Art der Ressource
Erstellungszeitraum,
Veröffentlichungsdatum,
Versionierungsdatum, ...
Internet Media Type, Größe,
Tabellenformat, ...
Verknüpfung mit anderen
Ressourcen
zugrundeliegende
Quellressourcen
natürlichsprachliche
Beschreibung
räumliches oder zeitliches
Thema
Sprache
Ressourcendokumentation
Format
Relation
Source
Description
Coverage
Language
administrativ technisch
strukturell inhaltlich
6.5.2015: Prozessmetadaten
X
X
unknown
X
Einschätzung
bisheriger
Gebrauch*
%
%
unknown
−→
X
−→
X
−→
X
%
unknown
unknown
X
%
X
−→
Nutzerzustimmung
Bezeichnung
−→ “eher unsystematisch”
% “eher unsystematisch”, aber auch viele
“immer oder fast immer”
19 / 57
1 Einordnung & Begriffe
2 Ressourcendokumentation
3 Metadaten
4 Prozessmetadaten
Metadaten
5 Workflows verwalten und visualisieren
6 Zusammenfassung
6.5.2015: Prozessmetadaten
20 / 57
Metadaten: Einführung
Metadaten sind . . .
• Daten über die Ressource
• Teil der Dokumentation einer Ressource
• mögliche Suchkriterien für potentielle Nutzer
Metadaten
• Hilfe zur Bewertung bei der Wiederverwendung:
”Passt die Ressource auf meine Anforderungen?”
6.5.2015: Prozessmetadaten
21 / 57
Metadaten: Einführung
Metadaten sollten . . .
• menschenlesbar sein
• systematisch auswertbar sein
• verschiedene Ressourcentypen beschreiben können
Metadaten
• die Fragestellungen
verschiedener Benutzergruppen berücksichtigen
6.5.2015: Prozessmetadaten
22 / 57
Dublin Core Metadata Initiative – DCMI
• Dublin Core Metadata Element Set, Version 1.1
• Statischer Kern: 15 Metadatenelemente (“Dublin Core”)
Metadaten
•
•
•
•
•
•
•
•
contributor
coverage
creator
date
description
format
identifier
language
• publisher
• relation
• rights
• source
• subject
• title
• type
http://dublincore.org/documents/2012/06/14/dces/
6.5.2015: Prozessmetadaten
23 / 57
TEI Header
• Text Encoding Initiative
Metadaten
P5: Richtlinien für die Auszeichnung und den Austausch
elektronischer Texte
• Flexible Metadatenelemente in vier Hauptabschnitten:
fileDesc bibliographische Beschreibung einer Datei
(Titel, Autor, Editor, . . . )
encodingDesc Beschreibung der Kodierung
(Werkzeuge, Normalisierung . . . )
profileDesc Beschreibung des Textprofils
(Sprachen, Textthematik, . . . )
revisionDesc Beschreibung der vorgenommenen
Revisionsschritte
(Annotationen, Korrekturen, . . . )
http://www.tei-c.org/release/doc/tei-p5-doc/de/html/HD.html
6.5.2015: Prozessmetadaten
24 / 57
TEI Header – LAUDATIO
Lühr, Rosemarie; Faßhauer, Vera; Prutscher, Daniela; Seidel, Henry;
Fuerstinnenkorrespondenz (Version 1.1), Universität Jena, DFG.
Metadaten
http://www.indogermanistik.uni-jena.de/Web/Projekte/Fuerstinnenkorr.htm
6.5.2015: Prozessmetadaten
25 / 57
TEI Header – LAUDATIO
Lühr, Rosemarie; Faßhauer, Vera; Prutscher, Daniela; Seidel, Henry;
Fuerstinnenkorrespondenz (Version 1.1), Universität Jena, DFG.
Metadaten
http://www.indogermanistik.uni-jena.de/Web/Projekte/Fuerstinnenkorr.htm
http://hdl.handle.net/11022/0000-0000-2E44-1
6.5.2015: Prozessmetadaten
25 / 57
TEI Header – LAUDATIO
Lühr, Rosemarie; Faßhauer, Vera; Prutscher, Daniela; Seidel, Henry;
Fuerstinnenkorrespondenz (Version 1.1), Universität Jena, DFG.
http://www.indogermanistik.uni-jena.de/Web/Projekte/Fuerstinnenkorr.htm
Metadaten
http://hdl.handle.net/11022/0000-0000-2E44-1
6.5.2015: Prozessmetadaten
25 / 57
Component Metadata Infrastructure – CMDI
• Flexible Anordnung von Metadatenelementen in
Komponenten und Profilen
• Component Registry
• Vorhandene Komponenten und Profile durchsuchen
• Eigene Komponenten und Profile registrieren
Metadaten
http://catalog.clarin.eu/ds/ComponentRegistry/
6.5.2015: Prozessmetadaten
26 / 57
Metadaten
Component Metadata Infrastructure – CMDI
6.5.2015: Prozessmetadaten
27 / 57
Metadaten
Component Metadata Infrastructure – CMDI
6.5.2015: Prozessmetadaten
27 / 57
Metadaten
Component Metadata Infrastructure – CMDI
6.5.2015: Prozessmetadaten
27 / 57
Metadaten
Component Metadata Infrastructure – CMDI
6.5.2015: Prozessmetadaten
27 / 57
Metadaten
Component Metadata Infrastructure – CMDI
6.5.2015: Prozessmetadaten
27 / 57
Metadaten
Component Metadata Infrastructure – CMDI
6.5.2015: Prozessmetadaten
27 / 57
Metadaten
Component Metadata Infrastructure – CMDI
6.5.2015: Prozessmetadaten
27 / 57
Metadaten
Component Metadata Infrastructure – CMDI
6.5.2015: Prozessmetadaten
27 / 57
Metadaten
Component Metadata Infrastructure – CMDI
6.5.2015: Prozessmetadaten
27 / 57
Metadaten
Component Metadata Infrastructure – CMDI
6.5.2015: Prozessmetadaten
27 / 57
CMDI-Metadateninstanz
Metadaten
Ressource:
Profil:
6.5.2015: Prozessmetadaten
TreeTagger [Schmid, 1994]
ToolProfile (NaLiDa)
28 / 57
CMDI-Metadateninstanz
Metadaten
Ressource:
Profil:
TreeTagger [Schmid, 1994]
ToolProfile (NaLiDa)
http://hdl.handle.net/11858/00-247C-0000-0022-C698-E
6.5.2015: Prozessmetadaten
28 / 57
CMDI-Metadateninstanz
Metadaten
Ressource:
Profil:
TreeTagger [Schmid, 1994]
ToolProfile (NaLiDa)
http://hdl.handle.net/11858/00-247C-0000-0022-C698-E
6.5.2015: Prozessmetadaten
28 / 57
1 Einordnung & Begriffe
2 Ressourcendokumentation
3 Metadaten
Prozessmetadaten
4 Prozessmetadaten
5 Workflows verwalten und visualisieren
6 Zusammenfassung
6.5.2015: Prozessmetadaten
29 / 57
Prozessmetadaten: Einführung
Prozessmetadaten
Prozessmetadaten . . .
6.5.2015: Prozessmetadaten
30 / 57
Prozessmetadaten: Einführung
Prozessmetadaten . . .
• sind Daten über die Entstehung einer Ressource oder
den Ablauf einer Studie
⇒ dokumentieren einen Workflow
Prozessmetadaten
• tragen wichtige Informationen zur Dokumentation
einer Ressource bei
• dienen zur Bewertung bei der Wiederverwendung:
Passt die Ressource auf meine Anforderungen?
• dienen der Reproduzierbarkeit und Vergleichbarkeit:
Welche Tool-Version wurde auf welchem Subkorpus
eingesetzt?
6.5.2015: Prozessmetadaten
30 / 57
Prozessmetadaten: Motivation
Prozessmetadaten
Auswirkung der Wahl
[Elming et al., 2013]
eines Konstituentenstruktur-Dependenz-Konverters
auf verschiedene Anwendungen
6.5.2015: Prozessmetadaten
31 / 57
Prozessmetadaten: Motivation
Auswirkung der Wahl
[Elming et al., 2013]
eines Konstituentenstruktur-Dependenz-Konverters
auf verschiedene Anwendungen
• Mate-Parser
[Bohnet, 2010]
• 4 verschiedene Konverter
• Externen Evaluation (maschinelle Übersetzung,
Prozessmetadaten
Negationsauflösung, Satzreduktion, . . . )
6.5.2015: Prozessmetadaten
31 / 57
Prozessmetadaten: Motivation
Auswirkung der Wahl
[Elming et al., 2013]
eines Konstituentenstruktur-Dependenz-Konverters
auf verschiedene Anwendungen
• Mate-Parser
[Bohnet, 2010]
• 4 verschiedene Konverter
• Externen Evaluation (maschinelle Übersetzung,
Prozessmetadaten
Negationsauflösung, Satzreduktion, . . . )
⇒ Wahl des Konverters hat Einfluss auf die Performanz
in der Anwendung
6.5.2015: Prozessmetadaten
31 / 57
Prozessmetadaten: Motivation
Auswirkung der Wahl
[Elming et al., 2013]
eines Konstituentenstruktur-Dependenz-Konverters
auf verschiedene Anwendungen
• Mate-Parser
[Bohnet, 2010]
• 4 verschiedene Konverter
• Externen Evaluation (maschinelle Übersetzung,
Prozessmetadaten
Negationsauflösung, Satzreduktion, . . . )
⇒ Wahl des Konverters hat Einfluss auf die Performanz
in der Anwendung
⇒ Vergleichbarkeit hängt von der Wahl des Konverters ab
6.5.2015: Prozessmetadaten
31 / 57
Workflowtypen
• Linear (Pipeline)
• Verzweigend (Branching)
Prozessmetadaten
• Spiralförmig (Bootstrapping)
6.5.2015: Prozessmetadaten
32 / 57
Dimensionen der Analysebeziehungen
Prozessmetadaten
• Vertikal
• einzelne Pipeline-Stränge
• Analysen nutzen Information
aus vorhergehenden Schritten
6.5.2015: Prozessmetadaten
33 / 57
Dimensionen der Analysebeziehungen
Prozessmetadaten
• Vertikal
• einzelne Pipeline-Stränge
• Analysen nutzen Information
aus vorhergehenden Schritten
• Horizontal
• alternative Analysen der selben Beschreibungsebene
• keine direkte Abhängigkeit
• Vergleichbarkeit durch gemeinsamen Ausgangspunkt
6.5.2015: Prozessmetadaten
33 / 57
Prozessmetadaten
Dimensionen der Analysebeziehungen
• Vertikal
• einzelne Pipeline-Stränge
• Analysen nutzen Information
aus vorhergehenden Schritten
• Horizontal
• alternative Analysen der selben Beschreibungsebene
• keine direkte Abhängigkeit
• Vergleichbarkeit durch gemeinsamen Ausgangspunkt
• Temporal
• zeitliche Entwicklung der beteiligten Ressourcen,
z.B.: verschiedene Tool-Versionen, die auf
dieselben Eingabedaten angewendet werden
• Hypothesen über Qualitätsveränderung
6.5.2015: Prozessmetadaten
33 / 57
Workflow-Beispiele: Analysedimensionen
• Aufgabenbasierte Kombination von Parser-Output
Prozessmetadaten
• Fallstudie: semantische Klassifikation
[Haselbach et al., 2012]
von nach-Partikelverben mithilfe ihrer Argumentstruktur
6.5.2015: Prozessmetadaten
34 / 57
Workflow-Beispiele: Analysedimensionen
• Aufgabenbasierte Kombination von Parser-Output
• Fallstudie: semantische Klassifikation
[Haselbach et al., 2012]
von nach-Partikelverben mithilfe ihrer Argumentstruktur
• Partikel nimmt Bezug auf
• Ereigniseigenschaften: ⊕ DATIV
(1)
[Haselbach, 2011]
Der Hund lief demDAT Hasen nach.
Prozessmetadaten
• Zustandseigenschaften: DATIV
(2)
6.5.2015: Prozessmetadaten
Die Banane reifte *(demDAT Apfel) nach.
34 / 57
Workflow-Beispiele: Analysedimensionen
• Aufgabenbasierte Kombination von Parser-Output
• Fallstudie: semantische Klassifikation
[Haselbach et al., 2012]
von nach-Partikelverben mithilfe ihrer Argumentstruktur
• Partikel nimmt Bezug auf
• Ereigniseigenschaften: ⊕ DATIV
(1)
[Haselbach, 2011]
Der Hund lief demDAT Hasen nach.
Prozessmetadaten
• Zustandseigenschaften: DATIV
(2)
Die Banane reifte *(demDAT Apfel) nach.
• Extraktion von syntaktischen Features durch
zwei Dependenzparser:
• Mate-Parser (statistisch)
• FSPar (regelbasiert)
6.5.2015: Prozessmetadaten
[Bohnet, 2010]
[Schiehlen, 2003]
34 / 57
Prozessmetadaten
Workflow-Beispiele: Analysedimensionen
6.5.2015: Prozessmetadaten
35 / 57
Prozessmetadaten
Workflow-Beispiele: Analysedimensionen
6.5.2015: Prozessmetadaten
35 / 57
Prozessmetadaten
Workflow-Beispiele: Analysedimensionen
6.5.2015: Prozessmetadaten
35 / 57
Prozessmetadaten
Workflow-Beispiele: Analysedimensionen
6.5.2015: Prozessmetadaten
35 / 57
Prozessmetadaten
Workflow-Beispiele: Analysedimensionen
6.5.2015: Prozessmetadaten
35 / 57
Prozessmetadaten
Workflow-Beispiele: Analysedimensionen
6.5.2015: Prozessmetadaten
35 / 57
Prozessmetadaten
Workflow-Beispiele: Analysedimensionen
6.5.2015: Prozessmetadaten
35 / 57
Workflow-Beispiele: Ressourcenerstellung
• Discourse Information Radio News Database for Linguistic
analysis (DIRNDL)
• Primärdaten: Radionachrichten
Prozessmetadaten
• Nachrichtensendungen (Audio, 5 Stunden)
• Nachrichtenmanuskripte (Text, 3221 Sätze)
• Annotationen – erstellt im SFB 732, Projekt A1
6.5.2015: Prozessmetadaten
36 / 57
Workflow-Beispiele: Ressourcenerstellung
• Basierend auf textuellem
Primärdatensatz
• Automatische
Syntaxannotation
(XLE-Parser / LFG
Prozessmetadaten
[Rohrer and Forst, 2006])
• Manuelle Informationsstatusannotation (RefLex
[Baumann and Riester, 2012])
6.5.2015: Prozessmetadaten
37 / 57
Prozessmetadaten
Workflow-Beispiele: Ressourcenerstellung
• Basierend auf Audiodaten
• Automatische Vorverarbeitung: Alignment, Segmentierung
(Silben, Phoneme)
6.5.2015: Prozessmetadaten
38 / 57
Prozessmetadaten
Workflow-Beispiele: Ressourcenerstellung
• Basierend auf Audiodaten
• Manuelle prosodische Annotation: Pitchakzente, prosodische
Phrasengrenzen (GToBI(S) [Mayer, 1995])
6.5.2015: Prozessmetadaten
38 / 57
Prozessmetadaten
Workflow-Beispiele: Ressourcenerstellung
6.5.2015: Prozessmetadaten
39 / 57
Prozessmetadaten: Beispiele
Prozessmetadaten
WebLicht http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/
6.5.2015: Prozessmetadaten
40 / 57
Prozessmetadaten: Beispiele
Prozessmetadaten
CMDI-Komponenten (CreationTool, Source, . . . )
http://hdl.handle.net/11858/00-247C-0000-0022-F7B1-A
6.5.2015: Prozessmetadaten
40 / 57
Prozessmetadaten: Beispiele
Prozessmetadaten
LAUDATIO-Repository
6.5.2015: Prozessmetadaten
http://hdl.handle.net/11022/0000-0000-2E44-1
40 / 57
Workflows verwalten und visualisieren
1 Einordnung & Begriffe
2 Ressourcendokumentation
3 Metadaten
4 Prozessmetadaten
5 Workflows verwalten und visualisieren
6 Zusammenfassung
6.5.2015: Prozessmetadaten
41 / 57
B3-Datenbank (B3DB)
Workflows verwalten und visualisieren
• SFB 732, Projekt B3: Disambiguierung von
Nominalisierungen bei der Extraktion linguistischer
Daten aus Korpustext
• Infrastruktur zur Untertstützung des
Testens linguistischer Hypothesen
Abstrakter Workflow
6.5.2015: Prozessmetadaten
42 / 57
B3-Datenbank (B3DB)
Workflows verwalten und visualisieren
• SFB 732, Projekt B3: Disambiguierung von
Nominalisierungen bei der Extraktion linguistischer
Daten aus Korpustext
• Infrastruktur zur Untertstützung des
Testens linguistischer Hypothesen
Abstrakter Workflow
Hypothese1
6.5.2015: Prozessmetadaten
42 / 57
B3-Datenbank (B3DB)
Workflows verwalten und visualisieren
• SFB 732, Projekt B3: Disambiguierung von
Nominalisierungen bei der Extraktion linguistischer
Daten aus Korpustext
• Infrastruktur zur Untertstützung des
Testens linguistischer Hypothesen
Abstrakter Workflow
Hypothese1 → Anwendung auf Korpusdaten
6.5.2015: Prozessmetadaten
42 / 57
B3-Datenbank (B3DB)
Workflows verwalten und visualisieren
• SFB 732, Projekt B3: Disambiguierung von
Nominalisierungen bei der Extraktion linguistischer
Daten aus Korpustext
• Infrastruktur zur Untertstützung des
Testens linguistischer Hypothesen
Abstrakter Workflow
Hypothese1 → Anwendung auf Korpusdaten → Ergebnisanalyse
6.5.2015: Prozessmetadaten
42 / 57
B3-Datenbank (B3DB)
Workflows verwalten und visualisieren
• SFB 732, Projekt B3: Disambiguierung von
Nominalisierungen bei der Extraktion linguistischer
Daten aus Korpustext
• Infrastruktur zur Untertstützung des
Testens linguistischer Hypothesen
Abstrakter Workflow
Hypothese1 → Anwendung auf Korpusdaten → Ergebnisanalyse
→ Hypothese2
6.5.2015: Prozessmetadaten
42 / 57
B3-Datenbank (B3DB)
Workflows verwalten und visualisieren
• SFB 732, Projekt B3: Disambiguierung von
Nominalisierungen bei der Extraktion linguistischer
Daten aus Korpustext
• Infrastruktur zur Untertstützung des
Testens linguistischer Hypothesen
Abstrakter Workflow
Hypothese1 → Anwendung auf Korpusdaten → Ergebnisanalyse
→ Hypothese2
6.5.2015: Prozessmetadaten
42 / 57
Workflows verwalten und visualisieren
Workflowmodellierung in der Datenbank
6.5.2015: Prozessmetadaten
43 / 57
Workflowmodellierung in der Datenbank
Workflows verwalten und visualisieren
Text
corpus/
sentence/
...
+ metadata
• Primärdaten: (Teil)Korpora, Texte, Sätze, etc.
6.5.2015: Prozessmetadaten
43 / 57
Workflowmodellierung in der Datenbank
Workflows verwalten und visualisieren
Text
corpus/
sentence/
...
+ metadata
NLP Tools
z.B. Tools:
Lingenio,
NLP
FSPar, BitPar
B3-Tool,
BitPar, ...
modules/ knowledge
components base
• Primärdaten: (Teil)Korpora, Texte, Sätze, etc.
• Tools: spezifische Versionen von Werkzeugen
6.5.2015: Prozessmetadaten
43 / 57
Workflowmodellierung in der Datenbank
annot.
text
Workflows verwalten und visualisieren
Text
NLP Tools
z.B. Tools:
Lingenio,
NLP
FSPar, BitPar
B3-Tool,
BitPar, ...
annot.
text
analysis T1
corpus/
sentence/
...
+ metadata
analysis T2
modules/ knowledge
components base
• Primärdaten: (Teil)Korpora, Texte, Sätze, etc.
• Tools: spezifische Versionen von Werkzeugen
• Automatische/manuelle Analysen – als atomare Objekte
6.5.2015: Prozessmetadaten
43 / 57
Workflowmodellierung in der Datenbank
annot.
text
Workflows verwalten und visualisieren
Text
NLP Tools
z.B. Tools:
Lingenio,
NLP
FSPar, BitPar
B3-Tool,
BitPar, ...
annot.
text
analysis T1
corpus/
sentence/
...
+ metadata
•
•
•
•
analysis T2
modules/ knowledge
components base
graph T1
DB-Front-End
Tools
graph T2
Primärdaten: (Teil)Korpora, Texte, Sätze, etc.
Tools: spezifische Versionen von Werkzeugen
Automatische/manuelle Analysen – als atomare Objekte
Repräsentation der Analyseergebnisse – als Graph
6.5.2015: Prozessmetadaten
43 / 57
Workflowmodellierung in der Datenbank
annot.
text
Workflows verwalten und visualisieren
Text
NLP Tools
z.B. Tools:
Lingenio,
NLP
FSPar, BitPar
B3-Tool,
BitPar, ...
annot.
text
analysis T1
corpus/
sentence/
...
+ metadata
•
•
Makroebene •
•
analysis T2
modules/ knowledge
components base
Primärdaten: (Teil)Korpora, Texte, Sätze, etc.
Tools: spezifische Versionen von Werkzeugen
Automatische/manuelle Analysen – als atomare Objekte
Repräsentation der Analyseergebnisse – als Graph
6.5.2015: Prozessmetadaten
43 / 57
Workflowmodellierung in der Datenbank
annot.
text
Workflows verwalten und visualisieren
Text
NLP Tools
z.B. Tools:
Lingenio,
NLP
FSPar, BitPar
B3-Tool,
BitPar, ...
annot.
text
analysis T1
corpus/
sentence/
...
+ metadata
•
•
•
Mikroebene •
analysis T2
modules/ knowledge
components base
graph T1
DB-Front-End
Tools
graph T2
Primärdaten: (Teil)Korpora, Texte, Sätze, etc.
Tools: spezifische Versionen von Werkzeugen
Automatische/manuelle Analysen – als atomare Objekte
Repräsentation der Analyseergebnisse – als Graph
6.5.2015: Prozessmetadaten
43 / 57
Workflows verwalten und visualisieren
Implementierung
• Relationales Datenbankmanagementsystem
(Tabellen, Fremdschlüssel, Triggerfunktionen, Indexe)
6.5.2015: Prozessmetadaten
44 / 57
Workflows verwalten und visualisieren
Implementierung
• Relationales Datenbankmanagementsystem
(Tabellen, Fremdschlüssel, Triggerfunktionen, Indexe)
• PostgreSQL
6.5.2015: Prozessmetadaten
44 / 57
Workflows verwalten und visualisieren
Implementierung
• Relationales Datenbankmanagementsystem
(Tabellen, Fremdschlüssel, Triggerfunktionen, Indexe)
• PostgreSQL
⇒ Anfragespreache SQL
• mengenbasiert
• keine Rekursion
6.5.2015: Prozessmetadaten
SELECT <columns>
FROM <tables>
WHERE <conditions on
(combinations of)
tables>;
44 / 57
Workflows verwalten und visualisieren
Makroebene
6.5.2015: Prozessmetadaten
45 / 57
Workflows verwalten und visualisieren
Generische Objekte und Relationen
• Objektbeschreibungen in der Tabelle obj_definition
6.5.2015: Prozessmetadaten
46 / 57
Workflows verwalten und visualisieren
Generische Objekte und Relationen
• Objektbeschreibungen in der Tabelle obj_definition
• Relationen in der Tabelle obj_relation
6.5.2015: Prozessmetadaten
46 / 57
Workflows verwalten und visualisieren
Generische Objekte und Relationen
• Objektbeschreibungen in der Tabelle obj_definition
• Relationen in der Tabelle obj_relation
• Typsystem klassifiziert generische Objekte und
Relationen
6.5.2015: Prozessmetadaten
46 / 57
Workflows verwalten und visualisieren
Generische Objekte und Relationen
• Objektbeschreibungen in der Tabelle obj_definition
• Relationen in der Tabelle obj_relation
• Typsystem klassifiziert generische Objekte und
Relationen
6.5.2015: Prozessmetadaten
46 / 57
Workflows verwalten und visualisieren
Generische Objekte und Relationen
• Objektbeschreibungen in der Tabelle obj_definition
• Relationen in der Tabelle obj_relation
• Typsystem klassifiziert generische Objekte und
Relationen
• Erweiterbarkeit: für neue Datenklassen können
zusätzliche Typ-Gruppen-Paare eingeführt werden
6.5.2015: Prozessmetadaten
46 / 57
Workflows verwalten und visualisieren
Trennung von Objektbeschreibung und Inhalt
6.5.2015: Prozessmetadaten
47 / 57
Workflows verwalten und visualisieren
Trennung von Objektbeschreibung und Inhalt
• Objekte mit Inhalt
(Zeichenkette in Tabelle obj_content)
6.5.2015: Prozessmetadaten
47 / 57
Workflows verwalten und visualisieren
Trennung von Objektbeschreibung und Inhalt
• Objekte mit Inhalt
(Zeichenkette in Tabelle obj_content)
6.5.2015: Prozessmetadaten
47 / 57
Workflows verwalten und visualisieren
Trennung von Objektbeschreibung und Inhalt
• Objekte mit Inhalt
(Zeichenkette in Tabelle obj_content)
• abstrakte Objekte
6.5.2015: Prozessmetadaten
47 / 57
Workflows verwalten und visualisieren
Trennung von Objektbeschreibung und Inhalt
• Objekte mit Inhalt
(Zeichenkette in Tabelle obj_content)
• abstrakte Objekte
6.5.2015: Prozessmetadaten
47 / 57
Workflows verwalten und visualisieren
Temporale Dimension
6.5.2015: Prozessmetadaten
48 / 57
Workflows verwalten und visualisieren
Temporale Dimension
Dateninterpretation auf der Makroebene
• Abschätzung des Qualitätsverlaufs
sich verändernder Ressourcen
• detaillierte Verlässlichkeitsaussagen (Hypothese z.B.:
neue Zusammenstellungen verlässlicher als ältere)
6.5.2015: Prozessmetadaten
48 / 57
Workflows verwalten und visualisieren
Temporale Dimension
Dateninterpretation auf der Makroebene
• Abschätzung des Qualitätsverlaufs
sich verändernder Ressourcen
• detaillierte Verlässlichkeitsaussagen (Hypothese z.B.:
neue Zusammenstellungen verlässlicher als ältere)
6.5.2015: Prozessmetadaten
48 / 57
Workflows verwalten und visualisieren
Temporale Dimension
Dateninterpretation auf der Makroebene
• Abschätzung des Qualitätsverlaufs
sich verändernder Ressourcen
• detaillierte Verlässlichkeitsaussagen (Hypothese z.B.:
neue Zusammenstellungen verlässlicher als ältere)
6.5.2015: Prozessmetadaten
48 / 57
Workflows verwalten und visualisieren
Temporale Dimension
Dateninterpretation auf der Makroebene
• Abschätzung des Qualitätsverlaufs
sich verändernder Ressourcen
• detaillierte Verlässlichkeitsaussagen (Hypothese z.B.:
neue Zusammenstellungen verlässlicher als ältere)
6.5.2015: Prozessmetadaten
48 / 57
Workflowabbildung: DIRNDL – Primärdaten
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
Workflows verwalten und visualisieren
+obj_type = default
+content = false
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
<<analysis>>
+obj_type = aligned & phones
+content = false
<<graph>>
+obj_type = prosody
+content = false
6.5.2015: Prozessmetadaten
49 / 57
Workflowabbildung: DIRNDL – Primärdaten
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
Workflows verwalten und visualisieren
+obj_type = default
+content = false
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
instance
<<analysis>>
+obj_type = aligned & phones
+content = false
<<corpus>>
+obj_type = speech
+content = false
<<graph>>
+obj_type = prosody
+content = false
6.5.2015: Prozessmetadaten
49 / 57
Workflowabbildung: DIRNDL – Primärdaten
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
Workflows verwalten und visualisieren
+obj_type = default
+content = false
instance
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
instance
<<analysis>>
+obj_type = aligned & phones
+content = false
<<corpus>>
<<corpus>>
+obj_type = written
+content = true
+obj_type = speech
+content = false
<<graph>>
+obj_type = prosody
+content = false
6.5.2015: Prozessmetadaten
49 / 57
Workflowabbildung:
DIRNDL – Syntax und Informationsstatus
<<corpus>>
instance
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
<<corpus>>
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
Workflows verwalten und visualisieren
+obj_type = written
+content = true
<<analysis>>
+obj_type = aligned & phones
+content = false
<<graph>>
+obj_type = prosody
+content = false
6.5.2015: Prozessmetadaten
50 / 57
Workflowabbildung:
DIRNDL – Syntax und Informationsstatus
<<corpus>>
instance
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
<<corpus>>
Workflows verwalten und visualisieren
XLE
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
+obj_type = written
+content = true
<<analysis>>
+obj_type = XLE
+content = false
<<analysis>>
+obj_type = aligned & phones
+content = false
<<graph>>
+obj_type = prosody
+content = false
6.5.2015: Prozessmetadaten
50 / 57
Workflowabbildung:
DIRNDL – Syntax und Informationsstatus
<<corpus>>
instance
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
<<corpus>>
Workflows verwalten und visualisieren
XLE
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
+obj_type = written
+content = true
<<analysis>>
+obj_type = XLE
+content = false
<<analysis>>
TigerRegistry & convert
+obj_type = aligned & phones
+content = false
<<analysis>>
+obj_type = tigerXML
+content = false
<<graph>>
+obj_type = prosody
+content = false
6.5.2015: Prozessmetadaten
50 / 57
Workflowabbildung:
DIRNDL – Syntax und Informationsstatus
<<corpus>>
instance
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
<<corpus>>
Workflows verwalten und visualisieren
XLE
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
+obj_type = written
+content = true
<<analysis>>
+obj_type = XLE
+content = false
<<analysis>>
TigerRegistry & convert
+obj_type = aligned & phones
+content = false
<<analysis>>
+obj_type = tigerXML
+content = false
manual
<<analysis>>
+obj_type = IS & salsaXML
+content = true
<<graph>>
+obj_type = prosody
+content = false
6.5.2015: Prozessmetadaten
50 / 57
Workflowabbildung:
DIRNDL – Syntax und Informationsstatus
<<corpus>>
instance
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
<<corpus>>
Workflows verwalten und visualisieren
XLE
+obj_type = written
+content = true
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
<<corpus>>
+obj_type = written
+content = true
<<analysis>>
+obj_type = XLE
+content = false
<<analysis>>
TigerRegistry & convert
+obj_type = aligned & phones
+content = false
<<analysis>>
+obj_type = tigerXML
+content = false
manual
<<analysis>>
+obj_type = IS & salsaXML
+content = true
<<graph>>
+obj_type = prosody
+content = false
6.5.2015: Prozessmetadaten
50 / 57
Workflowabbildung:
DIRNDL – Syntax und Informationsstatus
<<corpus>>
instance
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
<<corpus>>
Workflows verwalten und visualisieren
XLE
+obj_type = written
+content = true
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
<<corpus>>
+obj_type = written
+content = true
<<analysis>>
XLE
+obj_type = XLE
+content = false
<<analysis>>
<<analysis>>
+obj_type+obj_type
= XLE
= aligned & phones
+content +content
= false = false
TigerRegistry & convert
<<analysis>>
TigerRegistry & convert
+obj_type = tigerXML
+content = false
<<analysis>>
manual
+obj_type = tigerXML
+content = false
<<analysis>>
+obj_type = IS & salsaXML
+content = true
<<graph>>
+obj_type = prosody
+content = false
6.5.2015: Prozessmetadaten
50 / 57
Workflowabbildung:
DIRNDL – Syntax und Informationsstatus
<<corpus>>
instance
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
<<corpus>>
Workflows verwalten und visualisieren
XLE
<<corpus>>
dfl-nachrichten-2007-03-25-26-27
+obj_type = default
+content = false
+obj_type = written
+content = true
<<corpus>>
+obj_type = written
+content = true
<<analysis>>
XLE
+obj_type = XLE
+content = false
<<analysis>>
<<analysis>>
+obj_type+obj_type
= XLE
= aligned & phones
+content +content
= false = false
TigerRegistry & convert
<<analysis>>
TigerRegistry & convert
+obj_type = tigerXML
+content = false
<<analysis>>
manual
+obj_type = tigerXML
+content = false
<<analysis>>
+obj_type = IS & salsaXML
+content = true
<<analysis>>
CASIS
+obj_type = salsaXML
+content = true
CASIS
<<graph>>
+obj_type = prosody
+content = false
6.5.2015: Prozessmetadaten
50 / 57
Workflows verwalten und visualisieren
Visualisierung – Makroebene B3DB
• B3DB-Interface
[Ulusoy, 2014]
• JavaScript InfoVis Toolkit http://philogb.github.io/jit/
• Visualisierung des Workflowgraphen
• ab einem definierten Startobjekt
• um eine Anzahl von Workflowschritten
• in eine Richtung
6.5.2015: Prozessmetadaten
51 / 57
Workflows verwalten und visualisieren
Visualisierung – Makroebene B3DB
6.5.2015: Prozessmetadaten
52 / 57
Workflows verwalten und visualisieren
Visualisierung – Graphdatenbanken
•
•
•
•
Zugrundeliegende Datenstruktur: Graph statt Tabelle
Zur Darstellung komplexer Netze
Zur Anwendung von Graphalgorithmen bei der Abfrage
Beispiel: Neo4j
http://neo4j.org/
6.5.2015: Prozessmetadaten
53 / 57
1 Einordnung & Begriffe
2 Ressourcendokumentation
3 Metadaten
Zusammenfassung
4 Prozessmetadaten
5 Workflows verwalten und visualisieren
6 Zusammenfassung
6.5.2015: Prozessmetadaten
54 / 57
Zusammenfassung
Metadaten . . .
• unterstützen potentielle Benutzer bei der Auswahl
geeigneter Ressourcen (Auffinden, Bewerten)
• fördern die Wiederverwendung der Ressource
Zusammenfassung
• sind wichtiger Aspekt der Dokumentation
• berücksichtigen hauptsächlich statische Aspekte der
’fertigen’ Ressource
6.5.2015: Prozessmetadaten
55 / 57
Zusammenfassung
Prozessmetadaten . . .
• beschreiben den Erstellungsprozess von Ressourcen
und Abläufe von Studien
• fördern die Einschätzung von Ressourcen und
Ergebnissen in ihrem realen Kontext
• fördern die Reproduzierbarkeit von Daten und
Zusammenfassung
Ergebnissen
• unterstützen bereits die Entwicklung der Ressource
• tragen zur Erstellung geeigneter
Ressourcendokumentation bei
6.5.2015: Prozessmetadaten
55 / 57
Zusammenfassung
Wichtige Workflowaspekte
• Welche Ressourcen waren beteiligt?
• Welche Versionen der Ressourcen?
• Welche Art von Zusammenhang besteht zwischen den
Zusammenfassung
Prozessierungschritten?
• In welcher “Reihenfolge”?
6.5.2015: Prozessmetadaten
55 / 57
References I
Baumann, S. and Riester, A. (2012).
Referential and Lexical Givenness: semantic, prosodic and cognitive aspects.
In Elordieta, G. and Prieto, P., editors, Prosody and Meaning, number 25 in Interface Explorations.
Mouton de Gruyter, Berlin.
Bohnet, B. (2010).
Top accuracy and fast dependency parsing is not a contradiction.
In Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), pages
89–97, Beijing, China. Coling 2010 Organizing Committee.
Zusammenfassung
Eckart, K., Riester, A., and Schweitzer, K. (2012).
A discourse information radio news database for linguistic analysis.
In Chiarcos, C., Nordhoff, S., and Hellmann, S., editors, Linked Data in Linguistics. Representing and
Connecting Language Data and Language Metadata, pages 65–75. Springer, Heidelberg.
Elming, J., Johannsen, A., Klerke, S., Lapponi, E., Martinez Alonso, H., and Søgaard, A. (2013).
Down-stream effects of tree-to-dependency conversions.
In Proceedings of the 2013 Conference of the North American Chapter of the Association for
Computational Linguistics: Human Language Technologies, page 617–626, Atlanta, Georgia.
Association for Computational Linguistics.
Haselbach, B. (2011).
Deconstructing the German verb particle nach at the s yntax-semantics interface.
In Baunaz et al., L., editor, GG@G 7, pages 71–92. Geneva.
6.5.2015: Prozessmetadaten
56 / 57
References II
Haselbach, B., Eckart, K., Seeker, W., Eberle, K., and Heid, U. (2012).
Approximating theoretical linguistics classification in real data: the case of German “nach” particle verbs.
In Proceedings of COLING 2012, pages 1113–1128, Mumbai. The COLING 2012 Organizing
Committee.
Mayer, J. (1995).
Transcription of German Intonation. The Stuttgart System.
ms.
Rohrer, C. and Forst, M. (2006).
Improving Coverage and Parsing Quality of a Large-scale LFG for German.
In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC),
Genoa, Italy.
Zusammenfassung
Schiehlen, M. (2003).
A cascaded finite-state parser for German.
In Proceedings of EACL 2003, pages 163–166, Budapest.
Schmid, H. (1994).
Probabilistic part-of-speech tagging using decision trees.
In International Conference on New Methods in Language Processing, pages 44–49, Manchester, UK.
Ulusoy, G. (2014).
Workflowvisualisierung in der B3-Datenbank.
Diplomarbeit, Universität Stuttgart.
Stuttgart, Germany.
6.5.2015: Prozessmetadaten
57 / 57
Herunterladen