Nachhaltige Ressourcen durch Dokumentation von Verarbeitungsschritten Metadaten, Prozessmetadaten und Workflowvisualisierung Kerstin Eckart Universität Stuttgart Institut für Maschinelle Sprachverarbeitung Pfaffenwaldring 5b 70569 Stuttgart Berlin, 6. Mai 2015 1 Einordnung & Begriffe 2 Ressourcendokumentation 3 Metadaten 4 Prozessmetadaten 5 Workflows verwalten und visualisieren 6 Zusammenfassung 6.5.2015: Prozessmetadaten 2 / 57 Einordnung & Begriffe Ressourcenbegriff 6.5.2015: Prozessmetadaten 3 / 57 Einordnung & Begriffe Ressourcenbegriff 6.5.2015: Prozessmetadaten 3 / 57 Einordnung & Begriffe Ressourcenbegriff 6.5.2015: Prozessmetadaten 3 / 57 Einordnung & Begriffe Ressourcenbegriff 6.5.2015: Prozessmetadaten 3 / 57 Einordnung & Begriffe Ressourcenbegriff 6.5.2015: Prozessmetadaten 3 / 57 Einordnung & Begriffe Ressourcenbegriff 6.5.2015: Prozessmetadaten 3 / 57 Ressourcenbegriff • Korpus • Frequenzliste • Tool • Lemmaliste • Grammatik • Lexikon Einordnung & Begriffe • Sprachmodell • WebService • Umfragedaten • Testdaten • Wortliste • Experiment-Daten • Wortnetz • Feldforschungsdaten • ... 6.5.2015: Prozessmetadaten 4 / 57 Datenebenen Einordnung & Begriffe Beispielkorpus: DIRNDL [Eckart et al., 2012] 6.5.2015: Prozessmetadaten 5 / 57 Nachhaltigkeit ”Primärdaten als Grundlagen für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden.” Vorschläge zur Sicherung guter wissenschaftlicher Praxis: Empfehlungen der Kommission „Selbstkontrolle in der Wissenschaft“; Einordnung & Begriffe Denkschrift DFG, 1998 6.5.2015: Prozessmetadaten 6 / 57 Nachhaltigkeit ”Primärdaten als Grundlagen für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden.” Vorschläge zur Sicherung guter wissenschaftlicher Praxis: Empfehlungen der Kommission „Selbstkontrolle in der Wissenschaft“; Einordnung & Begriffe Denkschrift DFG, 1998 ”Wenn aus Projektmitteln systematisch Forschungsdaten oder Informationen gewonnen werden, die für die Nachnutzung durch andere Wissenschaftlerinnen und Wissenschaftler geeignet sind, legen Sie bitte dar, ob und auf welche Weise diese für andere zur Verfügung gestellt werden. Bitte berücksichtigen Sie dabei auch sofern vorhanden - die in Ihrer Fachdisziplin existierenden Standards und die Angebote existierender Datenrepositorien oder Archive.” DFG-Vordruck 54.01; Leitfaden für die Antragstellung Projektanträge [06/14] 6.5.2015: Prozessmetadaten 6 / 57 Aspekte der Nachhaltigkeit • Ressourcen zur Verfügung stellen Einordnung & Begriffe • Ressourcen verwenden 6.5.2015: Prozessmetadaten 7 / 57 Aspekte der Nachhaltigkeit Einordnung & Begriffe • Ressourcen zur Verfügung stellen • Aufbewahrung: Repositorien • Auffindbarkeit: Persistente Identifikatoren • Nutzbarkeit: Dokumentation, Metadaten • Ressourcen verwenden 6.5.2015: Prozessmetadaten 7 / 57 Einordnung & Begriffe Aspekte der Nachhaltigkeit • Ressourcen zur Verfügung stellen • Aufbewahrung: Repositorien • Auffindbarkeit: Persistente Identifikatoren • Nutzbarkeit: Dokumentation, Metadaten • Ressourcen verwenden • Auswählen: mithilfe von Metadaten • Nachnutzung: für verschiedene Fachgebiete • Reproduzierbarkeit, Vergleichbarkeit: von abgeleiteten Datensätzen oder Ergebnissen 6.5.2015: Prozessmetadaten 7 / 57 Einordnung & Begriffe Aspekte der Nachhaltigkeit • Ressourcen zur Verfügung stellen • Aufbewahrung: Repositorien • Auffindbarkeit: Persistente Identifikatoren • Nutzbarkeit: Dokumentation, Metadaten • Ressourcen verwenden • Auswählen: mithilfe von Metadaten • Nachnutzung: für verschiedene Fachgebiete • Reproduzierbarkeit, Vergleichbarkeit: von abgeleiteten Datensätzen oder Ergebnissen Vorteile der Nachnutzung ⇒ Aufwendige Erstellung der Ressourcen muss nicht wiederholt werden ⇒ Arbeit, die in Ressourcen steckt, wird durch Zitierung sichtbar 6.5.2015: Prozessmetadaten 7 / 57 1 Einordnung & Begriffe 2 Ressourcendokumentation Ressourcendokumentation 3 Metadaten 4 Prozessmetadaten 5 Workflows verwalten und visualisieren 6 Zusammenfassung 6.5.2015: Prozessmetadaten 8 / 57 Umfrage zum Thema Dokumentation Rahmen • Bachelorarbeit von Alisa Noha zum Thema Ressourcendokumentation Metadaten für computerlinguistische Ressourcen – Anforderungen an die nachhaltige Dokumentation • Umfrage im ersten Quartal 2014 • 30 Teilnehmer • Fragen zu 10 Dokumentationsaspekten, basierend auf • Elementen aus DCMI (Dublin Core Metadata Initiative) • Erfahrungen aus der Metadatenerstellung mit CMDI (Component MetaData Infrastructure) 6.5.2015: Prozessmetadaten 9 / 57 Umfrage zum Thema Dokumentation Ressourcendokumentation Gewählte Aspekte • Rechte • Sprache • Name • Relationen • Kontakt • Quelle • Abdeckung • Format (räumlich / zeitlich) • Version Fragetypen • Hintergrund der Teilnehmer (3 Fragen) • Dokumentationspräferenz (12 Fragen) • Einschätzung bisheriger Dokumentation (9 Fragen) • Anmerkungen / Auflistungen (11 Fragen) 6.5.2015: Prozessmetadaten 10 / 57 Ressourcendokumentation Teilnehmer – Tätigkeitsbereich 6.5.2015: Prozessmetadaten 11 / 57 Teilnehmer – Rolle Ressourcendokumentation In welcher Rolle sehen Sie sich selbst am ehesten? 6.5.2015: Prozessmetadaten 12 / 57 Beispielfragen zum Aspekt Sprache • Dokumentationspräferenz Ressourcendokumentation Computerlinguistische Ressourcen sind oft an bestimmte Sprachen gebunden (lateinisches Korpus; PoS-Tagger, der für Altfranzösisch funktioniert). Entscheiden Sie bitte, ob Sie die Sprache dokumentieren würden: nicht dokumentieren 6.5.2015: Prozessmetadaten eher nicht dokumentieren eher dokumentieren unbedingt dokumentieren 13 / 57 Beispielfragen zum Aspekt Sprache • Dokumentationspräferenz Ressourcendokumentation Computerlinguistische Ressourcen sind oft an bestimmte Sprachen gebunden (lateinisches Korpus; PoS-Tagger, der für Altfranzösisch funktioniert). Entscheiden Sie bitte, ob Sie die Sprache dokumentieren würden: nicht dokumentieren eher nicht dokumentieren eher dokumentieren unbedingt dokumentieren • Einschätzung bisheriger Dokumentation Schätzen Sie bitte ein, wie stark diese Information bereits in bestehenden Dokumentationen dokumentiert wurde: nie oder fast nie 6.5.2015: Prozessmetadaten eher unsystematisch immer oder fast immer 13 / 57 Sprache – eigene Präferenz Ressourcendokumentation [. . . ] Entscheiden Sie bitte, ob Sie die Sprache dokumentieren würden: 6.5.2015: Prozessmetadaten 14 / 57 Sprache – Einschätzung des Ist-Zustands Ressourcendokumentation Schätzen Sie bitte ein, wie stark diese Information bereits [. . . ] dokumentiert wurde: 6.5.2015: Prozessmetadaten 15 / 57 Name – eigene Präferenz Ressourcendokumentation [. . . ] Sollen alle Namen unter denen eine Ressource bekannt ist dokumentiert werden (Kurznamen, ausführliche Namen, evtl. mit Projekt)? 6.5.2015: Prozessmetadaten 16 / 57 Name – eigene Präferenz Ressourcendokumentation Sollte Ihrer Meinung nach vor der Veröffentlichung ein Name eingeführt werden, falls es noch keinen gibt? 6.5.2015: Prozessmetadaten 17 / 57 Name – Einschätzung des Ist-Zustands Ressourcendokumentation Schätzen Sie bitte ein, wie stark diese Information bereits [. . . ] dokumentiert wurde: 6.5.2015: Prozessmetadaten 18 / 57 Statische Dokumentationsaspekte Beschreibung Title Creator Type Date Name oder Bezeichnung Urheber der Ressource Art der Ressource Erstellungszeitraum, Veröffentlichungsdatum, Versionierungsdatum, ... Internet Media Type, Größe, Tabellenformat, ... Verknüpfung mit anderen Ressourcen zugrundeliegende Quellressourcen natürlichsprachliche Beschreibung räumliches oder zeitliches Thema Sprache Ressourcendokumentation Format Relation Source Description Coverage Language administrativ technisch strukturell inhaltlich 6.5.2015: Prozessmetadaten X X unknown X Einschätzung bisheriger Gebrauch* % % unknown −→ X −→ X −→ X % unknown unknown X % X −→ Nutzerzustimmung Bezeichnung −→ “eher unsystematisch” % “eher unsystematisch”, aber auch viele “immer oder fast immer” 19 / 57 1 Einordnung & Begriffe 2 Ressourcendokumentation 3 Metadaten 4 Prozessmetadaten Metadaten 5 Workflows verwalten und visualisieren 6 Zusammenfassung 6.5.2015: Prozessmetadaten 20 / 57 Metadaten: Einführung Metadaten sind . . . • Daten über die Ressource • Teil der Dokumentation einer Ressource • mögliche Suchkriterien für potentielle Nutzer Metadaten • Hilfe zur Bewertung bei der Wiederverwendung: ”Passt die Ressource auf meine Anforderungen?” 6.5.2015: Prozessmetadaten 21 / 57 Metadaten: Einführung Metadaten sollten . . . • menschenlesbar sein • systematisch auswertbar sein • verschiedene Ressourcentypen beschreiben können Metadaten • die Fragestellungen verschiedener Benutzergruppen berücksichtigen 6.5.2015: Prozessmetadaten 22 / 57 Dublin Core Metadata Initiative – DCMI • Dublin Core Metadata Element Set, Version 1.1 • Statischer Kern: 15 Metadatenelemente (“Dublin Core”) Metadaten • • • • • • • • contributor coverage creator date description format identifier language • publisher • relation • rights • source • subject • title • type http://dublincore.org/documents/2012/06/14/dces/ 6.5.2015: Prozessmetadaten 23 / 57 TEI Header • Text Encoding Initiative Metadaten P5: Richtlinien für die Auszeichnung und den Austausch elektronischer Texte • Flexible Metadatenelemente in vier Hauptabschnitten: fileDesc bibliographische Beschreibung einer Datei (Titel, Autor, Editor, . . . ) encodingDesc Beschreibung der Kodierung (Werkzeuge, Normalisierung . . . ) profileDesc Beschreibung des Textprofils (Sprachen, Textthematik, . . . ) revisionDesc Beschreibung der vorgenommenen Revisionsschritte (Annotationen, Korrekturen, . . . ) http://www.tei-c.org/release/doc/tei-p5-doc/de/html/HD.html 6.5.2015: Prozessmetadaten 24 / 57 TEI Header – LAUDATIO Lühr, Rosemarie; Faßhauer, Vera; Prutscher, Daniela; Seidel, Henry; Fuerstinnenkorrespondenz (Version 1.1), Universität Jena, DFG. Metadaten http://www.indogermanistik.uni-jena.de/Web/Projekte/Fuerstinnenkorr.htm 6.5.2015: Prozessmetadaten 25 / 57 TEI Header – LAUDATIO Lühr, Rosemarie; Faßhauer, Vera; Prutscher, Daniela; Seidel, Henry; Fuerstinnenkorrespondenz (Version 1.1), Universität Jena, DFG. Metadaten http://www.indogermanistik.uni-jena.de/Web/Projekte/Fuerstinnenkorr.htm http://hdl.handle.net/11022/0000-0000-2E44-1 6.5.2015: Prozessmetadaten 25 / 57 TEI Header – LAUDATIO Lühr, Rosemarie; Faßhauer, Vera; Prutscher, Daniela; Seidel, Henry; Fuerstinnenkorrespondenz (Version 1.1), Universität Jena, DFG. http://www.indogermanistik.uni-jena.de/Web/Projekte/Fuerstinnenkorr.htm Metadaten http://hdl.handle.net/11022/0000-0000-2E44-1 6.5.2015: Prozessmetadaten 25 / 57 Component Metadata Infrastructure – CMDI • Flexible Anordnung von Metadatenelementen in Komponenten und Profilen • Component Registry • Vorhandene Komponenten und Profile durchsuchen • Eigene Komponenten und Profile registrieren Metadaten http://catalog.clarin.eu/ds/ComponentRegistry/ 6.5.2015: Prozessmetadaten 26 / 57 Metadaten Component Metadata Infrastructure – CMDI 6.5.2015: Prozessmetadaten 27 / 57 Metadaten Component Metadata Infrastructure – CMDI 6.5.2015: Prozessmetadaten 27 / 57 Metadaten Component Metadata Infrastructure – CMDI 6.5.2015: Prozessmetadaten 27 / 57 Metadaten Component Metadata Infrastructure – CMDI 6.5.2015: Prozessmetadaten 27 / 57 Metadaten Component Metadata Infrastructure – CMDI 6.5.2015: Prozessmetadaten 27 / 57 Metadaten Component Metadata Infrastructure – CMDI 6.5.2015: Prozessmetadaten 27 / 57 Metadaten Component Metadata Infrastructure – CMDI 6.5.2015: Prozessmetadaten 27 / 57 Metadaten Component Metadata Infrastructure – CMDI 6.5.2015: Prozessmetadaten 27 / 57 Metadaten Component Metadata Infrastructure – CMDI 6.5.2015: Prozessmetadaten 27 / 57 Metadaten Component Metadata Infrastructure – CMDI 6.5.2015: Prozessmetadaten 27 / 57 CMDI-Metadateninstanz Metadaten Ressource: Profil: 6.5.2015: Prozessmetadaten TreeTagger [Schmid, 1994] ToolProfile (NaLiDa) 28 / 57 CMDI-Metadateninstanz Metadaten Ressource: Profil: TreeTagger [Schmid, 1994] ToolProfile (NaLiDa) http://hdl.handle.net/11858/00-247C-0000-0022-C698-E 6.5.2015: Prozessmetadaten 28 / 57 CMDI-Metadateninstanz Metadaten Ressource: Profil: TreeTagger [Schmid, 1994] ToolProfile (NaLiDa) http://hdl.handle.net/11858/00-247C-0000-0022-C698-E 6.5.2015: Prozessmetadaten 28 / 57 1 Einordnung & Begriffe 2 Ressourcendokumentation 3 Metadaten Prozessmetadaten 4 Prozessmetadaten 5 Workflows verwalten und visualisieren 6 Zusammenfassung 6.5.2015: Prozessmetadaten 29 / 57 Prozessmetadaten: Einführung Prozessmetadaten Prozessmetadaten . . . 6.5.2015: Prozessmetadaten 30 / 57 Prozessmetadaten: Einführung Prozessmetadaten . . . • sind Daten über die Entstehung einer Ressource oder den Ablauf einer Studie ⇒ dokumentieren einen Workflow Prozessmetadaten • tragen wichtige Informationen zur Dokumentation einer Ressource bei • dienen zur Bewertung bei der Wiederverwendung: Passt die Ressource auf meine Anforderungen? • dienen der Reproduzierbarkeit und Vergleichbarkeit: Welche Tool-Version wurde auf welchem Subkorpus eingesetzt? 6.5.2015: Prozessmetadaten 30 / 57 Prozessmetadaten: Motivation Prozessmetadaten Auswirkung der Wahl [Elming et al., 2013] eines Konstituentenstruktur-Dependenz-Konverters auf verschiedene Anwendungen 6.5.2015: Prozessmetadaten 31 / 57 Prozessmetadaten: Motivation Auswirkung der Wahl [Elming et al., 2013] eines Konstituentenstruktur-Dependenz-Konverters auf verschiedene Anwendungen • Mate-Parser [Bohnet, 2010] • 4 verschiedene Konverter • Externen Evaluation (maschinelle Übersetzung, Prozessmetadaten Negationsauflösung, Satzreduktion, . . . ) 6.5.2015: Prozessmetadaten 31 / 57 Prozessmetadaten: Motivation Auswirkung der Wahl [Elming et al., 2013] eines Konstituentenstruktur-Dependenz-Konverters auf verschiedene Anwendungen • Mate-Parser [Bohnet, 2010] • 4 verschiedene Konverter • Externen Evaluation (maschinelle Übersetzung, Prozessmetadaten Negationsauflösung, Satzreduktion, . . . ) ⇒ Wahl des Konverters hat Einfluss auf die Performanz in der Anwendung 6.5.2015: Prozessmetadaten 31 / 57 Prozessmetadaten: Motivation Auswirkung der Wahl [Elming et al., 2013] eines Konstituentenstruktur-Dependenz-Konverters auf verschiedene Anwendungen • Mate-Parser [Bohnet, 2010] • 4 verschiedene Konverter • Externen Evaluation (maschinelle Übersetzung, Prozessmetadaten Negationsauflösung, Satzreduktion, . . . ) ⇒ Wahl des Konverters hat Einfluss auf die Performanz in der Anwendung ⇒ Vergleichbarkeit hängt von der Wahl des Konverters ab 6.5.2015: Prozessmetadaten 31 / 57 Workflowtypen • Linear (Pipeline) • Verzweigend (Branching) Prozessmetadaten • Spiralförmig (Bootstrapping) 6.5.2015: Prozessmetadaten 32 / 57 Dimensionen der Analysebeziehungen Prozessmetadaten • Vertikal • einzelne Pipeline-Stränge • Analysen nutzen Information aus vorhergehenden Schritten 6.5.2015: Prozessmetadaten 33 / 57 Dimensionen der Analysebeziehungen Prozessmetadaten • Vertikal • einzelne Pipeline-Stränge • Analysen nutzen Information aus vorhergehenden Schritten • Horizontal • alternative Analysen der selben Beschreibungsebene • keine direkte Abhängigkeit • Vergleichbarkeit durch gemeinsamen Ausgangspunkt 6.5.2015: Prozessmetadaten 33 / 57 Prozessmetadaten Dimensionen der Analysebeziehungen • Vertikal • einzelne Pipeline-Stränge • Analysen nutzen Information aus vorhergehenden Schritten • Horizontal • alternative Analysen der selben Beschreibungsebene • keine direkte Abhängigkeit • Vergleichbarkeit durch gemeinsamen Ausgangspunkt • Temporal • zeitliche Entwicklung der beteiligten Ressourcen, z.B.: verschiedene Tool-Versionen, die auf dieselben Eingabedaten angewendet werden • Hypothesen über Qualitätsveränderung 6.5.2015: Prozessmetadaten 33 / 57 Workflow-Beispiele: Analysedimensionen • Aufgabenbasierte Kombination von Parser-Output Prozessmetadaten • Fallstudie: semantische Klassifikation [Haselbach et al., 2012] von nach-Partikelverben mithilfe ihrer Argumentstruktur 6.5.2015: Prozessmetadaten 34 / 57 Workflow-Beispiele: Analysedimensionen • Aufgabenbasierte Kombination von Parser-Output • Fallstudie: semantische Klassifikation [Haselbach et al., 2012] von nach-Partikelverben mithilfe ihrer Argumentstruktur • Partikel nimmt Bezug auf • Ereigniseigenschaften: ⊕ DATIV (1) [Haselbach, 2011] Der Hund lief demDAT Hasen nach. Prozessmetadaten • Zustandseigenschaften: DATIV (2) 6.5.2015: Prozessmetadaten Die Banane reifte *(demDAT Apfel) nach. 34 / 57 Workflow-Beispiele: Analysedimensionen • Aufgabenbasierte Kombination von Parser-Output • Fallstudie: semantische Klassifikation [Haselbach et al., 2012] von nach-Partikelverben mithilfe ihrer Argumentstruktur • Partikel nimmt Bezug auf • Ereigniseigenschaften: ⊕ DATIV (1) [Haselbach, 2011] Der Hund lief demDAT Hasen nach. Prozessmetadaten • Zustandseigenschaften: DATIV (2) Die Banane reifte *(demDAT Apfel) nach. • Extraktion von syntaktischen Features durch zwei Dependenzparser: • Mate-Parser (statistisch) • FSPar (regelbasiert) 6.5.2015: Prozessmetadaten [Bohnet, 2010] [Schiehlen, 2003] 34 / 57 Prozessmetadaten Workflow-Beispiele: Analysedimensionen 6.5.2015: Prozessmetadaten 35 / 57 Prozessmetadaten Workflow-Beispiele: Analysedimensionen 6.5.2015: Prozessmetadaten 35 / 57 Prozessmetadaten Workflow-Beispiele: Analysedimensionen 6.5.2015: Prozessmetadaten 35 / 57 Prozessmetadaten Workflow-Beispiele: Analysedimensionen 6.5.2015: Prozessmetadaten 35 / 57 Prozessmetadaten Workflow-Beispiele: Analysedimensionen 6.5.2015: Prozessmetadaten 35 / 57 Prozessmetadaten Workflow-Beispiele: Analysedimensionen 6.5.2015: Prozessmetadaten 35 / 57 Prozessmetadaten Workflow-Beispiele: Analysedimensionen 6.5.2015: Prozessmetadaten 35 / 57 Workflow-Beispiele: Ressourcenerstellung • Discourse Information Radio News Database for Linguistic analysis (DIRNDL) • Primärdaten: Radionachrichten Prozessmetadaten • Nachrichtensendungen (Audio, 5 Stunden) • Nachrichtenmanuskripte (Text, 3221 Sätze) • Annotationen – erstellt im SFB 732, Projekt A1 6.5.2015: Prozessmetadaten 36 / 57 Workflow-Beispiele: Ressourcenerstellung • Basierend auf textuellem Primärdatensatz • Automatische Syntaxannotation (XLE-Parser / LFG Prozessmetadaten [Rohrer and Forst, 2006]) • Manuelle Informationsstatusannotation (RefLex [Baumann and Riester, 2012]) 6.5.2015: Prozessmetadaten 37 / 57 Prozessmetadaten Workflow-Beispiele: Ressourcenerstellung • Basierend auf Audiodaten • Automatische Vorverarbeitung: Alignment, Segmentierung (Silben, Phoneme) 6.5.2015: Prozessmetadaten 38 / 57 Prozessmetadaten Workflow-Beispiele: Ressourcenerstellung • Basierend auf Audiodaten • Manuelle prosodische Annotation: Pitchakzente, prosodische Phrasengrenzen (GToBI(S) [Mayer, 1995]) 6.5.2015: Prozessmetadaten 38 / 57 Prozessmetadaten Workflow-Beispiele: Ressourcenerstellung 6.5.2015: Prozessmetadaten 39 / 57 Prozessmetadaten: Beispiele Prozessmetadaten WebLicht http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/ 6.5.2015: Prozessmetadaten 40 / 57 Prozessmetadaten: Beispiele Prozessmetadaten CMDI-Komponenten (CreationTool, Source, . . . ) http://hdl.handle.net/11858/00-247C-0000-0022-F7B1-A 6.5.2015: Prozessmetadaten 40 / 57 Prozessmetadaten: Beispiele Prozessmetadaten LAUDATIO-Repository 6.5.2015: Prozessmetadaten http://hdl.handle.net/11022/0000-0000-2E44-1 40 / 57 Workflows verwalten und visualisieren 1 Einordnung & Begriffe 2 Ressourcendokumentation 3 Metadaten 4 Prozessmetadaten 5 Workflows verwalten und visualisieren 6 Zusammenfassung 6.5.2015: Prozessmetadaten 41 / 57 B3-Datenbank (B3DB) Workflows verwalten und visualisieren • SFB 732, Projekt B3: Disambiguierung von Nominalisierungen bei der Extraktion linguistischer Daten aus Korpustext • Infrastruktur zur Untertstützung des Testens linguistischer Hypothesen Abstrakter Workflow 6.5.2015: Prozessmetadaten 42 / 57 B3-Datenbank (B3DB) Workflows verwalten und visualisieren • SFB 732, Projekt B3: Disambiguierung von Nominalisierungen bei der Extraktion linguistischer Daten aus Korpustext • Infrastruktur zur Untertstützung des Testens linguistischer Hypothesen Abstrakter Workflow Hypothese1 6.5.2015: Prozessmetadaten 42 / 57 B3-Datenbank (B3DB) Workflows verwalten und visualisieren • SFB 732, Projekt B3: Disambiguierung von Nominalisierungen bei der Extraktion linguistischer Daten aus Korpustext • Infrastruktur zur Untertstützung des Testens linguistischer Hypothesen Abstrakter Workflow Hypothese1 → Anwendung auf Korpusdaten 6.5.2015: Prozessmetadaten 42 / 57 B3-Datenbank (B3DB) Workflows verwalten und visualisieren • SFB 732, Projekt B3: Disambiguierung von Nominalisierungen bei der Extraktion linguistischer Daten aus Korpustext • Infrastruktur zur Untertstützung des Testens linguistischer Hypothesen Abstrakter Workflow Hypothese1 → Anwendung auf Korpusdaten → Ergebnisanalyse 6.5.2015: Prozessmetadaten 42 / 57 B3-Datenbank (B3DB) Workflows verwalten und visualisieren • SFB 732, Projekt B3: Disambiguierung von Nominalisierungen bei der Extraktion linguistischer Daten aus Korpustext • Infrastruktur zur Untertstützung des Testens linguistischer Hypothesen Abstrakter Workflow Hypothese1 → Anwendung auf Korpusdaten → Ergebnisanalyse → Hypothese2 6.5.2015: Prozessmetadaten 42 / 57 B3-Datenbank (B3DB) Workflows verwalten und visualisieren • SFB 732, Projekt B3: Disambiguierung von Nominalisierungen bei der Extraktion linguistischer Daten aus Korpustext • Infrastruktur zur Untertstützung des Testens linguistischer Hypothesen Abstrakter Workflow Hypothese1 → Anwendung auf Korpusdaten → Ergebnisanalyse → Hypothese2 6.5.2015: Prozessmetadaten 42 / 57 Workflows verwalten und visualisieren Workflowmodellierung in der Datenbank 6.5.2015: Prozessmetadaten 43 / 57 Workflowmodellierung in der Datenbank Workflows verwalten und visualisieren Text corpus/ sentence/ ... + metadata • Primärdaten: (Teil)Korpora, Texte, Sätze, etc. 6.5.2015: Prozessmetadaten 43 / 57 Workflowmodellierung in der Datenbank Workflows verwalten und visualisieren Text corpus/ sentence/ ... + metadata NLP Tools z.B. Tools: Lingenio, NLP FSPar, BitPar B3-Tool, BitPar, ... modules/ knowledge components base • Primärdaten: (Teil)Korpora, Texte, Sätze, etc. • Tools: spezifische Versionen von Werkzeugen 6.5.2015: Prozessmetadaten 43 / 57 Workflowmodellierung in der Datenbank annot. text Workflows verwalten und visualisieren Text NLP Tools z.B. Tools: Lingenio, NLP FSPar, BitPar B3-Tool, BitPar, ... annot. text analysis T1 corpus/ sentence/ ... + metadata analysis T2 modules/ knowledge components base • Primärdaten: (Teil)Korpora, Texte, Sätze, etc. • Tools: spezifische Versionen von Werkzeugen • Automatische/manuelle Analysen – als atomare Objekte 6.5.2015: Prozessmetadaten 43 / 57 Workflowmodellierung in der Datenbank annot. text Workflows verwalten und visualisieren Text NLP Tools z.B. Tools: Lingenio, NLP FSPar, BitPar B3-Tool, BitPar, ... annot. text analysis T1 corpus/ sentence/ ... + metadata • • • • analysis T2 modules/ knowledge components base graph T1 DB-Front-End Tools graph T2 Primärdaten: (Teil)Korpora, Texte, Sätze, etc. Tools: spezifische Versionen von Werkzeugen Automatische/manuelle Analysen – als atomare Objekte Repräsentation der Analyseergebnisse – als Graph 6.5.2015: Prozessmetadaten 43 / 57 Workflowmodellierung in der Datenbank annot. text Workflows verwalten und visualisieren Text NLP Tools z.B. Tools: Lingenio, NLP FSPar, BitPar B3-Tool, BitPar, ... annot. text analysis T1 corpus/ sentence/ ... + metadata • • Makroebene • • analysis T2 modules/ knowledge components base Primärdaten: (Teil)Korpora, Texte, Sätze, etc. Tools: spezifische Versionen von Werkzeugen Automatische/manuelle Analysen – als atomare Objekte Repräsentation der Analyseergebnisse – als Graph 6.5.2015: Prozessmetadaten 43 / 57 Workflowmodellierung in der Datenbank annot. text Workflows verwalten und visualisieren Text NLP Tools z.B. Tools: Lingenio, NLP FSPar, BitPar B3-Tool, BitPar, ... annot. text analysis T1 corpus/ sentence/ ... + metadata • • • Mikroebene • analysis T2 modules/ knowledge components base graph T1 DB-Front-End Tools graph T2 Primärdaten: (Teil)Korpora, Texte, Sätze, etc. Tools: spezifische Versionen von Werkzeugen Automatische/manuelle Analysen – als atomare Objekte Repräsentation der Analyseergebnisse – als Graph 6.5.2015: Prozessmetadaten 43 / 57 Workflows verwalten und visualisieren Implementierung • Relationales Datenbankmanagementsystem (Tabellen, Fremdschlüssel, Triggerfunktionen, Indexe) 6.5.2015: Prozessmetadaten 44 / 57 Workflows verwalten und visualisieren Implementierung • Relationales Datenbankmanagementsystem (Tabellen, Fremdschlüssel, Triggerfunktionen, Indexe) • PostgreSQL 6.5.2015: Prozessmetadaten 44 / 57 Workflows verwalten und visualisieren Implementierung • Relationales Datenbankmanagementsystem (Tabellen, Fremdschlüssel, Triggerfunktionen, Indexe) • PostgreSQL ⇒ Anfragespreache SQL • mengenbasiert • keine Rekursion 6.5.2015: Prozessmetadaten SELECT <columns> FROM <tables> WHERE <conditions on (combinations of) tables>; 44 / 57 Workflows verwalten und visualisieren Makroebene 6.5.2015: Prozessmetadaten 45 / 57 Workflows verwalten und visualisieren Generische Objekte und Relationen • Objektbeschreibungen in der Tabelle obj_definition 6.5.2015: Prozessmetadaten 46 / 57 Workflows verwalten und visualisieren Generische Objekte und Relationen • Objektbeschreibungen in der Tabelle obj_definition • Relationen in der Tabelle obj_relation 6.5.2015: Prozessmetadaten 46 / 57 Workflows verwalten und visualisieren Generische Objekte und Relationen • Objektbeschreibungen in der Tabelle obj_definition • Relationen in der Tabelle obj_relation • Typsystem klassifiziert generische Objekte und Relationen 6.5.2015: Prozessmetadaten 46 / 57 Workflows verwalten und visualisieren Generische Objekte und Relationen • Objektbeschreibungen in der Tabelle obj_definition • Relationen in der Tabelle obj_relation • Typsystem klassifiziert generische Objekte und Relationen 6.5.2015: Prozessmetadaten 46 / 57 Workflows verwalten und visualisieren Generische Objekte und Relationen • Objektbeschreibungen in der Tabelle obj_definition • Relationen in der Tabelle obj_relation • Typsystem klassifiziert generische Objekte und Relationen • Erweiterbarkeit: für neue Datenklassen können zusätzliche Typ-Gruppen-Paare eingeführt werden 6.5.2015: Prozessmetadaten 46 / 57 Workflows verwalten und visualisieren Trennung von Objektbeschreibung und Inhalt 6.5.2015: Prozessmetadaten 47 / 57 Workflows verwalten und visualisieren Trennung von Objektbeschreibung und Inhalt • Objekte mit Inhalt (Zeichenkette in Tabelle obj_content) 6.5.2015: Prozessmetadaten 47 / 57 Workflows verwalten und visualisieren Trennung von Objektbeschreibung und Inhalt • Objekte mit Inhalt (Zeichenkette in Tabelle obj_content) 6.5.2015: Prozessmetadaten 47 / 57 Workflows verwalten und visualisieren Trennung von Objektbeschreibung und Inhalt • Objekte mit Inhalt (Zeichenkette in Tabelle obj_content) • abstrakte Objekte 6.5.2015: Prozessmetadaten 47 / 57 Workflows verwalten und visualisieren Trennung von Objektbeschreibung und Inhalt • Objekte mit Inhalt (Zeichenkette in Tabelle obj_content) • abstrakte Objekte 6.5.2015: Prozessmetadaten 47 / 57 Workflows verwalten und visualisieren Temporale Dimension 6.5.2015: Prozessmetadaten 48 / 57 Workflows verwalten und visualisieren Temporale Dimension Dateninterpretation auf der Makroebene • Abschätzung des Qualitätsverlaufs sich verändernder Ressourcen • detaillierte Verlässlichkeitsaussagen (Hypothese z.B.: neue Zusammenstellungen verlässlicher als ältere) 6.5.2015: Prozessmetadaten 48 / 57 Workflows verwalten und visualisieren Temporale Dimension Dateninterpretation auf der Makroebene • Abschätzung des Qualitätsverlaufs sich verändernder Ressourcen • detaillierte Verlässlichkeitsaussagen (Hypothese z.B.: neue Zusammenstellungen verlässlicher als ältere) 6.5.2015: Prozessmetadaten 48 / 57 Workflows verwalten und visualisieren Temporale Dimension Dateninterpretation auf der Makroebene • Abschätzung des Qualitätsverlaufs sich verändernder Ressourcen • detaillierte Verlässlichkeitsaussagen (Hypothese z.B.: neue Zusammenstellungen verlässlicher als ältere) 6.5.2015: Prozessmetadaten 48 / 57 Workflows verwalten und visualisieren Temporale Dimension Dateninterpretation auf der Makroebene • Abschätzung des Qualitätsverlaufs sich verändernder Ressourcen • detaillierte Verlässlichkeitsaussagen (Hypothese z.B.: neue Zusammenstellungen verlässlicher als ältere) 6.5.2015: Prozessmetadaten 48 / 57 Workflowabbildung: DIRNDL – Primärdaten <<corpus>> dfl-nachrichten-2007-03-25-26-27 Workflows verwalten und visualisieren +obj_type = default +content = false <<corpus>> dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false <<analysis>> +obj_type = aligned & phones +content = false <<graph>> +obj_type = prosody +content = false 6.5.2015: Prozessmetadaten 49 / 57 Workflowabbildung: DIRNDL – Primärdaten <<corpus>> dfl-nachrichten-2007-03-25-26-27 Workflows verwalten und visualisieren +obj_type = default +content = false <<corpus>> dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false instance <<analysis>> +obj_type = aligned & phones +content = false <<corpus>> +obj_type = speech +content = false <<graph>> +obj_type = prosody +content = false 6.5.2015: Prozessmetadaten 49 / 57 Workflowabbildung: DIRNDL – Primärdaten <<corpus>> dfl-nachrichten-2007-03-25-26-27 Workflows verwalten und visualisieren +obj_type = default +content = false instance <<corpus>> dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false instance <<analysis>> +obj_type = aligned & phones +content = false <<corpus>> <<corpus>> +obj_type = written +content = true +obj_type = speech +content = false <<graph>> +obj_type = prosody +content = false 6.5.2015: Prozessmetadaten 49 / 57 Workflowabbildung: DIRNDL – Syntax und Informationsstatus <<corpus>> instance dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false <<corpus>> <<corpus>> dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false Workflows verwalten und visualisieren +obj_type = written +content = true <<analysis>> +obj_type = aligned & phones +content = false <<graph>> +obj_type = prosody +content = false 6.5.2015: Prozessmetadaten 50 / 57 Workflowabbildung: DIRNDL – Syntax und Informationsstatus <<corpus>> instance dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false <<corpus>> Workflows verwalten und visualisieren XLE <<corpus>> dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false +obj_type = written +content = true <<analysis>> +obj_type = XLE +content = false <<analysis>> +obj_type = aligned & phones +content = false <<graph>> +obj_type = prosody +content = false 6.5.2015: Prozessmetadaten 50 / 57 Workflowabbildung: DIRNDL – Syntax und Informationsstatus <<corpus>> instance dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false <<corpus>> Workflows verwalten und visualisieren XLE <<corpus>> dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false +obj_type = written +content = true <<analysis>> +obj_type = XLE +content = false <<analysis>> TigerRegistry & convert +obj_type = aligned & phones +content = false <<analysis>> +obj_type = tigerXML +content = false <<graph>> +obj_type = prosody +content = false 6.5.2015: Prozessmetadaten 50 / 57 Workflowabbildung: DIRNDL – Syntax und Informationsstatus <<corpus>> instance dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false <<corpus>> Workflows verwalten und visualisieren XLE <<corpus>> dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false +obj_type = written +content = true <<analysis>> +obj_type = XLE +content = false <<analysis>> TigerRegistry & convert +obj_type = aligned & phones +content = false <<analysis>> +obj_type = tigerXML +content = false manual <<analysis>> +obj_type = IS & salsaXML +content = true <<graph>> +obj_type = prosody +content = false 6.5.2015: Prozessmetadaten 50 / 57 Workflowabbildung: DIRNDL – Syntax und Informationsstatus <<corpus>> instance dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false <<corpus>> Workflows verwalten und visualisieren XLE +obj_type = written +content = true <<corpus>> dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false <<corpus>> +obj_type = written +content = true <<analysis>> +obj_type = XLE +content = false <<analysis>> TigerRegistry & convert +obj_type = aligned & phones +content = false <<analysis>> +obj_type = tigerXML +content = false manual <<analysis>> +obj_type = IS & salsaXML +content = true <<graph>> +obj_type = prosody +content = false 6.5.2015: Prozessmetadaten 50 / 57 Workflowabbildung: DIRNDL – Syntax und Informationsstatus <<corpus>> instance dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false <<corpus>> Workflows verwalten und visualisieren XLE +obj_type = written +content = true <<corpus>> dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false <<corpus>> +obj_type = written +content = true <<analysis>> XLE +obj_type = XLE +content = false <<analysis>> <<analysis>> +obj_type+obj_type = XLE = aligned & phones +content +content = false = false TigerRegistry & convert <<analysis>> TigerRegistry & convert +obj_type = tigerXML +content = false <<analysis>> manual +obj_type = tigerXML +content = false <<analysis>> +obj_type = IS & salsaXML +content = true <<graph>> +obj_type = prosody +content = false 6.5.2015: Prozessmetadaten 50 / 57 Workflowabbildung: DIRNDL – Syntax und Informationsstatus <<corpus>> instance dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false <<corpus>> Workflows verwalten und visualisieren XLE <<corpus>> dfl-nachrichten-2007-03-25-26-27 +obj_type = default +content = false +obj_type = written +content = true <<corpus>> +obj_type = written +content = true <<analysis>> XLE +obj_type = XLE +content = false <<analysis>> <<analysis>> +obj_type+obj_type = XLE = aligned & phones +content +content = false = false TigerRegistry & convert <<analysis>> TigerRegistry & convert +obj_type = tigerXML +content = false <<analysis>> manual +obj_type = tigerXML +content = false <<analysis>> +obj_type = IS & salsaXML +content = true <<analysis>> CASIS +obj_type = salsaXML +content = true CASIS <<graph>> +obj_type = prosody +content = false 6.5.2015: Prozessmetadaten 50 / 57 Workflows verwalten und visualisieren Visualisierung – Makroebene B3DB • B3DB-Interface [Ulusoy, 2014] • JavaScript InfoVis Toolkit http://philogb.github.io/jit/ • Visualisierung des Workflowgraphen • ab einem definierten Startobjekt • um eine Anzahl von Workflowschritten • in eine Richtung 6.5.2015: Prozessmetadaten 51 / 57 Workflows verwalten und visualisieren Visualisierung – Makroebene B3DB 6.5.2015: Prozessmetadaten 52 / 57 Workflows verwalten und visualisieren Visualisierung – Graphdatenbanken • • • • Zugrundeliegende Datenstruktur: Graph statt Tabelle Zur Darstellung komplexer Netze Zur Anwendung von Graphalgorithmen bei der Abfrage Beispiel: Neo4j http://neo4j.org/ 6.5.2015: Prozessmetadaten 53 / 57 1 Einordnung & Begriffe 2 Ressourcendokumentation 3 Metadaten Zusammenfassung 4 Prozessmetadaten 5 Workflows verwalten und visualisieren 6 Zusammenfassung 6.5.2015: Prozessmetadaten 54 / 57 Zusammenfassung Metadaten . . . • unterstützen potentielle Benutzer bei der Auswahl geeigneter Ressourcen (Auffinden, Bewerten) • fördern die Wiederverwendung der Ressource Zusammenfassung • sind wichtiger Aspekt der Dokumentation • berücksichtigen hauptsächlich statische Aspekte der ’fertigen’ Ressource 6.5.2015: Prozessmetadaten 55 / 57 Zusammenfassung Prozessmetadaten . . . • beschreiben den Erstellungsprozess von Ressourcen und Abläufe von Studien • fördern die Einschätzung von Ressourcen und Ergebnissen in ihrem realen Kontext • fördern die Reproduzierbarkeit von Daten und Zusammenfassung Ergebnissen • unterstützen bereits die Entwicklung der Ressource • tragen zur Erstellung geeigneter Ressourcendokumentation bei 6.5.2015: Prozessmetadaten 55 / 57 Zusammenfassung Wichtige Workflowaspekte • Welche Ressourcen waren beteiligt? • Welche Versionen der Ressourcen? • Welche Art von Zusammenhang besteht zwischen den Zusammenfassung Prozessierungschritten? • In welcher “Reihenfolge”? 6.5.2015: Prozessmetadaten 55 / 57 References I Baumann, S. and Riester, A. (2012). Referential and Lexical Givenness: semantic, prosodic and cognitive aspects. In Elordieta, G. and Prieto, P., editors, Prosody and Meaning, number 25 in Interface Explorations. Mouton de Gruyter, Berlin. Bohnet, B. (2010). Top accuracy and fast dependency parsing is not a contradiction. In Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), pages 89–97, Beijing, China. Coling 2010 Organizing Committee. Zusammenfassung Eckart, K., Riester, A., and Schweitzer, K. (2012). A discourse information radio news database for linguistic analysis. In Chiarcos, C., Nordhoff, S., and Hellmann, S., editors, Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, pages 65–75. Springer, Heidelberg. Elming, J., Johannsen, A., Klerke, S., Lapponi, E., Martinez Alonso, H., and Søgaard, A. (2013). Down-stream effects of tree-to-dependency conversions. In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, page 617–626, Atlanta, Georgia. Association for Computational Linguistics. Haselbach, B. (2011). Deconstructing the German verb particle nach at the s yntax-semantics interface. In Baunaz et al., L., editor, GG@G 7, pages 71–92. Geneva. 6.5.2015: Prozessmetadaten 56 / 57 References II Haselbach, B., Eckart, K., Seeker, W., Eberle, K., and Heid, U. (2012). Approximating theoretical linguistics classification in real data: the case of German “nach” particle verbs. In Proceedings of COLING 2012, pages 1113–1128, Mumbai. The COLING 2012 Organizing Committee. Mayer, J. (1995). Transcription of German Intonation. The Stuttgart System. ms. Rohrer, C. and Forst, M. (2006). Improving Coverage and Parsing Quality of a Large-scale LFG for German. In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC), Genoa, Italy. Zusammenfassung Schiehlen, M. (2003). A cascaded finite-state parser for German. In Proceedings of EACL 2003, pages 163–166, Budapest. Schmid, H. (1994). Probabilistic part-of-speech tagging using decision trees. In International Conference on New Methods in Language Processing, pages 44–49, Manchester, UK. Ulusoy, G. (2014). Workflowvisualisierung in der B3-Datenbank. Diplomarbeit, Universität Stuttgart. Stuttgart, Germany. 6.5.2015: Prozessmetadaten 57 / 57