Ist das Forschung oder kann das weg? Methoden zur Reduktion und Restrukturierung von Forschungsdaten und -anwendungen Iris Vogel 16.09.2016 gwin-Projekt Universität Hamburg 1 gwin-Projekt 2 Curation Life Cycle Modell (DCC) Figure 1: http://www.dcc.ac.uk/resources/curation-lifecycle-model 3 Preservation Action „Preservation actions should ensure that data remains authentic, reliable and usable while maintaining its integrity. Actions include data cleaning, validation, assigning preservation metadata, assigning representation information and ensuring acceptable data structures or file formats.“ (DCC:2010, url: http://www.dcc.ac.uk/resources/curation-lifecycle-model) 4 „Dabei sollte vermieden werden, dass allein die Sichtweise einer Person oder Gruppe zum Tragen kommt. Am besten gibt sich das Projekt selbst ein Regelwerk für die Datenauswahl, in dessen Erstellung neben Datenzentren auch Datenerzeuger und Nachnutzer einbezogen werden sollten.“ (Ludwig/Enke 2013:26) 5 Problempunkte • Wahrung der Authentizität <-> Revisionierung und Selektion, Nutzbarkeit • Regelwerk • personelle und finanzielle Mittel für die Nachbereitung • Verfügbarkeit der fachlich kompetenten (inhaltlichen und technischen) Ansprechpartner • fehlende Infrastruktur für die Langzeitarchivierung 6 Herausforderungen • Redundanz (Dopplungen in Inhalten / Datenstrukturen / Code) • Lücken (unvollständige Datensätze) • Inkonsistenzen in den Daten (z.B. Transliteration, Kodierung, Abkürzungen) • Intransparenz (Dokumentation / Interpretierbarkeit von Werten) • unklare Herkunft (Expertise der Datenersteller unklar / fehlende Versionierung) 7 Nepalese German Manuscript Catalogue • Katalogisierung von 180.000 Manuskripten • Laufzeit 2002-2012 • Material aus dem Nepal German Manuscript Preservation Project (1970-2002) • finanziert durch DFG, in Kooperation u.a. mit dem nepalesischen Nationalarchiv • Metadaten zu den Manuskripten in Form einer Titelliste und eines beschreibenden Wikis • Microfilme in Berlin und Kathmandu 8 Nepalese German Manuscript Catalogue 9 Nepalese German Manuscript Catalogue 10 Beispiel: Redundante Tabellen in der DB Figure 2: Duplikate Tabellen im Nepalese German Manuscript Culture Project 11 Beispiel: Redundatente Datenstrukturen 12 Was kann weg? • technisch bedingte Strukturen und Daten • leere Datensätze / Tabellen • Duplikate • unvollständige Datensätze (Pflichtfelder?) • Versionen (welche?) 13 Selektionskriterien • Nutzung der Funktionalität / Daten • Provenienz • Datenersteller • Änderungsdatum • Qualität • Konformität der Werte • Datenintegrität 14 Und der Rest?? 15 Paul Walter Jacob Archiv 16 Inkonsistenzen Figure 4: Personen (Zeitungausschnittsarchiv der Forschungsstelle Exilliteratur) 17 Interpretierbarkeit Figure 5: Emigrantenstatus (Theaterbank der Forschungsstelle Exilliteratur) 18 Bereinigung von Forschungsdaten Poor data quality can be worse than missing data because it can waste resources and lead to faulty ideas and solutions, or at minimum challenges trust in the results and implications drawn from the data. Improvement in data quality can thus have significant benefits. (Curating for Quality P5) 19 Kriterien für Datenübernahme • Vollständigkeit (Spezifikation Pflichtangaben) • Interpretierbarkeit (Begrifflichkeit, Akronyme) • Relevanz (Deduplikation, Sichtbarkeit) • Konsistenz (Wertelisten, Kodierungen/Transliterationen) • Provenienz 20 Anforderungen an die Kuration • Revidierbar -> Archivierung der Originaldaten und -anwendungen • Nachvollziehbarkeit • Nachjustierbarkeit • Dokumentation (inbes. aktiv herbei geführter Verluste) 21 Literatur Büttner, Stephan / Hobohm, Hans-Christoph / Müller, Lars (2011): „Research data management“ in: Büttner, Stephan / Hobohm, Hans-Christoph / Müller, Lars (eds.) Handbuch Forschungsdatenmanagement. Bad Honnef: Bock u. Herchen, 13-24. DCC [Digital Curation Centre]: „Curation Lifecycle Model | Digital Curation Centre“. Verfügbar unter: http://www.dcc.ac.uk/resources/curation-lifecycle-model [Letzter Zugriff 23 August 2016]. Enke, Harry / Fiedler, Norman / Fischer, Thomas / Ketzan, Erik / Ludwig, Jens / Rathmann, Torsten / Stöckle, Gabriel / Schintke, Florian (2013): Leitfaden zum Forschungsdaten-Management. Ergebnisse aus dem WissGrid-Projekt (1. Aufl.). Glückstadt: Verlag Werner Hülsbusch. 22