Ist das Forschung oder kann das weg?

Werbung
Ist das Forschung oder kann das weg?
Methoden zur Reduktion und Restrukturierung von
Forschungsdaten und -anwendungen
Iris Vogel
16.09.2016
gwin-Projekt
Universität Hamburg
1
gwin-Projekt
2
Curation Life Cycle Modell (DCC)
Figure 1: http://www.dcc.ac.uk/resources/curation-lifecycle-model
3
Preservation Action
„Preservation actions should ensure that data remains authentic,
reliable and usable while maintaining its integrity. Actions include
data cleaning, validation, assigning preservation metadata,
assigning representation information and ensuring acceptable data
structures or file formats.“ (DCC:2010, url:
http://www.dcc.ac.uk/resources/curation-lifecycle-model)
4
„Dabei sollte vermieden werden, dass allein die Sichtweise einer
Person oder Gruppe zum Tragen kommt. Am besten gibt sich das
Projekt selbst ein Regelwerk für die Datenauswahl, in dessen
Erstellung neben Datenzentren auch Datenerzeuger und
Nachnutzer einbezogen werden sollten.“ (Ludwig/Enke 2013:26)
5
Problempunkte
• Wahrung der Authentizität <-> Revisionierung und Selektion,
Nutzbarkeit
• Regelwerk
• personelle und finanzielle Mittel für die Nachbereitung
• Verfügbarkeit der fachlich kompetenten (inhaltlichen und
technischen) Ansprechpartner
• fehlende Infrastruktur für die Langzeitarchivierung
6
Herausforderungen
• Redundanz (Dopplungen in Inhalten / Datenstrukturen /
Code)
• Lücken (unvollständige Datensätze)
• Inkonsistenzen in den Daten (z.B. Transliteration, Kodierung,
Abkürzungen)
• Intransparenz (Dokumentation / Interpretierbarkeit von
Werten)
• unklare Herkunft (Expertise der Datenersteller unklar /
fehlende Versionierung)
7
Nepalese German Manuscript Catalogue
• Katalogisierung von 180.000 Manuskripten
• Laufzeit 2002-2012
• Material aus dem Nepal German Manuscript Preservation
Project (1970-2002)
• finanziert durch DFG, in Kooperation u.a. mit dem
nepalesischen Nationalarchiv
• Metadaten zu den Manuskripten in Form einer Titelliste und
eines beschreibenden Wikis
• Microfilme in Berlin und Kathmandu
8
Nepalese German Manuscript Catalogue
9
Nepalese German Manuscript Catalogue
10
Beispiel: Redundante Tabellen in der DB
Figure 2: Duplikate Tabellen im Nepalese German Manuscript Culture
Project
11
Beispiel: Redundatente Datenstrukturen
12
Was kann weg?
• technisch bedingte Strukturen und Daten
• leere Datensätze / Tabellen
• Duplikate
• unvollständige Datensätze (Pflichtfelder?)
• Versionen (welche?)
13
Selektionskriterien
• Nutzung der Funktionalität / Daten
• Provenienz
• Datenersteller
• Änderungsdatum
• Qualität
• Konformität der Werte
• Datenintegrität
14
Und der Rest??
15
Paul Walter Jacob Archiv
16
Inkonsistenzen
Figure 4: Personen (Zeitungausschnittsarchiv der Forschungsstelle
Exilliteratur)
17
Interpretierbarkeit
Figure 5: Emigrantenstatus (Theaterbank der Forschungsstelle
Exilliteratur)
18
Bereinigung von Forschungsdaten
Poor data quality can be worse than missing data because it can
waste resources and lead to faulty ideas and solutions, or at
minimum challenges trust in the results and implications drawn
from the data. Improvement in data quality can thus have
significant benefits. (Curating for Quality P5)
19
Kriterien für Datenübernahme
• Vollständigkeit (Spezifikation Pflichtangaben)
• Interpretierbarkeit (Begrifflichkeit, Akronyme)
• Relevanz (Deduplikation, Sichtbarkeit)
• Konsistenz (Wertelisten, Kodierungen/Transliterationen)
• Provenienz
20
Anforderungen an die Kuration
• Revidierbar -> Archivierung der Originaldaten und
-anwendungen
• Nachvollziehbarkeit
• Nachjustierbarkeit
• Dokumentation (inbes. aktiv herbei geführter Verluste)
21
Literatur
Büttner, Stephan / Hobohm, Hans-Christoph / Müller, Lars (2011):
„Research data management“ in: Büttner, Stephan / Hobohm,
Hans-Christoph / Müller, Lars (eds.) Handbuch
Forschungsdatenmanagement. Bad Honnef: Bock u. Herchen, 13-24.
DCC [Digital Curation Centre]: „Curation Lifecycle Model | Digital
Curation Centre“. Verfügbar unter:
http://www.dcc.ac.uk/resources/curation-lifecycle-model [Letzter Zugriff
23 August 2016].
Enke, Harry / Fiedler, Norman / Fischer, Thomas / Ketzan, Erik /
Ludwig, Jens / Rathmann, Torsten / Stöckle, Gabriel / Schintke, Florian
(2013): Leitfaden zum Forschungsdaten-Management. Ergebnisse aus
dem WissGrid-Projekt (1. Aufl.). Glückstadt: Verlag Werner Hülsbusch.
22
Herunterladen