OAIS-konforme Anwendung von Tools am Beispiel der Archivierung von Datenbanken Zoltán Lux Ungarisches Nationalarchiv [email protected] http://www.mnl.gov.hu 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Archivierung von Datenbanken Die Probleme • • • • Was ist der Kontext der Daten? SIARD Pakete -> AIP -> Digitales Magazin Suche nach relevante Daten. Wie sollen die Ergebnisse der Suche gezeigt werden. Suche nach Lösung • Digitale Archivierungsystem in Betrieb bei NAH • E-ARK Projekt – Entwickelte oder weiterentwickelte Tools und Standarden • Pilot Projekt(en) in E-ARK Projekt 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Über das E-ARK Projekt Das Ziel des Projektes • Die Harmonisierung der derzeit fragmentierten Archiv Ansätze. • Ausarbeten umfassende Methoden für die elektronische Archivierung von Dokumenten. • Technische Lösungen für Ingest, Archivierung und Wiederverwendung. • Synthetisierung bestehende nationale und internationale Best Practices durch Pilot Projekten. http://www.eark-project.com/ (Január, 2014 – Január, 2017) 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Über das E-ARK Projekt. Partners Participant organisation name University of Portsmouth Higher Education Corporation Country UK Moved to the University of Brighton (int he end of 2015) AIT Austrian Institute of Technology GmbH Arhiv Republike Slovenije: Ministrstvo za izobraževanje, znanost in šport Austria Slovenia DLM Forum Foundation Statens Arkiver: The Danish National Archives Digital Preservation Coalition Ltd. Universität zu Köln Instituto Superior Técnico National Archives of Hungary Rahvusarhiiv: The National Archives of Estonia Arkivverket: National Archival Services of Norway ES Solutions KEEP SOLUTIONS LDA Magenta ApS Agência para a Modernização Administrativa IP Ministerio de Hacienda y Administraciones Pública UK Denmark UK Germany Portugal Hungary Estonia Norway Sweden Portugal Denmark Portugal Spain 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Über das E-ARK Projekt Workpackages • • • • • • WP1 (Project Coordination) WP2 (Use Cases & Pilots) WP3 (Transfer of Records to Archives) - SIP WP4 (Archival Records Preservation) - AIP WP5 (Archival Records Access Services) - DIP WP6 (Archival Storage, Services and Integration) – Integrated Prototype • WP7 (Evaluation & Assessment) 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Über das E-ARK Projekt Einige wichitige Ergebnisse des Projektes • E-ARK IP, SIP, AIP, DIP, (SADIP) Specifikation • SIARD 2.0 (-> SIARD-E) • E-ARK Tools (Neue und weiterentwickelte Tools) • Integrated Prototype (Big Data Infrastuktur) • Lokale Implementationen 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Konzeptuelle Struktur der Informationspakete Common Specification, OAIS Information Packages’ specifications und Content Type Specifications • Die folgende 3-Schicht Abbildung zeigt die gemeinsame Spezifikation als Grundlage, an deren Spitze die SADIP Erweiterungen eingebaut sind. Jedes enthält eine der vier Arten von Inhaltsprofilen. 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Die konzeptuelle Struktur der E-ARK Informationspakete 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Vollständige Ordnerstruktur der E-ARK Informationspakete 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 DIP DIP-Datenmodell und physikalische Ordnerstruktur • Definition Die E-ARK DIP hängt stark von der Art des Inhalts, der sie hält, ab. Der E-ARK DIP entspricht somit dem Inhaltstyp spezifischen Zugriffsszenarien, die mehrere Elemente wie beispielsweise die Software kombinieren kann, die zum Speichern und Zugreifen auf die Metadaten und die Daten eines IP verwendet wird. DIP-Spezifikation für Inhaltsdatentypen und Rendering-Szenarien: • Einzelne Rekord, z.B. von ERMS (z. B. PDF, TIFF) • Datenbanken • GEO-Daten • Datasets für data mining (z.B. in OLAP Würfel) 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 SIARD 2.0 Die Version 1.0 des SIARD-Format wurde 2007 von Enter AG für das Schweizerische Bundesarchiv entwickelt. Es wurde im Jahr 2013 als Standard eCH-0165 homogenisiert. Diese Version 2.0 basiert auf der Version 1.0 und definiert ein Format, das mit Version 1.0 abwärtskompatibel ist. Version 2.0 wurde gemeinsam von den Schweizerischen Bundesarchiv , der Schweizerischen Koordinationsstelle für Dauerhafte Archivierung elektronischer Unterlagen (KOST) und das EUProjekt E-ARK entwickelt. (Und es ist schon im DPTK implementiert.) Die wichtigsten Neuerungen sind: • Aktualisieren von SQL: 1999 Unterstützung für SQL: 2008-Unterstützung. • Unterstützung für alle SQL: 2008-Typen, insbesondere benutzerdefinierte Datentypen (UDT), • Deutlichere Validierungsregeln für Datentypdefinitionen mit regulären Ausdrücken, • Kleine Änderung der Definition, wenn zeigt Inline zum Speichern großer Objekte als Teil der XML Tabelle, • Unterstützung für große Objekte außerhalb der SIARD Datei speichern mit "file:" URIs, • Unterstützung für “deflate” als Compression Mechanismus. 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 E-ARK Tools Component Catalogue Celery HBASE HDFS AIP2DIP Lily Order form Name ICA-AtoM Workflow 9. Access Component of Stand-alone Developer Third party AIP2DIPPil7 Lily Order form 8. Storage-Access 8. Storage-Access 9. Access Integrated prototype Integrated prototype Stand-alone AIT AIT MAG Order Management Tool Order.xml SolR RDBMS to SIARD 2 ERMS to SMURF SIP Creation tool SIP Creation tool SIP Creation tool Database viewer EDRMS viewer Geodata viewer Geodata viewer OLAP viewer IP viewer SIARD-RDBMS SIARD-RDBMS SIARD-RDBMS Geodata Access format Geodata Access format Geodata Access format Moreq-Alfresco SIARD-OLAP OMT Order.xml 9. Access 9. Access 9. Access 3. Pre-Ingest 3. Pre-Ingest 4. Pre-ingest-Ingest 4. Pre-ingest-Ingest 4. Pre-ingest-Ingest 9. Access 9. Access 9. Access 9. Access 9. Access 2. All 9. Access 9. Access 9. Access 9. Access 9. Access 9. Access 9. Access 9. Access Stand-alone Stand-alone Integrated prototype DBPTK Stand-alone RODA EPP Stand-alone Stand-alone Stand-alone Stand-alone Stand-alone Stand-alone Stand-alone DBPTK DBPTK DBPTK Stand-alone Stand-alone Stand-alone Stand-alone Stand-alone MAG MAG AIT KEEPS MAG KEEPS ESS DBPTK Export Module RODA-In ETP UAM Sofia Alfresco QGIS Peripleo Oracle IP viewer SIARD-DK SIARD1.0 SIARD2.0 QGIS Peripleo QGIS MAG MAG NAS NAS Brighton MAG MAG KEEPS KEEPS NAS NAS NAS MAG Brighton 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Das Pilotprojekt bei NAH • Local System in Betrieb – – – – ScopeArchiv SDB/Preservica Oracle RDBMS, APEX, BI SIPKA, BÜRKE – Standalone-Anwendungen • E-ARK Infrastructure – Tools – Integrated Prototype (Big Data Infrastructure) • Szenarien Scenario 1 Scenario 2 SIP Creation and Ingest of old (not normalized) database in SIARD 2.0 format SIP Creation and Ingest of unstructured files Scenario 3 Extract SIARD Package from Preservica/E-ARK AIP (APEX/Oracle BI access) Scenario 4 Search and present SIARD based information with E-ARK access tools (HADOOP based search and access with HIVE Presentation in local environment) Scenario 5 Access information from unstructured files (Access PDF documents and image files with EAD metadata as Preservica/E-ARK DIP) 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Das Pilotprojekt bei NAH • Wie können wir die Lesbarkeit und Datenaufbewahrung gewaahrleisten im Fall von Datenbanken? • Wie können wir die Verstaandlichkeit, Überschaubarkeit und Nutzbarkeit der Daten bewahren? • Gibt es neue Möglichkeiten, Archivierung von Daten zu entdecken? Können wir komplexe Suchvorgänge oder Google-type Suche implementieren? 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Das Pilotprojekt bei NAH Fragen zu untersuchen • • • • • • • Wie kann die Geschäftslogik der Daten bewahrt/archiviert werden. Wie kann die häufige geschäftliche Nutzung der Daten bewahrt werden. Wie wissen noch nicht was die zukünftige Nutzer nach vielen Jahren suchen möchten. Wie sollen und mit welchen Tools die Daten in DIP an den Benutzer angezeigt werden? Dokumentation Denormalisierung der Tabellen Wenn soll der archivierende Datenbank denormalisiert werden? – SIP -> AIP – AIP -> DIP • • • Mit welchen Tools? Kann es autumatisch geleistet werden? Bis welche Stufe? OLAP Würfel – Wie kann OLAP Würfel archiviert werden – Wie kann archivierte OLAP Würfel an den Benutzer angezeigt werden? 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Das Pilotprojekt bei NAH • Realtionale Datenbank – Elektronische Registrierung Buch von Ungarische Staatsanwälte • SIARD Format, 1.0, 2.0 – SIARD SUITE – Database Preservation Toolkit (DPTK) • SIP, AIP, DIP 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Das Pilotprojekt bei NAH SIP/AIP • • • • • SIARD Pakete Elev SIP Creator -> SDB XIP -> SDB RODAIn -> E-ARK SIP -> Integrated Prototype Integrated Prototype SIP Crataor -> E-ARK SIP - Integrated Prototype 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Das Pilotprojekt bei NAH AIP/DIP • Suche (SDB, Integrated Prototype) • SIARD Pakete • Erstellung der DIP Paket – Selektion der relevante Daten – Anonymisierung – Rendering / Zeigen 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Das Pilotprojekt bei NAH DIP • • • • SIARD Pakete in SDB und in Integrated Prototype Metadatden in XML File SIARD Browser (oder) DPTK -> Oracle RDBMS – APEX Anwendung Software • Vorgefertigte Reports • Möglichkeit weitere Reporten zu definieren – Oracle BI • Data Warehouse • OLAP 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016 Vielen Dank für Ihre Aufmerksamkeit 20. Tagung „Archivierung von Unterlagen aus digitalen Systemen“ (AUdS) 1. bis 2. März 2016