Lux, Zoltán: OAIS-konforme Anwendung von

Werbung
OAIS-konforme Anwendung von
Tools am Beispiel der Archivierung
von Datenbanken
Zoltán Lux
Ungarisches Nationalarchiv
[email protected]
http://www.mnl.gov.hu
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Archivierung von Datenbanken
Die Probleme
•
•
•
•
Was ist der Kontext der Daten?
SIARD Pakete -> AIP -> Digitales Magazin
Suche nach relevante Daten.
Wie sollen die Ergebnisse der Suche gezeigt werden.
Suche nach Lösung
• Digitale Archivierungsystem in Betrieb bei NAH
• E-ARK Projekt
– Entwickelte oder weiterentwickelte Tools und Standarden
• Pilot Projekt(en) in E-ARK Projekt
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Über das E-ARK Projekt
Das Ziel des Projektes
• Die Harmonisierung der derzeit fragmentierten Archiv Ansätze.
• Ausarbeten umfassende Methoden für die elektronische Archivierung von
Dokumenten.
• Technische Lösungen für Ingest, Archivierung und Wiederverwendung.
• Synthetisierung bestehende nationale und internationale Best Practices durch
Pilot Projekten.
http://www.eark-project.com/
(Január, 2014 – Január, 2017)
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Über das E-ARK Projekt.
Partners
Participant organisation name
University of Portsmouth Higher Education Corporation
Country
UK
Moved to the University of Brighton (int he end of 2015)
AIT Austrian Institute of Technology GmbH
Arhiv Republike Slovenije: Ministrstvo za izobraževanje, znanost in šport
Austria
Slovenia
DLM Forum Foundation
Statens Arkiver: The Danish National Archives
Digital Preservation Coalition Ltd.
Universität zu Köln
Instituto Superior Técnico
National Archives of Hungary
Rahvusarhiiv: The National Archives of Estonia
Arkivverket: National Archival Services of Norway
ES Solutions
KEEP SOLUTIONS LDA
Magenta ApS
Agência para a Modernização Administrativa IP
Ministerio de Hacienda y Administraciones Pública
UK
Denmark
UK
Germany
Portugal
Hungary
Estonia
Norway
Sweden
Portugal
Denmark
Portugal
Spain
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Über das E-ARK Projekt
Workpackages
•
•
•
•
•
•
WP1 (Project Coordination)
WP2 (Use Cases & Pilots)
WP3 (Transfer of Records to Archives) - SIP
WP4 (Archival Records Preservation) - AIP
WP5 (Archival Records Access Services) - DIP
WP6 (Archival Storage, Services and
Integration) – Integrated Prototype
• WP7 (Evaluation & Assessment)
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Über das E-ARK Projekt
Einige wichitige Ergebnisse des Projektes
• E-ARK IP, SIP, AIP, DIP, (SADIP) Specifikation
• SIARD 2.0 (-> SIARD-E)
• E-ARK Tools (Neue und weiterentwickelte
Tools)
• Integrated Prototype (Big Data Infrastuktur)
• Lokale Implementationen
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Konzeptuelle Struktur der
Informationspakete
Common Specification, OAIS Information Packages’ specifications
und Content Type Specifications
• Die folgende 3-Schicht Abbildung zeigt die gemeinsame
Spezifikation als Grundlage, an deren Spitze die SADIP
Erweiterungen eingebaut sind. Jedes enthält eine der vier Arten von
Inhaltsprofilen.
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Die konzeptuelle Struktur der E-ARK
Informationspakete
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Vollständige Ordnerstruktur der E-ARK
Informationspakete
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
DIP
DIP-Datenmodell und physikalische Ordnerstruktur
•
Definition
Die E-ARK DIP hängt stark von der Art des
Inhalts, der sie hält, ab. Der E-ARK DIP
entspricht somit dem Inhaltstyp
spezifischen Zugriffsszenarien, die
mehrere Elemente wie beispielsweise die
Software kombinieren kann, die zum
Speichern und Zugreifen auf die
Metadaten und die Daten eines IP
verwendet wird.
DIP-Spezifikation für Inhaltsdatentypen und Rendering-Szenarien:
• Einzelne Rekord, z.B. von ERMS (z. B. PDF, TIFF)
• Datenbanken
• GEO-Daten
• Datasets für data mining (z.B. in OLAP Würfel)
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
SIARD 2.0
Die Version 1.0 des SIARD-Format wurde 2007 von Enter AG für das Schweizerische Bundesarchiv
entwickelt. Es wurde im Jahr 2013 als Standard eCH-0165 homogenisiert. Diese Version 2.0
basiert auf der Version 1.0 und definiert ein Format, das mit Version 1.0 abwärtskompatibel ist.
Version 2.0 wurde gemeinsam von den Schweizerischen Bundesarchiv , der Schweizerischen
Koordinationsstelle für Dauerhafte Archivierung elektronischer Unterlagen (KOST) und das EUProjekt E-ARK entwickelt.
(Und es ist schon im DPTK implementiert.)
Die wichtigsten Neuerungen sind:
• Aktualisieren von SQL: 1999 Unterstützung für SQL: 2008-Unterstützung.
• Unterstützung für alle SQL: 2008-Typen, insbesondere benutzerdefinierte Datentypen (UDT),
• Deutlichere Validierungsregeln für Datentypdefinitionen mit regulären Ausdrücken,
• Kleine Änderung der Definition, wenn zeigt Inline zum Speichern großer Objekte als Teil der
XML Tabelle,
• Unterstützung für große Objekte außerhalb der SIARD Datei speichern mit "file:" URIs,
• Unterstützung für “deflate” als Compression Mechanismus.
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
E-ARK Tools
Component
Catalogue
Celery
HBASE
HDFS
AIP2DIP
Lily
Order form
Name
ICA-AtoM
Workflow
9. Access
Component of
Stand-alone
Developer
Third party
AIP2DIPPil7
Lily
Order form
8. Storage-Access
8. Storage-Access
9. Access
Integrated prototype
Integrated prototype
Stand-alone
AIT
AIT
MAG
Order Management Tool
Order.xml
SolR
RDBMS to SIARD 2
ERMS to SMURF
SIP Creation tool
SIP Creation tool
SIP Creation tool
Database viewer
EDRMS viewer
Geodata viewer
Geodata viewer
OLAP viewer
IP viewer
SIARD-RDBMS
SIARD-RDBMS
SIARD-RDBMS
Geodata Access format
Geodata Access format
Geodata Access format
Moreq-Alfresco
SIARD-OLAP
OMT
Order.xml
9. Access
9. Access
9. Access
3. Pre-Ingest
3. Pre-Ingest
4. Pre-ingest-Ingest
4. Pre-ingest-Ingest
4. Pre-ingest-Ingest
9. Access
9. Access
9. Access
9. Access
9. Access
2. All
9. Access
9. Access
9. Access
9. Access
9. Access
9. Access
9. Access
9. Access
Stand-alone
Stand-alone
Integrated prototype
DBPTK
Stand-alone
RODA
EPP
Stand-alone
Stand-alone
Stand-alone
Stand-alone
Stand-alone
Stand-alone
Stand-alone
DBPTK
DBPTK
DBPTK
Stand-alone
Stand-alone
Stand-alone
Stand-alone
Stand-alone
MAG
MAG
AIT
KEEPS
MAG
KEEPS
ESS
DBPTK
Export Module
RODA-In
ETP
UAM
Sofia
Alfresco
QGIS
Peripleo
Oracle
IP viewer
SIARD-DK
SIARD1.0
SIARD2.0
QGIS
Peripleo
QGIS
MAG
MAG
NAS
NAS
Brighton
MAG
MAG
KEEPS
KEEPS
NAS
NAS
NAS
MAG
Brighton
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Das Pilotprojekt bei NAH
• Local System in Betrieb
–
–
–
–
ScopeArchiv
SDB/Preservica
Oracle RDBMS, APEX, BI
SIPKA, BÜRKE – Standalone-Anwendungen
• E-ARK Infrastructure
– Tools
– Integrated Prototype (Big Data Infrastructure)
• Szenarien
Scenario 1
Scenario 2
SIP Creation and Ingest of old (not normalized) database in SIARD 2.0 format
SIP Creation and Ingest of unstructured files
Scenario 3
Extract SIARD Package from Preservica/E-ARK AIP (APEX/Oracle BI access)
Scenario 4
Search and present SIARD based information with E-ARK access tools
(HADOOP based search and access with HIVE Presentation in local environment)
Scenario 5
Access information from unstructured files
(Access PDF documents and image files with EAD metadata as Preservica/E-ARK DIP)
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Das Pilotprojekt bei NAH
• Wie können wir die Lesbarkeit und
Datenaufbewahrung gewaahrleisten im Fall von
Datenbanken?
• Wie können wir die Verstaandlichkeit,
Überschaubarkeit und Nutzbarkeit der Daten
bewahren?
• Gibt es neue Möglichkeiten, Archivierung von
Daten zu entdecken? Können wir komplexe
Suchvorgänge oder Google-type Suche
implementieren?
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Das Pilotprojekt bei NAH
Fragen zu untersuchen
•
•
•
•
•
•
•
Wie kann die Geschäftslogik der Daten bewahrt/archiviert werden.
Wie kann die häufige geschäftliche Nutzung der Daten bewahrt werden.
Wie wissen noch nicht was die zukünftige Nutzer nach vielen Jahren suchen
möchten.
Wie sollen und mit welchen Tools die Daten in DIP an den Benutzer angezeigt
werden?
Dokumentation
Denormalisierung der Tabellen
Wenn soll der archivierende Datenbank denormalisiert werden?
– SIP -> AIP
– AIP -> DIP
•
•
•
Mit welchen Tools?
Kann es autumatisch geleistet werden? Bis welche Stufe?
OLAP Würfel
– Wie kann OLAP Würfel archiviert werden
– Wie kann archivierte OLAP Würfel an den Benutzer angezeigt werden?
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Das Pilotprojekt bei NAH
• Realtionale Datenbank
– Elektronische Registrierung Buch von Ungarische
Staatsanwälte
• SIARD Format, 1.0, 2.0
– SIARD SUITE
– Database Preservation Toolkit (DPTK)
• SIP, AIP, DIP
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Das Pilotprojekt bei NAH
SIP/AIP
•
•
•
•
•
SIARD Pakete
Elev SIP Creator -> SDB
XIP -> SDB
RODAIn -> E-ARK SIP -> Integrated Prototype
Integrated Prototype SIP Crataor -> E-ARK SIP
- Integrated Prototype
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Das Pilotprojekt bei NAH
AIP/DIP
• Suche (SDB, Integrated Prototype)
• SIARD Pakete
• Erstellung der DIP Paket
– Selektion der relevante Daten
– Anonymisierung
– Rendering / Zeigen
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Das Pilotprojekt bei NAH
DIP
•
•
•
•
SIARD Pakete in SDB und in Integrated Prototype
Metadatden in XML File
SIARD Browser
(oder) DPTK -> Oracle RDBMS
– APEX Anwendung Software
• Vorgefertigte Reports
• Möglichkeit weitere Reporten zu definieren
– Oracle BI
• Data Warehouse
• OLAP
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Vielen Dank für Ihre Aufmerksamkeit
20. Tagung „Archivierung von Unterlagen aus digitalen
Systemen“ (AUdS) 1. bis 2. März 2016
Herunterladen