Lux, Zoltan: Versuch zur Archivierung Relationaler Datenbanken

Werbung
VERSUCH ZUR ARCHIVIERUNG
RELATIONALER DATENBANKEN
Zoltán Lux
Ungarisches Nationalarchiv
[email protected]
http://www.mnl.gov.hu
Projekten im Zusammenhang mit
Langzeitarchivierung
• Nationales E-Archive Projekt (2008-2013)
• Im Zuge dessen ein Pilot Projekt (BÜR), in welchem
relationale Datenbanken der Ungarischen Strafverfolgung
übernommen und zur langfristigen Archivierung
vorbereitet wurden. (2009-2010)
• E-ARK projekt über die Versuchung die Möglichkeiten der
Langzeitarchivierung und
Presentierung/Wiederverwendung Relationale
Datenbanken (2013-2016) (EU Projekt)
E-Archive - Nationales Projekt für
Lanzeitarchivierung
• Die Haupkomponenten (Hardware und Software) im
(NISZ) Nationaler IT-Infrastructur-Anbieter
• Archivinformationsystem: Scopearchiv
• Repository: TESSELLA / Preservica
• Portal:
• SopeQuery
• TESSELLA / Preservica
• Mehrere Pilot Projekten
Pilot Projekt BÜR in 2009-2010
• Relationale Datenbanken der Ungarischen
Strafverfolgung übernommen und zur langfristigen
Archivierung vorbereitet
• Daten in dBase files
• Vervolgung das OAIS modell
• SIP
• AIP
• DIP
Pilot Projekt BÜR in 2009-2010
• Daten in dBase filen
• Kein Dokumentation weder zum Datenstrukturen noch zur
Anwendungssoftware
• Spezielle Kompressionen, Kodierungen
•
(ÉVTÖM) Compression des Jahres : Jahr minus 50 und das Jahrhundert ist nict gezeigt. zbp: 1993 --> "43".
•
(ÉV200): Jahr in 200-Zahlensystem und alfabetische Angabe von charakteren. zbp: 2009 --> "k„
•
(SZ200) Nummer szám in 200-Zahlensystem und Verschiebung der ASCII Codewert mit 48. zbp: 218 --> "1B„
•
(DATTÖM): Datum (YYYY.MM.DD) asgedrüct als zwei Zeichen .zbp: 2005.01.20 --> "gD„
Pilot Projekt BÜR in 2009-2010
• Kompressionen, Kodierungen
Pilot Projekt BÜR in 2009-2010
• Ingest
• Data in CSV format
• Datenstrukturen mit detailierte Beschreungen im Excel
Worksheet
• Screenshots
• -> SIP (generiert mit
SIPka)
Pilot Projekt BÜR in 2009-2010
• AIP
• Oracle Schemata
• Import CSV in Oracle Datenbank
• Kommentar zur Datenbank Objekten (Table, Fields, usw.)
• Anwendung SIARD Suite am Oracle Schema -> SIARD
Package
Pilot Projekt BÜR in 2009-2010
• AIP
• Primer Daten in SIARD Paket.
• SIARD Paket in Primer Daten in dem SIP Paket von
Preservica
• METS
• SIPCreator oder direkt mit Preservica
Pilot Projekt BÜR in 2009-2010
• DIP
• Anwendungssoftware entwickelt mit Oracle APEX
Pilot Projekt BÜR in 2009-2010
• DIP
• Oracle APEX bietet eingebaute Analysefunktionen
Pilot Projekt BÜR in 2009-2010
• Verschiedene ORACLE Schemata zum verschiedene
Funktionen:
• Application Framework – META
• SIP (Ingest) – STAGE
• AIP – SIARD
• DIP – DW
• DIP für expert User
• Rahmen Anwendungssoftware
Pilot Projekt BÜR in 2009-2010
Ergebnisse
• Denormalisierung der Datenbank -> DW -> SIARD
• Datenbank Strukturen würden leichter verstehbar
• Daten könnten einfacher/schneller suchbar und nutzbar gemacht
werden.
• (OLAP)?
• Problemen mit SIARD Format und SIARD Suite
• SQL Objekten
• ZIP Kompression
• Contstraint
Ergebnisse und E-ARK Projekt
• http://www.eark-project.com/
• Versuch zur Archivierung Relationale Datenbanken
• Bestehenden Praktiken und Anforderungen
• Bestehende Software Tools, Standards und Empfehlungen
• SIARD, Database Preservation Toolkit, DW, OLAP
• Entwicklung (oder Weiterenticklung existierende ST) nötige
Software Tools und Standards/Empfehlungen
• Entwicklung Best-Practice
• In unserem Fall: Das „BÜR” Projekt wird weiterentwickelt:
• Originale transaktionale Datenbank Modell wird transformiert in das
DW Modell vor dem SIARD Paket wird generiert.
• Oracle Warehouse Builder – Mehr Möglichkeit zur Datenanalyse
Vielen Dank für Ihre Aufmerksamkeit
Herunterladen