VERSUCH ZUR ARCHIVIERUNG RELATIONALER DATENBANKEN Zoltán Lux Ungarisches Nationalarchiv [email protected] http://www.mnl.gov.hu Projekten im Zusammenhang mit Langzeitarchivierung • Nationales E-Archive Projekt (2008-2013) • Im Zuge dessen ein Pilot Projekt (BÜR), in welchem relationale Datenbanken der Ungarischen Strafverfolgung übernommen und zur langfristigen Archivierung vorbereitet wurden. (2009-2010) • E-ARK projekt über die Versuchung die Möglichkeiten der Langzeitarchivierung und Presentierung/Wiederverwendung Relationale Datenbanken (2013-2016) (EU Projekt) E-Archive - Nationales Projekt für Lanzeitarchivierung • Die Haupkomponenten (Hardware und Software) im (NISZ) Nationaler IT-Infrastructur-Anbieter • Archivinformationsystem: Scopearchiv • Repository: TESSELLA / Preservica • Portal: • SopeQuery • TESSELLA / Preservica • Mehrere Pilot Projekten Pilot Projekt BÜR in 2009-2010 • Relationale Datenbanken der Ungarischen Strafverfolgung übernommen und zur langfristigen Archivierung vorbereitet • Daten in dBase files • Vervolgung das OAIS modell • SIP • AIP • DIP Pilot Projekt BÜR in 2009-2010 • Daten in dBase filen • Kein Dokumentation weder zum Datenstrukturen noch zur Anwendungssoftware • Spezielle Kompressionen, Kodierungen • (ÉVTÖM) Compression des Jahres : Jahr minus 50 und das Jahrhundert ist nict gezeigt. zbp: 1993 --> "43". • (ÉV200): Jahr in 200-Zahlensystem und alfabetische Angabe von charakteren. zbp: 2009 --> "k„ • (SZ200) Nummer szám in 200-Zahlensystem und Verschiebung der ASCII Codewert mit 48. zbp: 218 --> "1B„ • (DATTÖM): Datum (YYYY.MM.DD) asgedrüct als zwei Zeichen .zbp: 2005.01.20 --> "gD„ Pilot Projekt BÜR in 2009-2010 • Kompressionen, Kodierungen Pilot Projekt BÜR in 2009-2010 • Ingest • Data in CSV format • Datenstrukturen mit detailierte Beschreungen im Excel Worksheet • Screenshots • -> SIP (generiert mit SIPka) Pilot Projekt BÜR in 2009-2010 • AIP • Oracle Schemata • Import CSV in Oracle Datenbank • Kommentar zur Datenbank Objekten (Table, Fields, usw.) • Anwendung SIARD Suite am Oracle Schema -> SIARD Package Pilot Projekt BÜR in 2009-2010 • AIP • Primer Daten in SIARD Paket. • SIARD Paket in Primer Daten in dem SIP Paket von Preservica • METS • SIPCreator oder direkt mit Preservica Pilot Projekt BÜR in 2009-2010 • DIP • Anwendungssoftware entwickelt mit Oracle APEX Pilot Projekt BÜR in 2009-2010 • DIP • Oracle APEX bietet eingebaute Analysefunktionen Pilot Projekt BÜR in 2009-2010 • Verschiedene ORACLE Schemata zum verschiedene Funktionen: • Application Framework – META • SIP (Ingest) – STAGE • AIP – SIARD • DIP – DW • DIP für expert User • Rahmen Anwendungssoftware Pilot Projekt BÜR in 2009-2010 Ergebnisse • Denormalisierung der Datenbank -> DW -> SIARD • Datenbank Strukturen würden leichter verstehbar • Daten könnten einfacher/schneller suchbar und nutzbar gemacht werden. • (OLAP)? • Problemen mit SIARD Format und SIARD Suite • SQL Objekten • ZIP Kompression • Contstraint Ergebnisse und E-ARK Projekt • http://www.eark-project.com/ • Versuch zur Archivierung Relationale Datenbanken • Bestehenden Praktiken und Anforderungen • Bestehende Software Tools, Standards und Empfehlungen • SIARD, Database Preservation Toolkit, DW, OLAP • Entwicklung (oder Weiterenticklung existierende ST) nötige Software Tools und Standards/Empfehlungen • Entwicklung Best-Practice • In unserem Fall: Das „BÜR” Projekt wird weiterentwickelt: • Originale transaktionale Datenbank Modell wird transformiert in das DW Modell vor dem SIARD Paket wird generiert. • Oracle Warehouse Builder – Mehr Möglichkeit zur Datenanalyse Vielen Dank für Ihre Aufmerksamkeit