1.2 Das Papyrus-Portal als virtuelle Zusammenführung der

Papyrus-Portal
Umsetzung einer
Portallösung für alle Papyrus-Sammlungen
in Deutschland
von
Prof. Reinhold Scholl (Uni Leipzig)
Jens Kupferschmidt (Uni Leipzig)
u. a.
Leipzig, 15/05/2016
Version 1.0.1
Abstrakt
Diese Dokumentation beschreibt die Umsetzung des DFG Papyrus-Portal-Projektes der
Papyrussammlungen in Deutschland auf informationstechnischem Gebiet. Das aktuelle
Release des Projektes ist 1.0.
Als Grundlage der Datenhaltung wird eine Applikation verwendet, die auf dem MyCoReProjekt (http://www.mycore.de), Release 2.0 basiert. MyCoRe ist eine Arbeitsgruppe
verschiedener deutscher Universitäten, die einen Open Source Kern und darauf aufbauende
Anwendungen zur Lösung von Aufgaben aus den Bereichen digitale Bibliotheken und
Sammlungen anbietet. Diese Komponenten bieten für das Papyrus-Portal-Projekt unserer
Ansicht nach hinsichtlich ihrer Funktionalität sowohl eine gute Ausgangsbasis als auch
langfristig die erforderliche Sicherheit bezüglich Soft- und Hardware-Anpassung. Die
Anwendung unterliegt der GNU GENERAL PUBLIC LICENSE Version 2.
Die vorliegende Dokumentation gliedert sich in folgende Teile:




Allgemeine Projektbeschreibung
Beschreibung der informationstechnischen Umsetzung mit MyCoRe in Verbindung zu
anderen Datenbanken
Anleitung zur Benutzung des Systems
Installations- und Konfigurationsanleitung
Änderungen
Version
1.0.0
1.0.1
Datum
09.08.2007
20.11.2007
Autor
Jens Kupferschmidt, URZ der Uni Leipzig
Jens Kupferschmidt, URZ der Uni Leipzig
Abkürzungen
Kürzel
Erläuterung
ACL
Access Control List – eine Technologie für die Zugriffskontrolle auf Daten.
API
Application Programming Interface – eine allgemeine Bezeichnung der
Programmierschnittstellen in einem Projekt.
HSQLDB
Dies ist eine zu 100% in Java geschriebene SQL-Datenbank.
ID
Identifikator, eine eindeutige Marke
JAVA
Eine objektorientierte, weit verbreitete Programmiersprache.
JDBC
Java Database Connectivity – eine Schnittstelle zum einheitlichen Zugriff
auf relationale Datenbanken.
Jetty
Ein Servlet-Engine-Produkt.
SQL
Structured Query Language – eine vereinheitlichte Abfragesprache für
relationale Datenbanken.
UBL
Universitätsbibliothek Leipzig
URZ
Universitätsrechenzentrum der Universität Leipzig
XML
Extensible Markup Language – ein Standard zur Notation von Daten.
XPath
Ein Standard zum Zugriff auf XML-Daten.
XSLT
Extensible
Stylesheet
Language
for
Transformation
Beschreibungssprache zur Transformation von XML Daten.
–
eine
Inhaltsverzeichnis
1 Projektbeschreibung ................................................................................................................ 6
1.1 Allgemeiner Stand der digitalen Papyrus-Sammlungen in Deutschland .......................... 6
1.2 Das Papyrus-Portal als virtuelle Zusammenführung der Sammlungen ............................ 6
Version 1.0.1
2
1.3 Felder der Suche und der Trefferliste im Portal ................................................................ 7
1.4 Mapping der Metadaten .................................................................................................... 8
2 Technische Umsetzung ........................................................................................................... 9
2.1 Allgemeines zu MyCoRe .................................................................................................. 9
2.2 Zugriff auf die Datenbanken ............................................................................................. 9
3 Glossar ................................................................................................................................... 10
4 Anhang .................................................................................................................................. 11
1 Projektbeschreibung
1.1 Allgemeiner Stand der digitalen Papyrus-Sammlungen in
Deutschland
[ToDo]
1.2 Das Papyrus-Portal als virtuelle Zusammenführung der
Sammlungen
Die nachfolgende Tabelle beschreibt die konkreten Stadien der einzelnen digitalen Präsentationen der Papyrussammlungen, die bereits jetzt am Portal teilnehmen werden. Um die
Entwicklung zu vereinfachen und ein Optimum an Aktualität zu erreichen, werden die veralteten Filemaker-Versionen einheitlich auf das aktuelle Release 9 migriert. So kann der
Zugriff auf drei Arten von Systemen reduziert werden.
Lokation
Systemtyp
Bemerkung
Heidelberg
Filemaker (Version 7)
Migration auf Filemaker 9
Trier
Filemaker (Version 5)
Migration auf Filemaker 9
Köln
Filemaker (Version 5)
Migration auf Filemaker 9
Bonn
Filemaker (Version 8.5)
Migration auf Filemaker 9
Gießen
Allegro HANS
Halle-Jena-Leipzig
MyCoRe (Version 2)
Würzburg
MyCoRe (Version 2)
Tabelle 1: Beteiligte Lokationen
Die Zusammenführung der Sammlungen erfolgt nur virtuell. Die Projektbeteiligten hatten
sich im Vorfeld der Projektkonzeption gegen ein Harvesting der Daten durch eine zentrale
Instanz ausgesprochen. Somit werden zum Zeitpunkt einer Anfrage alle beteiligten Systeme
direkt abgefragt. Die Systeme in den Lokationen arbeiten völlig autonom. Es ist keine Synchronisation zwischen der Portal-Software und den Datenbanken in den Lokationen erforderlich.
Das nachfolgende Bild zeigt den allgemeinen Ablauf der Arbeit des Portals. Dabei geht es
vorrangig darum, was innerhalb der Portalanwendung abläuft. Funktionalitäten in den
einzelnen Lokationen werden dabei nicht berücksichtigt. Diese obliegen auch weiterhin der
Verantwortlichkeit und Gestaltung der jeweiligen Einrichtung.
Version 1.0.1
3
Am Beispiel des MyCoRe-Papyrus-Projektes soll die verteilte Suche demonstriert werden.
Hier geht es zwar um die Navigation innerhalb einer homogenen Programmlandschaft, durch
andere Connectoren lässt sich das System auch auf andere Datenbanken ausbauen. Das Bild
unten zeigt eine Trefferliste mit Daten aus zwei MyCoRe-Papyrus-Servern: Leipzig und
Würzburg.
Abbildung 2: Trefferliste einer Remote-Abfrage mehrerer MyCoRe-Papyrus-Server
Abbildung 1: Allgemeiner Ablauf der Suche
1.3 Felder der Suche und der Trefferliste im Portal
In der nachfolgenden Tabelle sind alle für das Portal festgelegten Felder für die Suche und
Trefferlistenanzeige notiert. Diese Felder erhalten zur besseren Orientierung Nummern, die
sie eindeutig im Portal-Projekt identifizieren.
Nr.
Suche
Anzeige
Bemerkung
Port01
Inventarnummer
Inventarnummer
Text oder Textteile mit *
Port02
Sammlung
Sammlung
Auswahlliste
Port03
Sprache
Sprache
Auswahlliste
Port04
Textart
Textart
Auswahlliste
Port05
Titel
Titel
Text oder Textteile mit *
Port06
Datum
Datum
Version 1.0.1
4
Nr.
Suche
Anzeige
Bemerkung
Port07
Herkunft
Herkunft
Text oder Textteile mit *
Port08
Material
Material
Auswahlliste
Port09
Inhalt
Inhalt
Text oder Textteile mit *
Port10
Publikationsnummer
Port11
statischer Link
Verweis zum Originaldatensatz
Port12
weitere Links
z. B. zum HGV usw.
Tabelle 2: Such- und Anzeigefelder für das Portal
1.4 Mapping der Metadaten
Die zu vereinenden Datenbanken enthalten ganz unterschiedliche Arten von Feldern (Metadaten). Es muss also eine Zuweisung (Mapping) zwischen den Datenfeldern des portals und
denen der einzelnen Datenbank-Instanzen erfolgen. In Vorfeld des Projektes wurden daher
folgende Aspekte betrachtet:




Auswahl der Felder, in denen eine allgemeingültige Suche stattfindet.
Zuordnung dieser Felder zu einer allgemeinen Suchmaske.
Zuordnung von Bezeichnungen (z. B. Ortsnamen) zu feststehenden einheitlichen Bezeichnungen.
Festlegung und Zuordnung der in der Trefferliste anzuzeigenden Felder.
2 Technische Umsetzung
2.1 Allgemeines zu MyCoRe
MyCoRe1 ist eigentlich als Repository für Dokumente und Sammlungen gedacht und implementiert worden. Da eine Vielzahl von Funktionalitäten wie ein Remote-Suchsystem, Verarbeitung mehrsprachiger statischer Web-Seiten und ein einfaches WCMS (Web Content
Management System) integraler Bestandteil sind, wurde von den Teilnehmern beschlossen,
das Papyrus-Portal-Projekt mit dieser Software zu realisieren. Hinzu kommt, dass diese Software durch ihre Open-Source-Lizensierung (GPL) frei verfügbar ist.
2.2 Zugriff auf die Datenbanken
Der Zugriff des Portals auf die Datenbanken erfolgt mittels Connectoren. Diese implementieren ein Interface zwischen der MyCoRe-Suche und den Datenbanken. Bedingt durch die
unterschiedliche Struktur der Datenbanken sind hier verschiedene Techniken anzuwenden.



Zugriff über eine WebService-Schnittstelle zu allen MyCoRe-Papyrus-Projekten
Zugriff mittels JDBC Treiber auf die FileMaker 9 Datenbanken
Zugriff über eine WebService-Schnittstelle auf allegro/HANS
1 siehe http://www.mycore.de/
Version 1.0.1
5
Abbildung 3: Schema des verteilten Zugriffes
3
Innerhalb der Connectoren werden auch alle sammlungsspezifischen Mappings durchgeführt. Jedes Mapping soll über eine Konfigurationsdatei erfolgen. Weiterhin sind die
Connectoren für die Umsetzung spezieller Thesauri zuständig. Das Resultat wird einheitlich entsprechend der Vorgabe für das Portal zurückgegeben.
Glossar
Harvesting
Als Harvesting, also eine Ernte, bezeichnet man ein Verfahren bei dem Daten durch ein
Leseverfahren von räumlich entfernten Servern eingesammelt werden. Die so gewonnenen
Daten werden nun als Dienst Clients zur Verfügung gestellt. Bekanntester Vertreter ist das
OAI-Projekt.
Metadaten
Unter Metadaten sind alle zum eigentlichen Objekt (in diesem Falle Papyri oder Dokumente)
gehörenden beschreibenden Daten zu physikalischen und inhaltlichen Angaben zu verstehen.
Servlet-Engine
Servlets sind Programmteile, welche mit einen Web-Browser kommunizieren können und dynamische Web-Inhalte erzeugen. Die Servlet-Engine steuert den Zugriff auf die darin konfigurierten Servlets. Typische Vertreter sind die Projekte Tomcat und Jetty.
4 Anhang
Tabellenverzeichnis
Tabelle 1: Beteiligte Lokationen ............................................................................................................................. 6
Version 1.0.1
6
Tabelle 2: Such- und Anzeigefelder für das Portal .................................................................................................8
Abbildungsverzeichnis
Abbildung 1: Allgemeiner Ablauf der Suche ..........................................................................................................7
Abbildung 2: Trefferliste einer Remote-Abfrage mehrerer MyCoRe-Papyrus-Server ...........................................7
Abbildung 3: Schema des verteilten Zugriffes ........................................................................................................9
Version 1.0.1
7