Kolloqium des Rechenzentrums 19.3.2002
1. Online- Archive, Metadaten und die Open Archives
Initiative: Susanne Dobratz
2. Die DINI-Suchmaschine- ein OAI Service Provider:
Jingyuan Wang
3. Das Projekt Open Archives Forum: Birgit Matthaei
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Online- Archive, Metadaten und
die Open Archives Initiative
Inhalt:
1. Offene Archive: Probleme
2. Die Open Archives Initiative
3. Das OAI Interoperability Framework
– Dublin Core Metadatenschema
– OAI Protokollspezifikation
4. Standards, Communities und Open Archives
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Offene Archive
• Entstehen aufgrund der aktuellen Publikationssituation in
den Wissenschaften
• Self-Archiving Ansätze
• Probleme:
– Unterschiedliche Beschreibungsformate
– Unterschiedliche Übertragungsprotokolle
– Unterschiedliche Zugriffsstrategien
• Mangelnde Interoperabilität!
• Neue Dienste sind sehr schwer zu etablieren!
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Problemsituation offener Archive: Details
NSCTRL
DIENST-Protokoll
(Networked Computer Science Technical
Reference Library
http://www.cs.cornell.edu/cdlrg Cornell
University)
ArXiv
ArXiv-Metadatensatz
(Preprints, Artikel der Naturwissenschaften
http://www.arxiv.org/ Los Alamos National
Laboratory )
Bibliotheken
MAB / MARC /
USMARC
Archive
Findbücher
EAD.dtd
Museen
z.B. eigene
Datenbanken,
(Consortium of the Computer Interchange of
Museum Information-Profile)
http://www.cimi.org)
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Beispiel Dublin Core Metadatensatz
Beispiel: http://dochost.rz.hu-berlin.de/dissertationen/history/Luick-ThramsMichael-1997-07-02
<META NAME="DC.Type" CONTENT="Text.PhDThesis">
<META NAME="DC.Creator.PersonalName"
CONTENT="Luick-Thrams, Michael">
<META NAME="DC.Title" LANG="eng"
CONTENT="Creating New Americans:WWII-Era
European Refugees Formation of American
Identities">
<META NAME="DC.Subject" SCHEMA="RVK"
CONTENT="NQ 2530, NQ 5310">
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Probleme: Details
•Metadateninterpretationen
–Autor-Feld in Bibliotheken (bei MAB-Format: Feld 100)
–Künstler-Feld in Museums-Datenbank
•Übertragungsprotokolle
–Bibliotheken: Z39.50 – Schnittstelle
–NCSTRL: DIENST-Protokoll
–Harvest-System: auf HTTP-Basis mit SOIFMetadatenformat
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Open Archives Initiative
• Prinzipien/ Strategie
– weltweite Zusammenführung aller wiss. Archive
– freier Zugriff auf diese Archive / Metadaten
– einheitliche Schnittstellen für Archive und Serviceanbieter
• OAI-Grundregeln
–
–
–
–
–
netzbasiertes Serversystem,
Definition einer Policy
Nutzung des Dublin Core Metadatensatz
OAI-spezifische XML-Syntax
Spezielles Open Archive Protokoll auf HTTP-Basis
http://www.openarchives.org
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
OAI: Historie
• 22.10.1999 Treffen in Santa Fe , New Mexiko, USA
• Santa Fe Convention for the Open Archives Initiative
Feb.2000
– Arxiv / XXX Los Alamos: Paul Ginsparg
– Ghent Univ. / Cornell: Herbert van de Sompel (SFX)
– NCSTRL: Carl Lagoze
• Workshops in den USA, Europa 1999/2000
– Protokoll Version 1.1. (02.07.2001)
– Protokoll Version 2 ab Mai 2002 (aktuell im Test)
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
OAI Organisationsstruktur
• Steering Committee
– 12 Mitglieder, USA, UK, D
– Allgemeine Politik der OAI
• Executive Committee
– Carl Lagoze (Cornell Univ.)
– Herbert van de Sompel
• Technical Committee
– Erarbeitung der OAI-Spezifikation
– Kontakt mit OAI-Community
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Ziel Open Archives Initiative
The Open Archives Initiative has been set up to
create a forum to discuss and solve matters of
interoperability between preprint solutions, as a
way to promote their global acceptance.
Paul Ginsparg, Rick Luce & Herbert Van de Sompel
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
OAI: Data and Service Provider
• Offene Archive:
– Zugänglichkeit der Metadaten
– Nicht! notwendigerweise freier Zugriff auf Volltexte
– soll durch einheitliche aber flexible Schnittstellen
erreicht werden
• Service Provider
– nutzen Schnittstellen um Services zu etablieren:
• Suche, Navigation, Alerting-Dienste u.a.
Informationsdienstleistungen
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
•Datestamp
Data
Provider
OAI Technisches Modell
e-print
•ListMetadataformats
•ListSets
Data
Provider
•Identify
Bilder
e-print
•GetRecord
•Vollständige
Metadatensätze
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Data
Provider
Data
Provider
Service
Provider
•ListIdentifiers
Data
Provider
•ListRecords
OPAC
e-print
Museum
e-print
Archiv
e-print
Aufbau eines OAI Archivs
1. Auswahl eines eindeutigen Identifiers
Bsp.: HUBerlin, arXi, physdoc
siehe http://oaisrv.nsdl.cornell.edu/Register/BrowseSites.pl
2. Implementation des Metadatenformats
Records
Dublin Core Set
XML Transport Syntax
3. Implementation des OAi Protokolls
4. Registrierung des Archives bei der OAi
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Anmelden des Archivs bei der OAI
•OAI macht einen Konformitätstest
–wird regelmäßig wiederholt
–XML konformität
–Korrektheit der Protokollanfragen
–Fehlermeldungen
–Robustheit (falsche Identifier etc.)
•Inhalt der Registrationsdatenbank ist öffentlich einsehbar
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
OAI Records
• Header
– Eindeutiger Identifier: Schüssel für Archivanfragen
• oai:HUBerlin:dissertationen:kemps-christof-200006-18
– Datestamp: Datum der Erstellung, des Löschens, der
letzten Modifikation eines Items
• 2001-06-18
• Metadaten
– Metadatenprefix
– Dublin Core ohne Qualifier!
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Exkurs: Dublin Core Metadata Set
• 15 Elemente zur Beschreibung von WWW-Resourcen im
weitesten Sinne
• Dublin Core Initiative
– Bibliothekare
– OCLC, ...
– jährlich Workshops seit 1995
– start in Dublin/Ohio USA (Sitz OCLC)
• Semantik ist defininiert
• Syntax in HTML / XML mit RDF
• http://www.purl.org/metadata/dublin_core
• Wird von der ISO normiert
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Exkurs: Dublin Core Elemente
DC.Title
DC.Creator
DC.Subject
DC.Description
DC.Publisher
DC.Contributor
DC.Date
DC.Type
DC.Format
DC.Identifier
DC.Source
DC.Language
DC.Relation
DC.Coverage
DC.Rights
Allgemeine Grundsätze:
•1. Jedes Feld ist optional
•2. Jedes Feld ist wiederholbar
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
OAI Protokoll
• basiert auf http-Protokoll
– als cgi script imlementieren
• Auswahl von sets, die abgefragt werden können
(Archivspezifisch)
– :dissertationen
:cardiology
• Ausgewählte Anfragen
– ListSets, ListRecords, ListIdentifier....
• Resumption Token
– Bei großen Mengen
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
OAI Implementation für
Datenbankbasierte Systeme (HUBerlin)
OAI-Anfrage
?verb=Identify
cgi-Schnittstelle
nutzt HTTP
oai-Anfrage
OAI-script
in PHP4
Sybase/
SQL-DB
sql-Anfrage
OAI-Server
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
OAI Implementation
für Harvest basierte Systeme (PhysDoc)
Archiv 1 Archiv 2 Archiv 3
HARVEST
SQL DB
Normalisierung
der Metadaten
OAI Server
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Beispiel OAI Kompatibilität
Beispiel siehe: http://dissertationen.hu-berlin.de/oai/test.html
<?xml version="1.0" encoding="UTF-8" ?>
- <Identify xmlns="http://www.openarchives.org/OAI/1.0/OAI_Identify"
xmlns:xsi="http://www.w3.org/2000/10/XMLSchema-instance"
xsi:schemaLocation="http://www.openarchives.org/OAI/1.0/OAI_Identify
http://www.openarchives.org/OAI/1.0/OAI_Identify.xsd">
<responseDate>2001-03-21T18:05:17+01:00</responseDate>
<requestURL>http%3A%2F%2Fdochost.rz.hu-berlin.de%2FOAIscript%3Fverb%3DIdentify</requestURL>
<repositoryName>Humboldt University of Berlin, GERMANY, Document
Server</repositoryName>
<baseURL>http://dochost.rz.hu-berlin.de/OAI-script</baseURL>
<protocolVersion>1.0</protocolVersion>
<adminEmail>mailto:[email protected]</adminEmail>
- <description>
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Open Archives Initiative
Archive / Repositories
Beispiele:
OAI Humboldt-Universität/ HUBerlin
http://dissertationen.huberlin.de/oai/HUBerlin.html
Service Provider
Beispiele:
Suche in den OAI-Metadaten des Dokumentenservers der
Humboldt-Universität
http://edoc.hu-berlin.de/suche.html
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Standards, Communities, Open Archives
Spezieller Suchanspruch für Spezialfächer steht einem
generalisiertem Suchanspruch gegenüber
•
Communityspezifische Dublin Core Interpretationen
•
Spezielle DC-Qualifier
•
Spezielle Setdefinitionen / Klassifikationsschemata für
unterschiedliche Communities nutzbar
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
OAI Service Provider
• OAI Prinzipien/ Strategie
· weltweite Zusammenführung aller wiss. Archive
· freier Zugriff auf diese Archive / Metadaten
· einheitliche Schnittstellen für Archive und Service
Provider
• Service Provider
· stellt Service nach „außen“ zur Verfügung
· muss HTTP- Anfragen an Dataprovider generieren und XML
auswerten können
· muss Metadaten zwischenspeichern
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
OAI Service Provider : Prinzip und Struktur
Archiv 1
Archiv 2
Archiv 3
SQL DB
OAI Protokoll
Erfassung der
Metadaten
OAI Service
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
DINI Service Provider: Architektur
„Metadaten
speichern“
HTTP-Server
PHP
HTTPAnfrage
Admin
XMLAntwort
DBS
Data-Provider
SQL
Vorverarbeitung
DINI Service-Provider
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
DINI Service Provider: Architektur
Suche nach
Dokument
HTTP-Server
Benutzer
Metadaten des
Dokumentes
SQL
DBS
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
PHP
DINI Service Provider: Probleme
· Normalisierung
Sprache (ger, de, deutsch, german, ...)
Datum (2001-11-26, 2001, 2001-xx-xx, Nov-11-2001)
· Multi-Value-Attribute
Autor, URL, ...
· Set-Definitionen
unterschiedliche Semantik
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
DINI Service Provider: Anpassung


Aufwand hängt von folgende Faktoren ab :
– Art der Archive
– Einheitlichkeit der Set-Benennungen
– Berücksichtigung von Metadatensätzen
Hinzufügen neuer Archive
– sehr geringer Anpassungsaufwand
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
DINI Service Provider: Suchmaschine
· Suchmaschine
http://www.dini.de/oaisuche/index.php
· Email
[email protected]
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Service Provider: Suchmaschinen
• Arc
http://arc.cs.odu.edu/
• physdoc
http://www.physnet.uni-oldenburg.de/oai/query.php
• EKU Tuebingen
http://cm1.zdv.uni-tuebingen.de/portal/index.jsp
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Open Archives Forum
Unterstützung Offener Archive in Europa
• Projekthintergrund
• Projektziele
• Umsetzungsstrategien
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Facts
Finanzierung:
Europäische Union,
Information Society Technologies (IST) Programme
Projektstart: 1. Oktober 2001 (Laufzeit 2 Jahre)
Partner: UKOLN, University of Bath
IEI-CNR, Pisa
Humboldt-Universität, Berlin
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Interesse der EU
 vorbereitende, begleitende, unterstützende Maßnahme
 Europäische Sicht auf Open Archive-Aktivitäten
Promotion
Know-how bündeln
Networking
Beeinflussung der aktuellen Entwicklungen
Sicherung der europäischen Perspektive
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Projektziele
Bestandsaufnahme
• Sammlung und ständige Aktualisierung des Wissensstandes zu
Historie, Konzepten, Technologien, ...
• Nachweis der europäischen Erfahrungen mit der OAI-Spezifikation
 Grundlage für die kritische Analyse des Potentials von OAI
• Informationsportal für Aktivitäten zu OAI in Europa generell und in
Bezug auf die OAI schaffen
• Kritische Begutachtung von Herangehensweisen, Standards und
Technologien auf ihre Anwendbarkeit und Grenzen hin
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Projektziele
Zusammenarbeit aufbauen und unterstützen
• Unterstützung von Projekten und nationalen Initiativen
• Schaffung von Foren zum Erfahrungsaustausch bzgl. Initiativen
und Technologien im Bereich digitaler Archive
• Förderung der Bildung europäischer und fachspezifischer
Interessensgemeinschaften
• Werben für die gemeinsame Erstellung / Nutzung von Software,
Tools, Metadaten-Standards
• Motivieren zur Bildung neuer digitaler Archive und darauf
aufbauender Dienste
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Projektziele
Bildung einer technologischen Infrastruktur fördern
„low-barrier-interoperability“
• geringe Kosten
• niedrige Eintrittsbarrieren für den Austausch zwischen Systemen
• Skalierbarkeit des verteilten Suchens
• Interoperabilität zwischen verteilten Archiven
durch
• Schaffung einheitlicher aber flexibler Schnittstellen für den
Austausch unterschiedlicher Metadatenstandards,
Übertragungsprotokolle und Zugriffsstrategien
• Erkundung weiterer / neuer Möglichkeiten
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Projektziele
Zu Entstehung neuer digitaler Archive und darauf
aufbauender Dienste / Geschäftsmodelle motivieren
• Öffnen kultureller Ressourcen
• Potential für neue Dienstleistungen erkennen
• Verwertung kommerzieller Möglichkeiten
• Herbeiführung weiterer Entwicklungsergebnisse
• Hilfe für europäische Teilnehmer, ein Netzwerk für zukünftige
Grundsatzentscheidungen zu bilden
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Partner / Zielgruppe
Wer wird einbezogen?
• Institutionen zur Wahrung des Kulturerbes
• Forschungsorganisationen
• Bereich öffentlicher Bibliotheken
• Dienste des Gemeinwesens
• Kommerzieller Bereich
• Bildungssektor
Als service provider:
Als data provider:
• E-print-Anbieter
• Mehrwertdienste
• Etablierte Metadaten-Datenbanken
• Neue data provider
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Umsetzungsstrategien
„Organisational Validation“
Standpunkt der
Endnutzer
Motivation der
Implementatoren
Überprüfung der Stichhaltigkeit des OAI-Modells
Analyse offener Probleme
Empfehlungen für Geschäftsmodelle
aufbauend auf Implementationserfahrungen
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Umsetzungsstrategien
„Technical Validation“
• Inventur der Software-Werkzeuge
• Register austauschfähiger Systeme
• Implementierungs-Datenbank
• Auswertung der OAI-Erfahrungen
• Bericht der technischen Probleme, die im europäischen Kontext
entstehen
• Empfehlungen für verteilte Software-Entwicklung
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Umsetzungsstrategien
„Dissemination“
• Erstellung einer webbasierten Informationsquelle
• Gemeinsame Sprache, gemeinsames Wissen schaffen
• Schaffung von Informationsstrukturen
• Verbesserung der globalen Zusammenarbeit
• Optionen und Empfehlungen für die Aufrechterhaltung der OAFInformations- und Nachrichtendienste nach Ablauf des Projektes
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Umsetzungsstrategien
„Workshops“
• Vier Workshops, verteilt auf zwei Jahre in Pisa, Berlin, Bath und
einer weiteren europäischen Stadt
• Forum für den Erfahrungsaustausch zwischen europäischen
Initiativen
• Problem- oder nutzergruppenspezifisch organisiert
• Zuarbeit durch Expertisen und Erfahrungsberichte im Umgang mit
OAI-Implementationen und weiteren Ansätzen für offene Archive
• Berichte über das Potential von OAI durch bereichsspezifische
Experten (~ Museen, Verleger, Bibliotheken, Archive,
wissenschaftliche Gemeinschaften, ...)
• Veröffentlichung neuer Ergebnisse / Agenda für weitere Analysen
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
OAF - Humboldt-Universität
Möglichkeit, aktiv
• an der Gestaltung von Standards im Bereich digitale Bibliotheken
mitzuwirken,
• an der Entwicklung anderer zu partizipieren,
• sich selbst im Prozess der Entwicklung digitaler Bibliotheken zu
positionieren
Aufgabe im Projekt: v.a. technische Evaluation von
Schnittstellen und Standards auf dem Gebiet der Offenen Archive
 Solider und zukunftssicherer Aufbau eines entsprechend
gemeinsam zu gestaltenden Serviceangebotes von Bibliothek und
Rechenzentrum in der Bereitstellung digitaler Ressourcen
(elektronische Publikationen, Mediendatenbanken, Lehrmaterialien)
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang
Noch Fragen?
Herzlichen Dank für Ihre
Aufmerksamkeit!
Susanne Dobratz
[email protected]
Jing Yuan Wang
[email protected]
Birgit Matthaei
[email protected]
RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang