Kolloqium des Rechenzentrums 19.3.2002 1. Online- Archive, Metadaten und die Open Archives Initiative: Susanne Dobratz 2. Die DINI-Suchmaschine- ein OAI Service Provider: Jingyuan Wang 3. Das Projekt Open Archives Forum: Birgit Matthaei RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Online- Archive, Metadaten und die Open Archives Initiative Inhalt: 1. Offene Archive: Probleme 2. Die Open Archives Initiative 3. Das OAI Interoperability Framework – Dublin Core Metadatenschema – OAI Protokollspezifikation 4. Standards, Communities und Open Archives RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Offene Archive • Entstehen aufgrund der aktuellen Publikationssituation in den Wissenschaften • Self-Archiving Ansätze • Probleme: – Unterschiedliche Beschreibungsformate – Unterschiedliche Übertragungsprotokolle – Unterschiedliche Zugriffsstrategien • Mangelnde Interoperabilität! • Neue Dienste sind sehr schwer zu etablieren! RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Problemsituation offener Archive: Details NSCTRL DIENST-Protokoll (Networked Computer Science Technical Reference Library http://www.cs.cornell.edu/cdlrg Cornell University) ArXiv ArXiv-Metadatensatz (Preprints, Artikel der Naturwissenschaften http://www.arxiv.org/ Los Alamos National Laboratory ) Bibliotheken MAB / MARC / USMARC Archive Findbücher EAD.dtd Museen z.B. eigene Datenbanken, (Consortium of the Computer Interchange of Museum Information-Profile) http://www.cimi.org) RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Beispiel Dublin Core Metadatensatz Beispiel: http://dochost.rz.hu-berlin.de/dissertationen/history/Luick-ThramsMichael-1997-07-02 <META NAME="DC.Type" CONTENT="Text.PhDThesis"> <META NAME="DC.Creator.PersonalName" CONTENT="Luick-Thrams, Michael"> <META NAME="DC.Title" LANG="eng" CONTENT="Creating New Americans:WWII-Era European Refugees Formation of American Identities"> <META NAME="DC.Subject" SCHEMA="RVK" CONTENT="NQ 2530, NQ 5310"> RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Probleme: Details •Metadateninterpretationen –Autor-Feld in Bibliotheken (bei MAB-Format: Feld 100) –Künstler-Feld in Museums-Datenbank •Übertragungsprotokolle –Bibliotheken: Z39.50 – Schnittstelle –NCSTRL: DIENST-Protokoll –Harvest-System: auf HTTP-Basis mit SOIFMetadatenformat RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Open Archives Initiative • Prinzipien/ Strategie – weltweite Zusammenführung aller wiss. Archive – freier Zugriff auf diese Archive / Metadaten – einheitliche Schnittstellen für Archive und Serviceanbieter • OAI-Grundregeln – – – – – netzbasiertes Serversystem, Definition einer Policy Nutzung des Dublin Core Metadatensatz OAI-spezifische XML-Syntax Spezielles Open Archive Protokoll auf HTTP-Basis http://www.openarchives.org RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang OAI: Historie • 22.10.1999 Treffen in Santa Fe , New Mexiko, USA • Santa Fe Convention for the Open Archives Initiative Feb.2000 – Arxiv / XXX Los Alamos: Paul Ginsparg – Ghent Univ. / Cornell: Herbert van de Sompel (SFX) – NCSTRL: Carl Lagoze • Workshops in den USA, Europa 1999/2000 – Protokoll Version 1.1. (02.07.2001) – Protokoll Version 2 ab Mai 2002 (aktuell im Test) RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang OAI Organisationsstruktur • Steering Committee – 12 Mitglieder, USA, UK, D – Allgemeine Politik der OAI • Executive Committee – Carl Lagoze (Cornell Univ.) – Herbert van de Sompel • Technical Committee – Erarbeitung der OAI-Spezifikation – Kontakt mit OAI-Community RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Ziel Open Archives Initiative The Open Archives Initiative has been set up to create a forum to discuss and solve matters of interoperability between preprint solutions, as a way to promote their global acceptance. Paul Ginsparg, Rick Luce & Herbert Van de Sompel RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang OAI: Data and Service Provider • Offene Archive: – Zugänglichkeit der Metadaten – Nicht! notwendigerweise freier Zugriff auf Volltexte – soll durch einheitliche aber flexible Schnittstellen erreicht werden • Service Provider – nutzen Schnittstellen um Services zu etablieren: • Suche, Navigation, Alerting-Dienste u.a. Informationsdienstleistungen RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang •Datestamp Data Provider OAI Technisches Modell e-print •ListMetadataformats •ListSets Data Provider •Identify Bilder e-print •GetRecord •Vollständige Metadatensätze RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Data Provider Data Provider Service Provider •ListIdentifiers Data Provider •ListRecords OPAC e-print Museum e-print Archiv e-print Aufbau eines OAI Archivs 1. Auswahl eines eindeutigen Identifiers Bsp.: HUBerlin, arXi, physdoc siehe http://oaisrv.nsdl.cornell.edu/Register/BrowseSites.pl 2. Implementation des Metadatenformats Records Dublin Core Set XML Transport Syntax 3. Implementation des OAi Protokolls 4. Registrierung des Archives bei der OAi RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Anmelden des Archivs bei der OAI •OAI macht einen Konformitätstest –wird regelmäßig wiederholt –XML konformität –Korrektheit der Protokollanfragen –Fehlermeldungen –Robustheit (falsche Identifier etc.) •Inhalt der Registrationsdatenbank ist öffentlich einsehbar RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang OAI Records • Header – Eindeutiger Identifier: Schüssel für Archivanfragen • oai:HUBerlin:dissertationen:kemps-christof-200006-18 – Datestamp: Datum der Erstellung, des Löschens, der letzten Modifikation eines Items • 2001-06-18 • Metadaten – Metadatenprefix – Dublin Core ohne Qualifier! RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Exkurs: Dublin Core Metadata Set • 15 Elemente zur Beschreibung von WWW-Resourcen im weitesten Sinne • Dublin Core Initiative – Bibliothekare – OCLC, ... – jährlich Workshops seit 1995 – start in Dublin/Ohio USA (Sitz OCLC) • Semantik ist defininiert • Syntax in HTML / XML mit RDF • http://www.purl.org/metadata/dublin_core • Wird von der ISO normiert RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Exkurs: Dublin Core Elemente DC.Title DC.Creator DC.Subject DC.Description DC.Publisher DC.Contributor DC.Date DC.Type DC.Format DC.Identifier DC.Source DC.Language DC.Relation DC.Coverage DC.Rights Allgemeine Grundsätze: •1. Jedes Feld ist optional •2. Jedes Feld ist wiederholbar RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang OAI Protokoll • basiert auf http-Protokoll – als cgi script imlementieren • Auswahl von sets, die abgefragt werden können (Archivspezifisch) – :dissertationen :cardiology • Ausgewählte Anfragen – ListSets, ListRecords, ListIdentifier.... • Resumption Token – Bei großen Mengen RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang OAI Implementation für Datenbankbasierte Systeme (HUBerlin) OAI-Anfrage ?verb=Identify cgi-Schnittstelle nutzt HTTP oai-Anfrage OAI-script in PHP4 Sybase/ SQL-DB sql-Anfrage OAI-Server RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang OAI Implementation für Harvest basierte Systeme (PhysDoc) Archiv 1 Archiv 2 Archiv 3 HARVEST SQL DB Normalisierung der Metadaten OAI Server RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Beispiel OAI Kompatibilität Beispiel siehe: http://dissertationen.hu-berlin.de/oai/test.html <?xml version="1.0" encoding="UTF-8" ?> - <Identify xmlns="http://www.openarchives.org/OAI/1.0/OAI_Identify" xmlns:xsi="http://www.w3.org/2000/10/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/1.0/OAI_Identify http://www.openarchives.org/OAI/1.0/OAI_Identify.xsd"> <responseDate>2001-03-21T18:05:17+01:00</responseDate> <requestURL>http%3A%2F%2Fdochost.rz.hu-berlin.de%2FOAIscript%3Fverb%3DIdentify</requestURL> <repositoryName>Humboldt University of Berlin, GERMANY, Document Server</repositoryName> <baseURL>http://dochost.rz.hu-berlin.de/OAI-script</baseURL> <protocolVersion>1.0</protocolVersion> <adminEmail>mailto:[email protected]</adminEmail> - <description> RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Open Archives Initiative Archive / Repositories Beispiele: OAI Humboldt-Universität/ HUBerlin http://dissertationen.huberlin.de/oai/HUBerlin.html Service Provider Beispiele: Suche in den OAI-Metadaten des Dokumentenservers der Humboldt-Universität http://edoc.hu-berlin.de/suche.html RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Standards, Communities, Open Archives Spezieller Suchanspruch für Spezialfächer steht einem generalisiertem Suchanspruch gegenüber • Communityspezifische Dublin Core Interpretationen • Spezielle DC-Qualifier • Spezielle Setdefinitionen / Klassifikationsschemata für unterschiedliche Communities nutzbar RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang OAI Service Provider • OAI Prinzipien/ Strategie · weltweite Zusammenführung aller wiss. Archive · freier Zugriff auf diese Archive / Metadaten · einheitliche Schnittstellen für Archive und Service Provider • Service Provider · stellt Service nach „außen“ zur Verfügung · muss HTTP- Anfragen an Dataprovider generieren und XML auswerten können · muss Metadaten zwischenspeichern RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang OAI Service Provider : Prinzip und Struktur Archiv 1 Archiv 2 Archiv 3 SQL DB OAI Protokoll Erfassung der Metadaten OAI Service RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang DINI Service Provider: Architektur „Metadaten speichern“ HTTP-Server PHP HTTPAnfrage Admin XMLAntwort DBS Data-Provider SQL Vorverarbeitung DINI Service-Provider RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang DINI Service Provider: Architektur Suche nach Dokument HTTP-Server Benutzer Metadaten des Dokumentes SQL DBS RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang PHP DINI Service Provider: Probleme · Normalisierung Sprache (ger, de, deutsch, german, ...) Datum (2001-11-26, 2001, 2001-xx-xx, Nov-11-2001) · Multi-Value-Attribute Autor, URL, ... · Set-Definitionen unterschiedliche Semantik RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang DINI Service Provider: Anpassung Aufwand hängt von folgende Faktoren ab : – Art der Archive – Einheitlichkeit der Set-Benennungen – Berücksichtigung von Metadatensätzen Hinzufügen neuer Archive – sehr geringer Anpassungsaufwand RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang DINI Service Provider: Suchmaschine · Suchmaschine http://www.dini.de/oaisuche/index.php · Email [email protected] RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Service Provider: Suchmaschinen • Arc http://arc.cs.odu.edu/ • physdoc http://www.physnet.uni-oldenburg.de/oai/query.php • EKU Tuebingen http://cm1.zdv.uni-tuebingen.de/portal/index.jsp RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Open Archives Forum Unterstützung Offener Archive in Europa • Projekthintergrund • Projektziele • Umsetzungsstrategien RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Facts Finanzierung: Europäische Union, Information Society Technologies (IST) Programme Projektstart: 1. Oktober 2001 (Laufzeit 2 Jahre) Partner: UKOLN, University of Bath IEI-CNR, Pisa Humboldt-Universität, Berlin RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Interesse der EU vorbereitende, begleitende, unterstützende Maßnahme Europäische Sicht auf Open Archive-Aktivitäten Promotion Know-how bündeln Networking Beeinflussung der aktuellen Entwicklungen Sicherung der europäischen Perspektive RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Projektziele Bestandsaufnahme • Sammlung und ständige Aktualisierung des Wissensstandes zu Historie, Konzepten, Technologien, ... • Nachweis der europäischen Erfahrungen mit der OAI-Spezifikation Grundlage für die kritische Analyse des Potentials von OAI • Informationsportal für Aktivitäten zu OAI in Europa generell und in Bezug auf die OAI schaffen • Kritische Begutachtung von Herangehensweisen, Standards und Technologien auf ihre Anwendbarkeit und Grenzen hin RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Projektziele Zusammenarbeit aufbauen und unterstützen • Unterstützung von Projekten und nationalen Initiativen • Schaffung von Foren zum Erfahrungsaustausch bzgl. Initiativen und Technologien im Bereich digitaler Archive • Förderung der Bildung europäischer und fachspezifischer Interessensgemeinschaften • Werben für die gemeinsame Erstellung / Nutzung von Software, Tools, Metadaten-Standards • Motivieren zur Bildung neuer digitaler Archive und darauf aufbauender Dienste RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Projektziele Bildung einer technologischen Infrastruktur fördern „low-barrier-interoperability“ • geringe Kosten • niedrige Eintrittsbarrieren für den Austausch zwischen Systemen • Skalierbarkeit des verteilten Suchens • Interoperabilität zwischen verteilten Archiven durch • Schaffung einheitlicher aber flexibler Schnittstellen für den Austausch unterschiedlicher Metadatenstandards, Übertragungsprotokolle und Zugriffsstrategien • Erkundung weiterer / neuer Möglichkeiten RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Projektziele Zu Entstehung neuer digitaler Archive und darauf aufbauender Dienste / Geschäftsmodelle motivieren • Öffnen kultureller Ressourcen • Potential für neue Dienstleistungen erkennen • Verwertung kommerzieller Möglichkeiten • Herbeiführung weiterer Entwicklungsergebnisse • Hilfe für europäische Teilnehmer, ein Netzwerk für zukünftige Grundsatzentscheidungen zu bilden RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Partner / Zielgruppe Wer wird einbezogen? • Institutionen zur Wahrung des Kulturerbes • Forschungsorganisationen • Bereich öffentlicher Bibliotheken • Dienste des Gemeinwesens • Kommerzieller Bereich • Bildungssektor Als service provider: Als data provider: • E-print-Anbieter • Mehrwertdienste • Etablierte Metadaten-Datenbanken • Neue data provider RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Umsetzungsstrategien „Organisational Validation“ Standpunkt der Endnutzer Motivation der Implementatoren Überprüfung der Stichhaltigkeit des OAI-Modells Analyse offener Probleme Empfehlungen für Geschäftsmodelle aufbauend auf Implementationserfahrungen RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Umsetzungsstrategien „Technical Validation“ • Inventur der Software-Werkzeuge • Register austauschfähiger Systeme • Implementierungs-Datenbank • Auswertung der OAI-Erfahrungen • Bericht der technischen Probleme, die im europäischen Kontext entstehen • Empfehlungen für verteilte Software-Entwicklung RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Umsetzungsstrategien „Dissemination“ • Erstellung einer webbasierten Informationsquelle • Gemeinsame Sprache, gemeinsames Wissen schaffen • Schaffung von Informationsstrukturen • Verbesserung der globalen Zusammenarbeit • Optionen und Empfehlungen für die Aufrechterhaltung der OAFInformations- und Nachrichtendienste nach Ablauf des Projektes RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Umsetzungsstrategien „Workshops“ • Vier Workshops, verteilt auf zwei Jahre in Pisa, Berlin, Bath und einer weiteren europäischen Stadt • Forum für den Erfahrungsaustausch zwischen europäischen Initiativen • Problem- oder nutzergruppenspezifisch organisiert • Zuarbeit durch Expertisen und Erfahrungsberichte im Umgang mit OAI-Implementationen und weiteren Ansätzen für offene Archive • Berichte über das Potential von OAI durch bereichsspezifische Experten (~ Museen, Verleger, Bibliotheken, Archive, wissenschaftliche Gemeinschaften, ...) • Veröffentlichung neuer Ergebnisse / Agenda für weitere Analysen RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang OAF - Humboldt-Universität Möglichkeit, aktiv • an der Gestaltung von Standards im Bereich digitale Bibliotheken mitzuwirken, • an der Entwicklung anderer zu partizipieren, • sich selbst im Prozess der Entwicklung digitaler Bibliotheken zu positionieren Aufgabe im Projekt: v.a. technische Evaluation von Schnittstellen und Standards auf dem Gebiet der Offenen Archive Solider und zukunftssicherer Aufbau eines entsprechend gemeinsam zu gestaltenden Serviceangebotes von Bibliothek und Rechenzentrum in der Bereitstellung digitaler Ressourcen (elektronische Publikationen, Mediendatenbanken, Lehrmaterialien) RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang Noch Fragen? Herzlichen Dank für Ihre Aufmerksamkeit! Susanne Dobratz [email protected] Jing Yuan Wang [email protected] Birgit Matthaei [email protected] RZ-Kolloqium - Open Archive Forum - S. Dobratz, B. Matthaei, J.Y. Wang