TeXDocC Ein gemeinsames Projekt der SUB Göttingen und der Universität Duisburg-Essen geleitet von Elmar Mittler and Günter Törner Übersicht: • TeXDocC als Dienstleistung im Rahmen der deutschen Bibliothekslandschaft (Thomas Fischer) • Der technische Aufbau und die Leistungen des TeXDocCServer bei Präsentation und Archivierung (Sebastian Pokutta) Frankfurt, 10. 5. 2005 2 TeXDocC als Dienstleistung im Rahmen der deutschen Bibliothekslandschaft Thomas Fischer Forschung & Entwicklung Niedersächsische Staats- und Universitätsbibliothek Göttingen Frankfurt, 10. 5. 2005 3 Visionen: • Einrichtung eines Dokumentenservers ähnlich dem arXivPreprintserver (http://arXiv.org, vorwiegend Physik) für TeX-Dokumente • Qualitätsstandards für eine Kultur der elektronischen wissenschaftlichen Veröffentlichung zu formulieren und zu fördern. • Aufbau eines Archivsystems für TeX Dokumente • Bereitstellung eines interaktiven Prüfsystems für TeX/LaTeX Dokumente Frankfurt, 10. 5. 2005 4 Erfahrungen I: Das DissOnline Projekt Das DissOnline Projekt stellte einen Rahmen bereit für die Annahme von Dissertationen im digitalen Format. Das umfasst: • Ein Metadatenformat und ein Formular, in dem die nötigen Informationen eingetragen werden können (My MetaMaker for Theses) • Ein Arbeitsablauf für die offizielle Behandlung elektronischer Dokumente (durch Universitätsbibliotheken) • Der Aufbau eines Netzwerks und eines zentralen Speichers (DDB) für elektronische Dissertationen Frankfurt, 10. 5. 2005 5 Erfahrungen I: Das DissOnline Projekt (Forts.) Dies funktioniert prinzipiell (es gibt manchmal Probleme mit der Verfügbarkeit von Metadaten und dem komfortablen Auffinden der Dokumente). Aber: Spezielle mathematische Bedürfnisse werden nicht berücksichtigt: • Keine MSC-Klassifizierung • Nicht auf TeX-Dokumente eingestellt Dies ist aber der erste umfassende Rahmen für die Annahmen digitaler Dissertationen in Deutschland. Frankfurt, 10. 5. 2005 6 ErfahrungenII: Das Projekt MathDiss International Dieses Projekt hat gerade die spezifischen mathematischen Bedürfnisse zum Ausgangspunkt. Partner waren die Universität Duisburg und die SUB Göttingen Grundlegende Ziele: • Aufbau einer Kollektion aller mathematischen Dissertationen aus deutschspracheigen Ländern (und darüber hinaus) • Optimierung der Bereitstellung dieser Sammlung für MathematikerInnen Das heißt insbesondere: • Browsing entlang der MSC-Klassifikation, • TeX-Quellcode bereitstellen (wenn verfügbar), • Optimierung der Dokumente für die Handhabung (packen, komprimieren). Das Ergebnis ist unter: http://MathDiss.MathGuide.de/ verfügbar Frankfurt, 10. 5. 2005 7 Erfahrungen II: Das Projekt MathDiss International (Forts.) Ergebnisse: • Recht vollständige Sammlung der mathematischen Dissertationen, nach MSC klassifiziert • Dokumente vorwiegend ohne den primären TeX-Code, statt dessen abgeleitete Formate wie PostScript, DVI, oder – meistens – PDF • PDF-Format der Dokumente von höchst unterschiedlicher Qualität Gründe: • TeX ist nicht einfach zu handhaben (keine einzelne Datei, spezielles Programmsystem nötig) (Die vorhandenen TeX-Dokumente wiesen erhebliche Mängel auf – fehlende Styles oder andere Zusatzdateien, Makros etc. Im allgemeinen ließen sich die TeX-Dokumente nicht einfach kompilieren – und manche überhaupt nicht.) • Die Bibliotheken, die die Dissertationen bearbeiten, sind auf TeXDokumente nicht eingestellt (weder was die technische Ausstattung noch was die Erfahrung betrifft). • Die PDF-Erstellung mit TeX ist meistens nicht optimiert. Frankfurt, 10. 5. 2005 8 Erfahrungen II: Konsequenzen • Bereitstellung eines Dienstes, der AutorInnen darin unterstützt „besseres“ TeX zu produzieren (Standards, „Kultur des elektronischen Publizierens“) • Bereitstellung eines Dienstes, der Bibliotheken dazu befähigt, TeX Dokumente zu handhaben • Alles dies mit minimaler menschlicher Intervention • Und mit der bestmöglichen Darstellung der Dokumente sowohl im Druck als auch auf Bildschirmdarstellung Frankfurt, 10. 5. 2005 9 Erfahrungen III: Emani (Kurzfassung…) Kommerzielle Anbieter elektronischer Zeitschriften, Bücher, Datenbanken etc. müssen langfristige Verfügbarkeit garantieren. Kunden vertrauen eher traditionellen Bibliotheken als den Versicherungen der einzelnen Verlage • Langfristige Verfügbarkeit kommerzieller digitaler Angebote sichern • Zukunftsfähiges Format wählen • Vertrauenswürdige Archive mit standardisierter Bearbeitung digitaler Dokumente aufbauen Emani plant den Aufbau solcher Archive in Zusammenarbeit mit bedeutenden Bibliotheken aus vier Ländern von drei Erdteilen. Die Analyse digitaler Quellen von Springer-Zeitschriften hat gezeigt: • Um die von den TeX-Dokumenten benutzten Umgebungsdaten zu verwalten ist eine komplexe Infrastruktur ist nötig. Frankfurt, 10. 5. 2005 10 TeXDocC als Vermittler TexDocC versucht zwischen verschieden Gruppen zu vermitteln: • AuthorInnen von TeX Dokumenten werden bei der Erstellung von „gutem“ TeX durch Bereitstellung von Vorlagen und Werkzeugen unterstützt. • Bibliotheken werden befähigt, TeX ebenso wie PDF-Dokumente zu behandeln: automatisierte Prüfung, Validierung, Kompilierung und Konvertierung von TeX. • Für Archive: müssen die technischen Probleme bei der Verwaltung von TeX-Dokumenten gelöst werden. (Die Archive werden eventuell auch von oder mit den Bibliotheken betrieben.) • Für alle werden Informationen und ein Diskussionsforum zu TeXFragen bereitgestellt. Frankfurt, 10. 5. 2005 11 Der Gebrauch von TeXDocC Wir gehen davon aus, dass die verschiedenen Gruppen TeXDocC auf verschieden Weise nutzen werden: • TeX-AutorInnen fangen mit einer Standard-Vorlage für eine (La)TeXUmgebung an und benutzen gegebenenfalls bereitgestellte Werkzeuge um einen Artikel, eine Dissertation oder ein Buch zu schreiben. Das fertige Produkt wird von Ihnen validiert und archiviert. • BibliothekarInnen nehmen TeX-Dissertationen an, validieren sie (nach Vorprüfung durch den/die AutorIn), archivieren die TeX-Version und erhalten eine PDF-Präsentation für die Weiterarbeit (z.B. Druck). • Für die Archivierung elektronischer Zeitschriften werden spezielle Umgebungen erstellt: Für Verlag, Zeitschrift, Jahr, Band, Ausgabe müssen die benötigten „Styles“ zusammengeführt werden (möglichst in einem hierarchisch oder objekt-orientiert strukturierten System). Frankfurt, 10. 5. 2005 12 Metadaten Die benötigten Metadaten sind recht komplex. Sie werden benötigt für • Beschreibung für die Recherche nach den archivierten Objekten • Identifikation der benötigten TeX-Umgebung • Handhabung der archivierten Objekten im Langzeitarchiv (Archivierungs- und Bewahrungsmetadaten) Frankfurt, 10. 5. 2005 13 Metadaten II Das Datenmodel ist noch nicht endgültig festgeschrieben. Die Grundidee ist, einen flexiblen und erweiterbaren Satz von Metadaten zu benutzen. • Einfache Basisdaten für einzelne Artikel • Erweiterte Daten für offizielle Dokumente (z.B. Dissertationen) • Erweiterungssatz für technische Metadaten Um Barrieren gegenüber Metadatenformularen (Faulheit?) zu überwinden, gibt es eine automatisierte Unterstützung bei der Metadateneingabe: • Auslesen der Metadaten aus dem abgegebenen Dokument, wenn möglich • Persönliche Metadaten müssen nur einmal eingegeben werden • Technische Metadaten (für TeX und Archivierung) werde automatisch bei der Eingabe des Dokumentes erzeugt Frankfurt, 10. 5. 2005 14 Der aktuelle Stand Die Arbeit ist noch nicht abgeschlossen. TeXDocC ist im Internet verfügbar unter http://www.TeXDocC.org/ and http://www.TeXDocC.de/ TeXDocC ist weitgehend zweisprachig (richtet sich nach Browsereinstellung, kann auch gewählt werden) • Information über TeX und TeX-Programme • Validierung von TeX-Dokumenten • (Proto-)Archivierung von TeX-Dokumenten. Frankfurt, 10. 5. 2005 15 Vielen Dank für Ihre Aufmerksamkeit! Thomas Fischer SUB Göttingen [email protected]