Seminar Scientific Programing, Aachen, 22.01.2013 Erarbeitung einer ersten Analyse zur Integration einer Literaturdatenbank in ein bestehendes System zur Volltextsuche Michaelags Albert des Institut für Bauforschung der RWTH Aachen University (ibac) Seminar 2013 1 Inhalt a) Vorstellung des Zwecks und Ziels der Seminararbeit b) Die beiden vorhandenen Systeme c) Die Problemstellung und erste Analyse d) kleiner Ausblick Seminar 2013 2 Das IBAC • Forschungs-und Entwicklungsinstitution auf dem Gebiet der Bauforschung • Bauwerkserhaltung und Bauwerksinstandsetzung • national und international agierend • Lehrstuhl Baustoffkunde und Lehrgebiet Bauwerkserhaltung Seminar 2013 3 Die Literaturdatenbank • Quellenfindung von Diplom-,Doktor- und sonstigen wissenschaftlichen Arbeiten des Hauses • Verwaltung des katalogisierten Bestandes der Präsenzbibliothek • Datenbank zur Bewahrung des „Wissensschatzes“ • Nachschlagen mit Hilfe bestimmter Kriterien, vor allem Stichwörtern Seminar 2013 4 Das System zur Volltextsuche • für alle digitalisierten Bestände an Dokumenten und wissenschaftlichen Arbeiten • Suchbegriffe • für Dokumente im PDF-Format • Durchsuchung der Dokumente im Volltext Seminar 2013 5 Ziel der Seminararbeit • Schaffung einer Kombination aus Volltextsuche und Literaturdatenbank • dazu: Integration der Literaturdatenbank in das System zur Volltextsuche • Gründe: - Vereinfachung der Suche - Literaturdatenbank `überholt` Der wissenschaftliche Wert der Zitatsammlung soll dabei erhalten bleiben. Seminar 2013 6 Das Programm zur Literaturdatenbank Programmoberfläche Seminar 2013 7 Das Programm zur Literaturdatenbank Seminar 2013 8 Die Literaturdatenbank • Access-basiert • Haupttabelle IBACLit • Quelle, Standort des Dokumentes, Sprache, Stichwort, Bemerkungen • Hauptbeziehungen zu Stichwort_Refs und Autor_Refs und Links über Literaturnummer Seminar 2013 9 Die Literaturdatenbank • weitere Tabellen: a) Einstellungen: Dateipfade b) Stand: letzte Aktualisierung c) Übersetzung d) Internet Seminar 2013 10 System zur Volltextsuche Seminar 2013 11 System zur Volltextsuche • • • • • Seminar 2013 Suchen in den Dokumenten Speicherung der Suchanfrage Öffnen von Dokumenten Herunterladen von Dokumenten Sicherheitseinstellungen 12 Die Datenbanken zur Volltextsuche • Lucene Datenbank zur Indizierung mit Indizierung des Volltextes • MySql Datenbank „Bibliothek“ mit Verweisen auf die eigentlichen Dateien • Verknüpfung zwischen beiden über file_id aus MySql als Fremdschlüssel in Lucene Seminar 2013 13 Die Lucene Datenbank • leistungsstarke, vollfunktionsfähige TextSuchmaschine • Indizierung des Textes aller Dateien • Indizierungsskript • Neuerstellung des Indexes bei Aktualisierung • zusätzlicher SQL-Index als Fremschlüssel Seminar 2013 14 Die MySql Datenbank • • • • Seminar 2013 Tabellen „files“, „folders“ und „Auth“ files: Dateinamen, Verknüpfung zu Lucene folders: Dateiordner, Verknüpfung mit „files“ Auth: Authentifizierungsdaten, neben IPAdresse auch Zeitstempel 15 Volltextsuche Seminar 2013 16 Änderungswunsch • • • • Literaturrecherche „veraltet“ und „überholt“ Suchen nur in den Titeln der Dokumente eingeschränkte Suchmöglichkeiten Stichwortverzeichnis der Literaturrecherche soll erhalten bleiben • System zur Volltextsuche mit Zugriff auch auf die nicht digitalisierten Bestände der Bibliothek Seminar 2013 17 Änderungswunsch Seminar 2013 18 Lösungsansatz • Ergänzung der Volltextsuche durch Stichwortverzeichnis auf Programmebene • Titel bzw. Zitate als Volltext indiziert in Lucene • Verweise auf Standort innerhalb der Bibliothek in MySql Datenbank statt Dateipfad • Erweiterung der Volltextsuche um einige Klassen, z.B. zum generieren der Verweise Seminar 2013 19 Lösungsansatz Seminar 2013 20 Ausblick • • • • Vereinheitlichung der Systeme Vereinfachung für die Mitarbeiter Umsetzung im Rahmen eines Projektes dabei: eine mögliche Überarbeitung des Systems zur Volltextsuche • zukünftig vereinfachte Pflege für die Bibliothek Seminar 2013 21 Vielen Dank für Ihre Aufmerksamkeit! Seminar 2013 22