Web@rchiv Österreich Von der rechtlichen Basis bis zur Umsetzung Michaela Mayr Österreichische Nationalbibliothek [email protected] www.onb.ac.at Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 1 Umfeld • Rechtliche Basis in Ö: Mediengesetz • Mitgliedschaft beim International Internet Preservation Consortium • Internet Archive (www.archive.org) USA, Gründung 1996 – Derzeit ca. 2 Petabyte Daten – Zuwachs von 20 Terabyte/Monat – 85 Milliarden Seiten Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 2 Eine kleine Zeitreise (1) BKA Juli 1997 Quelle: www.archive.org Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 3 Eine kleine Zeitreise (2) BKA Jänner 2001 Quelle: www.archive.org Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 4 Eine kleine Zeitreise (3) BKA Februar 2007 Quelle: www.archive.org Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 5 Strategien (1) • Domain Harvesting – Gesamte Top-Level-Domain .at (Stand Okt. 2008: ca. 780.000 Domains, Quelle: nic.at) – andere Top-Level-Domains, die geografisch in Österreich angesiedelt sind, – Seiten mit Österreich-Bezug – Durchführung 1-2mal pro Jahr Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 6 Entwicklung .at Domain Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek Quelle: nic.at 7 Strategien (2) • Selektives Harvesting – Ausgewählte Seiten, die häufigen Änderungen unterliegen – Harvesting in geeigneten Intervallen – Inhalte: • Medien national und regional, • dynamische Seiten aus den Bereichen Gesellschaft, Wirtschaft, Kultur, Verwaltung/Behörden, • Wissenschaft/Universitäten sowie • experimentelle und/oder einzigartige Webseiten zur Dokumentation von neuen Techniken (z.B. net art). Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 8 Strategien (3) • Event Harvesting – Spezielle Anlässe und Großereignisse (z.B. Wahlen) – Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen – Derzeit Nationalratswahl 2008 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 9 Zeitplan • Derzeit Pilotphase (nicht öffentlich zugänglich) Permanentes Service ab 2009 • Domain Harvesting: ab 2009 (abhängig vom Mediengesetz) • Selektives Harvesting: ab 2009 (abhängig vom Mediengesetz) • Event Harvesting: – EURO 2008: Beginn 2 Wochen vor EURO, Ende 2 Wochen nach EURO – Neuwahlen: Beginn 08.07.2008 („Es reicht!“) Ende mit neuer Regierung Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 10 Infrastruktur • Hardware – – – – 4 Maschinen zum Harvesting Ab 2009 weitere 2 Maschinen zur Indexierung Ab 2009 Speicher BRZ Zusätzliche Kopie der Daten im HochsicherheitsDatenspeicher des Bundes in St. Johann im Pongau • Software - ausschließlich Open Source – Sammlung: NetarchiveSuite, Crawler Heritrix – Anzeige: Wayback Machine – Volltextsuche: NutchWAX • Personal – 2,5 VZÄ Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 11 Workflow Zeitplan / Ereignis Auswahl der Seiten Rechtevergabe Qualitätskontrolle Harvester Statistik Index VolltextIndex Zugriff Archiv Harvester Web Kurator Workflow Webarchivierung Suche Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek Zugriffsbeschränkung Anzeige User 12 EURO 2008 • • Zeitraum: 21.05.2008 - 11.07.2008 Inhalte – 78 Domains, 171 Seeds: – Offizielle Seiten, z.B. Host Cities, Österr. Fußballbund, Ministerien, Sicherheitskräfte, etc. – Unternehmensseiten mit speziellen Produkten/Services – z.B. Bahn, Post, Sponsoren – ORF – Sportportale – Seiten der Nationalspieler – private Seiten • • • • Durchlauf täglich, sport.orf.at alle 4h Ca. 160 GB Daten gesammelt (inkl. Dublettenabgleich, 10 GB Logs) Ca. 12,4 Mio. Dateien Keine Rückmeldung von Seitenbetreibern Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 13 Verteilung nach Anzahl video 0% application 4% application audio image no-type text video audio 0% image 31% text 65% no-type 0% • Text: HTML, CSS, XML etc. • Application: pdf, zip, Flash, MS Office, Javascript etc. Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 14 Verteilung nach Speicherbedarf video 6% application audio image no-type text video application 29% text 40% • Text: HTML, CSS, XML etc. audio • Application: pdf, zip, Flash, 2% MS Office, Javascript etc. no-type 0% image 23% Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 15 Nationalratswahl 2008 • Zeitraum: 08.07.2008 – neue Regierung • Inhalte – 55 Domains / 154 Seeds: – – – – Parteien Ministerien, Parlament, help.gv.at Medien: ORF, div. Tageszeitungen Wahlblogs • Durchlauf täglich • Bisher ca. 102 GB Daten gesammelt (inkl. Dublettenabgleich, 8 GB Logs) • Ca. 7,8 Mio. Dateien • Keine Rückmeldung von Seitenbetreibern Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 16 Verteilung nach Anzahl video 0% application 3% application audio image no-type text video audio 0% image 34% • Text: HTML, CSS, XML etc. • Application: pdf, zip, Flash, MS Office, Javascript etc. text 63% no-type 0% Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 17 Verteilung nach Speicherbedarf video 3% application audio image no-type text video application 27% text 41% audio 11% no-type 0% • Text: HTML, CSS, XML etc. • Application: pdf, zip, Flash, MS Office, Javascript etc. image 18% Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 18 Demonstration • Applikation Seedliste EURO • Unterschiedliche Zeitpunkte: www.em2008info.at – Archivversion 07.06.2008 – Archivversion 15.06.2008 – Archivversion 30.06.2008 • Navigation mit Zeitleiste • Volltextsuche Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 19 Herausforderungen • Steigende Datenmengen Ressourcen • Kurze Lebenszeit von Internet-Seiten: durchschnittlich 44 Tage (Quelle: Library of Congress) Informationsverlust • Neue Technologien Reaktionszeit, Qualität • Spam, Viren Ressourcen, Qualität • Langzeitarchivierung Migration, Emulation? Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 20 Herzlichen Dank für Ihre Aufmerksamkeit! Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 21