Web@rchiv Österreich. Von der rechtlichen Basis bis zur Umsetzung

Werbung
Web@rchiv Österreich
Von der rechtlichen Basis bis zur Umsetzung
Michaela Mayr
Österreichische Nationalbibliothek
[email protected]
www.onb.ac.at
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
1
Umfeld
• Rechtliche Basis in Ö: Mediengesetz
• Mitgliedschaft beim International
Internet Preservation Consortium
• Internet Archive (www.archive.org)
USA, Gründung 1996
– Derzeit ca. 2 Petabyte Daten
– Zuwachs von 20 Terabyte/Monat
– 85 Milliarden Seiten
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
2
Eine kleine Zeitreise (1)
BKA Juli 1997
Quelle: www.archive.org
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
3
Eine kleine Zeitreise (2)
BKA Jänner 2001
Quelle: www.archive.org
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
4
Eine kleine Zeitreise (3)
BKA Februar 2007
Quelle: www.archive.org
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
5
Strategien (1)
• Domain Harvesting
– Gesamte Top-Level-Domain .at (Stand
Okt. 2008: ca. 780.000 Domains,
Quelle: nic.at)
– andere Top-Level-Domains, die
geografisch in Österreich angesiedelt
sind,
– Seiten mit Österreich-Bezug
– Durchführung 1-2mal pro Jahr
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
6
Entwicklung .at Domain
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
Quelle: nic.at
7
Strategien (2)
• Selektives Harvesting
– Ausgewählte Seiten, die häufigen
Änderungen unterliegen
– Harvesting in geeigneten Intervallen
– Inhalte:
• Medien national und regional,
• dynamische Seiten aus den Bereichen
Gesellschaft, Wirtschaft, Kultur,
Verwaltung/Behörden,
• Wissenschaft/Universitäten sowie
• experimentelle und/oder einzigartige Webseiten
zur Dokumentation von neuen Techniken (z.B. net
art).
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
8
Strategien (3)
• Event Harvesting
– Spezielle Anlässe und Großereignisse
(z.B. Wahlen)
– Webseiten, die nur für den Zeitraum
des Ereignisses zur Verfügung stehen
– Derzeit Nationalratswahl 2008
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
9
Zeitplan
• Derzeit Pilotphase (nicht öffentlich zugänglich)
Permanentes Service ab 2009
• Domain Harvesting: ab 2009
(abhängig vom Mediengesetz)
• Selektives Harvesting: ab 2009
(abhängig vom Mediengesetz)
• Event Harvesting:
– EURO 2008:
Beginn 2 Wochen vor EURO,
Ende 2 Wochen nach EURO
– Neuwahlen:
Beginn 08.07.2008 („Es reicht!“)
Ende mit neuer Regierung
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
10
Infrastruktur
• Hardware
–
–
–
–
4 Maschinen zum Harvesting
Ab 2009 weitere 2 Maschinen zur Indexierung
Ab 2009 Speicher BRZ
Zusätzliche Kopie der Daten im HochsicherheitsDatenspeicher des Bundes in St. Johann im Pongau
• Software - ausschließlich Open Source
– Sammlung: NetarchiveSuite, Crawler Heritrix
– Anzeige: Wayback Machine
– Volltextsuche: NutchWAX
• Personal
– 2,5 VZÄ
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
11
Workflow
Zeitplan /
Ereignis
Auswahl
der Seiten
Rechtevergabe
Qualitätskontrolle
Harvester
Statistik
Index
VolltextIndex
Zugriff
Archiv
Harvester
Web
Kurator
Workflow Webarchivierung
Suche
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
Zugriffsbeschränkung
Anzeige
User
12
EURO 2008
•
•
Zeitraum: 21.05.2008 - 11.07.2008
Inhalte – 78 Domains, 171 Seeds:
– Offizielle Seiten, z.B. Host Cities, Österr. Fußballbund, Ministerien,
Sicherheitskräfte, etc.
– Unternehmensseiten mit speziellen Produkten/Services – z.B.
Bahn, Post, Sponsoren
– ORF
– Sportportale
– Seiten der Nationalspieler
– private Seiten
•
•
•
•
Durchlauf täglich, sport.orf.at alle 4h
Ca. 160 GB Daten gesammelt
(inkl. Dublettenabgleich, 10 GB Logs)
Ca. 12,4 Mio. Dateien
Keine Rückmeldung von Seitenbetreibern
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
13
Verteilung nach Anzahl
video
0%
application
4%
application
audio
image
no-type
text
video
audio
0%
image
31%
text
65%
no-type
0%
• Text: HTML, CSS, XML etc.
• Application: pdf, zip, Flash,
MS Office, Javascript etc.
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
14
Verteilung nach
Speicherbedarf
video
6%
application
audio
image
no-type
text
video
application
29%
text
40%
• Text: HTML, CSS, XML etc.
audio
• Application: pdf, zip, Flash,
2%
MS Office, Javascript etc.
no-type
0%
image
23%
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
15
Nationalratswahl 2008
• Zeitraum: 08.07.2008 – neue Regierung
• Inhalte – 55 Domains / 154 Seeds:
–
–
–
–
Parteien
Ministerien, Parlament, help.gv.at
Medien: ORF, div. Tageszeitungen
Wahlblogs
• Durchlauf täglich
• Bisher ca. 102 GB Daten gesammelt
(inkl. Dublettenabgleich, 8 GB Logs)
• Ca. 7,8 Mio. Dateien
• Keine Rückmeldung von Seitenbetreibern
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
16
Verteilung nach Anzahl
video
0%
application
3%
application
audio
image
no-type
text
video
audio
0%
image
34%
• Text: HTML, CSS, XML etc.
• Application: pdf, zip, Flash,
MS Office, Javascript etc.
text
63%
no-type
0%
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
17
Verteilung nach
Speicherbedarf
video
3%
application
audio
image
no-type
text
video
application
27%
text
41%
audio
11%
no-type
0%
• Text: HTML, CSS, XML etc.
• Application: pdf, zip, Flash,
MS Office, Javascript etc.
image
18%
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
18
Demonstration
• Applikation Seedliste EURO
• Unterschiedliche Zeitpunkte:
www.em2008info.at
– Archivversion 07.06.2008
– Archivversion 15.06.2008
– Archivversion 30.06.2008
• Navigation mit Zeitleiste
• Volltextsuche
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
19
Herausforderungen
• Steigende Datenmengen
 Ressourcen
• Kurze Lebenszeit von Internet-Seiten:
durchschnittlich 44 Tage
(Quelle: Library of Congress)
 Informationsverlust
• Neue Technologien
 Reaktionszeit, Qualität
• Spam, Viren
 Ressourcen, Qualität
• Langzeitarchivierung
 Migration, Emulation?
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
20
Herzlichen Dank für Ihre
Aufmerksamkeit!
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung
15.10.2008, Österreichische Nationalbibliothek
21
Herunterladen