Website-Archivierung an der BSB

FAQs zur Web-ArchivierungFAQs zur Web-Archivierung

1. Allgemeine Informationen

In einer Pilotphase testete das MDZ der Bayerischen Staatsbibliothek die Website-Archivierung von fachlich einschlägigen Webressourcen, die im Rahmen der von der DFG geförderten Virtuellen Fachbibliotheken der BSB (b2i, Chronicon, Propylaeum, ViFaMusik, ViFaOst und ViFarom) und der Bayerischen Landesbibliothek Online (BLO), aufwändig erschlossen werden. Sie sind in den einzelnen Internetquellen-Datenbanken der ViFas nachgewiesen.

Im Januar 2012 wurde die Website-Archivierung in den Regelbetrieb überführt. Ab diesem Zeitpunkt wird die Bayerische Staatsbibliothek auch mit der regelmäßigen Sammlung, Archivierung und Bereitstellung der Websites von Behörden, Dienststellen und Einrichtungen des Freistaates Bayern beginnen. Gemäß der Bekanntmachung der Bayerischen Staatsregierung vom 2. Dezember 2008 (Az.: B II 2-480-30) zur Abgabe amtlicher Veröffentlichungen an Bibliotheken ist die Bayerische Staatsbibliothek als Archivbibliothek des Freistaates Bayern zur dauerhaften Speicherung und Bereitstellung von elektronischen amtlichen Veröffentlichungen verpflichtet. Die Sammlung der Websites durch die Bayerische Staatsbibliothek erfolgt zweimal jährlich mittels eines Harvesting-Verfahrens, ein aktives Handeln vonseiten der bayerischen Behörden und Einrichtungen ist im diesem Falle nicht notwendig. Dieses Vorgehen entspricht den Standards der Deutschen Nationalbibliothek.

Ziele und Grenzen der Website-Archivierung

Definitionen
Eine Website ist ein virtueller Platz im World Wide Web, an dem sich meist mehrere Webpages oder Dokumente (Dateien) und andere Ressourcen befinden. Diese sind unter einer http-Adresse zu erreichen. Das Internet kann als ein aktives „Publikationssystem“ bezeichnet werden, das ständig neue oder sich verändernde Inhalte produziert und in dem viele Informationen wieder verschwinden, weil sie ersetzt, verschoben oder gelöscht wurden. Zugleich wandeln sich auch die Darstellungsformen und Applikationen, mit denen die Inhalte präsentiert werden.
Ziel der Website-Archivierung ist es deshalb, (ausgewählte) Websites zu sammeln, persistent zu speichern und dauerhaft zur Verfügung zu stellen, nicht zuletzt um einem Wissensverlust durch die Abschaltung wissenschaftlich relevanter Angebote im WWW entgegenzuwirken.

Ziele
Im Rahmen der Website-Archivierung kann man grundsätzlich unterscheiden zwischen einem „domain harvesting“, das das gesamte Webangebot einer domain (z. B. *.de) umfasst, einem „selective harvesting“, das nur ausgewählte Websites speichert und dem sogenannten „event harvesting“, das das Internetangebot zu einem bestimmten Ereignis (z. B. Bundestagswahl 2009) archiviert. Das MDZ setzt derzeit ein selektives Harvesting ein.

Da sich die ständige Veränderung und Weiterentwicklung sowohl der Inhalte als auch der Darstellungsformen sehr schnell vollzieht, sind dem Ziel der Website-Archivierung Grenzen gesetzt. So wird es immer nur möglich sein, bestimmte Zeitschnitte einer Website abzubilden („Webschnitte“), z. B. die Archivierung eines Internetangebots im Halbjahres- oder Jahresrhythmus. Alle Veränderungen, die in der Zwischenzeit vorgenommen wurden, lassen sich nicht mehr nachvollziehen.

Von den Harvestern kann auch selten der gesamte Inhalt einer Website erfasst werden, da viele Inhalte dynamisch, z. B. durch eine Datenbankabfrage generiert werden („deep web“ oder „hidden web“) und somit nicht statisch zur Verfügung stehen. Auch dynamische Applikationen wie JavaScript, Flash-Angebote oder YouTube-Videos können zurzeit nicht geharvestet werden. Externe Verlinkungen werden grundsätzlich „abgeschnitten“, da die Archivierung sonst in zu großem Umfang vorgenommen würde. Die BSB setzt im Rahmen der Archivierung digitaler Objekte auf modernste Technik. Mit der reinen Speicherung der Websites allein ist es jedoch nicht getan. Der rasche technologische Wandel in der Internet-Welt lässt erwarten, dass in Zukunft ein zusätzlicher technischer Aufwand erforderlich sein wird, um ihre Nutzbarkeit zu erhalten.

2. Genehmigungsverfahren und -formular

Aus rechtlichen Gründen werden seitens der BSB nur Websites geharvestet, archiviert und bereitgestellt, für die eine explizite Genehmigung vorliegt oder die gemäß der Bekanntmachung der Bayerischen Staatsregierung vom 2. Dezember 2008 (Az.: B II 2-480-30) zur Abgabe amtlicher Veröffentlichungen an Bibliotheken als elektronische amtliche Veröffentlichungen von der BSB dauerhaft zu speichern und zugänglich zu machen sind. Deshalb wird, sofern es sich nicht um elektronische amtliche Veröffentlichungen einer Behörde, Dienststelle oder Einrichtung des Freistaates Bayern handelt, in einem ersten Bearbeitungsschritt eine Genehmigungsmail an den jeweiligen Website-Betreiber versandt. Dieser kann entweder per E-Mail dem Harvest- und Archivierungsverfahren zustimmen oder er sendet ein ausgefülltes Genehmigungsformular an die BSB zurück.

Da hier deutsches Recht geltend gemacht wird, liegen die Genehmigungsformulare ausschließlich in deutscher Sprache vor. Eine entsprechende Erläuterung in den gängigen anderen Sprachen kann aber jederzeit eingeholt werden. Erst wenn eine schriftliche Genehmigung des Website-Betreibers vorliegt (E-Mail oder Genehmigungsformular), kann der Harvest- und Archivierungsprozess gestartet werden. Wählen Sie dieses BewilligungFormblatt [PDF] für die Archivierungsbewilligung für eine Offline-Kopie einer Website oder eines Internet-Angebots.

3. Technik und Workflows

Die Bayerische Staatsbibliothek setzt für die Website-Archivierung das Web Curator ToolWeb Curator Tool ein. Die Open-Source-Software wurde von der British Library zusammen mit der National Library of New Zealand entwickelt und befindet sich auch an weiteren Institutionen seit mehreren Jahren erfolgreich im Einsatz.

Das Web Curator Tool bietet einen integrierten Bearbeitungsprozess von der Genehmigungseinholung, über den automatisierten Harvest-Prozess in bestimmten Zeit-Intervallen sowie die Qualitätskontrolle bis hin zur Archivierung.



Für einen automatischen Harvest-Prozess in bestimmten Intervallen (im Moment werden die ausgewählten Websites halbjährlich geharvestet) wird das „target“ (url) einmalig angelegt, mit dem Genehmigungsprozess verknüpft und erstmalig angestoßen. Seitdem wird von der Bayerischen Staatsbibliothek auch die regelmäßige Sammlung, Archivierung und Bereitstellung der Websites von ausgewählten Behörden, Dienststellen und Einrichtungen des Freistaates Bayern durchgeführt. Die Website wird mit dem Crawler Heritrix„Heritrix“ geharvestet, der vom Internet Archive„Internet Archive“ speziell für die Website-Archivierung entwickelt und in das Web Curator Tool integriert wurde.

Präsentation der archivierten Websites

Einerseits erfolgt eine Bereitstellung eines Website-Archivs direkt in den Virtuellen Fachbibliotheken als zusätzlicher Link zur aktuellen Website (in Vorbereitung). Andererseits macht die BSB alle archivierten Websites über ihren Katalog auffindbar und zugänglich. Katalogisiert wird das Webarchiv als intellektuelle Einheit und nicht jeder einzelne Webschnitt einer Website. Der Nutzer erhält einen Link, der ihm mittels der Wayback-MachineWayback-Machine eine chronologische Auflistung aller Webschnitte bietet, die er einzeln browsen kann.

4. Prozessbeschreibung

(Zum Vergrößern bitte auf die Grafik klicken)




V. 4.2.0

zur Homepage der BSB

dsa_logo
News 21.10.2014

Neue Digitalisate der Bayerischen Staatsbibliothek

news

Täglich aktuell: Neue Digitalisate in den Digitalen Sammlungen der Bayerischen Staatsbibliothek. Titel online: 1.049.080

[21.10.2014]

News 15.10.2014

Zum Greifen nah: Das goldene Mainzer Evangeliar in der Hofbibliothek Aschaffenburg

news

Die Hofbibliothek Aschaffenburg präsentiert vom 24. Oktober - 21. November 2014 das Goldene Mainzer Evangeliar. Der vom MDZ für die Ausstellung bereitgestellte "BSB-Explorer" ermöglicht es, ein hochauflösendes Digitalisat dieser kostbaren Handschrift des 13. Jahrhunderts vollständig zu durchblättern.

[15.10.2014]

Veranstaltung

zur Homepage des MDZ