Die Nationalbibliothek hat den gesetzlichen Auftrag, Informationen über die Schweiz zu sammeln, aufzubewahren und dieses Wissen dauerhaft bereitzustellen. Websites sind ein Teil davon – vieles wird heute nicht mehr gedruckt, sondern im Internet veröffentlicht.
Die Webarchivierung betreibt die Nationalbibliothek zusammen mit anderen Gedächtnisinstitutionen in der Schweiz. Partner sind die Kantonsbibliotheken und weitere spezialisierte Archive und Bibliotheken. Die vollständige Liste der Partner befindet sich im Grundlagenpapier zum Webarchiv Schweiz.
Webarchiv Schweiz: Grundlagen, 03.07.2024 (PDF, 257 kB, 04.07.2024)Das Grundlagenpapier beschreibt die Entstehung und das Vorgehen, den Inhalt und die Ziele, den Arbeitsablauf sowie die Organisation von Webarchiv Schweiz.
Die Nationalbibliothek macht keine Domaincrawls und speichert somit nicht jede Website mit der Endung .ch automatisch ab. Für ein solches Vorgehen fehlt die gesetzliche Grundlage: In der Schweiz gibt es kein nationales Pflichtabgabegesetz für digitale Onlinemedien. Die Nationalbibliothek verfolgt daher einen selektiven Ansatz.
Das Internet Archive ist eine Non-Profit-Organisation in San Francisco, die seit 1996 weltweit ausgewählte Websites kopiert und via Wayback Machine frei zur Verfügung stellt. Das Webarchiv Schweiz fokussiert sich auf die Dokumentation von Webinhalten mit starkem Bezug zur Schweiz, dies unabhängig davon ob sie eine .ch-Endung haben oder nicht.
Beim selektiven Ansatz besteht die Herausforderung darin, aus dem grossen Angebot eine sinnvolle und repräsentative Auswahl zu treffen. Die Auswahl der Websites treffen die Partner von Webarchiv Schweiz, d.h. die Schweizer Kantonsbibliotheken, weitere Spezialbibliotheken und -archive sowie die Nationalbibliothek selber. Jede Institution trägt mit ihrem Knowhow aus einem Fachgebiet zur Sammlung bei.
Die Websites müssen im Internet frei zugänglich sein und einen starken Bezug zur Schweiz haben. Die Auswahlkriterien sind im Merkblatt Sammeln detailliert beschrieben.
Webarchiv Schweiz: Merkblatt Sammeln, Version 2.4, 23.07.2024 (PDF, 1 MB, 07.08.2024)Das Merkblatt Sammeln enthält die Grundsätze für den Aufbau einer Sammlung landeskundlich relevanter Websites, definiert die Sammelbereiche und führt die Auswahlkriterien auf.
Sie können Ihre Website der Koordinationsstelle Webarchiv Schweiz per Email melden. Ihr Vorschlag wird geprüft und aufgrund der Sammelrichtlinien wird entschieden, ob die Website in die Sammlung aufgenommen wird.
Die Nationalbibliothek verwendet für das Kopieren der Websites einen Crawler: die Open Source Software Heritrix. Zusätzlich unterstützt die Open Source Software PhantomJS den Crawler beim Auffinden aller relevanten Links. Der Heritrix-Crawler folgt den Links innerhalb einer Webseite, sammelt alle gefundenen Dateien und kopiert sie auf den Server der Nationalbibliothek. Das Ziel ist, eine möglichst umfassende und in ihrer Darstellung korrekte Version der Website zu archivieren. Passwortgeschützte Seiten oder weiterführende Links zu externen Seiten werden nicht mitgesammelt. Eine detaillierte Beschreibung des Vorgangs kann im Merkblatt Archivieren nachgelesen werden.
Webarchiv Schweiz: Merkblatt Archivieren, Version 1.7, 19.04.2024 (PDF, 1 MB, 22.04.2024)Das Merkblatt Archivieren zeigt auf, wie die von den Partnerinstitutionen gemeldeten Websites im System der NB verarbeitet und aufbewahrt werden. Dabei werden beispielsweise folgende Prozessschritte beschrieben: das Einholen (Harvesting), die Qualitätssicherung und die Datenspeicherung.
In der Regel wird die Website alle 2 Jahre eingeholt. Weitere mögliche Sammelhäufigkeiten sind: einmalig oder alle 4 Jahre. Das Intervall ist stark von den Inhalten abhängig und kann für jede Website individuell bestimmt werden.
Diese Information verschickt die Nationalbibliothek an alle Website-Inhaber und -Inhaberinnen, deren Website für Webarchiv Schweiz ausgewählt worden ist. Die Information enthält Angaben zum Ziel, zum Kopiervorgang und zur Bereitstellung. Eine Rückmeldung ist nicht zwingend erforderlich, ausser Sie lehnen die Archivierung Ihrer Website ab.
Die Archivierung erfolgt kostenlos.
Nein, Website-Inhaber und -Inhaberinnen sind nach wie vor selbst für das Hosting ihrer Website verantwortlich. Durch das regelmässige Kopieren werden lediglich Momentaufnahmen einer Website erstellt, die einzeln archiviert und dann zu wissenschaftlichen Zwecken genutzt werden.
Sie müssen keine Vorbereitungen treffen. Auch ist es nicht nötig, die Website vor dem Kopieren zu aktualisieren. Eine ausgewählte Website wird regelmässig (alle zwei Jahre) eingesammelt. Dadurch lässt sich der Wandel einer Website über die Jahre und Jahrzehnte hinweg dokumentieren.
Der Crawler der Nationalbibliothek ist so konfiguriert, dass die Serverbelastung möglichst gering gehalten wird. Sollten dennoch technische Probleme durch das Kopieren entstehen, kontaktieren Sie bitte die Koordinationsstelle Webarchiv Schweiz. Auf Wunsch kann das Crawl-Tempo verlangsamt werden.
Geschützte Bereiche, z.B. Intranets oder private zugangsgeschützte Daten, werden vom Crawler nicht kopiert. Im Webarchiv Schweiz sind nur frei über das Internet veröffentlichte und zugängliche Inhalte vorhanden.
Werden beim Kopieren robots.txt und robots-Meta-Tags berücksichtigt, besteht die Gefahr, dass die eingeholte Website nicht vollständig und in ihrer Darstellung nicht korrekt wiedergegeben wird. Um dies zu vermeiden, werden die robots.txt und robots-Meta-Tags nicht beachtet.
Es kommt vor, dass eine Website aus technischen Gründen nicht archiviert werden kann, obwohl sie den Sammelkriterien von Webarchiv Schweiz entspricht.
Grosse Datenmengen, fehlende Inhalte oder Menufunktionen, Flash-Animationen, dynamische scriptbasierte Funktionen, Crawler Traps wie Kalender oder Landkarten können das Archivieren erschweren. Websites werden teilweise auch trotz Qualitätsmängel archiviert, damit zumindest ein Nachweis vorhanden ist. Eine optisch fehlerhafte Darstellung einer Website ist bisweilen auch auf die Defizite der Visualisierungstools, z.B. der Wayback Machine, zurückzuführen.
Ein wichtiges Merkmal einer crawler-freundlichen Website sind Links im HTML- oder XHTML-Format, die nicht in Flash oder Javascript eingebettet sind. Zudem sind alternative Navigationsmöglichkeiten über eine textbasierte Version oder eine Sitemap hilfreich. Wenn Sie an weiterführenden Informationen interessiert sind, kontaktieren Sie bitte die Koordinationsstelle Webarchiv Schweiz.
Wenn Sie Inhaber oder Inhaberin einer Website sind und von der Nationalbibliothek eine Information erhalten haben, dass Ihre Website eingesammelt und archiviert wird, können Sie sich bei der Koordinationsstelle Webarchiv Schweiz melden und Ihr Anliegen anbringen.
Die archivierten Websites können in e-Helvetica Access, dem Einstiegsportal zu den digitalen Sammlungen, per Volltext recherchiert und angezeigt werden. Aus urheberrechtlichen Gründen ist der Zugriff auf das Webarchiv nur in den Räumlichkeiten der Nationalbibliothek und der Partnerinstitutionen möglich. Jegliche Vervielfältigungsmöglichkeiten wie Speichern, Drucken usw. sind untersagt.
Das Webarchiv Schweiz dient historischen Zwecken und die archivierten Websites werden nicht kommerziell genützt. Das Webarchiv Schweiz steht den Benutzenden in den Räumlichkeiten der Nationalbibliothek und der Partnerinstitutionen unentgeltlich zur Verfügung.
Die Koordinationsstelle Webarchiv Schweiz steht für weitere Informationen zur Verfügung.