Archivieren

Am Prozess Archivieren sind zwei Komponenten beteiligt. Zum einen ist dies das Ingest-System, welches die Daten für die Archivierung aufbereitet und sicherstellt, dass die dazugehörenden beschreibenden Informationen (Metadaten) ebenfalls zur Verfügung stehen. Zum anderen ist es das Archivierungssystem (Speicher) selber, auf welchem die digitalen Publikationen samt Metadaten abgelegt werden. Wichtig ist dabei, dass die Metadaten auch in einem Katalog verzeichnet werden, der den Benutzenden zur Verfügung stehen muss.

OAIS

Bei der Realisierung eines Systems für die Archivierung von elektronischen Informationen hält sich die Schweizerische Nationalbibliothek (NB) an das Referenzmodell für ein Offenes Archiv-Informationssystem (OAIS) des Consultative Committee for Space Data Systems.

Ingest

Der ganze Prozess der Datenübernahme vom Lieferanten oder von der über das Internet zugänglichen Datenquelle bis hin zur Einlagerung in das Archivsystem wird als Ingest-Prozess bezeichnet.

Harvesting

Das Einsammeln von Websites aus dem Internet wird als Harvesting bezeichnet. Spezielle Crawler sorgen beim Harvesting dafür, dass ausgehend von einer Startseite alle Links weiterverfolgt werden und die Dateien, die innerhalb des definierten Sammelgebiets liegen, heruntergeladen werden.

Qualitätssicherung

Eine zuverlässige Qualitätssicherung von Websites kann erst mit einem technischen Instrument vorgenommen werden, das die eingesammelten Dokumente genauer analysiert und allfällige Fehler aufzeigt. Ein solches Instrument soll im Rahmen von IIPC (International Internet Preservation Consortium) entwickelt werden. Bis dieses Instrument eingesetzt werden kann, muss die Qualitätssicherung zwangsläufig von Hand durchgeführt werden und kann deshalb nur rudimentär vorgenommen werden.
Bei dieser Qualitätssicherung geht es nicht darum, die Qualität der Website im Internet zu überprüfen, sondern die Qualität des Sammelvorgangs zu kontrollieren.
Im Moment stellt die NB die gesammelten Websites in eine in sich geschlossene Webumgebung und greift dort darauf zu, um systematisch manuelle Prüfvorgänge vorzunehmen.
Der Prozess der Qualitätssicherung ist im Merkblatt Archivieren von Webarchiv Schweiz beschrieben.

Metadaten

Die NB hat keine eigene Metadatenstruktur entwickelt. Sie profitiert von bestehenden Formaten im XML-Format. Damit entfällt auch der Aufwand für die Weiterentwicklung der Metadatenstruktur. Für die interne Metadatenstruktur verwendet die NB den von der Library of Congress gepflegten METS-Container. In diesen wird für die bibliografischen Daten MARCXML eingebettet. MARCXML wird ebenfalls von der Library of Congress unterhalten und ist kompatibel mit MARC21, der Metadatenstruktur von Helveticat. Die nicht bibliografischen (technische und administrative) Metadaten werden im von der National Library of New Zealand entwickelten Schema für «Preservation Metadata» ebenfalls in den METS-Container integriert.

Persistent Identifiers

Ein Persistent Identifier (eindeutiger Identifikator) soll zwei Bedürfnisse abdecken:
- eindeutige Identifikation des Archivguts
- stabiler Verweis auf eine online verfügbare Datenquelle (Links haben sich als sehr unbeständig erwiesen.)
Die NB hat sich entschieden, Uniform Resource Names (URN) in der Form von National Bibliography Numbers (NBN) zu verwenden, denn die URN erfüllt die oben aufgeführten Bedürfnisse. Im Rahmen ihrer Zusammenarbeit mit der Deutschen Nationalbibliothek (DNB) kann die NB den URN-Resolver der DNB mitbenutzen, um die URNs in Links umzuwandeln.

Datenspeicherung

Die frühere Infrastruktur für die digitale Archivierung bestand aus zwei Tape-Robotern. Diese wurde Anfang 2009 durch den Langzeitspeicher Ninive ersetzt. Der Langzeitspeicher Ninive besteht im Wesentlichen aus einem redundanten NAS-System (Network Attached Storage) der Firma NetWork Appliance. Die beiden Systemkomponenten mit je 9 TB Speicherkapazität stehen an zwei Standorten in Bern, welche rund 4,5 km voneinander entfernt sind. Ein automatisierter Datenabgleich zwischen diesen beiden Systemkomponenten sorgt dafür, dass die gespeicherten Daten an beiden Standorten vollständig vorhanden sind. Am Sekundärstandort wird zusätzliche über ein IBM-Bandlaufwerk eine dritte Kopie der Daten auf Magnetband erstellt. Diese dritte Kopie wird separat aufbewahrt.

Weitere Informationen

Webarchiv Schweiz : Merkblatt Archivieren, Version 1.6, 30. Januar 2015 (PDF, 1 MB, 09.02.2016)Das Merkblatt Archivieren zeigt auf, wie die von den Kantonsbibliotheken gemeldeten Websites im System der Schweizerischen Nationalbibliothek verarbeitet und aufbewahrt werden. Dabei werden folgende Prozessschritte beschrieben: das Einholen (Harvesting), die Qualitätssicherung, die Verarbeitung der Metadaten, die Zuweisung einer URN und die Datenspeicherung.


Links

Letzte Änderung 09.02.2016

Zum Seitenanfang

https://www.nb.admin.ch/content/snl/de/home/nb-professionell/e-helvetica/infos-fuer-fachpersonen/archivieren.html