Archivage
Le processus de l'archivage se compose de deux éléments. D'une part, il s'agit du système Ingest, qui prépare les données pour l'archivage et assure que les informations descriptives qui les accompagnent (métadonnées) soient également à disposition. D'autre part, il s'agit du système d'archivage lui-même (mémoire), dans lequel sont stockées les publications numériques avec leurs métadonnées. Il est important que les métadonnées soient aussi répertoriées dans un catalogue qui soit à disposition des utilisateurs/trices.
OAIS
Pour réaliser un système d'archivage d'informations électroniques, la Bibliothèque nationale suisse (BN) suit le modèle de référence pour un système ouvert d'archivage d'informations (OAIS) élaboré par le Consultative Committee for Space Data Systems.
Ingest
On appelle processus Ingest, le processus allant de la prise en charge des données du fournisseur ou de la source de données accessible par Internet jusqu’au stockage dans le système d'archives.
Harvesting
Le harvesting désigne la collecte de sites web de l'Internet. Au moment du harvesting, des programmes spéciaux tournant en général sur un serveur font en sorte que tous les liens partant d'une page de départ soient suivis et que les fichiers se trouvant dans le domaine de collection défini soient téléchargés.
Gestion de la qualité
Une gestion fiable de la qualité des sites web ne peut être obtenue qu'à l'aide d'un instrument technique qui analyse en détail les documents recueillis et signale d'éventuelles erreurs. Il est prévu de développer un tel instrument dans le cadre de IIPC (International Internet Preservation Consortium). En attendant que cet instrument puisse être utilisé, la gestion de la qualité doit inévitablement être faite manuellement, si bien qu'elle ne pourra être que rudimentaire.
La gestion de la qualité ne vise pas à contrôler la qualité d'un site web dans l'Internet, mais la qualité du processus de collecte.
Pour l'instant, la BN entrepose les sites web recueillis dans un environnement web fermé et y accède pour procéder à des contrôles manuels systématiques.
Avec l'arrivée prévue d'une nouvelle génération de harvesters pour la collecte des sites web, qui va de pair avec l'introduction du format amélioré de données WARC (Web Archive), spécifiquement développé pour la conservation de sites web, les possibilités de contrôle vont nettement s'améliorer. Les outils futurs, qui sont en cours de développement, se basent directement sur le format WARC.
Le processus de la gestion de qualité est décrit dans la notice Archivage d’Archives Web Suisse.
Métadonnées
La BN n'a pas développé sa propre structure de métadonnées, mais elle utilise des formats existants en XML. Elle n'a donc pas besoin de s'investir pour développer la structure de métadonnées. Pour la structure interne de métadonnées, la BN utilise le container METS, qui est tenu à jour par la Library of Congress. MARCXML est intégré dans ce container pour les données bibliographiques. MARCXML est également tenu à jour par la Library of Congress et il est compatible avec MARC21, la structure de métadonnées de Helveticat. Dans le schéma «Preservation Metadata» développé par la National Library of New Zealand, les métadonnées non bibliographiques (techniques et administratives) sont également intégrées dans le container METS.
Persistent identifiers
Un persistent identifier (identificateur univoque) doit répondre à deux besoins:
- identification univoque des documents d'archives
- renvoi stable à une source de données disponible en ligne (les liens se sont avérés très inconstants.)
La BN a décidé d'utiliser des Uniform Resource Names (URN) sous la forme de National Bibliography Numbers (NBN), car l'URN répond aux besoins énumérés ci-dessus. Dans le cadre de sa collaboration avec la Deutsche Nationalbibliothek (DNB), la BN peut utiliser le résolveur d'URN de la DNB pour transformer les URN en liens.
Stockage des données
Précédemment, l'infrastructure pour l'archivage numérique se composait de deux robots à cassettes. Cette infrastructure a été remplacée par la mémoire à long terme Ninive au début de l'année 2009. Pour l’essentiel, cette mémoire de stockage se compose d’un système NAS redondant (Network Attached Storage) de l’entreprise NetWork Appliance. Les deux composantes du système, d’une capacité de 9 TB de mémoire chacune, se trouvent à deux emplacements à Berne distants d’environ 4,5 km. Une synchronisation automatisée des données entre les deux composantes du système fait en sorte que les données stockées aux deux emplacements soient complètes. A l’emplacement secondaire, une troisième copie des données est faite sur bande magnétique via un lecteur à bandes IBM. Cette troisième copie est conservée séparément.
Dernière mise à jour le: 17.12.2010