Le texte ci-dessous est un compte rendu de la journée annuelle du «DasSCHCon 2025 - Cultural Institutions in the Digital Age. The Future of Infrastructures», par Enrico Natale (infoclio.ch). ll fait partie d’une série de billets consacrée à l’actualité de l’Open Data dans les sciences humaines et sociales en Suisse, produite à l’occasion du colloque infoclio.ch 2025 «Open Science in History». La série présente divers projets récents, signale des ressources accessibles en ligne et propose des réflexions sur le sujet.
Le Swiss National Data and Services Center for Humanities (DaSCH) a organisé sa conférence annuelle le mercredi 15 octobre au Musée pour la Communication à Berne. La salle de conférence, installée dans des espaces d'exposition temporaire en cours de réaménagement, se prêtait bien au thème de la journée: The Future of Infrastructures. Le programme et un book of abstracts sont disponibles en ligne.
DaSCH est une institution nationale financée par le Fond national suisse qui met à disposition un repository pour les données numériques à long terme. Plusieurs projets y sont conservés. Les données sont interconnectées et répondent au standard FAIR. DaSCH est également l'hôte du bureau national suisse (Dariah-CH) du projet européen Dariah.
Matteo Romanello & Thomas Hänsli (SARI) - Building an Open Research Data Environment for the Arts (ORDEA) : Use Cases, Insights, and Results
L'objectif de ce projet est de simplifier l'utilisation et la réutilisation d'ontologies dans les disciplines de l'histoire de l'art et de compléter le standard de données CIDOC-CRM, largement utilisé dans les musées. Ce dernier est utile pour organiser l'information autour des objets, mais la représentation des interprétations, des attributions, et leurs évolutions dans le temps reste problématique. D'où le projet AAAo - Art and Architectural Argumentation Ontology. Parallèlement, en partant du standard bibliographique FRBR, CPRo: Creative Process Representation Ontology permet de modéliser la naissance et l'histoire des concepts à partir de références bibliographiques.
Comment ensuite rendre ces ontologies utilisables ? Le Semantic Reference Data Model est une proposition de méthode et un processus de documentation pour utiliser les ontologies dans le travail de recherche. Les auteurs ont développé une quinzaine de modèles qui se prêtent au réemploi par les chercheurs sans que ceux-ci doivent comprendre le détail des ontologies utilisées. Pour se faire une idée pratique, les intervenants invitent à visiter le gta research portal, un exemple concret de modélisation et d'exposition des données sur le web dans un format linked open data.
Enfin, alors que les processus d'enrichissement automatique ou semi-automatique des données via les modèles génératifs se généralisent, survient la nécessité de documenter ces enrichissements. Cette documentation présente un enjeu épistémologique pour retracer de manière transparente la provenance des données. Le projet de recherche de Matteo Romanello a consisté à développer une méthode générique de documentation de l'enrichissement sémantique des données, qui inclut les modèles utilisés, et le niveau d'exactitude de la prédiction générée.
Heike Bazak (PTT Archive & Museum of Communication) - Overcoming boundaries: A report on the project and operation of the Onlineportal – PTT-Archiv & Sammlungen Museum für Kommunikation
Heike Bazak présente le nouveau portail d'accès aux collections du Musée de la communication et archives des PTT. L'objectif du portail est d'aller au-devant de publics variés. Après avoir réalisé lors de l'épidémie de COVID l'importance de l'accès à distance aux collections du musée et des archives, un grand travail d'interface a été mené pour proposer un accès qui invite à la découverte, donne accès aux collections et permette aussi la participation du public. Le nouveau catalogue général permet ainsi d'accéder à trois type de données: les collections du musées, les archives des PTT - y compris leur collection d'interviews et d'histoire orale - et le catalogue de la bibliothèque. Toutes les données ont été migrées vers le standard Records in Context (RiC), puis stockées dans un "triple store" qui permet de leur interconnexion. L'interface, qui évolue au fur et à mesure de la navigation parmi les différentes sources de données, est unique en son genre.
Parmi les difficultés rencontrées, elle mentionne le coût de développement d'une solution sur mesure, qui dépasse le budget de fonctionnement normal de l'institution et a requis des financements externes. Un autre défi est la coordination entre les différentes équipes et personnes impliquées.
Christiane Sibille & Michael Gasser (ETH Library) - Transforming Infrastructures in the age of AI
En partant d'une relecture d'un article des années 2000 sur les bibliothèques numériques (Digital Libraries - Stituating Us in changing Information Infratructure), Gasser et Sibille soulèvent quatre points de réflexion sur les infrastructures numériques dans les bibliothèques de recherche qui sont selon eux toujours pertinents dans le contexte actuel, caractérisé par le machine learning et les modèles génératifs de langage.
Le premier point concerne les outils et les publics: il s'agit de maintenir les outils et les services proposés aux usagers et de les développer au moyen de nouvelles technologies. Le deuxième point concerne l'évolution des pratiques de recherche: une demande croissante se fait sentir pour un accès machinique au données (APIs, Juypter Notebooks), qui implique de nouvelles compétences au sein de la bibliothèque, en particulier dans les domaine de l'informatique et des mathématiques. Sur le troisième point, l'épistémologie des données, les formats de données évoluent: de Alto-XML, on passe plutôt au Markdown: moins d’étiquetage, plus d'annotations.
Le dernier point concerne l'organisation: il faut des experts de données, mais aussi des étudiants spécialisés prêts à retranscrire des textes écrits en Fraktur, l'écriture gothique allemande utilisée jusqu'au début du 20e siècle, pour produire les exemples nécessaires (ground truth) pour l'apprentissage automatique des machines. Du point de vue des infrastructures techniques, il faut des modèles génératifs de langage, des bases de données, et beaucoup de puissance de calcul pour traiter des volumes massifs de données, ce qui implique des coûts importants, aussi bien financiers qu'énergétiques et environnementaux.
Pour répondre à ces nouveaux défis, la bibliothèque de l'ETH développe de nouveaux pipelines pour la reconnaissance et l'extraction automatique des entités nommées, ou pour la transformation d'images en collections de données (images to datasets). Parmi les nouveaux développements, un modèle de reconnaissance d'écritures manuscrites, ou encore un générateur de résumés textuels sur la base de données structurées, un projet qui va dans la direction inverse à la tendance qui consistait à structurer et détailler au maximum les données.
L'intervention se termine par un appel à davantage d'ouverture, de transparence, de responsabilité, et d'explicabilité, et une invitation à réfléchir collectivement à ce qui caractérise un usage responsable de l'AI pour les bibliothèques de recherche.
Moritz Mähr & Moritz Twente (Stadtgeschichte Basel) - A Long-Term Archival Pipeline for the Forschungsdatenplattform Stadt.Geschichte.Basel
Issus de l'équipe du projet Stadt Geschichte Basel, commencé en 2011 et doté d'un volet numérique important, les intervenants discutent de l'organisation et de la préservation à long terme des données des recherches. Les données regroupent les publications, mais aussi des tableaux et graphiques, des données géographiques, ainsi que du code sources. Elle sont regroupées sur un site dédié.
Pour assurer leur disponibilité à long terme (au-delà de la durée du projet), une collaboration avec DaSCH a été engagée. Comme les modèles de données diffèrent, il a fallu transformer les données, en partant du système OMEKA utilisé par Stadt Geschichte Basel, pour arriver au modèle de données de DaSCH. Le dépôt des données via l'API de DaSCH a été coûteuse en temps et en ressources, l'alternative consistant à utiliser l'outil de data dump développé par DaSCH n'étant pas praticable dans ce cas. La documentation est disponible sur le compte GitHub et sur un site de documentation de Stadt Geschichte Basel.
Baptiste de Coulon (Fondation SAPA, Archives suisses des arts de la scène) - Mise en en œuvre d’un modèle de données ouvert
La Fondation SAPA s'occupe conserve les Archives suisses des arts de la scène et fonctionne aussi comme centre de compétence pour la préservation des archives des arts de la scène en Suisse.
La fondation SAPA travaille sur un modèle ouvert de données liées depuis plus de dix ans, mis en production depuis 2021. Pour l'intervenant, les modèles ouverts de donnée sont un fort garant d'autonomie et d'indépendance pour une institution. Établir un modèle de donnée ouvert implique tout d'abord de comprendre la nature d'un modèle de donnée et de connaître les caractéristiques des ses propres données. Il constate que la plupart des institutions sont captives de logiciels qui leur font perdre leur souveraineté sur leurs données. A l'inverse, dans un modèle entièrement ouvert, l'institution maîtrise l'ensemble du processus.
Le modèle s'appelle RDF SPA Data Model. Le modèle de donnée est public, et lisible à la fois dans un format machine et par les humains. L'accès se fait via un SPAQL endpoint, mais aussi via un code d'identification Wikidata. Les données sont naturellement aussi accessible aussi via l'interface grand public.
En conclusion, le modèle de données ouvertes liées facilite le transfert d'information lors de changements de prestataires externes, dont les travaux sont documentés via une plateforme GIT. La souveraineté sur le modèle de donnée permet aussi de multiplier des projets ponctuels avec différents prestataires. Les données sont ainsi indépendantes des programmes mais aussi des équipes. Cela nécessite cependant un important travail de conviction auprès des équipes à l'interne, qui doivent se plier au modèle de données, et perdent en marge de manœuvre.
Fabrice Tereszkiewicz (Astrom / Zimmer & Tereszkiewicz) - 3MS Framework
Azt.ch, issu du secteur privé, est le prestataire de service qui a développé l'interface mentionnée ci-dessus pour le Musée de la communication. L'intervenant constate au sein des institutions patrimoniales une inflation quantitative des données, souvent gérées de manière disparates, sur différents serveurs et dans différents formats. Il présente le 3MS Framework, une suite d'outils pour gérer ces masses de données.
Il constate également que les institutions développent des pipelines de travail et d'enrichissement de données, qui ajoutent encore plus de données à des données existantes. Elles développent alors des "knowledge graph", et des "SPARQL endpoint" pour accéder à ces données, des outils destinés en premier lieu aux informaticiens et qui dépassent très souvent les compétences de la plupart des chercheurs, qui ne les utiliseront pas.
Leur offre ajoutée consiste donc à développer des modes d'accès simplifié à des ensembles de données complexes qui les rende facile à représenter dans une interface de recherche ou de consultation, et à développer des listes de résultats facilement filtrable et consultables. Sur la base de ces sous-graphes simplifiés, ils peuvent développer différents services comme services de commande de documents, authentification, etc.
Iolanda Pensa (SUPSI) - Visualising GLAM-Related Content on Wikipedia
The Wikiverse, terme utilisé pour désigner l'ensemble des services de la galaxie Wikipedia, est une expérience historique unique et le seul site parmi les sites les plus visités au monde à être entièrement collaboratif et financé par des donations. De nombreuses institutions patrimoniales collaborent désormais à Wikipedia; la pratique habituelle consistant à exposer leurs données dans le domaine public sur les sites de la plateforme, soit directement, soit à travers des wikipedians en résidence.
L'intervenante donne l'exemple du projet Wikipedia e scuola italiana, développée pendant l'épidémie de COVID, qui permet de visualiser le niveau de complétude et de longueur des articles Wikipédia sur différents sujets, pour aider les enseignants qui souhaitent s'appuyer sur l'encyclopédie dans leur enseignement à choisir les articles.
Karin von Wartburg (Vitrocentre Romont) - Vitrosearch: An Open Access Platform for Glass Art Research
Le Vitrocentre Romont est une infrastructure nationale de recherche pour le vitrail et les arts du verre, fondé en 1988 et lié à l'université de Fribourg. Leur base de donnée, Vitrosearch, utilisée à la fois par le musée et par le centre de recherche, s'efforce de servir différents publics: les spécialistes et le grand public.
Les données de Vitrosearch sont publiées sur la plateforme selon les standards FAIR, mais pas encore accessibles en format machine. Le modèle de donnée à évolué en adoptant le standard LIDO pour améliorer l'interopérabilité notamment avec la base de donnée internationale Corpus Vitrearum. L'usage de mise en lien avec des vocabulaires contrôlés a été étendue (notamment GND, Iconclass, etc.); de même, Vitrosearch participe à Metagrid.
La sauvegarde à long terme des données est assurée par DaSCH. Depuis 2024, la livraison des données à DaSCH a changé pour s'adapter à la nouvelle plateforme DSP de DaSCH.
Cristóbal Barria Bignotti (MAH Genève) - Analyser l’état des données pour mieux les relier : un outil au service des plateformes de publication interconnectée des données patrimoniales
La ville de Genève a voté récemment un crédit pour réaliser un projet de plateforme fédérée pour les institutions patrimoniales de la ville. Le présentateur a été l'auteur d'une étude de faisabilité pour un outil permettant l'ingestion et la structuration, et la standardisation des données des différentes institutions. Ils détaille les différents défis inhérents à un tel projet.
Un outil a été développé pour évaluer l'état et la viabilité des données existantes, identifier le travail préparatoire nécessaire et préparer le travail de normalisation à venir. L'outil est en cours de développement. Parmi les défis rencontrés dans l'élaboration de cet outil, la question des formats, de l'unité d'analyse, des modes de gestion des incertitudes, de la gestion des ambiguïtés, du cycle de vie des données, des droits et licences associés, etc. Une fois le jeu de donnée identifié, il s'agit d’identifier ses caractéristiques générales. Il en résulte un questionnaire détaillé qui doit être rempli par les différentes institutions participantes.
Sonja Gasser (Stiftung für Kunst, Kultur und Geschichte Winterthur) - Sammlung digital: Collection Access and Platform Infrastructure
La base de données des collections de la fondation SKKG a été mise en ligne en 2025, comprenant plus de 60'000 objets. Elle se base sur des standards de données ouvertes liées et IIIF. L'utilisation de IIIF participe à l'ouverture des données et rend possible l’utilisation des images sur d'autre plateformes. Ainsi, le viewer Mirador IIIF utilisé est celui d'un autre projet, de Art Historicum.
Le travail a consisté à développer un pipeline pour faire circuler les données depuis la base de données de gestion des collections Museum+ vers un knowledge graph, puis un site web développé par l'agence AZT (voir-ci-dessus) pour présenter les données sur le site de l'institution. La prochaine étape de développement de l'infrastructure numérique consistera à développer un DAM (Digital Asset Management) qui permette de gérer directement les images IIIF et interagir avec à la fois la base de donnée interne et le site web.
Le site s'est doté d'une "Open Data Policy" et explique pour chaque objet la structure des données et les droits de réutilisation des images et des métadonnées. Le protocole qui fait fonctionner cette infrastructure de mise à disposition est assez complexe, notamment à cause des exigences de l'agence Pro Litteris pour la gestion des droits.
Parmi les questions ouvertes, reste la question de la participation, des annotations collaboratives notamment, par exemple pour la recherche de provenance.
Oliver Ammann & Michael Ehrismann (ETH Library) - From Scans to Open Data: e-rara’s Infrastructure and
NER/NEL Extension
e-rara est la bibliothèque numérique des imprimé du 15e au 20e siècles, totalisant 24 millions de pages issues de 24 institutions. Un travail de Named Entity Recongnition (NER) et de Named Entity Linking (NAM) a permis de générer plus de 100'000 entités reconnues au sein des textes de e-rara.ch.
Les entités reconnues sont désormais intégrées dans l'interface de recherche. Les données de lieux sont ainsi affichées sur une carte géographique, qui permet de naviguer géographiquement dans le texte des documents. Ces données sont également accessibles via une API dédiée. comme indiqué sur cette page sur les interfaces compatibles pour interagir avec les données e-rara.ch.
Il n'y a pas de contrôle de qualité pour le NER et NAM, mais celle-ci s'améliore avec la qualité de l'OCR, et donc est meilleure pour les publications plus récentes dont la typographie est plus reconnaissable par les machines.
Stephen Hart (University of Bern) & Francesco Beretta (University of Neuchâtel) - From Geovistory to LOD4HSS: Sustaining FAIR Knowledge Graph Practices in the Humanities and Social Sciences
Geovistory était une plateforme qui permettait aux chercheurs via une interface graphique de produire des données liées structurées (sous forme de knowledge graph). La présentation reconstitue la longue histoire de cet environnement de données liées pour les sciences historiques développée par Francesco Beretta. Cependant, l'entreprise chargée du développement du software, KleioLab, a récemment fermé ses portes.
Pour sauver l'acquis, l'équipe du projet a adopté quatre principes: réutiliser les infrastructures existantes, notamment la communauté Wiss-KI soutenue par des institutions allemandes; intégrer des outils simples qui permettent de travailler avec des données ouvertes liées et structurées, comme la plateforme OntoME, ou le Local Graph Editor (LOGRE). Le troisième pilier est de travailler avec des fichiers d'autorités stables, comme ceux de WikiData, mais aussi d'autres (comme GND, IdRef, etc.). L'ontologie SDHSS peut, quant à elle, être utilisée sur d'autres systèmes de données ouvertes liées.
En conclusion, l'intervenant rappelle que l'avantage des systèmes ouverts Linked Open Data, c'est qu'ils sont compatibles avec différents systèmes et peuvent être réutilisés dans différents environnements.
Conclusion
Cette journée a offert un aperçu de l'état des travaux dans le domaine de la gestion des données et des infrastructures numériques dans les institutions patrimoniales comme les archives, bibliothèques, musées ou centre de recherche. Toutes les institutions sont confrontées à trois nécessités : développer des infrastructures pour gérer leurs données numériques à l'interne; construire des interfaces pour donner accès à ces données et réfléchir à la préservation à long terme de leurs données numériques. Aucun de ces défis n'est facile à gérer, et tous nécessitent une pondération mûrement réfléchie entre compétences techniques disponibles à l'interne, objectifs de l'institution et services au public, et ressources financières et techniques de chaque institution.
La plupart des institutions essayent désormais de tendre vers une ouverture la plus large possible de leurs données numériques, selon les principes FAIR notamment. Le linked open data, ou structuration des données selon les principes du web sémantique (RDF, Knowledge graphs) tend également à se généraliser. Ces formats de données ouverts assurent une certaine pérennité et interopérabilité aux données.
Ils nécessitent cependant un niveau de compétence technique qui dépasse la plupart du temps celui des équipes ou des chercheurs qui doivent les utiliser. À cela s'ajoute l'arrivée de l'intelligence artificielle des modèles génératifs de langage, de plus en plus utilisés pour enrichir les données disponibles, qui augmentent complexité et à la quantité des données à traiter.
La question des interfaces, qui opèrent la traduction entre les bases de données et les utilisatrices et utilisateurs, est ici centrale. Pour terminer, cette journée DasSCHCon 2025, en donnant à voir les développements techniques en cours au sein des institutions patrimoniales, a contribué de manière productive au dialogue nécessaire entre ingénieurs et utilisateurs des données culturelles.