Impresso Media Monitoring of the Past - Beyond Borders: Connecting Historical Newspapers and Radio - Impresso Doppio pour les intimes - est le second volet d’un projet interdisciplinaire financé par le FNS visant constituer, enrichir, et donner accès à un important corpus de journaux et d’archives radiophoniques numérisés. Les paragraphes ci-dessous sont issus d’un premier séminaire qui a réuni tous les partenaires du projet sur le campus de l’EPFL le jeudi 25 avril 2024.
Le premier volet du projet (2017-2020) a produit un outil de recherche, accessible en ligne sur inscription, qui donne accès à un corpus de journaux numérisés de Suisse et du Luxembourg, et à une série d’outils pour faire de la recherche parmi leurs contenus.
Cet outil, Impresso App, malgré une interface un peu chargée, représente une véritable innovation dans les possibilités d’exploration des contenus journaux numérisés. Sans rentrer dans les détails, l’application offre notamment des suggestions de termes de recherche, en plusieurs langues; une classification des contenus (articles, publicité); une typologie des contenus des articles qui peut être utilisée comme filtre de recherche (topic modeling); un outil d’analyse des similarités des articles entre eux; l’extraction d’entité nommées (Personnes, Lieux, Entreprises); un aperçu visuel des caractéristiques du corpus; l’analyse des fréquences d’occurrences dans le temps (NGrams), etc. etc. Même si il faut compter sans doute une bonne heure pour prendre l’interface en main, l’effort en vaut certainement la chandelle, en particulier pour qui s’intéresse à l’histoire de la presse et/ou aux techniques numériques pour les sciences humaines.
Avec ce second volet, les choses se font plus prometteuses encore: le corpus va gagner une représentativité à l’échelle européenne, pour autant que les services juridiques des institutions partenaires se montrent conciliants sur la question des droits de reproduction. En effet, plusieurs poids lourds du patrimoine européen ont rejoint la Suisse et le Luxembourg: les bibliothèques nationales du Royaume-Uni, de la France, de Hollande, de Belgique, de l’Autriche ainsi que celle de la région de Hamburg en l’Allemagne. Des millions de pages vont venir s’ajouter aux milliers de pages déjà disponible, pour former un corpus de journaux désormais véritablement transnational.
En plus de journaux, un autre type de source va venir enrichir ce corpus: les archives radio numérisées. Il s’agit de sources hétérogènes, composées de fichiers audio, comme on pourrait s’y attendre, mais également d’archives papier, comme les programmes et les transcriptions d’émissions. Ces nouveaux matériaux ouvriront la possibilité d’aborder des questions de recherche sur les relations entre la presse et la radio, un domaine de recherche appelé recherche trans-média, ou trans-media research.
D’un point de vue historiographique, Impresso Doppio entend donc stimuler la recherche transnationale et transmedia, mais ce n’est pas tout. A la différence du premier projet, les sciences historiques font désormais partie intégrante de l’équipe du projet. Une demi-douzaine d’études de cas sont déjà en route, sur des sujets divers entre eux - les stratégies de communication de l’industrie nucléaire civile ou l’image des institutions internationales, pour n’en citer que deux - mais qui partagent tous une interrogation sur le thème de l’influence, comprise à la fois comme stratégie de pouvoir vers l’extérieur et comme force interne à la sphère médiatique déterminante pour la genèse des contenus.
Le volet technique est tout aussi ambitieux que le volet historiographique, et se divise en trois grands volets: l’ingestion des données, leur enrichissement, et leur mise à disposition.
L’ingestion de données consiste, en gros, à récupérer les données des institutions partenaires et à les uniformiser selon un modèle de donnée propre au projet - en format JSON - dont les caractéristiques sont disponibles sur la page GitHub du projet. Les différents traitements appliqués aux données ainsi que leurs versions seront documentés dans des ‘manifestes de données’, également au format JSON, qui garantiront transparence et coordination au sein des différents groupes de travail.
Un aspect concerne la reconnaissance optique des caractères (OCR), qui continue de poser des difficultés dans ce genre d’entreprises: à chaque fois qu’un programme transcrit du texte à partir de l’image d’un document, il fait des erreurs. La gestion des erreurs d’OCR reste un casse-tête, car elle fausse ensuite les résultats obtenus. « Garbage in, garbage out », a répété plusieurs fois Simon Clématide, l’un des porteurs du projet. L’équipe a donc mis en place un protocole d’évaluation de la qualité de l’OCR. Dans les cas où la qualité de transcription des données est trop basse, une nouvelle transcription automatique est réalisée sur la base des images originales.
Je passe sur les autres opérations de la phase d’ingestion des données et sur l’architecture informatique physique - censée tirer le meilleur des capacités de calcul et de stockage des processeur (CPU) mis à disposition par l’EPFL. Les opérations sur les données, en particulier celle d’OCR et d’enrichissement, sont assez gourmandes en capacité de calcul: tout cela a un coût, et pas seulement environnemental.
L’enrichissement des données regroupe toute une série d’opérations, qui visent chacune à offrir à l’utilisateur final une nouvelle possibilité d’exploration des données. Une de celles-ci consiste à établir des similarités entre des contenus - des articles de journaux, typiquement - pour offrir à l’utilisateur final des recommandations ou des comparaison pertinentes. Pour calculer cette similarité - car elle se calcule - on a recours à des techniques similaires à celles des très grands modèles de language (LLMs) qui ont dominé l’actualité de l’informatique en 2023. Le texte est transformé en vecteurs dans un espace multidimensionnel (shared multilingual dense vector space for semantic indexing), comparé à des milliers d’autres textes également transformés en vecteurs, et les éléments les plus proches entre eux sont considérés similaires, ce qui permet de suggérer l’article le plus pertinents à lire sur le même sujet.
Là où tout cela devient assez stupéfiant, c’est que ce genre de systèmes commencent à être capables d’établir des similarités par-delà la barrière des langues. Cross-language, en Anglais. Un concept difficile à dire en français, qui rechigne à exprimer cette action de mise en relation directe d’une langue avec l’autre, sans passer par l’étape de la traduction. L’utilisateur final pourra donc explorer un corpus multilingue, même si il ne maîtrise pas ou prou les langues en question.
Dans la même logique, l’interface propose des synonymes des termes de recherche, et ceci dans plusieurs langues, et mêmes des variantes orthographiques erronées issues des erreurs d’OCR mais qui permettent de récupérer des documents qui seraient autrement invisibles. Troisième et dernier exemple: la reconnaissance automatique des entités nommées: noms de personnes, de lieux, ou d’organisation. Elle permet d’établir des index, et de relier les termes en question à des références externes, comme par exemple une entité Wikidata. Un défi ultérieur consiste, outre le multilinguisme, à réaliser ces opérations sur des données disparates issues des archives de la presse imprimée et des archives radiophoniques.
La dernière étape est celle de la mise à disposition des résultats. Elle se fera au sein de l’interface Impresso App, appelée à évoluer tout au long du projet, mais pas uniquement. Comme les compétences d’analyse de données des chercheurs en histoire évoluent elles aussi, le projet souhaite offrir une interface de type Data Lab, un environnement construit autour de l’API du projet, qui donnera aux utilisateurs la possibilité d’appliquer à leurs collections de documents une série d’opérations de leur choix. Pour ceux qui souhaiteraient pourvoir télécharger entièrement les données à des fin de recherche, un système de clearing de droits est à l’étude.
Voilà un premier aperçu de ce second projet, entré désormais en pleine activité. L’Impresso App est déjà accessible, comme le site web du projet, et sa page GITHub.