Workshop Google Livres (3.12.09): Compte rendu

Voici un compte rendu partiel de l'excellent workshop sur Google Livres animé par Alain Jacquesson et Hubert Villard dans le cadre de la formation continue en Information Documentaire de la HEG Genève. Introduction La Bibliothèque cantonale et universitaire (BCU) de Lausanne est la première bibliothèque de Suisse et la première bibliothèque francophone a avoir conclu un accord avec Google pour la numérisation d'une partie de ses collections. A l'heure où l'opération touche à sa fin, Hubert Villard, directeur de la BCU au moment de la signature du contrat avec Goolge et Alain Jacquesson, ancien directeur de la Bibliothèque de Genève, nous ont livré leurs réflexions. Combien de livres sur Google Books ? Premier problème, Google ne fournit aucune statistique à ce sujet. Selon des estimations récentes, la base de données Google Books compterait près de 10 millions de livres. Environ 20% d'entre eux, c'est-à-dire 2 millions, seraient libres de droits et accessibles dans leur intégralité. Tous les livres numérisés par Google sont soumis à un processus OCR (Reconnaissance automatique des caractères), qui rend possible les recherches dans l'intégralité du texte. Qu'est-ce que cela représente ? A titre de comparaison, le WorldCat d'OCLC, la plus grande base de notices bibliographiques au monde, compte 156 millions de notices. 10 millions sur 156, cela représente 6.4%. On est encore loin du rêve de la "bibliothèque qui contient tous les livres". Autre comparaison, cette fois en faveur de Google: Gallica propose env. 950'000 livres, dont seul un tiers est accessible en mode texte. Numérisation: le secret de Google L'un des leaders mondiaux dans la production de machines à numériser les livres se trouve à Ecublens, dans le canton de Vaud. 4digitalbooks propose des machines capables de numériser 3'000 pages/heure, grâce à sa technologie d'aplatissement et tourne-page automatique. Chez Google par contre la numérisation se fait manuellement: ce sont des mains en chair et en os qui tournent les pages. Le secret consiste à corriger a posteriori l'image numérisée en fonction de la courbure des pages; et de procéder à l'OCR sans abîmer les livres. Les faiblesses de Google Books

Les limites de l'OCR

cet ouvrage

Pas de contrôle de qualité
L'absence de notices d'autorité

C'est l'une des grandes faiblesses de Google Books par rapport aux catalogues de bibliothèque traditionnels. La forme des termes de recherche (auteurs, matières, etc.) ne fait pas l'objet d'une liste de référence. En conséquence, une recherche sous Emile Zola ne donnera pas les mêmes résultats qu'une recherche sous Zola Emile. Le problème s'aggrave encore lors de la recherche par matière ou par mots-clés. La recherche par collection est également impossible, vu la simplicité des notices bibliographiques, réduites au minimum. Le business des notices bibliographiques Pour pallier à ces défauts Google a conclu en 2008 un accord avec OCLC, gestionnaire de la plus grande base de données bibliographiques au monde. De cette collaboration devrait découler une amélioration substantielle de la qualité bibliographique de Google Books. Mais certains dénoncent le nivellement par le bas - i.e. des notices réduites au minimum - et la main-mise sur un bien financé par les collectivités publiques que sont les notices bibliographiques. En effet, le produit du travail des bibliothécaires - financé par les Etats - possédait une plus-value, qui pouvait être monétarisée au besoin, plus-value qui a disparu devant l'impératif d'intégration globale des notices bibliographiques dans des bases de données mondiales comme WorldCat. Ainsi la BN, et bientôt IDS et Swissbib, reversent "gracieusement" leurs notices bibliographiques dans WordCat afin de gagner en visibilité sur la toile. L'accord (secret) entre Google et la BCU de Lausanne

Non disclosure agreement
Aucune garantie de mise à disposition des ouvrages
100'000 livres, sinon rien
Répartition des coûts
Répartition des bénéfices
Sur la copie des données fournie par Google

bibliothèques

Google books

Lausanne

numérisation