Workshop Google Livres (3.12.09): Compte rendu

Voici un compte rendu partiel de l'excellent workshop sur Google Livres animé par Alain Jacquesson et Hubert Villard dans le cadre de la formation continue en Information Documentaire de la HEG Genève.

Introduction
La Bibliothèque cantonale et universitaire (BCU) de Lausanne est la première bibliothèque de Suisse et la première bibliothèque francophone a avoir conclu un accord avec Google pour la numérisation d'une partie de ses collections. A l'heure où l'opération touche à sa fin, Hubert Villard, directeur de la BCU au moment de la signature du contrat avec Goolge et Alain Jacquesson, ancien directeur de la Bibliothèque de Genève, nous ont livré leurs réflexions.

Combien de livres sur Google Books ?
Premier problème, Google ne fournit aucune statistique à ce sujet. Selon des estimations récentes, la base de données Google Books compterait près de 10 millions de livres. Environ 20% d'entre eux, c'est-à-dire 2 millions, seraient libres de droits et accessibles dans leur intégralité.
Tous les livres numérisés par Google sont soumis à un processus OCR (Reconnaissance automatique des caractères), qui rend possible les recherches dans l'intégralité du texte.

Qu'est-ce que cela représente ?
A titre de comparaison, le WorldCat d'OCLC, la plus grande base de notices bibliographiques au monde, compte 156 millions de notices. 10 millions sur 156, cela représente 6.4%. On est encore loin du rêve de la "bibliothèque qui contient tous les livres".
Autre comparaison, cette fois en faveur de Google: Gallica propose env. 950'000 livres, dont seul un tiers est accessible en mode texte.

Numérisation: le secret de Google
L'un des leaders mondiaux dans la production de machines à numériser les livres se trouve à Ecublens, dans le canton de Vaud. 4digitalbooks propose des machines capables de numériser 3'000 pages/heure, grâce à sa technologie d'aplatissement et tourne-page automatique.
Chez Google par contre la numérisation se fait manuellement: ce sont des mains en chair et en os qui tournent les pages. Le secret consiste à corriger a posteriori l'image numérisée en fonction de la courbure des pages; et de procéder à l'OCR sans abîmer les livres.

Les faiblesses de Google Books

  • Les limites de l'OCR
  • La forme des lettres a beaucoup évolué depuis l'invention de l'imprimerie, et les programmes de reconnaissance automatique des caractères ne s'y retrouvent pas toujours. Un exemple, la forme du "S" confondue avec un "F" dans cet ouvrage de la fin du XVIIIe siècle. Renverfant !

  • Pas de contrôle de qualité
  • Trop long, trop coûteux: Google ne procède à aucun contrôle de qualité systématique, ni sur la numérisation, ni sur l'OCR.

  • L'absence de notices d'autorité

C'est l'une des grandes faiblesses de Google Books par rapport aux catalogues de bibliothèque traditionnels. La forme des termes de recherche (auteurs, matières, etc.) ne fait pas l'objet d'une liste de référence. En conséquence, une recherche sous Emile Zola ne donnera pas les mêmes résultats qu'une recherche sous Zola Emile. Le problème s'aggrave encore lors de la recherche par matière ou par mots-clés. La recherche par collection est également impossible, vu la simplicité des notices bibliographiques, réduites au minimum.

Le business des notices bibliographiques
Pour pallier à ces défauts Google a conclu en 2008 un accord avec OCLC, gestionnaire de la plus grande base de données bibliographiques au monde. De cette collaboration devrait découler une amélioration substantielle de la qualité bibliographique de Google Books. Mais certains dénoncent le nivellement par le bas - i.e. des notices réduites au minimum - et la main-mise sur un bien financé par les collectivités publiques que sont les notices bibliographiques. En effet, le produit du travail des bibliothécaires - financé par les Etats - possédait une plus-value, qui pouvait être monétarisée au besoin, plus-value qui a disparu devant l'impératif d'intégration globale des notices bibliographiques dans des bases de données mondiales comme WorldCat. Ainsi la BN, et bientôt IDS et Swissbib, reversent "gracieusement" leurs notices bibliographiques dans WordCat afin de gagner en visibilité sur la toile.

L'accord (secret) entre Google et la BCU de Lausanne

  • Non disclosure agreement
  • Rien du tout. Nichts. Pas une ligne. Les hommes de Google sont intraitables sur ce point. Les termes du contrat sont secret. Ce qui est une pratique normale, paraît-il, a quand même valu quelques nuit blanches à M. Villard, qui aurait bien voulu partager ses inquiétudes avec certains collègues. Signature en mars 2007; durée du contrat: 6 ans.

  • Aucune garantie de mise à disposition des ouvrages
  • Dans le contrat, rien ne stipule que Google s'engage à mettre à disposition du public les ouvrages numérisés, même ceux libre de droits.

  • 100'000 livres, sinon rien
  • C'est le chiffre minimum pour rentrer en matière. Et pour être sûr que les ouvrages sont déjà tombés dans le domaine public, Google ne prend que les ouvrages publiés avant 1868. En Amérique la limite du domaine public est l'année 1923, mais en Europe les choses sont plus complexes. Posséder 100'000 livres publiés avant 1868 n'est pas donné à n'importe quelle bibliothèque. Même la BN n'y arriverait pas, selon l'une de ces collaboratrices.

  • Répartition des coûts
  • Google prend en charge le transport des ouvrages - vers un endroit secret à l'étranger - les frais d'assurance, la numérisation, et la remise d'une copie des fichiers.
    La BCU prend en charge la sélection des livres, la préparation des envois/réception, et la mise à disposition des notices bibliographiques en format MARC-XML et sous un autre format XML simplifié.
    A noter que la numérisation proprement dite représente environ 40% des coûts totaux d'une opération de numérisation.

  • Répartition des bénéfices
  • Un pourcentage sur deux sources de revenus intéressaient la BCU. Les bénéfices liés aux publicités contextuelles apparaissant sur les pages de Google Books, et la vente de ses livres au format EPUB pour les appareils électroniques de lecture (Kindle, etc.). Google n'a rien lâché.

  • Sur la copie des données fournie par Google
  • La bibliothèque reçoit une copie des documents numérisés. C'est l'argument qui revient le plus souvent pour justifier l'intérêt de l'opération. A y regarder de plus près, les fichiers en question sont des images de scanner en format TIFF. Après négociation, la BCU également a obtenu de recevoir une copie des documents après traitement OCR. Cependant il s'agit de données brutes, qui ne sont pas directement exploitables. Par ailleurs, leur utilisation est limitée au niveau de l'institution. La BCU, après un travail de recomposition des documents numériques reçus de Google - travail qui n'a pas fait l'objet d'une estimation de coûts/temps pour le moment - pourrait théoriquement les mettre sur son serveur institutionnel SERVAL, mais ne pourrait en aucune manière les intégrer dans RERO DOC.
    La solution qu'adoptent toutes les bibliothèques du programme Google Books est identique: Intégrer dans leurs notices bibliographiques le lien URL vers Google Books. Google s'engage à maintenir des URL permanents.