Définition
La transcription de textes désigne le processus de conversion de textes manuscrits ou imprimés depuis des documents, images ou vidéos numériques vers du texte électronique.
Utilité
Convertir du texte en format électronique permet de le retravailler avec des outils informatiques, par exemple pour faire du copier-coller, l’éditer en vue d’une publication ou en faire une analyse par ordinateur.
Remarques :
- Qualité : Les transcriptions automatiques contiennent systématiquement des erreurs, en particulier pour des documents anciens ou des écritures manuscrites.
- Confidentialité: Pour les services en ligne, il faut garder à l’esprit que les documents sont traités par des sociétés commerciales, et par conséquent faire attention aux informations qui sont partagées avec ces prestataires externes en matière de protection des données personnelles.
- Contenus : La transcription du texte n’épuise pas le contenu d’information d’un document. Les informations relatives à la mise en page, la structure du texte, ou polices de caractères peuvent être aussi prises en compte.
Sélection d'outils pour un public généraliste
- Google & Microsoft
Google offre des outils gratuits de conversion de documents PDF en texte électronique (Google Docs) et d'extraction de texte depuis des images individuelles (Google Images). Google offre aussi un service payant en ligne spécifique pour la transcription des documents (Google Document AI), parmi une gamme plus étendue portant sur la vision machine (Google Vision AI). Des services similaires sont offerts par Microsoft (Microsoft Azure Cognitive). - Transkribus
Un des meilleurs outils de transcription pour les écritures manuscrites par la qualité, les fonctionnalités, et la facilité d'utilisation. Service en ligne payant. Issu de projets de recherche académiques financés par l'Union européenne. - ABBY Fine Reader
Service payant en ligne de transcription de documents imprimés dans un grand nombre de langues et écritures modernes, ainsi que des types de document. Développé par un des acteurs historiques de la reconnaissance automatique de l'écriture et de la structure des documents. - Adobe Acrobat Pro
Solution payante commode pour enrichir les documents PDF avec du texte électronique, afin de pouvoir rechercher ou copier/coller du texte à partir de leur contenu.
Sélection d'outils nécessitant des compétences informatiques avancées
- Kraken & eScriptorium
Code source gratuit pour la transcription de l'écriture manuscrite et imprimée, en particulier non-Latine et pré-moderne. Développé par l'École pratique des Hautes Études, Paris. - Tesseract & OCRopus
Codes sources gratuits pour la transcription de l'écriture imprimée. Il s'agit des outils open source historiques de la reconnaissance de l'écriture, développés par Hewlett-Packard, Google, et le Centre de recherche allemand en intelligence artificielle, Kaiserslautern.
Pour aller plus loin:
- Page de discussion Reddit (2023) sur les outils de transcription d'écritures manuscrites