Definition:
Die Transkription von Texten bezeichnet den Prozess der Umwandlung von handschriftlichen oder gedruckten Texten aus Dokumenten, Bildern oder Videos in elektronische Texte.
Verwendung:
Durch die Umwandlung von Text in ein elektronisches Format kann dieser mit IT-Tools weiterbearbeitet werden, beispielsweise zum Kopieren und Einfügen, zur Bearbeitung für eine Veröffentlichung oder zur computergestützten Analyse.
Bemerkungen:
- Qualität: Automatische Transkriptionen enthalten systematisch Fehler, insbesondere bei älteren Dokumenten oder handschriftlichen Texten.
- Vertraulichkeit: Bei Online-Diensten ist zu beachten, dass die Dokumente von kommerziellen Unternehmen verarbeitet werden. Weil Informationen an diese externen Dienstleister weitergegeben werden, ist im Hinblick auf den Schutz personenbezogener Daten Vorsicht geboten.
- Inhalt: Neben dem reinen Textinhalt enthalten Dokumente Informationen über Layout, Materialität, Textstruktur und Schriftarten. Diese zusätzlichen Informationen sind wichtig für das Verständnis und die Nutzung eines Dokuments.
Ausgewählte Tools für ein breites Publikum:
- Google und Microsoft: Google bietet kostenlose Tools zur Konvertierung von PDF-Dokumenten in elektronischen Text (Google Docs) und zur Textextraktion aus einzelnen Bildern (Google Images). Google betreibt auch einen speziellen kostenpflichtigen Online-Dienst für die Transkription von Dokumenten (Google Document AI), der Teil eines umfassenderen Angebots im Bereich der maschinellen Bildverarbeitung (Google Vision AI) ist. Ähnliche Dienste werden von Microsoft (Microsoft Azure Cognitive) angeboten.
- Transkribus ist eines der besten Transkriptionswerkzeuge für handschriftliche Texte hinsichtlich Qualität, Funktionalität und Benutzerfreundlichkeit. Dieser kostenpflichtige Online-Dienst ist aus akademischen Forschungsprojekten entstanden, die von der Europäischen Union finanziert wurden.
- ABBY Fine Reader ist ein kostenpflichtiger Online-Dienst zur Transkription gedruckter Dokumente in zahlreichen modernen Sprachen und Schriften sowie verschiedener Dokumenttypen. Dieser Dienst wurde von einem der langjährigen Marktführer im Bereich der automatischen Erkennung von Schrift und Dokumentstruktur entwickelt.
- Adobe Acrobat Pro ist eine praktische, kostenpflichtige Lösung, um PDF-Dokumente mit elektronischem Text anzureichern, um Text aus einem Inhalt suchen oder kopieren/einfügen zu können.
Auswahl von Tools, die fortgeschrittene Computerkenntnisse erfordern
- Kraken und eScriptorium sind frei zugängliche Quellcodes zur Transkription handschriftlicher und gedruckter Texte, insbesondere für nicht-lateinische und vormoderne Schriften. Sie wurden von der École pratique des Hautes Études in Paris entwickelt.
- Tesseract und OCRopus sind frei zugängliche Quellcodes zur Transkription von gedruckten Texten. Dabei handelt es sich um ältere Open-Source-Werkzeuge zur Texterkennung, entwickelt von Hewlett-Packard, Google und dem Deutschen Forschungszentrum für Künstliche Intelligenz in Kaiserslautern.
Weitere Informationen:
- Reddit Diskussionsseite (2023) zu Tools für die Transkription handschriftlicher Texte.