Definition:
Die Transkription von Texten bezeichnet den Prozess der Umwandlung von handschriftlichen oder gedruckten Texten aus Dokumenten, Bildern oder Videos in elektronische Texte.
Verwendung
Durch die Umwandlung von Text in ein elektronisches Format kann dieser mit IT-Tools weiterbearbeitet werden, beispielsweise zum Kopieren und Einfügen, zur Bearbeitung für eine Veröffentlichung oder zur computergestützten Analyse.
Bemerkungen :
- Qualität: Automatische Transkriptionen enthalten systematisch Fehler, insbesondere bei älteren Dokumenten oder handschriftlichen Texten.
- Vertraulichkeit: Bei Online-Diensten ist zu beachten, dass die Dokumente von kommerziellen Unternehmen verarbeitet werden. Daher ist im Hinblick auf den Schutz personenbezogener Daten Vorsicht geboten bei der Weitergabe von Informationen an diese externen Dienstleister.
- Inhalt: Neben dem reinen Textinhalt enthalten Dokumente Informationen über Layout, Textstruktur und Schriftarten. Diese zusätzlichen Informationen sind wichtig für das Verständnis und die Nutzung eines Dokuments.
Ausgewählte Tools für ein breites Publikum
- Google & Microsoft
Google bietet kostenlose Tools zur Konvertierung von PDF-Dokumenten in elektronischen Text (Google Docs) und zur Textextraktion aus einzelnen Bildern (Google Images). Google bietet auch einen speziellen kostenpflichtigen Online-Dienst für die Transkription von Dokumenten (Google Document AI) an, der Teil eines umfassenderen Angebots im Bereich der maschinellen Bildverarbeitung (Google Vision AI) ist. Ähnliche Dienste werden von Microsoft (Microsoft Azure Cognitive) angeboten. - Transkribus
Eines der besten Transkriptionswerkzeuge für handschriftliche Texte hinsichtlich Qualität, Funktionalität und Benutzerfreundlichkeit. Kostenpflichtiger Online-Dienst. Entstanden aus akademischen Forschungsprojekten, die von der Europäischen Union finanziert wurden. - ABBY Fine Reader
Kostenpflichtiger Online-Dienst zur Transkription gedruckter Dokumente in einer Vielzahl moderner Sprachen und Schriften sowie verschiedener Dokumenttypen. Entwickelt von einem der langjährigen Marktführer im Bereich der automatischen Erkennung von Schrift und Dokumentstruktur. - Adobe Acrobat Pro
Eine praktische kostenpflichtige Lösung, um PDF-Dokumente mit elektronischem Text anzureichern, sodass Sie Text aus ihrem Inhalt suchen oder kopieren/einfügen können.
Auswahl von Tools, die fortgeschrittene Computerkenntnisse erfordern
- Kraken & eScriptorium
Frei zugängliche Quellcodes zur Transkription handschriftlicher und gedruckter Texte, insbesondere für nicht-lateinische und vormoderne Schriften. Entwickelt von der École pratique des Hautes Études, Paris. - Tesseract & OCRopus
Frei zugängliche Quellcodes zur Transkription von gedruckten Texten. Dabei handelt es sich um die historischen Open-Source-Werkzeuge zur Texterkennung, entwickelt von Hewlett-Packard, Google und dem Deutschen Forschungszentrum für Künstliche Intelligenz in Kaiserslautern.
Weitere Informationen:
- Reddit Diskussionsseite (2023) zu Tools für die Transkription handschriftlicher Texte.