Historische Handschriften digital erkennen

Die Texterkennungssoftware OCR4all kommt bei historischen Drucken mit sehr gutem Erfolg zum Einsatz. Jetzt wird sie auf alte Handschriften trainiert.

Der Ausgangstext einer historischen Handschrift kann in verschiedenen Ansichten der Transkription in computerlesbaren Text zeilengenau gegenübergestellt und bei Bedarf korrigiert werden. Das ist nur eine der zahlreichen OCR4all-Funktionen. (Abb.: Christian Reul, Universität Würzburg)

Heutige Standardschriften wie Calibri oder Times New Roman einzulesen, ist für moderne Texterkennungssoftware, kurz OCR, kein Problem. Schwieriger wird es bei historischen Drucken. Denn je weiter man in die Geschichte zurückblickt, desto variantenreicher werden die Schriften – bis hinein in eine Zeit, in der jeder Drucker seine eigenen Schriftsets schnitzte.

Das Projekt OCR4all schlug Brücken zwischen den Geisteswissenschaften, der Informatik und den Digital Humanities. Anfangs ging es darum, im Teilprojekt Narragonien digital Sebastian Brants Narrenschiff digital aufzubereiten, eine Moralsatire aus dem 15. Jahrhundert. Seither ist das Projekt deutlich gewachsen und auch im Ausland in Fachkreisen bekannt. "Das Schöne an Open-Source-Projekten: Es ist immer ein Geben und Nehmen", sagt Dr. Christian Reul, Leiter der Digitalisierungseinheit am Zentrum für Philologie und Digitalität "Kallimachos" (ZPD) der Julius-Maximilians-Universität (JMU). Damit die Software bestimmte Schrifttypen später möglichst genau erkennt, werden Modelle trainiert. Dafür braucht es möglichst viel Trainingsmaterial, bestehend aus Zeilenbildern und der korrekten Transkription des darauf zu sehenden Texts, und das wird häufig von den Software-Nutzerinnen und -Nutzern selbst zur Verfügung gestellt.

Diese Form der Kooperation trägt Früchte, wie Reul erklärt: So lassen sich bei so genannten werkspezifischen Modellen inzwischen sehr genaue Erkennungsergebnisse erzielen, selbst auf den ältesten existierenden Drucken aus der Inkunabelzeit (vor 1500). Dies sind Modelle, die wie im Falle des Narrenschiffs speziell für die Erkennung einer Drucktype trainiert werden.

Das ZPD arbeitet nun verstärkt daran, gemischte Modelle weiterzuentwickeln, die im Idealfall auf möglichst viele Drucktypen angewendet werden können. Während es zum Beispiel für deutschsprachige Frakturschriften des 19. Jahrhunderts bereits sehr gute Modelle gab, fehlte es bislang an einem noch breiter aufgestellten Modell, das guten Gewissens auf Drucke aus mehreren Jahrhunderten angewendet werden kann. Dafür brauchte es laut Reul vor allem weitere Trainingsdaten. Entsprechend glücklich war er deshalb über eine Förderung durch die Vogel Stiftung Dr. Eckernkamp (Würzburg): "Vor allem bei historischen Frakturschriften gab es Lücken in den Trainingsdaten, die wir durch die Förderung gezielt schließen konnten", sagt der Informatiker.

Als Meilenstein bezeichnet Reul zudem, dass im Juli 2021 von der Deutschen Forschungsgemeinschaft (DFG) genehmigte und mit 350.000 Euro geförderte Zwei-Jahres-Projekt OCR4all-libraries. „Wir verheiraten nun OCR4all mit OCR-D", freut er sich.

Das Hauptziel des DFG-geförderten OCR-D-Projekts ist die konzeptionelle und technische Vorbereitung der Volltexttransformation der im deutschen Sprachraum erschienenen Drucke des 16. bis 18. Jahrhunderts. Dazu wird die automatische Volltexterkennung in einzelne Prozessschritte zerlegt, die dann jeweils mit unterschiedlichen Werkzeugen bearbeiten werden können. Dies zielt darauf ab, optimale Workflows für die zu prozessierenden alten Drucke zu erstellen und damit wissenschaftlich verwertbare Volltexte zu generieren.

Ein Zusatznutzen der Software aus Würzburg im Zuge der Volltexterkennung der historischen Sammlung: OCR4all ermöglicht die Anwendung durch technisch weniger versierte Nutzenden und dient weiterhin auch erfahreneren Nutzenden als Handwerkszeug, um den Workflow zu analysieren und zu optimieren. Reul hofft im Zuge des Projekts OCR4all-libraries auf eine umfassende Weiterentwicklung der Software, speziell durch die stark wachsende Anzahl der verfügbaren Werkzeuge. Zusammenarbeiten wird das ZPD dabei mit dem Leibniz-Institut für Bildungsmedien | Georg-Eckert-Institut in Braunschweig und dem JMU-Lehrstuhl für Mensch-Computer-Systeme.

Texterkennungssoftware für alte Drucke ist das eine. Doch wie steht es um historische Handschriften? "Vom Prinzip her ist die Herangehensweise ähnlich, aber wegen der Unregelmäßigkeit der Schriften meist deutlich anspruchsvoller", sagt Reul. Außerdem können Handschriften erheblich älter sein als Drucke, decken somit eine noch größere Zeitspanne ab und sind häufiger schlecht erhalten. Kein Grund für das ZPD, sich nicht auch dieser Herausforderung zu stellen. "Der Bedarf bei Handschriften ist riesig – hier findet man wie gedruckt wirkende Buchschriften bis hin zu Texten, die nahezu unlesbar sind.", weiß Reul.

Angesichts dieser Herausforderung bleibt er gelassen: "Wir brauchen jetzt erstmal viel Training für eine solide Grundlage." Eine erste Kooperation kam im Frühjahr 2021 zustande mit Dr. Stefan Tomasek vom JMU-Lehrstuhl für deutsche Philologie, ältere Abteilung: Er stellte dem ZPD im Zuge seiner Neuedition der Kindheit Jesu Konrads von Fußesbrunnen Daten für das Modelltraining zur Verfügung. Seitdem wird in Kooperation zwischen dem ZPD und dem Lehrstuhl der Bestand an Trainingsdaten und somit das Modell stetig weiterentwickelt. Auf mittelalterlichen Handschriften konnten dadurch bereits hervorragende Ergebnisse erzielt werden. Erste Modelle sollen noch in den kommenden Wochen online frei zur Verfügung gestellt und das zugehörige Paper noch im Januar 2022 eingereicht werden. Ein gemeinsamer DFG-Antrag ist ebenfalls in Vorbereitung.

Blog-Beiträge durchblättern

Viel mehr als nur Scans!

Mittelalterliche Handschriften analog und digital

Handschriftenportal bringt mittelalterliche Handschriften aus Greifswald ins Netz

Die ältesten Bücher Greifswalds können über ein weiteres, neues Portal digital abgerufen werden. Das Handschriftenportal (HSP) ist das zentrale Online-Portal für handgeschriebene Bücher aus Mittelalter und Neuzeit. Diese Bücher sind unikale Kulturobjekte und einmalige historische Quellen. Die teilnehmenden Bibliotheken aus ganz Deutschland stellen über das Portal ihre historischen Werke der Öffentlichkeit und der Forschung zur Verfügung.

19.04.2024

Kulturerbe

»Digital ist besser? Sammlungsforschung im digitalen Zeitalter«

Welche Rolle spielen digitale Methoden in der Sammlungsforschung und wie haben sich diese im Laufe der Jahre verändert? Darüber diskutieren Wissenschaftler/-innen bei der Tagung »Digital ist besser? Sammlungsforschung im digitalen Zeitalter« des Forschungsverbunds Marbach Weimar Wolfenbüttel, die am 16. und 17. Februar in Weimar stattfindet.

11.02.2023

Digital Humanities

KI bietet großes Potenzial für die Erforschung antiker Literatur

Eine der ältesten Schriften der Welt, die sumerische Keilschrift, entstand im späten vierten Jahrtausend vor Christus im antiken Mesopotamien. "Diese Schrift wurde auf Ton eingraviert", erklärt der Assyriologe Professor Enrique Jiménez bei den vierten virtuellen "KI Lectures" der Ludwig-Maximilians-Universität in München (LMU). "Ton ist das billigste und langlebigste Material für Schrift. Einmal getrocknet, ist es jedoch sehr zerbrechlich, sodass uns nur Fragmente erhalten geblieben sind." Ein mit verschiedenen Datenmodellen gefütterter Algorithmus kann helfen, antike Textfragmente wie die des berühmten Gilgamesch-Epos zu einem vollständigen Text zusammenzuführen. Dadurch wurden bisher etwa 60 Prozent des Werks wiederhergestellt; jedes Jahr werden neue Fragmente gefunden, die richtig zugeordnet werden müssen.

10.12.2021

Forschung

Mit künstlicher Intelligenz historische Dokumente entziffern

Stärkung der Digital Humanities: Universität Kiel wird Teil der internationalen READ-Genossenschaft

Nichts weniger als den Zugriff auf handschriftliche Quellen zu revolutionieren, hat sich die READ-COOP SCE zum Ziel gesetzt. Dafür entwickelt und betreibt sie gemeinschaftlich die digitale Transkribus-Infrastruktur zur automatischen Texterkennung von Handschriften. Um an der Entwicklung der zukunftsweisenden Technologie mitzuwirken und ihren Einsatz in Forschung und Lehre zu unterstützen, wird die Christian-Albrechts-Universität zu Kiel (CAU) auf Initiative der Universitätsbibliothek (UB) Teil dieser europäischen Genossenschaft.

29.08.2020

Digital Humanities

Modernes Tool für alte Texte

Seite aus einer französischen Version des "Narrenschiffs"

Historische Druckschriften in computerlesbaren Text umwandeln: Dafür sorgt das Werkzeug OCR4all, das sehr zuverlässig arbeitet, leicht zu bedienen und frei verfügbar ist. Wissenschaftler der Uni Würzburg haben es entwickelt.

26.04.2019

Forschung

Zurück

RSS-Feeds @ Archäologie Online
Nachrichten
Videos
Podcasts

Newsletter abonnieren

Mit unserem kostenlosen Newsletter können Sie sich regelmäßig alle aktuellen Infos von Archäologie Online bequem in Ihr Postfach senden lassen.