Modernes Tool für alte Texte

Historische Druckschriften in computerlesbaren Text umwandeln: Dafür sorgt das Werkzeug OCR4all, das sehr zuverlässig arbeitet, leicht zu bedienen und frei verfügbar ist. Wissenschaftler der Uni Würzburg haben es entwickelt.

Seite aus einer französischen Version des "Narrenschiffs". Solche alten Schriften lassen sich mit OCR4all zuverlässig in computerlesbaren Text umwandeln. (Staats- und Universitätsbibliothek Dresden, CC BY-SA 4.0 creativecommons.org/licenses/by-sa/4.0/deed.de)

Historiker, Germanisten und andere Geisteswissenschaftler haben es oft mit schwierigen Forschungsobjekten zu tun: mit jahrhundertealten Druckwerken, die sich nicht leicht entziffern lassen und die oft schlecht erhalten sind. Viele dieser Dokumente sind inzwischen digitalisiert – in der Regel abfotografiert oder eingescannt – und stehen weltweit online zur Verfügung. Für die Forschung ist das schon einmal ein Fortschritt. Es gibt aber immer noch eine Herausforderung zu meistern: die digitalisierten alten Schriften mit Texterkennungs-Software in eine moderne Form zu bringen, die auch für Nicht-Fachleute und für Computer lesbar ist. Auf diesem Gebiet haben Wissenschaftler vom Zentrum für Philologie und Digitalität der Julius-Maximilians-Universität Würzburg (JMU) für eine deutliche Weiterentwicklung gesorgt.

Mit OCR4all stellt das JMU-Forschungsteam der Fachwelt ein neues Werkzeug zur Verfügung. Es setzt digitalisierte historische Drucke mit einer Fehlerquote von weniger als einem Prozent in computerlesbaren Text um. Und es bietet eine grafische Benutzeroberfläche, für deren Bedienung kein Informatik-Fachwissen nötig ist. Bei bisherigen Tools dieser Art war die Nutzerfreundlichkeit nicht sonderlich ausgeprägt, meist musste mit Programmierbefehlen hantiert werden.

Das neue Werkzeug OCR4all wurde unter der Leitung von Christian Reul mit seinen Informatik-Fachkollegen Professor Frank Puppe (Lehrstuhl für Künstliche Intelligenz und angewandte Informatik) und Christoph Wick sowie mit Uwe Springmann, Fachmann für Digital Humanities, und zahlreichen Studierenden und Hilfskräften entwickelt. Bei der Entwicklung von OCR4all haben die Informatiker eng mit geisteswissenschaftlichen Disziplinen der JMU zusammengearbeitet – unter anderem mit der Germanistik und der Romanistik im Projekt "Narragonien digital". Dort ging es darum, das "Narrenschiff" digital aufzubereiten – eine Moralsatire von Sebastian Brant, ein Bestseller des 15. Jahrhunderts, der in viele Sprachen übersetzt wurde.

Die automatische Texterkennung (OCR = Optical Character Recognition = optische Zeichenerkennung) funktioniert für moderne Schrifttypen seit längerer Zeit sehr gut. Für historische Schriften hat das bislang aber noch nicht gegolten. "Eines der größten Probleme war die Typographie", sagt Reul. Das liege unter anderem daran, dass die ersten Druckereien des 15. Jahrhundert keine einheitlichen Schriften verwendeten. "Ihre Druckstempel waren alle selbst geschnitzt, jede Druckerei hatte praktisch ihre jeweils eigenen Buchstaben und Zeichen."

Ob e oder c, ob v oder r – das ist in alten Drucken oft nicht einfach zu unterscheiden. Eine Software kann aber lernen, solche Feinheiten zu erkennen. Doch dafür muss sie zuerst an Beispielmaterial trainiert werden. In seiner Arbeit hat Reul Methoden entwickelt, um dieses Training effizienter zu machen. In einer Fallstudie mit sechs historischen Drucken aus den Jahren von 1476 bis 1572 konnte dadurch die Fehlerquote bei der automatischen Texterkennung im Schnitt von 3,9 auf 1,7 Prozent gesenkt werden.

Blog-Beiträge durchblättern

Forscher entwickeln automatische Texterkennung für antike Keilschrifttafeln

Eine neue künstliche Intelligenz (KI) kann schwer zu lesende Texte auf Keilschrifttafeln entschlüsseln. Entwickelt wurde diese von einem Team der Martin-Luther-Universität Halle-Wittenberg (MLU), der Hochschule Mainz und der Johannes Gutenberg-Universität Mainz. Statt Fotos nutzt die KI 3D-Modelle der Tafeln und liefert deutlich zuverlässigere Ergebnisse als bisherige Methoden. So wird es möglich, den Inhalt vieler Tafeln zu durchsuchen und miteinander zu vergleichen. Das eröffnet völlig neue Perspektiven für die Forschung.

24.11.2023

Forschung

Objekte als Botschafter

Die Historikerin Babett Edelmann-Singer erforscht das Zusammenspiel von Objekten und Macht in der Antike. Ausgestattet mit einer Heisenberg-Stelle ist sie dafür an die Universität Würzburg gewechselt.

18.11.2022

Personalia

Historische Handschriften digital erkennen

Der Ausgangstext einer historischen Handschrift kann in verschiedenen Ansichten der Transkription in computerlesbaren Text zeilengenau gegenübergestellt und bei Bedarf korrigiert werden

Die Texterkennungssoftware OCR4all kommt bei historischen Drucken mit sehr gutem Erfolg zum Einsatz. Jetzt wird sie auf alte Handschriften trainiert.

21.01.2022

Kulturerbe

KI bietet großes Potenzial für die Erforschung antiker Literatur

Eine der ältesten Schriften der Welt, die sumerische Keilschrift, entstand im späten vierten Jahrtausend vor Christus im antiken Mesopotamien. "Diese Schrift wurde auf Ton eingraviert", erklärt der Assyriologe Professor Enrique Jiménez bei den vierten virtuellen "KI Lectures" der Ludwig-Maximilians-Universität in München (LMU). "Ton ist das billigste und langlebigste Material für Schrift. Einmal getrocknet, ist es jedoch sehr zerbrechlich, sodass uns nur Fragmente erhalten geblieben sind." Ein mit verschiedenen Datenmodellen gefütterter Algorithmus kann helfen, antike Textfragmente wie die des berühmten Gilgamesch-Epos zu einem vollständigen Text zusammenzuführen. Dadurch wurden bisher etwa 60 Prozent des Werks wiederhergestellt; jedes Jahr werden neue Fragmente gefunden, die richtig zugeordnet werden müssen.

10.12.2021

Forschung

Eine Million Euro für die Digitalisierung mittelalterlicher Handschriften

Seite aus dem Altzeller Kapiteloffiziumsbuch

Die Deutschen Forschungsgemeinschaft (DFG) fördert drei hochkarätige Projekte des Kompetenzzentrums für Handschriften an der Universitätsbibliothek (UB) Leipzig mit insgesamt knapp einer Million Euro. Die jetzt bewilligten Vorhaben umfassen die Digitalisierung und Tiefenerschließung der bedeutenden Erfurter Amploniana-Sammlung, die Aufarbeitung weitestgehend unerforschter mittelalterlicher Handschriften aus elf Institutionen Ostdeutschlands sowie die wissenschaftliche Bearbeitung von Handschriften aus dem Schwarzwaldkloster St. Georgen, die ebenfalls erstmalig digitalisiert werden sollen.

30.08.2019

Digitalisierung

Zurück

RSS-Feeds @ Archäologie Online
Nachrichten
Videos
Podcasts

Newsletter abonnieren

Mit unserem kostenlosen Newsletter können Sie sich regelmäßig alle aktuellen Infos von Archäologie Online bequem in Ihr Postfach senden lassen.