Skip to content

Analyse und Nachkorrektur von OCR-Ergebnissen

11 October, 2011


Ulrich Reffle vom Centrum für Informations- und Sprachverarbeitung (CIS) der Ludwig-Maximilians-Universität referierte über die dokumentenbasierte Analyse und Korrektur von historischen Volltexten.

Dabei ging er zunächst auf die für alte Drucke spezifischen Probleme bei der OCR-Texterkennung ein. Anschließend wurde die Möglichkeiten dokumentspezifischer Sprach- und Fehlerprofile erläutert. Historische Werke unterscheiden sich in ihren spezifischen Charakteristika (verwendete Sprachen, Schrifttypen, etc.) oft deutlich mehr als moderne Texte. Entsprechend kann Wissen darüber zu einer deutlichen Verbesserung der Qualität von OCR-Ergebnissen, Nachkorrektur und Information Retrieval (Suche) führen. Die Profile werden dabei vollautomatisch auf Basis der reinen OCR-Ausgabe erstellt.

Ihren konkreten Einsatz präsentierte der Referent am interaktiven Nachkorrektursystem des CIS. Es erkennt historische Schreibvarianten und bietet eine Batchkorrektur für typische OCR-Fehler. Eigene Tests hätten eine Beschleunigung um das 2,7-fache gegenüber der Korrektur Wort für Wort ergeben.

Das Korrektursystem soll demnächst als (vorerst) kostenloser Webservice bereitgestellt werden.

__________________________________________________________

Ulrich Reffle, who works at the Centre of Information and Language Processing of the Ludwig-Maximilians-University Munich, spoke about document-centric analysis and error detection, which can enable faster and easier correction of OCRed historical texts.

 

RM (BSB); Mark-Oliver Fischer (BSB)

No comments yet

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: