Skip to content

Verbesserte OCR-Software für historische Dokumente

11 October, 2011


In seinem zweiten Vortrag des Tages ging Gerd Zechmeister von der Österreichischen Nationalbibliothek zunächst kurz darauf ein, was Optical Character Recognition (OCR) und wofür man sie verwendet, bevor er die einzelnen Verarbeitungsschritte einer typischen OCR-Software erläuterte.  Diese beginnen mit der Bildvorverarbeitung, worauf Layout-Analyse und Segmentierung sowie die eigentliche Zeichen- bzw. Mustererkennung folgt.

Der OCR-Technologie-Partner in IMPACT ist Abbyy, in deren FineReader-Engine 10 sich bereits einige im Rahmen des Projekts entwickelte Verbesserungen finden.  Wie bereits im Vortrag von Frau Gotscharek zu hören, spielen auch Wörterbücherbei der korrekten Volltexterkennung eine große Rolle. Hier ging Herr Zechmeister auf die Bemühungen ein, externe Wörterbücher besser in FineReader zu integrieren.

Anschließend streifte er das Thema der Eigennamenerkennung (Named Entities), bevor er beispielhaft Ergebnisse der OCR-Texterkennung mit und ohne in den Workflow eingebundene Bildvorverarbeitung miteinander verglich.

_____________________________________________________

In his second talk of the day, Gerd Zechmeister of the Austrian National Library spoke about Optical Character Recognition (OCR), the processing steps of a typical OCR software, and Abbyy’s role as technology provider in IMPACT.

RM (BSB); Mark-Oliver Fischer (BSB)

No comments yet

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: