Skip to content

Evaluierungswerkzeuge

11 October, 2011


Stefan Pletschacher von der University of Salford präsentierte Methoden zur automatisierten Evaluierung der Qualität von OCR-Ergebnissen.

‘Qualität’ ist dabei keine feste Größe, sondern abhängig von den gewünschten Zwecken. Werden OCR-Fehler auf Zeichen- oder Wortebene gezählt? Sind Fehler in Überschriften schlimmer als in Fußnoten? Wie werden Fehler in der Layouterkennung (z.B. als Fließtext erkannte Überschriften, falsche Lesereihenfolge, …) gewertet?

Für eine automatisierte Evaluierung ist “Ground Truth” unerlässlich, also annähernd 100% ‘richtige’, in Handarbeit erstellte Volltexte und Strukturinformationen. Dazu hat IMPACT Hilfsmittel wie ‘Aletheia’ (griech. die Wahrheit) entwickelt.

Anschließend stellte Herr Pletschacher das von IMPACT verwendete PAGE-Dateiformat vor und ging im Detail auf die verschiedenen Typen von Layout- und OCR-Fehlern und die Schwierigkeit ihrer Gewichtung ein.

_____________________________________________________

Stefan Pletschacher from the University of Salford presented methods to evaluate OCR results. For a proper evaluation, ‘ground truth’, that is almost 100% correct text is needed. But a big challenge lies in how to calculate the gravity of different kinds of errors. Will character or word accuracy be used? Do errors in heading count more than errors in footnotes? How are errors in a page’s structure measured?

 

RM (BSB); Mark-Oliver Fischer (BSB)

No comments yet

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: