Skip to content

Vragen en antwoorden tijdens #impactdemo

21 February, 2011

Introductie van IMPACT
V: Werkt IMPACT ook aan Latijn?
A: Momenteel nog niet, tot nu toe waren andere talen urgenter.

V: Is er ook samenwerking mogelijk met bedrijven voor textmining zoals bijvoorbeeld Zylab?
A: Dit soort bedrijven kunnen lid worden van het IMPACT Centre of Competence en bijvoorbeeld meehelpen om IMPACT tools te testen.

Kennisbank Digitalisering
V: Zijn er voorbeelden van algemene tips op digitaliseringsgebied?
A: Dit is sterk afhankelijk van het materiaal. Scans van 300 dpi zijn wel een absoluut minimum voor OCR software.

V: Zijn de IMPACT tools geschreven in één programmeertaal?
A: Nee, in verschillende programmeertalen, maar ze zullen wel gecombineerd worden via een uniform interface (zie presentatie ‘Framework en evaluatie).

V: Werkt IMPACT ook met manuscripten?
A: Nee, IMPACT richt zich op gedrukte tekst. Wel zijn enkele tools getest op handgeschreven materiaal en dit levert verrassend goede resultaten op.

Beeldverbetering
V: Worden deze beeldverbeteringen machinaal uitgevoerd? En zit dit ook in ABBYY Finereader?
A: Er wordt een lijst afbeeldingen ingevoerd in de tool, het gaat dus niet per pagina. Sommige methodes van beeldverbetering zitten in Finereader, de hier gepresenteerde voorbeelden zijn aparte tools.

V: Wordt er een log bijgehouden van veranderingen aan afbeeldingen?
A: Ja, voor alle tools is er zo’n log. Er wordt nog aan gewerkt om meer gegevens toe te voegen zoals bijvoorbeeld de exacte scheefheid (skew) van een pagina.

OCR en toepassing bij de KB
V: Hoe zit het met de OCR van zaken als wiskundige formules of sierinitialen?
A: Finereader heeft een aparte module voor de herkenning van formules, deze is ook verbeterd. Sierinitialen worden momenteel vaak herkend als illustratie, IMPACT heeft een verzoek ingediend bij de commissie die over het ALTO format gaat om deze als initialen te kunnen aanmerken.

V: Het herkenningspercentage van OCR wordt door de software zelf gegeven, is dit betrouwbaar?
A: In IMPACT vergelijken we de OCR resultaten tevens met ground truth (100% correcte) tekst met layout coördinaten om zeker te zijn dat het percentage correct is.

V: Werkt de OCR goed als er verschillende talen in een tekst voorkomen?
A: Het beste is om in de OCR software aan te geven welke talen in een tekst staan, als dat bekend is.

IMPACT vernieuwingen aan ABBYY Finereader
V: Zijn IMPACT verbeteringen ook opgenomen in ABBYY Fraktur / ABBYY XIX?
A: Ja, de verbeteringen zijn opgenomen in de ABBYY Recognition Server 3, waar Fraktur als module ingezet kan worden.

V: Moet je de bepaalde instellingen van ABBYY zelf activeren om IMPACT verbeteringen te krijgen?
A: Dit is niet nodig: de meeste zijn standaard geactiveerd, zoals bijvoorbeeld de binarisatie.

V: Geeft het ALTO XML formaat alleen de coördinaten van tekstregels?
A: Later zullen ook coördinaten van woorden worden toegevoegd, IMPACT heeft zelfs het verzoek ingediend om coördinaten van aparte karakters in ALTO op te nemen.

Nieuwe benaderingen van OCR: Experimentele OCR
V: Wat zijn de voordelen van deze OCR methoden boven bijvoorbeeld ABBYY Finereader?
A: De wordspotting tool is een goed alternatief bij een klein corpus waar Finereader te duur voor is.

Nieuwe benaderingen van OCR: CONCERT
V: Is er geen gevaar dat letters uit historisch materiaal verkeerd worden geïnterpreteerd?
A: De correctie wordt pas geaccepteerd als minimaal 10 verschillende gebruikers hem hebben goedgekeurd. Het beste is dus om verschillende soorten gebruikers in te zetten.

Bouw van computerlexica en toepassing ervan in OCR en zoekmachines
V: Is materiaal uit bronnen als DBNL en WNL in de lexica verwerkt?
A: Ja, maar pas na een grondige check op fouten.

V: Geeft een groot lexicon niet teveel keuze voor de OCR software?
A: Hiervoor zijn er ook frequentiegegevens in het lexicon verwerkt.

V: Is er nog corpusmateriaal nodig?
A: Materiaal uit de periode 1550 – 1900 is altijd welkom bij het INL (http://www.inl.nl/nl/contact).

Nabewerking
V: Is er een testversie van de Functional Extension Parser beschikbaar?
A: Documenten kunnen naar de Universiteit van Innsbruck worden gestuurd; zij sturen dan de output van de FEP retour. U kunt met hen contact opnemen via http://www.uibk.ac.at/ulb/dea/kontakt/.

V: Is het ook mogelijk om zelf bepaalde condities aan te maken voor de tool?
A: De standaard regelset is aan te passen aan specifieke documenten. Het is ook mogelijk om een eigen regelset te schrijven.

IMPACT Framework en Evaluatie
V: Is er een bepaalde standaard voor het bepalen van het OCR percentage?
A: Het percentage in IMPACT wordt bepaald door vergelijking van het OCR resultaat met ground truth (100% correcte) tekst. Voor de evaluatie van de layout heeft de Universiteit van Salford een methode ontwikkeld gebaseerd op een internationale wetenschappelijke competitie, gehouden op de internationale ICDAR conferentie (zie http://www.cvc.uab.es/icdar2009/papers/3725b370.pdf), de belangrijkste conferentie op het gebied van Document Analysis & Recognition.

No comments yet

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: