Ocr

Moin,

kennt jemand eine gute (Open Source) OCR-Anwendung für Linux?

Grüße

godam

Mit tesseract habe ich recht gute Erfahrungen gemacht. Kommt halt auf die Ansprüche an, eine ordentliche Windows-OCR-Software ist sicher besser.

Hallo godam,

kennt jemand eine gute (Open Source) OCR-Anwendung für Linux?

Meine Empfehlung ist Cuneiform
http://wiki.ubuntuusers.de/Cuneiform-Linux
mit YAGF als Frontend
http://wiki.ubuntuusers.de/YAGF
Für mich war besonders interessant, daß Cuneiform auch im .hOCR-Format ausgeben kann, aus dem sich dann durchsuchbare pdf-Dateien erstellen lassen.
Bei unscharfen bzw. zu kleinen Schriften sinkt die Erkennungsrate erwartungsgemäß. Abhilfe bringt da öfters Gimp mit „Filter -> Verbessern -> Schärfen“ bzw. „Bild -> Bild skalieren“. Wahrscheinlich kann man für solche Fälle auch ein Skript mit ImageMagick basteln, um solche Problemfälle automatisiert zu verbessern. Das war bei mir aber noch nicht notwendig, soviel OCR fällt da nicht an.
Das schon erwähnte tesseract-ocr soll auch sehr gut sein. Ausprobiert habe ich es aber noch nicht.
Einen Vergleich zu Windows-Programmen kann ich nicht machen, wäre mal interessant.

Viele Grüße
Marvin