Linux и OCR — братья на век

Автор: Алексей Федорчук
Впервые опубликовано:  LinuxFormat, #144 (май 2011)

До недавнего времени Linux не мог похвастаться эффективными средствами для распознавания текстов: резонные люди рекомендовали прибегать к связке из FineReader+Wine.

Да и задача эта не выглядела актуальной: мне казалось, что большая часть «старого» контента уже оцифрована, а новый только в цифровой форме и создаётся. Однако по мере развития своих гуманитарных проектов (геологических и исторических) я убедился, что был не прав: существует море «неокученных» старых материалов по этой теме. А материалы новые часто легче оцифровать с печатных версий, чем получить «файлы-исходники»: увы, один за другим уходят мамонты советской геологии.

Но действительности со свободными средствами распознавания оказалось «всё не так суицидально, ежли в корень посмотреть»: в 2008 году были открыты исходники OCR Cuneiform, которые тут же портировались на Linux и FreeBSD.

Правда, прямое применение Cuneiform к свежесканированным страницам производило удручающее впечатление. Однако дело оказалось легко поправимо благодаря программам:

  • Scan Tailor (разработка Иосифа Арцимовича) — она выполняет предварительную коррекцию отсканированного документа, и
  • YAGF (создана Андреем Боровским) — это интегрирующая графическая оболочка для Cuneiform, упрощающая её использование и расширяющая возможности.

Связка из этих трёх инструментов даёт результат хотя и не идеальный, но более чем приемлемый. С чем можно ознакомиться на сайтах Памяти Советской геологии и Гиштория.

Linux и OCR — братья на век: 4 комментария

  1. Моё мнение таково. Я это всё пробовал. В итоге сходил в магаз и купил коробку с файнридером. :-)

  2. Да, всё по-прежнему «запущенно». Результаты распознавания таблиц плачевны. Распознавание украинского текста много хуже чем русского. Который сам так себе распознаётся. Количество ошибок распознавания делает время коррекции результата распознавания сравнимым с набором с нуля.

  3. Относительно недавно решил посмотреть состояние OCR — кратко .. ужоссс.
    Проще воспользоваться онлайн файнридером если нужно распознать редко и мало.

Обсуждение закрыто.