Автор: Алексей Федорчук
Впервые опубликовано: LinuxFormat, #144 (май 2011)
До недавнего времени Linux не мог похвастаться эффективными средствами для распознавания текстов: резонные люди рекомендовали прибегать к связке из FineReader+Wine.
Да и задача эта не выглядела актуальной: мне казалось, что большая часть «старого» контента уже оцифрована, а новый только в цифровой форме и создаётся. Однако по мере развития своих гуманитарных проектов (геологических и исторических) я убедился, что был не прав: существует море «неокученных» старых материалов по этой теме. А материалы новые часто легче оцифровать с печатных версий, чем получить «файлы-исходники»: увы, один за другим уходят мамонты советской геологии.
Но действительности со свободными средствами распознавания оказалось «всё не так суицидально, ежли в корень посмотреть»: в 2008 году были открыты исходники OCR Cuneiform, которые тут же портировались на Linux и FreeBSD.
Правда, прямое применение Cuneiform к свежесканированным страницам производило удручающее впечатление. Однако дело оказалось легко поправимо благодаря программам:
- Scan Tailor (разработка Иосифа Арцимовича) — она выполняет предварительную коррекцию отсканированного документа, и
- YAGF (создана Андреем Боровским) — это интегрирующая графическая оболочка для Cuneiform, упрощающая её использование и расширяющая возможности.
Связка из этих трёх инструментов даёт результат хотя и не идеальный, но более чем приемлемый. С чем можно ознакомиться на сайтах Памяти Советской геологии и Гиштория.
Моё мнение таково. Я это всё пробовал. В итоге сходил в магаз и купил коробку с файнридером. :-)
Что ж, тоже вариант :)
Да, всё по-прежнему «запущенно». Результаты распознавания таблиц плачевны. Распознавание украинского текста много хуже чем русского. Который сам так себе распознаётся. Количество ошибок распознавания делает время коррекции результата распознавания сравнимым с набором с нуля.
Относительно недавно решил посмотреть состояние OCR — кратко .. ужоссс.
Проще воспользоваться онлайн файнридером если нужно распознать редко и мало.