Ура! Сообщество бесплатных программ пополнилось, наконец-таки, софтиной, которая может распознавать отсканированный текст на русском языке. Может, где-то за бугром и есть бесплатные программы, которые могут распознать латиницу, но с кириллицей такого не было. А флагман русскоязычного OCR (оптического распознавания текста) оставался платный FineReader (сейчас у компании ABBYY версия FineReader 9.0, которые наши доблестные пираты, наконец-то взломали). В славные 90-е годы у FineReader был более-менее сносный конкурент CuneiForm, но через какое-то время этот продукт от Cognitive Technologies завис на версии 2000 года. Я даже думал, что CuneiForm спекся, однако,…
однако в декабре 2007 г. руководство Cognitive Technologies решилось передать CuneiForm в Open Sourse. Правда пока CuneiForm вышел под грифом Freeware, версия у продукта 12. Дистрибутив CuneiForm 12 размещён на DVD диске к февральскому номеру «Hard’n’soft».
Вчера я устанавливал этот продукт на свой комп и был расстроен, все попытки отсканировать любой текст заканчивались провалом, то есть вылазило окошко «Ошибка при передачи данных«. Ну думаю, фигня это, а не софт и думал было удалить прогу, а дистрибутив стереть с жёсткого диска…
но передумал. А сегодня ко мне пришла идея, что если невозможно отсканировать текст через CuneiForm напрямую, то можно это сделать через другую программу, то есть затем открыть изображение. Через что-же отсканировать? — подумал я. Ведь если сканировать через платные графические программы (Photoshop или ACDSee), то смысл от бесплатности CuneiForm улетучивается.
В моем арсенале бесплатных графических программ есть GIMP 2.4.2, XnView 1.92 и IrfanView 4.10. Я начал с последней и сохранил полученное изображение в формате tiff (другие, вроде bmp или jpg в данном случае не подойдут). На выходе получился файл ScanImage001 размером 412 Кб. Сразу скажу, что для испытания я использовал страницу 13 из учебника «Философия» под ред. В.Д.Губина (М., 2004). После распознавания в полученном тексте было несколько ошибок (а где их не бывает, в том же FineReader они имеются).
Затем я отсканировал тот же текст через GIMP. Попутно отмечу, что прога по времени достаточно загружалась (ещё бы, это же не вьювер, а полноценный графический пакет). Файл Без имени на выходе оказался тяжёлым 3,37 Мб, но зато качество распознавания его в CuneiForm было чуть получше.
Чемпионом же тестирования оказался XnView, давший на выходе файл scan 1 размером 422 Кб, который CuneiForm распознал лучше остальных.
Итак, для начала неплохо. Надеюсь, что новые версии CuneiForm позволят обходиться без вспомогательных программ.
Поживём-увидим.
CuneiForm 12
Пожалуйста, помогите порталу!