18 окт. 2010 г.

Установка и тестирование OCR tesseract

Прочитал довече статейку о выпуске новой версии tesseract - системы оптического распознования текста c открытым исходным кодом и решил установить и проверить в действии. На сайте в ридми написано что для корректной работы необходимы следующие библиотеки: libpng, libjpeg, libtiff, zlib. Установил все это при помощи комманды:
zypper in libpng12-devel libjpeg-devel libtiff-devel zlib-dev
Для корректной работы также необходим пакет leptonica  - ПО с открытым исходным кодом, необходимый для приложений, работающих и анализирующих изображения. Загружаем leptonica, разархивируем и устанавливаем стандартным способом:
./configure && make && make install && ldconfig
Разархивируем tesseract и устанавливаем
./configure && make && make install && ldconfig
Скачиваем языки для распознавания (tesseract-..tar.gz ) и разархивируем в  /usr/local/share/tessdata. И вуаля - можно использовать tesseract для распознования текстов.
Тестирование.
Распознование производится из коммандной строки по шаблону:
tesseract картинка выходной файл [-l язык]
 Для тестирования использовался первый попавшийся  под руку лист с текстом (фотографировался цифровым фотоаппаратом с разрешением 3000х4000)
При попытке распознования tesseract 1.jpg 1txt -l rus получил ошибку
name_to_image_type:Error:Unrecognized image type:1.jpg
IMAGE::read_header:Error:Can't read this image type:1.jpg
Read of file 1.jpg failed.
В результате пришлось конвертировать файл в формат tiff( размер файла увеличился с 2.6 Мб до 45.8 Мб). После данной манипуляции файл распознался, но сносно. При попытке кадрирования, для захвата  только листа с текстом - результат получился хуже.
Скорее всего при сканировании документов через сканер и распознования оных результ получится по лучше, но проверить сие утверждение не имею физической возможности.

Комментариев нет: