zypper in libpng12-devel libjpeg-devel libtiff-devel zlib-dev
Для корректной работы также необходим пакет leptonica - ПО с открытым исходным кодом, необходимый для приложений, работающих и анализирующих изображения. Загружаем leptonica, разархивируем и устанавливаем стандартным способом:
./configure && make && make install && ldconfig
Разархивируем tesseract и устанавливаем
./configure && make && make install && ldconfig
Скачиваем языки для распознавания (tesseract-
Тестирование.
Распознование производится из коммандной строки по шаблону:
tesseract картинка выходной файл [-l язык]
Для тестирования использовался первый попавшийся под руку лист с текстом (фотографировался цифровым фотоаппаратом с разрешением 3000х4000)
При попытке распознования tesseract 1.jpg 1txt -l rus получил ошибку
name_to_image_type:Error:Unrecognized image type:1.jpg
IMAGE::read_header:Error:Can't read this image type:1.jpg
Read of file 1.jpg failed.
В результате пришлось конвертировать файл в формат tiff( размер файла увеличился с 2.6 Мб до 45.8 Мб). После данной манипуляции файл распознался, но сносно. При попытке кадрирования, для захвата только листа с текстом - результат получился хуже.
Скорее всего при сканировании документов через сканер и распознования оных результ получится по лучше, но проверить сие утверждение не имею физической возможности.
Комментариев нет:
Отправить комментарий