oio11: (Default)
[personal profile] oio11
4 июня 2010 в 13:32

Распознаем текст с помощью cuneiform

Поступила задача наладить автоматическое распознание текста с фотографий, т.е. пользователь при загрузке фотогографии на сервер, получает еще и распознанный с нее текст. Сказано — сделано. Было найдено хорошее бесплатное консольное решение — cuneiform. Никсовая версия лежит здесь: https://launchpad.net/cuneiform-linux.

Итак, установка. В Убунте кстати доступна версия 0.7 из репозитариев. Версия 0.9 является последней на данный момент.

wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2
tar xvjf cuneiform-linux-0.9.0.tar.bz2
cd cuneiform-linux-0.9.0
mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make install

Дополнительный аргумент "-DCMAKE_INSTALL_PREFIX=/your/dir" установит cuneiform в нужную директорию.
Запускать можно со следующими аргрументами:

-l
Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.

-o
Сохраняет в файл.

-f
Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)

--dotmatrix
Оптимизация работы скрипта под изображение, распечатанное с помощью матричного принтера.

--fax
Оптимизация работы скрипта под изображение, распечатанное с помощью факса.

--singlecolumn
Отключает анализ страницы и подразумевает, что у нас изображение состоит из одной колонки текста.

Пример использования:
cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif

GUI


Далее захотелось уже графический интерфейс под бытовые нужды. Есть 2 штуки на выбор — это YAGF и Cuneiform-Qt:

YAGF

Cuneiform-Qt

Было решено пользовать YAGF. Он тоже написан на qt и требует еще пакет проверки орфографии aspell. Скачиваем, устанавливаем:

wget http://symmetrica.net/cuneiform-linux/yagf-0.8.1.tar.gz
tar xvfz yagf-0.8.1.tar.gz
cd yagf-0.8.1/
cmake ./
make
make install

комментарии

+2
develop7, #
В Pdf OCR PPA лежат пакеты с cuneiform 0.9.1.
+1
develop7, #
+3
develop7, #
Любопытно, застану ли я день, когда авторы топиков на хабре освоят поиск по PPA?
..........................
http://habrahabr.ru/post/95479/

http://aptosid.com/index.php?name=PNphpBB2&file=viewtopic&t=423


http://us.generation-nt.com/answer/qt4-help-200697201.html
(will be screened)
(will be screened if not validated)
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

If you are unable to use this captcha for any reason, please contact us by email at support@dreamwidth.org

May 2025

S M T W T F S
    123
45678910
11121314151617
181920212223 24
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 10th, 2025 01:48 am
Powered by Dreamwidth Studios