oio11: (Default)
[personal profile] oio11
4 июня 2010 в 13:32

Распознаем текст с помощью cuneiform

Поступила задача наладить автоматическое распознание текста с фотографий, т.е. пользователь при загрузке фотогографии на сервер, получает еще и распознанный с нее текст. Сказано — сделано. Было найдено хорошее бесплатное консольное решение — cuneiform. Никсовая версия лежит здесь: https://launchpad.net/cuneiform-linux.

Итак, установка. В Убунте кстати доступна версия 0.7 из репозитариев. Версия 0.9 является последней на данный момент.

wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2
tar xvjf cuneiform-linux-0.9.0.tar.bz2
cd cuneiform-linux-0.9.0
mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make install

Дополнительный аргумент "-DCMAKE_INSTALL_PREFIX=/your/dir" установит cuneiform в нужную директорию.
Запускать можно со следующими аргрументами:

-l
Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.

-o
Сохраняет в файл.

-f
Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)

--dotmatrix
Оптимизация работы скрипта под изображение, распечатанное с помощью матричного принтера.

--fax
Оптимизация работы скрипта под изображение, распечатанное с помощью факса.

--singlecolumn
Отключает анализ страницы и подразумевает, что у нас изображение состоит из одной колонки текста.

Пример использования:
cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif

GUI


Далее захотелось уже графический интерфейс под бытовые нужды. Есть 2 штуки на выбор — это YAGF и Cuneiform-Qt:

YAGF

Cuneiform-Qt

Было решено пользовать YAGF. Он тоже написан на qt и требует еще пакет проверки орфографии aspell. Скачиваем, устанавливаем:

wget http://symmetrica.net/cuneiform-linux/yagf-0.8.1.tar.gz
tar xvfz yagf-0.8.1.tar.gz
cd yagf-0.8.1/
cmake ./
make
make install

комментарии

+2
develop7, #
В Pdf OCR PPA лежат пакеты с cuneiform 0.9.1.
+1
develop7, #
+3
develop7, #
Любопытно, застану ли я день, когда авторы топиков на хабре освоят поиск по PPA?
..........................
http://habrahabr.ru/post/95479/

http://aptosid.com/index.php?name=PNphpBB2&file=viewtopic&t=423


http://us.generation-nt.com/answer/qt4-help-200697201.html

May 2025

S M T W T F S
    123
45678910
11121314151617
181920212223 24
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 14th, 2025 08:33 pm
Powered by Dreamwidth Studios