oio11: (Default)
oio11 ([personal profile] oio11) wrote2012-07-20 11:42 am

Преобразование файла PDF в текст (linux)

9.04.2012

Преобразование файла PDF в текст (linux)




Представим себе, что Вы - счастливый обладатель дистрибутива Ubuntu.
Представим себе, что Вы в Интернете купили бесплатно скачали книжку.

Но вот, книга есть только в формате PDF.
Найти ее в формате txt не удалось.
Но ее нужно читать на дешевом мобильном телефоне (например samsung C5212), где есть установленная программа ReadManiac.

Задача:
Быстро преобразовать файл из формата в PDF в формат TXT.
Имеется в виду в основном книги по психологии и т.д., в которых отсутствуют рисунки, либо же рисунками можно пренебречь.

Устанавливать для этой цели FineReader в виртуальную машину или параллельно установленную Windows не целесообразно с точки зрения затраченного времени и денег на покупку лицензии скачивание пиратской копии программы с Интернет-сети.

Решение:
1. Устанавливаем нужные консольные пакеты
а) Главное меню - Стандартные - Терминал
б) в терминале пишем
sudo apt-get install poppler-utils
либо же устанавливаем этот пакет через Synaptic
в) Enter
г) вводим пароль админа
д) Enter

2. Чтобы преобразовать PDF в TXT используем команду
pdftotext input_file.pdf output_file.txt 
где 
input_file.pdf - имя вашего файла PDF, полное в том случае, если активный сейчас не тот каталог, где находится файл
output_file.txt - произвольное имя файла txt, например
/media/data/ebook/best_book.txt
Конечно же, в файле txt будут содержатся все символы, что были в pdf (номера страниц, возможно - колонтитулы, ббк-код книги и т.д.), но меня это устраивает. Возможно в программе и можно указывать диапазон страниц для преобразования, но мне сейчас не хочется напрягаться.
Для более подробной информации смотрите справку
man pdftotext

Затраченное время:
Установка программы: 2 секунды
Преобразование книги (509 страниц): 1 секунда.
Проверено на Ubuntu 10.04

http://ubuntu-use-full.blogspot.com/2012/04/pdf.html