Есть ли какой-нибудь PDF для преобразования текста?

21

Мне нужны файлы PDF для текста, чтобы я мог выполнять поиск по ним из командной строки. Есть ли какой-нибудь конвертер для Ubuntu, OBSD или аналогичного дистрибутива?

Возможно, связанный пост, OCR с Ubuntu здесь .

эфирное масло
источник
3
Подобный вопрос у Супер пользователя
Жиль "ТАК - перестань быть злым"
Если это «настоящий» PDF (сделанный из текста и т. Д.), Pdftotext - ваш лучший выбор. Если это изображение, вам лучше всего использовать материал для распознавания текста.
vonbrand
1
Я всегда использую pdftotext= pdfcat.
изоморфизм

Ответы:

22

У вас есть много вариантов!

pdftotextот попплера уже упоминалось.

Есть программа на Haskell,pdf2line которая работает хорошо.

Калибра «сек ebook-convertпрограмма командной строки (или калибр сам по себе) является еще одним вариантом; он может конвертировать PDF в обычный текст или в другой формат книги (RTF, ePub), по моему мнению, он дает лучшие результаты, чем pdftotext, хотя и значительно медленнее.

ebook-convert file.pdf file.txt

AbiWord может конвертировать между любыми форматами, которые он знает из командной строки, и, по крайней мере, дополнительно имеет плагин для импорта PDF:

abiword --to=txt file.pdf

Еще один вариант - podofotextextractиз библиотеки инструментов podofo PDF. Я действительно не пробовал это.

Если вы объедините два инструмента Ghostscript, pdf2psи у ps2asciiвас есть еще один вариант.

На самом деле я могу придумать еще несколько методов, но пока оставлю это. ;)

радостный
источник
откалиброванная электронная книга от калибра ... ты видел, что она делает с лигатурами? bleargh. Скажем так: это не очень эффективная программа. pdftotext намного более верен. я никогда не обнаруживал никаких ошибок в его выводе.
ixtmixilix
1
Вы можете использовать меньше для просмотра PDF-файлов в виде текста. Он вызывает препроцессор, т.е. lesspipe, для вызова pdftotext или аналогичных инструментов.
Даниэль Нэслунд
pdftotextдает более точные результаты, чем ebook-convertи это очень быстро. ebook-convertвялый
Амит Патель
pdftotextс -layoutопцией рок! calibreтребуется более 600 МБ для установки! Это безумие)
Сталинко
9

Вы можете конвертировать PDF в текст из командной строки с помощью pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).

Вы можете использовать Recoll (Ubuntu: recoll ; OpenBSD: нет порта, но есть один для FreeBSD .) Для поиска в различных форматированных текстовых документах, включая PDF. Там есть графический интерфейс, и он автоматически строит индекс. Он использует pdftotextдля преобразования PDF в текст.

Acrobat Reader (по крайней мере версия 9 для Linux) имеет ограниченную возможность поиска по нескольким файлам (вы можете искать во всех файлах в каталоге).

Жиль "ТАК - перестань быть злым"
источник
4

pdftotext, скорее всего, то, что вы ищете: http://en.wikipedia.org/wiki/Pdftotext, если только текст, который вы хотите извлечь, не имеет графической формы, что не так часто встречается в документах pdf.

jlliagre
источник
-1

gPDFText преобразует содержимое PDF книги в текст ASCII, переформатированный для длинных абзацев, работает для меня и имеет графический интерфейс.

Чарльз
источник
3
Привет и добро пожаловать на сайт. Нам нравятся ответы, которые будут немного более полными здесь. Например, вы можете добавить, где gPDFTextможно получить информацию, как ее можно установить и как ее использовать для ответа на вопрос ОП.
Тердон