Есть ли какой-нибудь PDF для преобразования текста?
21
Мне нужны файлы PDF для текста, чтобы я мог выполнять поиск по ним из командной строки. Есть ли какой-нибудь конвертер для Ubuntu, OBSD или аналогичного дистрибутива?
Если это «настоящий» PDF (сделанный из текста и т. Д.), Pdftotext - ваш лучший выбор. Если это изображение, вам лучше всего использовать материал для распознавания текста.
Калибра «сек ebook-convertпрограмма командной строки (или калибр сам по себе) является еще одним вариантом; он может конвертировать PDF в обычный текст или в другой формат книги (RTF, ePub), по моему мнению, он дает лучшие результаты, чем pdftotext, хотя и значительно медленнее.
ebook-convert file.pdf file.txt
AbiWord может конвертировать между любыми форматами, которые он знает из командной строки, и, по крайней мере, дополнительно имеет плагин для импорта PDF:
откалиброванная электронная книга от калибра ... ты видел, что она делает с лигатурами? bleargh. Скажем так: это не очень эффективная программа. pdftotext намного более верен. я никогда не обнаруживал никаких ошибок в его выводе.
ixtmixilix
1
Вы можете использовать меньше для просмотра PDF-файлов в виде текста. Он вызывает препроцессор, т.е. lesspipe, для вызова pdftotext или аналогичных инструментов.
Даниэль Нэслунд
pdftotextдает более точные результаты, чем ebook-convertи это очень быстро. ebook-convertвялый
Амит Патель
pdftotextс -layoutопцией рок! calibreтребуется более 600 МБ для установки! Это безумие)
Сталинко
9
Вы можете конвертировать PDF в текст из командной строки с помощью pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).
Вы можете использовать Recoll
(Ubuntu: recoll ; OpenBSD: нет порта, но есть один для FreeBSD .) Для поиска в различных форматированных текстовых документах, включая PDF. Там есть графический интерфейс, и он автоматически строит индекс. Он использует pdftotextдля преобразования PDF в текст.
Acrobat Reader (по крайней мере версия 9 для Linux) имеет ограниченную возможность поиска по нескольким файлам (вы можете искать во всех файлах в каталоге).
pdftotext, скорее всего, то, что вы ищете: http://en.wikipedia.org/wiki/Pdftotext, если только текст, который вы хотите извлечь, не имеет графической формы, что не так часто встречается в документах pdf.
Привет и добро пожаловать на сайт. Нам нравятся ответы, которые будут немного более полными здесь. Например, вы можете добавить, где gPDFTextможно получить информацию, как ее можно установить и как ее использовать для ответа на вопрос ОП.
pdftotext
=pdfcat
.Ответы:
У вас есть много вариантов!
pdftotext
от попплера уже упоминалось.Есть программа на Haskell,
pdf2line
которая работает хорошо.Калибра «сек
ebook-convert
программа командной строки (или калибр сам по себе) является еще одним вариантом; он может конвертировать PDF в обычный текст или в другой формат книги (RTF, ePub), по моему мнению, он дает лучшие результаты, чем pdftotext, хотя и значительно медленнее.ebook-convert file.pdf file.txt
AbiWord может конвертировать между любыми форматами, которые он знает из командной строки, и, по крайней мере, дополнительно имеет плагин для импорта PDF:
abiword --to=txt file.pdf
Еще один вариант -
podofotextextract
из библиотеки инструментов podofo PDF. Я действительно не пробовал это.Если вы объедините два инструмента Ghostscript,
pdf2ps
и уps2ascii
вас есть еще один вариант.На самом деле я могу придумать еще несколько методов, но пока оставлю это. ;)
источник
pdftotext
дает более точные результаты, чемebook-convert
и это очень быстро.ebook-convert
вялыйpdftotext
с-layout
опцией рок!calibre
требуется более 600 МБ для установки! Это безумие)Вы можете конвертировать PDF в текст из командной строки с помощью pdftotext (Ubuntu: poppler-utils ; OpenBSD:
xpdf-utils
package).Вы можете использовать Recoll (Ubuntu: recoll ; OpenBSD: нет порта, но есть один для FreeBSD .) Для поиска в различных форматированных текстовых документах, включая PDF. Там есть графический интерфейс, и он автоматически строит индекс. Он использует
pdftotext
для преобразования PDF в текст.Acrobat Reader (по крайней мере версия 9 для Linux) имеет ограниченную возможность поиска по нескольким файлам (вы можете искать во всех файлах в каталоге).
источник
pdftotext, скорее всего, то, что вы ищете: http://en.wikipedia.org/wiki/Pdftotext, если только текст, который вы хотите извлечь, не имеет графической формы, что не так часто встречается в документах pdf.
источник
gPDFText преобразует содержимое PDF книги в текст ASCII, переформатированный для длинных абзацев, работает для меня и имеет графический интерфейс.
источник
gPDFText
можно получить информацию, как ее можно установить и как ее использовать для ответа на вопрос ОП.