Конвертер PDF в текст [закрыт]

9

Я ищу способ "одним щелчком" взять ЛЮБОЙ PDF и преобразовать его в обычный текст. В идеале на OSX или Linux.

В идеале решение должно включать в себя функциональность OCR, но это не обязательно.

Главным приоритетом является то, что может принять любой файл без конфигурации.

зеркало
источник

Ответы:

23

Там xpdf, который включает в себя pdftotextдвоичный файл.

Pdftotext преобразует файлы Portable Document Format (PDF) в обычный текст.

На Linux доступен установщик. Кажется, что это также входит в poppler-utilsпакет. На OS X вы можете установить его, используя Homebrew (сначала установите его), а затем использовать

brew install homebrew/x11/xpdf

который загрузит исходные файлы и скомпилирует его для OS X. После этого просто используйте его так:

pdftotext your_pdf_file.pdf

который сгенерирует простой текстовый файл. Есть также несколько вариантов, проверьте man pdftotextдля более подробной информации.

Альтернативой является poppler , в OSX:

brew install poppler

в Debian и друзья

apt-get install poppler-utils
slhck
источник
на сегодняшний день командаbrew install homebrew/x11/xpdf
Диего Виейра
1
@DiegoVieira Спасибо. В следующий раз не стесняйтесь предложить редактирование!
slhck
какое-то преимущество использования poppler вместо xpdf / pdftotext?
Гонсало Бахамондез,
brew install Caskroom/cask/pdftotext
Хьюго