В Linux - Как извлечь текст из текста, .pdf
в котором текст на самом деле является текстом, а не отсканированным изображением? Я хочу что-то, что я могу использовать в командной строке / в сценарии, а не в интерактивном режиме. (Я не хочу конвертировать .tif
и использовать OCR - текст уже доступен в .pdf
файле, так зачем вводить неточности из-за несовершенного OCR?)
23
Ответы:
pdftotext
который идет с попплером, попытается извлечь любой текст, найденный в PDF.источник
Ответ Игнасио очень хорош. На самом деле, это было бы первым делом в моем списке. Ну, это и, возможно, предложить
pdftohtml
инструмент, который также поставляется с poppler, в сочетании с pdfreflow, если вы хотите попытаться собрать текст в абзацы и т. Д. (Конечно, это даст вам вывод HTML, но преобразование HTML в простой текст может быть сделано разными способами.)Вот и некоторые другие варианты.
Инструмент
ebook-convert
командной строки от Caliber , который может конвертировать .PDFs в простой текст (или RTF или ряд форматов электронных книг, таких как ePub и т. Д.)pdftxtextract
из ПодофоAbiword может быть вызван из командной строки для преобразования между любыми форматами, которые он может вводить из / export, и с соответствующим плагином импорта, включая PDF-файлы:
abiword --to=txt file.pdf
(Честно говоря, я думаю, что AbiWord и Calibre оба используют библиотеки Poppler, но я не уверен.)
источник