Вы должны попробовать pdftotext
(входит в пакет под Ubuntu poppler-utils
). Это конвертер командной строки. Предполагается, что PDF имеет текст и не состоит только из изображений.
Если файл PDF состоит из изображений (без информации об оптическом распознавании символов), вы должны использовать решение для оптического распознавания текста, которое намного медленнее.
Я также успешно использовал метод распознавания текста в PDF-тексте, который был скремблирован (путем размещения отдельных символов на странице нелинейным способом). Затем вы используете, например, pdftoppm
чтобы получить отдельные изображения страниц и OCR те.
Я должен был сделать это для файла PDF один раз, и это было результатом (используя pdftohtml от poppler):
Поток почтовый индекс в Калибр и преобразовать в EPUB. Отфильтруйте все свойства CSS (такие как цвета, шрифты).
Каждый файл PDF отличается - нет окончательного решения. Вышеописанное сработало для одного конкретного случая - вы должны ослабить pdftohtml / pdftotext, а затем настроить вывод в соответствии с вашими потребностями.
Если это не поможет, и вам придется прибегнуть к OCR, мне повезло с клинописью. Но также попробуйте tesseract, ocrad, gocr. Однако все это требует ручного труда для хорошего результата.
источник