во-первых, извинения, если об этом уже спрашивали - я некоторое время искал по существующим сообщениям, но не смог найти поддержку.
Я заинтересован в решении для Fedora OCR многостраничного PDF без возможности поиска и превращения этого PDF-файла в новый PDF-файл, который содержит текстовый слой поверх изображения. На Mac OSX или Windows мы могли бы использовать Adobe Acrobat, но на Linux, особенно на Fedora?
https://snippets.webaware.com.au/howto/pdf-ocr-linux/, кажется, описывает решение - но, к сожалению, я уже потерялся при получении точного изображения.
command-line
pdf
ocr
Ingli
источник
источник
Ответы:
Лучший и самый простой выход -
pypdfocr
это не менять PDF. pypdfocr - ссылка на модуль Python здесь.В конце у вас будет другой,
your_document_ocr.pdf
как вы хотите, с возможностью поиска текста. Приложение не меняет качество изображения. Немного увеличивает размер файла, добавляя оверлейный текст.Я думаю, что команда довольно проста, что она не нуждается в графическом интерфейсе. Возможно установка pypdfocr немного более многословна:
Обновление 3 ноября 2018 года:
pypdfocr
больше не поддерживается с 2016 года, и я заметил некоторые проблемы из-за незанятости.ocrmypdf
( модуль ) выполняет знакомую работу и может использоваться следующим образом:Установить:
или
источник
Узнав, что tesseract теперь также может создавать PDF-файлы с возможностью поиска, я нашел сэндвич со сценарием: http://www.tobias-elze.de/pdfsandwich/
после установки зависимостей (это может быть не полный список)
Я следовал руководству сценария по компиляции из исходного кода
и теперь это позволяет мне бежать
в результате чего для поиска PDF.
источник
Простой инструмент, доступный в Ubuntu, - «ocrfeeder», он позволяет создавать PDF-файлы с текстом OCR, наложенным на исходные документы. Он использует Tesseract и другие механизмы распознавания (не знаю, какой именно), а также обеспечивает поворот изображения / «без бумаги» и т. Д.
источник
У меня была такая же проблема, поэтому я написал это на выходных. Дать ему шанс; это прекрасно работает! Это простая обертка вокруг
tesseract
. Он используетpdftoppm
для преобразования PDF в набор файлов TIFF, затем он используетtesseract
для их распознавания (OCR) и создает PDF-файл с возможностью поиска в качестве вывода. Все промежуточные временные файлы автоматически удаляются по завершении сценария.Исходный код: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Инструкция по установке и использованию
pdf2searchablepdf
:Проверено на Ubuntu 18.04 11 ноября 2019 года.
Установка:
Использование:
Теперь у вас есть PDF-файл с именем mypdf_searchable.pdf , который содержит текст с возможностью поиска!
Выполнено. У него нет зависимостей Python, так как в настоящее время он полностью написан на bash.
Ссылки или связанные ресурсы:
источник