У меня есть несколько отсканированных документов в формате PDF, и я хочу иметь возможность искать их. Как я могу это сделать?
По сути, я должен OCR PDF, а затем смешать извлеченный текст обратно в новый PDF. Я безуспешно пробовал несколько различных решений (в том числе найденных в разделе Добавление информации OCR в PDF ).
- pdfocr (который дает мне эту проблему: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (о котором центр программного обеспечения говорит, что это плохой пакет, и я не должен его устанавливать)
- OCRfeeder (в центре программного обеспечения) хорошо экспортирует в odt, но не реагирует при экспорте в pdf.
- Gscan2pdf экспортирует полностью черное (но доступное для поиска) изображение, как описано в этом обсуждении .
- Я не думаю, что программа просмотра Pdfxchange может обрабатывать файлы на 500 и более страницах.
Есть ли программный пакет, о котором я не знаю? Или скрипт, который делает это?
software-recommendation
pdf
ocr
don.joey
источник
источник
pdf2searchablepdf
. Это зависит отtesseract
. Это работает хорошо. Супер прост в использовании. Посмотреть здесь. askubuntu.com/a/1187881/327339Ответы:
Ubuntu <16.04
После комментария Glutanimate я нашел рабочее решение. Это скрипт OCRmyPDF .
Если вы получаете сообщение о том, что вы должны установить GNU параллельно. Это можно сделать (следуя /ubuntu//a/298598/115155 ) с помощью (вторая строка необязательна и зависит от вашего вкуса и версии):
Наконец, вы можете распознать ваш PDF с помощью команды:
Если кажется, что команда не отвечает, вы можете увеличить многословие, используя
-v
флаг (который можно использовать постепенно-vv
или как-vvv
). Лучше всего сначала проверить результаты в более коротком PDF. Вы можете сократить PDF следующим образом:Ubuntu> = 16.04
Начиная с Ubuntu 16.04 OCRmyPDF стал доступен через apt. Просто беги
Наконец, вы можете распознать ваш PDF с помощью команды:
Если кажется, что команда не отвечает, вы можете увеличить многословие, используя
-v
флаг (который можно использовать постепенно-vv
или как-vvv
). Лучше всего сначала проверить результаты в более коротком PDF. Вы можете сократить PDF следующим образом:Если у вас есть какие-либо вопросы, загляните в новый Github Repo .
источник
sudo -H pip install git+https://github.com/jbarlow83/OCRmyPDF
для Ubuntu 16.04sudo apt install ocrmypdf
.@ don.joey ответил с помощью сценария ocrmypdf . Однако его можно установить прямо сейчас (с 16.10 и далее).
Затем вы должны установить Тессеракт вам язык.
Чтобы увидеть, какие языки уже есть в вашей системе, введите:
В случае, если вы пропустите один, установите его. Например,
Теперь вы можете создать PDF-файл с возможностью поиска (качество которого зависит от отсканированного документа) с помощью следующей команды
Вы можете, конечно, проверить его справочную страницу для некоторых дополнительных опций.
источник
pdfsandwich
выполняет именно эту работу. Я не знал, что в центре программного обеспечения есть пакет, но я предоставляю для него Deb-пакеты Ubuntu на веб-сайте проекта ( подробности см. Http://www.tobias-elze.de/pdfsandwich/ ), включая самую последнюю версию (0.1.2), которая вряд ли будет в каком-либо программном центре.Если у вас есть отсканированный файл
scanned_file.pdf
, просто позвонитекоторый генерирует файл
scanned_file_ocr.pdf
с распознанным текстом, добавленным к отсканированным страницам.По сравнению с большинством существующих решений он автоматически определяет установленную версию tesseract и соответствующим образом адаптирует свое поведение. Кроме того, он выполняет предварительную обработку отсканированных изображений перед процессом оптического распознавания текста, например удаление перекоса или удаление темных краев и т. Д., Что может значительно улучшить оптическое распознавание символов.
ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Я разработчик
pdfsandwich
и, следовательно, сильно предвзятый.источник
OCRfeeder имеет ошибку в
строка 436 должна гласить:
изменил это, и это сработало для меня
источник
ОС: Ubuntu 18.04
Сначала установите
tesseract-ocr
с помощью:Если вы собираетесь использовать другой язык, кроме английского, с tesseract, то вам нужно будет установить соответствующий языковой пакет. Например, для португальского языка вам нужно сделать:
В противном случае вы получите ошибку:
Если вы Google "tesseract PDF", вы, вероятно, найдете этот пост несколько устаревшим . Тем не менее, это дает вам несколько полезных советов. Сначала вам нужно будет конвертировать ваш
.pdf
файл в.tiff
один. Бегать:Если, как и в устаревшем сообщении, вы забыли добавить
alpha -Off
, вы получите следующую ошибку:Теперь вы можете запустить последнюю команду. В конкретном случае, если ваш исходный PDF-файл написан на португальском языке, вам понадобится эта команда:
Сгенерированный файл будет назван
output.pdf
. Если, например, ваш PDF-файл на французском языке, после установки соответствующего файлаtesseract-ocr-fra
вы запустите:И нужный файл снова будет
output.pdf
.источник
У меня была такая же проблема, поэтому я написал это на выходных. Дать ему шанс; это прекрасно работает! Это простая обертка вокруг
tesseract
. Он используетpdftoppm
для преобразования PDF в набор файлов TIFF, затем он используетtesseract
для их распознавания (OCR) и создает PDF-файл с возможностью поиска в качестве вывода. Все промежуточные временные файлы автоматически удаляются по завершении сценария.Исходный код: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Инструкция по установке и использованию
pdf2searchablepdf
:Проверено на Ubuntu 18.04 11 ноября 2019 года.
Установка:
Использование:
Теперь у вас есть PDF-файл с именем mypdf_searchable.pdf , который содержит текст с возможностью поиска!
Выполнено. Оболочка не имеет зависимостей Python, так как в настоящее время она написана полностью на bash.
Ссылки или связанные ресурсы:
pdftoppm
] Извлечение встроенных изображений из PDFисточник