У меня хорошее качество сканирования документа; такое сканирование в формате PDF.
Как я могу добавить информацию ocr в pdf, чтобы она стала доступной для поиска? Под поиском я подразумеваю, что целью является то, что при просмотре PDF с evince, CTRL-F фактически позволяет мне искать в содержимом PDF.
Ответы:
pdfsandwich
Делает то, что вы хотите, и предоставляет пакеты Deb Ubuntu. Он использует tesseract в качестве движка OCR. Следующий вызов добавляет текстовый слой в ваш отсканированный PDF:
Далее делается то же самое, но с другим языком (код ISO 639-2,
tesseract-ocr-LANGCODE
пакет загрузки ) и настройка макета:Если вы получили какую-либо ошибку, пожалуйста, загрузите последнюю версию deb с Sourceforge .
Отказ от ответственности: я разработчик pdfsandwich и, следовательно, явно предвзятый.
источник
pdfunite
.pdfsandwitch
? Я делаю это с некоторыми шведскими документами, и это работает хорошо, за исключением некоторых орфографических ошибок (возможно, из-за шрифта оригинала), которые было бы легко исправить, если бы это был текстовый файл, но как я могу сделать это в полученном PDF ?Есть два проекта, которые делают свое дело : GScan2PDF и OCRFeeder
источник
Я нашел не идеальное решение, но очень эффективное.
Я использую PDF X-Change Viewer через Wine. Он имеет функцию распознавания текста, которая добавляет текстовый слой в существующий PDF-файл на основе изображений.
Таким образом, вы можете искать и копировать текст из этого невидимого слоя.
источник
Для решения командной строки вы можете использовать pdfocr .
Вкратце, установите программное обеспечение:
Затем запустите pdfocr:
Это сработало для меня на Ubuntu 12.04 LTS.
источник
pdfsandwich
, что и при изменении / сжатии PDF-файлов, содержащих изображения с высоким разрешением, которые в основном уничтожают некоторую информацию об исходных изображениях.OCRmyPDF - это решение, которое легко реализуемо и обеспечивает выходной pdf с тем же качеством входного файла и разумным размером:
https://github.com/jbarlow83/OCRmyPDF
источник
Это мой быстрый и грязный раствор на основе ImageMagick - х
convert
,tesseract
,parallel
иpdftk
(все доступные на распределениях DEBiAN основе). Это в значительной степени основано на этом сообщении в блоге .источник
Для всего каталога с файлами ppm вы можете использовать этот скрипт ppm2ocrpdf.sh
источник