Какие-либо инструменты для автоматизации распознавания отсканированных PDF-файлов аналогично функции распознавания в Acrobat? [закрыто]

10

Открытый исходный код предпочтителен, но не обязателен.

У меня есть Adobe Acrobat 8, и мне действительно нравится функция оптического распознавания текста, которая может по существу поместить невидимый слой текста оптического распознавания текста поверх отсканированного документа. Таким образом, то, что вы видите на экране, является оригинальным отсканированным документом, но результат доступен для поиска.

То, что я ищу, - это способ автоматизации этого процесса. В настоящее время у меня есть несколько сценариев, которые мы используем для обработки и архивирования отсканированных файлов, и я ищу что-то, что можно подключить прямо к этому пакетному процессу, чтобы сделать OCR способом, аналогичным тому, что я могу сделать с Acrobat.

Все предложения приветствуются, спасибо!

Boden
источник
1
PS - Я стараюсь держать вопросы о пользователях на суперпользователе. Тем не менее, реализация, которая вытекает из этого вопроса, определенно будет жить на сервере, на котором я обрабатываю отсканированную документацию ... так что это была проверка.
Боден

Ответы:

8

Я реализовал это в проекте архивирования документов компании. Отсканированный файл представляет собой TIF-файл (одна страница). Затем с помощью Cuneiform для создания файла hocr одного TIF. Затем с помощью hocr2pdf выведите файл PDF. Если несколько страниц сканирования, я использую gs, чтобы объединить PDF-файлы в один PDF-документ. Работает действительно хорошо, OCR достаточно хорош для наших нужд и доступен для поиска в любой программе просмотра PDF.

Xeon
источник
Интересно. Прежде чем тратить на это много времени, является ли полученный PDF-файл изображением из оригинального скана со встроенным текстовым слоем или это только текст?
Боден
Это изображение исходного сканирования со встроенным текстовым слоем. Файл hocr - это текстовый вывод с html-разметками.
xeon
Превосходно. Я собираюсь дать ему шанс. Если это будет работать, я отмечу, что ваш ответ принят. Спасибо!
Боден
1
Еще раз спасибо. Немного тяжело установить этих двух парней, но это работает. Я написал простой скрипт для проверки папки FTP на наличие новых файлов .tif, в которых она запускает cuneiform и hocr2pdf, а затем загружает результаты в библиотеку документов Sharpoint с помощью curl. Таким образом, люди могут архивировать документы прямо с копировального аппарата, а архивы полностью доступны для поиска по тексту. Вопрос: знаете ли вы, что делает опция «перезапись разрешения» в hocr2pdf?
Боден
Я рад, что это работает для вас. Я не знаю, что аргумент -r делает.
xeon
1

Вы смотрели на WatchOCR? Вы можете скачать его с http://www.watchocr.com. Это бесплатный OCR-сервер с открытым исходным кодом, который преобразует PDF- файлы только из изображений в текстовые PDF-файлы с возможностью поиска из просматриваемой папки или общего сетевого ресурса.

rlangner
источник
0

Мне нравятся звуки ответа Xeon, хотя OCRopus звучит очень весело.

Кара Марфия
источник
Когда я исследовал и тестировал разные решения. Я попробовал это и tesseract-ocr, и у них не было хорошего способа вывода PDF в то время. Я не изучал, есть ли у них эти особенности ... Я знаю, что у tesseract-ocr это есть в их хронологии ...
xeon