Открытый исходный код предпочтителен, но не обязателен.
У меня есть Adobe Acrobat 8, и мне действительно нравится функция оптического распознавания текста, которая может по существу поместить невидимый слой текста оптического распознавания текста поверх отсканированного документа. Таким образом, то, что вы видите на экране, является оригинальным отсканированным документом, но результат доступен для поиска.
То, что я ищу, - это способ автоматизации этого процесса. В настоящее время у меня есть несколько сценариев, которые мы используем для обработки и архивирования отсканированных файлов, и я ищу что-то, что можно подключить прямо к этому пакетному процессу, чтобы сделать OCR способом, аналогичным тому, что я могу сделать с Acrobat.
Все предложения приветствуются, спасибо!
источник
Ответы:
Я реализовал это в проекте архивирования документов компании. Отсканированный файл представляет собой TIF-файл (одна страница). Затем с помощью Cuneiform для создания файла hocr одного TIF. Затем с помощью hocr2pdf выведите файл PDF. Если несколько страниц сканирования, я использую gs, чтобы объединить PDF-файлы в один PDF-документ. Работает действительно хорошо, OCR достаточно хорош для наших нужд и доступен для поиска в любой программе просмотра PDF.
источник
Вы смотрели на WatchOCR? Вы можете скачать его с http://www.watchocr.com. Это бесплатный OCR-сервер с открытым исходным кодом, который преобразует PDF- файлы только из изображений в текстовые PDF-файлы с возможностью поиска из просматриваемой папки или общего сетевого ресурса.
источник
Мне нравятся звуки ответа Xeon, хотя OCRopus звучит очень весело.
источник