У меня есть PDF отсканированной книги.
Я ищу бесплатное программное обеспечение, которое выполнит OCR, а затем предоставит возможность сохранить его как PDF или документ снова.
Есть один?
software-rec
pdf
ocr
slhck
источник
источник
Ответы:
Вы можете загрузить 30-дневную пробную версию Adobe Acrobat Pro и использовать функцию «Распознавание текста OCR» («Документ> Распознавание текста OCR> Распознать текст с помощью OCR ...»). В диалоговом окне настроек выберите «Доступное для поиска изображение» в качестве стиля вывода. Это сохранит изображение страницы, но встроит текст OCR, так что документ будет доступен для поиска и позволит выделять, копировать и вставлять текст.
После запуска OCR вам необходимо подтвердить или исправить слова, в которых OCR не уверен насчет использования функций «Найти подозреваемых OCR».
источник
Если у вас есть учетная запись Google, то в Документах Google теперь есть функция для загрузки файла PDF и выполнения распознавания.
Я попробовал это сам, и это делает честный удар в по общему признанию хорошо отформатированном PDF.
Форматирование в значительной степени разрушено, но текст, кажется, выживает.
источник
Следующие продукты были найдены в Интернете, но я ими не пользовался.
OCR онлайн
Терминал OCR
Бесплатный OCR
Maestro Recognition Server является коммерческим, но имеет демо-версию онлайн-тестирования.
Бесплатно программное обеспечение
FreeOCR - только для изображений.
pdfsandwich - pdf -> pdf конвертер.
источник
Cuneiform + hocr2pdf + Ghostscript : DIY-решение с открытым исходным кодом.
Я опубликовал ответ, в котором изложено решение, включающее версию системы OCR Cuneiform с открытым исходным кодом и hocr2pdf вместе с Ghostscript для объединения страниц PDF.
Это было специально для Linux, но вы также можете получить Cuneiform и Ghostscript для Windows. Я не уверен насчет hocr2pdf или его эквивалента.
источник
Вот очень странный метод, который включает в себя размещение индекса Google и OCR для вас на веб-сайте, а затем получение его.
источник
Установите Imagemagick . Откройте окно cmd или терминал:
Выходными данными будет 1 файл jpg для каждой страницы в вашем pdf, myfile-00.jpg, myfile-01.jpg и т. Д.
Передайте каждое изображение через программу ocr. У меня нет большого опыта с этим, но, кажется, есть много вариантов.
Конвертировать каждую страницу текста обратно в PDF. Вы можете сделать это снова с imagemagick, но есть и другие способы:
источник
Ваш запрос кажется сложным решением проблемы, хотя, возможно, я неправильно понимаю проблему. Во всяком случае:
Почему бы не получить PDF Writer, который позволит вам вводить данные непосредственно на странице PDF?
источник
Попробуйте PDFCubed.com Ничего не установить, все сделано онлайн. Вы можете отправить свои документы для обработки через Интернет, электронную почту или Dropbox. Отсканированные PDF-файлы и TIF-файлы преобразуются в текстовые PDF-файлы с возможностью поиска и затем могут быть получены через Интернет, электронную почту или Dropbox.
источник