Как я могу преобразовать отсканированные изображения в формате PDF в PDF-файл с возможностью поиска? [закрыто]

19

У меня есть PDF отсканированной книги.

Я ищу бесплатное программное обеспечение, которое выполнит OCR, а затем предоставит возможность сохранить его как PDF или документ снова.

Есть один?

slhck
источник
Вы имеете в виду, что вы хотите конвертировать изображения в формате PDF в текст?
DaveParillo
да, но я не хочу текстовый файл в качестве вывода. Я хочу увидеть точно такой же pdf, но с возможностью нажимать Ctrl + F и отмечать слова и т.д ..
вам будет очень трудно конвертировать этот PDF без потери форматирования текста и стиля. Мне еще предстоит найти программное обеспечение для распознавания текста, способное правильно сохранить документ из отсканированных изображений. подготовиться к работе с ослом (например, вычитка и т. д.) :)

Ответы:

5

Вы можете загрузить 30-дневную пробную версию Adobe Acrobat Pro и использовать функцию «Распознавание текста OCR» («Документ> Распознавание текста OCR> Распознать текст с помощью OCR ...»). В диалоговом окне настроек выберите «Доступное для поиска изображение» в качестве стиля вывода. Это сохранит изображение страницы, но встроит текст OCR, так что документ будет доступен для поиска и позволит выделять, копировать и вставлять текст.

После запуска OCR вам необходимо подтвердить или исправить слова, в которых OCR не уверен насчет использования функций «Найти подозреваемых OCR».

pelms
источник
Хотя Adobe не является бесплатной, на сегодняшний день это самое мощное решение для распознавания текста
Джеймс Хили,
4

Если у вас есть учетная запись Google, то в Документах Google теперь есть функция для загрузки файла PDF и выполнения распознавания.

Я попробовал это сам, и это делает честный удар в по общему признанию хорошо отформатированном PDF.

Форматирование в значительной степени разрушено, но текст, кажется, выживает.

Ричард Лукас
источник
4

Следующие продукты были найдены в Интернете, но я ими не пользовался.

OCR онлайн

Терминал OCR

Терминал OCR - это онлайн-служба OCR, которая выполняет оптическое распознавание символов (OCR) для ваших отсканированных изображений и файлов PDF и преобразует их в редактируемые и текстовые документы с возможностью поиска.

Бесплатный OCR

Free-OCR.com - это бесплатный инструмент для оптического распознавания символов. Вы можете использовать это для распознавания любого изображения, которое вы предоставляете.
Эта услуга бесплатна, регистрация не требуется. Нам также не нужен ваш адрес электронной почты.
Просто загрузите ваши файлы изображений. Free-OCR принимает либо JPG, GIF, TIFF BMP или PDF ( только первая страница ). Единственным ограничением является то, что изображения не должны быть больше 2 МБ, не шире или не превышать 5000 пикселей, и существует ограничение в 10 загрузок изображений в час.

Maestro Recognition Server является коммерческим, но имеет демо-версию онлайн-тестирования.

Бесплатно программное обеспечение

FreeOCR - только для изображений.

FreeOCR - это программа для сканирования и распознавания, включающая в себя движок Tesseract free ocr, также известный как графический интерфейс Tesseract. Он включает в себя установщик Windows и очень прост в использовании и поддерживает многостраничные TIFF, факсимильные документы, а также большинство типов изображений, включая сжатые TIFF, которые механизм Tesseract сам по себе не может прочитать. Теперь у него есть сканирование Twain.

pdfsandwich - pdf -> pdf конвертер.

pdfsandwich - это инструмент командной строки для отсканированных книг или журналов OCR. Он способен распознавать макет страницы даже для многоколоночного текста.

По сути, pdfsandwich - это скрипт-обертка, который вызывает следующие двоичные файлы: convert, cuneiform, gs и hocr2pdf. Известно, что он работает в Unix-системах и был протестирован в Linux и MacOS X. Он поддерживает параллельную обработку в многопроцессорных системах.

harrymc
источник
Я только что использовал pdfsandwich. Это работает и это бесплатно! :) Это, безусловно, поможет в моей диссертации, спасибо!
Эдди
Похоже, pdfsandwich переехал? tobias-elze.de/pdfsandwich
пиото
@pioto: Это не я добавил pdfsandwich выше, но я исправил ссылку, как вы предложили.
harrymc
2

Cuneiform + hocr2pdf + Ghostscript : DIY-решение с открытым исходным кодом.

Я опубликовал ответ, в котором изложено решение, включающее версию системы OCR Cuneiform с открытым исходным кодом и hocr2pdf вместе с Ghostscript для объединения страниц PDF.

Это было специально для Linux, но вы также можете получить Cuneiform и Ghostscript для Windows. Я не уверен насчет hocr2pdf или его эквивалента.

Юкка Мателайнен
источник
1

Вот очень странный метод, который включает в себя размещение индекса Google и OCR для вас на веб-сайте, а затем получение его.

jtbandes
источник
да, я тоже это видел ... странно, действительно :) Я мог бы в конечном итоге сделать это ...
0

Установите Imagemagick . Откройте окно cmd или терминал:

convert myfile.pdf myfile-%02d.jpg

Выходными данными будет 1 файл jpg для каждой страницы в вашем pdf, myfile-00.jpg, myfile-01.jpg и т. Д.

Передайте каждое изображение через программу ocr. У меня нет большого опыта с этим, но, кажется, есть много вариантов.

Конвертировать каждую страницу текста обратно в PDF. Вы можете сделать это снова с imagemagick, но есть и другие способы:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
DaveParillo
источник
0

Ваш запрос кажется сложным решением проблемы, хотя, возможно, я неправильно понимаю проблему. Во всяком случае:

Почему бы не получить PDF Writer, который позволит вам вводить данные непосредственно на странице PDF?

Xavierjazz
источник
0

Попробуйте PDFCubed.com Ничего не установить, все сделано онлайн. Вы можете отправить свои документы для обработки через Интернет, электронную почту или Dropbox. Отсканированные PDF-файлы и TIF-файлы преобразуются в текстовые PDF-файлы с возможностью поиска и затем могут быть получены через Интернет, электронную почту или Dropbox.

rlangner
источник