Сегодня я получил PDF от нашего поставщика, и он содержал несколько напечатанных и отсканированных страниц с подписями и т. Д. Я открыл его в Acrobat Reader DC. Но, к моему удивлению, текст из явно отсканированных изображений можно было выбрать и скопировать как текст. Смотрите скриншот:
Очевидно, за этим стоит некоторое OCR, поскольку скопированный текст содержит ошибки. Но как это возможно? Я никогда не видел этого раньше, как это можно создать?
pdf
adobe-acrobat
adobe-reader
ocr
Войтех Донхал
источник
источник
Ответы:
Это (вопреки некоторым другим ответам здесь), скорее всего, никак не связано с Acrobat.
Большинство (все ?!) профессиональных сканеров документов и большинство полупрофессиональных сканеров будут автоматически выполнять распознавание, когда вы выберете «Сохранить как PDF» и отметите флажок «Доступный для поиска» в настройках. Более дешевые модели «потребительского уровня» будут выполнять распознавание текста на подключенном ПК, типичные сетевые сканеры делают это внутренне.
Слово «доступный для поиска» означает не больше и не меньше, чем то, что сканер выполнит OCR, затем сгенерирует страницу с отсканированными растровыми изображениями внутри и наложит их на невидимые символы OCR, каждый из которых будет размещен над соответствующим символом на растровом изображении.
Таким образом, вы можете искать, а также выбирать, копировать и вставлять «растровое изображение», как по волшебству. Однако это не волшебство. На самом деле, вы просто копируете невидимый текст.
Сканер также может выполнять некоторые дополнительные операции, такие как создание большого изображения из множества маленьких плиток, которые также используются повторно. Это приводит к гораздо меньшему размеру документа, чем это было бы возможно на самом деле, но может также привести к забавным сюрпризам (не таким уж смешным, если они случаются с вами!), Таким как Xerox меняет историю ваших счетов , по иронии судьбы, даже когда OCR не выполняется, в зависимости от на прошивке.
источник
По сути, программа выполняет OCR для входного файла, а затем помещает невидимый слой текста поверх изображения. Кроме того, он может также поместить видимый слой текста под картинкой, давая тот же эффект.
Когда вы выбираете что-то, картинка не имеет значения, потому что текстовый слой выделен.
Есть несколько способов. Учитывая, что Acrobat уже был предложен, я добавлю несколько бесплатных опций (и, к счастью, вы не обязаны использовать их в Windows).
PDF-XChange Viewer
Это родная программа для Windows от Tracker Software . Бесплатная версия прекрасно работает под Wine, если вы используете 32-разрядную версию с 32-разрядным префиксом, поэтому вы можете использовать ее в Windows, macOS и Linux. В последних двух случаях вам понадобятся PlayOnMac или PlayOnLinux соответственно.
Вот фотография из этого ответа, которую я оставил в Ask Ubuntu:
OCRmyPDF
Это мультиплатформенная программа, написанная на Python , основанная на Ghostscript, Tesseract и Unpaper. Из документов:
Его можно легко установить на производные Debian и Ubuntu:
Или на macOS:
В Windows вам нужно использовать образ Docker. Смотрите официальные документы для деталей.
Использование очень простое, и я предлагаю вам использовать необязательные
-d
(deskew) и-c
(clean) параметры для лучшего результата. Это выровняет каждую страницу и очистит маленькие точки / недостатки перед запуском процесса OCR.Вы можете (и должны) предоставить язык
-l
.Вот пример, взятый из этого искаженного документа, написанного на итальянском языке:
Команда, которую я использовал, была:
Онлайн инструменты
Есть несколько онлайн-инструментов, которые делают то же самое. Примечательно, что PDF24 содержит бесплатную веб-версию OCRmyPDF, которую можно использовать без ограничений.
Смотрите также:
источник
Возможно, это связано с функцией распознавания текста в Acrobat :
источник
С сайта Adobe
источник