Я давно ищу в Google, но не могу найти ответ на свой вопрос.
У меня есть нежелательные слои распознавания текста в документе, который я недавно сканировал с помощью Adobe Acrobat. Он не был правильно распознан, и я хочу отредактировать некоторую информацию, но OCR создает необходимую информацию для удаления. Я преобразовал файлы в формат TIF, но заметил (очень) значительную потерю качества. Я слышал, что печать в другой PDF-файл либо сохраняет текст, либо снижает качество изображения.
Я ценю любую помощь в решении этой проблемы как можно скорее.
Спасибо.
источник
После долгих экспериментов я обнаружил, что при печати в Adobe PDF из Adobe Acrobat документ печатается без распознавания текста и без потери качества (незаметное на первый взгляд разрешение теряется).
Однако многие сайты утверждают, что это не работает. Я также пробовал другие принтеры, такие как Foxit Reader и OneNote, но качество было снижено. JPEG тоже был таким же.
Пожалуйста, имейте в виду, что ваш пробег может отличаться.
Примечание: я оставляю эту ветку помеченной как неотвеченную в надежде найти лучший ответ, чем мой.
источник
(один год назад...)
Если, как вы говорите, документы отсканированы и, например, не напечатаны в формате PDF из Word, вы можете легко удалить их с помощью Adobe:
Выберите « Документ», «Проверить документ», и теперь вы можете удалить скрытый текст (OCR).
источник
В Acrobat Pro: используйте «удалить скрытую информацию» (в разделе «защита»). Выбрать все, выполнить, OCR пропал
источник
В Acrobat X в разделе Защита есть кнопка Sanitize Document, которая удаляет ВСЕ, но то, что можно увидеть (включая текстовый слой OCR), преобразовывая документ в сплющенную битовую карту.
источник
Я создал инструмент для этого бесплатного PDF Redactor . Если вы загрузите изображение и нажмете «Отредактировать», оно сгладит ваш PDF и удалит OCR. При желании вы также можете нарисовать отметки редактирования на документе.
источник