Я отсканировал около 80 страниц в оттенки серого PDF (формат изображения). Конечный размер файла составляет около 70 МБ, что очень много.
Сейчас я ищу способ преобразования PDF-файла на основе изображений в градациях серого в простой PDF-файл на основе черно-белого текста.
Я сделал много попыток, gs
но безуспешно (только несколько процентов восстановления). Если у какого-либо эксперта есть идея, пожалуйста, дайте мне знать.
Ответы:
gImageReader - это простой интерфейс GTK + для
tesseract-ocr
.извините за немецкий текст
источник
sudo apt-get install tesseract-ocr-[lang]
заменяяlang
его языковым кодом, напримерdeu
,por
дляВы можете попробовать pdfocr:
Выполнить синтаксис
где
input.pdf
- имя входного файла иoutput.pdf
выходного файла.По умолчанию используется Tesseract. Чтобы установить его:
pdfocr создает встроенный текстовый слой.
источник
Он загружает тессеракт и другие при установке. Это простое одношаговое решение, которое можно записать в сценарии. Его можно использовать
hocr2pdf
для создания простого текста в формате pdf, но он не готов к прайм-тайм ... пока. По умолчанию используется tesseract и создается «зажатый» pdf: изображение + текст внизу.Встроенное изображение может быть удалено с помощью таких команд:
но текст скрыт, поэтому он выглядит как пустая страница.
Загрузка PDF в
LibreOffice Draw
выставляет текст, и изображение может быть удалено вручную.источник
not authorized
ошибкамidentify-im6.q16
: imagemagick - преобразование: не авторизованоaaaa
@ error / constitute.c / ReadImage / 453 - переполнение стекаДля графического интерфейса, предложенного @AB на Ubuntu 14.04, вы должны следовать:
ocr тессеракт на убунту 14.04
или в любом случае, добавьте в список хранилища:
до этого работает:
источник
Вы можете попробовать shrinkpdf, чтобы уменьшить размер файла, а затем ocr.sh, чтобы добавить текстовый слой.
источник
В вашем файле PDF щелкните правой кнопкой мыши и сохраните каждую страницу в виде изображения (или найдите инструмент, который выполняет все страницы автоматически)
Откройте программный центр Ubuntu. Ищите тессеракт. Это найдет YAGF, который вы должны установить. В YAGF щелкните Файл -> Открыть изображение и загрузите изображение. Затем нажмите Файл -> Распознать.
У меня была 100% точность в моем первом тесте.
источник