Я видел некоторые электронные книги / документы, которые, по-видимому, были отсканированы по их бумажным версиям, но текст в электронных книгах / документах может быть удивительным образом скопирован. Я полагаю, что версии с прямым сканированием должны были обрабатываться каким-либо программным обеспечением для оптического распознавания символов.
Итак, я хотел бы знать, каковы рекомендуемые программы для оптического распознавания символов? Особенно те, что для Ubuntu или бесплатно? Если те для Windows намного лучше, пожалуйста, дайте мне знать.
Меня особенно интересуют те OCR, которые могут принимать отсканированный PDF-файл в качестве входных данных и по-прежнему создавать в качестве выходных данных другой PDF-файл, который выглядит так же, как входной, но с копируемым текстом.
Спасибо и всего наилучшего!
Пожалуйста, ограничьте одно программное обеспечение на ответ
Другой проект, который должен быть в состоянии сделать это - gscan2pdf
Этот проект также может использовать Tesseract, а также другие инструменты OCR с открытым исходным кодом.
источник
Я не знаю никакого распознавания текста для Ubuntu, но для Windows есть тот, который имеет необходимые вам функции. То есть ABBYY FineReader это страница но она не бесплатная
источник
Бесплатное решение существует в операции РЕПО, CunieForm (и YAGF , как Gnome интерфейс для него)
источник
Похоже, что проект Decapod выполняет или будет экспортировать в PDF, поэтому Tesseract должен каким-то образом экспортировать необходимую информацию, чтобы знать, где какой текст был найден.
источник
Adobe Acrobat (не читатель, а не бесплатное приложение) способен распознавать отсканированный документ PDF и добавлять невидимый текстовый слой поверх изображения, чтобы текст можно было выбирать и копировать. К сожалению, мне не удобно проверять, где именно находится эта функция в пользовательском интерфейсе Acrobat, но я успешно использовал ее пару раз для той же цели, о которой вы упоминали.
И да, это программное обеспечение Windows, а не Linux, но, согласно базе данных приложения Wine HQ, оно работает под Wine .
источник
Лучшее программное обеспечение для оптического распознавания текста обычно встроено в принтеры / сканеры / копиры. Canon IRC 3880, установленный в моем офисе, может выводить отличные файлы OCR с поддержкой PDF быстрее и проще, чем любая известная мне настольная программа. Положите книгу в лоток (не привязан), выберите свой почтовый адрес, нажмите зеленую кнопку.
Большинство PDF-файлов OCR, которые вы можете найти в сети, относятся к аналогичным машинам. Проблема в том, что цена слишком высока для домашнего использования (около 12000 евро IRC).
источник
Ricoh Innovations предлагает мое любимое бесплатное онлайн-программное обеспечение для распознавания текста. Это бета-программа, но я считаю, что она работает довольно хорошо. Проверьте это по адресу: http://beta.rii.ricoh.com/betalabs/content/document-conversion
источник
OCRFeeder
Это приложение с графическим интерфейсом.
Он использует tesseract -ocr или ocrad в качестве механизма распознавания текста.
Можно установить с Центром программного обеспечения или с,
источник
FineReader также имеет онлайн-версию. Он утверждает, что может обрабатывать PDF-файлы как формат ввода --- http://finereader.abbyyonline.com/en/Help/Faq/
источник