Рекомендации по программному обеспечению оптического распознавания символов?

15

Я видел некоторые электронные книги / документы, которые, по-видимому, были отсканированы по их бумажным версиям, но текст в электронных книгах / документах может быть удивительным образом скопирован. Я полагаю, что версии с прямым сканированием должны были обрабатываться каким-либо программным обеспечением для оптического распознавания символов.

Итак, я хотел бы знать, каковы рекомендуемые программы для оптического распознавания символов? Особенно те, что для Ubuntu или бесплатно? Если те для Windows намного лучше, пожалуйста, дайте мне знать.

Меня особенно интересуют те OCR, которые могут принимать отсканированный PDF-файл в качестве входных данных и по-прежнему создавать в качестве выходных данных другой PDF-файл, который выглядит так же, как входной, но с копируемым текстом.

Спасибо и всего наилучшего!

Пожалуйста, ограничьте одно программное обеспечение на ответ

Тим
источник

Ответы:

10

Тессеракт OCR Установите Tesseract OCR

Оригинальный движок был разработан еще в конце 80-х годов HP и IBM, но оказался одним из лучших программ для распознавания глаз, которые я использовал. Недавно он подвергся множеству обновлений движка и стал одним из наиболее полных инструментов OCR на рынке. Превосходя по сравнению с большинством других инструментов распознавания (с чем-то в 90 процентах соответствия текста), он может легко преобразовать стандартный тип документа лицом к тексту.

Ниже приведен пример:

tesseract ScannedDocument.png out

Будет производить файл с именем out.txt

Денис
источник
Благодарность! Я не видел, чтобы Tesseract поддерживал вывод pdf. Ты знаешь об этом?
StackExchange для всех
@ Тим, изначально я не верю, что Tesseract поддерживает множество форматов ввода / вывода. Однако, как отмечается в ответе JanC, gscan2pdf использует Tesseract для распознавания текста и, как следует из названия, поддерживает вывод в формате PDF.
Тим Литл
Обратите внимание, что OCR расшифровывается как Оптическое распознавание символов: en.wikipedia.org/wiki/Optical_character_recognition
Хосе Гомес,
8

Другой проект, который должен быть в состоянии сделать это - gscan2pdf

sudo apt-get install gscan2pdf

Этот проект также может использовать Tesseract, а также другие инструменты OCR с открытым исходным кодом.

Mark Kirby
источник
3

Я не знаю никакого распознавания текста для Ubuntu, но для Windows есть тот, который имеет необходимые вам функции. То есть ABBYY FineReader это страница но она не бесплатная

vicmp3
источник
1
Я использовал FineReader точно так, как хочет Тим ​​(для открытия защищенных PDF-файлов)
Extender
3

Бесплатное решение существует в операции РЕПО, CunieFormYAGF , как Gnome интерфейс для него)

наполнитель
источник
Благодарность! Поддерживает ли CunieForm pdf в качестве форматов ввода и вывода? Я не видел этого на его странице в Википедии и на ее официальной странице.
StackExchange для всех
Возможно нет, но разбить PDF на серию TIFF - простая задача в любом случае :)
Extender
3

Похоже, что проект Decapod выполняет или будет экспортировать в PDF, поэтому Tesseract должен каким-то образом экспортировать необходимую информацию, чтобы знать, где какой текст был найден.

Janc
источник
1

Adobe Acrobat (не читатель, а не бесплатное приложение) способен распознавать отсканированный документ PDF и добавлять невидимый текстовый слой поверх изображения, чтобы текст можно было выбирать и копировать. К сожалению, мне не удобно проверять, где именно находится эта функция в пользовательском интерфейсе Acrobat, но я успешно использовал ее пару раз для той же цели, о которой вы упоминали.

И да, это программное обеспечение Windows, а не Linux, но, согласно базе данных приложения Wine HQ, оно работает под Wine .

Серж Брославский
источник
1

Лучшее программное обеспечение для оптического распознавания текста обычно встроено в принтеры / сканеры / копиры. Canon IRC 3880, установленный в моем офисе, может выводить отличные файлы OCR с поддержкой PDF быстрее и проще, чем любая известная мне настольная программа. Положите книгу в лоток (не привязан), выберите свой почтовый адрес, нажмите зеленую кнопку.

Большинство PDF-файлов OCR, которые вы можете найти в сети, относятся к аналогичным машинам. Проблема в том, что цена слишком высока для домашнего использования (около 12000 евро IRC).

Хавьер Ривера
источник
1

Ricoh Innovations предлагает мое любимое бесплатное онлайн-программное обеспечение для распознавания текста. Это бета-программа, но я считаю, что она работает довольно хорошо. Проверьте это по адресу: http://beta.rii.ricoh.com/betalabs/content/document-conversion

Натали
источник
1

OCRFeeder

Это приложение с графическим интерфейсом.

введите описание изображения здесь

Он использует tesseract -ocr или ocrad в качестве механизма распознавания текста.

Можно установить с Центром программного обеспечения или с,

sudo apt-get install ocrfeeder
user224082
источник