Как я могу извлечь текст из изображений?

25

Как я могу извлечь текст из изображений?

Я говорю не о отсканированных файлах, а о разнообразных садовых изображениях, например, когда вы фотографируете классную доску с высоким разрешением на уроке, и она хорошо написана от руки; или когда вы фотографируете страницу из книги рецептов и хотите рецепт в текстовом формате.

Любое бесплатное и открытое программное обеспечение для этого?

Я попробовал тессеракт, и результаты были ужасны.

Strapakowsky
источник
Мне нужен OCR, который поддерживает бенгальский и английский одновременно.
Алхелал

Ответы:

26

Акт извлечения текста из изображений называется, OCRи в Ubuntu есть вики-страница, посвященная OCR . С этой страницы:

Доступные инструменты OCR

Репозитории Ubuntu Universe содержат следующие инструменты OCR:

  1. gocr - командная строка OCR
  2. fuzzyocr - плагин spamassassin для проверки вложений изображений
  3. libhocr0 - иврит OCR
  4. ocrad - программа оптического распознавания символов
  5. ocrfeeder - Система анализа документов и система оптического распознавания символов
  6. ocropus - анализ документов и система распознавания текста
  7. тессеракт-OCR

Мультивселенные репозитории Ubuntu также содержат:

  1. клинопись - многоязычная система распознавания текста

Некоторые пакеты устарели, но неофициальные свежие можно найти в Alex_P PPA (PPA добавляет код: ppa: alex-p / notesalexp). Если вы никогда не использовали PPA, проверьте, как добавить программное обеспечение из PPA .

изменить: как показано в комментарии Клара OCR тоже существует, но он застрял на Харди, и их сайт 2009 года, как последнее обновление.

Rinzwind
источник
Есть ли у вас опыт использования любого из них для описанных мной примеров? Я стал немного скептически относиться к обычным инструментам OCR для них. Номер 7 в списке - тот, который я попробовал, и он был просто ужасен.
Страпаковски
Если я не забуду, я тоже попробовал gocr, с такими же ужасными результатами. Если вы попытались с успехом любой из них, какой синтаксис вы использовали? Спасибо.
Страпаковски
Никак нет! Я никогда не беспокоился об оптическом распознавании символов: D В поисках свежего
мяса
Я ошибаюсь, если говорю, что успешное использование OCR требует знания процесса и тщательной настройки для соответствия сканируемому изображению? Таким образом, если я прав, плохие результаты могут быть связаны с пользователем, а не с программным обеспечением.
NN
OCRработает лучше всего, если вы знаете, как создается изображение, и вы очень хорошо разбираетесь в использовании используемого вами программного обеспечения (последнее - причина, по которой я никогда не удосужился его использовать).
Rinzwind
18

tesseract-ocrбыл бы великим по сравнению со всеми другими. Для установки запустите команду sudo apt-get install tesseract-ocr.

Использование есть tesseract filename.jpg output.txt.

Выше команда сгенерирует output.txt.

Вы можете выбрать подходящий язык. В этом случае вам необходимо установить tesseract-ocr-LANGпакет, LANGв котором указан трехбуквенный код языка ISO 639-2 . Прямо сейчас у вас есть 123 языка на репо 18.04. Тогда используйте, например:

tesseract mySpanishText.jpg output -l spa
Судхир Белагали
источник
Эй, так что это работает, но не является точным, или я бы сказал, точнее на 80-85%. Как пример для этого изображения: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , оно испортило знак $, а также большинство скобок. Квадратные, круглые, фигурные, все скобки являются проблемой, они никогда не извлекаются должным образом. Знаете ли вы что-нибудь исправить?
Милан Чхеда