Как я могу извлечь текст из изображений?
Я говорю не о отсканированных файлах, а о разнообразных садовых изображениях, например, когда вы фотографируете классную доску с высоким разрешением на уроке, и она хорошо написана от руки; или когда вы фотографируете страницу из книги рецептов и хотите рецепт в текстовом формате.
Любое бесплатное и открытое программное обеспечение для этого?
Я попробовал тессеракт, и результаты были ужасны.
software-recommendation
images
ocr
Strapakowsky
источник
источник
Ответы:
Акт извлечения текста из изображений называется,
OCR
и в Ubuntu есть вики-страница, посвященная OCR . С этой страницы:Доступные инструменты OCR
Репозитории Ubuntu Universe содержат следующие инструменты OCR:
Мультивселенные репозитории Ubuntu также содержат:
Некоторые пакеты устарели, но неофициальные свежие можно найти в Alex_P PPA (PPA добавляет код: ppa: alex-p / notesalexp). Если вы никогда не использовали PPA, проверьте, как добавить программное обеспечение из PPA .
изменить: как показано в комментарии Клара OCR тоже существует, но он застрял на Харди, и их сайт 2009 года, как последнее обновление.
источник
OCR
работает лучше всего, если вы знаете, как создается изображение, и вы очень хорошо разбираетесь в использовании используемого вами программного обеспечения (последнее - причина, по которой я никогда не удосужился его использовать).tesseract-ocr
был бы великим по сравнению со всеми другими. Для установки запустите командуsudo apt-get install tesseract-ocr
.Использование есть
tesseract filename.jpg output.txt
.Выше команда сгенерирует
output.txt
.Вы можете выбрать подходящий язык. В этом случае вам необходимо установить
tesseract-ocr-LANG
пакет,LANG
в котором указан трехбуквенный код языка ISO 639-2 . Прямо сейчас у вас есть 123 языка на репо 18.04. Тогда используйте, например:источник