Я всегда обнаруживал, что технология OCR отстает в системах с открытым исходным кодом. Я также смотрел проект Ocropus с самого детства. Я попробовал то, что слышал, это лучший механизм распознавания текста для Linux, Tesseract , и обнаружил, что его очень не хватает для деловых документов. Существуют ли другие более перспективные реализации OCR? Как насчет еще более обнадеживающей цели интерпретации почерка? Что возможно в * nix системах в этой области?
opensource-projects
ocr
documents
jjclarkson
источник
источник
Ответы:
Тессеракт
По состоянию на 2018 год лучшее доступное программное обеспечение OCR с открытым исходным кодом - это Tesseract 4 (бета) с его новой моделью оптического распознавания символов в нейронной сети LSTM . Его производительность распознавания намного лучше, чем у предыдущей модели распознавания, использованной в версии 3.
Пример (создайте файл PDF
output.pdf
с текстовым слоем для отсканированного немецкого документа):Распечатать распознанный текст на стандартный вывод:
Список установленных языков:
Поддержка многих языков / скриптов доступна в виде загружаемых обученных наборов данных , например, существует даже набор данных для Fraktur.
С новой моделью LSTM Tesseract черпает вдохновение из исследовательского проекта OCRopus .
Версия 3 Тессеракта работает относительно плохо даже на входных изображениях хорошего качества, т. Е. Часто ложно обнаруживает отдельные символы в пикселях пыли (вне любого текстового контекста) и легко вводит односимвольные ошибки в известных словах.
клинопись
Производительность Cuneiform OCR не так уж и плоха, но она не поддерживается активно (последний выпуск в 2011 году, версия 1.1), легко падает и имеет некоторые другие проблемы:
Вы можете отключить алгоритм макета следующим образом:
(
-l
указывает язык исходного документа)ocrad
Текст печатается по умолчанию в стандартный вывод.
В деловом документе пропущено подчеркнутое слово, а cuneiform / tesseract / gocr - нет.
GOCR
Текст печатается по умолчанию в стандартный вывод.
аппаратные средства
Sane имеет очень хорошую поддержку для многих сканеров с автоматической подачей документов (ADF), например, для Avision и Fujitsu .
В состав Sane входит программа
scanimage
командной строки, которую вы можете использовать для создания сценариев сканирования по сценарию (см., Например, мойadf2pdf.py
сценарий).источник
Я нашел похожий вопрос в StackOverflow, и Asprise OCR SDK , один из связанных коммерческих продуктов, имеет версию для Linux.
источник
Есть несколько популярных инструментов командной строки OCR:
Тессеракт ( ReadMe , FAQ ) (Python)
Также доступно для: Tesseract .NET , Tesseract iOS
Использование:
Пример: сделать существующий PDF доступным для поиска (OCR) через командную строку / скрипт
GOCR
OCRopus ™ ( FAQ ) (написано на Python, NumPy и SciPy)
Tessnet2 (с открытым исходным кодом, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)
Другие уже предложили: ABBYY CLI OCR для Linux , Asprise OCR .
Читайте также:
Для более полного списка, проверьте: Список программного обеспечения для оптического распознавания символов в Википедии.
источник
... OCR - это больше, чем «только распознавание символов». Обработка изображений, предварительная обработка - анализ страницы / макета для поиска текстов, изображений, таблиц или штрих-кодов. Для распознавания вам приходится иметь дело с разными шрифтами, размерами и языками. Это важно, потому что для получения хороших результатов вы должны использовать словари и определения языка. Наконец, люди ожидают больше вариантов экспорта, чем текста (например, XML, RTF или PDF с возможностью поиска). Есть несколько коммерческих опций для SDK, но они не дешевые и бесплатно.
Недавно я обнаружил CLI OCR для Linux от ABBYY . Существует бесплатная пробная версия на 100 страниц.
источник
Если у вас есть бюджет, я настоятельно рекомендую ABBYY FineReader Engine CLI для Linux . Наша компания уже год использует его в нашем веб-приложении, и мы планируем продлить лицензию. Очень хорошее качество распознавания, интерфейс командной строки, распознавание на многих языках.
источник