Какое самое лучшее и простое решение для распознавания?

78

Я хотел бы отсканировать большое количество бумаг, которые у меня лежат, с наименьшими трудностями. Я хотел бы преобразовать их в изображения с помощью Simple Scan, а затем преобразовать их в текст с помощью OCR. Есть ли хорошее приложение для распознавания текста с графическим интерфейсом, которое даст мне хорошие результаты одним нажатием кнопки?

Bou
источник
Нам действительно нужно много переделать в этой теме. Так много старых / обесценившихся / ... вещей. Нет однострочных тестов. В основном, скопированные результаты / списки здесь. Нет гарантии качества.
Лео Леопольд Герц 준영
В 2018 году самое простое решение для оптического распознавания текста использует онлайновую ocr api : Google Vision OCR, Azure OCR или бесплатный API OCR.space OCR предоставляют высококачественные результаты распознавания текста - конечно, только если ваше приложение / сценарий использования позволяет облачное решение ,
Ник Эндо

Ответы:

70
  • GOCR from - это программа оптического распознавания символов. Она преобразует отсканированные изображения текста обратно в текстовые файлы.

  • CLARA - еще один хороший графический вариант.

  • OCRAD from OCR может использоваться как автономное консольное приложение или как бэкэнд для других программ.

  • KOOKA from является приложением KDE, но работает нормально, кроме того, вам необходимо установить настоящие программы OCR, такие как GOCR и OCRAD. После установки Kooka и программ OCR вы должны указать Kooka на место установки OCR, чтобы он мог преобразовать JPEG в текст.

  • OCRFeeder от - это система анализа документов и система оптического распознавания символов.

  • Тессеракт из утилита командной строкии это очень просто use.You может установить языковой пакет Тессеракт-OCr-Инг из здесь .

Посмотрите на эту страницу .

Примечание:
чтобы запустить tesseract goto терминал и введите следующее

tesseract imagefile.tif outputfile.txt

Tesseract может только читать файл TIFF - если у вас есть JPEG или PDF или что-то еще, вам придется конвертировать его. Кроме того, расширение файла должно быть .tif, а не .tiff, в противном случае выведите ошибки.

karthick87
источник
1
Если ваш разговорный язык не английский? есть какие-то расширения для другого языка?
Василис
3
@Vassilis: системы распознавания текста не зависят от языка, потому что они распознают символы, а не слова. Однако, если ваш алфавит имеет символы не-Latin1 (например, кириллица), он может пропустить их.
OpenNingia
2
@OpenNingia: язык может быть важен, даже если в письменных системах используются только латинские буквы. Это помогает OCR различать неоднозначные буквы.
Фредерик Гроссханс
13
Такие вопросы / ответы действительно портят аскубунту. Человек спросил: «Какое самое лучшее и простое решение для распознавания текста?», А не «Какие приложения OCR доступны для Linux». Это решение не должно было быть принято! Действительно сбивает с толку и не полезно.
Алин Андрей
1
Текущая tesseractверсия Ubuntu (3.04.00 в Ubuntu 15.10) не имеет проблем с PNGвходными файлами. он принимает JPGфайлы, но дает для них худший результат, как и следовало ожидать от дополнительных артефактов сжатия.
Фолькер Сигел
10

Есть несколько популярных инструментов командной строки OCR, которые вы можете использовать (я не уверен, что они имеют графический интерфейс):

  • Тессеракт ( ReadMe , FAQ ) (Python)

    Также доступно для: Tesseract .NET , Tesseract iOS

    Механизм оптического распознавания текста, разработанный в лабораториях HP в период с 1985 по 1995 год ... а теперь и в Google. Тессеракт, вероятно, является наиболее точным из доступных механизмов OCR с открытым исходным кодом.

    Использование:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Распознавание символов с открытым исходным кодом. Он преобразует отсканированные изображения текста обратно в текстовые файлы. GOCR может использоваться с разными интерфейсами, что позволяет очень легко портировать на разные ОС и архитектуры. Он может открывать много разных форматов изображений, и его качество улучшается с каждым днем.

  • OCRopus ™ ( FAQ ) (написано на Python, NumPy и SciPy)

    Система оптического распознавания текста, ориентированная на использование крупномасштабного машинного обучения для решения проблем в анализе документов, с возможностью анализа разметки с помощью разметки, распознавания с помощью разметки, статистического моделирования на естественном языке и многоязычных возможностей.

    Механизм OCRopus основан на двух исследовательских проектах: высокопроизводительном распознавателе рукописного ввода, разработанном в середине 90-х годов и развернутом Бюро переписи населения США, и новых высокопроизводительных методах анализа макетов.

    OCRopus - это разработка, спонсируемая Google и изначально предназначенная для высокопроизводительных и массовых преобразований документов. Мы ожидаем, что это также будет отличной системой распознавания текста для многих других приложений.

  • Tessnet2 (с открытым исходным кодом, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract - это механизм распознавания текста с открытым исходным кодом на C ++. Tessnet2 - это сборка .NET, предоставляющая очень простые методы для распознавания текста. Tessnet2 находится под лицензией Apache 2 (например, tesseract), что означает, что вы можете использовать его по своему усмотрению, включая коммерческие продукты.

Несколько других: ABBYY CLI OCR для Linux , Asprise OCR

Для более полного списка, проверьте: Список программного обеспечения для оптического распознавания символов в Википедии

Смотрите также: wanghaisheng/awesome-ocr- Кураторский список перспективных ресурсов OCR на GitHub.

kenorb
источник
9

линукс-интеллигентный OCR-решение

отказ от ответственности - я тесно связан с разработкой этого решения с открытым исходным кодом

Лиос может конвертировать печать в текст с помощью сканера или камеры.

Он также может создавать текст из отсканированных изображений из других источников, таких как Pdf, изображение или папка, содержащая изображения.

Программе предоставляется полная доступность для слабовидящих.

Так как я тесно связан - мне бы очень понравилась обратная связь.

Nalin.x.Linux
источник
Где находится документация по использованию? Лиос не так интуитивно понятен, как я надеялся.
кодер
Проект переехал сюда .
Suzana
Можно ли запустить его через командную строку только в автономном режиме на сервере?
тупик
9

gscan2pdf

OCR на многостраничных PDF или отсканированных документах

Это, наверное, самый простой способ. Gscan2pdf - это графический инструмент, который позволяет не только сканировать файлы, но и импортировать файлы и выполнять распознавание по ним. Установите gscan2pdf отсюда Установить gscan2pdf , из Ubuntu Software Center или запустив эту команду в терминале:

sudo apt-get install gscan2pdf
  • Запустите gscan2pdf
  • Импортируйте PDF (Ctrl + O)
  • Необязательно: Инструменты> Очистить
  • Выберите «Инструменты»> «Сохранить OCR» (Ctrl + S).

Gscan2PDF может использовать настраиваемые механизмы распознавания, по умолчанию tesseract-ocr

Вы можете выбрать подходящий язык. В этом случае вам необходимо установить tesseract-ocr-LANGпакет, LANGв котором указан трехбуквенный код языка ISO 639-2. Сейчас у вас 108 языков на репо 16.04.

mxdsp
источник
Я ничего не могу сделать с этим программным обеспечением. Нет достаточного обнаружения вообще. Было бы здорово получить любые тестовые образцы о приложениях, прежде чем их рекомендации.
Лео Леопольд Герц 준영
gscan2pdf для 16.04 по крайней мере не имеет сочетания клавиш Ctrl + i. Открытие файла PDF правильно определяет «страницы для извлечения», но выбор «ОК» ничего не делает.
user75505
3

Я только что имел успех (до 16.04) с pdfocr.rb . Это указано в Ubuntu Wiki

Вот ppa, но хранилище для 16.04 не обновляется. Сценарий ruby ​​выше от github, хотя все еще работает с 16.04.

Вы можете скачать его с Github. Вам понадобятся следующие установленные пакеты:

ruby tesseract-ocr pdftk exactimage

затем сделал pdfocr.rb исполняемым и запустил:

./pdfocf.rb -i source.pdf -o output.pdf

При желании вы можете использовать -l LANGпараметр. В этом случае вам необходимо установить tesseract-ocr-LANGпакет, LANGв котором указан трехбуквенный код языка ISO 639-2. Сейчас у вас 108 языков на репо 16.04.

user75505
источник
3

Лучший и самый простой выход - pypdfocrэто не менять PDF. pypdfocr - ссылка на модуль Python здесь.

pypdfocr your_document.pdf

В конце у вас будет другой, your_document_ocr.pdfкак вы хотите, с возможностью поиска текста. Приложение не меняет качество изображения. Немного увеличивает размер файла, добавляя оверлейный текст.

Я думаю, что команда довольно проста, что она не нуждается в графическом интерфейсе. Возможно установка pypdfocr немного более многословна:

sudo apt install tesseract-ocr 
pip install pypdfocr 

Обновление 3 ноября 2018 года:

pypdfocrбольше не поддерживается с 2016 года, и я заметил некоторые проблемы из-за незанятости. ocrmypdf( модуль выполняет знакомую работу и может использоваться следующим образом:

ocrmypdf in.pdf out.pdf

Установить:

pip install ocrmypdf

или же

apt install ocrmypdf
Эдуард Флоринеску
источник
Это очень интересный инструмент, хотя я думаю, что OP хотел инструмент с графическим интерфейсом для создания текстового файла, а не сэндвич PDF. Было бы неплохо, если бы вы могли включить сайт проекта.
Андреа Лаззаротто
@AndreaLazzarotto Да, я видел, но так как команда очень проста, я думаю, что многие люди могут использовать терминал для этого. поэтому я попытался включить решение здесь
Эдуард Флоринеску
1
Как совпадение, совсем недавно я обнаружил "ocrmypdf". Вы проверили это? Это очень приятно. :)
Андреа Лаззаротто
@AndreaLazzarotto кажется хорошей альтернативой, вы, возможно, захотите опубликовать ответ;) Я попробую его, чтобы посмотреть, как это работает :)
Эдуард Флоринеску
@AndreaLazzarotto Кажется, не так просто установить ocrmypdf на Ubuntu 16.04 github.com/jbarlow83/OCRmyPDF/issues/118
Эдуард Флоринеску,
3

Просто потому, что он работает очень хорошо и обязательно должен быть в списке:


Пример gimageReader со скриншота:

введите описание изображения здесь

Он находится в репозиториях (ответил 18.10, но использовал его целую вечность)

Якоб Влейм
источник
Когда я впервые запустил gimageReader, он дал мне сообщение «Нет доступных языков» для tesseract. Ответ « Как установить новый языковой пакет для tesseract » не может быть указан engкак вариант ... но я решил! :) Запуск sudo apt install tesseract-ocr-engв терминале сделал свое дело. Было бы хорошо, если бы это было задокументировано в файле справки gimageReader или в «README» на github ... или где-то еще. Как здесь, возможно.
День
1

gscan2pdf включает в себя 3 различных движка ocr. Вы можете отсканировать прямо в программу или импортировать PDF в программу. Я обнаружил, что движок Tesseract прекрасно работает и очень прост в использовании.

Винс Вест
источник