У меня есть несколько тысяч страниц отсканированных страниц книг. Каждая страница сохраняется отдельно в формате JPG. Письменность понятна, но шрифты различаются, и на страницах есть картинки и иллюстрации.
Мне нужно создать список всех слов, появляющихся в каждом файле JPG. Существует ли инструмент командной строки для сканирования изображения с перечислением слов, которые появляются? Для этого не нужно совершенное сканирование, просто оценка.
command-line
ocr
Деревня
источник
источник
Ответы:
Тессеракт , вероятно, является наиболее часто используемым решением здесь. Он доступен в большинстве репозиториев пакетов, например,
и может быть использован с
источник
Установить
imagemagick
,pdftotext
(находится в пакете с именемpoppler-utils
в некоторых менеджеров пакетов) и ocrmypdf . Последний является быстрым (ocr требует много ресурсов процессора, и он настроен на использование всех ваших ядер), с открытым исходным кодом и часто обновляемым компонентом программного обеспечения OCR. Этот подход, возможно, излишний, так как он фактически пытается присвоить строку каждому слову вместо простой маркировки слова, но у меня было много проблем с поиском хорошего и простого в использовании программного обеспечения OCR с открытым исходным кодом в целом. Затем в каталоге, где вы сохранили все ваши JPG:источник
ocrmypdf
сделал мой деньUpscale image file.png на 480%, измените на оттенки серого, залейте белым цветом, заострите, а затем извлеките с помощью оптического распознавания текста. Это хорошо работает большую часть времени для меня, за исключением очень больших шрифтов, и белого на черном. Если шрифты очень большие, только 200% или 300%.
Результат находится в файле .txt.
источник
Для пользователей Linux ничто не работает так же хорошо, как использование Caliber для преобразования pdf в docx. https://calibre-ebook.com/download_linux
источник
TL; DR
for i in /path_to/*.jpg;do ./myocr.sh $i $(basename $i .jpg);done
Источник: https://help.ubuntu.com/community/OCR
источник