Как можно автоматически разделить изображение отсканированной страницы на слова, похожие на reCaptcha?

-1

У меня есть изображение страницы из книги, и я хочу разделить ее на отдельные маленькие обрезанные слова. Есть способ сделать это?

webmagnets
источник
Вы говорите об оптическом распознавании символов, как вы отметили это, или разбиваете изображение на отдельные слова?
fixer1234
Разделение изображения на отдельные изображения слов. Не знал, что пометить.
webmagnets
Предполагая, что строки расположены на одинаковом расстоянии, вы можете автоматизировать разбиение каждой строки, возможно, используя обычное программное обеспечение для обработки изображений, которое выполняет пакетные операции (я думаю, Irfanview, но вы не указываете свою ОС). Разделять каждое слово сложнее. Вы могли бы сделать что-то вроде копирования страницы в слой и использовать фильтр, чтобы сильно размывать слова до точки, где они являются темными каплями. Затем выберите на основе цветовой гаммы, которая включает в себя слово blob, но не светлые промежутки между ними. Примените выделение к исходному слою. Не уверен, как сохранить каждый файл в отдельный файл.
fixer1234

Ответы:

0

Установите мобильный сканер документов на свой мобильный. Вы можете захватить нужную страницу с помощью камеры мобильного устройства. Мобильный сканер распознает вас и получит текст для вас. Вы можете редактировать текст и сохранить его. Как вы думаете, это нормально для вас?

Johnson15
источник
Если бы вы прочитали комментарии к вопросу, вы бы заметили, что OP означает не OCR, а нарезку изображения на маленькие кусочки (каждый из которых содержит слово). Таким образом, ваше решение не применимо.
zagrimsan