Название спрашивает все это. Передо мной стоит задача ввода данных, которая не вызывает у меня особого энтузиазма: 50-100 страниц рукописных выходов / входов в журналы.
Формат журналов может помочь. Страницы разбиты на четко разграниченные строки и столбцы (13r x 6c с дополнительной типизированной строкой заголовка). Еще мне помогает то, что три столбца связаны с датой / временем (дата, время ожидания, время входа). Кроме того, данные в двух столбцах (ресурс и имя) более или менее перечисляются, так что, например, имя «Смит» может появляться снова и снова в столбце имени, каждый раз с одним и тем же почерком. Последний столбец, «Заметки», является свободной формой, но если бы я мог автоматизировать предыдущие 6 колонок, я бы не стал вводить Заметки вручную.
Какие-либо предложения? (Помимо «начать печатать».)
PS Если есть лучший сайт SE, чтобы спросить это, дайте мне знать, я спрошу там.
источник
Ответы:
Тессеракт является, вероятно, лучшей и самой распространенной библиотекой OCR.
Он был протестирован с почерком и не так уж плохо - хотя почерк не так легко прочитать. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf
источник
Если у вас менее 10 страниц, Captricity может сделать это бесплатно.Из коробки нет хороших решений с открытым исходным кодом для того, что вы ищете. Платные решения стоят дорого по лицензии. Это основано на нашем опыте создания службы распознавания рукописного ввода в Captricity . Мы используем tesseract в производстве, но только в качестве голоса, который в сочетании с человеческим интеллектом (краудсорсинг) обеспечивает высокий уровень качества.
Надеюсь, это поможет!
источник