У меня есть рабочий процесс, при котором я сканирую бумажные документы в PDF-файлы с возможностью поиска, используя сканер документов Fujitsu ScanSnap S500 . Я не большой поклонник прилагаемого программного обеспечения, но его очень просто использовать: положите стопку бумаги вверху, нажмите зеленую кнопку, и появится PDF-файл с возможностью поиска.
Теперь я хотел бы сделать нечто подобное в Linux (Ubuntu 10.10). Сканер поддерживается из коробки.
Я посмотрел gscan2pdf
и XSane
:
XSane
выглядит мощно, но не совсем подходит в качестве решения рабочего процесса;gscan2pdf
немного ближе к идеалу «нажми кнопку, получи PDF», но все же не на 100%.
Любое другое программное обеспечение, которое вы можете порекомендовать (бесплатное или иное)?
gscan2pdf
меня были странные артефакты с «безбумажной» печатью, OCR был в основном непригодным (некоторые механизмы лучше, чем другие), и в целом он не был настолько оптимизирован, как оригинальное решение. Во всяком случае, суть моего вопроса заключается в том, чтобы увидеть, что еще там, чтобы я мог попробовать различные решения и посмотреть, что работает лучше для меня.gscan2pdf
на самом деле довольно близко к тому, что я ищу, но есть области, в которых ему, к сожалению, не хватает по сравнению с оригинальным решением.Ответы:
Вот некоторые вещи, которые я обнаружил, исследуя это ранее в этом году. Извините, я не могу опубликовать более одной гиперссылки из-за моего ограниченного рейтинга, поэтому вам придется обратиться в Google за ссылками.
gscan2pdf
Действительно хорошая система графического интерфейса, которая может использовать различные механизмы OCR для бэкэнда. Это, вероятно, будет соответствовать вашему решению в одно касание (и digitxp уже упоминал об этом).
Tesseract OCR Engine
Может использоваться с gscan2pdf.
Ocropus
Я не очень далеко продвинулся в работе с ocropus, так как он не распознавал текст без тщательной подготовки. Это, вероятно, было бы очень хорошо для книг, но не помогло мне с счетами и тому подобным. YMMV.
клинопись
У меня был лучший успех с Cuneiform и я смог создать PDF с возможностью поиска с помощью команд сценариев, подобных следующему рабочему процессу:
Вам также нужно будет установить пакет exactimage.
Различные проекты с открытым исходным кодом для распознавания PDF используют Cuniform и hocr2pdf :
Дайте мне знать, что вы узнаете!
источник