Программное обеспечение для сканирования в PDF для Linux?

У меня есть рабочий процесс, при котором я сканирую бумажные документы в PDF-файлы с возможностью поиска, используя сканер документов Fujitsu ScanSnap S500 . Я не большой поклонник прилагаемого программного обеспечения, но его очень просто использовать: положите стопку бумаги вверху, нажмите зеленую кнопку, и появится PDF-файл с возможностью поиска.

Теперь я хотел бы сделать нечто подобное в Linux (Ubuntu 10.10). Сканер поддерживается из коробки.

Я посмотрел gscan2pdfи XSane:

XSane выглядит мощно, но не совсем подходит в качестве решения рабочего процесса;
gscan2pdf немного ближе к идеалу «нажми кнопку, получи PDF», но все же не на 100%.

Любое другое программное обеспечение, которое вы можете порекомендовать (бесплатное или иное)?

linux pdf scanning NPE
источник

я использую pdf-чашки, но это изображение не для поиска текста

RobotHumans

Что «не на 100%» с gscan2pdf?

digitxp

@digitxp Я не хотел загромождать вопрос списком проблем, симпатий и антипатий к любому продукту. Однако, как вы спросите, у gscan2pdfменя были странные артефакты с «безбумажной» печатью, OCR был в основном непригодным (некоторые механизмы лучше, чем другие), и в целом он не был настолько оптимизирован, как оригинальное решение. Во всяком случае, суть моего вопроса заключается в том, чтобы увидеть, что еще там, чтобы я мог попробовать различные решения и посмотреть, что работает лучше для меня.

NPE

@digitxp Я только что перечитал свой предыдущий комментарий, и он звучит довольно негативно. Это не было намерением. gscan2pdfна самом деле довольно близко к тому, что я ищу, но есть области, в которых ему, к сожалению, не хватает по сравнению с оригинальным решением.

NPE

Ответы:

Вот некоторые вещи, которые я обнаружил, исследуя это ранее в этом году. Извините, я не могу опубликовать более одной гиперссылки из-за моего ограниченного рейтинга, поэтому вам придется обратиться в Google за ссылками.

gscan2pdf

Действительно хорошая система графического интерфейса, которая может использовать различные механизмы OCR для бэкэнда. Это, вероятно, будет соответствовать вашему решению в одно касание (и digitxp уже упоминал об этом).

Tesseract OCR Engine

Может использоваться с gscan2pdf.

http://www.linuxjournal.com/article/9676

Ocropus

Я не очень далеко продвинулся в работе с ocropus, так как он не распознавал текст без тщательной подготовки. Это, вероятно, было бы очень хорошо для книг, но не помогло мне с счетами и тому подобным. YMMV.

клинопись

У меня был лучший успех с Cuneiform и я смог создать PDF с возможностью поиска с помощью команд сценариев, подобных следующему рабочему процессу:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html

Вам также нужно будет установить пакет exactimage.

Различные проекты с открытым исходным кодом для распознавания PDF используют Cuniform и hocr2pdf :

WatchOCR
Archivista

Дайте мне знать, что вы узнаете!

Эрик Холмберг
источник