Пакетное распознавание текста для многих PDF-файлов (еще не распознано)? [закрыто]

9

Я использую Google Desktop Search (я в Vista), и не все мои файлы PDF распознаются в моей папке архива. Это нормально, поскольку « PDF-файлы, содержащие отсканированные изображения » не индексируются ( http://desktop.google.com/support/bin/answer.py?hl=ru&answer=90651 ).

Поэтому я хотел бы распознать многие из моих файлов PDF, которые еще не были распознаны. Моя цель: я даю программе папку, и она самостоятельно ищет в подпапках файлы PDF, которые необходимо преобразовать в файлы PDF-OCR.

Примечание. Раньше, если файл PDF был защищен паролем, я удалял пароль с помощью другого пакетного (платного) инструмента: verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

Любая (не слишком дорогая) идея?

Я уже пробовал: Finereader 6 pro на xp в то время, но пакетный процессор не был включен ... Paperfile paperfile.net, который использует Tesseract http://code.google.com/p/tesseract-ocr/ . Но OCR - это только PDF в текст, а не PDF в PDF! Существует также еще один проект http://code.google.com/p/ocropus/

Заранее спасибо ;)

эрб
источник
Спустя год обновление: Здравствуйте, по всей видимости, может помочь программное обеспечение «ABBYY Hot Folder & Scheduling», включенное только в ABBYY FineReader (> v. 9.0) Корпоративные и корпоративные лицензионные выпуски (я не пробовал: 600 $!)! Также Тессеракт должен работать над окнами сейчас (без успеха для меня прямо сейчас!; ()
Erb
Кроме того, ABBYY FineReader (> v. 9.0) Pro имеет задачу автоматизации: вы выбираете основную папку + ее подпапки, и она выполняет свою работу. Но главная проблема заключается в том, что он открывает все PDF сразу (!!), затем читает их (= ocr) и затем сохраняет уникальный файл PDF! Так что, если у вас есть сотни pdf, эта чертова вещь не работает для меня! ; (Очень плохо, какой кошмар;! (
Эрба

Ответы:

6

Т.Л., др? Начните с Nuance PowerPDF Advanced.

Я оценил программное обеспечение OCR в декабре 2014 года в рамках подготовки к большому проекту - OCR на миллионах англоязычных страниц, созданных партиями. Если вы готовы потратить несколько сотен долларов, у вас есть много вариантов; пробные версии могут помочь вам, если вам нужно конвертировать всего несколько сотен страниц.

Многие программные пакеты хотят загрузить все входные файлы, сделать OCR и объединить беспорядок в один выход. ИМХО, это совершенно неправильно, я понятия не имею, кто бы этого хотел. Я искал настоящую партию: один выходной файл для каждого входного файла, автоматическая операция, не останавливайтесь ни перед чем, дайте мне подробный отчет в конце. Спойлер: я не нашел этого.

Пакеты в алфавитном порядке следуют. Цены, указанные ниже, указаны в списке, но скидок предостаточно. Возьмите мои комментарии о точности с долей соли; ваши входные данные не будут такими же, как мои входные данные, поэтому ваш пробег, безусловно, будет отличаться

ABBYY Finereader 12 Corporate: 400 долларов США. Пакетная функция называется «Диспетчер задач» и находится в меню «Инструменты». Он будет обрабатывать файлы из папки, включая подпапки; он с радостью создаст отдельный выходной файл для каждого входного файла. Кажется, он не способен сохранить иерархию входных папок; все выходные файлы были помещены в одну и ту же папку. В моих тестах точность была высокой, но все же самая низкая из перечисленных здесь пакетов.

Adobe Acrobat XI: 300 долларов. Пакетная функция называется «Распознавание текста / В нескольких файлах», которую можно найти, нажав на Инструменты (третья панель инструментов, верхняя правая часть главного экрана). Обрабатывает подпапки, по одному на каждый вход. Останавливает и выдает запрос, если находит файл, защищенный паролем. Не сохраняет входное дерево каталогов по умолчанию; можно сделать, записав вывод в ту же папку, что и ввод. Точность была довольно хорошей в моих тестах.

Nuance OmniPage Ultimate (он же v19): 500 долларов. Пакетная функция называется «DocuDirect», и это отдельная программа, которая поставляется вместе с пакетом. Он будет обрабатывать папки и подпапки; если вы выберете объекты правильно, он сохранит дерево входных каталогов в области вывода. Один выход для каждого входа. Останавливает и требует пароль для защищенного файла. Похоже, что превосходно использует преимущества многоядерных процессоров для параллельного выполнения задач. Точность была превосходной . Но стабильность пакетного процессора плохая; нечеткий документ остановит его, и он никогда не восстановится, с легкостью сорвав партию.

Nuance PowerPDF Advanced v1.1 (преемник OmniPage Ultimate): $ 150. Пакетная функция называется «Пакетный конвертер» и доступна из основной программы на вкладке «Расширенная обработка». Он будет обрабатывать папки и подпапки, сохраняя структуру ввода в выводе. Один выход для каждого входа. Будем использовать несколько ядер, но не агрессивно; это означает, что я не мог заставить его насытить многоядерный хост. Точность отличная , такая же хорошая или лучшая, как у OmniPage. Плохие или нечеткие файлы не приводили к зависанию. Пакетный процессор записывает ( шокирует ) текстовый файл журнала в выходной каталог.

ReadIris Corporate 14: 600 долларов. Пакетная функция вызывается элементом «Пакетное распознавание текста», которое открывается нажатием кнопки «Из файлов» на главном экране. Он будет обрабатывать папки и подпапки, по одному выводу для каждого ввода, и по умолчанию структура выходного каталога соответствует структуре входного каталога. Останавливает и требует пользовательский ввод на неверный файл; обрабатывает без дальнейших жалоб все защищенные документы, очевидно, путем распознавания изображения. Точность была очень хорошей, наравне с Acrobat.

На моем настольном компьютере (только двухъядерный) с выбранными мне входами каждый пакет обрабатывал страницу не менее 3 секунд; некоторые взяли больше. Может быть в состоянии справиться с этим на машине с большим количеством ядер.

Есть много ошибок, обязательно спланируйте их: недействительные PDF-файлы (некоторые пакеты останавливаются), PDF-файлы, защищенные паролем (некоторые пакеты останавливаются, другие конвертируются в любом случае!) И повернутые страницы (альбомная, а не книжная). Если вы хотите, чтобы пакет выполнялся до конца, вы должны подготовить область ввода для этих пакетов очень, очень тщательно. Изучите функцию печати в PDF пакета GhostScript, чтобы узнать, как снять защиту с PDF-файлов.

Запуск больших пакетов может привести к истощению памяти и проблемам с зависанием, даже если это не должно (а, возможно, утечки памяти). Если вы вообще занимаетесь какой-либо автоматизацией, то после факта того, что на самом деле произошло, возникает большая проблема: какие документы не удалось обработать, какие не удалось обработать во время обработки и т. Д. "лог-файл".

Наконец, получить поддержку, даже в качестве платящего клиента, довольно сложно для этих пакетов для массового рынка. Например, я пожаловался одному уважаемому представителю службы поддержки клиентов о пакете (который должен остаться безымянным), висящим для некоторых больших входов. Я ждал 36 часов, прежде чем сдаться :). Они сладко предложили ограничить размер партии до 300 документов. Это было совершенно неприемлемо для меня, но эй, он получил этот билет поддержки, черт побери, быстро? И это все, что имеет значение, верно? Вздох.

НТН

chrisinmtown
источник
Привет, Крислотт! Спасибо за подробный ответ. ;) Я оценил. ;) Прошло более 4 лет, и до сих пор ни одно программное обеспечение не является идеальным для того, чтобы просто выполнить автоматическое распознавание в папке и выпустить файл журнала с ошибками, как только он будет завершен! ... Может быть, я постараюсь связаться с Nuance.
Эрб
Сейчас я использую старую версию Acrobat Pro и несколько бесплатных программ. Это долгий процесс. Я могу детализировать это при необходимости! Но работа сделана как можно лучше! ;)
Erb
3

Adobe Acrobat обработает папку PDF-файлов, и, как и большинство продуктов Adobe, есть 30-дневная пробная версия .
Функция находится в меню «Документ»:

Документ> OCR Text Regocnition> Распознавание текста в нескольких файлах с помощью OCR

откуда вы можете добавить свою папку.

В Acrobat X функция доступна следующим образом:

Инструменты> Распознать текст> В нескольких файлах
pelms
источник
Спасибо тебе "Пелмс". ;) Я попробую, как позволит время. Что мне понравилось в моей предыдущей пробной версии finereader.abbyy.com, так это то, что он мог распознавать несколько разных языков. ;)
Erb
1

На самом деле, pdfsandwich был обновлен в течение последнего года, и мне было совсем не сложно установить его в Linux Mint. Результаты, которые он дает, уступают Adobe Acrobat, но это единственное работоспособное решение, которое я нашел в Linux до сих пор.

Брайан З
источник
1
Очень интересно! Я не знал об этом. Я добавляю ссылку с en.wikisource.org/wiki/… и буду тестировать ее в будущем. (На самом деле есть много других решений, но я не буду здесь начинать!)
Nemo
0

Попробуйте WatchOCR . Это программный пакет с открытым исходным кодом, который преобразует отсканированные изображения в текстовые PDF-файлы с возможностью поиска. Это бесплатный и открытый исходный код и имеет приятный веб-интерфейс для удаленного администрирования. При правильной конфигурации его можно использовать для создания пакетной службы pdf / ocr для всей сети через общие ресурсы smb. К сожалению, это только Linux. Но вы можете установить его на старый сервер, и тогда вся ваша организация сможет его использовать.

Если вы хотите сделать то же самое онлайн без установки чего-либо, попробуйте PDFCubed.com

rlangner
источник
Домашняя страница WatchOCR находится на корточках, хотя и заархивирована
Тобиас Кинцлер