Я использую Google Desktop Search (я в Vista), и не все мои файлы PDF распознаются в моей папке архива. Это нормально, поскольку « PDF-файлы, содержащие отсканированные изображения » не индексируются ( http://desktop.google.com/support/bin/answer.py?hl=ru&answer=90651 ).
Поэтому я хотел бы распознать многие из моих файлов PDF, которые еще не были распознаны. Моя цель: я даю программе папку, и она самостоятельно ищет в подпапках файлы PDF, которые необходимо преобразовать в файлы PDF-OCR.
Примечание. Раньше, если файл PDF был защищен паролем, я удалял пароль с помощью другого пакетного (платного) инструмента: verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/
Любая (не слишком дорогая) идея?
Я уже пробовал: Finereader 6 pro на xp в то время, но пакетный процессор не был включен ... Paperfile paperfile.net, который использует Tesseract http://code.google.com/p/tesseract-ocr/ . Но OCR - это только PDF в текст, а не PDF в PDF! Существует также еще один проект http://code.google.com/p/ocropus/
Заранее спасибо ;)
источник
Ответы:
Т.Л., др? Начните с Nuance PowerPDF Advanced.
Я оценил программное обеспечение OCR в декабре 2014 года в рамках подготовки к большому проекту - OCR на миллионах англоязычных страниц, созданных партиями. Если вы готовы потратить несколько сотен долларов, у вас есть много вариантов; пробные версии могут помочь вам, если вам нужно конвертировать всего несколько сотен страниц.
Многие программные пакеты хотят загрузить все входные файлы, сделать OCR и объединить беспорядок в один выход. ИМХО, это совершенно неправильно, я понятия не имею, кто бы этого хотел. Я искал настоящую партию: один выходной файл для каждого входного файла, автоматическая операция, не останавливайтесь ни перед чем, дайте мне подробный отчет в конце. Спойлер: я не нашел этого.
Пакеты в алфавитном порядке следуют. Цены, указанные ниже, указаны в списке, но скидок предостаточно. Возьмите мои комментарии о точности с долей соли; ваши входные данные не будут такими же, как мои входные данные, поэтому ваш пробег, безусловно, будет отличаться
ABBYY Finereader 12 Corporate: 400 долларов США. Пакетная функция называется «Диспетчер задач» и находится в меню «Инструменты». Он будет обрабатывать файлы из папки, включая подпапки; он с радостью создаст отдельный выходной файл для каждого входного файла. Кажется, он не способен сохранить иерархию входных папок; все выходные файлы были помещены в одну и ту же папку. В моих тестах точность была высокой, но все же самая низкая из перечисленных здесь пакетов.
Adobe Acrobat XI: 300 долларов. Пакетная функция называется «Распознавание текста / В нескольких файлах», которую можно найти, нажав на Инструменты (третья панель инструментов, верхняя правая часть главного экрана). Обрабатывает подпапки, по одному на каждый вход. Останавливает и выдает запрос, если находит файл, защищенный паролем. Не сохраняет входное дерево каталогов по умолчанию; можно сделать, записав вывод в ту же папку, что и ввод. Точность была довольно хорошей в моих тестах.
Nuance OmniPage Ultimate (он же v19): 500 долларов. Пакетная функция называется «DocuDirect», и это отдельная программа, которая поставляется вместе с пакетом. Он будет обрабатывать папки и подпапки; если вы выберете объекты правильно, он сохранит дерево входных каталогов в области вывода. Один выход для каждого входа. Останавливает и требует пароль для защищенного файла. Похоже, что превосходно использует преимущества многоядерных процессоров для параллельного выполнения задач. Точность была превосходной . Но стабильность пакетного процессора плохая; нечеткий документ остановит его, и он никогда не восстановится, с легкостью сорвав партию.
Nuance PowerPDF Advanced v1.1 (преемник OmniPage Ultimate): $ 150. Пакетная функция называется «Пакетный конвертер» и доступна из основной программы на вкладке «Расширенная обработка». Он будет обрабатывать папки и подпапки, сохраняя структуру ввода в выводе. Один выход для каждого входа. Будем использовать несколько ядер, но не агрессивно; это означает, что я не мог заставить его насытить многоядерный хост. Точность отличная , такая же хорошая или лучшая, как у OmniPage. Плохие или нечеткие файлы не приводили к зависанию. Пакетный процессор записывает ( шокирует ) текстовый файл журнала в выходной каталог.
ReadIris Corporate 14: 600 долларов. Пакетная функция вызывается элементом «Пакетное распознавание текста», которое открывается нажатием кнопки «Из файлов» на главном экране. Он будет обрабатывать папки и подпапки, по одному выводу для каждого ввода, и по умолчанию структура выходного каталога соответствует структуре входного каталога. Останавливает и требует пользовательский ввод на неверный файл; обрабатывает без дальнейших жалоб все защищенные документы, очевидно, путем распознавания изображения. Точность была очень хорошей, наравне с Acrobat.
На моем настольном компьютере (только двухъядерный) с выбранными мне входами каждый пакет обрабатывал страницу не менее 3 секунд; некоторые взяли больше. Может быть в состоянии справиться с этим на машине с большим количеством ядер.
Есть много ошибок, обязательно спланируйте их: недействительные PDF-файлы (некоторые пакеты останавливаются), PDF-файлы, защищенные паролем (некоторые пакеты останавливаются, другие конвертируются в любом случае!) И повернутые страницы (альбомная, а не книжная). Если вы хотите, чтобы пакет выполнялся до конца, вы должны подготовить область ввода для этих пакетов очень, очень тщательно. Изучите функцию печати в PDF пакета GhostScript, чтобы узнать, как снять защиту с PDF-файлов.
Запуск больших пакетов может привести к истощению памяти и проблемам с зависанием, даже если это не должно (а, возможно, утечки памяти). Если вы вообще занимаетесь какой-либо автоматизацией, то после факта того, что на самом деле произошло, возникает большая проблема: какие документы не удалось обработать, какие не удалось обработать во время обработки и т. Д. "лог-файл".
Наконец, получить поддержку, даже в качестве платящего клиента, довольно сложно для этих пакетов для массового рынка. Например, я пожаловался одному уважаемому представителю службы поддержки клиентов о пакете (который должен остаться безымянным), висящим для некоторых больших входов. Я ждал 36 часов, прежде чем сдаться :). Они сладко предложили ограничить размер партии до 300 документов. Это было совершенно неприемлемо для меня, но эй, он получил этот билет поддержки, черт побери, быстро? И это все, что имеет значение, верно? Вздох.
НТН
источник
Adobe Acrobat обработает папку PDF-файлов, и, как и большинство продуктов Adobe, есть 30-дневная пробная версия .
Функция находится в меню «Документ»:
откуда вы можете добавить свою папку.
В Acrobat X функция доступна следующим образом:
источник
На самом деле, pdfsandwich был обновлен в течение последнего года, и мне было совсем не сложно установить его в Linux Mint. Результаты, которые он дает, уступают Adobe Acrobat, но это единственное работоспособное решение, которое я нашел в Linux до сих пор.
источник
Попробуйте WatchOCR . Это программный пакет с открытым исходным кодом, который преобразует отсканированные изображения в текстовые PDF-файлы с возможностью поиска. Это бесплатный и открытый исходный код и имеет приятный веб-интерфейс для удаленного администрирования. При правильной конфигурации его можно использовать для создания пакетной службы pdf / ocr для всей сети через общие ресурсы smb. К сожалению, это только Linux. Но вы можете установить его на старый сервер, и тогда вся ваша организация сможет его использовать.
Если вы хотите сделать то же самое онлайн без установки чего-либо, попробуйте PDFCubed.com
источник