Можно ли с помощью Acrobat 11 выполнять распознавание текста, используя несколько процессорных ядер?

8

Обработка OCR занимает много времени. Использование нескольких процессорных ядер ускорит обработку. Acrobat 10 не был многопоточным приложением . Как насчет Acrobat 11? 11 по умолчанию делает OCR, используя несколько процессорных ядер (если доступно)? Если нет, есть ли какие-то обходные пути, например, сценарии, чтобы заставить Acrobat 11 выполнять OCR с использованием нескольких ядер ЦП? Либо с помощью встроенного в Acrobat языка сценариев, либо с помощью внешних сценариев, которые запускают и направляют несколько экземпляров Acrobat с одним потоком параллельно к частям задания обработки.

Примечание. Этот вопрос не слишком локализован (не ограничен конкретным моментом времени), поскольку (1) Adobe не выпускает новые основные версии Acrobat очень часто (Acrobat 10 был выпущен два года назад) и (2) Adobe Acrobat широко распространен. Используемое приложение.

tarcman.
источник

Ответы:

6

Я установил пробную версию Acrobat 11 (XI) в VirtualBox. Acrobat 11 однопоточный.

Я также создал внешний скрипт, который запускает несколько экземпляров Acrobat (по одному на ядро ​​ЦП), параллельно обрабатывает задание OCR и объединяет результат. Важный шаг - включить ведение журнала ошибок в настройках Acrobat, проанализировать все .log и повторно обработать все файлы ошибок. Сценарий (при использовании 4 ядер) по-прежнему выполняет OCR более чем в два раза быстрее, чем Acrobat 11 по умолчанию.

tarcman.
источник
4
Вы можете просто дать источник, если хотите. Если они посмеют удалить его, его можно легко восстановить.
Джои
Кроме того, если вы оказались тем же человеком, который разместил вопрос, рассмотрите возможность объединения обеих ваших текущих незарегистрированных учетных записей с новой, зарегистрированной. Вы можете начать здесь , а также прочитать это для получения дополнительной информации. После этого вы сможете изменить свой вопрос так, как считаете нужным.
Индрек
Я не пытаюсь ничего мешать. Поскольку вы продолжаете переключать имена пользователей, похоже, что ваши правки были сделаны третьей стороной, которая, похоже, не поняла первоначальный вопрос. Кроме того, если вы хотите ответить на свой вопрос, вы должны написать вопрос и ответить сразу.
Исаак Рабинович
Я объединила ваши (незарегистрированные) аккаунты. Однако мы просим вас не использовать одноразовый адрес электронной почты, а зарегистрироваться на нашем сайте, чтобы вы могли оставаться в системе, комментировать свои вопросы и так далее. Кроме того, ничего не будет удалено, не о чем беспокоиться. Просто отметьте, что анонимные правки всегда проверяются более строго.
slhck
1
@tarcman Есть ли возможность опубликовать свой сценарий? Я уверен, что есть много людей, которые были бы заинтересованы в его использовании
Джейсон
1

Многопоточность должна быть встроена в приложение. Разработчик должен написать код, который создает потоки и разбивает задачу на подзадачи, которые могут быть выделены для каждого потока. Если разработчики Acrobat не смогут сделать это для своего кода распознавания OCR, у пользователя не будет возможности создать дополнительную необходимую логику.

Исаак Рабинович
источник
2
Если его можно применить к диапазонам страниц, вы можете попытаться разделить работу на несколько процессов, каждый из которых распознает всего несколько страниц, а затем объединяет результаты.
Джои
0

Чтобы использовать все ядра для распознавания текста, вы можете обратиться к PDF-Exchange Editor. Похоже, это механизм распознавания, который использует все ядра в моей системе. Как только вы достигнете этого уровня производительности, имеет смысл использовать SSD.

Должна быть настройка Windows, которая заставит его выделять больше процессорного времени однопоточному приложению, которое не связано с вводом / выводом. В моей системе Acrobat не замедляется производительностью диска, но больше всего процессорного времени, которое я получаю при создании индекса, составляет около 30%.

Посмотрим правде в глаза, Acrobat - широко используемое, но плохо написанное приложение. В Acrobat Pro есть некоторые функции, которые вы еще не можете получить нигде (пока).

Len
источник