Параллельное выполнение большого количества небольших заданий в Windows с возможностью тайм-аута

1

Мне нужно обработать> 50000 файлов с помощью стороннего приложения командной строки .exe. Приложение принимает только один входной файл за раз, поэтому я должен запустить приложение> 50000 раз.

Каждый файл (каждая работа) обычно занимает около одной секунды. Однако иногда приложение зависает на неопределенное время.

Я написал сценарий оболочки Windows, который запускает все задания последовательно и каждую секунду проверяет, выполнено ли задание. Через 10 секунд он убивает задание и переходит к следующему. Тем не менее, это занимает около 20 часов. Я полагаю, что смогу значительно сократить общее время выполнения, если параллельно выполню несколько заданий. Вопрос в том, как?

В CMD я запускаю задачу с помощью Start, но не существует простого способа восстановить идентификатор процесса (PID), и поэтому я не могу легко отслеживать, какой экземпляр выполнялся в течение какого времени. Я чувствую, что пытаюсь изобрести зонт заново. Какие-либо предложения?

Маттиа Ландони
источник
Вопросы по поиску рекомендаций по продуктам, услугам или учебным материалам не по теме, потому что они быстро устаревают и привлекают основанные на мнении ответы. Вместо этого опишите вашу ситуацию и конкретную проблему, которую вы пытаетесь решить. Поделитесь своими исследованиями.
Xavierjazz
Я подробно описал свою проблему в заголовке поста и первых двух абзацах. Третий абзац говорит о том, что я сделал. Я изменил четвертый абзац, но я не знаю, что вопрос сейчас лучше.
Маттиа Ландони

Ответы:

0

Powershell - твой друг.

https://serverfault.com/questions/626711/how-do-i-run-my-powershell-scripts-in-parallel-without-using-jobs просит что-то подобное.

«Быстрый» и «надежный», конечно, субъективны.

quadruplebucky
источник
1
Спасибо, Powershell - это то, что мне было нужно. Я добавлю ответ ниже с точным кодом, который я использовал, который я считаю очень многоразовым. Я использовал инструмент «Invoke-Parallel», упомянутый в ответе, на который вы указали.
Маттиа Ландони
Я также удалил «быстрый» и «надежный» из названия. Спасибо
Маттиа Ландони
2

Powershell сделал свое дело, как указано в ответе Quadruplebucky. Вот код, который я использовал. Вторая последняя строка ( ./xml2csv...) - это сама работа. Остальная часть сценария может быть повторно использована для любых подобных задач.

# PARAMETERS
$root = 'D:\Ratings'
$folder = 'SP'

# Import Invoke-Parallel
 .".\Invoke-Parallel.ps1"

# Run in parallel
Get-ChildItem ".\$folder-xml" -Filter *.xml |
Invoke-Parallel -throttle 10 -runspaceTimeout 10 -ImportVariables `
  -ScriptBlock {
    $file = $_.BaseName
    echo $file
    cd $root
    (./xml2csv $folder-xml\$file.xml $folder-csv\$file.csv fields-$folder.txt -Q) | out-null
  }

Некоторые заметки:

  • Функцию Invoke-Parallel (aka cmdlet ) можно скачать здесь .
  • Runspace - это то, что я бы назвал «экземпляром». -runspaceTimeoutобеспечивает максимальное время работы для каждого экземпляра.
  • -throttle устанавливает максимальное количество одновременно работающих экземпляров.
Маттиа Ландони
источник