Работа не работает под Torque, установка Мауи не помогла

2

Поэтому я только что установил Torque на небольшой кластер, который мы настраиваем, и все, казалось, прошло довольно гладко. У меня pbs_monработает на вычислительных узлах и pbs_server работает на головном узле, а pbsnodes -aиз головного узла показывает все узлы в «свободном» состоянии.

Тем не менее, когда я отправляю тривиальное задание - даже echo 'sleep 30'задание - с помощью qsubкоманды, вещи просто остаются в очереди и никогда не выполняются. У меня есть четыре вычислительных узла, и я запрашиваю 4 узла (неопределенная память / время / ppn).

Я подумал, что, возможно, мне нужно установить Maui, чтобы расписание работ работало хорошо, но в ретроспективе Torque должен уметь самостоятельно планировать и выполнять задания, не так ли? В любом случае я установил Maui (успешно?) На главном узле (при выполнении showq мои отправленные задания отображаются как БЛОКИРОВАННЫЕ) ... Я предполагаю, что он работает на главном узле, поскольку в противном случае я не смог бы увидеть свой задание, отправленное qsub, верно? Нужно ли устанавливать Maui на каждом из вычислительных узлов, чтобы он работал? И нужно ли мне запускать мауи на них тоже?

Я просто хочу, чтобы это работало на простые вещи ... об остальном мы посмотрим позже. Я новичок в этом и буду признателен за любую помощь, которая предлагается. Я попытался сделать то, что упомянуто в руководствах по установке, и, как я уже сказал, все, казалось, работало, но теперь оно не ведет себя так, как я ожидал.

Вот результат выполнения checkjobзадания в очереди ...

  job is deferred.  Reason:  RMFailure  (cannot start job - RM failure, rc: 15043, 
  msg: 'Execution server rejected request MSG=cannot send job to mom, state=PRERUN')
  Holds:    Defer  (hold reason:  RMFailure)
  PE:  1.00  StartPriority:  1
  cannot select job 8 for partition DEFAULT (job hold active)

Я думаю, что pbs_momработает на всех вычислительных узлах:

  [root@host1 ~]# service pbs_mom status
  pbs_mom (pid 27824) is running...

  [root@host2 ~]# service pbs_mom status
  pbs_mom (pid 20164) is running...

  [root@host3 ~]# service pbs_mom status
  pbs_mom (pid 23981) is running...

  [root@host4 ~]# service pbs_mom status
  pbs_mom (pid 23996) is running...

Я также считаю, что pbs_serverон работает на головном узле ... Может ли моя проблема быть в том, что мне нужно изменить iptables, чтобы убедиться, что необходимые порты не заблокированы? Опять же, все узлы отображаются как свободные после pbsnodes -a...

На всякий случай это содержит полезную информацию ...

  [root@headnode maui-3.3.1]# pbsnodes -a
  host1
       state = free
       np = 4
       properties = dual470
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=164038242,gres=,
  loadave=0.00,ncpus=4,physmem=8060460kb,availmem=17684340kb,totmem=18349604kb,
  idletime=241170,nusers=2,nsessions=9,sessions=3444 3328 3564 3574 3604 3620 
  3630 3684 6843,uname=Linux hawc1 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host2
       state = free
       np = 4
       properties = dual480
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=106187454,gres=,
  loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13819772kb,
  totmem=14219264kb,idletime=241201,nusers=1,nsessions=6,sessions=3446 
  3450 3452 3477 3479 3504,uname=Linux hawc2 2.6.32-71.29.1.el6.x86_64 
  #1 SMP Mon Jun 27 19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host3
       state = free
       np = 4
       properties = dual480
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=148456196,gres=,
  loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13722692kb,totmem=14219264kb,
  idletime=241161,nusers=2,nsessions=8,sessions=3482 3362 3584 3594 3624 3640 
  3650 3706,uname=Linux hawc3 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host4
       state = free
       np = 4
       properties = 480C2050
       ntype = cluster
       status = 
  rectime=1317050595,varattr=,jobs=,state=free,netload=154812523,gres=,
  loadave=0.01,ncpus=8,physmem=8058888kb,availmem=13715256kb,totmem=14219264kb,
  idletime=241142,nusers=2,nsessions=9,sessions=3504 3386 3590 3600 3630 3650 
  3655 3712 3829,uname=Linux hawc4 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

РЕШИТЬ:

Вот и получается, что iptables связывался со мной. Я отключил iptables на вычислительных узлах и добавил правильные записи в головной узел, и теперь он, кажется, работает хорошо ... Я могу qsub echo "sleep 30" и посмотреть, как он работает. У меня новая проблема, но сейчас я сделаю новый вопрос ... надеюсь, этот будет проще!

Patrick87
источник
Проверьте, что pbs_momработает на всех узлах. Похоже , это вопрос ...
Аландские
@aland: Пожалуйста, проверьте мои правки ...
Patrick87