В настоящее время работает несколько виртуальных машин и серверов «baremetal». Java работает на высоких - более 400% + время от времени. Случайно сервер зависает с ошибкой в консоли «java - заблокирован более 120 секунд» - kjournald и т. Д.
Я не могу получить вывод dmesg, потому что по какой-то причине эта ошибка записывается только в консоль, к которой у меня нет доступа, поскольку она размещена удаленно. поэтому я не могу скопировать полный след.
Я изменил среду, в которой он находится - даже физический сервер, и это все еще происходит.
Я изменил hung_task_timeout_secs на 0, если это ложное срабатывание согласно http://docs.redhat.com/docs/en-US/Red_Hat_Enterprise_Linux/6/html/Technical_Notes/deployment.html .
Также irqbalance не установлен, возможно, это поможет?
это Ubuntu 10.04 64bit - та же проблема с последним 2.6.38-15-сервером и 2.6.36.
могут ли проблемы с процессором или памятью / без замены, вызвать эту проблему?
вот консольное сообщение:
[58Z?Z1.5?Z840] INFUI task java:21547 blocked for more than 120 seconds.
[58Z?Z1.5?Z986] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?Z06Z] INFUI task kjournald:190 blocked for more than 120 seconds.
[58Z841.5?Z336] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?Z600] INFUI task flush-202:0:709 blocked for more than 120 seconds.
[58Z841.5?Z90?] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?3413] INFUI task java:21547 blocked for more than 120 seconds.
[58Z841.5?368Z] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z961.5?ZZ36] INFUI task kjournald:60 blocked for more than 120 seconds.
[58Z961.5?Z6Z5] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z961.5?31ZZ] INFUI task flush-202:0:709 blocked for more than 120 seconds.
[58Z961.5?3393] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
dmesg
(если оно было зарегистрировано достаточно недавно), так как эта команда печатает буферный журнал ядра. Надеюсь, вашиsyslog
настройки также будут где-то регистрироваться/var/log
, но я не мог знать где./var/log/dmesg
, но может появиться при запускеdmesg
команды. Файл создается во время процесса загрузки и, как правило, захватывает только сообщения ядра во время загрузки (которые в противном случае могли бы в конечном итоге прокрутиться из кольцевого буфера ядра. Вы также можете установить / включитьsysstat
и посмотреть использование ресурсов, как сообщалось там. Я подозреваю диск I / O / iowait, вероятно, связанный с обменом (sysstat поможет определить это)Затем внесите изменения с помощью:
решил это для меня ....
источник
Недавно я прошел через эту ошибку в одном из наших производственных кластеров:
..
При дальнейшей проверке найденных журналов sar время ожидания ввода-вывода увеличилось за это же время.
И после проверки аппаратного обеспечения (физических дисков) увидел средние ошибки, и другие ошибки SCSI зарегистрировали на одном физическом диске, который, в свою очередь, блокировал операции ввода-вывода из-за нехватки ресурсов для распределения.
Так что это произошло из-за аппаратной ошибки в нашем кластере.
Так что было бы хорошо, если бы вы могли проверить файл ядра, а также, если есть утилита ipmi, проверьте команду ipmiutil / ipmitool sel elist, чтобы проверить проблему.
С уважением, VT
источник
Вы можете перейти к интерфейсу мониторинга вашего облачного провайдера и проверить, не превышали ли вы максимальные значения операций ввода-вывода, указанные для вашего хранилища, что объясняет, почему для очистки данных кэша потребовалось много времени.
Максимальное количество операций ввода-вывода доступно на странице атрибутов хранилища.
источник