Определение причины перезагрузки сервера

8

У меня есть HP ProLiant DL380p Gen8, который работает под управлением VMWare ESXi 5.5 . В течение последних 24 часов она перезагружалась сама по себе с случайными интервалами. Работает только одна виртуальная машина, и даже если я выключу ее, хост все равно перезагрузится. На сервере не хватает памяти или дискового пространства, и, насколько я могу судить, не перегревается. Я пытался просмотреть файлы журналов, но есть так много на что посмотреть.

Каковы наиболее важные шаги в диагностике этой проблемы (в том числе какие параметры проверить, какие файлы просматривать, какое конкретное сообщение будет указывать на проблему, если я начну извлекать память, есть ли диагностический компакт-диск, который делает все это для меня, и т. Д.) ?

Я знаю, что это очень широкий вопрос. Я рад предоставить файлы журнала, если это необходимо, чтобы сделать это более конкретным в моей ситуации.

nachito
источник

Ответы:

9

Вот несколько предложений.

  • Ваш МОТ подключен и настроен? Он точно скажет вам, что происходит с системой. Пожалуйста, просмотрите журнал ILO4.

  • Просмотр системного журнала IML (доступен на вкладке «Оборудование» ILO или vSphere)

  • Есть ли какие-либо индикаторы или сообщения об ошибках на экране во время сбоя или во время POST?

  • Используете ли вы специфичную для HP установку ESXi (включает дополнительные драйверы и инструменты)

  • Какую версию и номер сборки ESXi вы используете?

  • Если виртуальная машина, которую вы используете, является гостем Windows 2012 или 2008, возможно , вы столкнулись с ошибкой драйвера NIC .

  • Проверьте ваши подключения питания. У вас есть два блока питания? Переставьте силовые кабели по одному.

  • Посмотрите на массив индикаторов System Insight на передней панели сервера, чтобы определить, есть ли внутренняя проблема со здоровьем.

введите описание изображения здесь

ewwhite
источник
2
И ЗВОНИТЕ Вендора для поддержки тоже. Вы можете и должны потратить некоторое время на изучение себя, но если это важный сервер, он должен быть в соответствии с соглашением о поддержке.
mfinni
Я не настроил МОТ, большое спасибо за предложение. Как только это было настроено, я проверил журнал и нашел это System Overheating (Temperature Sensor 1, Location Ambient, Temperature 46C). Я исправлю это сразу.
начито
Это означает, что ваша серверная комната или среда слишком теплая. Это также привело бы к КРАСНОМУ свету на индикаторе температуры на изображении выше. В зависимости от того, когда вы развернули этот сервер, вы также можете запускать обновления прошивки в системе.
ewwhite
Я думаю, что происходит, выхлоп из другой стойки слишком близко к воздухозаборнику для этой машины, так как в самой комнате стоит 72F. Когда я смотрел на машину, когда она перезагружалась, я видел вспышку OverTemp в течение доли секунды. Не удивляюсь, я никогда не видел этого раньше, если ты моргнешь в неподходящий момент, то пропустишь его полностью
начито
3
@nachito Надеюсь, вы знаете, что МОТ и сервер могут отправлять вам оповещения о состоянии здоровья по электронной почте, например, при таких температурных условиях ...
ewwhite