HP ProLiant DL360 G7 зависает на экране «Power and Thermal Calibration»

41

У меня есть новая система HP ProLiant DL360 G7 , в которой трудно воспроизвести проблему. Сервер случайно зависает на экране « Power and Thermal Calibration in Progress ... » во время процесса POST . Обычно это происходит после «горячей» загрузки / перезагрузки из установленной операционной системы.

введите описание изображения здесь

Система останавливается на неопределенный срок в этой точке. Выполнение сброса или холодного запуска через регуляторы мощности ILO 3 обеспечивает нормальную загрузку системы без инцидентов.

Когда система находится в этом состоянии, интерфейс ILO 3 полностью доступен, и все индикаторы работоспособности системы в порядке (все зеленые). Сервер находится в центре обработки данных с климат-контролем и подключен к PDU. Температура окружающей среды составляет 64 ° F / 17 ° C. Система была помещена в 24-часовой цикл тестирования компонентов до развертывания без сбоев.

Основной операционной системой для этого сервера является VMWare ESXi 5. Изначально мы пробовали 5.0, а затем сборку 5.1. Оба были развернуты через PXE boot и kickstart. Кроме того, мы проводим тестирование на установках Windows и Red Hat Linux, не использующих металлы.

Системы HP ProLiant имеют полный набор параметров BIOS. Мы пробовали настройки по умолчанию в дополнение к высокопроизводительному профилю Static. Я отключил заставку загрузки и просто получил мигающий курсор в этой точке, а не на скриншоте выше. Мы также попробовали некоторые "лучшие практики" VMWare для конфигурации BIOS . Мы видели рекомендации от HP, в которых, похоже, описана похожая проблема , но мы не решили нашу конкретную проблему.

Подозревая проблему с оборудованием, я попросил продавца отправить такую ​​же систему для доставки в тот же день. Новый сервер был полностью идентичен, за исключением дисков. Мы перенесли диски со старого сервера на новый. У нас возникла та же проблема случайной загрузки на заменяющем оборудовании.

У меня теперь оба сервера работают параллельно. Проблема случайно попадает на теплые сапоги. Холодные ботинки, кажется, не имеют проблемы. Я смотрю на некоторые из более эзотерических настроек BIOS, таких как отключение Turbo Boost или полное отключение функции калибровки мощности. Я мог бы попробовать это, но они не должны быть необходимыми.

Есть предположения?

--редактировать--

Детали системы:

  • DL360 G7 - 2 шестнадцатеричных процессора X5670
  • 96 ГБ ОЗУ (12 x 8 ГБ DIMM низкого напряжения)
  • 2 x 146GB 15k SAS жестких дисков
  • 2 х 750 Вт резервные источники питания

Все микропрограммы обновлены до последней версии HP Service Pack для ProLiant DVD.

Позвонив в HP и проколоть интервеб, я видел упоминания о плохом взаимодействии ILO 3, но это также происходит с сервером на физической консоли. HP также предложила источник питания, но он находится в стойке центра обработки данных, которая успешно питает другие производственные системы.

Есть ли вероятность того, что это может быть плохое взаимодействие между низковольтными модулями DIMM и источниками питания 750 Вт? Этот сервер должен иметь поддерживаемую конфигурацию.

ewwhite
источник
2
Любой способ устранить диски в качестве возможной причины? Есть ли шанс, что вы сможете протестировать некоторые альтернативные диски SAS или SATA?
ErnieTheGeek
Да, проверено с заведомо хорошим набором дисков во второй системе. Они работают параллельно.
ewwhite
1
Единственный раз, когда я видел это, был в системе (также DL360 G7), где я пытался использовать карту не HP для хранения. Когда у меня была и карта SmartArray, и другая, она сделала это. Когда я вынул либо, это прошло. Это не твоя проблема, но я передаю то, с чем столкнулся.
sysadmin1138
1
Возможно, что-то связано с сетью? Попробуйте дублировать, не подключаясь к сети.
ErnieTheGeek
1
@TheCleaner Отключение динамического ограничения мощности не доступно на серверах G7. Он был представлен для серии Gen8 ProLiant.
2013 года

Ответы:

43

Итак, после того, как мы внедрили третью систему и столкнулись с той же проблемой, мы начали подвергать сомнению окружающую среду. Я выкопал копию Руководства по устранению неполадок серверов HP ProLiant и нашел блок-схему проблем с POST, показанную ниже.

введите описание изображения здесь

Тщательно пройдя все этапы диаграммы, мы поняли, что единственной константой на всех серверах является KVM-переключатель, подключенный к аварийной тележке центра обработки данных. Это был потребительский класс KVM с поддержкой USB. В соответствии с выделенным узлом в блок-схеме, вы знаете хороший KVM? Я не мог ответить окончательно.

Итак, мы отключили серверы от KVM-переключателя и запустили автоматическую загрузку, sleep 300; rebootпоследовательность в rc.local. У серверов не было проблем с этим, независимо от нормального DIMM, низковольтного DIMM, мощности блока питания и т. Д.

Все это было результатом плохого взаимодействия с USB KVM-переключателем. Благодаря тому, что это была консоль, она гарантировала, что мы увидим ошибку, если будем ее искать. Самореализующихся ...

ewwhite
источник
2
Вау, это хорошо! Рад, что ты это заподозрил.
Недм
7
Святая ворона +1 к вопросу и ответу. Хорошая работа; Я бы, наверное, не заметил этого. "Известно хорошо"? Конечно, это хорошо известно - это работает, не так ли?
mfinni
Большое спасибо вам!!! это был определенно KVM. Просто отключите видео и подключите монитор напрямую, и сервер снова будет работать нормально. После загрузки ОС я снова подключил KVM. Я думаю, что проблема была вызвана тем, что я случайно коснулся кабелей на задней панели сервера. Система остановлена ​​и реагирует только на этот совет.
1
Любая идея, как KVM может вызвать это?
TheLQ
@TheLQ Причина была в дешевом KVM-устройстве потребительского уровня. Также может быть проблема с клавиатурой.
ewwhite