У меня есть новая система HP ProLiant DL360 G7 , в которой трудно воспроизвести проблему. Сервер случайно зависает на экране « Power and Thermal Calibration in Progress ... » во время процесса POST . Обычно это происходит после «горячей» загрузки / перезагрузки из установленной операционной системы.
Система останавливается на неопределенный срок в этой точке. Выполнение сброса или холодного запуска через регуляторы мощности ILO 3 обеспечивает нормальную загрузку системы без инцидентов.
Когда система находится в этом состоянии, интерфейс ILO 3 полностью доступен, и все индикаторы работоспособности системы в порядке (все зеленые). Сервер находится в центре обработки данных с климат-контролем и подключен к PDU. Температура окружающей среды составляет 64 ° F / 17 ° C. Система была помещена в 24-часовой цикл тестирования компонентов до развертывания без сбоев.
Основной операционной системой для этого сервера является VMWare ESXi 5. Изначально мы пробовали 5.0, а затем сборку 5.1. Оба были развернуты через PXE boot и kickstart. Кроме того, мы проводим тестирование на установках Windows и Red Hat Linux, не использующих металлы.
Системы HP ProLiant имеют полный набор параметров BIOS. Мы пробовали настройки по умолчанию в дополнение к высокопроизводительному профилю Static. Я отключил заставку загрузки и просто получил мигающий курсор в этой точке, а не на скриншоте выше. Мы также попробовали некоторые "лучшие практики" VMWare для конфигурации BIOS . Мы видели рекомендации от HP, в которых, похоже, описана похожая проблема , но мы не решили нашу конкретную проблему.
Подозревая проблему с оборудованием, я попросил продавца отправить такую же систему для доставки в тот же день. Новый сервер был полностью идентичен, за исключением дисков. Мы перенесли диски со старого сервера на новый. У нас возникла та же проблема случайной загрузки на заменяющем оборудовании.
У меня теперь оба сервера работают параллельно. Проблема случайно попадает на теплые сапоги. Холодные ботинки, кажется, не имеют проблемы. Я смотрю на некоторые из более эзотерических настроек BIOS, таких как отключение Turbo Boost или полное отключение функции калибровки мощности. Я мог бы попробовать это, но они не должны быть необходимыми.
Есть предположения?
--редактировать--
Детали системы:
- DL360 G7 - 2 шестнадцатеричных процессора X5670
- 96 ГБ ОЗУ (12 x 8 ГБ DIMM низкого напряжения)
- 2 x 146GB 15k SAS жестких дисков
- 2 х 750 Вт резервные источники питания
Все микропрограммы обновлены до последней версии HP Service Pack для ProLiant DVD.
Позвонив в HP и проколоть интервеб, я видел упоминания о плохом взаимодействии ILO 3, но это также происходит с сервером на физической консоли. HP также предложила источник питания, но он находится в стойке центра обработки данных, которая успешно питает другие производственные системы.
Есть ли вероятность того, что это может быть плохое взаимодействие между низковольтными модулями DIMM и источниками питания 750 Вт? Этот сервер должен иметь поддерживаемую конфигурацию.
источник
Ответы:
Итак, после того, как мы внедрили третью систему и столкнулись с той же проблемой, мы начали подвергать сомнению окружающую среду. Я выкопал копию Руководства по устранению неполадок серверов HP ProLiant и нашел блок-схему проблем с POST, показанную ниже.
Тщательно пройдя все этапы диаграммы, мы поняли, что единственной константой на всех серверах является KVM-переключатель, подключенный к аварийной тележке центра обработки данных. Это был потребительский класс KVM с поддержкой USB. В соответствии с выделенным узлом в блок-схеме, вы знаете хороший KVM? Я не мог ответить окончательно.
Итак, мы отключили серверы от KVM-переключателя и запустили автоматическую загрузку,
sleep 300; reboot
последовательность вrc.local
. У серверов не было проблем с этим, независимо от нормального DIMM, низковольтного DIMM, мощности блока питания и т. Д.Все это было результатом плохого взаимодействия с USB KVM-переключателем. Благодаря тому, что это была консоль, она гарантировала, что мы увидим ошибку, если будем ее искать. Самореализующихся ...
источник