Учитывая тот факт, что многие системы серверного класса оснащены ОЗУ ECC , необходимо или полезно записывать модули памяти DIMM перед их развертыванием?
Я столкнулся со средой, в которой вся оперативная память сервера размещается в процессе длительного прожигания / стресс-тестирования. Это иногда задерживает развертывание системы и влияет на время подготовки оборудования.
В качестве серверного оборудования используется в основном Supermicro , поэтому оперативная память поступает от различных поставщиков; не напрямую от производителя, как Dell Poweredge или HP ProLiant .
Это полезное упражнение? В моем прошлом опыте я просто использовал ОЗУ производителя из коробки. Разве тесты памяти POST не должны ловить память DOA? Я реагировал на ошибки ECC задолго до того, как модуль DIMM действительно вышел из строя, поскольку пороговые значения ECC, как правило, были причиной для размещения гарантии.
- Вы прожигаете свою оперативную память?
- Если да, то какой метод (ы) вы используете для проведения тестов?
- Выявлены ли какие-либо проблемы перед развертыванием?
- Приведет ли процесс выгорания к дополнительной стабильности платформы по сравнению с не выполнением этого шага?
- Что вы делаете при добавлении оперативной памяти на существующий работающий сервер?
источник
Нет.
Цель горения в оборудовании состоит в том, чтобы подчеркнуть его до такой степени, чтобы катализировать отказ в компоненте.
Делая это с механическими жесткими дисками, вы получите некоторые результаты, но для оперативной памяти это мало что даст. Природа компонента такова, что факторы окружающей среды и возраст гораздо более вероятно будут причиной сбоев, чем чтение и запись в ОЗУ (даже при максимальной пропускной способности в течение нескольких часов или дней).
Если у вас достаточно высокого качества ОЗУ, чтобы припой не расплавился при первом его использовании, процесс выгорания не поможет вам найти дефекты.
источник
Мы покупаем blade-серверы и, как правило, покупаем достаточно большие блоки за один раз, поэтому мы устанавливаем их и устанавливаем в течение ДНЕЙ до того, как наши сетевые порты будут готовы / безопасны. Таким образом, мы используем это время, чтобы использовать memtest в течение примерно 24 часов, иногда дольше, если он длится в выходные дни - как только это будет сделано, мы разбрасываем базовый ESXi, и IP готов для применения его профиля хоста, как только сеть начнет работать. Так что да, мы тестируем это, скорее из-за возможности, чем из-за необходимости, но до этого момента уловили несколько DOA DIMM, и это не я делаю физически, поэтому мне не нужно никаких усилий. Я за это.
источник
Ну, я думаю, это зависит от того, что именно ваши процессы. Я ВСЕГДА запускаю MemTest86 в памяти, прежде чем поместить ее в систему (сервер или иным образом). После того, как ваша система запущена и работает, проблемы, вызванные неисправной памятью, могут быть трудно устранить.
Что касается собственно «стресс-тестирования» памяти; Я еще даже не понял, почему это было бы полезно, если вы не тестируете для целей разгона.
источник
Я не знаю, но я видел людей, которые делают. Я никогда не видел, чтобы они что-то от этого получали, я думаю, что это может быть похмелье или суеверие, возможно.
Лично я, как и вы, в том, что частота ошибок ECC для меня более полезна - при условии, что ОЗУ не DOA, но тогда вы все равно это знаете.
источник
Для оперативной памяти, не поддерживающей ECC, полезно использовать 30 минут на memtest86 +, поскольку обычно не существует надежного метода обнаружения битовых ошибок во время работы системы.
Синий скрининг не считается надежным методом ...
И слегка нестабильное ОЗУ часто не отображается сразу, только после того, как система увидела некоторую загрузку полной памяти, и только тогда, если данные в этом ОЗУ были кодом, который использовался и затем разбился. Повреждение данных может оставаться незамеченным в течение длительных периодов времени.
Для ECC ram он не будет делать ничего, чего не будет делать сам контроллер памяти, так что на самом деле это не имеет смысла. Это просто пустая трата времени.
По моему опыту, люди, которые настаивают на том, чтобы выжигать, - это, как правило, старые парни, которые всегда так делали и которые продолжают делать это по привычке, не думая, что это правда.
Или они молодые парни, следуя предписанной процедуре, написанной этими старыми парнями.
источник
Это зависит.
Если вы развертываете 50 000 новых ОЗУ и знаете, что у этого конкретного оборудования частота отказов составляет 0,01% после менее чем одного дня работы, то, по статистике, должно быть несколько из них, которые выйдут из строя в первый же день. Сжигание предназначено, чтобы поймать это. С развертываниями такого масштаба ожидается сбой, а не исключительная ситуация.
Если вы развертываете только пару сотен элементов, статистика, скорее всего, на вашей стороне, так как вам не повезло, чтобы получить неисправные части.
источник