Важность памяти ECC

11

Важны ли модули памяти ECC на некритическом сервере?

Я думал о том, чтобы получить себе игрушечный выделенный сервер для множества случайных, некритических вещей. Спорадические перезагрузки не имеют большого значения. Я смотрю на одного поставщика, но цены безумно дешево. Их аппаратное обеспечение звучит как шутка для любого серьезного серверного блока: процессоры для настольных ПК, оперативная память без ECC, безымянное шасси, без горячей замены SATA HDD и т. Д. (Ну, я думаю, цена оправдывает это).

Я воспринимаю ECC как должное на любом "серьезном" сервере, поэтому мне интересно, имеет ли это большое значение или нет для "игрушечных" устройств.

PJK
источник
3
Вы спрашиваете ECC памяти, но, кажется, счастливы использовать диски SATA. Очень странный.
Джон Гарденер
3
@JohnGardeniers Видите ли, даже если это означает, что один раз в год мертвый жесткий диск, я не возражаю против нескольких часов простоя и восстановления рейдов. Но иметь ежедневные / еженедельные проблемы было бы неприятно. Да, в данном случае я больше обеспокоен своим отдыхом, чем
временем
6
@JohnGardeniers: диски SATA не более надежны, чем жесткие диски SCSI / SAS: usenix.org/event/fast07/tech/schroeder/schroeder.pdf
Хуберт Карио

Ответы:

11

Данные, опубликованные ИТ-специалистами CERN ( целостность данных ), позволяют предположить, что количество ошибок, возникающих в ОЗУ, достаточно мало. Вам все еще нужно взвесить ваши данные и стоимость оборудования.

Вы можете прочитать немного больше об этом в StorageMojo .

Хьюберт Карио
источник
10

ECC RAM в основном помогает предотвратить ошибки, возникающие при чтении и записи из RAM. Вероятность возникновения ошибки довольно мала, но не равна нулю. Я бы сказал, что если вы не делаете критически важные вещи, вы могли бы обойтись без ECC RAM - как я уже сказал, шансы встретить ошибку, которую ECC предотвратит, очень малы.

BenGC
источник
6

Что такое некритический сервер? Тот, который может потерпеть неудачу?

ECC RAM имеет основополагающее значение, когда основополагающая надежность памяти.

Две вещи растут с ростом объема памяти:

  • зависимость программного обеспечения от памяти, особенно серверное программное обеспечение (например, кеширование)
  • вероятность ошибки памяти (p = num_bits * p_bit_failure)

Эта презентация Intel на ECC сообщает об этих фактах:

  • Средняя частота ошибок памяти для сервера с 4 ГБ памяти, работающего 24x7, составляет 150 раз в год.
  • ~ 4000 исправляемых ошибок на модуль памяти в год
  • Разгон и возраст системы значительно увеличивают частоту отказов
  • Периодические сбои распространены и происходят быстро (97% происходят в течение 10 дней после первого сбоя) => лавинный эффект
  • Для сервера ECC со сроком службы от 3 до 5 лет вероятность сбоя системы в случае неисправимой ошибки памяти составляет менее 0,001%.

Другое недавнее исследование WISC показывает, что ECC важен для этих систем ZFS:

В ZFS нет мер предосторожности при повреждении памяти: поврежденные блоки данных возвращаются пользователю или записываются на диск, операции файловой системы завершаются сбоем, и во многих случаях происходит сбой всей системы.

Важно отметить, что другие файловые системы так же чувствительны к этой форме повреждения данных, как и ZFS.

ECC - это то, что спасает вас от возможных проблем, когда это возможно, и в катастрофических случаях предупреждает вас об этом, пока не стало слишком поздно.

Michele
источник
1

Это просто не так важно. Если вам нужно время безотказной работы 99,999%, вам стоит об этом беспокоиться. Кроме того, вы будете перезагружаться чаще, чем вы будете получать ошибки памяти.

Джим Б
источник
1

Это исследование, проведенное Google в 2009 году, выявило частоту ошибок от 25000 до 70000 ошибок на миллиард часов работы устройства на мегабит. Это означает, что для 8 ГБ ОЗУ (использованной) было примерно от 1,7 до 4,8 ошибок в час.

Битфлипы - это то, что существует, и их нельзя игнорировать, как только важна целостность данных.

В вашем случае (случайные, некритические вещи) это, вероятно, будет излишним.

bl4x1
источник