Насколько серьезно я должен воспринимать исправляемые ошибки ECC?

8

У меня есть куча серверов Sun X2200-M2. Эти серверы имеют память ECC.

На некоторых из этих серверов я получаю предупреждения в eLOM о «обнаруженных исправимых ошибках ECC», например:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... некоторые чаще, чем другие.

Ядро в этой конкретной системе также выдает ошибки EDAC, хотя с гораздо большей частотой, чем eLOM записывает события ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Теперь, если сервер обнаруживает неисправимый ECC, система перезагружается, поэтому ясно, что это плохо, и удаление / замена идентифицированного флешки или пары устраняет проблему.

Но я думаю, что если ошибка исправима, то тут нет немедленной проблемы - я могу воспринимать это как предупреждение и быть готовым вытащить клюшку / пару, если начнёт возникать неисправимая ошибка?

Дэвид Макинтош
источник

Ответы:

10

Зависит от того, как часто вы получаете ошибку. По разным причинам ECC должен исправлять однобитовые ошибки в среднем примерно раз в год. Если вы получаете их значительно быстрее, или если это многоразрядные ошибки, вы должны быть обеспокоены (я бы заменил RAM как можно скорее).

Кроме того, ECC не идеален. Вполне возможно, что накопленная ошибка проходит ECC; это проявилось бы как сбой ОС или подобная проблема.

Крис С
источник
Спасибо. Ведение переговоров с клиентом для финансирования замены.
Дэвид Макинтош