Общая аппаратная ошибка APEI

9

За последнюю неделю мой сервер (на котором работает Debian Jessie) дважды перезагрузился. В системном журнале я вижу это перед каждой перезагрузкой, и ни в одном другом месте:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Некоторое гугление заставляет меня поверить, что это связано с тем, что моя ECC RAM обнаруживает и восстанавливает после ошибки. Это правильно? Если он восстанавливается, почему система перезагружается? Я хотел бы предотвратить перезагрузку системы, если это вообще возможно.

мужик
источник

Ответы:

9

Похоже, ваша ОЗУ не работает или имеет ошибки, которые исправляются. В зависимости от серьезности, эти ошибки влияют на его способность функционировать, и после этого приходится перезагружаться.

Судя по всему, виновником является бит сообщения в конце о слишком малой длине раздела ошибки.

выдержка - [PATCH 1/1] efi: cper: Поддержка различной длины секции ошибки

Некоторые поля могут быть добавлены в раздел ошибок в новой спецификации UEFI. Например, поля «Зарезервировано», «Номер ранга», «Дескриптор карты» и «Дескриптор модуля» добавлены в раздел «Ошибка памяти», запущенный из спецификации UEFI 2.3. К сожалению, появится следующее предупреждающее сообщение, если обнаружена ошибка, исправленная в памяти, а поле 'revision' в struct acpi_generic_data меньше 0x203 (спецификация UEFI 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Такое поведение приводит к тому, что эта исправленная ошибка не может отображаться правильно. Чтобы решить эту проблему, этот патч поддерживает разную длину раздела ошибок для разных версий спецификации UEFI.

И этот патч использует предопределенную структуру для очистки дублированных кодов в функции cper_estatus_print_section.

При применении этого исправления исправленная ошибка памяти может корректно отображаться после введения ошибки.

Протестировано на v3.14-rc5 с платформой Grantley и Intel RAStool.

Таким образом, казалось бы, исправление для этой конкретной ошибки находится в разработке и может быть доступно в более новой версии ядра.

SLM
источник
3

К вашему сведению, у меня была очень похожая проблема.

Как оказалось, решением было вынуть память и заново установить ее, и все вернулось на круги своя.

Даррен Харрисон
источник