Я получил электронное письмо от пользователя, обеспокоенного тем, что следующие ошибки на одном из его серверов свидетельствуют о серьезной проблеме. Проблема в том, что ошибки, перечисленные ниже, - это все, на что я должен идти. Я обычно считаю себя приличным гуглером, но в этом случае я могу найти только еще один случай, когда пользователи столкнулись с этой ошибкой, касающейся «Каталога фильтра зонда»:
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
Из того, что я могу сказать, это случилось только один раз. Просмотр журналов на предмет других аппаратных ошибок не вызывает ничего, кроме этого одного инцидента.
Пост форума, на который я ссылаюсь выше, просто заканчивается тем, что пользователь не беспокоится об этом, если это произошло только один раз и не вызвало фатальных проблем. Это тот же совет, который я получил от своих коллег, которые также упомянули, что слишком много переменных (то есть что работало в 2:50 утра 8 сентября?).
Однако этот пользователь хочет быть уверен, что с его системой что-то не так. Что могут указывать или быть связаны с вышеуказанными ошибками? Что такое «каталог фильтров зондирования»? Какие тесты я могу запустить, чтобы успокоить пользователя, чтобы это не пометило его машину для надвигающейся гибели?
Linux-дистрибутив этой машины - Red Hat Enterprise Linux Server версии 6.4 (Сантьяго).
источник
Ответы:
У меня нет точного ответа, но кое-что из этого знакомо. Я не знаю, что такое каталог Probe Filter, но CptSupermrkt объяснил это выше.
В PCI северный мост подключается к памяти и процессору. Ошибки ECC связаны с DRAM. В каждом слове хранятся биты с исправлением ошибок. При чтении они проверяются, при записи они обновляются. Ошибки ECC исправимы или не исправимы, что указывает на возможность исправления ошибки, используя записанные биты. Неисправимый не означает, что существует постоянная аппаратная ошибка. Это может произойти, когда DRAM начинает отказывать.
Учитывая все это, это выглядит как временная ошибка. Вы можете попробовать полный тест памяти, но вряд ли что-то найдете. Если DRAM потерпел неудачу, ваше единственное корректирующее действие - заменить его.
источник