В системном журнале появляется сообщение «mce: [Аппаратная ошибка]: события проверки компьютера зарегистрированы». Что я должен делать?

19

Я установил последнюю версию OSSEC (2.8.1), а также включил уведомления по электронной почте. И я получаю множество таких уведомлений о том, что есть аппаратная ошибка и что-то в mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Так что именно это значит? Что означает mce? И стоит ли мне беспокоиться об этой явной аппаратной ошибке?


Информация об ОС:

Description:    Ubuntu 14.10
Release:    14.10
Эрик Карвалью
источник
Вам нужно будет немного почитать о ossec, ознакомьтесь с правилами - ossec-docs.readthedocs.org/en/latest/manual/rules-decoders . Веб-интерфейс помогает, поскольку у него есть ряд объяснений - ossec.net/wiki/index.php/OSSECWUI:Install
Panther
ossec, вероятно, здесь плохо поддерживается или не по теме, так как его нет в репозиториях Ubuntu
Panther
1
Это совсем не про OSSEC. Вы получили это уведомление, потому что OSSEC нашел слово «ошибка» в системном журнале. Хотя я не думаю, что это не по теме, вы, вероятно, получите больше помощи от Unix & Linux или Server Fault .
Эрик Карвалью,
4
@ bodhi.zazen Все, что нужно сделать, чтобы быть по теме, - это запускаться на Ubuntu. Конечно, это не значит, что вы получите ответ.
Сет

Ответы:

23

Исключение проверки машины :

Machine Check Exception (MCE) представляет собой тип аппаратной ошибки компьютера , что происходит , когда центральный блок обработки компьютера обнаруживает проблему аппаратных средств.

На вашем компьютере произошла аппаратная ошибка, и ядро ​​записало событие в буфер. Вы можете использовать mcelogдля входа и просмотра событий проверки машины. С mcelogmanpage :

CPU X86 сообщают об ошибках, обнаруженных CPU, как события проверки компьютера (MCE). Это могут быть повреждения данных, обнаруженные в кэшах ЦП, в основной памяти встроенным контроллером памяти, ошибки передачи данных на лицевой стороне шины или межсоединении ЦП или другие внутренние ошибки. Возможными причинами могут быть космическое излучение, нестабильные источники питания, проблемы с охлаждением, неисправное оборудование, работающие системы, не соответствующие спецификации, или неудача.

Большинство ошибок может быть исправлено ЦП с помощью внутренних механизмов исправления ошибок. Неисправленные ошибки вызывают исключения проверки компьютера, которые могут привести к остановке процессов или панике компьютера. Небольшое количество исправленных ошибок обычно не является причиной для беспокойства, но большое количество может указывать на будущий сбой.

Когда происходит исправленная или исправленная ошибка, ядро ​​x86 записывает запись, описывающую MCE, во внутренний кольцевой буфер, доступный через устройство / dev / mcelog. mcelog извлекает ошибки из / dev / mcelog, декодирует их в удобочитаемый для человека формат и печатает их в стандартный вывод или, при необходимости, в системный журнал.

Если вы не заметили какого-либо сбоя, возможно, ошибка была успешно исправлена. Тем не менее, я советую вам установить, mcelogчтобы отслеживать такие события:

sudo apt-get install mcelog

События будут зарегистрированы в /var/log/mcelog. Вы также можете запустить:

sudo mcelog --client

запросить у mcelogдемона ошибки.

Эрик Карвалью
источник
2
Интересно, почему ошибки MCE не просто записываются непосредственно в системный журнал ... возможно, есть веская причина, может быть
Xen2050
2
@ Xen2050 Поскольку декодирование сообщения зависит от архитектуры и не всегда документируется производителями оборудования. Ошибка может быть вызвана даже шиной PCIe.
Мирча Вутцовичи
4
@ Xen2050: На моем компьютере с Fedora 25 сообщения MCE записываются в журнал, и я могу их видеть journalctl -b.
Мартин Уединг