Как заставить Smartd замолчать об одном конкретном офлайновом неисправимом секторе?

18

У меня есть диск в программном RAID-1 с двумя дисками, для которого недавно в статусе SMART появился «автономный неисправимый сектор».

198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1

Это, по-видимому, является лишь признаком неизбежного сбоя диска, если он происходит все чаще (а поскольку диск зеркально отражен, большой риск потери данных также отсутствует). В то время самопроверка также в какой-то момент не удалась, и я smartdотправил мне электронное письмо, чтобы уведомить меня об этом, как и должно быть.

Однако запись в поврежденный сектор обычно приводит к тому, что диск использует вместо него один из резервных секторов, что, по-видимому, и произошло, потому что с тех пор, как я ddперебрал диск, все самотестирование прошло очень хорошо. А badblocksтакже не нашел причин жаловаться.

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
[...]
# 5  Extended offline    Completed without error       00%      5559         -
# 6  Short offline       Completed without error       00%      5540         -
# 7  Short offline       Completed: read failure       90%      5524         63273368

Число неисправных секторов не уменьшилось, хотя и не должно, так как сломанный сектор все еще там, хотя и не используется. Тем не менее, smartdпродолжает отправлять мне электронные письма каждую ночь:

The following warning/error was logged by the smartd daemon:

Device: /dev/sda [SAT], 1 Offline uncorrectable sectors

Это чрезвычайно раздражает и, очевидно, затмевает мой здоровый рефлекс паники на smartdпочту.

Диск Western Digital WD20EARS и smartdверсия 5.41 2011-06-09 r3365.

Кристиан
источник

Ответы:

23

На некоторых дисках вам, возможно, придется прибегнуть к -U 198+(или -U +?) В файле конфигурации.

Пожалуйста, будь осторожен. Если вы не являетесь оригинальным автором, внимательно прочитайте весь вопрос. Если вы используете это на диске, который ему не нужен, он будет подавлять полностью действительные предупреждения.

Если указано «+», отчет распечатывается только в том случае, если число секторов увеличилось с момента последнего цикла проверки. Некоторые диски не сбрасывают этот атрибут при перераспределении плохого сектора. Смотрите также ´-v 198, увеличивая´ ниже.

smartd.conf (5)

Например, предположим, что вы используете конфигурацию по умолчанию в smartd.conf. В этом случае в файле много комментариев, но единственная строка без комментариев находится здесь:

# The word DEVICESCAN will cause any remaining lines in this
# configuration file to be ignored: it tells smartd to scan for all
# ATA and SCSI devices.  DEVICESCAN may be followed by any of the
# Directives listed below, which will be applied to all devices that
# are found.  Most users should comment out DEVICESCAN and explicitly
# list the devices that they wish to monitor.
DEVICESCAN

Добавьте опцию в конец строки:

DEVICESCAN -U 198+
sourcejedi
источник
1
-U 198+должен сделать это. Хорошая находка!
Майкл Хэмптон
какие-нибудь тесты для этого?
JIV
1
@JIV отредактировано. Я также добавил предупреждение. Пожалуйста, внимательно относитесь к своим данным :-).
sourcejedi
0

Есть две возможности, откуда приходят эти письма. SmartD может отправлять письма самостоятельно, но, скорее всего, он не настроен таким образом, поэтому я предполагаю, что эти письма отправляются с помощью logcheck. Если это предположение неверно, вам не нужно читать дальше.

logcheck сканирует файлы журнала и отправляет письма, если считает, что вам следует беспокоиться обо всем, что случилось с вашей системой.

У вас есть возможность написать правило игнорирования logcheck, которое указывает logcheck не отправлять сообщения, которые соответствуют определенному шаблону.

Вы можете (в системах на основе Debian) создать файл с именем "/etc/logcheck/ignore.d.server/smartd_own" со следующим содержимым:

^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$

Это должно отфильтровать раздражающие письма, но написать вам снова, если счетчик неисправимых секторов увеличивается.

hennr
источник
smartdотправляет сообщения напрямую, к сожалению. Очевидно, что всегда есть возможность изменить это. Я рассмотрю это, если не должно быть другого пути, так что спасибо!
Кристиан
О, черт, в любом случае у вас есть обходной путь сейчас.
hennr