Стоит ли беспокоиться о высоком значении SMART Hardware_ECC_Recovered?

16

Я получил такое сообщение в /var/log/messages:


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

Означает ли это, что диск выходит из строя, и я должен заменить его? Где я могу прочитать о интерпретации результатов теста SMART?

lexsys
источник

Ответы:

13

Согласно Стиву Гибсону, известному Spinrite , значения SMART должны приниматься во времени, а не как мгновенные показания. Это означает, что значение 47 не обязательно является плохим, если значение было 47 в течение нескольких месяцев. Однако если значение было 42 часа назад, и оно быстро растет, то это означает, что накопитель испытывает трудности с доступом к части данных и может вскоре вообще не прочитать сектор. В зависимости от значения данных на этом диске вы можете заменить его.

Дейв Чейни
источник
+1 за отличный ответ, и добавить к нему. Если вы действительно заинтересованы в Lexsys, я бы купил копию spinrite и запустил ее. Вам понадобится ваша система, чтобы иметь возможность загружаться с компакт-диска, но ОС не имеет значения. (Хотя для создания загрузочного компакт-диска вам понадобится Windows или клон Windows)
Matt
Spinrite поставляется с загрузочным (freedos) .iso-образом, который вы можете записать с любой текущей ОС
Дейв Чейни,
grc.com/sr/spinrite.htm будет лучшим местом для ссылки
Брэд Гилберт
2
Пример неверный! Смотрите ответ @ CesarB - для большинства значений увеличение - это хорошо! Так что, если это было 42 часа назад, а сейчас это 47 - отлично. Но не наоборот.
Фолькер Зигель
6

Высокое значение для этого атрибута на самом деле довольно хорошее:

Аппаратный ECC Восстановленный параметр SMART указывает время между ошибками, исправленными ECC.

https://kb.acronis.com/content/9131

Роберт Клемм
источник
2
Добавил то, что я считаю центральной цитатой.
Роберт Клемм
Это имеет смысл сейчас, даже если связанный ресурс исчезнет. Спасибо, Роберт.
цыплята
4

Во-первых, более низкие значения хуже для SMART, а не более высокие значения (обратите внимание, что столбец порога всегда ниже текущего значения). Таким образом, увеличение стоимости не является поводом для беспокойства. (Однако это правило не распространяется на необработанные значения.)

Значения SMART имеют тенденцию немного колебаться (например, ваши могут находиться на грани между 46 и 47, поэтому даже небольшие изменения могут привести к переходу на другое значение).

Ваш smartctl -aвывод показывает, что худшее значение было 45, поэтому оно колеблется немного выше нормального.

Для получения дополнительной информации взгляните на Википедию: атрибуты ATA SMART .

CesarB
источник
3

Имейте в виду, что даже обширное исследование, проведенное Google, показало, что большое количество отказов дисков не было предсказано ошибками SMART. Возможно, то, что вы видите, совершенно нормально, но, поскольку у каждого производителя есть разные метрики для преобразования необработанных значений в сообщенные значения, трудно сказать наверняка, на вашем диске много ошибок или нет. Тем не менее, такое большое число кажется мне странным.

Я бы порекомендовал прочитать все диски (dd или rsyncing на новый диск) и проверить значения SMART по мере их продвижения. Если вы увидите, что необработанное число или значения, о которых вы сообщаете, сильно изменятся, я бы начал искать замену накопителя.

jasonrm
источник
Да. Было бы неплохо, чтобы ZFS отслеживал атрибуты SMART по своим собственным шаблонам использования.
i336_
1

Ничего плохого в этом нет.

Вы всегда можете запустить

smartctl -t long /dev/yourdrive

Затем через несколько часов запросите его результат

smartctl -a /dev/yourdrive

просто чтобы убедиться.

cstamas
источник
1

IIRC Hardware ECC восстановил исправление ошибок при чтении с диска, что не является чем-то необычным для диска, и именно по этой причине они кодируют данные с помощью механизмов исправления ошибок. Некоторые контроллеры также поддерживают избыточную информацию в секторах диска и добавляют еще один уровень исправления ошибок.

Как заявляет Дейв Чейни, цифры должны контролироваться с течением времени. Радикальные изменения в этой статистике указывают на неисправность диска. Кроме того, следите за увеличенными списками дефектов - если увеличенный список дефектов начинает расти или статистика SMART начинает значительно меняться, то вам следует профилактически заменить накопитель.

ConcernedOfTunbridgeWells
источник
1
лол, профилактически
Дейв Чейни,