Означает ли этот SMART самотестирование неисправный диск?

10

Мне интересно, если результаты этого самотестирования SMART указывают на неисправный диск, это единственный диск, который показывает «завершено: ошибка чтения» в результатах.

# smartctl -l selftest /dev/sde
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)   LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      8981         976642822
# 2  Extended offline    Aborted by host               90%      8981         -
# 3  Extended offline    Completed: read failure       90%      8981         976642822
# 4  Extended offline    Interrupted (host reset)      90%      8977         -
# 5  Extended offline    Completed without error       00%       410         -

Диск пока не показывает никаких признаков отказа, кроме результатов этого самотестирования SMART. Это выходные данные с другого диска в той же системе, которая в настоящее время выполняет самотестирование SMART

# smartctl -l selftest /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 30%     15859         -
# 2  Extended offline    Completed without error       00%      9431         -
# 3  Extended offline    Completed without error       00%      8368         -


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       1
  3 Spin_Up_Time            0x0027   176   175   021    Pre-fail  Always       -       4183
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       48
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       8982
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       46
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       34
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       13
194 Temperature_Celsius     0x0022   111   101   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       2
Джефф Веллинг
источник
4
Было бы гораздо полезнее, если бы вы запустили smartctl -a /dev/sdeи опубликовали раздел с пометкой, SMART Attributes Data Structureсодержащий необработанные счетчики. В частности, самый первый из них, Raw_Read_Error_Rateкоторый является лучшим индикатором «плохой диск» (и, вероятно, будет! 0 в вашем случае).
Крис С
1
Добавлен. , , , , , , , , ,
Джефф Веллинг
1
Добавленные вами данные выглядят достаточно хорошо. Если диск является частью RAID-массива, я бы об этом не беспокоился. Вы должны делать резервные копии ваших важных файлов в первую очередь; сейчас хорошее время, чтобы начать, если вы этого не сделаете.
Крис С
4
@Джефф Уэллинг: Не будь педантом, но если ваша «резервная копия» находится на RAID-массиве, это не «резервная копия», а «копия». Лично, если бы это был я, я бы заменил диск в случае отказа диска. Несмотря на то, что в наши дни даже при хорошей поездке стоит небольшая плата, страховка того стоит. Кроме того, я только что испытал два отказа дисков в одном массиве (RAID10) в один и тот же день. Из 6, которые были в массиве. FWIW.
Кендалл
1
@ Кендалл, я думаю, он имеет в виду, что массив используется для резервных копий, а оригиналы в другом месте. Если это так, я бы рискнул, так как маловероятно, что два диска выйдут из строя (если они не являются новыми дисками, детская смертность является распространенной проблемой, а прожигание - обычная практика в больших массивах).
Крис С

Ответы:

8

Надеюсь, вы уже давно заменили диск, но так как никто еще прямо не ответил на вопрос ...

Вы выполнили два теста, оба из которых не смогли прочитать один и тот же логический сектор диска, как указано, Completed: read failureи один и тот же LBA в обоих тестах. Это действительно означает, что диск имеет дефект, и вы сможете заменить его по гарантии. Попытка сохранить данные в этом секторе может привести или не привести к тому, что накопитель заметит, что он неисправен во время процесса записи, и переназначить сектор, но если накопитель не заметит и не сможет прочитать данные позже, вы потеряли Это.

Майкл Хэмптон
источник
4

Стоит ли рисковать вашими данными на подозрительном диске?

Если бы это был я, я бы заменил диск и был бы благодарен, что SMART избавил меня от большой головной боли.

Кусочки бекона
источник
Кроме того, я бы по крайней мере настроил скрипт cron для запуска smart один раз в неделю на ваших дисках, а затем отправлял бы вам вывод в виде отчета или электронного письма каждую неделю, чтобы вы в большинстве случаев могли определить заранее. какие диски могут быть последними, чтобы избежать необходимости восстановления после сбоя и восстановления из резервных копий. Еще проще, если у вас несколько машин, используя инструмент мониторинга, такой как Nagios или Munin.
Уилшир
5
Это легче сделать, когда вы знаете, что умный вывод указывает на неисправный диск, трудно сказать, что означает и не указывает на неисправный диск.
Джефф Веллинг
4

Я хочу добавить к комментариям в другом ответе, но я не могу из-за отсутствия повторения, пойди разберись.

Вам не нужно создавать скрипт cron, в пакете smartmontools есть демон smartd, который обрабатывает только то, что вы хотите: регулярную проверку состояния SMART. Все, что вам нужно, это создать конфигурацию и запустить сервис. Пакет smartmontools также содержит несколько примеров сценариев, которые smartd может вызывать, когда что-то начинает давать сбой.

Sgaduuw
источник
Я не использую скрипт cron, я использую демон smartd. Он выкладывает заметки в системный журнал, я заметил некоторые строки, которые я обычно не вижу на других дисках, и попытался выполнить самотестирование, которое, когда я проверил, провалилось. Я никогда не видел подобного рода неудачи раньше, поэтому я подумал, что люди здесь могут это увидеть. Вывод системного журнала Smartd довольно загадочен, если у вас нет большого опыта работы с ним, он точно не говорит вам: «Диск X умирает и его нужно заменить», хотя было бы неплохо, если бы он это сделал :)
Джефф Веллинг
2

Что я буду делать в вашей ситуации?

Прежде всего я выясняю, какие файлы затронуты. Есть несколько инструкций, как это сделать http://smartmontools.sourceforge.net/badblockhowto.html#e2_example1 Да. В вашем случае это сложнее, потому что у вас есть массив. Но это возможно. Чем гарантировать, что этот файл будет заархивирован, чем записать нули в неисправный сектор. Две вещи могут случиться. 1. Диск успешно записывает нули в этот сектор. Current_Pending_Sector, Reallocated_Sector_Ct должны быть нулями после этого. 2. Диск не может записать в этот сектор. Затем он перераспределяет этот сектор в «запасную» область.

В любом случае у вас получится фиксированный диск. Вы должны восстановить ваш файл из резервной копии (потому что вы перезаписали один его сектор). Также вам следует повторно запустить расширенную самопроверку, чтобы убедиться, что ошибок больше нет.

Оставаться здоровым!

PS Я знаю, что этот пост довольно старый. Но я обманываю это. И я думаю, что это хорошая идея, чтобы дать еще один хороший ответ.

Александр Приймак
источник
1
удобная информация! Собираюсь попробовать это сейчас
kerridge0
0

Диск, скорее всего, уже выходил. Отсутствие возможности чтения с какой-либо части диска, безусловно, является условием сбоя, и вполне возможно, что это произойдет без других типичных признаков отказа диска. Этот тип вещей обычно не преходящий; без каких-либо других признаков это может быть слабая голова, очень небольшая проблема с выравниванием или дефектная область на блюде (цилиндр?).

Другая альтернатива - ошибка SMART; Вы действительно не хотите запускать диск с ошибочной прошивкой.

Каждый раз, когда вы видите какую-либо ошибку со стороны SMART, это явный признак того, что вам следует приобрести новый диск, чтобы избежать потери данных. Частично он предназначен как система раннего предупреждения.

Сокол Момот
источник
0
  • Резервное копирование, как только вы можете!

  • Если этот диск все еще в гарантии, то

    • запустить проверку прав продавца (обычно вы можете получить загрузочный компакт-диск)
    • если это возвращает ошибку, то бинго, отправьте его обратно и дождитесь замены
    • восстановить из резервной копии
    • проблема решена - КОНЕЦ

  • Если на этот привод нет гарантии, значит, вы облажались
    • есть еще надежда ...
    • поскольку это на самом деле только ошибка чтения, это не значит, что вы не можете писать в нее
    • после создания резервной копии вы можете попытаться восстановить резервную копию, так как она перезапишет там нечитаемые сектора новыми данными, которые вы действительно можете прочитать (ну, обычно это работает, в фоновом режиме накопитель переназначает эти блоки, чтобы сэкономить секторы большую часть времени )
    • badblocks инструмент также может быть использован для этого (у вас уже есть резервные копии, верно?)
      • вы на самом деле не используете это для тестирования диска (в любом случае не имеет смысла никогда не использовать диски), но для записи в эти сектора несколько раз
    • вы можете снова запустить смарт-тесты, и есть вероятность, что эти нечитаемые сектора «исправят себя»
    • проблема НЕ решена, вы только продлили срок службы накопителя, возможно, он выйдет из строя быстрее, чем обычно, возможно, через год, в зависимости от его использования, но эй диски дешевы, приобретите новый, если ваши данные важны для вас
cstamas
источник
1
Современные жесткие диски (как с начала века) не работают так, как вы описали в разделе «без гарантии».
Крис С
3
Начните со статьи Википедии о плохом секторе . Жесткие диски абстрагируют адрес логического сектора и сопоставляют его с секторами, которые он считает хорошими. Некоторые утилиты поставщика (иногда SMART, в зависимости от того, что отображается на диске) могут сообщать о переназначенных секторах. Плохие сектора обычно обнаруживаются при операциях записи. Обычно после того, как оно написано, его можно прочитать снова; это начальная операция записи, которая обычно завершается неудачно в поврежденных секторах. Если сектор плохой, он плохой навсегда, его нельзя «исправить».
Крис С
1
Я думаю, что я не сказал ничего, что противоречило бы тому, что вы говорите, но я пояснил немного, чтобы сделать это более «технически правильным».
Cstamas
2
Не уверен, почему люди так сильно проголосовали за твой ответ. Я думаю, что вы на месте. Люди, вероятно, неправильно поняли, что вы выступаете за то, чтобы держать в работе нестабильный диск. Но, учитывая, что OP является домашним пользователем, стоимость нового привода вполне может вызывать беспокойство даже при сегодняшних ценах. Я знаю, что это довольно старый вопрос, но от меня, по крайней мере, вы получаете +1. ;)
Маркус А.
2
@cstamas: Могу также согласиться с тем, что ваш ответ точен - если накопитель переживет полный цикл badblocks -w(3x запись, 3x чтение) без создания новых поврежденных секторов, я его оставлю. В противном случае он просто слишком сломан, чтобы его можно было где-то использовать.
MT_