Мой жесткий диск не работает?

42

Я просто попытался запустить тест на моем жестком диске, и он не хочет завершать самопроверку. Вот результат:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

Итак, этот диск выходит из строя?

Мишель
источник
Когда я использую графический инструмент, он говорит, что самопроверка не удалась
Мишель
3
Повторяющиеся read failureсообщения обычно указывают на сбой диска, так что да ...
HBruijn
23
Мишель, добро пожаловать в SF, и спасибо за хороший первый вопрос. Как вы можете видеть, если вы решите остаться в стороне от этих мест (что, я надеюсь, у вас получится), хороший первый вопрос - редкая и ценная вещь. У вас была гипотеза, подходящая для сайта ( «мой жесткий диск не работает »), вы нашли соответствующий инструмент и узнали, как его использовать, но нуждались в некоторой помощи в интерпретации результатов. Итак, вы пришли сюда, дали нам всю необходимую информацию, без лишнего мусора, и задали вопрос, который был образцом краткости. Спасибо - пожалуйста, оставайтесь здесь!
MadHatter поддерживает Монику
3
+1: Отличный первый вопрос. Чтобы максимально использовать отказ сервера, зарегистрируйте свою учетную запись и проверьте другие сайты в сети Stack Exchange . Мы надеемся, что вы добавите в Stack Exchange более качественный контент.
bwDraco

Ответы:

43

Ваш диск очень рад сделать самопроверку; из резюме, он сделал более пяти из них за последний час. И все они потерпели неудачу в начале теста с ошибками чтения.

Да, этот жесткий диск выходит из строя. Как говорилось в известном отчете Google Labs (хотя я не могу сейчас указать на него ссылку), если он smartctlговорит, что ваш диск не работает, это, вероятно, так (перефразирую).

Изменить : не пытайтесь сохранить его. Снимите все данные и замените их.

MadHatter поддерживает Монику
источник
9
Если это терпит неудачу, это терпит неудачу. Ремонт может быть технически возможным, но крайне маловероятным, чтобы быть экономически эффективным по сравнению со стоимостью нового диска.
Sobrique
7
@Michel Отсутствие ошибки самопроверки не является доказательством того, что накопитель не выходит из строя, к сожалению, но наличие ошибки самопроверки всегда следует считать доказательством того, что она выходит из строя.
Роб Мойр,
1
@ Мишель: Вы можете попробовать заменить кабели. Иногда диск может выйти из строя не из-за проблем в нем, а из-за плохого питания или кабелей данных.
Томас Падрон-Маккарти
1
@ JorgeNerín: Я думаю, что вы делаете отличное замечание, но есть свидетельства того, что и я, и ФП уже это понимаем - ФП должен, поскольку он инициировал по крайней мере пять из них за последние два часа. Что касается тестов, я согласен с вами, что длительный тест был бы лучшим индикатором исправности накопителя, но когда он не проходит тесты на короткую и транспортировку в первые 10% накопителя, я думаю, что мы можем сделать разумный вывод, что накопитель выстрел. Что, вы надеетесь, будет выявлено при более широком тестировании?
MadHatter поддерживает Монику
2
@ JorgeNerín <ухмылка> это имеет смысл! Я говорил так только потому, что OP начал с антропоморфизации его диска: « Я просто попытался запустить тест на моем жестком диске, и он не хочет завершать самопроверку ». Я не думаю, что кто-то из нас думает, что диск жив, и что он не планирует самопроверки!
MadHatter поддерживает Монику
10

Чтобы ответить на ваш вопрос, неудачный тест SMART является верным признаком неизбежного отказа диска. Вы должны сделать резервную копию ваших данных и заменить диск как можно скорее, чтобы предотвратить потенциальную потерю данных.

@ sj0h упомянул число циклов загрузки, которое очень высоко и составляет 447 630. (Большинство современных жестких дисков рассчитаны на 600 000 циклов загрузки / выгрузки.) Обычно это вызвано функцией Advanced Power Management (APM), которая пытается сберечь энергию путем парковки головок (выгрузки их из пластин) после нескольких секунд холостой ход. Головки загружаются обратно на тарелки, когда это необходимо. В большинстве систем, где жесткие диски периодически или периодически отключаются, это может вызвать много циклов загрузки / выгрузки. Чтобы отключить APM, выполните в командной строке root следующую команду:

smartctl -s apm,off /dev/sda

Эту команду необходимо будет выполнять каждый раз, когда система выключается или переходит в режим ожидания, или привод отключается от питания, поскольку этот параметр не сохраняется при выключении привода.

По моему опыту, выполнение этого значительно сократит количество циклов загрузки / выгрузки и, следовательно, вероятность того, что в будущем вы снова столкнетесь с подобными сбоями. Однако обратите внимание, что это увеличивает энергопотребление и температуру привода. Если привод постоянно работает при температуре выше 50 ° C, риск преждевременного отказа увеличивается, поэтому вы можете оставить APM включенным (или включить его, если он выключен) в теплое время года.

bwDraco
источник
2

Помимо ошибок чтения, рассмотрите также число циклов загрузки. На уровне около 500 000 это может указывать на причину отказа или, по крайней мере, высокий износ в цикле нагрузки. На каждую минуту включения включается цикл загрузки. После замены диска убедитесь, что новый диск тоже этого не делает.

sj0h
источник
Очень хорошее наблюдение. Как можно диагностировать, почему привод вращается вниз и обратно каждую минуту?
Dotancohen
@dotancohen, посмотри мой ответ - виноват APM.
bwDraco
2

Да, у вас есть 16 нечитаемых секторов, вы попытались выполнить несколько тестов, в которых все они оказались неудачными примерно в одной и той же области диска, поэтому выполняйте быстрое резервное копирование, но имейте в виду, что ваши данные уже недоступны, и теперь они находятся в непосредственной близости от секторы 92290592, 92290596.

У вас могут быть другие проблемные области, вы все еще не знаете, являются ли эти 16 секторов последовательными или распределенными, если вы хотите воспроизвести после резервного копирования, вы можете выполнить выборочную самопроверку с помощью -t select, startlba-endlba.

Current_Pending_Sector означает, что микропрограмма жесткого диска пыталась его прочитать, но не может, она будет пытаться несколько раз (всякий раз, когда операционная система запрашивает об этом) до сбоя и помечает его как Offline_Unc корректируемый или заменяет поврежденный сектор другим резервным сектором, если Операционная система пишет в него (тем самым увеличивая Reallocated_Sector_Ct при этом).

Хорхе Нерин
источник
1

Я бы лично заменил диск. Если вы по какой-то причине еще не хотите этого делать, но еще какое-то время задерживаетесь на диске, вам нужен какой-то способ, чтобы не допустить случайного использования поврежденных областей для новых файлов.

У меня был такой диск на старом Mac, просто записывающий видео, и я решил, что пока не хочу его менять, так как видео было просто приятно иметь. Поэтому мне нужно было изолировать ошибки. Сначала я создал пустую папку только для плохих файлов, а затем попытался прочитать все существующие файлы на диске, и любые из них с ошибкой в ​​были перемещены в каталог bad-files (возможно, только незначительный).

Затем я создал много файлов с уникальным именем в один мегабайт, чтобы заполнить жесткий диск (так что все пустое место было теперь в одном из этих файлов размером 1 МБ), а затем повторил процедуру. Все файлы с ошибками были перемещены в каталог bad-files, а оставшиеся были исправны и могли быть удалены, чтобы освободить место.

Теперь вы можете использовать диск немного дольше, но не используйте его для важных вещей. Он будет не в состоянии больше , и это, скорее всего , будет неудобно , когда это произойдет.

Турбьерн Равн Андерсен
источник
1

Это не очень хороший знак. Вы должны убедиться, что содержимое диска скопировано, и не использовать диск для чего-либо важного.

Тем не менее, я видел диски с поврежденными секторами, которые перераспределяли их и оставались работоспособными в течение многих лет, так что вы можете хранить их некоторое время, например, для неважных вещей или дополнительных резервных копий.

Тогда нужно было бы увидеть, какие файлы были повреждены нечитаемыми секторами, и записать в эти сектора, чтобы принудительно перераспределить диск (переместив их из «Current_Pending_Sector» в «Reallocated_Sector_Ct»). Если вы используете Linux, см. Http://smartmontools.sourceforge.net/badblockhowto.html . После перераспределения секторов самопроверка должна либо пройти, либо сообщить о более нечитаемых секторах.

Я не согласен с большинством ответов в том, что я не думаю, что плохие сектора обязательно являются признаком неизбежного отказа. Как говорит http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/ , «каждый жесткий диск начинает создавать плохие сектора в какой-то момент своей жизни».

a3nm
источник
хотя я согласен с тем, что сбой не определен при возникновении плохого сектора, вероятность сбоя драйвера после одного плохого сектора значительно возрастает (я думаю, что это также было в отчете Google, но я не могу найти фактический источник в настоящее время)
Деннис Nolte