Как мне записать на жесткие диски?

41

Google провел очень тщательное исследование отказов жесткого диска, которое показало, что значительная часть жестких дисков выходит из строя в течение первых 3 месяцев интенсивного использования.

Мои коллеги и я думаем, что мы могли бы реализовать процесс записи всех новых жестких дисков, которые потенциально могут избавить нас от душевных страданий от потери времени на новых, непроверенных дисках. Но прежде, чем мы внедрим процесс выгорания, мы бы хотели получить представление от других, которые более опытны:

  • Насколько важно записать на жесткий диск перед началом его использования?
  • Как реализовать процесс выгорания?
    • Как долго вы записываете на жесткий диск?
    • Какое программное обеспечение вы используете для записи дисков?
  • Сколько стресса слишком много для процесса выгорания?

РЕДАКТИРОВАТЬ: из-за характера бизнеса, RAID-массивы невозможно использовать большую часть времени. Нам приходится полагаться на отдельные диски, которые довольно часто рассылаются по всей стране. Мы выполняем резервное копирование дисков, как только можем, но мы все еще сталкиваемся с ошибками тут и там, прежде чем получаем возможность резервного копирования данных.

ОБНОВИТЬ

Моя компания уже давно внедрила процесс выгорания, и он оказался чрезвычайно полезным. Мы немедленно записываем все новые накопители, которые есть в наличии, что позволяет нам находить много ошибок до истечения срока гарантии и до их установки в новые компьютерные системы. Также оказалось полезным проверить, что диск вышел из строя. Когда один из наших компьютеров начинает сталкиваться с ошибками и основным подозреваемым является жесткий диск, мы повторно запустим процесс записи на этот диск и посмотрим на любые ошибки, чтобы убедиться, что диск действительно был проблемой, прежде чем запускать процесс RMA или выбрасывать это в мусорном ведре.

Наш процесс выгорания прост. У нас есть назначенная система Ubuntu с большим количеством портов SATA, и мы запускаем badblocks в режиме чтения / записи с 4 проходами на каждом диске. Чтобы упростить задачу, мы написали скрипт, который выводит предупреждение «ДАННЫЕ БУДУТ УДАЛЕНЫ ИЗ ВСЕХ ВАШИХ ДИСКОВ», а затем запускает блокировку ошибок на каждом диске, кроме системного.

Фил
источник
15
Любопытно, почему вы отправляете по почте диски по всей стране? Похоже, что вы более вероятно столкнетесь с неисправностью диска в результате сбоя в шоке и общего неправильного обращения со стороны почтовой службы, чем по причинам, которые обнаружит выгорания.
Paperjam
6
@ Ли Райан: Почтовое оборудование для хранения по-прежнему является самым быстрым способом передачи данных. Интернет очень медленный, и если вам нужно пройти через институциональные сети и брандмауэры, он становится еще хуже.
Джонас
4
@Lie Райан: Если вы имеете дело с секретными данными правительства, SSH не подойдет . Как правило, компьютер, содержащий эти данные, не может быть подключен к общедоступному Интернету. Если у вас есть гигабайты секретных данных для передачи, отправка по почте зашифрованного диска является наиболее эффективным вариантом.
Бензадо
3
@ Ли Райан: Точно. Даже при очень быстром интернет-соединении вам понадобится месяц, чтобы доставить 7 ТБ (и это если вы можете позволить себе роскошь контролировать свою пропускную способность и пропускную способность получателя). С ИБП 7ТБ будут на следующий день.
Джонас
5
Это хорошо, и все, кроме случаев, когда у вас есть мобильные команды, которые собирают огромное количество данных. Это означает, что вы должны полагаться на подключение к интернету в отеле или в мобильном телефоне, и вы никогда не находитесь в одном месте более 8 часов.
Фил

Ответы:

36

Насколько важно записать на жесткий диск перед началом его использования?

Если у вас есть хорошая резервная копия и хорошие системы высокой доступности, то не очень много. Так как восстановление после сбоя должно быть довольно легким.

Как реализовать процесс выгорания? Какое программное обеспечение вы используете для записи дисков? Сколько стресса слишком много для процесса выгорания?

Я обычно запускаю бадблоки против диска или новой системы, когда получаю его. Я буду запускать его всякий раз, когда возрождаю компьютер из кучи запчастей. Команда, подобная этой ( badblocks -c 2048 -sw /dev/sde), будет записывать каждый блок 4 раза каждый раз с другим шаблоном (0xaa, 0x55, 0xff, 0x00). Этот тест ничего не делает для проверки множества случайных операций чтения / записи, но он должен доказать, что каждый блок может быть записан и прочитан.

Вы также можете запустить bonnie ++ или iometer, которые являются инструментами для тестирования. Это должно попытаться немного напрягать ваши диски. Диски не должны выходить из строя, даже если вы пытаетесь их максимально использовать. Так что вы можете попытаться увидеть, что они могут сделать. Я не делаю этого, хотя. Получение эталонных тестов ввода / вывода вашей системы хранения прямо во время установки / настройки может быть очень полезным в будущем, когда вы смотрите на проблемы с производительностью.

Как долго вы записываете на жесткий диск?

По моему мнению, достаточно одного прогона блокирующих блоков, но я считаю, что у меня очень сильная система резервного копирования, и мои потребности в HA не так высоки. Я могу позволить себе некоторое время простоя для восстановления обслуживания на большинстве систем, которые я поддерживаю. Если вы так волнуетесь, что думаете, что может потребоваться многопроходная настройка, тогда вам, вероятно, все равно нужно иметь RAID, хорошие резервные копии и хорошую настройку HA.

Если я в спешке, я могу пропустить прожиг. Мои резервные копии и RAID должны быть в порядке.

Zoredache
источник
49

IMNSHO, вы не должны полагаться на процесс записи, чтобы отсеять плохие диски и «защитить» ваши данные. Разработка этой процедуры и ее реализация потребует времени, которое можно было бы лучше использовать в другом месте, и даже если диск полностью перегорел, он все равно может выйти из строя через несколько месяцев.

Вы должны использовать RAID и резервные копии для защиты ваших данных. Как только это будет сделано, пусть беспокоится о дисках. Хорошие RAID-контроллеры и подсистемы хранения будут иметь «чистящие» процессы, которые периодически проверяют данные и гарантируют, что все хорошо.

После того, как все об этом позаботится, нет необходимости выполнять очистку диска, хотя, как уже упоминали другие, не мешает провести тест загрузки системы, чтобы убедиться, что все работает так, как вы ожидаете. Я бы не стал беспокоиться об отдельных дисках вообще.


Как уже упоминалось в комментариях, не имеет большого смысла использовать жесткие диски для вашего конкретного случая использования. Отправка их туда с большей вероятностью приведет к ошибкам в данных, которых не будет, когда вы выполняете запись.

Ленточный носитель предназначен для отправки по всему миру. Вы можете получить 250 МБ / с (или до 650 МБ / с) с одним диском IBM TS1140, который должен быть быстрее вашего жесткого диска. И еще больше - один картридж может дать вам до 4 ТБ (без сжатия).

Если вы не хотите использовать ленту, используйте SSD. С ними можно обращаться гораздо жестче, чем с жесткими дисками, и они удовлетворяют всем требованиям, которые вы предъявляли к настоящему времени.


После всего этого, вот мои ответы на ваши вопросы:

  • Насколько важно записать на жесткий диск перед началом его использования?
    Не за что.
  • Как реализовать процесс выгорания?
    • Как долго вы записываете на жесткий диск?
      Один или два пробега.
    • Какое программное обеспечение вы используете для записи дисков?
      Простой пробег, скажем, shredи badblocksсделает. Проверьте данные SMART позже.
  • Сколько стресса слишком много для процесса выгорания?
    Нет стресса слишком много. Вы должны быть в состоянии бросить что-нибудь на диск без его взрыва.
MikeyB
источник
1
Мое единственное сожаление по поводу этого поста - я могу только один раз проголосовать за него. @Phil, ты заново изобретаешь колесо там. Чтобы гарантировать, что вы не потеряете данные при случайных сбоях дисков (или другого, связанного с ними оборудования), используйте резервные копии и RAID-массивы.
Роб Мойр
8
Я согласен, что вы не должны на это полагаться, но запуск сканирования системы перед ее запуском определил потенциальную проблему для меня пару раз. Если вы не спешите, то, если компьютер сканирует сам в течение дня или двух, это обычно не повредит.
Зоредаче
7
Этот ответ имеет наибольшее количество голосов, но не смог ответить на вопрос больше всего. ОП заявил, что RAID невозможны. Если «отдельные диски получают по почте по всей стране», то рейд не может быть построен. Выполняется резервное копирование, но кажется, что ОП хочет найти что-нибудь и все, что поможет сэкономить время в случае неисправности диска. (Примечание: я работаю в той же компании, что и OP, поэтому я знаю ситуацию, когда данные будут скопированы на RAID-массив после его доставки) Если бы вы ДОЛЖНЫ записывать диски, гипотетически, как бы вы это сделали?
Джисмит
3
В этом случае вопрос должен обеспечить этот контекст. Исходя из того, что вы говорите, вопрос должен звучать так: «Нам нужно отправлять жесткие диски обычной почтой / грузом. Как мы должны выполнить предварительный тест перед отправкой, чтобы минимизировать сбои?» Как ни странно, ответ не меняется. Отправить пару дисков! Или лучше использовать ленты. Ленты предназначены для использования таким образом, а жесткие диски - нет. Больше информации приводит к другому ответу.
MikeyB
2
Ленты не могут записывать данные так же быстро, как жесткие диски? 250 Мбит / с (без сжатия) недостаточно для вас? Я бы сказал, что процесс записи на самом деле не поможет защитить от сбоев в вашем случае использования.
MikeyB
8

Учитывая ваше разъяснение, это не похоже на то, что какой-либо процесс записи будет вам полезен. Приводы выходят из строя в основном из-за механических факторов, как правило, тепла и вибрации; не из-за какой-то скрытой бомбы замедленного действия. Процесс «прожигания» тестирует среду установки так же, как и все остальное. Как только вы переместите вещь, вы вернетесь к тому, с чего начали.

Но вот несколько советов, которые могут вам помочь:

Дисководы для ноутбуков, как правило, рассчитаны на большее сопротивление и вибрации, чем настольные. По этой причине мои друзья, которые работают в магазинах восстановления данных, всегда отправляют данные клиентам на дисках для ноутбуков. Я никогда не проверял этот факт, но он кажется «общеизвестным» в отдельных отраслях.

Флэш-накопители (например, флэш-накопители USB) являются наиболее устойчивыми к ударам из всех, которые вы найдете Еще более вероятно, что вы потеряете данные при передаче, если будете использовать флэш-медиа.

Если вы отправляете винчестерский диск, сделайте сканирование поверхности, прежде чем использовать его. Или еще лучше, просто не используйте его. Вместо этого вы можете назначить определенные диски «отправляющими», которые видят все злоупотребления, но на которые вы не полагаетесь для обеспечения целостности данных. (То есть: копировать данные на диск для отправки, копировать после отправки, очень контрольные суммы с обеих сторон, и тому подобное).

tylerl
источник
«Как только вы переместите вещь, вы вернетесь к тому, с чего начали». - не правда. Вот как выглядит график MTTF для диска: cs.cmu.edu/~bianca/fast/img13.png cs.ucla.edu/classes/spring09/cs111/scribe/16/… тестирование в раннем периоде может отфильтровать Из многих проблемных накопителей производители фактически проводят эти стресс-тесты, чтобы сделать более надежный продукт, но, конечно, экономически невыгодно проводить тестирование, пока график не выровняется.
Кароли Хорват
3
@yi_H: Я думаю, что tylerl подразумевает, что причина раннего сбоя, вероятно, связана с самим процессом доставки (что неправдоподобно, я хотел бы видеть график зависимости сбоя диска от частоты отправки), поэтому, если вы отправляете жесткий диск по всей стране, тогда MTTF будет сброшен; поэтому, если вы отправляете по почте диск каждые три месяца, вы всегда находитесь в зоне раннего отказа.
Ли Райан
5

Ваш процесс неверен. Вы должны использовать рейдовые массивы. Там, где я работаю, мы создали надежные рейдовые массивы, предназначенные для транспортировки. Это не ракетостроение. Ударная установка дисков в корпусах большого размера с большими резиновыми виброизоляторами значительно повысит надежность. (В качестве примера приводы Seagate Constellation-es рассчитаны на ударную нагрузку 300 Гб, но только на вибрацию 2 Гб, не работают: поэтому в транспортном кейсе требуется виброизоляция привода. Http://www.novibes.com/Products&productID=62 или http : //www.novibes.com/Products&productId=49 [part # 50178])

Тем не менее, вы действительно хотите записать на тестовых жестких дисках, так что здесь идет.

Я работал на таких системах, как жесткие диски и записал, нашел некоторые проблемы, но ...

Для ускоренного тестирования печатных плат в течение жизненного цикла, чтобы выявить неисправности, ничто не сравнится с некоторыми циклами нагрева / охлаждения. (работа циклов нагрева и охлаждения работает даже лучше ... но вам труднее, особенно с банками жестких дисков)

Приобретите экологическую камеру, достаточно большую для количества приводов, которые вы приобретаете за один раз. (Это довольно дорого, было бы дешевле доставлять рейдовые массивы вокруг). Вы не можете экономить на испытательных камерах, вам понадобится контроль влажности и программируемые рампы.

Запрограммируйте в двух повторяющихся температурных изменениях, вплоть до минимальной температуры хранения, вплоть до максимальной температуры хранения, сделайте такие изменения достаточно крутыми, чтобы расстроить инженера по применению вашего производителя жестких дисков. 3 цикла нагрева в течение 12 часов должны привести к довольно быстрому выходу из строя дисков. Запустите диски не менее 12 часов, как это. Если какая-то работа после этого я буду удивлен.

Я не придумал этого: в одном месте, где я работал, у нас был инженер-технолог, чтобы получить больше продуктов, поставляемых с тем же испытательным оборудованием, был огромный всплеск ошибок при тестировании, но число мертвых по прибытии упало до практически нуль.

Тим Виллискрофт
источник
5

Я не согласен со всеми ответами, которые в основном гласят: «Не беспокойтесь о выжигании, делайте хорошие резервные копии».

Хотя у вас всегда должны быть резервные копии, вчера я потратил 9 часов (сверх моей обычной 10-часовой смены) на восстановление из резервных копий, потому что система работала с дисками, которые не были записаны.

В конфигурации RAIDZ2 было 6 дисков (ZFS эквивалентен RAID-6), и в течение 18 часов у нас было 3 диска, которые работали в течение примерно 45 дней.

Лучшее решение, которое я нашел, - это купить диски от одного конкретного производителя (не смешивать и сочетать), а затем запустить предоставленный им инструмент для работы с дисками.

В нашем случае мы покупаем Western Digital и используем диагностику дисков на основе DOS с загрузочного ISO. Мы запускаем его, запускаем опцию записи случайного мусора на весь диск, затем запускаем короткий тест SMART, а затем длинный тест SMART. Этого обычно достаточно, чтобы отсеять все плохие сектора, перераспределить чтение / запись и т. Д.

Я все еще пытаюсь найти достойный способ «пакетировать» его, чтобы я мог запустить его на 8 дисках одновременно. Можно просто использовать 'dd if = / dev / urandom of = / dev / what' в Linux или 'badblocks'.

РЕДАКТИРОВАТЬ: я нашел лучший способ «пакетировать» его. Наконец-то я нашел способ настроить загрузочный сервер PXE в нашей сети для решения конкретной задачи и заметил, что Ultimate Boot CD может быть загружен PXE. Теперь у нас есть несколько ненужных машин, которые можно загрузить с помощью PXE для диагностики дисков.

Аарон С. де Брюн
источник
3
Что ты знаешь? Ответ, который отвечает на вопрос и не проповедует на ФП. +1
elBradford
3
Если вы хотите, чтобы случайные данные записывались на диск, не читайте из / dev / urandom; он не такой медленный, как его блокирующий двоюродный брат / dev / random, но он все еще медленный, и на самом деле он вам ничего не дает. Вместо этого установите простое отображение dm-crypt со случайным ключом (который вы можете получить из / dev / urandom или / dev / random), а затем просто добавьте dd / dev / zero в подключенное устройство. Вероятно, это будет где-то в два раза быстрее и на порядок быстрее. gitlab.com/cryptsetup/cryptsetup/wikis/FrequentlyAskedQuestions "Как я могу стереть устройство со случайной степенью криптографии?" есть пример того, как это сделать.
CVn
Отличное предложение @ MichaelKjörling
Аарон К. де Брюн
3

Насколько важно записать на жесткий диск перед началом его использования?

Это зависит.
Если вы используете его в RAID, который обеспечивает избыточность (1, 5, 6, 10)? Не очень.
Если вы используете это standaolone? Немного, но вам лучше просто запустить SmartD или что-то другое, чтобы контролировать его, по крайней мере, на мой взгляд.

Это естественным образом приводит к моему ответу на вопрос « Как реализовать процесс записи? » - нет.
Вместо того, чтобы пытаться «записать» диски, я запускаю их в избыточных парах и использую интеллектуальный мониторинг (например, SMART), чтобы сообщить мне, когда диск становится неисправным. Я обнаружил, что дополнительное время, необходимое для выполнения полной записи (на самом деле задействуя весь диск), значительно дороже, чем работа с отказом диска и его заменой.
Сочетая RAID и хорошее резервное копирование, ваши данные должны быть очень безопасными, даже если речь идет о младенческой смертности (или о другом конце лечения ванны, когда у вас начнут умирать диски от старости)

voretaq7
источник
1
Что, если привод не может контролироваться, потому что он не находится в одном постоянном месте? :)
Джисмит
2
@jsmith - тогда он отправляет вам уведомления, а не опрашивает их с хоста мониторинга - практически нет ситуаций, когда вы действительно не можете что-то контролировать, есть только те, которые требуют немного творческого мышления :)
voretaq7
2

Spinrite (grc.com) прочитает и запишет все данные на диске. Это хорошая вещь для нового диска, даже если вы не пытаетесь заставить его выйти из строя. На уровне 4 требуется много времени, обычно несколько дней для дисков текущего размера. Я должен также добавить, что это не разрушительно. Фактически, если у него есть данные в плохих местах, он будет перемещать и восстанавливать их. Конечно, вы никогда не будете запускать его на SSD.

Чарли
источник
1

Я уверен, что для «прожига» жестких дисков будет достаточно одного раза в неделю бенчмаркинга и проверки ошибок. Хотя с твоего поста я никогда не слышал о такой вещи.

Цитируется из "6_6_6" на Stroagereview.com

1. Connect the drive to a running system. Read SMART values.

2. Do a SMART short self test. Do a SMART long self-test.

3. Zero fill / Wipe the drive with the manufacturer's utility. Entire drive.

4. Run HDTach full read/write. Everest / Sandra, etc all have stress tests. Run hard drive part continously for hours.

5. Run Victoria for Windows Read/Write test and make sure no slow sectors.

6. Drop to DOS. Run MHDD, run a LBA test and see check for slow sectors. Run Read/Write/Verify test. Run drive internal ATA secure erase command.

7. Do a full format.

8. Compare SMART values. If no anomalies, all good to go. Install your OS and continue.

В целом, я лично считаю, что это плохая идея.

РЕДАКТИРОВАТЬ: Источник: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/

U4iK_HaZe
источник
0

Во-первых, я согласен с другими авторами, что ваш вариант использования предполагает, что ленточные накопители будут лучшим вариантом.

Если это невозможно, если вам нужно управлять дисками по всей стране, настоящий RAID не представляется возможным, так как вам нужно будет перевозить гораздо больше дисков, что увеличивает риск сбоя. Однако как насчет простой схемы зеркалирования, отправляющей один диск и сохраняющей другой на исходном сайте?

Затем, если диск выйдет из строя по прибытии, новая копия может быть сделана и отправлена. Если накопитель исправен по прибытии, запасной может быть использован повторно - либо для отправки, либо для резервного копирования исходных данных.


источник
0

Вы действительно не сказали, почему диски поставляются - это просто способ отправки данных, у них есть готовые образы приложений / ОС, готовые для загрузки на ПК, или что-то еще?

Я согласен с другими ответами, что RAID или резервные копии лучше, чем сканирование, из-за риска доставки диска, вызывающего механические проблемы.

Более общий способ выразить это будет «полагаться на избыточные данные для обнаружения и исправления ошибок» - либо отправьте 2 диска для каждого набора данных, либо отправьте избыточные данные на один диск. Что-то вроде Parchive позволяет добавлять определенный уровень избыточности к данным, обеспечивая восстановление, даже если большая часть данных повреждена. Поскольку в наши дни диски довольно дешевы, покупка большего диска, чем строго необходимо, часто обходится дешевле, чем сканирование диска, доставка сменного диска или доставка двух дисков.

Это защитит от не катастрофических сбоев накопителя - однако все же лучше не использовать повторно поставленный накопитель, за исключением доставки, как было предложено ранее, то есть рассматривать его как ленту, которую необходимо извлечь на «настоящий» накопитель, который постоянно установлен и не доставлен никуда.

Это должно позволить вам отправлять большие объемы данных (или даже образы приложений / ОС) и уменьшать влияние ошибок на диске до экономически выгодного уровня.

RichVel
источник