Google провел очень тщательное исследование отказов жесткого диска, которое показало, что значительная часть жестких дисков выходит из строя в течение первых 3 месяцев интенсивного использования.
Мои коллеги и я думаем, что мы могли бы реализовать процесс записи всех новых жестких дисков, которые потенциально могут избавить нас от душевных страданий от потери времени на новых, непроверенных дисках. Но прежде, чем мы внедрим процесс выгорания, мы бы хотели получить представление от других, которые более опытны:
- Насколько важно записать на жесткий диск перед началом его использования?
- Как реализовать процесс выгорания?
- Как долго вы записываете на жесткий диск?
- Какое программное обеспечение вы используете для записи дисков?
- Сколько стресса слишком много для процесса выгорания?
РЕДАКТИРОВАТЬ: из-за характера бизнеса, RAID-массивы невозможно использовать большую часть времени. Нам приходится полагаться на отдельные диски, которые довольно часто рассылаются по всей стране. Мы выполняем резервное копирование дисков, как только можем, но мы все еще сталкиваемся с ошибками тут и там, прежде чем получаем возможность резервного копирования данных.
ОБНОВИТЬ
Моя компания уже давно внедрила процесс выгорания, и он оказался чрезвычайно полезным. Мы немедленно записываем все новые накопители, которые есть в наличии, что позволяет нам находить много ошибок до истечения срока гарантии и до их установки в новые компьютерные системы. Также оказалось полезным проверить, что диск вышел из строя. Когда один из наших компьютеров начинает сталкиваться с ошибками и основным подозреваемым является жесткий диск, мы повторно запустим процесс записи на этот диск и посмотрим на любые ошибки, чтобы убедиться, что диск действительно был проблемой, прежде чем запускать процесс RMA или выбрасывать это в мусорном ведре.
Наш процесс выгорания прост. У нас есть назначенная система Ubuntu с большим количеством портов SATA, и мы запускаем badblocks в режиме чтения / записи с 4 проходами на каждом диске. Чтобы упростить задачу, мы написали скрипт, который выводит предупреждение «ДАННЫЕ БУДУТ УДАЛЕНЫ ИЗ ВСЕХ ВАШИХ ДИСКОВ», а затем запускает блокировку ошибок на каждом диске, кроме системного.
Ответы:
Если у вас есть хорошая резервная копия и хорошие системы высокой доступности, то не очень много. Так как восстановление после сбоя должно быть довольно легким.
Я обычно запускаю бадблоки против диска или новой системы, когда получаю его. Я буду запускать его всякий раз, когда возрождаю компьютер из кучи запчастей. Команда, подобная этой (
badblocks -c 2048 -sw /dev/sde
), будет записывать каждый блок 4 раза каждый раз с другим шаблоном (0xaa, 0x55, 0xff, 0x00). Этот тест ничего не делает для проверки множества случайных операций чтения / записи, но он должен доказать, что каждый блок может быть записан и прочитан.Вы также можете запустить bonnie ++ или iometer, которые являются инструментами для тестирования. Это должно попытаться немного напрягать ваши диски. Диски не должны выходить из строя, даже если вы пытаетесь их максимально использовать. Так что вы можете попытаться увидеть, что они могут сделать. Я не делаю этого, хотя. Получение эталонных тестов ввода / вывода вашей системы хранения прямо во время установки / настройки может быть очень полезным в будущем, когда вы смотрите на проблемы с производительностью.
По моему мнению, достаточно одного прогона блокирующих блоков, но я считаю, что у меня очень сильная система резервного копирования, и мои потребности в HA не так высоки. Я могу позволить себе некоторое время простоя для восстановления обслуживания на большинстве систем, которые я поддерживаю. Если вы так волнуетесь, что думаете, что может потребоваться многопроходная настройка, тогда вам, вероятно, все равно нужно иметь RAID, хорошие резервные копии и хорошую настройку HA.
Если я в спешке, я могу пропустить прожиг. Мои резервные копии и RAID должны быть в порядке.
источник
IMNSHO, вы не должны полагаться на процесс записи, чтобы отсеять плохие диски и «защитить» ваши данные. Разработка этой процедуры и ее реализация потребует времени, которое можно было бы лучше использовать в другом месте, и даже если диск полностью перегорел, он все равно может выйти из строя через несколько месяцев.
Вы должны использовать RAID и резервные копии для защиты ваших данных. Как только это будет сделано, пусть беспокоится о дисках. Хорошие RAID-контроллеры и подсистемы хранения будут иметь «чистящие» процессы, которые периодически проверяют данные и гарантируют, что все хорошо.
После того, как все об этом позаботится, нет необходимости выполнять очистку диска, хотя, как уже упоминали другие, не мешает провести тест загрузки системы, чтобы убедиться, что все работает так, как вы ожидаете. Я бы не стал беспокоиться об отдельных дисках вообще.
Как уже упоминалось в комментариях, не имеет большого смысла использовать жесткие диски для вашего конкретного случая использования. Отправка их туда с большей вероятностью приведет к ошибкам в данных, которых не будет, когда вы выполняете запись.
Ленточный носитель предназначен для отправки по всему миру. Вы можете получить 250 МБ / с (или до 650 МБ / с) с одним диском IBM TS1140, который должен быть быстрее вашего жесткого диска. И еще больше - один картридж может дать вам до 4 ТБ (без сжатия).
Если вы не хотите использовать ленту, используйте SSD. С ними можно обращаться гораздо жестче, чем с жесткими дисками, и они удовлетворяют всем требованиям, которые вы предъявляли к настоящему времени.
После всего этого, вот мои ответы на ваши вопросы:
Не за что.
Один или два пробега.
Простой пробег, скажем,
shred
иbadblocks
сделает. Проверьте данные SMART позже.Нет стресса слишком много. Вы должны быть в состоянии бросить что-нибудь на диск без его взрыва.
источник
Учитывая ваше разъяснение, это не похоже на то, что какой-либо процесс записи будет вам полезен. Приводы выходят из строя в основном из-за механических факторов, как правило, тепла и вибрации; не из-за какой-то скрытой бомбы замедленного действия. Процесс «прожигания» тестирует среду установки так же, как и все остальное. Как только вы переместите вещь, вы вернетесь к тому, с чего начали.
Но вот несколько советов, которые могут вам помочь:
Дисководы для ноутбуков, как правило, рассчитаны на большее сопротивление и вибрации, чем настольные. По этой причине мои друзья, которые работают в магазинах восстановления данных, всегда отправляют данные клиентам на дисках для ноутбуков. Я никогда не проверял этот факт, но он кажется «общеизвестным» в отдельных отраслях.
Флэш-накопители (например, флэш-накопители USB) являются наиболее устойчивыми к ударам из всех, которые вы найдете Еще более вероятно, что вы потеряете данные при передаче, если будете использовать флэш-медиа.
Если вы отправляете винчестерский диск, сделайте сканирование поверхности, прежде чем использовать его. Или еще лучше, просто не используйте его. Вместо этого вы можете назначить определенные диски «отправляющими», которые видят все злоупотребления, но на которые вы не полагаетесь для обеспечения целостности данных. (То есть: копировать данные на диск для отправки, копировать после отправки, очень контрольные суммы с обеих сторон, и тому подобное).
источник
Ваш процесс неверен. Вы должны использовать рейдовые массивы. Там, где я работаю, мы создали надежные рейдовые массивы, предназначенные для транспортировки. Это не ракетостроение. Ударная установка дисков в корпусах большого размера с большими резиновыми виброизоляторами значительно повысит надежность. (В качестве примера приводы Seagate Constellation-es рассчитаны на ударную нагрузку 300 Гб, но только на вибрацию 2 Гб, не работают: поэтому в транспортном кейсе требуется виброизоляция привода. Http://www.novibes.com/Products&productID=62 или http : //www.novibes.com/Products&productId=49 [part # 50178])
Тем не менее, вы действительно хотите записать на тестовых жестких дисках, так что здесь идет.
Я работал на таких системах, как жесткие диски и записал, нашел некоторые проблемы, но ...
Для ускоренного тестирования печатных плат в течение жизненного цикла, чтобы выявить неисправности, ничто не сравнится с некоторыми циклами нагрева / охлаждения. (работа циклов нагрева и охлаждения работает даже лучше ... но вам труднее, особенно с банками жестких дисков)
Приобретите экологическую камеру, достаточно большую для количества приводов, которые вы приобретаете за один раз. (Это довольно дорого, было бы дешевле доставлять рейдовые массивы вокруг). Вы не можете экономить на испытательных камерах, вам понадобится контроль влажности и программируемые рампы.
Запрограммируйте в двух повторяющихся температурных изменениях, вплоть до минимальной температуры хранения, вплоть до максимальной температуры хранения, сделайте такие изменения достаточно крутыми, чтобы расстроить инженера по применению вашего производителя жестких дисков. 3 цикла нагрева в течение 12 часов должны привести к довольно быстрому выходу из строя дисков. Запустите диски не менее 12 часов, как это. Если какая-то работа после этого я буду удивлен.
Я не придумал этого: в одном месте, где я работал, у нас был инженер-технолог, чтобы получить больше продуктов, поставляемых с тем же испытательным оборудованием, был огромный всплеск ошибок при тестировании, но число мертвых по прибытии упало до практически нуль.
источник
Я не согласен со всеми ответами, которые в основном гласят: «Не беспокойтесь о выжигании, делайте хорошие резервные копии».
Хотя у вас всегда должны быть резервные копии, вчера я потратил 9 часов (сверх моей обычной 10-часовой смены) на восстановление из резервных копий, потому что система работала с дисками, которые не были записаны.
В конфигурации RAIDZ2 было 6 дисков (ZFS эквивалентен RAID-6), и в течение 18 часов у нас было 3 диска, которые работали в течение примерно 45 дней.
Лучшее решение, которое я нашел, - это купить диски от одного конкретного производителя (не смешивать и сочетать), а затем запустить предоставленный им инструмент для работы с дисками.
В нашем случае мы покупаем Western Digital и используем диагностику дисков на основе DOS с загрузочного ISO. Мы запускаем его, запускаем опцию записи случайного мусора на весь диск, затем запускаем короткий тест SMART, а затем длинный тест SMART. Этого обычно достаточно, чтобы отсеять все плохие сектора, перераспределить чтение / запись и т. Д.
Я все еще пытаюсь найти достойный способ «пакетировать» его, чтобы я мог запустить его на 8 дисках одновременно. Можно просто использовать 'dd if = / dev / urandom of = / dev / what' в Linux или 'badblocks'.
РЕДАКТИРОВАТЬ: я нашел лучший способ «пакетировать» его. Наконец-то я нашел способ настроить загрузочный сервер PXE в нашей сети для решения конкретной задачи и заметил, что Ultimate Boot CD может быть загружен PXE. Теперь у нас есть несколько ненужных машин, которые можно загрузить с помощью PXE для диагностики дисков.
источник
Насколько важно записать на жесткий диск перед началом его использования?
Это зависит.
Если вы используете его в RAID, который обеспечивает избыточность (1, 5, 6, 10)? Не очень.
Если вы используете это standaolone? Немного, но вам лучше просто запустить SmartD или что-то другое, чтобы контролировать его, по крайней мере, на мой взгляд.
Это естественным образом приводит к моему ответу на вопрос « Как реализовать процесс записи? » - нет.
Вместо того, чтобы пытаться «записать» диски, я запускаю их в избыточных парах и использую интеллектуальный мониторинг (например, SMART), чтобы сообщить мне, когда диск становится неисправным. Я обнаружил, что дополнительное время, необходимое для выполнения полной записи (на самом деле задействуя весь диск), значительно дороже, чем работа с отказом диска и его заменой.
Сочетая RAID и хорошее резервное копирование, ваши данные должны быть очень безопасными, даже если речь идет о младенческой смертности (или о другом конце лечения ванны, когда у вас начнут умирать диски от старости)
источник
Spinrite (grc.com) прочитает и запишет все данные на диске. Это хорошая вещь для нового диска, даже если вы не пытаетесь заставить его выйти из строя. На уровне 4 требуется много времени, обычно несколько дней для дисков текущего размера. Я должен также добавить, что это не разрушительно. Фактически, если у него есть данные в плохих местах, он будет перемещать и восстанавливать их. Конечно, вы никогда не будете запускать его на SSD.
источник
Я уверен, что для «прожига» жестких дисков будет достаточно одного раза в неделю бенчмаркинга и проверки ошибок. Хотя с твоего поста я никогда не слышал о такой вещи.
Цитируется из "6_6_6" на Stroagereview.com
В целом, я лично считаю, что это плохая идея.
РЕДАКТИРОВАТЬ: Источник: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/
источник
Во-первых, я согласен с другими авторами, что ваш вариант использования предполагает, что ленточные накопители будут лучшим вариантом.
Если это невозможно, если вам нужно управлять дисками по всей стране, настоящий RAID не представляется возможным, так как вам нужно будет перевозить гораздо больше дисков, что увеличивает риск сбоя. Однако как насчет простой схемы зеркалирования, отправляющей один диск и сохраняющей другой на исходном сайте?
Затем, если диск выйдет из строя по прибытии, новая копия может быть сделана и отправлена. Если накопитель исправен по прибытии, запасной может быть использован повторно - либо для отправки, либо для резервного копирования исходных данных.
источник
Вы действительно не сказали, почему диски поставляются - это просто способ отправки данных, у них есть готовые образы приложений / ОС, готовые для загрузки на ПК, или что-то еще?
Я согласен с другими ответами, что RAID или резервные копии лучше, чем сканирование, из-за риска доставки диска, вызывающего механические проблемы.
Более общий способ выразить это будет «полагаться на избыточные данные для обнаружения и исправления ошибок» - либо отправьте 2 диска для каждого набора данных, либо отправьте избыточные данные на один диск. Что-то вроде Parchive позволяет добавлять определенный уровень избыточности к данным, обеспечивая восстановление, даже если большая часть данных повреждена. Поскольку в наши дни диски довольно дешевы, покупка большего диска, чем строго необходимо, часто обходится дешевле, чем сканирование диска, доставка сменного диска или доставка двух дисков.
Это защитит от не катастрофических сбоев накопителя - однако все же лучше не использовать повторно поставленный накопитель, за исключением доставки, как было предложено ранее, то есть рассматривать его как ленту, которую необходимо извлечь на «настоящий» накопитель, который постоянно установлен и не доставлен никуда.
Это должно позволить вам отправлять большие объемы данных (или даже образы приложений / ОС) и уменьшать влияние ошибок на диске до экономически выгодного уровня.
источник