Лучший способ протестировать новые жесткие диски для дешевого сервера хранения

31

Я хочу построить сервер хранения и купил 10 x 2TB WD RED's. Только HDD'sчто прибыл.

Есть ли какой-нибудь инструмент, который вы, ребята, используете для проверки на наличие плохих дисков или для лучшей защиты от младенческой смертности перед копированием реальных данных на ваши диски?

Лучше проверить каждый из них HDDили протестировать ZFS raid-z2функцию array ( ), скопировав на нее много данных?

s1lv3r
источник
1
Я знаю, что есть некоторые специальные инструменты, такие как «WD Data LifeGuard Diagnostics». Но мне интересно, что делают парни, которые покупают много жестких дисков. Я сомневаюсь, что они проверяют каждый жесткий диск (это занимает много времени ..), поэтому мне интересно, есть ли инструмент, который может выполнить полный тест SMART на всех жестких дисках одновременно?
s1lv3r
3
Почти все, что пишет на диски, может быть использовано в качестве теста; одного или двух ударов массива должно быть достаточно, чтобы поймать младенческую смертность. Это действительно хорошая идея покупать диски от разных производителей / партий, когда вы получаете больше, чем пара - значительно снижает вероятность отказа нескольких дисков одновременно (из-за схожих производственных дефектов).
Крис С

Ответы:

14

У меня был тот же вопрос 2 месяца назад. После отправки неисправного диска замена диска произошла в моем NAS через 3 дня. Поэтому я решил протестировать новую замену, прежде чем запускать ее в производство. Я не тестирую каждый новый купленный диск, только на «восстановленных» дисках, которым я не полностью доверяю.

Если вы решите протестировать эти диски, я бы порекомендовал запустить проверку на наличие плохих блоков и расширенный тест SMART на новом жестком диске.

На диске объемом 2 ТБ это занимает до 48 часов. Команда badblock записывает диск, заполненный шаблоном, затем снова считывает блоки, чтобы увидеть, существует ли шаблон на самом деле, и будет повторять это с 4 различными шаблонами.

Эта команда, вероятно, на самом деле не будет показывать плохие блоки на новом диске, так как диски перераспределяют плохие блоки в наши дни.

Поэтому до и после этого я провел интеллектуальный тест и проверил количество перераспределенных и текущих ожидающих секторов. Если что-то из этого вышло, на вашем диске уже есть плохие блоки, и поэтому он может оказаться ненадежным.

После этого я снова запускаю расширенный SMART-тест.

Возможно, вы захотите сначала установить smartctl или smartmontools.

Предупреждение : флаг badblocks -w перезапишет все данные на вашем диске, если вы просто хотите выполнить проверку на чтение, не перезаписывая диск, используйтеbadblocks -vs /dev/sdX

sudo smartctl -a /dev/sdX
# record these numbers
sudo badblocks -wvs /dev/sdX
# let it run for 48 hours
sudo smartctl -a /dev/sdX
# compare numbers
sudo smartctl -t long /dev/sdX
# this might take another hour or 2, check results periodically with
sudo smartctl -a /dev/sdX

Если после этого ваши умные ценности будут в порядке, я бы доверял диску.

Чтобы узнать, что означает каждое умное значение, вы можете посмотреть здесь

http://en.wikipedia.org/wiki/Self-Monitoring,_Analysis,_and_Reporting_Technology

Дженс Тиммерман
источник
Как и предполагали другие, это может многое сделать, но поскольку у меня всего 10 дисков, и это, безусловно, не может быть плохо, я просто проверяю все диски так, как вы предлагали сейчас. Спасибо за исчерпывающий ответ.
s1lv3r
23

Это новые диски. Либо они потерпят неудачу, либо нет. Вы уже сделали огромный шаг вперед, используя файловую систему ZFS, которая даст вам отличное представление о вашем рейде и состоянии файловой системы ...

Я бы не стал делать ничего, кроме создания массива. В этом смысл избыточности. Вы не сможете вызвать сбой диска с помощью других перечисленных методов.

ewwhite
источник
1
Согласились с этим - вы строите массив. Если на диске происходит сбой, когда вы начинаете помещать данные, это не имеет значения, вы заменяете его, и массив самовосстанавливается. Тестирование дисков на наличие проблем перед их использованием не даст вам правильного представления о том, выйдут ли они из строя в реальной жизни - реальная жизнь не похожа на тесты!
Эшли
1
Я согласен с тем, что «настоящая жизнь не похожа на тесты», но я также обнаружил два сбоя диска из-за плохих блоков. Если бы я поместил оба из них в одну и ту же часть RAID 1, 5 или 10, я бы потерял весь RAID.
RJT
1
@rjt, вероятно, нет. Плохие сектора будут перераспределены, и диски, скорее всего, не выйдут из строя одновременно. Кроме того, не все сбои дисков являются носителями или являются результатом плохих блоков. Что делать, если подшипник привода изношен или неисправен?
ewwhite
Я не принимаю решения о критически важных данных, вероятно . В исследовании Google Hard Drive говорится, что диски изнашиваются либо в первые 90 дней, либо через 3 года. Badblocks помогают устранить низко висящие фрукты.
RJT
1
@rjt Конечно, вы принимаете решения о критически важных данных на «вероятно» - если бы вы этого не сделали, вы не смогли бы хранить данные на любом диске, независимо от того, сколько тестов вы проводите.
voretaq7
10

Вы можете использовать Bonnie ++ для тестирования. Он может прекрасно имитировать модель поведения файлового сервера.

Например:

# bonnie++ -u nobody -d /home/tmp -n 100:150000:200:100 -x 300

Тест будет выполняться как пользователь «nobody» и будет создавать / перезаписывать / удалять 100 * 1024 файла, от 200 до 150000 байт на файл, в пределах 100 автоматически создаваемых каталогов ниже / home / tmp. И количество тестов = 300. Вы можете поиграть в число файлов / размер и количество тестовых повторов.

Shtlzut
источник
9

Обычно я просто выполняю полную инициализацию RAID и, где это применимо, начинаю заполнять файловую систему во время этого, все время зная, что может быть проблема из-за неработающих дисков. Таким образом, я не трачу впустую время на какие-то тесты, которые в любом случае весьма ненадежны, и я бы сразу поймал настоящие слабые диски. После этого может существовать некоторый повышенный риск отказов дисков из-за «младенческой смертности», но практического способа устранить это не существует.

На практике ни один из последних нескольких сотен дисков, которые я использовал в RAID, не имел проблем в течение первого года работы.

Свен
источник
8

Я работаю в компании, которая проводит такие тесты изо дня в день. И да, мы тестируем каждый жесткий диск, который мы покупаем. Наш процесс начинается с запуска дисков через бесплатную программу для DOS под названием HDAT2. Его бесплатно скачать. Он может получить доступ к SMART и некоторым другим функциям накопителя, недоступным из среды Windows. В зависимости от результатов, мы проведем их через одну из нескольких различных линий специализированного оборудования, но в основном они просто запускают SMART кратковременную самопроверку, Long Test, безопасное стирание и All Read для проверки секторов. Мое предложение состоит в том, чтобы запустить безопасное удаление полного диска, затем выполнить чтение полностью, а затем выполнить краткую самопроверку SMART. Этот порядок важен, так как короткая самопроверка может ничего не найти при запуске в начале тестирования, но после полной записи и чтения диска она может что-то поднять. Надеюсь это поможет.

Ник
источник
1
serverfault.com/a/501870/117546 имеет для меня наибольшее значение, но я не эксперт. Почему ваша компания тестирует жесткие диски? Я думаю, что наиболее эффективным тестом будет использование диска.
Эмори
4

Вы можете использовать тестовый набор производителей или что-то вроде SpinRite для очистки всего диска. Также было бы неплохо взглянуть на значения SMART , отыскивая плохие сектора и другие признаки старости / отказов.

virtuallynathan
источник
3

Если вы действительно хотите тестировать, используйте badblocksтест записи. Он будет записывать шаблоны данных на диск, а затем читать их для проверки. При этом он немного напрягает ваш диск. На мой взгляд, если он работает успешно, вы можете доверять диску.

Но я думаю, что ZFS и хорошего резервного копирования достаточно.

Камень
источник