Среднее время наработки на отказ - SSD

32

Среднее время наработки на отказ , или MTBF, для этого SSD перечислено как 1,500,000часы.

Это много часов. 1,500,000часы примерно 170лет. Поскольку изобретение именно этого SSD - постгражданская война, откуда они знают, что такое MTBF?

Пара вариантов, которые имеют смысл для меня:

  • Ньюегг просто опечатка
  • Определение среднего времени между отказами не то, что я думаю,
  • Они используют некоторый тип статистической экстраполяции, чтобы оценить, какой будет MTBF.

Вопрос:

Как получается среднее время между сбоями (MTFB) для SSD / HDD?

OSE
источник
Связанный: serverfault.com/q/257693/126632
Майкл Хэмптон

Ответы:

34

Производители жестких дисков определяют надежность своих продуктов в виде двух взаимосвязанных показателей: годовой коэффициент отказов (AFR), который представляет собой процент дисковых накопителей в популяции, потерпевших неудачу в тесте, масштабированный до оценки за год; и среднее время до отказа (MTTF).

AFR нового продукта обычно оценивается на основе ускоренных испытаний на долговечность и нагрузку или на основе полевых данных из более ранних продуктов. MTTF оценивается как количество мощности в часах в год, деленное на AFR. Распространенным предположением для дисков в серверах является то, что они работают на 100% времени.

http://www.cs.cmu.edu/~bianca/fast/

MTTF 1,5 миллиона часов звучит несколько правдоподобно.

Это будет примерно тест с 1000 накопителями, работающими в течение 6 месяцев, и с отказом 3 накопителей.
AFR будет (2 * 6 месяцев * 3) / (1000 поездок) = 0,6% ежегодно, а MTTF = 1 год / 0,6% = 1 460 967 часов или 167 лет.

По-другому взглянуть на это число можно, если у вас есть 167 накопителей и оставить их включенными в течение года. Производитель заявляет, что в среднем вы увидите сбой одного накопителя.

Но я ожидаю, что это просто постоянный «случайный» уровень механических / электронных отказов.

Предполагая, что частота отказов соответствует кривой ванны , как упомянуто в комментариях, маркетинговая команда производителя может немного помассировать показатели надежности, например, не включая DOA'S (мертвые по прибытии, блоки, прошедшие контроль качества, но отказавшие, когда конечный пользователь устанавливает их) и растягивает определение DOA, чтобы исключить также тех, кто находится в начале пика сбоя. А поскольку тестирование не проводится достаточно долго, вы также не увидите возрастных эффектов.

Я думаю, что гарантийный период является лучшим показателем того, как долго производитель действительно ожидает SSD!
Это определенно не будет измеряться десятилетиями или веками ...


С MTBF связана надежность, связанная с конечным числом циклов записи, которые могут поддерживать ячейки NAND. Общим показателем является общая емкость записи, обычно в ТБ. В дополнение к другим требованиям к производительности это один большой ограничитель.

Чтобы обеспечить более удобное сравнение между дисками разных производителей и дисков разных размеров, длительность записи часто преобразуется в ежедневную емкость записи как часть емкости диска.

Предполагая, что накопитель рассчитан на срок службы, пока он находится на гарантии:
твердотельный накопитель емкостью 100 ГБ может иметь гарантию 3 года и емкость записи 50 ТБ:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Чем выше это число, тем больше подходит диск для интенсивного ввода-вывода.
В настоящее время (конец 2014 года) линейные накопители SSD имеют значение 0,3–0,8 накопителя в день, средний диапазон неуклонно растет с 1–5, а высокопроизводительный кажется невероятно быстрым с уровнями выносливости записи до 25 * Емкость привода в сутки 3-5 лет.

Некоторые тесты в реальном мире показывают, что иногда требования поставщиков могут быть значительно превышены, но продвижение оборудования далеко за пределы поставщиков не всегда является вопросом предприятия ... Вместо этого покупайте правильно специальные диски для ваших целей.

HBruijn
источник
1
Обратите внимание, что преобразование из AFR в MTTF предполагает постоянную AFR. Это категорически не относится к вещам с движущимися частями (например, к жестким дискам) и может не относиться к твердотельным накопителям.
Отметить
Определенно верно. У IIRC наблюдается ранний всплеск сбоев, затем период с низким уровнем сбоев и затем устойчивое увеличение AFR с увеличением возраста. Добавьте изменяющиеся факторы среды, и число реальных людей станет намного выше. Как упомянул @Chris S, гарантийный срок может быть лучшим показателем с полезным реальным воздействием.
HBruijn
Хороший трезвый взгляд на то, что MTBF на 1 500 500 часов действительно означает «Если у меня 1000 ssd, как этот, 3, скорее всего, выйдут из строя в течение 6 месяцев (некоторые даже раньше)…». +1 (и поскольку тесты продолжаются в течение короткого периода, ожидайте, что срок их службы не будет превышать слишком большую гарантию ... «MTBF», вероятно, сильно падает, когда вашему накопителю исполняется N лет)
Оливье Дюлак
1
@HBruijn Спасибо за ваш информативный ответ. Феномен, на который вы ссылаетесь (ранний всплеск отказов, период низких отказов, затем устойчивый рост отказов), описывается кривой ванны .
OSE
19

К сожалению, MTBF не то, что думает большинство людей ...

  • Это не то, как долго будет длиться отдельный диск.

    Производители ожидают, что их накопители прослужат так же долго, как и гарантия, после этого это не является их проблемой Старые жесткие диски с электромагнитным дисководом закроются примерно через 10 лет. Интегральные схемы работают очень долго, но другие компоненты (особенно конденсаторы) изнашиваются после некоторого предсказуемого количества циклов.

  • Именно это , как многие из этих дисков вы должны ожидать , 1 диск потерпеть неудачу каждый час.

    Как уже отмечали другие производители производят различные испытания в течение разумного периода времени и определяют частоту отказов. В такого рода тестах есть большое количество различий, и у маркетинга часто есть «вклад» в то, каким должно быть окончательное число. Независимо от того, что они делают все возможное, чтобы угадать, сколько дисков потребуется в среднем на один отказ в час.

    Для ситуаций с меньшим количеством накопителей вы можете сделать вывод о статистической вероятности отказа на основе MTBF, но имейте в виду, что отказы в хорошо разработанных продуктах должны следовать кривой «ванны» - то есть более высокие показатели отказов, когда устройства первоначально вводятся в эксплуатацию и после срок их гарантии истек, а между ними - более низкая частота отказов.

Крис С
источник
2

Они основаны на статистической оценке, основанной на небольшом размере выборки и коротком промежутке времени. Там действительно нет универсально согласованного метода или процесса, так что это просто глупый «маркетинг».

Эта статья может объяснить это немного больше. И в Википедии есть некоторые формулы, которые могут быть тем, что вы ищете?

По сути, для почти всего (включая обычные бытовые машины, такие как посудомоечная машина) несколько продуктов работают в течение X времени. Сколько сбоев происходит за этот период, используются для расчета MTFB.

Конечно, невозможно выполнить продукты в течение всего жизненного цикла, то есть твердотельных накопителей, которые будут работать долго. Они в основном ограничены количеством операций записи, а не механическим отказом (для этого и нужен MTFB)

bhavicp
источник
2

Плохая новость о MTBF состоит в том, что общие методы оценки предполагают равномерно распределенную нагрузку записи среди всех ячеек NAND. Но ячейки группируются в кластеры, и когда одна отдельная ячейка выходит из строя - весь кластер помечается как мертвый и заменяется новым из резервного. Обычно резерв составляет около 20% объема SSD. Когда резерв исчерпан, весь SSD будет помечен как мертвый.

IRL SSD содержит как постоянные данные, так и непостоянные. Представьте, что у вас 90% твердотельных накопителей заполнены статическими данными, а оставшиеся 10% находятся под большой нагрузкой записи. Контроллер SSD распределяет нагрузку между доступными свободными кластерами. Эти 10% истощают свой срок службы в 10 раз быстрее, чем вы предполагали. Они будут заменены из резерва снова и снова до конца.

Например, в действительно плохом случае, когда количество постоянных / изменчивых данных составляет 30: 1 или более - куча фотографий и относительно небольшая база данных для популярного веб-сайта, ваш SSD умрет через год.

Один из моих клиентов был очень впечатлен характеристиками SSD и настоял на том, чтобы оснастить свой СУБД-сервер их парой. В следующие 12 месяцев мы заменили их обоих дважды.

Но согласно маркетинговым материалам срок службы SSD составляет 170 лет. Конечно.

Kondybas
источник
1

MTBF не имеет значения для измерения выносливости накопителя SSD, так как SSD не чувствителен для самого времени, как обычный вращающийся накопитель HDD, но для количества перезаписей для ячеек SSD. Более подходящим показателем для SSD является число операций записи в день (DWPD) . Например, некоторые SSD-диски корпоративного класса с выносливостью 3,2 ТБ будут стоить 3 DWPD в течение 5 лет.

Иногда поставщик SSD обеспечивает стойкость в виде (Всего) терабайтов записи (TBW) или «циклов записи», которые можно легко преобразовать в DWPD и наоборот, зная время и максимальную пропускную способность для данного SSD-накопителя.

Для данного примера с накопителем SSD на
3,2 Тб : TBW = DriveSize * Years * DWPD;
TBW = 3,2 ТБ * 5 * 365 * 3d = 17520 ТБ в течение 5 лет

Если диск обеспечивает 80 МБайт / с устойчивой пропускной способности записи, то
WriteCycles = DWPD * Years;
WriteCycles = 3 * 365 * 5 = 5475 полных циклов записи для данного диска

Важно отметить, что мы рассчитываем наихудший случай, если вы предоставите 100% пропускную способность для накопителя (что, скорее всего, невозможно).

BBK
источник