Среднее время между сбоями может быть трудно интерпретировать, но существует множество статистических методов, которые вы можете использовать, если у вас есть какие-то точные данные.
Проблема в том, что никто больше не сообщает их номера MTBF. (В любом случае, кроме производителей жестких дисков.)
Куда вы обращаетесь, чтобы найти данные MTBF для компонентов и серверов?
Ответы:
Почему MTBF не имеет значения
Среднее время между номерами отказов не так важно, как число неисправимых ошибок. MTBF имеет дело с полным отказом детали, прочитайте диск. Однако это число не имеет смысла, когда один бит по ошибке вызовет панику RAID 5 и включит горячий резерв.
В то время как MTBF для накопителей профессионального и потребительского уровня увеличился на порядок в последние годы, количество неисправимых ошибок остается относительно постоянным. Эта скорость оценивается в 10 ^ 14 бит, так что один источник на 12 терабайт считывается, для потребительских дисков SATA, источника .
Почему вы должны спать по массиву RAID 5
Таким образом, это всего лишь 6 проходов абсолютно нового 2-Тб диска. Сколько времени занимает чтение 12Tb данных? Намного меньше времени, чем MTBF для этого диска.
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
Что более важно, так это вероятность двойного сбоя чтения на массиве RAID 5, состоящем из таких больших дисков. При использовании массива RAID 5 емкостью 7 1 ТБ вероятность повторных сбоев чтения при перестройке RAID составляет 50%.
http://blogs.zdnet.com/storage/?p=162
источник
Жаль, что люди думают, что показатели MTBF не относятся к сложным системам. Настоящая проблема (afaik) заключается в том, что производители не имеют показателей MTBF для своих аппаратных модулей. Это цифры, которые по всем правам должны быть доступны. Dell говорит: «Dell больше не перечисляет конкретные MTBF для своих серверов». на самом деле ужасно! Они также могут сказать: «Ну, наш материал действительно недостаточно надежен, чтобы использовать его там, где требуется показатель MTBF».
Предполагается, что инженер по надежности (или парень в шляпе RE) ограничивает область исследования доступности. Это часто ограничивается аппаратными модулями.
Что касается классификации того, что является ошибкой ... Вот почему мы проводим анализ FMECA.
Конечно, системы являются сложными, а режимы сбоев включают сбои программного обеспечения, но это часто не входит в сферу исследования. Мы хотим MTBF Цифры для оборудования. Попросите вашего продавца предоставить это. Это их техническая обязанность предоставить его вам ... Если они откажутся или сделают шаг в сторону, отправляйтесь туда, где есть серверы телекоммуникационного уровня с обязательными показателями доступности для оборудования.
источник
Я видел MTBF на сайтах поддержки компании. Поговорите с вашим продавцом или SE, чтобы получить информацию.
источник
На мой взгляд, номера MTBF стали инструментом продаж. Современное оборудование достигло состояния, когда цифры MTBF практически бесполезны. Даже самый низкий из продавцов с низким уровнем производительности производит оборудование, которое превышает любой разумный цикл обновления. Как вы заметили, никто не сообщает номера MTBF. Я считаю, что это причина.
источник
К сожалению, MTBF не является практичным или надежным измерением на современных серверах. Общая концепция MTBF заключается в том, что если многие люди используют определенную модель / конфигурацию в течение длительного времени, мы, вероятно, можем знать ее надежность.
Сегодня большинство из нас радуются обмену потенциальной дополнительной надежности на доказанную дополнительную производительность и энергоэффективность. Например, вы бы построили свои новые серверы на оборудовании 18-24 месяцев только потому, что оно доказало свою надежность? или просто использовать процессоры последнего поколения с большим количеством ядер, мощностью и энергоэффективностью?
Кроме того, в отличие от систем телефонии старой школы, системы достаточно индивидуализированы и, конечно, сильно зависят от программного обеспечения. Насколько надежна версия BIOS x.xx или версия драйвера y.yyy? Последние исправления ОС / БД / сервера приложений повышают стабильность или имеют регрессии стабильности? Сколько серверов в мире на самом деле использует ту же самую версию аппаратного обеспечения / стека, что и вы?
Если вам нужна высокая доступность, вам все равно нужно будет добавить избыточность в вашу систему (двойное-все, кластеризация, горячее резервирование, DRP, что у вас есть). Таким образом, относительная надежность каждого аппаратного компонента, как правило, не является существенным фактором, поскольку вы строите свою инфраструктуру, чтобы выдерживать сбои отдельных компонентов. Просто жить с неопределенностью (надежность имеет обратную силу) и планировать соответственно.
источник
Я согласен с большинством других ответов: номера MTBF мне не нужны, и я их никогда не проверяю.
Единственное исключение - жесткие диски, но даже там, я только смотрю на MTBF очень грубо, будучи уверенным в покупке более надежных дисков «серверного класса», если есть выбор.
источник