Статистика неисправности оперативной памяти

8

Кто-нибудь знает какие-либо статистические данные или исследования о том, как часто компьютеры имеют неисправную оперативную память?

Обновление: Мой компьютер в порядке! У меня нет проблем с оперативной памятью, меня интересует статистика. Я получаю отчеты об ошибках в моем программном обеспечении, одной из причин которых может быть сбой ОЗУ на компьютере пользователя, и я хотел бы знать, насколько это вероятно.

Спасибо!

деревенщина

Карл Селеборг
источник
Можете ли вы дать некоторые подробности о проблеме, которую вы обвиняете в отказе оперативной памяти?
Дейв Чейни
Немного. Мы вычисляем контрольные суммы из файлов и частей этих файлов с жесткого диска и после их загрузки в оперативную память. Мы заметили некоторые очень странные результаты на некоторых пользовательских системах, которые могут быть объяснены ошибками или неправильной работой памяти.
Карл Селеборг

Ответы:

6

В группе компьютеров с серверным классом 36 я вижу исправляемый сбой, обнаруживаемый схемой ECC раз в 3 месяца.

Если вы подозреваете сбой памяти, вам следует запустить его memtest86, что входит в комплект поставки почти всех популярных дистрибутивов Linux.

Дейв Чейни
источник
Как вы это контролируете?
Антуан Бенкемун
Большинство систем LOM отслеживают это в своих журналах.
Крис С
3

От частоты ошибок DRAM Робина Харриса : Кошмар на улице DIMM :

Исследование DRAM, проведенное два с половиной года на 10 тысячах серверов Google, показало, что частота ошибок DIMM в сотни– тысячи раз выше, чем предполагалось - в среднем 3751 исправляемых ошибок на DIMM в год.

Харрис цитирует исследование, проведенное за 2,5 года на флоте серверов Google . Обратите внимание, что серверы обычно используют EEC RAM, которая выполняет коррекцию ошибок. Компьютеры потребительского уровня обычно не имеют этого.

Berke Durak от Lambda Diode рассчитывает :

Во-первых, давайте предположим, что у вас есть система без исправления ошибок и контроля четности Вероятность того, что вы испытаете небольшую ошибку в течение времени T, будет 1- (1-p) ^ m.

Для T = 1 час, p = 1,3e-12 и m = 4 * 2 ^ 30 * 8, что дает 0,044 или 4,4%. Это довольно высокая вероятность. Действительно, за один день это приводит к вероятности 66%, а через 72 часа к вероятности 96%.

Таким образом, вероятность наличия хотя бы одной битовой ошибки в 4 гигабайтах памяти на уровне моря на планете Земля за 72 часа превышает 95%.

Я не буду смеяться в следующий раз, когда коллега скажет «космический луч», когда мы не сможем определить причину аварии ...

Карл Селеборг
источник
2
«20% машин с ошибками составляют более 90% всех наблюдаемых ошибок», «исследование показало, что частота ошибок зависит от материнской платы». Я думаю, что пока буду придерживаться общепринятой точки зрения. Исследование пахнет "ложью, проклятой ложью и статистикой". (только мои 2 цента)
Крис С
2

Вы можете загрузить компьютер с memtest86 + и запустить проверку в одночасье. Вот как я нахожу проблемы.

Да, я видел, как палочки памяти испортились, когда они потерпели бы неудачу только с одним конкретным паттерном записи в память. BIOS компьютера не обнаружил проблему, но memtest86 обнаружил ее при ночном запуске.

Я видел, как две палки ОЗУ выходили из строя примерно из пятидесяти компьютеров, которые я использовал за последние десять лет. Такое бывает, но не часто.

shapr
источник
Еще один голос за memtest86 +. Он обходит вашу память понемногу в поисках ошибок.
Дэйв Драгер
Спасибо, ребята, но мне действительно нужна статистика: проблема возникает не на моем компьютере, а на компьютере пользователя (а у нас более 200 000 пользователей).
Карл Селеборг
2

Возможно, вы захотите взглянуть на это исследование Google :

В среднем примерно каждый третий сервер Google сталкивался с исправляемой ошибкой памяти каждый год, а один из ста - неисправимой ошибкой

Но они говорят о ECC RAM, а не о вашей обычной пользовательской памяти

Николас Чарльз
источник
2

За последние десять лет я видел, как несколько модулей памяти сразу выходили из строя на операционных серверах, и несколько большее число сбоев при выполнении Memtest86 записывалось в тестах на недавно поставленном оборудовании. Это серверные системы, почти все из которых будут иметь память ECC того или иного типа, поэтому я ожидаю гораздо более частых проблем в клиентских системах с оперативной памятью без исправления ошибок. У меня нет большого набора образцов для работы, хотя у нас есть пара десятков наших собственных серверов, и с точки зрения ввода в эксплуатацию клиентских систем, я бы сказал, что я работал на сотне или около того на уровне, где я " на самом деле обращать внимание на оперативную память.

Со стороны клиента у меня есть немного больше опыта в масштабах предприятия - я был старшим инженером в группе, управляющей 50k ПК конечных пользователей, в течение нескольких лет, и мы никогда не рассматривали жесткие или программные сбои ОЗУ как существенную проблему, конечно то, что влияло на любой измеримый процент систем. Это не значит, что этого не произошло, просто я был бы очень удивлен, если бы эта проблема затронула> 1% настольных компьютеров и ноутбуков бизнес-класса. Некоторые конкретные модели продемонстрировали бы действительно высокую частоту отказов, связанную с контролем качества сборки. Первая партия IBM Thinkpad T30 имела проблему со вторым слотом DIMM, что привело к необходимости ремонта \ замены нескольких тысяч машин в одной точке.

Это сообщение в блоге от Ларри Остермана из Microsoft от 2005 года может дать возможное объяснение некоторых из них, хотя его анализ некоторых странных ошибок, о которых сообщается в довольно большом наборе данных, полученном из отчетов об ошибках Windows, показывает, что многие из этих странных проблем вызваны чрезмерным тактирование. Если значительное число ваших конечных пользователей, скорее всего, будут использовать разогнанный комплект потребительского уровня, это может быть связано с вашими ошибками.

Helvick
источник
0

Есть ли у вас возможность использовать «зеркальную память» в вашей системе, которая сообщит вам, есть ли у вас проблемы с памятью, или нет - с этим гораздо меньше шансов, что какие-либо ошибки будут вызваны проблемами с физической памятью.

Chopper3
источник
Спасибо Chopper3, но опять же: вопрос был о статистике. Мой собственный компьютер в порядке, и я не могу попросить 200000+ пользователей использовать зеркальную память :-)
Карл Селеборг
Хороший вопрос, хорошо сделано - однако не знал о масштабах.
Chopper3
-1

Если вы используете Linux:

Если вы не хотите перезагружаться в memtest86 +, вы можете получить некоторые результаты, запустив memtester для проверки памяти на предмет ее неисправности или нет. Это делает действительно хорошую работу для обнаружения нерегулярных ошибок, а также с недетерминированными ошибками в нем. Он имеет несколько тестов для определения границы памяти и выдает подробный отчет о найденных ошибках, тестах и ​​времени, которое требуется для поиска ошибок в компьютере. Не нужно перезагружать его, вы можете запустить его на работающей системе Linux.

Я не нашел ссылки для приложения, но вот информация о пакете Debian :

rkthkr
источник
Извините, но мой вопрос был не о моей собственной системе. Пожалуйста, прочитайте более внимательно.
Карл Селеборг