Статистический подход к выявлению дефектов и расстановке приоритетов

4

В моей компании установлено более 100 тыс. Устройств связи. Мы собираем информацию об отказах от устройств. У нас есть два типа подсчета сбоя данных в час для каждого устройства, и мы используем его для расчета процента отказов. Мы разрабатываем про-активную систему мониторинга, которая поможет нам лучше поддерживать систему. Одна из задач состоит в том, чтобы расставить приоритеты устройств, используя количество ошибок или процент ошибок. Есть ли какая-либо статистическая или математическая теория, которая поможет нам создать список приоритетов, используя как количество, так и процент?

Редактировать 1: Все устройства не одинаковы. Но для этого процесса мы будем считать то же самое. Чтобы обеспечить хорошую производительность системы, мы должны расставить приоритеты для устранения неполадок.

Джонаб Корнелл
источник
Все ваши устройства одинаковы? Достаточно ли у вас информации, чтобы можно было разделить их на категории?
Хаззи

Ответы:

1

То, что вы рассматриваете, я думаю, является проблемой надежности системы. Из вашего описания у меня сложилось впечатление, что эти устройства могут или не могут быть подключены, что они образуют сеть, и что вы ищете, чтобы повысить надежность работы всей системы.

Надежность системы

Решение, которое вы ищете, осложняется тем фактом, что надежность одной части вашей системы может повлиять на надежность другого маршрута в системе. Таким образом, в дополнение к определению надежности отдельных компонентов, вам нужно будет определить, как сеть подключена; где события являются взаимоисключающими, где коммуникационный поток является последовательным и где он может быть параллельным. Конечно, если у вас есть контроль над этой сетевой структурой, то есть вы можете перенаправить маршрутизацию данных в системе, то, возможно, вы сможете оптимизировать сеть, что, как я полагаю, является одной из целей вашего первого поста.

Следующая важная проблема состоит в том, чтобы установить, является ли вероятность отказа устройства независимой от всех других устройств. Вы можете решить, что на надежность устройства влияют окружающие или подключенные к нему устройства. Если это так, это значительно повлияет на математику вашего анализа.

Если все события независимы, то вы можете применить классические вероятностные законы к вашему расчету. Однако, если они не являются независимыми, вам нужно будет применить условную вероятность или теорему Байеса . Используя компьютер, можно применять методы Монте-Карло методом грубой силы, назначая случайные величины (функции вероятности или плотности) каждому элементу для моделирования поведения. Широко используемый домен конкретного языка для данного типа анализа является R языка .

В качестве примера возьмем приведенный ниже пример, который заимствован у Хана и Шапиро, Статистические модели в машиностроении :

Системный анализ

S1S2S3S

  • Этап 1 : События не являются взаимоисключающими, но являются независимыми . Выживание зависит от выживания A и / или B.
  • Стадия 2 : выживание зависит только от выживания C.
  • Этап 3 : События не являются взаимоисключающими, но являются независимыми . Выживание зависит от выживания D и / или E и / или F.

Если события действуют параллельно, и они не являются взаимоисключающими, а независимыми , коллективное выживание рассчитывается в соответствии с:

Pr=Pri=1(1Pri)

Из приведенной выше диаграммы и уравнений мы теперь можем определить общую надежность системы:

PrS=Pr1×Pr2×Pr3
Pr1=1(10.9)×(10.8)=0.98
Pr2=PrC=0.95
Pr3=1(10.9)×(10.9)×(10.5)=0.995
PrS=0.98×0.95×0.995=0.926

Таким образом, вероятность выживания для вышеуказанной системы составляет 0,926.

Там, где элементы анализа не являются независимыми , мы входим в области условной вероятности и должна применяться теорема Байеса . Например, если надежность B зависит от надежности A, то вероятность события B данного события A равна:

Pr(BA)=Pr(AB)Pr(A)

Это можно обобщить для получения теоремы Байеса:

Pr(AiB)=Pr(Ai)×Pr(BAi)Pr(BAi)×Pr(Ai)

rhsPr(Ai)

Монте-Карло

Приведенный выше анализ дает единый ответ для всей системы. Вместо этого вы можете предпочесть разработать ряд возможных результатов в качестве функции плотности вероятности. Если это необходимо, то вместо применения единичных значений надежности для анализа (как это было сделано в примере) будут назначаться случайные переменные, выраженные как функции плотности (непрерывные) или массы (дискретные).

Случайные переменные возмущаются запуском большого числа компьютерных симуляций с генераторами псевдослучайных чисел. Каждое из моделирования фиксируется, и сбор результатов используется для разработки общей функции плотности вероятности для надежности системы. Благодаря этому вы сможете лучше спроектировать свою систему так, чтобы вы могли рассматривать дисперсию как ключевой фактор, что невозможно сделать в предыдущем сценарии.

Выбор правильного представления для интересующей случайной величины имеет большое значение. Обычно используемое нормальное (гауссовское) распределение может быть неуместным, поскольку оно допускает отрицательные значения в качестве результатов. Вместо этого переменные должны соответствовать форме:

0f(x)dx

Для анализа времени до отказа часто используется экспоненциальное распределение. Тем не менее, если общая частота отказов представляет интерес, независимо от времени, то может оказаться возможным перейти от нормального распределения к логарифмически нормальному распределению, поскольку это позволяет соблюдать вышеуказанную форму. Конечно, соответствующий выбор зависит от характера событий или процессов в системе, которая должна быть смоделирована.

Распространение ограничений

Другой подход, который может быть полезным, состоит в моделировании системы, рассматривая каждое устройство (или подсеть устройств) как ограничение. Это сеть логического вывода, и целью является распространение значений через взаимосвязанные логические ограничения, которые подчиняются законам вероятности. Вместо получения единственного значения, как предлагается в первом сценарии, или распределения возможных результатов, как во втором сценарии, все входы и выходы являются интервалами в диапазоне от 0 до 1. Это приведет к интервалу, ограничивающему ожидаемый надежность, например [0,92,1.0].

Техника формально идентифицирована как распространение ограничений Уинстоном и Хорном и была разработана Дж. Р. Куинланом, INFERNO: осторожный подход к неопределенному выводу, Comput. J. 26 (1983) 255-269 . Если вы планируете применить эту технику, тогда я настоятельно рекомендую прочитать статью Куинлана, который был исследователем в Институте RAND на момент публикации.

Отличный обзор можно найти в главе 23 « Lisp 3rd Edtion», «Уинстон и Хорн» и в главе 3 « Искусственный интеллект», Уинстон . В Winston и Horn вы найдете исходный код, который позволит вам довольно быстро создавать прототипы вашей сети в соответствии с используемой вами вероятностной моделью. Если вы не знакомы с Lisp, вы можете бесплатно скачать кроссплатформенные версии Clozure Common Lisp или CLISP . Эта техника идеально подходит для функциональных языков программирования, и я заметил, что Haskell используется и для этого типа анализа.

Преимущество использования распространения ограничений заключается в том, что вы можете неуверенно работать с оценкой риска отказа. Это скорее подход правдоподобия, а не строгой вероятности. Каждому логическому элементу присваивается верхняя и нижняя вероятность надежности в диапазоне от 0 до 1. Разница между этими двумя границами является мерой вашей уверенности в надежности элемента, представляющего интерес. Эти значения затем распространяются по всей сети в соответствии с законами вероятности (а не простой арифметикой), и это позволяет сразу учитывать влияние внезапного изменения конкретного узла на надежность всей системы.

LiUiOiPriLiUi

Распространение ограничений

Li=0.0Ui=1.0LiUi

OC

Это работает вперед и назад, поэтому можно рассмотреть сценарии « что если» , т. Е. Как это повлияет на всю систему, например, при замене узла. Также должна быть возможность производить цветной вывод сети, чтобы быстро показать, где возникают проблемы, возможно, в режиме реального времени, хотя я не использовал его для этой цели.

закрытие

Для сети с 100 000 узлов рассмотрите возможность разбиения сети на блоки смежных блоков. Сначала смоделируйте каждый из них в своей системе, а затем развивайтесь дальше, чтобы взглянуть на все. Без сомнения, вы обнаружите потенциальные выгоды очень быстро в этом процессе.

AsymLabs
источник
Поток данных не зависит от каждого оборудования, поскольку они являются конечной точкой. Но спасибо за информацию. Очень полезно.
Джонаб Корнелл
@JonabKornell: Добро пожаловать - если вы просто просматриваете большую коллекцию независимых, не связанных между собой элементов, классический подход к анализу отказов - это использование функции риска и ее производных, которые могут быть, например, нормальным, экспоненциальным или распределением Вейбулла, например , Но эти устройства не одиноки, они связаны с чем-то, и это может затруднить их рассмотрение в изоляции.
AsymLabs