Существует два основных типа сбоев процессора в моделях распределенных вычислений:
(1) Сбои: процессор останавливается и больше не запускается. (2) Византийские сбои: процессоры ведут себя соперничающе, злонамеренно.
Мой вопрос:
Каковы некоторые другие типы отказов процессора, которые были изучены, которые не сводятся к сбоям или византийским сбоям?
Также более конкретный вопрос:
Была ли исследована модель, в которой, с некоторой вероятностью, процесс включен на шаге и в противном случае выключен? Так что каждый процесс как бы мигает и выключается.
Меня больше всего интересует, как эти неудачи связаны с консенсусом и другими проблемами распределенного соглашения.
Спасибо.
reference-request
dc.distributed-comp
Аарон Стерлинг
источник
источник
Ответы:
Скопировано из комментариев к вопросу по запросу.
Я взял теорию распределенных вычислений с Мишелем Рейналом, и он описал третью модель, где сообщения могут быть выброшены случайным образом. В этой модели сообщение может не быть доставлено без вывода сообщений, но это не обязательно означает, что узел вышел из строя. Речь идет о сбоях каналов, а не об отказах узлов. «Модель канала с справедливыми потерями», вы можете прочитать об этом подробнее здесь: Непрерывная равномерная надежная передача в качестве вводного опроса для детекторов ошибок ораторов - Мишель Рейнал (ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz)
источник
Из-за высокой стоимости ресурсов, связанной с византийской отказоустойчивостью, конечно, были проанализированы модели отказов с более строгими допущениями, особенно в отношении требований к ресурсам, чтобы допускать отказы ограниченного типа. ( Азадманеш и Кикхафер, 2002 ) обеспечивают очень хорошую таксономию (см. Рис. 1).
Другой способ моделирования допущений в режиме сбоя - это отойти от ориентированной на узлы точки зрения, где потеря сообщения моделируется как ошибка отправителя, к модели сбоя линии связи, которая представляет собой просто двойное представление, после устранения несоответствий, которые они могут вызвать в система считается. Эта модель была исследована ( Schmid, Weiss, and Rushby, 2002 ), обойдя результат невозможности ( Grey, 1978 ), показывающий детерминистическое решение проблемы скоординированной атаки при отказах канала.
источник
Я не знаю, если @M. Алагган говорил об ошибках такого рода, но они, безусловно, похожи друг на друга: временные ошибки.
В модели DVFS , где можно изменить частоту и напряжение, чтобы уменьшить потребление энергии, Чжу и Айдын в этой статье (pdf) использовали модель неисправности для DVFS. Они рассматривают временные сбои, которые, например, являются ошибками, вызванными ошибками программного обеспечения. Они лишают законной силы только выполнение текущей задачи, и процессор, подверженный этой ошибке, сможет восстановить и выполнить назначенную ему последующую задачу (если таковая имеется).
Для переходных сбоев Шац и Ван представили модель надежности в этомλ
Sorry to post this so long after the original post, but I found this question as I was working on this subject :). When not studying DVFS, these faults still exist, the formulaes are probably still valid (or adaptable). You can find more information on transient failures without DVFS here.
источник
Что касается уже упомянутых моделей ошибок , посмотрите на NeigerToueg , который рассматривает различные виды из них.
Это звучит как модель восстановления после сбоя. Я не знаю ни одной модели, в которой процессы бывают вероятностными. Существуют также варианты, когда процессы в течение некоторого времени являются византийскими, а затем восстанавливаются, причем со временем все процессы могут становиться византийскими (хотя в основном они считаются синхронизирующими по времени).
Обратите внимание, что если вы отключены, вы просто имеете в виду, что процесс только не прогрессирует (он не теряет своего состояния и не теряет сообщения из-за того, что получатель отключен), тогда то, на что вы смотрите, называется асинхронным система. В контексте общей памяти ваш вопрос может быть тесно связан с этой статьей Аспнеса .
источник
Могут быть и другие виды сбоев. Например, некоторые из процессоров (например, по широковещательным или многоадресным протоколам) могут быть перегружены и не смогут обрабатывать все входящие сообщения. Это приводит к тому, что процессор отображается в автономном режиме для некоторых процессоров в распределенной системе.
источник