Сбои процессора в распределенных вычислениях, которые не являются сбоями или византийскими

13

Существует два основных типа сбоев процессора в моделях распределенных вычислений:

(1) Сбои: процессор останавливается и больше не запускается. (2) Византийские сбои: процессоры ведут себя соперничающе, злонамеренно.

Мой вопрос:

Каковы некоторые другие типы отказов процессора, которые были изучены, которые не сводятся к сбоям или византийским сбоям?

Также более конкретный вопрос:

Была ли исследована модель, в которой, с некоторой вероятностью, процесс включен на шаге и в противном случае выключен? Так что каждый процесс как бы мигает и выключается.T

Меня больше всего интересует, как эти неудачи связаны с консенсусом и другими проблемами распределенного соглашения.

Спасибо.

Аарон Стерлинг
источник
@ Аарон: у меня был курс по «распределенным системам» и еще один по «отказоустойчивым системам» несколько лет назад, но я не особо разбираюсь в этих темах. Тем не менее, я думаю, что ключевое слово динамическая модель неисправности может помочь вам.
MS Dousti
1
Я предполагаю, что модель отказов, используемая в области самостабилизации , не сводится к сбоям при сбоях или византийским сбоям. Один из способов связать это с византийскими неудачами: у вас может быть временное византийское поведение, но если и когда такое поведение прекращается, самостабилизирующаяся система должна достичь правильного состояния.
Юкка Суомела
1
Относительно вашего более конкретного вопроса: если процессор «включен» с вероятностью , это звучит для меня очень похоже на асинхронную модель, в которой процессоры всегда включены, но сообщения, скажем, выполняют 1 / p раунда в ожидании достижения своего места назначения. Не могли бы вы уточнить, чем это отличается от модели, которую вы имели в виду? p1/п
Юкка Суомела
1
@ Аарон: Я действительно не знаю, сколько таких моделей было изучено. Но я предполагаю, что если у вас есть какой-либо детерминированный синхронный алгоритм со временем выполнения T , вы можете просто использовать α -синхронизатор для имитации A в асинхронной модели, и я предполагаю, что ожидаемое время выполнения будет примерно таким, как T / p . ( Α- Синхронизатор просто гарантирует, что ваши соседи никогда не будут на шаг впереди или позади вас в симуляции А. )ATαAT/pαA
Юкка Суомела
2
@ Аарон: Я взял теорию распределенных вычислений с Мишелем Рейналом, и он описал третью модель, где сообщения могут быть выброшены случайным образом. В этой модели сообщение может не быть доставлено без вывода сообщений, но это не обязательно означает, что узел вышел из строя. Речь идет о сбоях каналов, а не об отказах узлов. «Модель канала с справедливыми потерями», вы можете прочитать об этом подробнее здесь: Непрерывная равномерная надежная передача в качестве вводного опроса для детекторов ошибок ораторов - Мишель Рейнал ( ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz )
М. Алагган,

Ответы:

12

Скопировано из комментариев к вопросу по запросу.

Я взял теорию распределенных вычислений с Мишелем Рейналом, и он описал третью модель, где сообщения могут быть выброшены случайным образом. В этой модели сообщение может не быть доставлено без вывода сообщений, но это не обязательно означает, что узел вышел из строя. Речь идет о сбоях каналов, а не об отказах узлов. «Модель канала с справедливыми потерями», вы можете прочитать об этом подробнее здесь: Непрерывная равномерная надежная передача в качестве вводного опроса для детекторов ошибок ораторов - Мишель Рейнал (ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz)

М. Алагган
источник
10

Из-за высокой стоимости ресурсов, связанной с византийской отказоустойчивостью, конечно, были проанализированы модели отказов с более строгими допущениями, особенно в отношении требований к ресурсам, чтобы допускать отказы ограниченного типа. ( Азадманеш и Кикхафер, 2002 ) обеспечивают очень хорошую таксономию (см. Рис. 1).

3f+1f+12f+1f

Другой способ моделирования допущений в режиме сбоя - это отойти от ориентированной на узлы точки зрения, где потеря сообщения моделируется как ошибка отправителя, к модели сбоя линии связи, которая представляет собой просто двойное представление, после устранения несоответствий, которые они могут вызвать в система считается. Эта модель была исследована ( Schmid, Weiss, and Rushby, 2002 ), обойдя результат невозможности ( Grey, 1978 ), показывающий детерминистическое решение проблемы скоординированной атаки при отказах канала.

Мартин Шварц
источник
8

Я не знаю, если @M. Алагган говорил об ошибках такого рода, но они, безусловно, похожи друг на друга: временные ошибки.

В модели DVFS , где можно изменить частоту и напряжение, чтобы уменьшить потребление энергии, Чжу и Айдын в этой статье (pdf) использовали модель неисправности для DVFS. Они рассматривают временные сбои, которые, например, являются ошибками, вызванными ошибками программного обеспечения. Они лишают законной силы только выполнение текущей задачи, и процессор, подверженный этой ошибке, сможет восстановить и выполнить назначенную ему последующую задачу (если таковая имеется).

Для переходных сбоев Шац и Ван представили модель надежности в этом λ

λ(е)знак равноλпеdемaИкс-еемaИкс-емяN,
емяNеемaИкс скорость обработки, показатель степени d0 является константой, указывающей чувствительность частоты отказов к DVFS, и λп средняя частота отказов, соответствующая емaИкс на процессоре п, Мы видим, что снижение скорости энергосбережения увеличивает частоту отказов в геометрической прогрессии. Надежность задачиTя выполняется на процессоре п на скорости ея является:
ря(ея)знак равное-λ(ея)×ЕИксесUTяоN Tяме(Tя,ея),

Sorry to post this so long after the original post, but I found this question as I was working on this subject :). When not studying DVFS, these faults still exist, the formulaes are probably still valid (or adaptable). You can find more information on transient failures without DVFS here.

Гопи
источник
4

Что касается уже упомянутых моделей ошибок , посмотрите на NeigerToueg , который рассматривает различные виды из них.

Была ли исследована модель, в которой, с некоторой вероятностью, процесс включен на шаге t времени и в противном случае выключен? Так что каждый процесс как бы мигает и выключается.

Это звучит как модель восстановления после сбоя. Я не знаю ни одной модели, в которой процессы бывают вероятностными. Существуют также варианты, когда процессы в течение некоторого времени являются византийскими, а затем восстанавливаются, причем со временем все процессы могут становиться византийскими (хотя в основном они считаются синхронизирующими по времени).

Обратите внимание, что если вы отключены, вы просто имеете в виду, что процесс только не прогрессирует (он не теряет своего состояния и не теряет сообщения из-за того, что получатель отключен), тогда то, на что вы смотрите, называется асинхронным система. В контексте общей памяти ваш вопрос может быть тесно связан с этой статьей Аспнеса .

Мартин Б.
источник
1

Могут быть и другие виды сбоев. Например, некоторые из процессоров (например, по широковещательным или многоадресным протоколам) могут быть перегружены и не смогут обрабатывать все входящие сообщения. Это приводит к тому, что процессор отображается в автономном режиме для некоторых процессоров в распределенной системе.

Мухаммед Аль-Туркистани
источник