Документы по обработке ошибок в распределенных системах

10

Какие документы по обработке ошибок в распределенных системах вы рекомендуете?

Александр
источник
2
Я не знаком с предметом, но не слишком ли много? Кроме того, рекомендуем для чего?
Цуёси Ито
5
Вопрос кажется слишком широким; Я предполагаю, что половина всех работ в распределенных вычислениях так или иначе связана с отказоустойчивостью.
Юкка Суомела
2
определенно слишком широкий. голосовать, чтобы закрыть ...
Суреш Венкат
Может быть, вопрос не так уж и плох. Я попытался рекомендовать некоторые работы ниже.
Дай Ле
1
Вопрос был бы лучше, если бы вы изначально включили эту информацию в качестве мотивации.
Дэйв Кларк

Ответы:

8

Возможно, вы захотите взглянуть на работы, которые получили в 2010 году премии Тушара Д. Чандры, Вассоса Хадзилакоса и Сэма Тоуга « Эдсгер В. Дейкстра» :

Эти документы вводят понятие детекторов отказов в распределенной системе в общем и точном контексте. Интуитивно они пытались изучить минимальное количество информации об ошибках, необходимой для достижения консенсуса. Оказывается, вам не нужен идеальный детектор отказов для достижения консенсуса. Для этой задачи будет достаточно даже ненадежных детекторов отказов, удовлетворяющих определенным минимальным условиям. Эти документы очень повлияли на то, как бороться со сбоями в распределенных системах.

Дай Ле
источник
3

Какие сбои в системе? Вы ищете решения для обработки византийских сбоев или просто классическую модель аварийного останова? Решения при наличии византийских узлов в распределенной системе - более интригующая проблема. Эта проблема была формализована Лесли Лампортом (проблема византийских генералов), а в статье Барбары Лисков и Мигеля Кастро за 1999 год представлено наиболее близкое практическое практическое решение «Практическая византийская отказоустойчивость». Оригинальные формальные модели для работы с отказоустойчивостью включают Машинный подход Фреда Шнайдера и репликация с печатью вида Я согласен с тем, что вопрос очень общий, поле огромно, и теория составляет основу большинства систем, работающих сегодня онлайн. Может быть, более конкретная модель ошибок и проблемная область помогут получить лучшие ответы

Kryptos
источник
3

Вот коллекция шаблонов для обработки ошибок в распределенных системах:

В качестве альтернативы для более общей работы предлагается книга Rachid Guerraoui и Luis Rodrigues « Введение в надежное распределенное программирование », в которой представлен широкий спектр практических алгоритмов, включая множество вариантов восстановления после сбоев. Более классический текст « Распределенные алгоритмы » Нэнси Линч охватывает аналогичную основу с более теоретической точки зрения.

Дэйв Кларк
источник