Кто эта Chaos Monkey и почему он сломал мой сервер?

28

У меня был идеальный сервер, он был таким красивым и прочным, и я назвал его Петра. Это было идеально во всех отношениях, все было настроено и настроено точно, у него был идеальный 100% сервисный рекорд и 753 дня безотказной работы. Я потратил много времени и сил, чтобы убедиться, что все работает хорошо. Ни один другой сервер в компании не был таким хорошим. Но прошлой ночью этот злой монстр разбил мой сервер без причины.

Chaos Monkey

Конечно, я был уведомлен в 2 часа ночи, и мне потребовалось до утра, чтобы все заработало и все было настроено и настроено, но я боюсь, что это будет не так хорошо, как раньше. Могут пройти недели, прежде чем он вернется к былой славе. Теперь мое время работоспособности прошло, у меня нет даже жалких трех девяток, и кто знает, как это повлияет на мою репутацию. Кто эта Обезьяна Хаоса и почему он сделал это с моим сервером и почему он пытается меня испортить?

Иржи Клауда
источник
12
Там должен быть значок для самого смешного вопроса :)
Ричард Слейтер
Один сервер? Что это такое? Почему вы основываете свой бизнес на уникальном произведении искусства вместо товара, который легко масштабируется и заменяется, когда он неизбежно выходит из строя или сдается в аренду?
Нет возврата, нет возврата,
Действительно ли мы считаем это хорошим вопросом для предварительной посадки сайта? Ожидаем ли мы, что инженеры установят, настроят и запустят Chaos Monkey, забудут, что это такое, но обнаружат, что он работает в их сети, и спросят в Stack Exchange, а не посещают официальный сайт? Там так много шагов, которые неправдоподобны.
Сюн Чямов,
2
Очевидно, это не настоящий вопрос. Это была шутка, чтобы изобразить верхушку поля старого сисадмина, которого индустрия просто опередила. Но ваша критика предполагает, что за инфраструктуру заботится один человек или даже одна команда. Довольно часто в крупных компаниях существующая инфраструктура и команды остаются на месте, даже когда их заменяют. Вполне вероятно, что новая команда начинала с новой инфраструктуры и установки Chaos Monkey, и старый пердун попал под удар в тот момент, когда после первоначального успеха он развернул всю компанию.
Иржи Клауда
Очевидный вопрос: если у вас был такой сервер, то почему вы создали Chaos Monkey?
user253751

Ответы:

32

TL; DR : Chaos Monkey была разработана в 2010 году на Netflix и выпущена в дикую природу в 2012 году. Она является частью армии Simian , популярной среди преданных последователей . Построенная на принципах хаоса , армия повышает устойчивость к сбоям, внедряя постоянный сбой в систему.

концепция

Chaos Monkey была разработана специально для AWS, где она будет случайным образом убивать экземпляры в рамках группы автоматического масштабирования. Он предназначен для работы в рабочее время, когда инженеры бдительны и могут быстро реагировать на обнаруженные сбои.

Симианская армия

Члены армии сеют хаос другими способами:

  • Latency Monkey вводит случайные задержки в сервисах.

  • Chaos Gorilla (Kong) будет имитировать отключение всей зоны доступности.

Другие Обезьяны полезны и удаляют слабых членов стада:

  • Соответствие Обезьяна закрывает экземпляры, не следуя передовым методам.

  • Security Monkey ищет известные уязвимости безопасности в конфигурации и сервисах.

  • Доктор Обезьяна закрывает нездоровые случаи, не соответствующие определенным показателям.

  • Дворник Обезьяна ищет неиспользованные ресурсы для восстановления.

Неудача неизбежна

Сбой в Системе неизбежен, что-то всегда пойдет не так . Возможно, вы не сможете выбрать что, но вы можете попытаться выбрать когда. Внося небольшие ошибки в течение дня, вы гарантируете присутствие ваших инженеров. Быстро убивая несоответствующие сервисы, вы гарантируете, что сбои часто происходят перед развертыванием. Делая среду более опасной, вы гарантируете, что разработчики столкнутся с проблемами задолго до того, как какой-либо сервис попадет в производство. Сбои быстро проявятся на этапе интеграции новых сервисов со старыми, но это нормально, потому что старые сервисы уже устойчивы.

Скот не домашние животные

В последнее время все скажут вам : не относитесь к своим серверам как к домашним животным . В числах есть сила, и любая отдельная точка отказа приведет к выходу системы из строя. Независимо от того, насколько хорошо вы можете настроить и оптимизировать свой сервер, независимо от того, какое мощное оборудование вы можете получить, сколько он может обработать, оно никогда не будет подходить для множества небольших масштабируемых экземпляров. Обезьяна Хаоса призывает вас подумать об устранении всех точек неудачи, потому что рано или поздно Обезьяна придет! Все терпят неудачу, и даже у Amazon S3 был непредсказуемый сбой .

Anti-Fragile

Так что же такое теория и почему она работает? Нассим Николас Талеб в своей книге « Antifragile» описывает концепцию, в которой живые самоосознающие системы извлекают выгоду из небольших уровней случайности и фактически становятся лучше перед лицом бедствий. Это похоже на отжиг.

Он также описывает эволюционный путь, где хрупкость частей в системе переходит в хрупкость целого . Передача происходит на двух уровнях:

  1. С небольшими случайными отклонениями - разработчики, вносящие изменения - наиболее подходящие для среды выживут и распространятся - пройдут тесты и будут развернуты . Стандартный жизненный цикл разработки .

  2. Из-за отказа частей, не способных противостоять большему уровню случайности в окружающей среде, оставшиеся части, способные противостоять этому, составляют систему, которая в целом лучше справляется с изменяющейся средой, чем раньше. По сути это Chaos Monkey .

Большие уровни случайности могут быть выдержаны с использованием второго подхода.

Иржи Клауда
источник
«Неудача неизбежна» - великая мантра!
Wogsland
Проголосовал, потому что вы упомянули Нассима Талеба. Супер умный парень, и его идеи можно применить практически ко всему.
maplebird
8

Некоторые дополнения к вашему собственному ответу на этот вопрос ...

Дополнительные обезьяны

Статья о том, « Как хаос повышает производительность » описывает еще несколько таких обезьян, а именно:

  • 10-18 Обезьяна : обнаруживает проблемы с конфигурацией и временем выполнения в тех случаях, которые обслуживают клиентов в нескольких регионах.
  • Chaos Kong : имитирует отключение региона Амазонки.

Примечание. В той же статье упоминается «Горилла хаоса: имитирует отключение зоны доступности Amazon», хотя вполне может быть, что теперь она была переименована в «Хаос Конг: имитирует отключение региона Амазонки» ... Хаос ! До сих пор я не смог найти никакого подтверждения / документа по этому поводу, по крайней мере, кажется, что нет проблем в очереди . Недокументированное изменение могло бы сделать это в github ... Gggggggrrrrreat!

Настройте и используйте свои собственные Обезьяны.

Перейдите на github, чтобы связаться с армией симов (та же ссылка, что и в первой ссылке в вашем собственном ответе). Вот цитата того, что вы найдете там:

Simian Army состоит из сервисов (Обезьян) в облаке, которые генерируют различные виды сбоев, обнаруживают ненормальные условия и проверяют нашу способность выжить. Цель состоит в том, чтобы обеспечить безопасность, надежность и доступность нашего облака. Более подробную информацию можно найти в этом блоге .

В настоящее время в число обезьян входят Chaos Monkey , Janitor Monkey и Conformity Monkey .

Обратитесь к Краткому руководству по началу работы, чтобы начать настройку и использование Обезьян.

Вы даже можете настроить обезьян так, чтобы они соответствовали потребностям вашего бизнеса.

Если вы покопаетесь достаточно глубоко в этих ссылках Github (то есть в ссылке Support ), вы также найдете ссылку, чтобы присоединиться к SimianArmy Google Group .

Pierre.Vriens
источник
Хаос Конг был переименован в Хаос Горилла, я думаю или наоборот.
Иржи Клоуда
@JiriKlouda ты, кажется, подтверждаешь то, о чем я начинаю задумываться. Вот почему я также добавил свое замечание в свой ответ.
Pierre.Vriens
2

Один Сервер, чтобы управлять ими всеми, Один Сервер, чтобы найти их,
Один Сервер, чтобы привести их всех и в случае сбоя связать их

Вы, Саурон, создали этот Единый Сервер во тьме Горы. Обречите свой Центр обработки данных, чтобы управлять всеми приложениями.
Надеюсь, Братство Девопов объединилось, чтобы сказать вам:

Гэндальф - ты должен ПААС

После долгой борьбы Frodo the Chaos Monkey удалось растопить ваш Единый сервер и предоставить свободу всем приложениям, одновременно подталкивая вас на путь воспроизводимых Серверов.

Кредиты:

Tensibai
источник