У меня был идеальный сервер, он был таким красивым и прочным, и я назвал его Петра. Это было идеально во всех отношениях, все было настроено и настроено точно, у него был идеальный 100% сервисный рекорд и 753 дня безотказной работы. Я потратил много времени и сил, чтобы убедиться, что все работает хорошо. Ни один другой сервер в компании не был таким хорошим. Но прошлой ночью этот злой монстр разбил мой сервер без причины.
Конечно, я был уведомлен в 2 часа ночи, и мне потребовалось до утра, чтобы все заработало и все было настроено и настроено, но я боюсь, что это будет не так хорошо, как раньше. Могут пройти недели, прежде чем он вернется к былой славе. Теперь мое время работоспособности прошло, у меня нет даже жалких трех девяток, и кто знает, как это повлияет на мою репутацию. Кто эта Обезьяна Хаоса и почему он сделал это с моим сервером и почему он пытается меня испортить?
источник
Ответы:
TL; DR : Chaos Monkey была разработана в 2010 году на Netflix и выпущена в дикую природу в 2012 году. Она является частью армии Simian , популярной среди преданных последователей . Построенная на принципах хаоса , армия повышает устойчивость к сбоям, внедряя постоянный сбой в систему.
концепция
Chaos Monkey была разработана специально для AWS, где она будет случайным образом убивать экземпляры в рамках группы автоматического масштабирования. Он предназначен для работы в рабочее время, когда инженеры бдительны и могут быстро реагировать на обнаруженные сбои.
Симианская армия
Члены армии сеют хаос другими способами:
Latency Monkey вводит случайные задержки в сервисах.
Chaos Gorilla (Kong) будет имитировать отключение всей зоны доступности.
Другие Обезьяны полезны и удаляют слабых членов стада:
Соответствие Обезьяна закрывает экземпляры, не следуя передовым методам.
Security Monkey ищет известные уязвимости безопасности в конфигурации и сервисах.
Доктор Обезьяна закрывает нездоровые случаи, не соответствующие определенным показателям.
Дворник Обезьяна ищет неиспользованные ресурсы для восстановления.
Неудача неизбежна
Сбой в Системе неизбежен, что-то всегда пойдет не так . Возможно, вы не сможете выбрать что, но вы можете попытаться выбрать когда. Внося небольшие ошибки в течение дня, вы гарантируете присутствие ваших инженеров. Быстро убивая несоответствующие сервисы, вы гарантируете, что сбои часто происходят перед развертыванием. Делая среду более опасной, вы гарантируете, что разработчики столкнутся с проблемами задолго до того, как какой-либо сервис попадет в производство. Сбои быстро проявятся на этапе интеграции новых сервисов со старыми, но это нормально, потому что старые сервисы уже устойчивы.
Скот не домашние животные
В последнее время все скажут вам : не относитесь к своим серверам как к домашним животным . В числах есть сила, и любая отдельная точка отказа приведет к выходу системы из строя. Независимо от того, насколько хорошо вы можете настроить и оптимизировать свой сервер, независимо от того, какое мощное оборудование вы можете получить, сколько он может обработать, оно никогда не будет подходить для множества небольших масштабируемых экземпляров. Обезьяна Хаоса призывает вас подумать об устранении всех точек неудачи, потому что рано или поздно Обезьяна придет! Все терпят неудачу, и даже у Amazon S3 был непредсказуемый сбой .
Anti-Fragile
Так что же такое теория и почему она работает? Нассим Николас Талеб в своей книге « Antifragile» описывает концепцию, в которой живые самоосознающие системы извлекают выгоду из небольших уровней случайности и фактически становятся лучше перед лицом бедствий. Это похоже на отжиг.
Он также описывает эволюционный путь, где хрупкость частей в системе переходит в хрупкость целого . Передача происходит на двух уровнях:
С небольшими случайными отклонениями - разработчики, вносящие изменения - наиболее подходящие для среды выживут и распространятся - пройдут тесты и будут развернуты . Стандартный жизненный цикл разработки .
Из-за отказа частей, не способных противостоять большему уровню случайности в окружающей среде, оставшиеся части, способные противостоять этому, составляют систему, которая в целом лучше справляется с изменяющейся средой, чем раньше. По сути это Chaos Monkey .
Большие уровни случайности могут быть выдержаны с использованием второго подхода.
источник
Некоторые дополнения к вашему собственному ответу на этот вопрос ...
Дополнительные обезьяны
Статья о том, « Как хаос повышает производительность » описывает еще несколько таких обезьян, а именно:
Примечание. В той же статье упоминается «Горилла хаоса: имитирует отключение зоны доступности Amazon», хотя вполне может быть, что теперь она была переименована в «Хаос Конг: имитирует отключение региона Амазонки» ... Хаос ! До сих пор я не смог найти никакого подтверждения / документа по этому поводу, по крайней мере, кажется, что нет проблем в очереди . Недокументированное изменение могло бы сделать это в github ... Gggggggrrrrreat!
Настройте и используйте свои собственные Обезьяны.
Перейдите на github, чтобы связаться с армией симов (та же ссылка, что и в первой ссылке в вашем собственном ответе). Вот цитата того, что вы найдете там:
Вы даже можете настроить обезьян так, чтобы они соответствовали потребностям вашего бизнеса.
Если вы покопаетесь достаточно глубоко в этих ссылках Github (то есть в ссылке Support ), вы также найдете ссылку, чтобы присоединиться к SimianArmy Google Group .
источник
Вы, Саурон, создали этот Единый Сервер во тьме
Горы. Обречитесвой Центр обработки данных, чтобы управлять всеми приложениями.Надеюсь, Братство Девопов объединилось, чтобы сказать вам:
После долгой борьбы
Frodothe Chaos Monkey удалось растопить ваш Единый сервер и предоставить свободу всем приложениям, одновременно подталкивая вас на путь воспроизводимых Серверов.Кредиты:
источник