Пользователи не могут получить доступ к своей электронной почте, генеральный директор не может попасть на домашнюю страницу компании, а ваш пейджер просто ушел с кодом «911». Что вы делаете, когда все взрывается?
disaster-recovery
Джон Галлоуэй
источник
источник
Успокойся
Не волнуйся. Дышите! (Со стороны диафрагмы это помогает.) Если вы изучали медитацию, это тоже может помочь.
Столкнувшись с экстремальным стрессом, ваше тело перейдет в режим полета или борьбы, потому что ваше тело думает, что находится в ситуации жизни или смерти. В это время ваше тело на самом деле будет качать меньше крови в некоторые части вашего мозга, уменьшая функции, такие как рассуждение. Это эффективно снижает ваш IQ, поскольку инстинкт вместо рациональности начинает доминировать в функциях вашего мозга. Если вы когда-либо были в или стали свидетелями ожесточенных споров, вы можете распознать эти симптомы как вспышку эмоций людей, а рациональность требует праздника. Позже, когда у людей будет возможность остыть, они с большей вероятностью смирятся с тем, что допустили ошибку или ошиблись, и они будут более способны видеть другую сторону, но в самый разгар, но не настолько.
Сохраняя самообладание и сохраняя остроумие в отношении себя, ваш мозг будет функционировать в полную силу и обеспечит принятие рациональных решений, основанных на доказательствах и причинах, а не на эмоциях и страхе.
сортировка
Эффективное использование ограниченных ресурсов для достижения наибольшей выгоды при наименьших затратах здесь крайне важно. Примите решения как можно раньше, какие вещи должны быть исправлены ПРЯМО СЕЙЧАС, которые могут подождать некоторое время (часы, дни), а какие могут ждать бесконечно. Также научитесь понимать, когда что-то является неисправимым и не стоит экономить (например, половина маршрутизатора растаяла, даже если он единственный, вы не можете сохранить его, купить новый и получить его на сайте после посылки или найти то, что может заполнить пробел временно).
Сохранять ситуационную осведомленность
Не позволяйте вашему вниманию быть захваченным какой-то интересной проблемой или чем-то, что вы еще не совсем поняли. Сосредоточьтесь на общей картине и заставьте работать самые важные вещи.
Используйте научный метод
Сформировать гипотезу. Определите, как вы будете проверять эту гипотезу. Соберите данные для проверки гипотезы. Посмотрите также на неподтвержденные данные. Уточните свою гипотезу и повторяйте цикл столько раз, сколько необходимо, пока у вас не будет достаточно уверенности в своей гипотезе, чтобы принять меры.
Будь прагматичным
Сейчас не время для догм. При восстановлении после катастрофы можно воспользоваться несколькими сочетаниями клавиш. По сути, это накопленный технический долг. Во многих компаниях катастрофический провал означает катастрофическую потерю дохода. Лучше начать работу, даже если она шаткая, чем рисковать и зарабатывать на жизнь своей компанией. Как всегда, суждение здесь чрезвычайно важно. Иногда имеет смысл поддержать вентилятор, направленный на серверную стойку, иногда это не так.
Следи за собой
Как долго вы работаете над этой чрезвычайной ситуацией? Когда вы в последний раз пили воду? Когда вы в последний раз ели? Как долго ты не спишь? Не утомляйте себя только потому, что есть чрезвычайная ситуация, найдите время, чтобы питаться, питаться и отдыхать (на случай, если это долгий, многодневный удар).
Помощь при наборе
В вашей компании почти наверняка есть много талантливых людей, которые мотивированы и способны оказать помощь. Будьте осторожны, чтобы слишком много людей бегали и создавали проблемы друг для друга. Также будьте осторожны с раздражающими людьми, проводя их через «огненный удар». Найдите людей, которые уже хотят помочь, заставьте их работать над целевыми задачами и убедитесь, что люди общаются друг с другом.
сообщаться
Связь имеет решающее значение. Нет ничего страшнее неизвестного. Когда люди не знают ничего, кроме того, что что-то сломано, пустое утверждение о том, что оно будет восстановлено через X часов, лишь слегка обнадеживает (еще меньше обнадеживает после того, как X часов прошло и все еще сломалось). Давление в игре может подтолкнуть вас к чрезмерно оптимистичным оценкам времени WAG, но это неправильный курс. Не просто говорите, что вы работаете над этим, не просто говорите, что все будет исправлено к Х времени. Будьте открыты, покажите свой процесс, подробно опишите свой прогресс и свои неудачи. Предоставьте представление о проблеме, о том, как ее выследить, и о том, как ее исправить (хотя не тоните в мелочах). Покажите, что проблема неразрешима, покажите, что в конечном итоге все будет сделано правильно, покажите, что в проблеме есть компетентные люди,
источник
Не паникуйте.
источник
Шаг 0. Убедитесь, что виновата не ваша система мониторинга
источник
войти на сервер
источник
Немедленно зарезервируйте рейс в страну без выдачи
источник
Сначала проверьте основы, это кажется глупым, но такие вещи, как
Я знаю, что много времени может быть потрачено впустую в поисках решения, когда проблема находится вверх по течению
источник
Я пинг вещи. То, что происходит после этого, сильно зависит от результатов пинга.
источник
Извините, но на этот вопрос уже отлично ответили в любимом мультфильме сисадмина :
источник
Во всем виновата сеть.
(это шутка!)
источник
RTFLF - прочитать файл журнала Frakkin '
(Я не могу взять кредит на себя, все это идет к Скотту Хансельману )
источник
Пока не пытайтесь что-то исправить.
Убедитесь, что вы точно знаете, в чем заключается настоящая проблема. Сейчас начинаем чинить вещи. Если есть несколько вещей, которые нужно исправить, тщательно продумайте, какие вещи можно отложить (надеюсь, до следующего рабочего дня, по крайней мере!), А какие обязательно нужно исправить сейчас.
Но самое главное: как только все заработает, спросите, почему «все взорвалось»? Что вы собираетесь сделать, чтобы предотвратить это снова? Существуют ли какие - либо шаги , которые сделали бы решение легче , если это действительно произойдет снова?
источник
Пусть люди знают, что вы на нем, и, если возможно, дайте им оценку, когда все вернется на круги своя.
Что касается фактического устранения неполадок, это, очевидно, зависит от того, что не так. Я обычно храню коллекцию сценариев проверки статуса для различных сервисов.
источник
Проверьте кабели! Я потерял часы, проверяя другие вещи, когда простая замена кабеля Eth0 решила бы проблему ...
источник
У вас должны быть планы на случай непредвиденных обстоятельств.
Основные системы должны быть спроектированы с автоматическим восстановлением после отказа или с документированным и протестированным планом восстановления.
Чем важнее система, тем большую гибкость вам нужно встроить и тем более она должна быть автоматической.
Если у вас его нет, значит, это не важно!
источник
Убедитесь, что резервная копия вашего резюме в безопасности :) Тогда,
Найдите общие черты. Что общего для всех систем, на которые влияют.
Найди то, что изменилось. В вашей организации должно быть какое-то официальное управление изменениями.
Где новый парень ... где босс ...? Один из них взял ярлык? (это просто быстрая перезагрузка сервера, что может повредить)
источник
Мне нравится этот список устранения неполадок Простое приложение устранения неполадок теперь исправляет все =)
источник
В заявлении сложно указать конкретный набор действий. Ваш первый ход будет основан на:
Очевидно, что вам нужно сохранять спокойствие и быть в курсе вопроса. Ваш опыт устранения неполадок в сети научит вас, что это вполне может быть чем-то тривиальным, например:
Сказав это, это также может быть что-то серьезное в категориях:
Ключевым компонентом является то, сколько вы знаете о проблеме. Какой у вас ориентир? (с какой точки зрения «система не работает»?).
источник
Проверьте DNS.
источник
Начните с простого и работайте над абсурдом.
Сила?
Ethernet?
Программа работает?
...
Инопланетяне?
источник