Какой твой контрольный список, когда все взрывается?

40

Пользователи не могут получить доступ к своей электронной почте, генеральный директор не может попасть на домашнюю страницу компании, а ваш пейджер просто ушел с кодом «911». Что вы делаете, когда все взрывается?

Джон Галлоуэй
источник

Ответы:

35

Первый ответ - сохраняй спокойствие! Я узнал, что тяжелый путь, который часто вызывает паника, только усугубляет ситуацию. Как только это будет достигнуто, следующая задача - выяснить, в чем проблема. Жалобы от пользователей и менеджеров будут поступать на вас со всех сторон, сообщая вам, что ОНИ не могут сделать, но не в чем проблема.

Как только вы узнаете о проблеме, вы можете начать план по ее устранению и начать предоставлять своим злым пользователям временные рамки!

Сэм Коган
источник
3
Это реактивный план. Настоящий план аварийного восстановления уже написан и протестирован для каждого важного бизнес-процесса.
Спулсон
3
Спаулсон уверен: но первое, что нужно сделать, это выяснить, нужно ли вам активировать план или если выключатель выключит все это.
pjz
1
Это на самом деле лучшее, что нужно сделать, идеальный пост! После того, как вы сможете удержать все давление на спину, потому что, как сказано в комментариях выше, все бросятся в ваш офис, чтобы сказать вам, что они могут идти туда, куда они хотят. На самом деле пользователи в большинстве случаев очень эгоистичны в данный момент, и они вообще не хотят понимать, они просто хотят, чтобы ОНИ работали, и им все равно ... Остальное я полностью согласен с вашим постом. !
Марк-Андре Р.
+1 за отличение «проблемы» от симптомов.
BMB
59

Успокойся

Не волнуйся. Дышите! (Со стороны диафрагмы это помогает.) Если вы изучали медитацию, это тоже может помочь.

Столкнувшись с экстремальным стрессом, ваше тело перейдет в режим полета или борьбы, потому что ваше тело думает, что находится в ситуации жизни или смерти. В это время ваше тело на самом деле будет качать меньше крови в некоторые части вашего мозга, уменьшая функции, такие как рассуждение. Это эффективно снижает ваш IQ, поскольку инстинкт вместо рациональности начинает доминировать в функциях вашего мозга. Если вы когда-либо были в или стали свидетелями ожесточенных споров, вы можете распознать эти симптомы как вспышку эмоций людей, а рациональность требует праздника. Позже, когда у людей будет возможность остыть, они с большей вероятностью смирятся с тем, что допустили ошибку или ошиблись, и они будут более способны видеть другую сторону, но в самый разгар, но не настолько.

Сохраняя самообладание и сохраняя остроумие в отношении себя, ваш мозг будет функционировать в полную силу и обеспечит принятие рациональных решений, основанных на доказательствах и причинах, а не на эмоциях и страхе.

сортировка

Эффективное использование ограниченных ресурсов для достижения наибольшей выгоды при наименьших затратах здесь крайне важно. Примите решения как можно раньше, какие вещи должны быть исправлены ПРЯМО СЕЙЧАС, которые могут подождать некоторое время (часы, дни), а какие могут ждать бесконечно. Также научитесь понимать, когда что-то является неисправимым и не стоит экономить (например, половина маршрутизатора растаяла, даже если он единственный, вы не можете сохранить его, купить новый и получить его на сайте после посылки или найти то, что может заполнить пробел временно).

Сохранять ситуационную осведомленность

Не позволяйте вашему вниманию быть захваченным какой-то интересной проблемой или чем-то, что вы еще не совсем поняли. Сосредоточьтесь на общей картине и заставьте работать самые важные вещи.

Используйте научный метод

Сформировать гипотезу. Определите, как вы будете проверять эту гипотезу. Соберите данные для проверки гипотезы. Посмотрите также на неподтвержденные данные. Уточните свою гипотезу и повторяйте цикл столько раз, сколько необходимо, пока у вас не будет достаточно уверенности в своей гипотезе, чтобы принять меры.

Будь прагматичным

Сейчас не время для догм. При восстановлении после катастрофы можно воспользоваться несколькими сочетаниями клавиш. По сути, это накопленный технический долг. Во многих компаниях катастрофический провал означает катастрофическую потерю дохода. Лучше начать работу, даже если она шаткая, чем рисковать и зарабатывать на жизнь своей компанией. Как всегда, суждение здесь чрезвычайно важно. Иногда имеет смысл поддержать вентилятор, направленный на серверную стойку, иногда это не так.

Следи за собой

Как долго вы работаете над этой чрезвычайной ситуацией? Когда вы в последний раз пили воду? Когда вы в последний раз ели? Как долго ты не спишь? Не утомляйте себя только потому, что есть чрезвычайная ситуация, найдите время, чтобы питаться, питаться и отдыхать (на случай, если это долгий, многодневный удар).

Помощь при наборе

В вашей компании почти наверняка есть много талантливых людей, которые мотивированы и способны оказать помощь. Будьте осторожны, чтобы слишком много людей бегали и создавали проблемы друг для друга. Также будьте осторожны с раздражающими людьми, проводя их через «огненный удар». Найдите людей, которые уже хотят помочь, заставьте их работать над целевыми задачами и убедитесь, что люди общаются друг с другом.

сообщаться

Связь имеет решающее значение. Нет ничего страшнее неизвестного. Когда люди не знают ничего, кроме того, что что-то сломано, пустое утверждение о том, что оно будет восстановлено через X часов, лишь слегка обнадеживает (еще меньше обнадеживает после того, как X часов прошло и все еще сломалось). Давление в игре может подтолкнуть вас к чрезмерно оптимистичным оценкам времени WAG, но это неправильный курс. Не просто говорите, что вы работаете над этим, не просто говорите, что все будет исправлено к Х времени. Будьте открыты, покажите свой процесс, подробно опишите свой прогресс и свои неудачи. Предоставьте представление о проблеме, о том, как ее выследить, и о том, как ее исправить (хотя не тоните в мелочах). Покажите, что проблема неразрешима, покажите, что в конечном итоге все будет сделано правильно, покажите, что в проблеме есть компетентные люди,

Клин
источник
24

Не паникуйте.

Джодер Хо
источник
4
Большими, дружелюбными красными буквами.
Спойк
1
Я слышал, что розовый это успокаивающий цвет.
Софи Альперт
11
Возьмите полотенце и оставьте сообщение «Так долго, и спасибо за всю рыбу».
Джодер Хо
1
Они говорят, что тауп очень успокаивает
Гленн Слэйвен
Это на полпути там с голосованием!
Эндрю Гримм
22

Шаг 0. Убедитесь, что виновата не ваша система мониторинга

Дейв Чейни
источник
СМЕШНО! Хороший! Это происходит так много раз: P
Марк-Андре Р.
11

Немедленно зарезервируйте рейс в страну без выдачи

Гленн Славен
источник
8

Сначала проверьте основы, это кажется глупым, но такие вещи, как

  1. Включено ли питание на сервере? (если вы размещаете вне сайта)
  2. Ваш хостинг провайдер не работает?

Я знаю, что много времени может быть потрачено впустую в поисках решения, когда проблема находится вверх по течению

Гленн Славен
источник
2
да - если все пойдет не так - проверьте центр обработки данных - и их форумы поддержки. Если в сети 30 человек, а обычно 3 - это удар фаната.
Алистер Булман
6

Я пинг вещи. То, что происходит после этого, сильно зависит от результатов пинга.

Дилан Битти
источник
Использовал этот метод сегодня. Многие ПК не могли печатать. Пробовал пинговать сервер базы данных, ок. Пытался пропинговать сервер лицензий принтера, ответа нет. Результат = Ошибка сервера!
Swinders
Приятный момент;) Я делаю это много раз в день, прежде чем делать что-то еще. Это на самом деле так много времени экономит: P
Марк-Андре Р.
4

Во всем виновата сеть.

(это шутка!)

парень
источник
3

RTFLF - прочитать файл журнала Frakkin '

(Я не могу взять кредит на себя, все это идет к Скотту Хансельману )

Dillie-О
источник
Это не должно быть первым шагом, но это должен быть один из них.
Марк-Андре Р.
2

Пока не пытайтесь что-то исправить.

Убедитесь, что вы точно знаете, в чем заключается настоящая проблема. Сейчас начинаем чинить вещи. Если есть несколько вещей, которые нужно исправить, тщательно продумайте, какие вещи можно отложить (надеюсь, до следующего рабочего дня, по крайней мере!), А какие обязательно нужно исправить сейчас.

Но самое главное: как только все заработает, спросите, почему «все взорвалось»? Что вы собираетесь сделать, чтобы предотвратить это снова? Существуют ли какие - либо шаги , которые сделали бы решение легче , если это действительно произойдет снова?

Стюарт
источник
1

Пусть люди знают, что вы на нем, и, если возможно, дайте им оценку, когда все вернется на круги своя.

Что касается фактического устранения неполадок, это, очевидно, зависит от того, что не так. Я обычно храню коллекцию сценариев проверки статуса для различных сервисов.

Брайан Расмуссен
источник
Почему это было понижено? Это кажется мне верным.
Адриано Вароли Пьяцца
Это отличный момент. Предотвращение - ключ, чтобы избежать большой катастрофы;)
Марк-Андре Р.
1

Проверьте кабели! Я потерял часы, проверяя другие вещи, когда простая замена кабеля Eth0 решила бы проблему ...

Адриано Вароли Пьяцца
источник
На самом деле кабель не умирает без причины. Если это не очень хороший стек, обертка или любой другой способ защиты, и что каждый может поиграть с ним, на самом деле да, кабель может сломаться. В противном случае, нет никаких причин.
Марк-Андре Р.
0

У вас должны быть планы на случай непредвиденных обстоятельств.

Основные системы должны быть спроектированы с автоматическим восстановлением после отказа или с документированным и протестированным планом восстановления.

Чем важнее система, тем большую гибкость вам нужно встроить и тем более она должна быть автоматической.

Если у вас его нет, значит, это не важно!

парень
источник
0

Убедитесь, что резервная копия вашего резюме в безопасности :) Тогда,

Найдите общие черты. Что общего для всех систем, на которые влияют.

Найди то, что изменилось. В вашей организации должно быть какое-то официальное управление изменениями.

Где новый парень ... где босс ...? Один из них взял ярлык? (это просто быстрая перезагрузка сервера, что может повредить)

BIBD
источник
0

В заявлении сложно указать конкретный набор действий. Ваш первый ход будет основан на:

  • Там, где ты
  • Сколько информации вы можете выжать из человека, с которым вы связались?
  • Какие непосредственные инструменты у вас под рукой для устранения неполадок (или поиска информации)
  • Ваши знания о физических и логических путях вашей сети
  • Какую помощь вы оказываете (часть команды? Или одинокий ниндзя?)

Очевидно, что вам нужно сохранять спокойствие и быть в курсе вопроса. Ваш опыт устранения неполадок в сети научит вас, что это вполне может быть чем-то тривиальным, например:

  • Отключенный кабель
  • Необъявленное техническое обслуживание (еще одна технология «исправления» вещей)
  • Ваш генеральный директор чрезмерно реагирует на то, что компания полностью обречена после того, как его беспроводное соединение с ноутбуком потеряно из-за того, что он / она готовит пиццу с сыром.

Сказав это, это также может быть что-то серьезное в категориях:

  • Физический транспорт (связь)
  • Аппаратное обеспечение (маршрутизатор \ коммутатор \ сервер)
  • Хранилище (недоступно \ взломано \ удалено)
  • Программное обеспечение (Сервис> Неправильно настроен \ Атакован \ Офлайн)

Ключевым компонентом является то, сколько вы знаете о проблеме. Какой у вас ориентир? (с какой точки зрения «система не работает»?).

l0c0b0x
источник
0

Начните с простого и работайте над абсурдом.

Сила?

Ethernet?

Программа работает?

...

Инопланетяне?

Роберт
источник