Худшая авария SysAdmin [закрыто]

8

В соответствии с вопросом о Лучшей аварии сисадмина , в какой худшей аварии вы участвовали? В отличие от предыдущего вопроса, я имею в виду «худший» в смысле большинства системных повреждений или реального вреда для людей.

Начну с моего:

У нас есть два удаленных монтажных шкафа, которые находятся в конце 100-футового коридора с металлической решеткой для пола. После того, как у нас был установлен кабель Cat6, подрядчики очистили весь мусор, который упал через решетку на бетон на 3 фута ниже. Однажды мы с коллегой вошли в коридор, чтобы проверить прогресс, но были отвлечены и не заметили, что кусок решетки отодвинут в сторону. Мой приятель поднялся в воздух, и его грудь врезалась в стальную перекладину. Он был измотан и болел достаточно, чтобы взять пару выходных, но, к счастью, у стальной балки были закругленные края, а размер отверстия был таким, что он не врезался ни в него, ни в пол ниже.

Очевидно, мы узнали, что области, где пол частично удален, должны быть помечены.

Ward
источник
1
Это должно быть установлено для сообщества вики
Джо
Также см. Serverfault.com/questions/7902
3dinfluence

Ответы:

1

Представьте, будете ли вы жить в Южной Флориде во время урагана Эндрю (немного раньше, чем увлечение 24X7). Все ваши серверы надежно заблокированы в здании, которое требует от вас пропуска в него, и в более безопасной зоне, требующей дополнительного сканирования вашего пропуска. Представьте себе хитрость, которая не учитывает фактических ручек на дверях. Представьте себе контракт на четыре миллиона долларов, требующий поставки, ближайший источник электроэнергии - 230 миль к северу, дефицит газа - опасные дороги, и генератор, который был рассчитан на подачу электроэнергии в течение 48 часов. Смейтесь, если хотите, над множеством серверов, стоящих в кузове грузовика, застрявших в магистрали Микки-Мауса, остановившихся из-за нехватки газа. Смейтесь, если вам не хватает оправдания тому, насколько все это плохо с точки зрения логистики, сисадмина и работы.

ojblass
источник
17
Uuuh, пожалуйста, не поймите это неправильно, но я не знаю, что на самом деле произошло в этой истории, из-за всех «Смейтесь, если» ...
Марк Хендерсон
1
Это забавно, мне нравится 48-часовая генераторная часть. В одном месте, которое я однажды проверил, на площадке было 48 часов топлива, а на подсобном дворе еще 14 дней, и у них был бензовоз для заправки генератора, поэтому им не пришлось рассчитывать на кого-то другого. Они были также гидротехнической компанией.
SpaceManSpiff
Хотя это не повествование ... вся история выше.
ojblass
Бензовоз это умная идея. В прошлом году я посетил центр обработки данных в Сиэтле, в котором было всего несколько дней работы с дизельным топливом. Я не был впечатлен: только один раз в ~ 40 лет система автобуса в Сиэтле отключалась на один день, и это было связано главным образом с тем, что бензовозы не появлялись на базах для доставки дизельного топлива во время крупного снегопада. Я не могу себе представить, что сильное землетрясение, наводнение или другая региональная катастрофа приведут к тому, что топливо станет более доступным, чем во время снежной бури.
Skyhawk
25

Когда я работал в Cisco, я имел обыкновение получать клиентов, которые купили беспроводные карты за 30 долларов и плевались чипами, когда их драйвер не устанавливался, или людьми с самым дешевым и самым базовым маршрутизатором Cisco, который рвался и бредил вопросами поддержки.

Все это было сделано в контексте, однажды, когда мне позвонил один из крупнейших в мире провайдеров карт (думаю, Amex, Mastercard, Visa, Diners ... на самом деле это был один из тех брендов, я не знаю, если они был бы признателен, чтобы я упомянул это). Я был на переднем крае поддержки, моя единственная работа состояла в том, чтобы оценить сценарий, оценить его и передать в соответствующее подразделение поддержки. Это дело было единственным делом Приоритета Один, которое я когда-либо рассматривал.

Один человек из карточной компании позвонил и сказал, что их связь между американскими мэйнфреймами на востоке и западном побережье не работает. Если учетная запись была создана на одном мэйнфрейме, транзакция всегда обрабатывалась на этом мэйнфрейме. Что было бы хорошо, если бы ваша ближайшая ссылка всегда была рядом с этим мэйнфреймом. Но в этот конкретный день, если у вас есть учетная запись на сервере восточного побережья, но вы находитесь на западном побережье, транзакция будет отклонена, поскольку ссылка не работает.

Стандартный вопрос при оценке ущерба был "Сколько это стоит вашего бизнеса?" Спокойный и собранный ответ был «Около миллиона долларов каждые 30 секунд».

На самом деле вы узнаете об этом в следующий раз, когда вы почувствуете соблазн разглагольствовать и получить поддержку клиентов по вашей беспроводной карте за 30 долларов.

(следует отметить, что Cisco установил и запустил соединение в течение 5 минут после передачи)

Марк Хендерсон
источник
3
Вероятно, это единственный честный ответ на этот вопрос, который вы когда-либо услышите!
SpaceManSpiff
6
Это самый хороший способ, которым я когда-либо слышал, как кто-то говорит: «Перестань задавать глупые вопросы и исправь это СЕЙЧАС ». Особенно в техподдержку.
Эрни
10

Для псевдонимов, таких как rm или mv, очень часто добавляется опция -i, чтобы избежать ошибок. Но это случилось в моей компании некоторое время назад. Кто-то поместил эту строку в .bashrc рута на одном из серверов.

alias rm='rm -i'

Затем он скопировал строку и заменил rm на mv ... или он подумал:

alias rm='rm -i'
alias mv='rm -i'

Остальное уже история :)

Ну, дело в том, что когда спрашиваешь «ты уверен», вопрос говорит «убрать» вместо «двигаться», но все же ...

чмии
источник
Я так извиняюсь, чувак ... команда истории даже не поможет вам найти огромный яд, который вы сами себе выпускаете.
ojblass
4

Мы устанавливали крупную систему Point of Sale в крупном магазине (более 1000 филиалов). Весь центральный сервер опросов представлял собой пользовательский код HP-Unix, а тест на миграцию в производственный режим выполнялся одним парнем - сыном IT-директора.

Этот парень потратил 7,95 часов своего дня, читая романы Фэнтези, а остальные несколько минут выполнял свою пакетную работу по переносу ночных сборок в производство. Система была запущена через 3 дня в 150 филиалах (наш первый «настоящий» выпуск). Все было готово, и моя команда только что закончила тестировать последние фрагменты кода. Мы передали наши изменения и перенесли наши изображения из разработки в тест, чтобы на следующее утро сын ИТ-директора забрал их.

Я добираюсь туда в 8:00 и все в хаосе. Оказывается, сын был проинструктирован, что после копирования файлов в производство он должен был пойти в папку ./changed и набрать «rm -rf *». Да, кто-то на самом деле сказал ему это! Конечно, он случайно сделал это на рабочем корневом диске, который также содержал нашу базу данных транзакционного опроса (которая в то время оказалась автономной для резервных копий, к счастью для нас).

Результат: наши 16 пилотных магазинов должны были обслуживать клиентов из сигарных коробок (в некоторых случаях буквально) в течение 2 дней. Сын CIO был понижен в должности до Server Watcher (он сидел в морозной серверной комнате и должен был следить за красными огнями ... но ему не разрешалось ничего трогать ... они даже не дали ему компьютер и отозвал все свои логины / email). Наша команда разработчиков полностью восстановила потерянные данные из резервных копий и повторно протестировала / повторно отправила код.

Мы, к счастью, сделали развертывание 150 филиалов, но это был худший опыт развертывания КОГДА-ЛИБО.

Beep Beep
источник
1
По крайней мере, они понизили его
SpaceManSpiff
9
Странный. Как правило, кто-то другой был немедленно уволен, а сын директора назначен на должность.
Кубанчик
@kubanskamac - потрясающе
гудок
Обычно это такое понижение, которое гласит: «Брось, глупый ублюдок, поэтому мы не должны тебя увольнять». Что заставляет меня задуматься, если он когда-либо делал или нет.
Эрни
1
Он никогда не уходит ... он все еще там (более 10 лет спустя) и возвращается на свою старую прежнюю должность (в основном координатор развертывания и поддержка службы поддержки). Хотя он был в серверной комнате несколько лет.
Звуковой сигнал
2

Я научился заканчивать каждое командное предложение, прежде чем нажать клавишу ввода.

Немного похожая ситуация, с которой я сталкиваюсь, - когда я не уверен в команде, я нажимаю клавишу Home и набираю несколько ненужных символов, чтобы команда не была распознана.

me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that

bash: sdkjfhdsudo: command not found

И затем я проверяю варианты снова, медленно, если это необходимо. Кто-нибудь еще делает такую ​​вещь? Конечно, вы должны убедиться, что набираете достаточное количество ненужных символов (5+) , чтобы они не превратились в другую действительную команду и нанесли более непредсказуемый урон.

(Есть ли основной недостаток в этом, что я не выяснил, или ситуация, когда, учитывая 5+ ненужных символов, как правило, в клавишах «asdfghjkl», он делает что-то непредсказуемое?)

Дейв
источник
9
Нежелательные символы - это хорошо, но, возможно, есть два более распространенных (и детерминированных!) Подхода: вставить # в начале команды или поставить префикс «echo»?
Мурали Суриар
Я с @Murali, 'эхо' или пробные прогоны помогают особенно в отладке, чтобы предотвратить потерю данных.
LiraNuna
3
Вкл bash(и, возможно, другие оболочки): Alt + Shift + 3 (Alt + #) закомментирует команду.
Бельмин Фернандес
2

При переустановке операционной системы ноутбука для менеджера кто-то сделал копию всех своих данных по сети на станции linux в / tmp. Были некоторые проблемы, и это заняло более одного дня.

... станция Linux была остановлена ​​в конце дня ...

На следующий день, когда они пошли искать данные менеджера ...

chmeee
источник
1

Я проработал SysAdmin около 7 месяцев, одной из моих первых задач было запустить прокси-сервер Squid, и я действительно запустил его, примерно через 2 недели после этого я использовал BackTrack и возился с большим количеством инструментов ». Играя в хакера "Я действительно взломал сервер, что было довольно неплохо, но после того, как я по какой-то странной причине вошел в систему, я выполнил rm -rf из / и хорошо стер часть ОС (Debian linux).

Я научился заканчивать каждое командное предложение, прежде чем нажать клавишу ввода.

Приветствия.


источник
Вау. Вы взломали свой собственный сервер, а затем случайно стерли рут? Мол, твои пальцы поскользнулись?
Мэтт Симмонс
4
Смотри, как у меня есть этот n3wb, у меня есть его IP. 127.0.0.1!
Крис Торп
1

24 декабря 2005 г. один из наших клиентов столкнулся с довольно необычной ошибкой файловой системы XFS ... Ну, в то время я не знал, что это ошибка ядра Linux, конечно, я думал, что это всего лишь некоторые из обычных подозреваемых (RAID 13 ТБ) со свободным 8KB, ложным отказом диска в массиве и т. д.).

Наконец, поскольку файловая система была не монтируемой, я попросил оператора на линии войти xfs_repair -n /dev/whatever. Хм, он хочет очистить журнал (очевидно, поскольку FS не монтируется), но не слишком зловещее сообщение. Так что дерзай xfs_repair /dev/whatever.

15 минут спустя она перезванивает:

почему я не вижу большинство файлов?

Ху, ох ... Оказывается, чтобы добавить оскорбление к ране, xfsprogs были какой-то версии, которая нанесла бы серьезный вред в этом конкретном случае ... Ой. 8 ТБ данных пропали по-настоящему.

wazoox
источник
Это много данных, которые будут терять!
Марк Хендерсон
1

У моего коло-центра было некоторое время простоя некоторое время назад.

Они отключили свою основную сетевую связь с Интернетом, чтобы выполнить некоторое обслуживание программного обеспечения на маршрутизаторе, достаточно справедливо.

Однако в то же время вышестоящий провайдер вторичного канала связи отключил его для проведения некоторого тестирования (по-видимому, им было сказано, но в центре обработки данных он был неправильно маркирован).

Пока все плохо ... однако клиентам было трудно дозвониться до объекта, чтобы довести время простоя до сведения поставщика ... у поставщика были только VoIP-телефоны, которые были подключены через ... ну, вы можете догадаться.

Я полагаю, вы не поверите мне, но это правда, и дело в блогосфере :)

gbjbaanb
источник
1

Я не уверен, что это может быть интересный ответ, но я также кодер. Я закодировал свой последний веб-сайт полностью в рабочей среде, без каких-либо резервных копий на моем компьютере. Плохой день после 16 часов непрерывной работы, мне пришлось опустошить раздел, и самый быстрый способ сделать это - отформатировать его. Я побежал, fdisk -lчтобы проверить, как назывался раздел, который мне нужно было отформатировать, и, к сожалению, я прочитал не ту строку и отформатировал ее.

Я потерял около 6 месяцев работы.

К счастью, во второй раз, когда вы делаете то же самое, вы делаете это лучше и быстрее, так как вы уже знаете, как это сделать. Сейчас сайт работает. И у меня есть резервные копии: =)

cedivad
источник
+1 за 6 месяцев работы