В соответствии с вопросом о Лучшей аварии сисадмина , в какой худшей аварии вы участвовали? В отличие от предыдущего вопроса, я имею в виду «худший» в смысле большинства системных повреждений или реального вреда для людей.
Начну с моего:
У нас есть два удаленных монтажных шкафа, которые находятся в конце 100-футового коридора с металлической решеткой для пола. После того, как у нас был установлен кабель Cat6, подрядчики очистили весь мусор, который упал через решетку на бетон на 3 фута ниже. Однажды мы с коллегой вошли в коридор, чтобы проверить прогресс, но были отвлечены и не заметили, что кусок решетки отодвинут в сторону. Мой приятель поднялся в воздух, и его грудь врезалась в стальную перекладину. Он был измотан и болел достаточно, чтобы взять пару выходных, но, к счастью, у стальной балки были закругленные края, а размер отверстия был таким, что он не врезался ни в него, ни в пол ниже.
Очевидно, мы узнали, что области, где пол частично удален, должны быть помечены.
Ответы:
Представьте, будете ли вы жить в Южной Флориде во время урагана Эндрю (немного раньше, чем увлечение 24X7). Все ваши серверы надежно заблокированы в здании, которое требует от вас пропуска в него, и в более безопасной зоне, требующей дополнительного сканирования вашего пропуска. Представьте себе хитрость, которая не учитывает фактических ручек на дверях. Представьте себе контракт на четыре миллиона долларов, требующий поставки, ближайший источник электроэнергии - 230 миль к северу, дефицит газа - опасные дороги, и генератор, который был рассчитан на подачу электроэнергии в течение 48 часов. Смейтесь, если хотите, над множеством серверов, стоящих в кузове грузовика, застрявших в магистрали Микки-Мауса, остановившихся из-за нехватки газа. Смейтесь, если вам не хватает оправдания тому, насколько все это плохо с точки зрения логистики, сисадмина и работы.
источник
Когда я работал в Cisco, я имел обыкновение получать клиентов, которые купили беспроводные карты за 30 долларов и плевались чипами, когда их драйвер не устанавливался, или людьми с самым дешевым и самым базовым маршрутизатором Cisco, который рвался и бредил вопросами поддержки.
Все это было сделано в контексте, однажды, когда мне позвонил один из крупнейших в мире провайдеров карт (думаю, Amex, Mastercard, Visa, Diners ... на самом деле это был один из тех брендов, я не знаю, если они был бы признателен, чтобы я упомянул это). Я был на переднем крае поддержки, моя единственная работа состояла в том, чтобы оценить сценарий, оценить его и передать в соответствующее подразделение поддержки. Это дело было единственным делом Приоритета Один, которое я когда-либо рассматривал.
Один человек из карточной компании позвонил и сказал, что их связь между американскими мэйнфреймами на востоке и западном побережье не работает. Если учетная запись была создана на одном мэйнфрейме, транзакция всегда обрабатывалась на этом мэйнфрейме. Что было бы хорошо, если бы ваша ближайшая ссылка всегда была рядом с этим мэйнфреймом. Но в этот конкретный день, если у вас есть учетная запись на сервере восточного побережья, но вы находитесь на западном побережье, транзакция будет отклонена, поскольку ссылка не работает.
Стандартный вопрос при оценке ущерба был "Сколько это стоит вашего бизнеса?" Спокойный и собранный ответ был «Около миллиона долларов каждые 30 секунд».
На самом деле вы узнаете об этом в следующий раз, когда вы почувствуете соблазн разглагольствовать и получить поддержку клиентов по вашей беспроводной карте за 30 долларов.
(следует отметить, что Cisco установил и запустил соединение в течение 5 минут после передачи)
источник
Для псевдонимов, таких как rm или mv, очень часто добавляется опция -i, чтобы избежать ошибок. Но это случилось в моей компании некоторое время назад. Кто-то поместил эту строку в .bashrc рута на одном из серверов.
Затем он скопировал строку и заменил rm на mv ... или он подумал:
Остальное уже история :)
Ну, дело в том, что когда спрашиваешь «ты уверен», вопрос говорит «убрать» вместо «двигаться», но все же ...
источник
Мы устанавливали крупную систему Point of Sale в крупном магазине (более 1000 филиалов). Весь центральный сервер опросов представлял собой пользовательский код HP-Unix, а тест на миграцию в производственный режим выполнялся одним парнем - сыном IT-директора.
Этот парень потратил 7,95 часов своего дня, читая романы Фэнтези, а остальные несколько минут выполнял свою пакетную работу по переносу ночных сборок в производство. Система была запущена через 3 дня в 150 филиалах (наш первый «настоящий» выпуск). Все было готово, и моя команда только что закончила тестировать последние фрагменты кода. Мы передали наши изменения и перенесли наши изображения из разработки в тест, чтобы на следующее утро сын ИТ-директора забрал их.
Я добираюсь туда в 8:00 и все в хаосе. Оказывается, сын был проинструктирован, что после копирования файлов в производство он должен был пойти в папку ./changed и набрать «rm -rf *». Да, кто-то на самом деле сказал ему это! Конечно, он случайно сделал это на рабочем корневом диске, который также содержал нашу базу данных транзакционного опроса (которая в то время оказалась автономной для резервных копий, к счастью для нас).
Результат: наши 16 пилотных магазинов должны были обслуживать клиентов из сигарных коробок (в некоторых случаях буквально) в течение 2 дней. Сын CIO был понижен в должности до Server Watcher (он сидел в морозной серверной комнате и должен был следить за красными огнями ... но ему не разрешалось ничего трогать ... они даже не дали ему компьютер и отозвал все свои логины / email). Наша команда разработчиков полностью восстановила потерянные данные из резервных копий и повторно протестировала / повторно отправила код.
Мы, к счастью, сделали развертывание 150 филиалов, но это был худший опыт развертывания КОГДА-ЛИБО.
источник
Я научился заканчивать каждое командное предложение, прежде чем нажать клавишу ввода.
Немного похожая ситуация, с которой я сталкиваюсь, - когда я не уверен в команде, я нажимаю клавишу Home и набираю несколько ненужных символов, чтобы команда не была распознана.
me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that
bash: sdkjfhdsudo: command not found
И затем я проверяю варианты снова, медленно, если это необходимо. Кто-нибудь еще делает такую вещь? Конечно, вы должны убедиться, что набираете достаточное количество ненужных символов (5+) , чтобы они не превратились в другую действительную команду и нанесли более непредсказуемый урон.
(Есть ли основной недостаток в этом, что я не выяснил, или ситуация, когда, учитывая 5+ ненужных символов, как правило, в клавишах «asdfghjkl», он делает что-то непредсказуемое?)
источник
bash
(и, возможно, другие оболочки): Alt + Shift + 3 (Alt + #) закомментирует команду.При переустановке операционной системы ноутбука для менеджера кто-то сделал копию всех своих данных по сети на станции linux в / tmp. Были некоторые проблемы, и это заняло более одного дня.
... станция Linux была остановлена в конце дня ...
На следующий день, когда они пошли искать данные менеджера ...
источник
Я проработал SysAdmin около 7 месяцев, одной из моих первых задач было запустить прокси-сервер Squid, и я действительно запустил его, примерно через 2 недели после этого я использовал BackTrack и возился с большим количеством инструментов ». Играя в хакера "Я действительно взломал сервер, что было довольно неплохо, но после того, как я по какой-то странной причине вошел в систему, я выполнил rm -rf из / и хорошо стер часть ОС (Debian linux).
Я научился заканчивать каждое командное предложение, прежде чем нажать клавишу ввода.
Приветствия.
источник
24 декабря 2005 г. один из наших клиентов столкнулся с довольно необычной ошибкой файловой системы XFS ... Ну, в то время я не знал, что это ошибка ядра Linux, конечно, я думал, что это всего лишь некоторые из обычных подозреваемых (RAID 13 ТБ) со свободным 8KB, ложным отказом диска в массиве и т. д.).
Наконец, поскольку файловая система была не монтируемой, я попросил оператора на линии войти
xfs_repair -n /dev/whatever
. Хм, он хочет очистить журнал (очевидно, поскольку FS не монтируется), но не слишком зловещее сообщение. Так что дерзайxfs_repair /dev/whatever
.15 минут спустя она перезванивает:
Ху, ох ... Оказывается, чтобы добавить оскорбление к ране, xfsprogs были какой-то версии, которая нанесла бы серьезный вред в этом конкретном случае ... Ой. 8 ТБ данных пропали по-настоящему.
источник
У моего коло-центра было некоторое время простоя некоторое время назад.
Они отключили свою основную сетевую связь с Интернетом, чтобы выполнить некоторое обслуживание программного обеспечения на маршрутизаторе, достаточно справедливо.
Однако в то же время вышестоящий провайдер вторичного канала связи отключил его для проведения некоторого тестирования (по-видимому, им было сказано, но в центре обработки данных он был неправильно маркирован).
Пока все плохо ... однако клиентам было трудно дозвониться до объекта, чтобы довести время простоя до сведения поставщика ... у поставщика были только VoIP-телефоны, которые были подключены через ... ну, вы можете догадаться.
Я полагаю, вы не поверите мне, но это правда, и дело в блогосфере :)
источник
Я не уверен, что это может быть интересный ответ, но я также кодер. Я закодировал свой последний веб-сайт полностью в рабочей среде, без каких-либо резервных копий на моем компьютере. Плохой день после 16 часов непрерывной работы, мне пришлось опустошить раздел, и самый быстрый способ сделать это - отформатировать его. Я побежал,
fdisk -l
чтобы проверить, как назывался раздел, который мне нужно было отформатировать, и, к сожалению, я прочитал не ту строку и отформатировал ее.Я потерял около 6 месяцев работы.
К счастью, во второй раз, когда вы делаете то же самое, вы делаете это лучше и быстрее, так как вы уже знаете, как это сделать. Сейчас сайт работает. И у меня есть резервные копии: =)
источник