Должен ли системный администратор в любом случае создавать резервные копии важных данных, даже если он не согласен со стратегией резервного копирования? [закрыто]

9

Недавно один из основных файловых серверов в нашей компании вышел из строя. Он использовал 4-х дисковый RAID-массив, но, очевидно, 3 диска умерли, и все данные на сервере были потеряны.

Обращаясь к системному администратору, он говорит, что несколько месяцев предупреждал высшее руководство о ситуации с резервным копированием. Он пытался получить одобрение на покупку решения для резервного копирования на уровне предприятия, но он так и не получил одобренный бюджет, потому что руководство считало, что это слишком.

Администратор sys - это выделенный должным образом сертифицированный администратор sys, тогда как его менеджеры не ориентированы на ИТ.

Его менеджер спрашивает, почему он не купил дешевый внешний диск и использовал его для резервного копирования файлового сервера. Системный администратор считает, что это просто решение для микки-мышки, которое подходит для домашнего использования, но не для профессиональной ИТ-компании, поэтому он этого не сделал.

Мне кажется, что системный администратор хочет правильную ИТ-стратегию из учебника, которая стоит намного больше денег, тогда как руководство (без глубокого понимания ИТ) хочет более дешевые решения, которые они считают адекватными.

Мне интересно, каково мнение других системных администраторов? Был ли этот системный администратор прав в своих действиях? Или он должен всегда следить за резервным копированием важных данных, даже если он считает, что более дешевый способ недостаточно хорош?


Изменить: основываясь на ответах, я добавлю, что у администратора системы есть ИТ-менеджер, который знал бы о ситуации. Он подчиняется главному боссу. Я не знаю, сообщил ли менеджер когда-нибудь всю ситуацию боссу. Я думаю, что это довольно сложно для менеджера, так как он застрял в середине, и он хочет быть дипломатичным с обеих сторон.

Рик
источник
1
Похоже, администратор отрезал ему нос, несмотря на его лицо.
Уэсли
Ух ты. Средний менеджмент FTL. Самое замечательное в управлении является то , что на самом деле, это его вина. Доллар останавливается там. Он парень, который должен следить за общей картиной. Он тот парень, которому нужно выделять бюджетные ассигнования и требовать срочный капитал для таких вещей, как резервное копирование. Должна быть небольшая компания, если они даже имеют дело с администратором напрямую ... Там, где я работаю, я больше не буду говорить с руководством (кроме моего босса) о проблемах резервного копирования, чем буду летать на Луну.
Satanicpuppy
1
Я безнадежно недипломатичный менеджер. Мне повезло, что я работаю в компании, где люди ценят, когда вы говорите откровенно. И для дополнительного бонуса, то, что каждый, кто работает в управлении, должен прочитать: joelonsoftware.com/articles/TwoStories.html (это относится к тому, что я чувствую себя любым менеджером, может быть, этот менеджер должен его прочитать)
Марк Хендерсон,
Отличная статья, Farseeker.
Уэсли
Этот вопрос не относится к текущим правилам актуальности.
HopelessN00b

Ответы:

11

Я согласен, что делать это правильно - это предпочтительный метод. Но стоять и ничего не делать непрофессионально. Было ли руководство проинформировано о том, что резервной копии нет? Задача администраторов - представить варианты, включая затраты и риски, руководству. Он представил свой предпочтительный вариант, и когда ему было отказано, он ничего не сделал. Не круто.

Craig
источник
5
Если бы этот парень не выпустил хотя бы 3 варианта «резервного копирования предприятия», я бы назвал это непрофессиональным. В то же время, если он представил решения «Lamborghini, Toyota & Yugo», и все они были расстреляны, это провал управления.
voretaq7
3
Согласились, если они были должным образом формально проинформированы, что резервное копирование не было осуществлено.
Крейг
2
В подобном случае просить своего босса подписать что-то с эффектом «я понимаю, что я облажаюсь» иногда бывает эффективным (плюс, как консультант, я обнаружил, что они обычно читают это, когда им нужно что-то подписать).
voretaq7
1
Я думаю, что "не круто", может быть, немного занижает это.
Джон Гарденье
10

я бы честно сказал, что это провал с обеих сторон.

Логистика ситуации может означать, что ему придется отнять время, которое он должен был бы потратить на выполнение других, непосредственных, важных задач.

Однако, в конечном счете, да, он должен был что-то сделать. Куча жестких дисков отсюда и там была бы лучше, чем ничего, как уже неоднократно говорилось.

С другой стороны, вся цель управления заключается в том, чтобы люди, находящиеся под вами, могли выполнять свою работу и выполнять ее. и, следовательно, с точки зрения руководства, менеджеры с треском провалились и могут нести равную ответственность, если не более того.

Kyoung
источник
2
+1 за сбой в обеих частях; Я до сих пор не могу смириться с тем, что админ решил, что лучше продержаться и ничего не делать.
Максимус Минимус
+1 Я согласен, что это был провал с обеих сторон.
iPaulo
1
+1 за двойной провал и +1 за комментарий mh: если компания не была абсолютно неразумной («Вы хотите делать резервные копии? Тогда ВЫ покупаете все необходимое, чтобы сделать их!»), Администратор действительно облажался.
voretaq7
4

Если нет никаких резервных копий, насколько я понимаю, это обязанность сисадмина:

1) Явно сообщайте вышестоящим сотрудникам о том, что резервных копий НЕТ, недвусмысленно, чтобы они знали об этом.

2) В любом случае сделайте резервную копию данных, как только сможете

Честно говоря, я ожидал бы, что меня уволят, потому что, даже если руководство усложнит мне жизнь, это не оправдание, особенно если у них все еще создается впечатление, что у них есть что-то, а не ничего.

Марк Хендерсон
источник
Я не обязательно согласен с пунктом 2, но пункт 1 - это суть того, что должен делать админ. Что-то вроде «У нас нет резервных копий» следует повторять для каждого из возможных случаев, которые вы можете найти хотя бы раз в месяц, пока проблема не будет устранена ...
voretaq7
И тогда это происходит, и когда головы катятся, это твое на блоке ...
Марк Хендерсон
2
Чтобы быть ясным, это не «резервное копирование в любом случае», с которым я не согласен, это «любой способ, которым он может»: я должен приходить каждую ночь в нерабочее время и вручную обрезать резервные копии на моем собственном внешнем жестком диске? (Некоторые компании даже не разрешат вам покупать USB-накопитель
емкостью
4

Будь ты проклят, если ты это сделаешь, если ты не будешь. Честно говоря, если руководство не потратило денег на решение для резервного копирования, то это их вина. С другой стороны, администратор должен был активно пытаться выработать решение с временным промежутком, а не просто сидеть на заднице и ждать, когда что-то сломается (я не думаю, что какое-либо решение для внешнего диска приемлемо. никогда не получу приличную резервную копию с этим.) Вы не можете просто сказать: «Ну, у меня нет того, чего я хочу , поэтому я не несу ответственности», но вы можете сказать: «Я неоднократно пытался получить вас что- то делать, а ты мне ничего не дал, и это не моя проблема.

На самом деле я однажды оказался в ситуации - я даже не был администратором на этой работе, - где я работал над базой данных и делал резервную копию, прежде чем я ее изменил (это sop), и я (как я обычно делаю) всякий раз, когда я могу) сохранить его на своей локальной машине. Два дня спустя они потеряли массив raid, и, как оказалось, решения для резервного копирования не было. Они делали резервную копию базы данных в массив рейдов.

Итак, я опаздываю на это и говорю: «О, я сам это вчера подкрепил».

Вы знаете, каков был результат? Я был осужден за мое плохое решение для резервного копирования. За машину, за которую я никоим образом не отвечал. И это было не потому, что у меня была слишком старая резервная копия, а потому, что я делал резервные копии только базы данных, над которой работал, а не каждой базы данных.

Так что проблема в следующем: если вы делаете решение для микки мауса, если вы делаете что-то, и это не совсем хорошо, вы получите столько же ада, как если бы вы вообще ничего не делали. Если резервное копирование является вашей обязанностью, явно, и нет никакого бюджета, вы должны попытаться сделать что-то вместе, но вам лучше убедиться, что это работает, и вам нужно поднять на это вопрос. Несколько раз. При каждой возможности.

Если это не ваша ответственность, укажите, что существует проблема, и категорически категорически отказывайтесь брать на себя ответственность за неоплаченный мандат, когда пытаетесь назначить его вам. Никто не делает аварийное восстановление приоритетом до тех пор, пока не произойдет катастрофа, а затем они козлом отпущения всех пытаются компенсировать свою близорукость.

Satanicpuppy
источник
3

К сожалению, компании, экономящие на резервных копиях, слишком распространены. Большинство никогда не изменятся, пока не сгорят и не потеряют все.

НО

Если вы работаете системным администратором, вы должны работать с инструментами, которые у вас есть, включая ваш мозг. Независимо от того, что руководство или кто-либо еще говорит в хорошие дни, когда какашки поражают поклонника, каждый получает избирательную память.

Резервное копирование микки-мышью лучше, чем отсутствие резервного копирования вообще.

BhmJeep
источник
Браво и на бис! =)
Уэсли
1
Иногда резервное копирование с помощью микки-мыши хуже: все предполагают, что их данные в безопасности, но когда какашки попадают в вентилятор, нужные им файлы нигде не найдутся - «О, вы сохранили это на диске X? Наши резервные копии включали только диск Y! " И потому что «есть резервные копии», они не держали своих собственных копий ...
voretaq7
Ну, теперь это может быть достаточно верно! Я должен был сказать "ИСПЫТАННЫЕ" резервные копии Микки Мауса. В любом случае, все резервные копии должны быть проверены. Однажды кто-то сказал мне: «Любой идиот может сделать резервную копию, но восстанавливает мозги…» или что-то в этом роде.
BhmJeep
2
Я всегда слышал это так: «Резервные копии не важны, восстановление ВАЖНО!»
BillN
@BillN - Абсолютно! Парень из хранилища в последнем месте, где я работал, использовал его, чтобы расколоть людей: «Если у вас не было успешного теста восстановления, у вас НЕТ РЕЗЕРВНОГО КОПИРОВАНИЯ»
voretaq7
2

Для меня это звучит так, будто системный администратор хотел все или ничего. Хорошо получить все, но если у тебя не может быть этого, ты ничего не примешь?

По моему опыту, нужно оценить все возможные варианты (не слишком подробно) и составить несколько пунктов для каждого, указывая плюсы и минусы, затраты (как начальные, так и текущие). Включите в эту опцию «ничего не делать».

Затем вы позволяете менеджерам решать, какое решение они выберут. Мне кажется, что для вашего системного администратора было возможно несколько вариантов. Возможно, он видел только ту, которую действительно хотел?

hmallett
источник
1
Верно. Я король дерьмового 10-терабайтного «резервного сервера», созданного вручную. Посолите нескольких из них и регулярно отправляйте им данные. Не так хорошо, как хорошее вращение ленты, но одна из них стоит меньше, чем коробка с лентами приличного размера.
Satanicpuppy
1
Гигантские «резервные» RAID-массивы объемом в несколько ТБ, рассматривающие жесткие диски USB как «ленты», резервное копирование по сети на rsync.net с использованием tarsnap.com - всегда есть что-то, если бюджет не равен $ 0 (а иногда и вам можно даже обойтись с $ 0 :-)
voretaq7
2

Я добавлю свой голос к тем, кто говорит, что админ должен был что-то реализовать здесь. Он сильно виноват, что не сделал этого. Есть часть меня, которая хотела бы посочувствовать его позиции, но в идеальном мире резервное копирование и восстановление заняло бы совсем немного времени, всегда работало и никогда не требовалось. Это не тот мир, и даже лучшее решение для резервного копирования будет иметь недостатки, с которыми вам придется смириться и научиться работать с ними.

Половина задницы лучше, чем ничтожества, и даже использование дешевого USB HD вытащило бы его из леса и придало бы вес его положению, когда руководству сказали, что они не могут получить данные больше дня или два старых назад. Но это все равно спасло бы его шею в этом случае.

Максимус Минимус
источник
А в крайнем случае, возможно, даже сохранить компанию и все рабочие места. Больше чем одна компания потерпела крах в результате потери данных.
Джон Гарденье
2

Если системный администратор сделает резервную копию важных данных в любом случае, он может.

Я не знаю, что я бы сказал, что вы должны сделать резервную копию при любых условиях . Есть некоторые вещи, которые вы, возможно, захотите сделать, которые могут быть незаконными. Например, я не буду создавать резервные копии медицинских записей по сети на моем персональном компьютере. Я бы не сделал что-то незаконное, просто чтобы сделать резервную копию.

OTOH, чтобы иметь хоть какую-то систему резервного копирования, я бы согласился на множество компромиссов. Затем всякий раз, когда был достигнут компромисс, я хотел бы убедиться, что мои возражения ясны и задокументированы о том, почему это был плохой компромисс, который вызовет проблемы, будет неадекватным или станет менее полезным в будущем.

Zoredache
источник
1

Как системный администратор, я считаю, что это моя ответственность за обеспечение того, чтобы системы под моим наблюдением были настолько безопасными и надежными, насколько я могу их создать. Резервные копии попадают под метки надежности. Как ни печально, но приходится спорить с непонимающими старшими сотрудниками (я думаю, что мы все были там когда-то), мы все равно должны делать свою работу как можно лучше.

Когда система резервного копирования, которую я унаследовал в моем текущем положении, потерпела неудачу, и руководство не решалось тратить деньги на систему, которую я хотел, я не оставлял систему без резервных копий. Вместо этого я принес свой личный внешний диск и использовал его в течение недели или около того. Несмотря на абсолютное отвращение к использованию жестких дисков для резервного копирования, факт остается фактом, что было гораздо предпочтительнее, чем их вообще не использовать.

Джон Гарденье
источник
Ух ты. Реквизит для того, чтобы принести свои вещи. Я не знаю, пошел бы я так далеко. Иногда я вижу пересечение границы между личным и бизнесом как Последнее Великое Зло. Тем не менее, может быть, это второе по величине зло, стоящее рядом с линией безработицы Обновление резюме без каких-либо ссылок от вашего последнего работодателя.
Уэсли
Когда вы ИТ-отдел одного человека, вы склонны быть несколько более гибкими, чем работаете в более крупной организации. Что касается этой линии между бизнесом и личностью, я нахожу, что это больше похоже на действительно широкое серое пятно, а не на четкую разделительную линию.
Джон Гарденье
1
Я один человек, работающий в сфере информационных технологий, для некоммерческой организации, которая потратила в 2009 году больше денег, чем взяла на себя ... и я / до сих пор / не принесла бы свои собственные вещи. : - /
Уэсли
Я признаю, что использую часть своего собственного оборудования (например, у меня есть копии наших резервных ключей шифрования в (зашифрованном) файле на флэш-накопителе моих ключей). Для меня строка звучит так: «Если это абсолютно необходимо для функционирования бизнеса, компания должна это предоставить»
voretaq7
1
Поверьте, если бы внешний накопитель был необходим более нескольких дней, я бы не стал использовать свой собственный. Это была чисто мера пресечения. Уведомление руководства о том, что я его использую, вероятно, помогло получить разрешение на покупку того, что требовалось.
Джон Гарденер
0

Если системный администратор не смог убедить руководство в важности хорошего решения для резервного копирования, единственный способ убедить его в этом - через катастрофическую потерю данных, но как системный администратор вы должны информировать руководство и пользователей о важности таких вещей, как резервное копирование. и убедиться, что они полностью понимают текущее состояние (в данном случае «нет резервных копий») и возможные последствия («Мы теряем диск, а ваши драгоценные данные исчезают навсегда»).

Мое личное мнение таково, что администратор как-то облажался: резервные копии Ad-Hoc - плохая идея (вы пропустите материал, важные данные будут потеряны, если вы не собираетесь делать резервные копии, не произойдет), но в то же время Время, которое они должны были бы найти надежное решение для резервного копирования "предприятия" в рамках бюджета компании.
Программное обеспечение, такое как Bacula и Amanda , доступно бесплатно, и оба могут безопасно и надежно работать со съемными USB-носителями и компакт-дисками. С учетом стоимости медиа и серверного оборудования у вас может быть хорошая система менее чем за 2000 долларов США - даже дешевле, если вы перерабатываете оборудование для сервера.

Теперь, если руководство также против того, чтобы администратор тратил ВРЕМЯ на создание резервных копий, эта компания просто не сможет помочь: как я уже говорил выше, иногда единственный способ научить людей - это катастрофическая потеря данных, и если это так, то бедному администратору это плохо. должен взять на себя вину за институциональную глупость.

voretaq7
источник
Я думаю, что администратор системы заранее думал об этом, что потребовалась бы катастрофическая потеря, чтобы научить их правильной стратегии резервного копирования. Теперь, когда это произошло, я знаю, что он был очень взволнован.
Рик
Проблема в том, что как администратор вы не можете полагаться на боль, чтобы учить: да, он, вероятно, получит ему резервную систему после того, как пожар закончится, но все будут помнить, что потеряли данные на его часах, и это вредит компании (по крайней мере, в краткосрочной перспективе).
voretaq7
0

Мое личное мнение заключается в том, что моя работа в качестве системного администратора заключается в том, чтобы информировать и впечатлять руководство о необходимости и важности наличия адекватного, подходящего решения для резервного копирования и запрашивания необходимого бюджета для этого, а также объяснять риски, связанные с этим. Я не обязан выходить за рамки мандата руководства и просто делать то, что считаю правильным, независимо от того, насколько плохими являются эти управленческие решения. Я не несу ответственности за то, чтобы собрать какое-то полусгоревшее, недоделанное решение.

Если я был страховым агентом, и я сказал вам, что в полисе владельца вашего дома важно иметь страховую защиту, и если я адекватно объяснил риск отсутствия страховой защиты, а вы отказались от указанной страховой защиты, и ваш дом сгорел, кто ответственность это? Должен ли я в любом случае дать вам покрытие от огня?

Мое мнение таково, что сисадмин проявил должную осмотрительность при выполнении своих обязанностей, доведя этот вопрос до сведения руководства, объяснив важность наличия соответствующего резервного решения, объяснив риски его отсутствия и запросив необходимый бюджет для например. Если он был отвергнут в своих усилиях, то ответственность лежит прямо на плечах руководства.

Люди постоянно принимают плохие решения, и плохие вещи случаются из-за этих плохих решений, это факт жизни. Я не могу нести ответственность за каждое плохое решение, принятое моим боссом, независимо от рисков, связанных с этими решениями.

оборота joeqwerty
источник
0

Произошла ли такая же ситуация с массивом RAID? Как только один диск умирает, вы попадаете в ситуацию, когда еще один означает потерю данных. Лучше немедленно заменить этот диск.

Если бы я был в шкуре системного администратора, как только первая поездка прошла:

  1. Диспетчер электронной почты с формальным запросом на замену диска, напоминающий, что система резервного копирования не была утверждена, поэтому это критическая ситуация. Процитируйте предыдущие запросы на систему резервного копирования, прикрепив это электронное письмо или, что еще лучше, ответ менеджера, отклонивший запрос.
  2. Если ответа нет, повторно отправьте сообщение, на этот раз CC'ing менеджер вашего менеджера.
  3. Если до сих пор нет ответа, ну .. не намного больше вы можете сделать. Польское резюме и начать искать лучшую работу.

Если вам будет отказано по пути, по крайней мере, у вас есть это в письменной форме, когда дерьмо попадает в вентилятор (Получить в письменной форме / по электронной почте, не принимайте устный ответ. Вам нужен бумажный след здесь. Если ваш менеджер отказывается писать это, затем идите через его / ее голову, потому что это просто теневое - нет законной причины не записывать это.)

Тот же процесс должен был быть выполнен для получения резервной системы, хотя, возможно, без эскалации, как быстро (или вообще через голову вашего менеджера). Если ни один из запросов не написан в письменной форме, ну .. дерьмо катится вниз. По крайней мере, это хороший жизненный урок.

Если вы не потеряете свою работу из-за сложившейся ситуации, начните снова делать этот запрос, ссылаясь на катастрофу, вызванную в прошлый раз, когда ваш запрос был отклонен. Если вам все еще отказано, то вам нужно решить, в какой среде вы хотите работать, и стоит ли это стресса. Если каждое утро вы ожидаете, что пойдете на работу в поисках паники, потому что данные были утеряны, ну, в общем, жить нельзя.

gregmac
источник
2
Когда-то у меня был массив из 12 дисков, и я получил предупреждение, что один диск движется на юг. Поэтому я вставил новый диск и сказал массиву восстановить его. Во время восстановления начался сбой другого диска, а затем другого. К концу 10 из 12 приводов начали выходить из строя, и я заменил все 12 из паранойи. Нередко теряется несколько дисков в рейде. Нельзя потерять сам рейд без отказа дисков. RAID не является решением для резервного копирования.
Satanicpuppy
Очень часто процесс восстановления RAID (особенно на старых массивах) вызывает достаточно мягких ошибок на одном или нескольких оставшихся дисках, чтобы контроллер RAID объявлял диск «неисправным», и BAM! Там идет ваши данные.
voretaq7
-3

Компания явно ищет козла отпущения в этом, системный администратор совершенно прав, чтобы не делать резервные копии критически важных данных на съемном устройстве.

1) Они не надежны 2) Они не безопасны

В конечном итоге дело за менеджерами за то, что они не смогли обеспечить правильное решение аварийного восстановления.

Посмотрите на это так, сколько эта потеря данных стоила компании? Внезапно я уверен, что «чрезмерное» решение не выглядит таким дорогим.

редактировать: да, я допускаю тот факт, что любая резервная копия более надежна, чем никакая, но моя первоначальная точка зрения остается, если у этого человека есть менеджеры, менеджеры должны убедиться, что резервная копия была на месте, я не прощаю системного администратора всех обвинений здесь, но это то, что менеджер должен проверять.

А что если сервер выйдет из строя и данные на съемных дисках по какой-либо причине будут невосстановимыми? если бы это происходило само в прошлом, то USB-накопители далеко не надежны, но для некоторых их можно использовать «в крайнем случае», проблема заключается в том, что, как представляется в этом случае, управление разрешенным резервным копированием съемного диска будет использоваться в долгосрочной перспективе. запустить.

Oneiroi
источник
6
Отсутствие резервной копии еще более ненадежно, чем ненадежная резервная копия. Смотрите ответы Farseeker и Craig для получения дополнительной информации.
Уэсли
+1 к Уэсли - ненадежные / специальные резервные копии будут кусать вас (и Мерфи говорит, что вы потеряете самый важный 1% данных, когда они это сделают), но, по крайней мере, у вас есть остальные 99% ...
voretaq7
Не уверен, что я понимаю ваш второй пункт. Практически ни один носитель для резервного копирования не является безопасным сам по себе. Если вы включите шифрование в программном обеспечении резервного копирования, резервное копирование будет безопасным. Простой том TrueCrypt на портативном диске обеспечит вам достаточную безопасность. Ваш первый пункт одинаково слаб. Никакие резервные носители не являются надежными на 100%, все они могут выйти из строя. Резервное копирование на переносном жестком диске не может быть хуже, даже если резервное копирование не будет обеспечено надлежащим образом.
Зоредаче
@Oneiroi - это неправильно на многих уровнях. Они, возможно, не настолько надежны и безопасны, как правильное резервное копирование, и я надеюсь, что вы имеете в виду правильное резервное копирование, но даже в этом случае, когда альтернатива вообще не является резервной копией, я не думаю, что занимать высокую и могучую позицию ради собирается сократить это в реальном мире.
Максимус Минимус