Восстановление из проколотого массива RAID

10

вот моя ситуация

У меня есть сервер Dell с контроллером Dell Perc 7i (контроллер LSI).

У меня был диск, предупреждающий о сбое, поэтому я позвонил в их службу поддержки, и они вышли и заменили диск, а сам массив перестроился, довольно стандартно.

Две недели спустя у меня есть еще один диск, предупреждающий о сбое. Я подумал, что это может быть плохая партия дисков или совпадение и т. Д. Поэтому я обращаюсь в службу поддержки и смотрю более подробно. Я понимаю, что на одном из других накопителей были неисправные блоки, и эти поврежденные блоки были скопированы во время восстановления. Так что теперь у меня повсюду плохие блоки, и они медленно убивают мой массив. Я пришел к выводу, что это называется проколотый массив.

Поэтому их совет состоял в том, чтобы заменить все диски, восстановить массив и восстановить данные из резервной копии. За исключением того, что у меня возникла эта проблема в течение нескольких недель, что означает, что мои резервные копии плохие ... и если я восстановлю из резервной копии за предыдущий (месяц назад), то мне будет не хватать данных из моей базы данных за 4 недели, которые совершенно неприемлемо для нашего офиса.

Мой вопрос ... кто-нибудь когда-нибудь восстанавливался от чего-то подобного без потери данных или без целого (выбросить все из окна и начать все сначала) подхода?

Я нашел одну ссылку, которая освещала мой сценарий, но не уверен, что он проливает свет на ситуацию: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

Любая помощь или направление будут оценены! Ребята, что вы думаете?

user72593
источник

Ответы:

15

Я полагаю, что ваша система все еще работает, поэтому лучше всего сделать немедленное резервное копирование, сбросить диски / массив, восстановить и восстановить из резервной копии.

Плохие блоки не всегда означают, что ваши резервные копии тоже плохие. Если у вас не было проблем с производительностью или поврежденных файлов, резервные копии должны быть достаточно полными, чтобы завершить восстановление.

Для проверки возьмите самую последнюю резервную копию и изучите наиболее важные данные. Если он все еще не поврежден, вероятно, у вас есть хорошая резервная копия.

На этом этапе существует риск, так как вы не можете быть на 100% уверены, что ваши резервные копии в порядке или что резервное копирование сейчас не приведет к потере файла. Тем не менее, ваш массив будет в конечном счете , не в состоянии и заставить восстановление в любом случае, так что это ваш единственный реальный вариант.

Натан С
источник
Я вижу, сейчас все выглядит нормально. Так что, если я могу сделать полную резервную копию своей системы прямо сейчас, и я заменяю диски, перестраиваю массив и восстанавливаю эту полную резервную копию ... Могу ли я вернуться к этому сбою? Или мне лучше переустановить ОС и программное обеспечение и восстановить только базы данных, чтобы минимизировать риск?
user72593
Плохие блоки обычно не возникают на уровне файлов. Я бы сделал это только если вы нашли поврежденные файлы.
Натан С,
@NathanC Вы не получаете "плохие блоки", вы получаете поврежденные данные.
JamesRyan
@ user72593 То, что вы можете создавать резервные копии файлов сегодня, не означает, что в них не будет отсутствующих частей. Единственный способ увидеть, что хорошо, а что нет, - сравнить его с резервными копиями.
JamesRyan
1
@JamesRyan «Плохие блоки» могут находиться в любом месте диска, включая файлы подкачки, временные файлы или ранее использованное, но теперь неиспользуемое пространство. Когда диск имеет плохие блоки, это не всегда означает, что данные были потеряны.
Натан C
8

В этот момент сделайте следующее:

  • Прекратите вращать резервные копии или удалять старые для этой системы. Вы хотите сохранить все резервные копии, которые у вас есть.
  • Сделайте полную резервную копию сервера.

Надеемся, что диски все еще достаточно хороши, чтобы ваши данные были целы, и у вас не возникнет никаких проблем при запуске новой полной резервной копии.

Затем удалите эти диски и создайте новый массив RAID. Когда все будет готово, попробуйте восстановить из резервной копии, которую вы взяли только сейчас. Если повезет, это все, что вам нужно сделать.

Если это не помогло, попробуйте следующее самое старое, следующее самое старое и т. Д. Обязательно проверьте работоспособность системы - только то, что она загружается, не означает, что она полностью работоспособна. В частности, проверьте базы данных на наличие повреждений.

Если вам нужно было восстановить всю систему из более старой резервной копии, это нормально. Возьмите новейшие резервные копии и восстановите только файлы базы данных и другие важные файлы. Проверьте их, чтобы убедиться, что они работают правильно. Опять же, если это не удается, попробуйте следующий самый старый.

Использование этого процесса сводит к минимуму потерю данных.

Грант
источник
Я вижу, это отвечает на мой вопрос. Так что, пока моя резервная копия не повреждена, я в порядке, если нет, тогда ... Я должен с этим справиться. Спасибо.
user72593
4

Ответы, предоставленные Грантом и Натаном С., хороши в том, как вам следует поступать при обработке резервных копий / восстановлении, а также в отношении целостности данных.

Вот некоторые более подробные сведения о том, как обращаться с набором RAID, когда приходит время воссоздать виртуальный диск и восстановить данные из резервной копии:

  • Убедитесь, что у вас есть хорошая резервная копия данных
  • Удалить существующий виртуальный диск; После этого все диски должны быть в состоянии готовности.
  • Воссоздать новый виртуальный диск; Рекомендуемые настройки: адаптивное упреждающее чтение, обратная запись и кэширование диска отключены
  • У вас должен быть виртуальный виртуальный диск с фоновой инициализацией.
  • Продолжить восстановление из резервной копии; Фоновая инициализация обычно выполняется на скорости около 600 ГБ / ч для шпинделей 7,2 КБ, так что если инициализация восстановления из резервной копии может выполняться быстрее, начните работу инициатора, в противном случае у вашего программного обеспечения резервного копирования могут возникнуть проблемы с задержкой записи, если во время восстановить.

Примечание . Если вы используете RAID5, на этот раз вам следует СЕРЬЕЗНО подумать об использовании RAID6. RAID5 не является надежным для критически важных бизнес-данных в соответствии с современными отраслевыми стандартами в отношении массивов такого размера. Диски SATA / NL-SAS большой емкости также имеют более высокий риск столкновения с URE во время перестроений, что приводит к проколу, подобному тому, с которым вы имеете дело. RAID6 значительно снижает этот риск и, как правило, приемлем для критически важных данных с имеющимися в настоящее время емкостями дисков.

JimNim
источник