«Обязательное» свободное место в сети SAN?

8

Я не эксперт по SAN, я пишу здесь, чтобы получить некоторые подсказки о постоянных и раздражающих проблемах, которые у нас возникают, которые наш поставщик, похоже, не в состоянии решить.

у нас есть ENHANCE ES3160P4 SAN с дисками 16 x 2 ТБ, которые поставляются для нашей системы видеонаблюдения. Поставщик настроил SAN на использование 14 дисков в массиве RAID 5, а 2 диска являются глобальными запасными. RAID обычно делится на 2 виртуальных диска одинакового размера, которые охватывают все пространство RAID. Каждый из них получается что-то более 12 Тб. Каждый виртуальный диск соответствует одному LUN, который подключен к одному видеосерверу, который непрерывно хранит видеоданные и позволяет пользователям извлекать записи при необходимости. LUN отформатированы в NTFS и подключены к видеосерверам Windows Server 2012 через iSCSI. Видеосерверы, как правило, полностью используют доступное пространство, которое у них есть.

При такой конфигурации диски SAN выходят из строя и выходят из строя, и каждый раз SAN не может восстановить RAID, потому что в то же время происходит сбой другого диска. Мы потеряли RAID как 4 раза за последние несколько месяцев.

Эта проблема, по-видимому, не вызвана плохим образцом SAN, потому что у нас есть три другие машины того же типа, которые настроены аналогичным образом, и, похоже, имеют те же проблемы. Только у одного нет проблем, но на данный момент он недогружен.

После нескольких месяцев неизвестных тестов и проверок поставщик в итоге сказал, что общеизвестно, что сеть SAN не должна использоваться на 100%, или она будет быстро ухудшаться, в том числе физически, и сказал, что для решения проблемы необходимо создать виртуальные диски. оставляя 10-15% от общего пространства, доступного в RAID.

Я искал проблему в Интернете и не нашел конкретных заявлений, говорящих об этом. Мне кажется, что было бы более разумно создавать виртуальные диски, охватывающие весь RAID, а затем недооценивать LUN (то есть, позволяя Windows иметь свободное пространство и избегать фрагментации). Если нет, то я не понимаю, почему ENHANCE SAN позволяет создавать виртуальные диски, охватывающие весь RAID, если он настолько «общеизвестен», что должно быть оставлено свободное место, и почему поставщик вначале настраивал систему таким образом ... но это еще один момент.

В конце концов, мы хотим решить эту ситуацию. Любое предложение принято. Как я уже сказал, я не эксперт SAN, но после стольких проблем я бы хотел по-настоящему понять, знает ли поставщик, что происходит, или нет, потому что мы больше не можем принять эту ситуацию.

Спасибо заранее! С уважением

Редактировать: тип диска Поскольку из ответа, как представляется, уместная информация, я добавляю, что все диски Western Digital модели WD2001FYYG-01SL3.

Z2k
источник
3
Любая должным образом спроектированная система, если для ее правильного функционирования требуется резервное пространство, резервирует пространство, не предлагая ее для использования клиентами. Для моментальных снимков может потребоваться пространство, а для файловых систем «Копировать при записи» - обычно, но они обычно имеют небольшой резерв для этих целей. По крайней мере, по умолчанию, который, конечно, может быть переопределен пользователями, если они готовы пойти на риск.
Птман
По крайней мере , диски выглядят хорошо, они 24/7 диски SAS, но они не должны терпеть неудачу , что часто ...
Свен
4
Iossue - это не свободное пространство, это идиотская конфигурация. 14 дисков в Raid 5 не стабильны по математике, просто так. Даже Рейд 6 может обложить налогом. Вообще - рейд с дисками 2Тб статистически не стабилен. Период.
TomTom
1
@ TomTom: Если вы думаете, что это простая математика, пожалуйста, ответьте на вопрос, показывающий математику. Моя математика для салфеток говорит, что массив стабилен, если чтение 13 * 2 ТБ для восстановления поврежденного массива вряд ли даст сбой. Рейд 6, конечно, лучше, он стабилен, если восстановление вряд ли встретит двойную ошибку.
MSalters
4
With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.Это именно потому, что, как говорит TomTom, диски слишком велики для RAID5. И, вероятно, RAID 6 тоже, FWIW. Ваши шансы на успешную перестройку далеко не равны 100%, и вы знаете это, потому что вы сами заявили, что у вас было «около 4» неудачных перестроений в течение нескольких месяцев. Ваша конфигурация RAID идиотична, а ваш поставщик некомпетентен, просто так.
HopelessN00b

Ответы:

10

Исходя из того, что вы описываете, основная проблема заключается в том, что они решили использовать RAID5 для такого большого массива, что является довольно плохим выбором для этой установки, именно по той причине, по которой вы испытываете: отказ 2-го диска во время восстановления ломает все, и эта вторая неудача слишком рискует.

Если бы вместо этого они использовали, например, RAID6, сбой 2-го диска во время восстановления не привел бы к отказу массива, и восстановление могло бы продолжаться в обычном режиме за счет стоимости одного диска в виде общей емкости хранения и определенного влияния на производительность.

Я не понимаю, как оставление 15% свободного места могло бы помочь в решении этой проблемы, и хотя это может или не может быть хорошей идеей с точки зрения производительности для файловой системы, это явно не связано со сбойным RAID. Я называю ерунду по этому поводу.

Все это говорит о том, что я не могу не задаться вопросом: многократно происходить это в течение нескольких месяцев - это слишком даже для системы RAID5. Я бы посоветовал взглянуть на используемые типы дисков - возможно, ваш поставщик использовал дешевые настольные накопители вместо 24/7 накопителей, сертифицированных для использования в такой системе.

Свен
источник
Спасибо за ваш вклад. Я отредактировал вопрос, добавив тип диска.
z2k
2

Я полностью понимаю, что это старый пост, но, поскольку я продолжаю видеть большие массивы RAID5 в производстве, я хотел бы добавить свои мысли здесь.

  • слишком частый выход из строя дисков, как правило, является причиной перегрева и / или слишком сильных вибраций, которые можно обнаружить в плохо спроектированных системах или в плохих местах

  • такие большие массивы RAID5 следует сильно избегать. Как правило, гораздо лучше иметь массив RAID6, а не массив RAID5 +. В случае OP, вместо того чтобы иметь 1x диск с четностью и 2x глобальных горячих резервов, было гораздо лучше иметь 2x диск с четностью в конфигурации RAID6;

  • Ключевым моментом является наличие надежной системы отчетов об ошибках и состоянии: неосознанно деградированный, не отслеживаемый массив - это путь к катастрофе.

shodanshok
источник
продолжайте видеть большие массивы RAID5 в производстве «Больше должно быть лучше!», верно? Я также добавил бы, что такие большие массивы в целом имеют УЖАСНУЮ производительность из-за плохой геометрии и конкуренции между несколькими LUN, совместно используемыми одним и тем же массивом, даже если массивы построены с использованием RAID6. IME только самые большие массивы, которые я бы порекомендовал, это 4 + 1 RAID5 и 8 + 2 RAID6. Некоторые контроллеры более высокого уровня могут скрывать некоторые проблемы с производительностью с большими массивами, но лучший контроллер когда-либо не поможет перестроить время.
Эндрю Хенле