ZFS - Влияние отказа кеш-устройства L2ARC (Nexenta)

10

У меня есть сервер HP ProLiant DL380 G7, работающий в качестве устройства хранения NexentaStor . Сервер имеет 36 ГБ ОЗУ, 2 контроллера SAS LSI 9211-8i (без расширителей SAS), 2 системных диска SAS, 12 дисков с данными SAS, диск горячего резервирования, кэш-память Intel X25-M L2ARC и ускоритель DDRdrive PCI ZIL. Эта система обслуживает NFS для нескольких хостов VMWare. У меня также есть около 90-100 ГБ дедуплицированных данных в массиве.

У меня было два случая, когда производительность неожиданно снижалась, в результате чего гости виртуальной машины и консоли Nexenta SSH / Web были недоступны и требовали полной перезагрузки массива для восстановления функциональности. В обоих случаях это был твердотельный накопитель Intel X-25M L2ARC, который вышел из строя или был отключен. NexentaStor не смог предупредить меня о сбое в кеше, однако общее предупреждение ZFS FMA было видно на (не отвечающем) экране консоли.

введите описание изображения здесь

zpool statusВыход показал:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Это не вызвало никаких предупреждений в Nexenta.

У меня сложилось впечатление, что сбой L2ARC не повлияет на систему. Но в этом случае он, безусловно, был виновником. Я никогда не видел никаких рекомендаций для RAID L2ARC. Полное удаление неисправного SSD с сервера вернуло меня к работе, но я обеспокоен последствиями сбоя устройства (и, возможно, отсутствием уведомления от NexentaStor).

Редактировать - Какой сейчас SSD - накопитель L2ARC лучше всего подходит для кеша?

ewwhite
источник
Возможно ли, что ваш SSD или SATA порт имеет проблемы с оборудованием?
Tegbains
Это объединительная плата HP SAS. Я никогда не видел ни одного сбоя или проблемы во многих (Linux) развертываниях, но я уверен, что сбой является функцией SSD потребительского класса. Я могу принять ошибку, но влияние на оставшиеся диски и всю систему хранения данных является большей проблемой.
ewwhite
Примечательно, что Pogo Linux (который, как я понимаю, является крупнейшим интегратором / реселлером Nexenta) больше не предлагает устройства Intel X25 в качестве опции для L2ARC или ZIL из-за проблем с более поздними версиями прошивки Intel.
Skyhawk
И рекомендуемая замена (марка, модель, цена)?
ewwhite
1
Кстати, новую серию Intel 320 может быть интересно попробовать в качестве устройства L2ARC или даже ZIL: она имеет конденсаторную поддержку, и хотя стойкость записи ограничена (до 60 терабайт в зависимости от модели), оставшийся процент износа может отслеживаться с использованием атрибута SMART E9 (начинается с 100 и начинается с 1). Я подозреваю, что многие пользователи ZFS могут заменять это устройство так часто, как это необходимо, чтобы E9 не приблизился к 1, при этом совокупные расходы даже не приблизились бы к стоимости сопоставимого по размеру диска SLC.
Skyhawk

Ответы:

10

ZFS не выполняет дисковый ввод-вывод, драйверы устройств ниже ZFS делают дисковый ввод-вывод. Если устройство не отвечает своевременно или, как в этом случае, прерывает работу всех других устройств на расширителе, это не отображается как сбой ZFS. Все, что видит ZFS - это медленный ввод / вывод.

В микропрограмме Intel X-25M есть ошибка, которая влияет на их поведение во время больших нагрузок и может вызвать штормы сброса. Эта проблема затрагивает все ОС и не может быть решена на уровне ОС. Пожалуйста, обратитесь к поставщику оборудования для исправлений или исправления.

Если ожидается, что L2ARC выполнит чтение, то попытка чтения будет предпринята там. ZFS затем использует драйверы нижнего уровня для сообщения об ошибке. В этом случае накопитель продолжает сбрасываться и повторять попытки в течение 5 минут, после чего ввод / вывод считается неудачным, в зависимости от параметров драйвера, устройства и времени ожидания по умолчанию. Только после того, как драйверы нижнего уровня объявят ввод-вывод неудачным, ZFS будет повторять попытку в пуле.

Бегуны проверки объема и проверки диска NexentaStor ищут дополнительные сообщения об ошибках и предупреждают вас по электронной почте и регистрируют ошибки. Средство проверки диска было улучшено в выпуске 3.1, чтобы помочь вам предупредить вас о конкретных условиях, связанных с неисправной прошивкой в ​​SSD.

Итог: ваше оборудование неисправно и должно быть исправлено или заменено.

Ричард Эллинг
источник
2
Спасибо. Поэтому я больше не буду использовать Intel X-25. Я бы хотел протестировать рекомендацию для нового устройства L2ARC SSD, чтобы заменить его.
Ewwhite
3

Вы подключаете SSD X25-M к объединительной плате? Существует известная проблема с Nexenta и доступом к L2ARC через объединительную плату. Лучше всего подключить SSD непосредственно к порту SATA на материнской плате. Убедитесь, что он настроен на использование AHCI.

Если вы используете на этом сервере что-то критически важное, я бы переключился на SLC SSD (например, X25-E или STEC SSD). При этом, вы, вероятно, будете в порядке с X25-M, если это не так.

проворный
источник
Да, я подключаюсь через обычный отсек. У меня есть другие установки с тем же твердотельным накопителем Intel, что и L2ARC (в оборудовании Sun и HP). Этот конкретный доставил мне неприятности, хотя. Мое исследование показало, что L2ARC не должен быть таким же надежным, как ZIL (отсюда использование решений ZIL на основе SLC и PCI и потребительский накопитель для L2ARC). Это изменилось?
ewwhite
Я бы попробовал подключить SSD напрямую к материнской плате и посмотреть, работает ли он. Если у вас есть запасной рабочий X25-M, вы можете попробовать заменить текущий и посмотреть, не работает ли сам SSD. На SLC SSD: это зависит от вашего уровня риска. Если вы работаете с программным обеспечением на SLA, которое никогда не выйдет из строя и должно работать быстро, может быть дешевле купить высокопроизводительный SSD.
Молния
Я пытаюсь сказать, что Intel X25-M был рекомендован для L2ARC в большинстве статей и обсуждений, которые я видел в Интернете. Если это уже не так, какое устройство предпочтительнее?
ewwhite
1
@ewwhite: теоретически отказ устройства L2ARC должен быть бесперебойным, потому что ZFS может просто вернуться к чтению с диска (очевидно, производительность может пострадать). На практике ... ну, похоже, вы столкнулись с ошибкой драйвера ZFS или scsi, которая вызывается поведением SSD.
Том Шоу
1
@ewwhite: Я должен дать вам несколько практических советов. Если вы хотите создать дамп системного сбоя в следующий раз, когда ваша система заклинивает, следуйте инструкциям здесь . Этот вид дампа может быть полезен разработчикам Illumos.
Том Шоу
0

Эд, есть несколько, которые вы можете использовать, начиная от относительно разумных по цене до чертовски дорогих. Я предпочитаю использовать твердотельные накопители SAS во всех случаях и отлично справился как с STEC, так и с Pliant. Оба теперь предлагают MLC-накопитель, который отлично работает, имеет устройство L2ARC. Пока не тестируется, но скоро появится предложение SSD от Seagate, которое является SLC SAS 2.0 и, по слухам, «не дорого». Будьте на связи....

-PB

PauleyB
источник