Ошибка аппаратного диска в ESX Guest, на диске с поддержкой vmfs ... как это возможно?

8

Как гость внутри ESX может найти такие проблемы?

[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current] 
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
  • физически данные на vmfs хранятся в массиве raid6 (adaptec 5805), что кажется счастливым
  • также хост ESX не регистрирует никаких проблем
  • размер диска, указанный гостем, совпадает с размером диска
  • через esx у гостя есть 9 одинаковых «дисков» и только 2 демонстрируют эту проблему
Тоби Отикер
источник
1
Может быть, ошибка в слое эмуляции ввода / вывода? Вы пытались изменить тип гостевого контроллера SCSI, чтобы увидеть, изменит ли он поведение? Воспроизводит ли доступ к указанному сектору ошибку? Используйте dd if=/dev/sdg bs=512 skip=430203455 count=1для перечитывания или просто badblocks -w -b 512 /dev/sdg 430203457 430203455для выполнения цикла чтение-тест-перезапись-перезапись, если вы чувствуете себя смелым.
the-wabbit
Какая версия ядра у вас там? Обновите ваше ядро ​​и посмотрите, появляется ли ошибка.
Sacx

Ответы:

1

Я испытывал подобное на томе резервного копирования для MS SQL в гостевой системе Win 2008 под ESX 4.0 - это необработанный том, предоставляемый NetApp filer.

Гостевая ОС сообщает (и все еще сообщает) о плохих секторах на этом томе.
Я думаю, что это произошло из-за слишком большого количества операций записи ввода-вывода, временного таймаута или перегрузки файла.
Больше не сообщалось о плохих секторах. NetApp "очистка диска" говорит, что все в порядке. Об ошибке fileer не сообщается.

Но мы все равно собираемся воссоздать этот том и посмотрим, исправит ли это это.

Как насчет других ваших томов на этом файлере? Можете ли вы проверить этот том с помощью команды "badblocks / dev / sdg"? (осторожно: огромные накладные расходы на чтение)

TooMeeK
источник
1

В конце концов это была проблема с аппаратным обеспечением / прошивкой. В то время как Adaptec 5805 (с последней версией микропрограммы) сообщал, что все тома RAID6 находятся в оптимальном состоянии, он также сообщил, что один том содержит «Failed Stripes». Эффект этого, по-видимому, заключается в том, что часть тома RAID6 становится нечитабельной (что приводит к ошибкам, указанным в вопросе). ESX, похоже, не видит этого напрямую, но работа dd if=/dev/zero of=file-on-damaged-volumeнепосредственно на консоли ESXi закончилась ошибкой ввода-вывода, хотя на томе все еще оставалось достаточно места.

На томах не выполняется ни одна из версий arcconf verify / verify_fix, и физические устройства не смогли обнаружить или исправить что-либо ... В конце концов я удалил все данные с тома и заново создал их на уровне adaptec. Сейчас все хорошо, но мое доверие к способности Adaptec защитить мои данные серьезно подорвано.

Тоби Отикер
источник
1
Это довольно согласуется с процедурой Sun / Oracle для таких ситуаций . Существует также статья часто задаваемых вопросов Adaptec о плохих полосах, которая дает некоторую справочную информацию о том, как возникают плохие полосы и что можно сделать, чтобы предотвратить их.
The Wabbit
Да, статья Sun / Oracle подтолкнула меня на правильный (грустный) путь. У нас был неисправный диск в этом массиве, но это raid6, так что даже тогда была избыточность, ни одна из более поздних проверок носителей не выявила никаких ошибок с оставшимися дисками ... также контроллер Adaptec имеет BBU, так что я не вижу любой повод для такого поведения :-( Никогда не было таких проблем с нашими контроллерами ареки.
Тоби Отикер
Я почти никогда не использую контроллеры Adaptec и в основном обслуживаю хранилище LSI, но я впервые сталкиваюсь и с «плохими полосами». Интересно, это что-то очень специфичное для реализации Adaptec?
The Wabbit