FakeRAID массив не работает, почему?

0

У нас есть система Windows XP с материнской платой AMD (GA-890GPA-UD3H), и мы используем встроенную функцию RAID. Система настроена в RAID 1 (с использованием инструмента AMD RAIDXpert). Он состоит из двух жестких дисков Samsung HD502IJ емкостью 500 ГБ.

Проблема в том, что массив часто выходит из строя. Сообщение об ошибке: Logical drive goes critical. Поэтому диски больше не отражаются.

Я могу восстановить диски, но это не очень помогает. Ошибка повторяется нерегулярно / ошибочно. Иногда происходит сбой через 3 дня, иногда через 7 дней, поэтому он не стабилен.

В чем проблема и как мне это доказать? Я могу получить S.M.A.R.T информацию о дисках, и они в порядке индивидуально.

vanCompute
источник
Это материнская плата GA-890GPA-UD3H. Имеет два RAID-контроллера. Оба они терпят неудачу.
SAMSUNG HD502IJ, это 2 жестких диска
Вчера я видел это: первый диск отключился, и он подключился через секунду, но RAID был сломан. Но у вас первый диск отключился?
vanCompute

Ответы:

1

Была такая же проблема с потребительскими (WD и Hitachi) жесткими дисками, смонтированными на разных NAS (с аппаратным RAID).

После многих экспериментов я обнаружил, что моя проблема связана с тем, как диски обрабатывают задержки чтения и тайм-ауты.

Мне пришлось включить TLER / CCTL на прошивке дисков. Массивы работали безупречно с тех пор.

Смотрите также http://en.wikipedia.org/wiki/Error_recovery_control

Axeman
источник
Звучит интересно. Может быть проблема. Знаете ли вы инструмент для включения CCTL?
@vanCompute IIRC - инструмент под названием HDAT2, который использовался для накопителей Hitachi. Другой человек перенастроил драйверы Hitachi, я работал только с драйверами WD со специальной утилитой WDTLER. И имейте в виду, что, к сожалению, не все диски поддерживают изменение времени ожидания чтения. Это зависит от номера модели и конкретной версии прошивки. Вам придется попробовать ...
Axeman
0

У меня было много проблем с накопителями Samsung и чипсетом AMD (в микросервере HP). Я верю, что это чипсет 780G.

Я использую Linux, и с высокой пропускной способностью на дисках я получу сообщения журнала с жалобами на то, что контроллер не ответил вовремя и был сброшен. В конце концов это повредило массив. Отключение AHCI и переход на SATA1 немного помогли, но не полностью прояснили проблему.

У друга с таким же оборудованием была такая же проблема на Windows Home Server, хотя я не помню, что говорили логи.

Можете ли вы увидеть что-нибудь в eventvwr о дисках?


источник
Я вижу событие с помощью AMD RAID API: логический диск «myraid» становится критическим из-за сбоя порта 1 диска 1 (ов).
На Linux вы используете mdadm ? (Не связано с моим вопросом.)
Я использую mdadm, но это не связано с проблемой - я получил его, когда массив тоже был разбит. Проблема даже сохранялась, когда я использовал freenas, так что это не похоже на проблему с драйверами. Я подозреваю, что есть проблема с этим чипсетом.
Итак, вы используете softraid, и он терпит неудачу? Или подделка / хост-рейд?
Сбой с рейдом mdadm, а также с разбитым массивом (рейда нет). Кажется, провоцируется большой пропускной способностью, но не всегда, у меня был период, когда это происходило при загрузке тоже каждый раз.