Жесткие диски не работают по неизвестной причине

11

У меня есть 7 систем с настройкой ниже. Время от времени другой диск отключается, но при ближайшем рассмотрении диск исправен и исправен, и работает без сбоев не менее года. Так как это происходит во всех 7 системах, я нахожу маловероятным, что существует какая-то одна деталь, которая работает (например, кабель), но вместо этого это комбинация некоторых несовместимых частей.

Проблема заключается в том, чтобы найти точную точку несовместимости.

(Если вместо этого у вас есть обходной путь, в котором вы можете виртуально переместить жесткий диск из командной строки, то вы можете ответить на /server/523315/re-activate-device -это считается мертвым ).

Серверное оборудование: Dell 1950, Dell R815, Dell R715.

Операционная система:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

контроллер:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

SAS / SATA-расширитель Объединительная плата Supermicro 4U SAS / SATA с объединительной платой LSI SAS2X36:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

Диски:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Диски в одной системе:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)
Оле Танге
источник
9
+1 за начало задавать важные вопросы :)
Свен
Плохой кабель, который не имеет экранирования, может вызвать проблемы с контрольными суммами. таким образом вызывая проблемы чтения и записи. Вы пытались заменить кабели?
монахи
Кабели были заменены на известные товары. Также я ожидаю, что Linux повторно выполнит команду после сброса шины scsi.
Оле Танге
2
Из того, что мне удалось выкопать до сих пор, в сообщениях указывается, что есть проблемы с подключением, а не предупреждения SMART. Может быть, кто-то другой с большим опытом работы в БЮ может помочь Все, что я знаю, это то, что они держатся подальше от дисков S-ATA в больших установках из-за отсутствия команд / очередей по сравнению с SAS. Я попрошу нескольких взглянуть на это.
Пауска
@pauska Можете ли вы уточнить (со ссылками?) что выкопали?
Оле Танге

Ответы:

1

Нам здесь не хватает информации. Вы предлагаете, чтобы в этой настройке хранилища было 24-45 дисков на сервер.

  • Какой конкретный контроллер (ы) вы используете?
  • Из-за количества дисков у вас может быть несколько дисков во внешнем корпусе. Пожалуйста, укажите марку / модель используемого внешнего накопителя.
  • Какие конкретные модели дисков вы используете? А все из приводов дисков для настольных компьютеров класса?
  • Какую файловую систему вы используете?
  • Опишите диск и расположение RAID.
  • Это всегда было проблемой или развивалось со временем?
  • это Supermicro участвует где - нибудь в этой установке?

В зависимости от настроек корпуса, вы можете столкнуться с таймаутами SATA или ошибками шины. Это может отрицательно сказаться на всех дисках, подключенных к контроллеру.

Другой проблемой может быть плохое согласование каналов SAS / SATA. Я, конечно, испытывал это на некоторых расширителях SAS, когда на одной плате смешаны диски 1,5 Гбит / с и 6,0 Гбит / с.

Пожалуйста, предоставьте больше информации.

ewwhite
источник
Меня очень интересует ваш вопрос о Supermicro. Можете ли вы уточнить?
Halfgaar
@Halfgaar Не могли бы вы дать отзыв о других вопросах, которые я задавал?
13:30
Оригинальный пост не мой. Мне просто интересно это утверждение.
Halfgaar
1
@Halfgaar Упс ... Ну, я обнаружил, что Supermicro SAS расширяется / объединяет и некоторые корпуса JBOD не ведут себя предсказуемо во многих обстоятельствах. Примечание в моем ответе о понижении скорости SAS / SATA и согласовании ссылок - это то, что я испытал только на некоторых ревизиях Supermicro. Я также не могу больше использовать их JBOD для ZFS из-за шаткого поведения.
13:30