Исключительная ссылка на жесткий сброс Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe заморожено

8

Следующая ситуация:

Производительный Linux-сервер Debian 7 с ядром 3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

Производитель: Supermicro Наименование продукта: X10SLL-F Версия:1.02

Контроллер SATA: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

2x SSD, 2x жесткий диск

каждый диск может делать Sata Rev3 (6,0 Гбит / с)

hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set

Сообщения ядра предполагают (по крайней мере для меня) проблему со всеми четырьмя дисками, из-за чего я полагаю, что виноват именно контроллер sata.

ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete

Что я уже понял (или считаю, что понял)

Команды SECURITY FREEZE LOCKи DEVICE CONFIGURATION OVERLAYне важны для вопроса.

Читая около 20 сообщений об ошибках и множество документов, некоторые из них, по некоторым ссылкам, предлагали отключить NCQ, что я и сделал.

Сначала для одного устройства, после ожидания 1 дня, чтобы проверить, повторяется ли ошибка снова, и я отключил ее для всех 4 устройств

echo "1" >/sys/block/sdc/device/queue_depth

Нет очевидных изменений в ситуации.

https://ata.wiki.kernel.org/index.php/Libata_error_messages

https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

Другие предлагают кабель sata или даже несовместимость между платой + дисками.

Однако, поскольку у меня, похоже, либо проблема на одном диске, которая заполняет все 4, либо проблема непосредственно на всех 4 устройствах, я не могу определить проблему дальше.

Так как это производственный сервер, возможно отключение этого сервера для обслуживания (или изменения параметров BIOS / ядра), но я хотел бы предотвратить это, если это возможно.

По словам хостера, это может быть связано с управлением питанием:

https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy 

До изменения это было установлено на max_performance.

Это тоже не помогло.

Смарт Значения жестких дисков / SDD в порядке, ничего слишком очевидного.

Обратите внимание, что значение UDMA теперь, кажется, только 33.

При загрузке сервера это были значения скорости соединения sata:

[    3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[    3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161907] ata5: SATA link down (SStatus 0 SControl 300)

Ситуация может возникнуть при высокой нагрузке только на жестких дисках, я еще не проверял, поскольку это, очевидно, повлияет на производительность сервера.

На SSD нет нагрузки, они смонтированы, но не используются ни одним из процессов.

ОЗУ ECC, насколько я могу судить.

dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.

Handle 0x0023, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0022
    Error Information Handle: Not Provided
    Total Width: 72 bits
    Data Width: 64 bits
    Size: 8192 MB
    Form Factor: DIMM
    Set: None
    Locator: P1-DIMMA1
    Bank Locator: P0_Node0_Channel0_Dimm0
    Type: DDR3
    Type Detail: Synchronous
    Speed: 1600 MHz
    Manufacturer: Samsung
    Serial Number: 373A6427
    Asset Tag: 9876543210
    Part Number: M391B1G73QH0-CK0  
    Rank: 2
    Configured Clock Speed: 1600 MHz

Пожалуйста, дайте мне знать, если я могу дать дополнительную информацию, поскольку у меня нет идей, что делать дальше.

Деннис Нолте
источник
Спросите поставщика supermicro напрямую, возможно, они могут помочь, если хостер не поможет.
Деннис Нольте
1
Обратите внимание, что система пересматривает со скоростью 1,5 Гбит / с. Попробуйте увеличить скорость до 1,5 Гбит / с и посмотрите, сделает ли это систему стабильной. Это точка данных. Попробуйте askubuntu.com/a/146290/11751 для краткого описания того, как.
CVN

Ответы:

4

То, что вы испытываете на сервере, - это, в основном, повторное согласование SATA с более низкой скоростью соединения после некоторой проблемы со связью с дисками.

Эти факторы могут быть здесь на работе (упорядочены по вероятности)

  1. операции IOPS с очень высокой задержкой (например, вызванные сборкой мусора контроллера SSD), приводящие к тайм-ауту команды SATA. Ваш привод поддерживает команду SATA Trim? Если это так, попробуйте запустить fstrim /. Это что-то меняет?
  2. Плохая материнская плата / память: защищена ли ваша память ECC? Если нет, и если можете, запустите расширенный (2+ часа) тестовый сеанс memtest86 +
  3. несовместимость драйверов аппаратного / программного обеспечения
  4. Плохой контроллер SATA: хотя это и маловероятно, вы не можете полностью исключить его
  5. Плохие кабели / диски SATA: поскольку все четыре диска создают вам проблемы, это маловероятно
shodanshok
источник
ssd (s) в настоящее время не используются, кажется, ECC используется. из dmidecode -t17: общая ширина: 72 бита. Ширина данных: 64 бита
Деннис Нольте
3

По словам Supermicro Support, дефект связан с платой:

Quote:

This board may need ECO 16238 update.
Деннис Нолте
источник