Все еще получаете aacraid: ошибки запроса на прерывание хост-адаптера после выполнения рекомендуемых действий

9

Я получаю печально известную ошибку: ошибка запроса на прерывание хост-адаптера с моим новым RAID-контроллером Adaptec при высокой скорости ввода-вывода. Я читал несколько форумов, даже Adaptecs , что установка 45 в / sys / block / sdX / device / timeout исправит это. Однако я использую Ubuntu Server 12.04, который по умолчанию уже имеет значение 45. Я также попробовал следующее предложение, чтобы обновить биографию моего mobo до последней версии, что я и сделал.

Я не уверен, что кто-то еще сталкивался с этой ошибкой «aacraid: запрос на прерывание хост-адаптера» еще до того, как предпринять эти шаги.

Вот что я вижу в моем системном журнале:

kernel: [ 5493.523282] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523309] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523375] aacraid: Host adapter reset request. SCSI hang ?

Вот мой uname -a

Linux server 3.2.0-29-generic #46-Ubuntu SMP Fri Jul 27 17:03:23 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

Спасибо всем,

Джим

Джим
источник

Ответы:

1

Если вы еще не решили эту проблему, я недавно столкнулся с той же проблемой, которая быстро перерастала в зависание массива каждые 5 минут на пару минут по мере увеличения IO. Ubuntu по умолчанию использует планировщик CFQ, который не оптимален для аппаратного RAID. Переключите планировщик на noop с помощью:

echo noop > /sys/block/<blockdevice>/queue/scheduler

Лично я застрял со старым ядром, но мне сказали, что обновление до последней версии драйвера aacraid должно решить проблему - хотя я не могу это проверить. Но даже в этом случае переключитесь на noop. Поскольку sysfs не является постоянным, вы можете установить планировщик /etc/rc.localили использовать elevator=параметр загрузки.

Я бы обратил внимание на другие параметры ядра, а также настройки в Ubuntu, которые являются разумными значениями по умолчанию для наиболее распространенного оборудования, но большую часть времени серверы нуждаются в особом внимании, независимо от того, на каком дистрибутиве вы находитесь.

Кев
источник
1

Если ваш RAID-контроллер Adaptec имеет собственную прошивку / BIOS, вам может потребоваться обновить его. У нас были проблемы во время высокого ввода-вывода, мы также получили «aacraid: запрос на прерывание хост-адаптера» и увидели, что версия прошивки новее, чем наша текущая, которая гласила: «Устранена проблема, из-за которой прошивка могла зависать при высоком напряжении ввода-вывода». http://download.adaptec.com/pdfs/readme/relnotes_arc_fw-b18937_asm-18837.pdf .

В приведенных выше примечаниях к выпуску перечислены следующие модели Adaptec: 2045, 2405, 2405Q, 2805, 5085, 5405, 5405Z, 5445, 5445Z, 5805, 5805Q, 5805Z, 5805ZQ, 51245, 51645, 52445).

Мы также получили строки журнала, такие как:

sd 0:0:0:0: timing out command, waited 360s

а также

Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT,SUGGEST_OK

При поиске в Интернете, чтобы увидеть других людей, имеющих аналогичную проблему, мы обнаружили еще одну линейку карт, на которой в прошивке были исправлены следующие проблемы:

  • «Устранена проблема, которая могла приводить к ошибкам ввода-вывода хоста, изменениям состояния тома RAID, не отвечающим требованиям системам, а также к перезагрузке или сбросу системы в редких случаях, когда чрезвычайно высокие нагрузки ввода-вывода обслуживаются почти полностью из кэша контроллера» http: //download.adaptec .com / PDFs / ридй / relnotes_arc_fw-b30862_msm-20942.pdf
  • «Устранена проблема, из-за которой ввод-вывод замедлялся и в конечном итоге приводил к сбросу контроллера» http://download.adaptec.com/pdfs/readme/relnotes_arc_fw-b30612_msm-20618.pdf

Вышеуказанные два относятся к моделям Adaptec 7805, 7805Q, 78165, 71605E, 71605, 71605Q, 71685, 72405, 8805, 8885, 8885Q и 81605ZQ.

sa289
источник
Я думаю, что мой контроллер зависнет, когда я использую arcconfутилиту командной строки для запроса статуса массива как часть наших обычных сценариев мониторинга Nagios. Как указано в примечаниях по прошивке, использование arcconfможет привести к зависанию контроллера.
Стефан Ласевский