Резюме
Я получал эти загадочные сообщения в системном журнале с тех пор, как установил какое-то новое оборудование, и я не могу понять, в чем проблема, если она серьезная или что с этим делать.
Они из нового SATA HBA и следуют шаблону. Я получу несколько первых сообщений, за которыми последуют несколько вторых сообщений через 5-30 секунд. Они приходят в виде BLOB-объектов, которые регистрируются в одну и ту же секунду, и точное количество каждого из них варьируется от 2 до 35. Между появлением записей могут быть минуты или часы.
Пример двух сообщений:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
Это всегда всегда 0x31120303, за которым следует 0x31110d01.
mpt2sas - это драйвер для адаптера шины SATA, который я использую, но содержание ошибок слишком загадочное. Это не говорит мне, в чем проблема, с каким диском или портом или с какой серьезностью.
аппаратные средства
Supermicro X9SCL с Xeon E3-1220 и 8 ГБ оперативной памяти.
SBA / SATA HBA Supermicro AOC-USAS2- L8I на базе LSI SAS2008 подключен к комплекту лотков для дисков Supermicro CSE-M35T-1B . К нему подключены три Western Digital WD30EZRX и два Segate ST3000DM001 . Все диски 3TB (фактически одинаковое количество секторов). Нет расширителей портов в использовании.
HBA, дисковые лотки и 4 диска являются новыми. Один из WD30EZRX был в течение нескольких месяцев, не было никаких проблем с ним. Если бы он был подключен к встроенному контроллеру Intel SATA ранее, переместил его в отсеки для дисков с этой новой настройкой.
Были проблемы с HBA, которые требовали частого сброса и получения действительно ужасной производительности. Обновил микропрограмму / BIOS до «Phase 12», последней версии, доступной от Supermicro, и изменил тип на IT (т. Е. Passthrough, от IR для интегрированного рейда, так как я собирался использовать все программное обеспечение raid): 2008IT12.FW. Это обновление прояснило все ранние проблемы, и я не начал получать вышеуказанные сообщения позже (см. Ниже).
Все первые четыре диска, которые я добавил, находятся на первом порту SFF-8087 (разделены на 4 кабеля SATA). Последний диск, который я добавил, находится на другом порту, если это имеет значение.
Единственный другой диск в системе содержит ОС, и это более старый твердотельный накопитель Intel 80 ГБ, подключенный к встроенному контроллеру SATA.
Програмное обеспечение
Ubuntu 11.10 (oneiric). Linux 3.0.0-14-сервер x86_64. Использование драйвера mpt2sas, поставляемого с ОС.
Попытка построить массив RAID6 с использованием Linux md с этими пятью дисками. Начал с вырожденного массива из 3 дисков, двух Segates и одного из новых дисков WD. Это было быстро и прошло очень хорошо, никаких сообщений в логах после того, как я сделал обновление прошивки. Между тем, я все еще использую старый диск WD на порту 0 того же контроллера.
Добавлен другой новый диск WD в массив. Началось восстановление, и теперь я периодически получаю эти сообщения в системном журнале. Я не уверен, сколько времени потребуется, чтобы добавить диск в массив, но расчетное время (cat / proc / mdstat) колеблется от тысяч до десятков тысяч минут, намного дольше, чем это заняло первые 3 диска. Я понимаю, что диски WD намного медленнее; У меня были разные модели, чтобы уменьшить вероятность множественного отказа диска, и это были две самые дешевые модели по 3 ТБ.
Примечания
SMART не сообщает о проблемах на дисках. На всех дисках нет зарегистрированных ошибок, и ни одна из статистических данных об ошибках не приближается к порогу.
Зарегистрированные сообщения начали появляться только после того, как я добавил последний диск, что говорит о том, что у кого-то может быть проблема, но я больше ничего не указываю на это.
Я нашел заголовочный файл, который, кажется, соответствует сообщениям журнала от этого драйвера. Первое сообщение, кажется, прерывается (код 12) для «подкода» 0303, которого нет в списке. Второе сообщение - это сброс (код 11) по причине, которая также не ясна. Если бы я мог определить, что означают 0303 и 0d01, это было бы очень полезно.
Я знаю, что 4 диска в 5-ти дисковом RAID6 - это неполный массив. Я планирую скопировать содержимое старого диска в массив после завершения интеграции 4-го диска, а затем добавить старый диск в массив.
Вау, крутой.
Это , кажется, указывает , что 0x31120303 является сброс шины из - за одного из устройств , находящихся под большой нагрузкой. Это также говорит, что вам не нужно беспокоиться об этом. (Ха-ха, да, верно.)
Это означает, что эти сообщения журнала происходят, потому что одному из ваших устройств требуется слишком много времени для ответа на команды. Эта говорит то же самое, а также указывает, что это происходит под большой нагрузкой.
Хотя это не полный ответ, надеюсь, он укажет вам полезное направление.
источник
Это означает, что у вас есть какая-то ошибка на диске, это диск SATA в контроллере SAS от LSI, и из-за ошибки все невыполненные запросы были прерваны.
В большинстве случаев на диске возникает средняя ошибка, которая является причиной этой ошибки. Эта ошибка сама по себе не означает среднюю ошибку, и вам нужно проверить журналы на наличие других подсказок, чтобы найти причину сбоя исходного диска.
Чуть более детальная версия по адресу: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/
источник