ядро: ошибка ввода-вывода при фиксации журнала

9

У меня проблемы с сервером Dell 1950 Я устанавливаю RHEL 4.6 вместе с Oracle и некоторым другим программным обеспечением здесь.

Я случайно получаю сообщение об ошибке «Ядро: ошибка ввода-вывода журнала» в моем сеансе ssh и на мониторе, к которому я подключен, я вижу прокрутку сообщения об ошибке «EXT3-fs error (device sda5)» в start_transaction: журнал прерван. "

Это происходило несколько раз, но никогда в одной и той же точке во время установки. На самом деле, это последний раз, когда система была запущена и работала, и я просто пытался импортировать базу данных в Oracle.

Это произошло на нескольких жестких дисках, поэтому я уверен, что это не проблема. Это заставляет меня думать, что контроллер рейда работает плохо.

Что вы думаете, ребята?

** ОБНОВИТЬ **

Уверен, это был плохой жесткий диск. Я добавил другой диск в сервер, и он работал без проблем около 48 часов.

jasondewitt
источник

Ответы:

9

Я видел эти ошибки раньше, но не во время процесса установки.

Это означает, что диск получил достаточно ошибок, чтобы ОС перевела его в режим только для чтения. Если бы вы могли найти полные журналы, вероятно, были бы некоторые ошибки ввода-вывода, которые повторялись и работали до тех пор, пока вы не увидели полные ошибки. Что-то с упомянутыми фактическими блоками.

Это ошибка системы хранения. Это определенно карта RAID, диски в массиве RAID, кабели от карты к дискам, объединительная плата, к которой подключаются диски, слот, к которому подключена карта raid, блок питания для жестких дисков или что-то еще в между процессором и фактическими блоками памяти.

Freiheit
источник
2

На ум приходят три возможности:

  1. Есть проблемы с памятью (они часто вызывают «случайные» сбои). Если у вас есть ECC RAM, то, очевидно, это менее вероятно.

  2. Там некоторые проблемы с шиной. У меня была такая же проблема со сломанным контроллером APIC на материнской плате Tyan dual Opteron несколько лет назад. Были и другие записи в журнале, которые намекали на это, но основная часть симптомов была случайным повреждением на дисках с автоматическим перемонтированием только для чтения. В моем случае я знал, что это не связано с диском, потому что это был внешний блок FC RAID, и это было хорошо.

  3. RAID-контроллер является двухъярусным.

Это в порядке, я бы рассмотрел проблемы.

Александр Кармель-Вейе
источник
Вероятно, не проблемы с памятью; они с большей вероятностью могут вызвать ошибки и другие случайные ошибки, а не ограничиваться только хранилищем.
Freiheit
Правда. Но в случае установки или ранней загрузки основной объем используемой памяти составляет буферный кеш, поэтому проблемы, как правило, появляются там первыми. Как только машина какое-то время запускает некоторую нагрузку, пользовательский процесс доминирует над вводом / выводом в памяти и, таким образом, преобладает сегментация. Тем не менее, PE1950 должен иметь процессоры Xeon и ECC, поэтому ОЗУ должно быть в состоянии обнаружить его и сообщить об этом Linux.
Александр Кармель-Вейль
2

Это может быть плохой контроллер RAID, как вы сказали (попробуйте запасной, если он у вас есть). Это может быть драйвер для контроллера (проверьте альтернативные драйверы, если они доступны, даже если производительность хуже, хорошо иметь контрольную точку .) Это может быть ядро ​​(менее вероятно, хотя в RHEL оно довольно хорошо протестировано.) Это может быть плохая память, портящая кеш блоков.

Однако, аппаратная проблема является наиболее вероятной причиной, основанной на кажущемся случайном поведении ошибки.

Михай Лимбашан
источник
2

Убедитесь, что диск не заполнен - ​​в частности, корневой раздел. Используйте df, чтобы увидеть использование диска файловой системы:

df -h

Ищите разделы, близкие или равные 100% загрузки

Питер Х
источник