LInux: Как мне диагностировать / изолировать, что вызывает «случайные» зависания и самопроизвольные перезагрузки?

20

(изначально размещено на сервере )

Итак, вместо того, чтобы гадать, в чем причина (хотя мои деньги на драйверах nvidia), где мне начать искать некоторые факты?

Я несколько раз просматривал / var / log, но там очень много вещей, и я не могу (пока) определить важные моменты.


Фон: короткая версия

Я перешел с WinXP на Ubuntu Karmic сразу после того, как он стал доступен.

С тех пор я имел ряд , казалось бы , случайных аварий , которые проявляются в виде либо:

  • самопроизвольная перезагрузка
  • полная блокировка, когда клавиатура USB и мышь перестали отвечать на запросы (вплоть до выключения всех светодиодов). Также я, как правило, не смогу подключиться к ssh, когда это произойдет.

Я много занимался поиском, и Nvidia, кажется, главный подозреваемый, но я понятия не имею, с чего начать, чтобы выяснить, какова реальная причина.

Пользователь с ошибкой сервера предложил проверить оперативную память с помощью MemtextX86 +. Ошибок не найдено. Мониторинг температуры видеокарты также было предложено, что я сейчас и изучаю.

Кроме чем, предложения кого-нибудь?



Фон: длинная версия

Время от времени я могу провести целую неделю без сбоев, тогда у меня будет 5 из 2 дней.

Воодушевленный желанием устранить возможных подозреваемых, я со временем внес несколько изменений, но безрезультатно:

  • Первоначально я использовал KVM для виртуализации, теперь я использую VirtualBox OSE
  • У меня была NFS в ядре, но теперь я использую Samba
  • Я использовал Compiz, но с тех пор отключил это
  • Я перешел с 64-битного Karmic на 32-битный (и по другим причинам)
  • Я пробовал Ubuntu, Kubuntu и Xubuntu. Одна и та же проблема каждый раз (хотя в последнее время она чаще встречается в Gnome, чем в XFCE).
  • Я откатил драйвер Nvidia с версии 185 до версии 96 (модуль ядра NVIDIA Linux x86 96.43.13, чт 25 июня, 18:42:21 PDT 2009). Это, кажется , уменьшило частоту ошибок.


С точки зрения того, что работает в то время, это может варьироваться. Следующее является общим, но не обязательно работает для каждого сбоя:

  • Firefox 3.5
  • VirtualBox OSE с 1 или 2 виртуальными машинами Windows XP
  • Skype
  • Rhythmbox или Exaile


Моему оборудованию 2-3 года:

  • Core 2 Duo 6300
  • 4 ГБ ОЗУ
  • какая-то порода материнских плат Intel этого винтажа
  • видеокарта Asus с двумя головками на чипсете Nvdia GeForce 7300 GS
  • 2 х SATA HDD
  • двойные мониторы (следовательно, я полагаюсь на проприетарные драйверы nvidia)


Я был в курсе последних обновлений системы.

Надеемся, что приведенные выше данные могут побудить кого-то предложить определенный тип журнала или конфигурации, которые стоит изучить.


Обновление 1

только что произошел сбой, из-за которого динамики сошли с ума. Я немного погуглил, и кажется, что в прошлом у PulseAudio было несколько проблем. Пока не уверен, что это актуально, но PulseAudio будет работать каждый раз, когда у меня происходит сбой.


Обновление 2

Ссылка @ CarlF на Руководство Debian Sysadmin ведет меня к волшебному ключу sysrq, который я попробую при следующем сбое. Не то чтобы это дало мне много подсказок относительно причины, но, по крайней мере, я надеюсь, что смогу завершить работу изящно.


Обновление 3

Лм-сенсор сообщает, что мой GPU работает при температуре около 70C / 158F - интересно. Если бы мне пришлось угадывать, я бы сказал, что это важная подсказка.


Обновление 4

Ударил внутренности системы воздушной пылью вскоре после моего последнего обновления - чистый результат: только один сбой с тех пор. Я назову это тепловой проблемой.

ЖРД
источник
3
Отличное форматирование и справочная информация, хотелось бы, чтобы все вопросы были такими. +1.
Джон Т

Ответы:

8

Вот хороший совет из Руководства администратора Debian здесь: http://www.debian-administration.org/articles/492

CarlF
источник
Интересно посмотреть, что они говорят о неинформативных журналах, которые являются признаком реальных аппаратных проблем. У меня разрыв между последней записью / var / log / message и перезагрузкой 6 часов. Хммм.
LRE
Принято на том основании, что ссылка давала понять, что ничто в журналах не является аппаратной проблемой - ведите меня в правильном направлении.
LRE
4

Первое, что вы можете проверить, есть ли проблемы с оборудованием во время загрузки. Процесс загрузки запишет данные из кольцевого буфера ядра в /var/log/boot.log. После загрузки системы новые сообщения сбрасываются в этот буфер, и вы можете просмотреть его текущее состояние с помощью dmesgкоманды. Важный журнал, который вы также хотите исследовать, это /var/log/messages. Это будет содержать метки времени, средства и приоритеты ошибок и приложение, которое их сгенерировало. Наличие отметки времени является бесценным активом при отладке ошибок.

Случайные блокировки определенно связаны с аппаратным обеспечением. Попробуйте переустановить все оборудование на материнской плате и запустите memtest86 + .

Джон Т
источник
Я вижу строку в / var / log / messages, которая гласит: «imklog 4.2.0, источник журнала = / var / run / rsyslog / kmsg запущен». Это хороший показатель загрузки системы? Если так, я могу использовать это, чтобы точно определить область журнала, из которого я могу отсканировать.
LRE
Да, я считаю, что это одна из первых, если не первая строка после загрузки. Это модуль ввода журнала ядра.
Джон Т
2

Вы пытались переустановить свою память, процессор и другие чипы? Кроме того, вы можете попробовать запустить другую ОС (FreeDOS), чтобы исключить некоторые возможности.

В качестве подсказки, вы также можете использовать два монитора через Gnome без драйверов nvidia.

Nerdfest
источник
лучше всего я могу сказать, что мне определенно нужны драйверы nvidia для использования двух мониторов. Вы можете указать мне правильное направление, чтобы они мне не нужны?
LRE
Я могу быть не прав. Я немного покопался и вижу ссылки на xinerama (для которого, я думаю, драйвер имеет расширения), но ничего не относящееся к непатентованным driverws. К сожалению, у меня нет машины с картой nVidia для игры.
Nerdfest