Как устранить неполадки, когда я понятия не имею, с чего начать?

40

Я ищу советы, советы и ответы о том, как начать устранение неполадок, когда:

  1. Проблема прерывистая
  2. Проблема может лежать буквально где угодно - операционная система; бесплатное исходное программное обеспечение; мои собственные разработки программного обеспечения; купленное программное обеспечение; крошки на клавиатуре; конкретная комбинация программного обеспечения, которое я сейчас использую; Максвелл демон; маленькие голубые человечки, фактически управляющие машиной, объявили забастовку; и т.п.
  3. У меня есть опыт только в некоторых из областей, которые являются потенциальными кандидатами на причину проблемы.

Конкретная проблема, с которой я сталкиваюсь, подробно описана ниже в качестве примера, но я не ищу ответы на мою текущую проблему, а скорее где и как начать решать такие проблемы.

В настоящее время я столкнулся с проблемой с моей новой машиной. В нескольких случаях машина только что замерзла; не принимать нажатия клавиш, щелчки мышью или что-либо, кроме выключателя питания. Неизменно я просто просматривал Интернет; У меня было запущено несколько (<= 6 других приложений). Ни одно из этих приложений не является основным; и представляют собой набор коммерческих программ и программ с открытым исходным кодом, обычно перенесенных из Unix некоторого разнообразия.

Моя машина - четырехъядерный ноутбук с операционной системой Windows 7 I7.

РЕДАКТИРОВАТЬ:

Хотя я и заявил, что фактическое описание проблемы было только примером, некоторые комментарии концентрируются на решении этой проблемы. К сожалению, поскольку это был только пример, приведенная информация верна, но не полна. Чтобы люди не тратили свое время на попытки удаленно помочь в решении реальной проблемы, я даю некоторую другую информацию о моих настройках. Как я уже говорил, я не ищу ответов на эту конкретную проблему.

Моя машина - мощный ноутбук; моя главная машина; используется для разработки и технического письма, коммуникации - электронной почты, Интернета, FTP и т. д., а также для редактирования и индексации фотографий. На нем, по крайней мере, ежемесячно запускается строгий и обширный набор программ для тестирования аппаратного обеспечения, включая тесты ЦП, множественные тесты памяти и тесты всех других компонентов. Также, по крайней мере, ежемесячно проводят полную проверку на вирусы; полное сканирование шпионских программ; очистка диска; и дефрагментация диска.

Диск содержит примерно 3 * 10 ^ 6 файлов; Использование диска составляет 300 ГБ, оставляя 150 ГБ бесплатно. Память 8 Гб. Хотя машина может немного нагреваться, когда я использую полный набор основных инструментов разработки, я столкнулся с проблемой только при очень легком использовании машины - просмотр веб-страниц, Textpad, Graphviz, база данных Firebird и облегченный браузер базы данных (Flame Robin. ). В этих условиях даже вентилятор не слегка греет. Я не вносил изменений в программное обеспечение, операционную систему или аппаратное обеспечение в течение периода, когда я столкнулся с проблемой. Произошло несколько автоматических обновлений - в основном Microsoft, Adobe и Lenovo, но не исключительно.

Этот фон помещает в контекст (я надеюсь) мои причины для того, чтобы задать этот вопрос так, как я это сделал. Теперь я собираюсь начать изучение различных журналов, упомянутых в ответах, в качестве первого шага в попытке сузить область исследования. И я собираюсь попробовать выполнить одну из характеристик, предложенных в ответах, которые я получил до сих пор - терпение - в моем исследовании.

Крис Уолтон
источник
6
+1 Потому что этот вопрос может быть полезен для меня в будущем.
Тамара Вийсман
2
Иногда, прежде чем приступить к полному, методическому подходу к решению проблем, вы должны попытаться найти общий низко висящий фрукт: запустите полное сканирование шпионского ПО, найдите в журнале Windows неожиданные завершения работы и посмотрите, какие (если они есть) проблемы предшествовали этому, проверьте ситуация с дисковым пространством, запустить проверку диска, дать автозапуску Sysinternal быстрое сканирование на наличие незнакомого / подозрительного программного обеспечения. Имейте простой набор инструментов для запуска, который может быстро идентифицировать большое разнообразие аппаратных и программных проблем. Если они ничего не находят, вы потратили немного времени и можете начать более тщательный процесс.
Ален
1
Кроме того, следуйте блогу Марка за примерами того, как раздражающие проблемы устраняются с помощью Sysinternals.
Тамара Вийсман
1
Удачи в устранении неполадок, я бы предложил создать новый вопрос, если вы хотите получить больше отзывов, чтобы все было организовано ...
Тамара Вийсман

Ответы:

42

Получите лучшую идею.

Вы не выиграете битву без достаточной полевой информации.

  1. Опишите свою проблему подробно, чтобы у вас было хорошее представление о ней, которая знает, что это случается однажды.

  2. Отслеживайте во времени то, что случилось раньше, и вместе с проблемой, и вас, и вашего компьютера.

  3. Подумайте о возможных причинах, потому что иногда это может быть чем-то неочевидным.

  4. Получайте больше информации, когда у вас нет представления о том, что происходит, это может варьироваться от событий , инструментов SysInternals , анализа производительности , отладки до любого другого инструмента в вашем опыте .

  5. Проверьте свои предположения, чтобы убедиться, что ваши мысли не устраняют причину.

Разделяй и властвуй.

Потому что именно так военные побеждают своих противников, даже когда они в меньшинстве.

Устраните возможные причины, иначе у вас возникнут проблемы с отслеживанием проблемы. Таким образом, вы будете становиться все ближе и ближе к основной причине проблемы, это позволит вам решить проблему намного проще.

Например, с оборудованием отключите и удалите все, что вам не нужно для решения вашей проблемы. Таким образом, вы можете отключить компонент, вызывающий проблему. И затем снова нужно вставить половину компонентов, проверить, повторяется ли он, и повторить разбиение, пока у вас не будет плохого компонента ...

Тестирование чего-либо на другом компьютере, если оно доступно, также является хорошим преимуществом для решения проблемы.

Например, с программным обеспечением , перезагрузка в безопасном режиме, отключение записей запуска также помогает. Это также относится к включению / отключению настроек, попытке настройки по умолчанию и так далее ...

Давайте проверим это.

В настоящее время я столкнулся с проблемой с моей новой машиной. В нескольких случаях машина только что замерзла; не принимать нажатия клавиш, щелчки мышью или что-либо, кроме выключателя питания. Неизменно я просто просматривал Интернет; У меня было запущено несколько (<= 6 других приложений). Ни одно из этих приложений не является основным; и представляют собой набор коммерческих программ и программ с открытым исходным кодом, обычно перенесенных из Unix некоторого разнообразия.

  1. Это правильное описание само по себе, это не просто случается один раз .

  2. Вы знаете, что произошло вместе с проблемой,
    но не думали о том, что вы или ваш компьютер сделали до проблемы .

    Я не могу этого сказать, но вы, ваш журнал событий и недавно измененные файлы / папки могли сказать.

  3. Возможная причина, скорее всего, связана с процессором , потому что это компонент, который обрабатывает вещи.

    Более конкретно, это может быть процесс, драйвер или неисправное оборудование (возможно, проблемы с температурой?).

  4. Я знаю, что это процессор, но не знаю что. События не показывают этого, Process Explorer зависает на DPC .

    Итак, следующий шаг - запустить анализ трассировки, который я закрываю после того, как зависание произошло.

    Я смотрю в след, и я вижу, что драйвер X вызывает проблему !

  5. Никаких реальных предположений не делается. Предположение ЦП обрабатывается нашим подходом «разделяй и властвуй» ...

Итак, вот где я начинаю делиться, чтобы победить проблему, я останавливаюсь, как только решу:

  1. Проблема с текущей версией драйвера?
    Обновите драйвер до последней версии.

  2. Проблема с новейшими версиями драйвера?
    Получите новый след. Обновите драйвер до более старой версии, отличной от первоначальной.

  3. Проблема с устройством? Проблема с настройкой в ​​реестре?
    Получите новый след. Переустановите и / или отключите устройство, если это возможно.

  4. Проблема случайная, процессор нагревается?
    Проверьте температуру процессора, при необходимости замените вентилятор.

  5. Проблема не в процессоре, есть ли другие аппаратные и программные влияния?
    Удалите аппаратное обеспечение и отключите программное обеспечение от запуска, чтобы усилить влияние третьих лиц.

  6. Проблема не в съемной части, ее следует заменить.
    В худшем случае, если ничего не помогает, вам нужно пойти на замену.

Получение новых следов и удаление оборудования дает нам больше информации, поэтому мы знаем, где искать дальше.

Тамара Вийсман
источник
4
+1 для разделяй и властвуй. Принято для спецификации описания, отслеживания и механизмов для разделения и преодоления проблемы.
Крис Уолтон
5
+1 Блестящий ответ. Единственное, что нужно добавить, это: проверить свои предположения
Беван
как насчет "изменить одну вещь за один раз"?
Флоренц Клей
2
@Florenz: Ну, разделяя, вы либо берете их один за другим (для небольшого числа, или когда вы не можете основываться на нескольких причинах), либо вы разделяете их (для большего числа, когда вы можете проверить несколько вещей в Если разделить пополам, по возможности, быстрее, чем делать их один за другим. Например, для устранения 100 проблем вам нужно всего лишь 8 раз протестировать его (100-> 50-> 25-> 13-> 7-> 4-> 2-> 1) вместо 100 раз ...
Тамара Вийсман
2
разумное разделение! Я хотел сказать, что «не исправляйте вещи быстрее, чем вы можете приписать изменение наблюдаемой дельте». Использование лабораторной книги со страницами, которые я не могу вырвать, - это мой способ убедиться, что я могу это сделать.
Флоренц Клей
6

Хорошие логи и интуиция - правда.

  • С первого дня отслеживайте все, что вы делаете с системой: обновления приложений и ОС, новые установки, новое или удаленное оборудование или подключения, гроза, которая "не вызывала проблем".
  • Когда вы впервые заметили проблему:
    • Что ты делал?
    • Что еще необычного произошло недавно?
    • Что вы сделали по-другому в последнее время?
    • С этого момента будьте внимательны к тому, что вы делаете, и в следующий раз, когда это произойдет, вы лучше разберетесь с тем, что только что произошло.
    • Снимок системных журналов.
  • Посмотри, сможешь ли ты воспроизвести это. Пока вы не сможете воспроизвести его, вы не сможете его найти.
  • Начните разбивать систему на разделы: безопасный режим против работающей в реальном времени, новая учетная запись против обычной учетной записи, клавиатура и мышь, отличные от обычных (особенно Bluetooth и проводная сеть), это произойдет в течение нескольких минут после запуска или пробуждения или только через час больше бега (думаю, тепловой).
JRobert
источник
2
+1 за регистрацию активности; и для интуиции. Не принятый ответ только потому, что регистрация полезна только в том случае, если она ведется с первого дня. Я веду журналы, но недостаточно подробно; и не включали системные обновления от Microsoft и другие автоматические обновления.
Крис Уолтон
1
@ChrisWalton: есть подробные журналы для Центра обновления Windows, вставки / удаления устройств, установки драйверов и так далее. См C:\Windows\*.log, C:\Windows\Logs, C:\Windows\inf\*.logа также Performance Monitor > Data Collector Sets > (Startup) Event Trace Sessions. Кроме того, @JRobert, +1 за объяснение того, как получить идею более подробно ...
Тамара Вийсман
4

Я обычно начинаю с журналов событий и любых журналов, которые программа может создать самостоятельно. Программы иногда создают журнал в папке программ.

Как только вы сможете определить время, ищите в журналах события. Естественно, в журналах Windows могут быть ошибки Stop, которые будет легко идентифицировать.

Проверьте все драйверы и убедитесь, что они текущие.

Терпение также потребуется в больших дозах.

Дейв М
источник
2

В дополнение ко всем хорошим советам, которые уже были даны, если файлы журналов не дают много работы, часто стоит провести надлежащий тест памяти машины - неисправная память может вызывать всевозможные странные периодические зависания и сбои. Тест встроенной памяти намного больше похож на подсчет памяти, крайне редко тестирование при включении питания обнаруживает сбой памяти.

Google для диагностики памяти Windows и запишите его на компакт-диск. Он старый, но это один из лучших тестов памяти и бесплатный.

Matt
источник
спасибо за ваш ответ и предложенный инструмент. Боюсь, вы скорее упустили смысл моего вопроса - вы предлагаете провести тестирование памяти; кто-то еще предложил автоматические загрузки программного обеспечения Adobe. Мой вопрос был; в этих условиях, как вы решаете, что делать, когда существует огромный спектр возможностей.
Крис Уолтон
1
@ Крис: Как я уже сказал; при устранении неисправностей, возникающих периодически и необъяснимо (в ситуации, когда нет развития событий), если нет журнала, с которого нужно начинать, и других маркеров, указывающих, с чего начать, я бы запустил тест памяти. Логика в том, что это относительно быстро запустить по сравнению с попыткой повторить прерывистую проблему. После исключения вы начинаете сужаться и получаете идею, как выразился TomWij.
Мэтт
справедливо.
Крис Уолтон