Выполнение анализа первопричин

9

Я хочу узнать больше о том, как выполнить анализ первопричин. Более того, наш отдел советует пользователю попытаться перезагрузить компьютер (система Windows XP), что на самом деле «исправляет» множество проблем. Когда я спешу (а иногда мне платят почасово, это может помочь), я могу попытаться найти обходной путь, чтобы быстро решить проблему, вместо того, чтобы фактически выполнить анализ первопричин.

Большую часть времени я ищу эту информацию в файлах журнала или в программе просмотра событий. Иногда я использую инструменты Sysinternals или иногда запускаю анализатор пакетов. Я, вероятно, не использую программы Sysinternals так часто, как следовало бы. Некоторое конкретное понимание того, как вы используете, какие инструменты, когда и почему также будет полезно.

Я знаю, что это широко открытый вопрос, но не могли бы вы кратко объяснить свою методологию, инструменты и т. Д., Которые вы используете? Похоже, что многие администраторы SF используют более глубокий процесс, о котором я хотел бы узнать больше. Если это поможет сузить вопрос, меня больше всего интересуют инструменты, советы, рекомендации и т. Д., Относящиеся к серверам и клиентам Windows в среде AD.

оборота Джутуга
источник

Ответы:

5

Выяснение первопричины проблемы зависит от проблемы. Ваш первоначальный инстинкт просмотра файлов журнала / инструментов sysinternals / анализаторов пакетов в целом верен.
Я бы добавил запуск средства удаления вредоносных программ MS и хорошую программу AV в системах Windows (и гарантию того, что у них нет чего-то вроде CyberDefender или других вредоносных программ AV-trojan.

Ребята из Stack Exchange являются сторонниками метода «5 Whys» ( http://en.wikipedia.org/wiki/5_Whys , также этот замечательный короткий PDF-файл, который показывает его в действии ). Это очень ценный инструмент для анализа первопричин.


Помимо этого я нарисую две широкие категории и некоторые вопросы, которые я обычно задаю / вещи, которые я проверяю:

Таинственное поведение, не связанное с сетью,
например, «Word постоянно падает на меня»

Основные вопросы, которые нужно задать:

  1. Что изменилось?
    (Не принимайте «ничего» за ответ - это первая ложь. Новое программное обеспечение, патчи и т. Д. Все считаются.)
  2. Что ты делал, когда у тебя была проблема?
    (Попробуйте извлечь как можно больше деталей - в моем примере выше «Я нажал горячую клавишу для вставки инициалов, и программа упала»)
  3. Работало ли это раньше?
    (Если так, начните смотреть на материал из (1) выше)
  4. Можете ли вы воспроизвести проблему в вашей системе?
    (Если это так, то это хороший знак: может помочь звонок в службу поддержки поставщика. Если нет, то вам нужно будет посмотреть на систему пользователя для ответов на остальные вопросы.)
  5. Что отличается от среды пользователя от вашей среды?
  6. Подозревает ли пользователь аппаратное обеспечение (запустите проверку памяти, найдите ошибки SMART на жестком диске и т. Д.)
  7. Если вы зашли так далеко (проверка оборудования, проверка программного обеспечения, отсутствие вирусов и вредоносных программ), посетите пользователя на один день. Соблюдайте их рабочие привычки.
    Однажды в моей компании была загадочная блокировка системы, связанная с щелчком мыши с определенной частотой (мы до сих пор не знаем, почему, но нам пришлось наблюдать за тем, как пользователь делает это, и практиковаться в течение дня, чтобы иметь возможность воспроизводить это надежно)

Проблемы, связанные с сетью

Многое из этого похоже, но с некоторыми более конкретными рекомендациями.

  1. Что изменилось?
    (Да, вы всегда начинаете там)
  2. Что сломано?
    • Можете ли вы добраться до веб-страниц? Это просто тот, который не работает? Если да, то это для всех или только для тебя ?
    • Можете ли вы пинговать вещи в Интернете по имени?
      Как насчет IP? Как далеко уходит трассировка?
  3. Когда это сломано?
    • Всегда одно и то же время дня?
    • В течение короткого периода каждые N дней?
    • Случайно ( действительно ли это случайно? Нарисуйте это в календаре ...)
  4. Есть ли что-то странное в удаленном сайте?
    • Посмотрите на DNS - если он циклический, может произойти поломка на удаленной стороне
    • Мы говорим о другом конце VPN? Что случилось с VPN (логи!)?
  5. Есть ли что-то странное в местном сайте?
    • Проверьте ваш локальный брандмауэр
    • Проверьте любое «программное обеспечение для фильтрации»
  6. Узнайте у своего интернет-провайдера, есть ли какие-либо известные проблемы.
  7. Проверьте сайты, такие как http://www.internetpulse.net/, на наличие известных проблем в сети.
  8. Проверьте машину пользователя
    (настройки TCP и т. Д. - обычно не проблема, но иногда.)
voretaq7
источник
1

В дополнение к отличным ответам, я бы добавил:

  • Определите дату / время начала проблемы. Это может показаться очевидным, но я видел слишком много проблем, когда это не было задокументировано, а позже были сделаны неверные предположения. Это хорошо коррелирует с шагом «что изменилось».

  • Является ли проблема воспроизводимой или периодической? Это очень важно, поскольку воспроизводимые симптомы гораздо легче и быстрее устранить, чем прерывающиеся. Если это воспроизводимо, убедитесь, что шаги задокументированы.

  • Определите симптом (ы). Обратите внимание, что мы различаем «симптом», который является проявлением первопричины, и фактическую проблему / первопричину.

    1. Есть ли другие действия, которые могут воспроизвести этот симптом?
    2. Какие еще симптомы есть?
    3. Если проблема носит временный характер, можем ли мы определить деятельность, которая приведет к ее возникновению?
    4. При каких обстоятельствах мы можем предотвратить возникновение симптома? Проблема возникает только при входе в систему с использованием сетевой учетной записи, но работает нормально, если вход в систему локально? Возникает ли проблема при входе в систему как обычного пользователя, но работает ли он нормально при входе в систему с повышенными привилегиями? Это происходит только в одной системе, но в другой системе, которая должна быть похожей, не проявлять симптом?
  • Локализуйте проблему в вероятном неисправном функциональном компоненте. Если в веб-приложении есть ошибка, это код приложения, веб-сервер, операционная система, на которой размещен веб-сервер, сеть или удаленный конец? На данный момент это наиболее вероятно, так что ресурсы сосредоточены на вероятной причине, поэтому убедитесь, что другие знают, что это теория / гипотеза.

  • Поставьте под сомнение свои предположения и попытайтесь собрать эмпирические данные, чтобы подтвердить предположения и выводы. Довольно неприятно говорить кому-то, что с x нет проблем, и позже выясняется, что это действительно так. Обычно, когда существует неправильное решение, это могут быть данные для поддержки правильного решения.

Грег Аскью
источник