Есть ли у вас какие-либо общие правила, к которым вы прибегаете при устранении неполадок в сложной сетевой / аппаратной / программной проблеме?
Например: «Я изолирую источник проблемы путем тестирования периферийного устройства со вторым компьютером» или «Я удаляю столько аппаратного обеспечения, сколько возможно, чтобы включить устройство, а затем добавляю компоненты по одному, пока не смогу воспроизвести проблему». , так далее.
troubleshooting
username
источник
источник
Ответы:
Просто список пунктов, которые я записал для себя после некоторой борьбы с проблемой:
Там также был большой список правил отладки, он был в форме PDF с примерами и пояснениями для каждого из правил. Я не мог быстро найти PDF, но я думаю, что это плакат списка:
источник
Если проблема связана с Интернетом, это, вероятно, DNS.
Если проблему трудно диагностировать, это, вероятно, ОЗУ.
Если проблема связана с рабочей станцией Windows, возможно, ее быстрее всего переизобразить.
Если проблема в пятницу, возможно, это что-то серьезное.
источник
Мне нравится возвращаться к научному методу .
От ( http://en.wikipedia.org/wiki/Scientific_method )
Как правило, я всегда стараюсь перепроверить мои основные предположения. Есть ли у него питание, подключено ли, хорошая ли проводка. Очень раздражает тратить часы на попытки взглянуть на проблему с программным обеспечением, когда у вас свободный кабель.
Я считаю очень важным на этапе создания гипотезы на самом деле придумать как можно больше возможных причин проблемы. Затем я пытаюсь выбрать идеи для тестирования в первую очередь, исходя из того, насколько легко это проверить, и насколько вероятна идея.
Также важно получить помощь. Проконсультируйтесь со своими коллегами, поставщиками или теми, кто лучше всех знает о рассматриваемых системах, если это возможно. Не тратьте много времени на раскручивание колес, если есть кто-то, кто может помочь вам решить проблему.
У О'Рейли есть хорошая книга « Инструменты для устранения неполадок с сетью», в которой есть хороший набор шагов, которые нужно выполнить, и это очень похоже на научный метод. Я нашел книгу очень полезной и настоятельно рекомендую ее. Книга углубляется в детали и предлагает множество полезных инструментов.
Из инструментов устранения неполадок сети
Смотрите также:
источник
(Эти основные моменты перефразированы из главы «Отладка» «Практики системного и сетевого администрирования» )
Две вещи, которые нужно знать:
Знайте, как выглядит «фиксированная» версия. Предпочтительно команда, которую вы можете запустить, которая дает определенный вывод, когда все работает. Например: я пытаюсь выяснить, почему SSH запрашивает пароль, когда я правильно настроил ключи (или я так думал). Итак, мой тест: «ssh servername uptime», и он должен работать без запроса пароля.
Опишите проблему на правильном уровне. Пользователь, жалующийся на то, что он не может пропинговать сервер, не должен отправлять вас на запуск и исправление сервера. Работа человека не в том, чтобы сидеть и пинговать машину целый день. Они хотят выполнить какую-то задачу, например, использовать машину в качестве своего DNS-сервера. Пример: однажды пользователь пожаловался, что не может пинговать машину на полпути по всему миру. Я провожу день, выслеживая сисадминов в этой части компании, чтобы выяснить, что не так с этой машиной. Это было списано, и они были в панике, потому что они думали, что, возможно, они выключили не ту машину. Я связался с пользователем и сказал: «Помимо необходимости пинговать эту машину, что бы вы хотели с ней делать?». Оказалось, что он хотел выполнить на нем определенную работу, и если бы он следовал правильной процедуре, его задачи были бы автоматически перенаправлены на заменяющую машину. Я потратил впустую весь свой день и время местных сисадминов. Еще одна причина, по которой «я не могу пропинговать», не подходит для тестирования: часто брандмауэры настроены для отбрасывания пакетов ping, но пропускают другие пакеты. Проверьте, что вы хотите пройти.
Две стратегии:
Добавка: продолжайте добавлять компоненты, пока проблема не начнется. Последнее, что вы добавили, это проблема. Пример: веб-браузеры не могут общаться с сервером. Между сервером и пользователем находится балансировщик нагрузки, брандмауэр, кэш и локальный веб-прокси пользователя. Сначала попробуйте отправить запросы непосредственно на сервер, затем через LB на сервер, затем через межсетевой экран на LB на сервер и т. Д. И т. Д. Каждый раз, добавляя один компонент.
Субтрактивный: продолжайте извлекать компоненты, пока проблема не исчезнет. Последнее, что вы удалили, была проблема: Пример: машина с десятками карт не загружается. Продолжайте извлекать карты, пока машина не загрузится.
Два кусочка тупой удачи:
Забудь все, что я сказал. Проблема вызвана последним изменением в системе. (это работает в 99% случаев ... проблема в том, что в 99% случаев вы не знаете, каким было последнее изменение)
Когда все остальное терпит неудачу, проверьте на глупые вещи. http://whatexit.org/tal/mywritings/dumb-things-to-check.html Пример: сумасшедшую проблему просто невозможно объяснить. Затем мы проверили файл конфигурации: пользователь отредактировал его, скопировав его в окно Windows, отредактировав его, а затем скопировав обратно. Теперь он имел ^ M в конце каждой строки. Мы никогда не замечали, потому что наш текстовый редактор молча скрывал этот факт. К сожалению, программное обеспечение, которое считывает файл конфигурации, превратило эти ^ Ms в пространство без перерыва, которое испортило тонны других процедур.
источник
Общие практики, которые я помню в течение всего процесса:
Во время устранения неполадок здесь определяется моя основная методология:
источник
Отношение я стараюсь придерживаться:
Это отношение, которое мне полезно удерживать - они мешают мне подбрасывать руки в воздух, объявлять что-то «странным» и затем сдаваться или становиться несчастными, потому что это кажется «неразрешимым».
Способы, которые я думаю об устранении неполадок:
Процесс устранения неполадок:
Интернет не работает? Проверьте проблему, найдите веб-сайт, на который они не могут попасть. Быстрые тесты вовлекают их интернет-соединение (работает), загружается ли оно для меня (нет). Быстрые тесты указывают на то, что это сайт. Видя, что проблема возникает для меня, я быстро отодвинул вероятность от их ПК, браузера, DNS, брандмауэра учетной записи пользователя и т. Д.
Так что сайт не загружается, что теперь? Это еще не решаемо, так что ищите места, чтобы разделить проблему на более мелкую. Сервер включен? Это пингует? DNS работает? Да. Служба отвечает на порт 80? Нет. Служба запущена? Нет, это начинается? Нет. Дает ли это ошибки в журнале событий / лог файлах? Да! Что они говорят?
Это эффективное и быстрое устранение неполадок, поскольку оно неуклонно сосредоточено на сужении области проблемы. Если бы я принял их сообщение о том, что интернет не работает, я бы ошибочно подумал, что это сбой соединения. Если бы я принял свое первое наблюдение, что оно не загружается для них, я бы потратил время на их компьютер, думая, что он виноват.
Вырежьте куски «вещей, которых не может быть» настолько большими, насколько это возможно.
Понять систему. Чем более общие знания о системе у меня есть, тем легче она становится. Там, где у меня слабое понимание, проблемы являются более пугающими, более сложными, более медленными, и с большей вероятностью заканчиваются обходным решением, чем исправлением, или большим тупым медленным исправлением (переустановкой), чем небольшим, точным хирургическим исправлением.
источник
Обычно я спрашиваю: «Что изменилось, что могло вызвать эту проблему»? Большинство проблем вызвано изменениями в известных исправных конфигурациях. Если вы можете определить, кто внес изменения, вы обычно получите ответ.
источник
Я думаю, что это навык, а не наука. Есть моменты, когда вы идете по неверному пути, но по большей части:
Однажды мой босс позвонил мне со «старшим» инженером по телефону - он говорил мне, что у него есть один сервер, который не может подключиться, и он пытался переключить кабель, но все равно не испытывал радости. Я мог слышать гудение на заднем плане, как ИБП на батарейках. Я спросил его, может ли он видеть активность на выключателе, он сказал нет. Я спросил его, идет ли звуковой сигнал от ИБП, он ответил да, я спросил его, может ли он видеть какие-либо огни в стойке, он сказал нет ... Посмотри за нос - это помогает!
источник
Я начинаю с проверки очевидного. Есть ли сообщение об ошибке, объясняющее, в чем проблема? Все ли правильно подключено? Я не люблю тратить несколько часов на устранение неполадок, которые могли бы быть решены за несколько минут. Я думаю, что возможно быть слишком методичным. Я видел, как люди тратили целый день, воспроизводя проблему, несмотря на то, что я сказал им точно, в чем проблема. Это не то, за что я им плачу.
Если ответ не очевиден, выведите несколько подозреваемых и сначала проверьте их. Только после проверки вероятных подозреваемых следует проверять маловероятных подозреваемых. Тогда вы можете быть настолько научным, насколько захотите.
источник