В линейном регрессионном анализе мы анализируем выбросы, исследуем мультиколлинеарность, тестируем гетероскедастичность.
Вопрос в том, есть ли порядок их применения? Я имею в виду, нужно ли сначала анализировать выбросы, а затем изучать мультиколлинеарность? Или поменять?
Есть ли эмпирическое правило по этому поводу?
Ответы:
Процесс итеративный, но существует естественный порядок:
Вы должны сначала побеспокоиться об условиях, которые вызывают явные числовые ошибки . Мультиколлинеарность - одна из них, потому что она может создавать нестабильные системы уравнений, потенциально приводящие к прямым неправильным ответам (до 16 десятичных знаков ...). Любая проблема здесь обычно означает, что вы не можете продолжить, пока она не будет исправлена. Мультиколлинеарность обычно диагностируется с использованием дисперсионных коэффициентов инфляции и аналогичного анализа «шляпной матрицы». Дополнительные проверки на этом этапе могут включать оценку влияния любых пропущенных значений в наборе данных и проверку идентифицируемости важных параметров. (Пропущенные комбинации дискретных независимых переменных могут иногда вызывать проблемы.)
Затем вам нужно поинтересоваться, отражает ли вывод большую часть данных или чувствителен к небольшому подмножеству. В последнем случае все остальное, что вы впоследствии делаете, может вводить в заблуждение, поэтому этого следует избегать. Процедуры включают проверку выбросов и рычагов . (Данные с высоким левереджем могут не быть выбросом, но даже в этом случае они могут чрезмерно влиять на все результаты.) Если существует надежная альтернатива процедуре регрессии, самое время применить ее: убедитесь, что она дает аналогичные результаты и используйте это, чтобы обнаружить отдаленные значения.
Наконец, достигнув ситуации, которая является численно стабильной (так что вы можете доверять вычислениям) и которая отражает полный набор данных, вы переходите к рассмотрению статистических допущений, необходимых для правильной интерпретации выходных данных . Прежде всего, эти проблемы фокусируются - в грубом порядке важности - на распределении остатков (включая гетероскедастичность, но также на симметрии, форме распределения, возможной корреляции с прогнозируемыми значениями или другими переменными и автокорреляции), качестве соответствия (включая возможная потребность в терминах взаимодействия), следует ли повторно выражать зависимую переменную, и следует ли повторно выражать независимые переменные.
На любом этапе, если что-то нужно исправить, разумно вернуться к началу. Повторите столько раз, сколько необходимо.
источник
Я думаю, что это зависит от ситуации. Если вы не ожидаете каких-либо особых проблем, вы можете проверить их в любом порядке. Если вы ожидаете выбросы и у вас может быть причина удалить их после их обнаружения, то сначала проверьте наличие выбросов. Другие проблемы с моделью могут измениться после удаления наблюдений. После этого порядок между мультиолинейностью и гетероскедастичностью не имеет значения. Я согласен с Крисом, что выбросы не должны быть удалены произвольно. У вас должна быть причина думать, что наблюдения неверны.
Конечно, если вы наблюдаете мультиколлинеарность или гетероскедастичность, вам, возможно, придется изменить свой подход. Проблема мультиколлинеарности наблюдается в ковариационной матрице, но существуют специальные диагностические тесты для обнаружения мультиколлинеарности и другие проблемы, такие как точки воздействия, см. Книгу « Диагностика регрессии » Белсли, Куха и Уэлша или одну из регрессионных книг Денниса Кука .
источник