В каком порядке следует проводить линейную регрессионную диагностику?

24

В линейном регрессионном анализе мы анализируем выбросы, исследуем мультиколлинеарность, тестируем гетероскедастичность.

Вопрос в том, есть ли порядок их применения? Я имею в виду, нужно ли сначала анализировать выбросы, а затем изучать мультиколлинеарность? Или поменять?

Есть ли эмпирическое правило по этому поводу?

Халил
источник
2
Некоторые очень грубые эмпирические правила: вы должны изучить коллинеарность, прежде чем делать какие-либо подгонки. Если вы обнаружите, что он присутствует, вы должны (а) использовать метод, который обрабатывает коллинеарность, (б) удалить коллинеарные элементы или (в) преобразовать ваши функции (например, с помощью PCA). После того, как вы подобрали модель, вы можете искать гетероскедастичность в остатках. В общем, если вы создаете прогностическую модель, вы не должны удалять выбросы. Вместо этого используйте метод, который является устойчивым к наличию выбросов.
Крис Тейлор
1
Как лучше всего исследовать коллинеарность? Глядя на недиагональные элементы матрицы корреляции предикторов?
Миура
1
Лучший способ исследовать коллинеарность - это показатели состояния и объясненная ими доля дисперсии. Высокая корреляция не является ни необходимым, ни достаточным условием для коллинеарности.
Питер Флом - Восстановить Монику

Ответы:

28

Процесс итеративный, но существует естественный порядок:

  1. Вы должны сначала побеспокоиться об условиях, которые вызывают явные числовые ошибки . Мультиколлинеарность - одна из них, потому что она может создавать нестабильные системы уравнений, потенциально приводящие к прямым неправильным ответам (до 16 десятичных знаков ...). Любая проблема здесь обычно означает, что вы не можете продолжить, пока она не будет исправлена. Мультиколлинеарность обычно диагностируется с использованием дисперсионных коэффициентов инфляции и аналогичного анализа «шляпной матрицы». Дополнительные проверки на этом этапе могут включать оценку влияния любых пропущенных значений в наборе данных и проверку идентифицируемости важных параметров. (Пропущенные комбинации дискретных независимых переменных могут иногда вызывать проблемы.)

  2. Затем вам нужно поинтересоваться, отражает ли вывод большую часть данных или чувствителен к небольшому подмножеству. В последнем случае все остальное, что вы впоследствии делаете, может вводить в заблуждение, поэтому этого следует избегать. Процедуры включают проверку выбросов и рычагов . (Данные с высоким левереджем могут не быть выбросом, но даже в этом случае они могут чрезмерно влиять на все результаты.) Если существует надежная альтернатива процедуре регрессии, самое время применить ее: убедитесь, что она дает аналогичные результаты и используйте это, чтобы обнаружить отдаленные значения.

  3. Наконец, достигнув ситуации, которая является численно стабильной (так что вы можете доверять вычислениям) и которая отражает полный набор данных, вы переходите к рассмотрению статистических допущений, необходимых для правильной интерпретации выходных данных . Прежде всего, эти проблемы фокусируются - в грубом порядке важности - на распределении остатков (включая гетероскедастичность, но также на симметрии, форме распределения, возможной корреляции с прогнозируемыми значениями или другими переменными и автокорреляции), качестве соответствия (включая возможная потребность в терминах взаимодействия), следует ли повторно выражать зависимую переменную, и следует ли повторно выражать независимые переменные.

На любом этапе, если что-то нужно исправить, разумно вернуться к началу. Повторите столько раз, сколько необходимо.

Whuber
источник
2
Я на самом деле предпочитаю использовать индексы условий, а не VIF. Я сделал свою диссертацию по этому, некоторое время назад.
Питер Флом - Восстановить Монику
1
@ Питер Хороший вопрос. Я тоже предпочитаю индексы состояния, но мне кажется, что сейчас очень популярны VIF.
whuber
Я следовал здесь из вашего комментария ранее сегодня. Однажды во время постдока я проконсультировался со статистиком о некоторых проблемах, связанных с мультиколлинеарностью. Он высказал мнение, что в зависимости от природы ИВ в регрессии, коллинеарность можно считать структурно частью моделируемых явлений. Я, вероятно, искажаю его точный язык, и мне пришлось бы копать, чтобы даже найти его имя снова, но знаете ли вы какие-нибудь тексты, которые мотивировали бы нюансы рассуждений о мультиколлинеарности в этом направлении? Просто случайный спрос. :)
Алексис
@Alexis Похоже, у этого статистика есть тонкая и сложная концепция мультиколлинеарности. Я не могу придумать ни одного учебника, который бы четко выражал это.
whuber
Я просто должен выследить его и спросить его об этом. :)
Alexis
3

Я думаю, что это зависит от ситуации. Если вы не ожидаете каких-либо особых проблем, вы можете проверить их в любом порядке. Если вы ожидаете выбросы и у вас может быть причина удалить их после их обнаружения, то сначала проверьте наличие выбросов. Другие проблемы с моделью могут измениться после удаления наблюдений. После этого порядок между мультиолинейностью и гетероскедастичностью не имеет значения. Я согласен с Крисом, что выбросы не должны быть удалены произвольно. У вас должна быть причина думать, что наблюдения неверны.

Конечно, если вы наблюдаете мультиколлинеарность или гетероскедастичность, вам, возможно, придется изменить свой подход. Проблема мультиколлинеарности наблюдается в ковариационной матрице, но существуют специальные диагностические тесты для обнаружения мультиколлинеарности и другие проблемы, такие как точки воздействия, см. Книгу « Диагностика регрессии » Белсли, Куха и Уэлша или одну из регрессионных книг Денниса Кука .

Майкл Р. Черник
источник
9
Майкл, в будущем можешь использовать параметры форматирования? (правильный ключ для вставки ссылок - ctrl-l, а не ctrl-c).
user603