Я узнал в классе линейных моделей, что если два предиктора коррелированы и оба включены в модель, один из них будет незначительным. Например, предположим, что размер дома и количество спален взаимосвязаны. При прогнозировании стоимости дома с использованием этих двух предикторов один из них может быть отброшен, поскольку они предоставляют много одинаковой информации. Интуитивно понятно, что это имеет смысл, но у меня есть еще несколько технических вопросов:
- Как этот эффект проявляется в p-значениях коэффициентов регрессии, когда в модель включен только один или оба предиктора?
- Как на дисперсию коэффициентов регрессии влияют включение обоих предикторов в модель или их наличие?
- Как узнать, какой предиктор модель выберет, чтобы быть менее значимым?
- Как включение только одного или обоих предикторов изменяет значение / дисперсию моей прогнозируемой стоимости?
regression
multiple-regression
p-value
linear-model
multicollinearity
Вивек Субраманян
источник
источник
Ответы:
Тема, о которой вы спрашиваете - мультиколлинеарность . Возможно, вы захотите прочитать некоторые темы в CV, классифицированные под тегом multicollinearity . Ответ @ whuber, указанный выше, в частности, также стоит вашего времени.
Утверждение о том, что «если два предиктора коррелированы и оба включены в модель, один будет незначительным», неверно. Если существует реальный эффект переменной, вероятность того, что переменная будет существенной, является функцией нескольких вещей, таких как величина эффекта, величина дисперсии ошибки, дисперсия самой переменной, объем данных у вас есть и количество других переменных в модели. То, являются ли переменные коррелированными, также важно, но это не отменяет эти факты. Рассмотрим следующую простую демонстрацию в
R
:Размышления о том, что произойдет, если вы включите обе коррелированные переменные в сравнении только с одной, похожи, но немного сложнее, чем подход, рассмотренный выше. Это связано с тем, что отсутствие переменной означает, что модель использует меньше степеней свободы, что приводит к изменению остаточной дисперсии и всего, что из этого вычисляется (включая дисперсию коэффициентов регрессии). Кроме того, если не включенная переменная действительно связана с ответом, дисперсия в ответе из-за этой переменной будет включена в остаточную дисперсию, делая ее больше, чем она была бы в противном случае. Таким образом, несколько вещей изменяются одновременно (переменная коррелирует или нет с другой переменной и остаточной дисперсией), и точный эффект отбрасывания / включения другой переменной будет зависеть от того, как эти компромиссы компенсируются.
Вооруженные пониманием VIF, вот ответы на ваши вопросы:
источник
Это скорее комментарий, но я хотел включить граф и немного кода.
Я думаю, что утверждение «если два предиктора коррелированы и оба включены в модель, один из них будет незначительным» неверно, если вы имеете в виду «только один». Двоичная статистическая значимость не может быть использована для выбора переменных.
Вот мой контрпример с использованием регрессии процентного содержания телесного жира на окружности бедра, толщине кожных складок * и окружности средней руки:
Как видно из таблицы регрессии, все незначительно, хотя значения p немного различаются.
Итак, как мы узнаем, какие предикторы будут менее значимыми? Изменение в регрессоре можно классифицировать на два типа:
* Кожная складка - это ширина складки кожи, взятой над мышцей трицепса и измеренная с помощью штангенциркуля.
источник
Как заметил @whuber, это сложный вопрос. Тем не менее, первое предложение вашего поста является огромным упрощением. Часто бывает, что две (или более) переменные будут коррелированы и обе связаны с зависимой переменной. Важны они или нет, зависит как от размера эффекта, так и от размера клеток.
В вашем примере предположим, что для дома определенного размера люди предпочитают меньше комнат (по крайней мере, в Нью-Йорке это не является необоснованным - это будет указывать на более старые здания, более прочные стены и т. Д. И может быть маркером соседства). Тогда оба могут быть значительными, в противоположных направлениях!
Или, предположим, что двумя переменными были размер дома и соседство - они будут коррелировать, конечно же, более крупные дома в лучших кварталах - но они все равно могут быть значительными и, несомненно, оба будут связаны с ценой дома.
Также используются только «коррелированные» маскировки сложностей. Переменные могут быть сильно связаны без корреляции.
источник