Почему при множественной линейной регрессии возможно иметь очень значительную F-статистику (p <.001), но иметь очень высокие p-значения во всех t-тестах регрессора?
В моей модели 10 регрессоров. Один имеет значение р 0,1, а остальные выше 0,9
Для решения этой проблемы см. Следующий вопрос .
Ответы:
Как упоминает Роб, это происходит, когда у вас есть сильно коррелированные переменные. Стандартный пример, который я использую, - это прогнозирование веса по размеру обуви. Вы можете предсказать вес одинаково хорошо с правым или левым размером обуви. Но вместе это не сработает.
Краткий пример симуляции
источник
Требуется очень небольшая корреляция между независимыми переменными, чтобы вызвать это.
Чтобы понять почему, попробуйте следующее:
Нарисуйте 50 наборов из десяти векторов с коэффициентами в стандартной нормали.(x1,x2,…,x10)
Вычислить для . Это делает индивидуально нормальным, но с некоторыми корреляциями между ними.yi=(xi+xi+1)/2–√ i=1,2,…,9 yi
Вычислить . Обратите внимание, что .w=x1+x2+⋯+x10 w=2–√(y1+y3+y5+y7+y9)
Добавьте некоторую независимую нормально распределенную ошибку в . Немного поэкспериментировав, я обнаружил, что с работает довольно хорошо. Таким образом, является суммой плюс некоторая ошибка. Кроме того , сумма некоторых в плюс та же ошибка.z = w + ε ε ∼ N ( 0 , 6 ) z x i y iw z=w+ε ε∼N(0,6) z xi yi
Мы будем считать независимыми переменными, а зависимой переменной. zyi z
Вот матрица диаграммы рассеяния одного такого набора данных с вдоль верха и слева и в порядке.y яz yi
Ожидаемые корреляции между и являются при и в противном случае. Реализованные корреляции колеблются до 62%. Они появляются как более узкие диаграммы рассеяния рядом с диагональю.у J +1 / 2 | я - J | = 1 0yi yj 1/2 |i−j|=1 0
Посмотрите на регрессию против :y яz yi
F-статистика очень значительна, но ни одна из независимых переменных не имеет значения, даже без какой-либо корректировки для всех 9 из них.
Чтобы увидеть, что происходит, рассмотрим регрессию против нечетного :y яz yi
Некоторые из этих переменных очень важны, даже с поправкой Бонферрони. (Гораздо больше можно сказать, посмотрев на эти результаты, но это отвлечет нас от основного момента.)
Из этого можно сделать один вывод : если в модель включено слишком много переменных, они могут маскировать действительно значимые переменные. Первым признаком этого является очень значимая общая F-статистика, сопровождаемая не столь значимыми t-тестами для отдельных коэффициентов. (Даже если некоторые из переменных являются индивидуально значимыми, это не означает автоматически, что другие не являются. Это один из основных недостатков стратегий поэтапной регрессии: они становятся жертвами этой проблемы маскирования.) Кстати, факторы инфляции дисперсиив первом диапазоне регрессии от 2,55 до 6,09 со средним значением 4,79: просто на границе диагностики некоторой мультиколлинеарности в соответствии с наиболее консервативными эмпирическими правилами; значительно ниже порога в соответствии с другими правилами (где 10 - верхний предел).
источник
Мультиколлинеарность
Несколько почти значимых предикторов
источник
Это происходит, когда предикторы сильно коррелированы. Представьте себе ситуацию, когда есть только два предиктора с очень высокой корреляцией. По отдельности они оба также тесно связаны с переменной ответа. Следовательно, F-критерий имеет низкое значение p (это говорит о том, что предикторы вместе очень важны для объяснения вариации в ответной переменной). Но t-критерий для каждого предиктора имеет высокое значение p, потому что после учета влияния другого предиктора мало что можно объяснить.
источник
Вы сказали, что понимаете вопрос о корреляции переменных и о том, что регрессия незначительно лучше; это, вероятно, означает, что вы были обусловлены частым упоминанием мультиколлинеарности, но вам необходимо улучшить понимание геометрии наименьших квадратов.
источник
Ключевым словом для поиска будет «коллинеарность» или «мультиколлинеарность». Это можно обнаружить с помощью диагностики, такой как дисперсионные коэффициенты инфляции (VIFs), или методами, описанными в учебнике «Диагностика регрессии: выявление влиятельных данных и источников коллинеарности» Белсли, Куха и Уэлша. VIF гораздо проще понять, но они не могут справиться с коллинеарностью, включающей перехват (т. Е. Предикторы, которые почти постоянны сами по себе или в линейной комбинации) - наоборот, диагностика BKW гораздо менее интуитивна, но может иметь дело с коллинеарностью, включающей перехват.
источник
Ответ, который вы получите, зависит от вопроса, который вы задаете. В дополнение к уже сделанным пунктам, отдельные значения F параметров и общие значения F модели отвечают на разные вопросы, поэтому они получают разные ответы. Я видел, как это происходит, даже когда отдельные значения F не настолько близки к значимым, особенно если в модели более 2 или 3 IV. Я не знаю ни одного способа объединить отдельные p-значения и получить что-то осмысленное, хотя, возможно, есть способ.
источник
Еще одна вещь, которую нужно иметь в виду, состоит в том, что каждый из тестов на отдельные коэффициенты предполагает, что все остальные предикторы находятся в модели. Другими словами, каждый предиктор не имеет значения, пока все остальные предикторы находятся в модели. Должно быть какое-то взаимодействие или взаимозависимость между двумя или более вашими предикторами.
Как кто-то еще спросил выше - как вы диагностировали отсутствие мультиколлинеарности?
источник
Один из способов понять это - геометрия наименьших квадратов, как предлагает @StasK.
Другое - осознать, что это означает, что X относится к Y при управлении другими переменными, но не в одиночку. Вы говорите, что X относится к уникальной дисперсии в Y. Это правильно. Однако уникальная дисперсия Y отличается от общей дисперсии. Итак, какую дисперсию удаляют другие переменные?
Было бы полезно, если бы вы могли сообщить нам свои переменные.
источник