Скажем, у меня есть регрессия с несколькими переменными (несколько независимых переменных), которая состоит из 3 переменных. Каждая из этих переменных имеет заданный коэффициент. Если я решу ввести 4-ю переменную и повторно запустить регрессию, изменятся ли коэффициенты 3 исходных переменных?
В более широком смысле: в регрессии с несколькими переменными (множественными независимыми переменными) влияет ли коэффициент данной переменной на коэффициент другой переменной?
regression
multiple-regression
multivariable
Лукас Плева
источник
источник
multivariable
имеете в виду несколько независимых переменных («множественная регрессия») или несколько зависимых переменных («многомерная регрессия» или «MAN (C) OVA»)?Ответы:
Расчетный параметр в регрессионной модели ) изменитсяесли переменные,XJ, добавляются к моделикоторая является:β^i Xj
Расчетная бета-версия не изменится при добавлении новой переменной, если что-либо из вышеперечисленного не связано. Обратите внимание , что ли они некоррелированных в популяции (т.е. , или р ( X J , Yρ(Xi,Xj)=0 ) не имеет значения. Важно то, что обевыборочные корреляцииравны0. По сути, это никогда не будет иметь место на практике, если вы не работаете с экспериментальными данными, в которых переменными манипулировали так, что они не коррелированы по конструкции. ρ(Xj,Y)=0 0
Также обратите внимание, что величина изменения параметров может быть не очень значимой (это зависит, по крайней мере частично, от вашей теории). Кроме того, количество, которое они могут изменить, является функцией величин двух корреляций выше.
С другой стороны, не совсем правильно думать об этом явлении как о «коэффициенте данной переменной, на который влияет коэффициент другой переменной». Это не бета-версии , которые влияют друг на друга. Это явление является естественным результатом алгоритма, который статистическое программное обеспечение использует для оценки параметров наклона. Представьте себе ситуацию, когда вызван как X i, так и X j , которые, в свою очередь, связаны друг с другом. Если в модели присутствует только X i , то некоторые изменения Y , связанные с X j, будут ненадлежащим образом отнесены к X i.Y Xi Xj Xi Y Xj Xi , Это означает, что значение смещено; это называется опущенной переменной смещением . Xi
источник
Математически возможно, что коэффициенты не изменятся, но маловероятно, что с реальными данными вообще ничего не изменится, даже если все независимые переменные не зависят друг от друга. Но, когда это так, изменения (кроме перехвата) будут стремиться к 0:
Однако в реальном мире независимые переменные часто связаны друг с другом. В этом случае добавление 4-й переменной в уравнение изменит другие коэффициенты, иногда на много.
Тогда возможны взаимодействия .... но это другой вопрос.
источник
В общем, да, добавление переменной меняет более ранние коэффициенты, почти всегда.
Действительно, это, по сути, причина парадокса Симпсона , когда коэффициенты могут меняться, даже менять знак, из-за пропущенных ковариат.
Чтобы этого не произошло, нам нужно, чтобы новые переменные были ортогональны к предыдущим. Это часто случается в разработанных экспериментах, но очень маловероятно, чтобы это происходило в данных, где структура независимых переменных незапланирована.
источник