У меня есть вопрос об опущенном переменном смещении в логистической и линейной регрессии.
Скажем, я опускаю некоторые переменные из модели линейной регрессии. Сделайте вид, что эти пропущенные переменные не связаны с переменными, которые я включил в мою модель. Эти пропущенные переменные не смещают коэффициенты в моей модели.
Но в логистической регрессии я только что узнал, что это не так. Пропущенные переменные будут смещать коэффициенты включенных переменных, даже если пропущенные переменные не связаны с включенными переменными. Я нашел статью на эту тему, но я не могу сделать из этого ни головы, ни хвоста.
Вот бумага и несколько слайдов PowerPoint.
Смещение, по-видимому, всегда к нулю. Кто-нибудь может объяснить, как это работает?
regression
logistic
least-squares
bias
ConfusedEconometricsUndergrad
источник
источник
Ответы:
Случай «смещения ослабления» может быть более четко представлен, если мы рассмотрим «пробитную» модель, но результат переносится и на логистическую регрессию.
Под моделями условной вероятности (модели логистики (логит), «пробит» и «линейная вероятность») мы можем постулировать модель скрытой (ненаблюдаемой) линейной регрессии:
где - непрерывная ненаблюдаемая переменная (а - матрица регрессора). Предполагается, что погрешность не зависит от регрессоров и соответствует распределению, плотность которого симметрична относительно нуля , и в нашем случае стандартное нормальное распределение . X F U ( u ) = Φ ( u )Y* Икс FU( и ) = Ф ( и )
Мы предполагаем, что то, что мы наблюдаем, то есть двоичная переменная , является функцией-индикатором ненаблюдаемой :y ∗Y Y*
Затем мы спрашиваем "какова вероятность того, что примет значение учетом регрессоров?" (т.е. мы смотрим на условную вероятность). Это1Y 1
последнее равенство обусловлено «отражающим» свойством стандартной кумулятивной функции распределения, которая исходит из симметрии функции плотности около нуля. Обратите внимание, что, хотя мы и предположили, что не зависит от , необходимо кондиционирование на , чтобы рассматривать величину как неслучайную.X X X βu X X Xβ
Если предположить, что , то мы получим теоретическую модельXβ=b0+b1X1+b2X2
Пусть теперь не зависит от и ошибочно исключен из спецификации базовой регрессии. Итак, мы указываемX 1X2 X1
из-за замыкания при сложении нормального распределения (и предположения о независимости). Применяя ту же логику, что и раньше, здесь мы имеем
Стандартизация переменной мы имеемϵ
и можно сравнить модели и .(1) (2)
Приведенное выше теоретическое выражение говорит нам, где собирается сходиться наша оценка максимального правдоподобия , поскольку она остается последовательной оценкой, в том смысле, что она будет сходиться к теоретической величине, которая действительно существует в модели (и, конечно, не в ощущение, что он найдет «правду» в любом случае)b1
что является результатом «смещения к нулю».
Мы использовали пробитную модель, а не логит (логистическая регрессия), потому что только при нормальных условиях мы можем получить распределение . Логистическое распределение не закрыто при добавлении. Это означает, что если мы опускаем соответствующую переменную в логистической регрессии, мы также создаем неправильную спецификацию распределения, поскольку термин ошибки (который теперь включает пропущенную переменную) больше не следует за логистическим распределением. Но это не меняет результат смещения (см. Сноску 6 в статье, на которую ссылается OP).ϵ
источник