Почему GLM отличается от LM с преобразованной переменной

16

Как поясняется в раздаточном материале этого курса (стр. 1) , линейная модель может быть записана в виде:

y = β_{1} x_{1} + \dots + β_{p} x_{p} + ε_{i},

$y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i,$

где - переменная ответа, а - пояснительная переменная . $y$ $x_{i}$ $i^{th}$

Часто с целью удовлетворения предположений теста можно преобразовать переменную ответа. Например, мы применяем функцию log к каждому . Преобразование переменной ответа НЕ равносильно выполнению GLM. $y_i$

GLM может быть написано в следующей форме (из раздаточного материала курса (стр. 3) )

g (u) = β_{1} x_{1} + \dots + β_{п} {Икс}_{п} + ε_{я},

$g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i,$

где - просто еще один символ для как я понял на странице 2 раздаточного материала курса. называется функцией связи. $u$ $y$ $g()$

Я не очень понимаю разницу между GLM и LM с преобразованной переменной из слайдов в курсе. Вы можете помочь мне с этим?

regression generalized-linear-model data-transformation linear-model Remi.b
источник

2

Возможно, вам будет интересно рассмотреть тот факт, что все преобразования двоичного результата являются аффинными, что, таким образом, ограничит вас обычной регрессией наименьших квадратов. Это, очевидно, не то, что выполняет логистическая регрессия (стандартная GLM для бинарных ответов). (Доказательство: пусть конечные значения закодированы как и и пусть будет любым преобразованием. Записывая и мы находим согласен с с (аффинным преобразованием ), где и

y_{0}

$y_0$

y_{1}

$y_1$

ϕ

$\phi$

z_{0} = ϕ (y_{0})

$z_0=\phi(y_0)$

z_{1} = ϕ (y_{1})

$z_1=\phi(y_1)$

ϕ

$\phi$

{y_{0}, y_{1}}

$\{y_0,y_1\}$

y \to λ y + μ

$y\to \lambda y + \mu$

y

$y$

λ = (z_{1} - z_{0}) / (y_{1} - y_{0})

$\lambda=(z_1-z_0)/(y_1-y_0)$

μ = z_{0} - λ y_{0}

$\mu=z_0-\lambda y_0$ .)

whuber

15

Преобразование ответа до выполнения линейной регрессии делает это:

E (g (Y)) \sim β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}

$E(g(Y)) \sim \beta_0 + \beta_1x_1 + \ldots + \beta_px_p$

где - заданная функция, и мы предполагаем, что имеет заданное распределение (обычно нормальное). $g$ $g(Y)$

Обобщенная линейная модель делает это:

g (E (Y)) \sim β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}

$g(E(Y)) \sim \beta_0 + \beta_1x_1 + \ldots + \beta_px_p$

где такой же, как и раньше, и мы предполагаем, что имеет заданное распределение (обычно ненормальное). $g$ $Y$

Хонг Оои
источник

что Е в вашем уравнении?

user1406647 20.10.15

1

E (X)

$E(X)$

X

$X$

Я также нашел это полезным: christoph-scherber.de/content/PDF%20Files/…

Адитья,

22

Я не уверен, будет ли это полным ответом для вас, но это может помочь освободиться от концептуальных проблем.

Кажется, в вашем аккаунте есть два заблуждения:

Имейте в виду, что обычная наименьших квадратов (OLS - «линейная») регрессия является частным случаем обобщенной линейной модели. Таким образом, когда вы говорите «[t] преобразование переменной ответа НЕ равносильно выполнению GLM», это неверно. Подгонка линейной модели или преобразование переменной отклика, а затем подгонка линейной модели представляют собой «выполнение GLM».
$u$ $\mu$ $X$ $u$ $y$ $Y$ $y_i$ $Y$ $i$ $y$

(Я не хочу говорить об ошибках, я просто подозреваю, что это может привести к вашей путанице.)
Есть еще один аспект обобщенной линейной модели, о котором я не упоминаю. То есть мы указываем распределение ответов. В случае регрессии OLS распределение ответа является гауссовым (нормальным), а функция связи является тождественной функцией. В случае, скажем, логистической регрессии (которая может быть тем, о чем люди впервые думают, когда они думают о GLM), распределение ответов - это Бернулли (/ binomial), а функция связи - это logit. При использовании преобразований для обеспечения выполнения предположений для OLS мы часто пытаемся сделать условное распределение ответов приемлемым нормальным. Однако никакое такое преобразование не сделает распределение Бернулли приемлемо нормальным.

Gung - Восстановить Монику
источник

Почему GLM отличается от LM с преобразованной переменной

Ответы: