У меня есть вопрос, касающийся интерпретации параметров для GLM с гамма-распределенной зависимой переменной. Вот что R возвращает для моего GLM с лог-ссылкой:
Call:
glm(formula = income ~ height + age + educat + married + sex + language + highschool,
family = Gamma(link = log), data = fakesoep)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.47399 -0.31490 -0.05961 0.18374 1.94176
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.2202325 0.2182771 28.497 < 2e-16 ***
height 0.0082530 0.0011930 6.918 5.58e-12 ***
age 0.0001786 0.0009345 0.191 0.848
educat 0.0119425 0.0009816 12.166 < 2e-16 ***
married -0.0178813 0.0173453 -1.031 0.303
sex -0.3179608 0.0216168 -14.709 < 2e-16 ***
language 0.0050755 0.0279452 0.182 0.856
highschool 0.3466434 0.0167621 20.680 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for Gamma family taken to be 0.1747557)
Null deviance: 757.46 on 2999 degrees of freedom
Residual deviance: 502.50 on 2992 degrees of freedom
AIC: 49184
Как мне интерпретировать параметры? Если я вычислю exp(coef())
мою модель, я получу ~ 500 за перехват. Теперь я считаю, что это не означает ожидаемый доход, если все остальные переменные остаются постоянными, не так ли? Поскольку среднее значение или mean(age)
составляет около 2000. Более того, я понятия не имею, как интерпретировать направление и значение коэффициентов ковариат.
r
generalized-linear-model
interpretation
gamma-distribution
Gung - Восстановить Монику
источник
источник
Ответы:
Лог-связанная гамма-спецификация GLM идентична экспоненциальной регрессии:
Это означает, что . Это не очень значимое значение (если только вы не центрировали свои переменные так, чтобы они заранее были равны нулю).Е[ у| х = 0 , г= 0 ] = опыт( α )
Существует как минимум три способа интерпретации вашей модели. Одним из них является получение производной от ожидаемого значения заданного по :Y Икс Икс
Эта величина зависит от и , поэтому вы можете оценить ее по среднему / медианному / модальному или репрезентативным значениям и или взять среднее значение по вашей выборке. Оба они называются предельными эффектами. Эти производные имеют смысл только для непрерывных переменных (например, высоты) и сообщают вам аддитивный эффект небольшого изменения по .Икс Z Икс Z Y^⋅ β Икс Y
Если бы был двоичным (как пол), вы могли бы вместо этого вычислить конечные различия:Икс
Это имеет больше смысла, так как трудно представить бесконечно малые изменения в сексе. Конечно, вы также можете сделать это с помощью непрерывной переменной. Это аддитивные эффекты от изменения одной единицы по , а не крошечного.Икс
Третий метод - возвести в степень коэффициенты. Обратите внимание, что:
Это означает, что вы можете интерпретировать возведенные в степень коэффициенты мультипликативно, а не аддитивно. Они дают вам множитель на ожидаемое значение, когда изменяется на 1.Икс
источник
Сначала я посмотрю на остатки, чтобы увидеть, насколько хорошо подходит модель. Если все в порядке, я бы попробовал использовать другие функции связи, если у меня не было оснований полагать, что это действительно происходит из гамма-дистрибутива. Если бы гамма все еще выглядела убедительно, я бы пришел к выводу, что статистически значимыми терминами являются перехват, рост, образование, пол и средняя школа (те, которые отмечены тремя звездами). Между собой нельзя сказать больше, если они не стандартизированы (имеют одинаковый диапазон).
Ответ на комментарий: теперь я понимаю ваш вопрос лучше. Вы абсолютно можете это сделать! Увеличение высоты на единицу приводит к относительному изменению дохода в выражении (0,0082530) -1 ~ = 0,0082530 (с использованием приближения exp x = 1 + x для малых x) . Очень легко интерпретировать, нет?
источник