Как интерпретировать параметры в GLM с семейством = гамма

21

У меня есть вопрос, касающийся интерпретации параметров для GLM с гамма-распределенной зависимой переменной. Вот что R возвращает для моего GLM с лог-ссылкой:

Call:
glm(formula = income ~ height + age + educat + married + sex + language + highschool, 
    family = Gamma(link = log), data = fakesoep)

Deviance Residuals: 
       Min        1Q    Median        3Q       Max  
  -1.47399  -0.31490  -0.05961   0.18374   1.94176  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.2202325  0.2182771  28.497  < 2e-16 ***
height       0.0082530  0.0011930   6.918 5.58e-12 ***
age          0.0001786  0.0009345   0.191    0.848    
educat       0.0119425  0.0009816  12.166  < 2e-16 ***
married     -0.0178813  0.0173453  -1.031    0.303    
sex         -0.3179608  0.0216168 -14.709  < 2e-16 ***
language     0.0050755  0.0279452   0.182    0.856    
highschool   0.3466434  0.0167621  20.680  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Gamma family taken to be 0.1747557)

Null deviance: 757.46  on 2999  degrees of freedom
Residual deviance: 502.50  on 2992  degrees of freedom
AIC: 49184

Как мне интерпретировать параметры? Если я вычислю exp(coef())мою модель, я получу ~ 500 за перехват. Теперь я считаю, что это не означает ожидаемый доход, если все остальные переменные остаются постоянными, не так ли? Поскольку среднее значение или mean(age)составляет около 2000. Более того, я понятия не имею, как интерпретировать направление и значение коэффициентов ковариат.

Gung - Восстановить Монику
источник
6
500 было бы близко к ожидаемому доходу, если бы все остальные переменные были точно равны нулю (а не просто постоянны) - как в регрессии, на самом деле.
Glen_b
@Glen_b с какой стати можно ожидать доход, когда экспоненциальный коэффициент является мультипликативным эффектом на доход при изменении пояснительной переменной?
татами
Обсуждаемый случай - это условное среднее, когда все объясняющие переменные равны 0.
Glen_b

Ответы:

25

Лог-связанная гамма-спецификация GLM идентична экспоненциальной регрессии:

E[y|x,z]=exp(α+βx+γz)=y^

Это означает, что . Это не очень значимое значение (если только вы не центрировали свои переменные так, чтобы они заранее были равны нулю).E[y|x=0,z=0]=exp(α)

Существует как минимум три способа интерпретации вашей модели. Одним из них является получение производной от ожидаемого значения заданного по :yxx

E[y|x,z]x=exp(α+βx+γz)β=y^β

Эта величина зависит от и , поэтому вы можете оценить ее по среднему / медианному / модальному или репрезентативным значениям и или взять среднее значение по вашей выборке. Оба они называются предельными эффектами. Эти производные имеют смысл только для непрерывных переменных (например, высоты) и сообщают вам аддитивный эффект небольшого изменения по .xzxzy^βxy

Если бы был двоичным (как пол), вы могли бы вместо этого вычислить конечные различия: x

E[y|z,x=1]E[y|z,x=0]=exp(α+β+γz)exp(α+γz)=exp(α+γz)(exp(β)1)

Это имеет больше смысла, так как трудно представить бесконечно малые изменения в сексе. Конечно, вы также можете сделать это с помощью непрерывной переменной. Это аддитивные эффекты от изменения одной единицы по , а не крошечного.x

Третий метод - возвести в степень коэффициенты. Обратите внимание, что:

Е[Y|Z,Икс+1]знак равноехр(α+β(Икс+1)+γZ)знак равноехр(α+βИкс+β+γZ)знак равноехр(α+βИкс+γZ)ехр(β)знак равноЕ[Y|Z,Икс]ехр(β)

Это означает, что вы можете интерпретировать возведенные в степень коэффициенты мультипликативно, а не аддитивно. Они дают вам множитель на ожидаемое значение, когда изменяется на 1.Икс

Димитрий Васильевич Мастеров
источник
1
Вы могли бы проиллюстрировать второе толкование?
татами
@tatami Я исправил ошибку в двоичном случае. Теперь это имеет больше смысла?
Дмитрий Васильевич Мастеров
2

Сначала я посмотрю на остатки, чтобы увидеть, насколько хорошо подходит модель. Если все в порядке, я бы попробовал использовать другие функции связи, если у меня не было оснований полагать, что это действительно происходит из гамма-дистрибутива. Если бы гамма все еще выглядела убедительно, я бы пришел к выводу, что статистически значимыми терминами являются перехват, рост, образование, пол и средняя школа (те, которые отмечены тремя звездами). Между собой нельзя сказать больше, если они не стандартизированы (имеют одинаковый диапазон).

Ответ на комментарий: теперь я понимаю ваш вопрос лучше. Вы абсолютно можете это сделать! Увеличение высоты на единицу приводит к относительному изменению дохода в выражении (0,0082530) -1 ~ = 0,0082530 (с использованием приближения exp x = 1 + x для малых x) . Очень легко интерпретировать, нет?

Эмре
источник
1
Так что я не могу на самом деле интерпретировать параметры, например, доход увеличивается на xy, если рост увеличивается на единицу?
1
Теперь я считаю, что я должен интерпретировать это мультипликативно: exp (Intercept) * exp (height) будет доходом с ростом на 1 единицу. Спасибо, тем не менее! :)