В чем разница между логистической регрессией и регрессией дробного ответа?

13

Насколько я знаю, разница между логистической моделью и моделью дробного отклика (frm) заключается в том, что зависимая переменная (Y), в которой frm равна [0,1], но логистика - {0, 1}. Кроме того, frm использует оценку квази-правдоподобия для определения своих параметров.

Обычно мы можем использовать glmдля получения логистических моделей glm(y ~ x1+x2, data = dat, family = binomial(logit)).

Для frm мы меняем family = binomial(logit)на family = quasibinomial(logit).

Я заметил, что мы также можем использовать family = binomial(logit)для получения параметра frm, так как он дает те же оценочные значения. Смотрите следующий пример

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

возвращение,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

И для family = quasibinomial('logit'),

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

возвращение,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

Оцененные бета-значения для обоих familyодинаковы, но разница в значениях SE. Однако, чтобы получить правильный SE, мы должны использовать library(sandwich)как в этом посте .

Теперь мои вопросы:

  1. В чем разница между этими двумя кодами?
  2. Собираетесь ли вы получить надежный SE?

Если мое понимание неверно, пожалуйста, дайте несколько советов.

новичок
источник

Ответы:

11

Если ваш вопрос: в чем разница между этими двумя кодами?

Взгляд на ?glmговорит See family for details of family functions, и взгляд ?familyпоказывает следующее описание:

Семейства квазибиномов и квазипуассонов отличаются от семейств биномов и пуассонов только тем, что параметр дисперсии не фиксирован в одном, поэтому они могут моделировать избыточную дисперсию.

Это также то, что вы видите в своем выводе. И это разница между обеими моделями / кодами.

Если ваш вопрос: в чем разница между логистической регрессией и регрессией дробного ответа?

Как вы правильно определили, модель является логистической, если ваши зависимые переменные равны 0 или 1. Папке и Вулдридж показали, что вы можете использовать GLM этой формы для фракций, а также для оценки параметров, но вам необходимо вычислить устойчивые стандартные ошибки. Это не требуется для логистической регрессии, и на самом деле, некоторые люди думают, что вы не должны вычислять надежные стандартные ошибки в моделях Probit / Logit. Хотя это другая дискуссия.

Теоретическая основа взята из известной статьи Гурье, Монфора и Трогнонав Econometrica в 1984 году. Они показывают, что (при некоторых условиях регулярности и т. д.) параметры максимального правдоподобия, полученные путем максимизации правдоподобия, принадлежащего линейному экспоненциальному семейству, являются согласованными оценками параметров, принадлежащих любому другому правдоподобию в линейном семействе экспоненциальных. Так что, в некотором смысле, мы используем логистическое распределение здесь, хотя оно не совсем правильное, но параметры все еще согласуются с параметрами, которые мы хотим получить. Итак, если ваш вопрос возник из наблюдения, что мы используем одну и ту же функцию правдоподобия для оценки как логистических, так и дробных моделей отклика, за исключением того, что мы обмениваемся природой зависимой переменной, то это интуиция.

coffeinjunky
источник
Как мы можем измерить производительность? Можем ли мы использовать MSE как линейную регрессию?
новичок
1
Это совсем другой вопрос. Пожалуйста, разместите его как новый.
coffeinjunky