Когда коэффициенты, оцениваемые логистической и логит-линейной регрессией, отличаются?

При моделировании непрерывных пропорций (например, пропорционального растительного покрова на съемочных квадратах или доли времени, вовлеченного в деятельность), логистическая регрессия считается неуместной (например, Warton & Hui (2011). Арксинус асинин: анализ пропорций в экологии ). Скорее, регрессия OLS после логит-трансформации пропорций, или, возможно, бета-регрессия, являются более подходящими.

При каких условиях оценки коэффициентов логит-линейной регрессии и логистической регрессии различаются при использовании R lmи glm?

Возьмем следующий имитируется набор данных, где мы можем предположить , что pнаши исходные данные (т.е. непрерывные пропорции, а не представляющие ): ${n_{successes}\over n_{trials}}$

set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)

plot(p ~ x, ylim=c(0, 1))

введите описание изображения здесь

Подбирая логит-линейную модель, получаем:

summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16

Логистическая регрессия дает:

summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

Будут ли оценки коэффициентов логистической регрессии всегда объективными по отношению к оценкам логит-линейной модели?

r regression logistic jbaums
источник

Обратите внимание на теоретическое различие: с биномиальной моделью, применяемой к пропорциям, вы предполагаете, что испытания за каждой пропорцией независимы, то есть за пропорцией 0.1«было», скажем, 10 независимых испытаний, дающих один успех. Для линейной модели 0.1это просто значение, некоторая произвольная мера.

ttnphns

Я несколько сомневаюсь в том, насколько даже имеет смысл применять биномиальную модель к пропорциям, как это делает ФП. В конце концов, family=binomialподразумевается, что зависимая переменная представляет двоичные числа, а не пропорции. И как glmузнать, что 0.1это «один из десяти», а не «десять из ста»? Хотя сама пропорция не отличается, это имеет большое значение для расчета стандартной ошибки.

Вольфганг

@ Вольфганг - я понимаю (и упоминаю в своем посте), что неуместно моделировать непрерывные пропорции такого рода с помощью логистической регрессии. Меня больше интересовало, отличаются ли / когда / как точечные оценки коэффициентов.

Jbaums

@ Вольфганг, вы правы, но это зависит от реализации. Некоторые программы позволяют вводить пропорции как DV и 1s вместо баз, тогда как набор данных взвешивается по реальным базам. Так выглядит, как будто вы анализируете пропорции, а не рассчитывает.

ttnphns

@ttnphns Аналогично, в R можно ввести пропорции в качестве DV и указать вектор, содержащий количество испытаний в weightsarg (хотя это не то, что я пытался в своем посте, где я намеренно неправильно проанализировал данные).

Jbaums

Ответы:

Возможно, на это можно ответить «обратным» образом - т.е. когда они одинаковы?

Теперь алгоритм IRLS, используемый в логистической регрессии, дает некоторое представление здесь. При сходимости вы можете выразить коэффициенты модели как:

{\hat{β}}_{l o g i s t i c} = {(X^{T} W X)}^{- 1} X^{T} W z

$\hat {\beta}_{logistic}=\left (X^TWX\right)^{-1} X^TWz$

$W$ $W_{ii}=n_ip_i (1-p_i)$ $z$ $z_i=x_i^T\hat {\beta}_{logistic} +\frac {y_i -n_ip_i}{n_ip_i (1-p_i)}$ $var (z_i -x_i^T\hat {\beta})=W_{ii}^{-1}$ $z$ $\beta$ $z$

$\log (y)-\log (n-y)$ $y (1-y/n)$ $y$ $n$ lm ()

probabilityislogic
источник

Впечатляет. Не могли бы вы показать свое последнее предложение с помощью кода R, используя данные смоделированных данных? Благодаря!

JellicleCat

Пожалуйста, не стесняйтесь указывать на это, если я ошибаюсь.

Во-первых, я, так сказать, во второй посадке вы коллируете glmнеправильно! Чтобы соответствовать логистической регрессии glm, ответ должен быть (двоичной) категориальной переменной, но вы используете pчисловую переменную! Я должен сказать warning, что слишком мягко, чтобы пользователи знали свои ошибки ...

И, как и следовало ожидать, вы получаете аналогичные оценки коэффициентов по двум подгонкам просто по совпадению. Если заменить logit.p <- a + b*x + rnorm(1000, 0, 0.2)с logit.p <- a + b*x + rnorm(1000, 0, 0.7), то есть, изменение дисперсии остаточного члена от 0.2до 0.7, то результаты двух подборы будут значительно отличаться, хотя второй форме ( glm) не имеет смысла вообще ...

Логистическая регрессия используется для (двоичной) классификации, поэтому вы должны иметь категорический ответ, как указано выше. Например, наблюдения ответа должны быть последовательностью «успех» или «неудача», а не серией «вероятность (частота)», как в ваших данных. Для данного категориального набора данных вы можете рассчитать только одну общую частоту для «отклик = успех» или «отклик = сбой», а не для ряда. В генерируемых вами данных вообще нет категориальной переменной, поэтому невозможно применить логистическую регрессию. Теперь вы можете видеть, хотя логит-линейная регрессия (как вы ее называете) похожа, это обычная линейная задача РЕГРЕССИИ (т. Е. Ответ является числовой переменной), использующий преобразованный ответ (как преобразование sqr или sqrt),

Как правило, линейная регрессия проходит через обычные наименьшие квадраты (OLS), что сводит к минимуму квадратные потери для задачи регрессии; логистическая регрессия подбирается с помощью максимального правдоподобия (MLE), что сводит к минимуму потери в журнале для проблемы классификации. Вот ссылка на функции потерь Функция потери, Дева Раманан. В первом примере вы рассматриваете pкак ответ и подгоняете обычную модель линейной регрессии через OLS; во втором примере вы говорите, Rчто подгоняете модель логистической регрессии family=binomial, поэтому Rподгоняйте модель по MLE. Как вы можете видеть, в первой модели вы получаете t-тест и F-тест, которые являются классическими выходами OLS, пригодными для линейной регрессии. Во второй модели, критерий значимости коэффициента основан на zвместоt, который является классическим выходом MLE, пригодным для логистической регрессии.

JellicleCat
источник

Хороший вопрос (+1) и хороший ответ (+1). Я узнал что-то новое.

Александр Блех

Я бы согласился. Однако это logistic regression is a CLASSIFICATION problemможет быть неверно истолковано в том смысле, что оно стоит только до тех пор, пока оно может хорошо классифицироваться. Что было бы неправильно думать, потому что модель «оптимальна» теоретически и по тому, как она моделирует вероятности, иногда может быть классифицирована хуже, чем не очень хорошая модель.

ttnphns

@ttnphns Спасибо за ваш комментарий! Я думаю, что условно называть это проблемой классификации, если ответ является категоричным. Важно, работает ли модель хорошо или нет, но, возможно, это не влияет на наименование.

JellicleCat

Спасибо @JellicleCat - Мне известно, что данные о пропорциях этого типа не подходят для логистической регрессии, но было любопытно, при каких условиях оценки коэффициентов будут отличаться от оценок OLS с логит-преобразованными пропорциями. Спасибо за ваш пример - ясно, что при увеличении дисперсии оценки коэффициентов расходятся.

Jbaums