Отрицательный коэффициент в упорядоченной логистической регрессии

17

Предположим, у нас есть порядковый ответ и набор переменных которые мы считаем объясню . Затем мы делаем упорядоченную логистическую регрессию (матрица дизайна) на (ответ).y:{Bad, Neutral, Good}{1,2,3}X:=[x1,x2,x3]yXy

Предположим, что оценочный коэффициент , назовите его , в упорядоченной логистической регрессии равен . Как мне интерпретировать отношение шансов (ИЛИ) ?x1β^10.5e0.5=0.607

Должен ли я сказать, что "при увеличении x_1 на 1 единицу x1при прочих равных условиях шансы на наблюдение Good в 0.607 раза выше шансов на наблюдение BadNeutral , а также на то же изменение x1 , шансы на наблюдение NeutralGood в 0.607 раза выше шансов на наблюдение Bad "?

Я не могу найти примеры интерпретации отрицательных коэффициентов в своем учебнике или в Google.

mdewey
источник
2
Да, это правильно. Это почти идентично тому, как вы интерпретируете положительные коэффициенты.
Питер Флом - Восстановить Монику
2
NB: обычно мы говорим «регресс на », а не наоборот. yX
gung - Восстановить Монику

Ответы:

25

Вы на правильном пути, но всегда смотрите документацию на программное обеспечение, которое вы используете, чтобы увидеть, какая модель действительно подходит. Предположим ситуацию с категориальной зависимой переменной с упорядоченными категориями 1 , , g , , k и предикторами X 1 , , X j , , X p .Y1,,g,,kX1,,Xj,,Xp

«В дикой природе» вы можете встретить три эквивалентных варианта написания теоретической модели пропорциональных шансов с различными значениями подразумеваемых параметров:

  1. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g+β1X1++βpXp(g=1,,k1)
  2. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g(β1X1++βpXp)(g=1,,k1)
  3. logit(p(Yg))=lnp(Yg)p(Y<g)=β0g+β1X1++βpXp(g=2,,k)

(Модели 1 и 2 имеют ограничение, согласно которому в отдельных бинарных логистических регрессиях β j не изменяется с g , а β 0 1 < < β 0 g < < β 0 k - 1 , модель 3 имеет такое же ограничение относительно β j и требует, чтобы β 0 2 > > β 0 g > > β 0 k )k1βjgβ01<<β0g<<β0k1βjβ02>>β0g>>β0k

  • В модели 1, положительный означает , что увеличение предсказателя X J связанно с повышенным коэффициентом для нижней категории в Y .βjXjY
  • Модель 1 несколько нелогична, поэтому модель 2 или 3 кажется предпочтительной в программном обеспечении. Здесь, положительная означает , что увеличение предсказателя X J связано с повышенным коэффициентом для более высокой категории в Y .βjXjY
  • Модели 1 и 2 приводят к тем же оценкам для , но их оценки для β j имеют противоположные знаки.β0gβj
  • Модели 2 и 3 приводят к тем же оценкам для , но их оценки для β 0 g имеют противоположные знаки.βjβ0g

Предполагая, что ваше программное обеспечение использует модель 2 или 3, вы можете сказать: «при увеличении на 1 единицу , при прочих равных условиях, прогнозируемые шансы наблюдать« Y = Хорошо »против наблюдения« Y = Нейтрально ИЛИ Плохо »с коэффициентом е β 1 = 0,607 . «и также» с увеличением на 1 единицу в X 1 , при прочих равных условиях, что предсказанные шансы наблюдения „ Y = хороший или нейтральный “ „ по сравнению с наблюдать Y = Bad “ изменение с коэффициентом е βX1Y=GoodY=Neutral OR Badeβ^1=0.607X1Y=Good OR NeutralY=Bad. "Обратите внимание, что в эмпирическом случае у нас есть только прогнозные шансы, а не фактические.eβ^1=0.607

Вот некоторые дополнительные иллюстрации для модели 1 с категориями. Во-первых, предположение о линейной модели для кумулятивных логитов с пропорциональными коэффициентами. Во-вторых, подразумеваемые вероятности наблюдения не более категории g . Вероятности следуют за логистическими функциями одинаковой формы. k=4genter image description here

Для самих вероятностей категории изображенная модель подразумевает следующие упорядоченные функции: enter image description here

PS Насколько мне известно, модель 2 используется в SPSS, а также в R-функциях MASS::polr()и ordinal::clm(). Модель 3 используется в R функциях rms::lrm()и VGAM::vglm(). К сожалению, я не знаю о SAS и Stata.

каракал
источник
@Harokitty Бинарная модель логистической регрессии не имеет термина ошибки, как модель линейной регрессии. Обратите внимание, что мы моделируем вероятность, а не саму зависимую переменную. Предположение о распределении ошибок для должно быть указано отдельно, например, в R с . Yglm(..., family=binomial)
Каракал
Есть ли у вас ссылка, которая касается способа выражения спецификации № 2 в вашем списке из 3 альтернатив?
1
@Harokitty Это кратко описано в «Анализе порядковых категориальных данных» Агрести, раздел 3.2.2, с49, уравнение 3.8 . В качестве альтернативы в Agresti "Категориальный анализ данных", раздел 9.4, p323, уравнение 9.12.
Каракал
Привет, извините, что беспокою вас, у вас есть ссылка на третий? Агрести, похоже, не говорит об этом.
2
logit(Y>g)logit(Yg)