Интерпретация порядковой логистической регрессии

17

Я провел эту порядковую логистическую регрессию в R:

mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars)

Я получил это резюме модели:

summary(mtcars_ordinal)

Re-fitting to get Hessian

Call:
polr(formula = as.factor(carb) ~ mpg, data = mtcars)

Coefficients:
      Value Std. Error t value
mpg -0.2335    0.06855  -3.406

Intercepts:
    Value   Std. Error t value
1|2 -6.4706  1.6443    -3.9352
2|3 -4.4158  1.3634    -3.2388
3|4 -3.8508  1.3087    -2.9425
4|6 -1.2829  1.3254    -0.9679
6|8 -0.5544  1.5018    -0.3692

Residual Deviance: 81.36633 
AIC: 93.36633 

Я могу получить логарифм коэффициента для mpgэтого:

exp(coef(mtcars_ordinal))
 mpg 
0.7917679 

А логарифмические шансы на пороги:

exp(mtcars_ordinal$zeta)

       1|2         2|3         3|4         4|6         6|8 
0.001548286 0.012084834 0.021262900 0.277242397 0.574406353 

Может ли кто-нибудь сказать мне, если моя интерпретация этой модели верна:

При mpgувеличении на одну единицу вероятность перехода из категории 1 carbв любую из других 5 категорий уменьшается на -0,23. Если логарифм пересекает порог 0,0015, то прогнозируемое значение для автомобиля будет категории 2 из carb. Если логарифм пересекает порог 0,0121, то прогнозируемое значение для автомобиля будет категории 3 carbи так далее.

Лучиано
источник

Ответы:

10

Вы совершенно запутали шансы и логи. Log шансы являются коэффициентами; Коэффициенты - это экспоненциальные коэффициенты. Кроме того, интерпретация шансов идет наоборот . (Я вырос с эконометрикой, думая об ограниченных зависимых переменных, и интерпретация шансов порядковой регрессии ... хм ... забавна для меня.) Итак, ваше первое утверждение должно звучать так: "Как mpg увеличивается на одну единицу, шансы наблюдения категории 1 carb против 5 других категорий увеличилось на 21%. "

Что касается интерпретации пороговых значений, вам действительно необходимо построить все предсказанные кривые, чтобы иметь возможность сказать, что такое модальное предсказание:

mpg   <- seq(from=5, to=40, by=1)
xbeta <- mpg*(-0.2335)
logistic_cdf <- function(x) {
  return( 1/(1+exp(-x) ) )
}

p1 <- logistic_cdf( -6.4706 - xbeta )
p2 <- logistic_cdf( -4.4158 - xbeta ) - logistic_cdf( -6.4706 - xbeta )
p3 <- logistic_cdf( -3.8508 - xbeta ) - logistic_cdf( -4.4158 - xbeta )
p4 <- logistic_cdf( -1.2829 - xbeta ) - logistic_cdf( -3.8508 - xbeta )
p6 <- logistic_cdf( -0.5544 - xbeta ) - logistic_cdf( -1.2829 - xbeta )
p8 <- 1 - logistic_cdf( -0.5544 - xbeta )

plot(mpg, p1, type='l', ylab='Prob')
  lines(mpg, p2, col='red')
  lines(mpg, p3, col='blue')
  lines(mpg, p4, col='green')
  lines(mpg, p6, col='purple')
  lines(mpg, p8, col='brown')
  legend("topleft", lty=1, col=c("black", "red", "blue", "green", "purple", "brown"), 
         legend=c("carb 1", "carb 2", "carb 3", "carb 4", "carb 5", "carb 6"))

введите описание изображения здесь

Синяя кривая для 3-й категории никогда не поднималась, как и фиолетовая кривая для 6-й категории. Так что, если я что-то скажу, что для значений mpgвыше 27, наиболее вероятной категорией является 1; между 18 и 27, категория 2; от 4 до 18, категория 4; и ниже 4, категория 8. (Интересно, что вы изучаете - коммерческие грузовики? У большинства легковых автомобилей в эти дни должно быть mpg> 25). Вы можете попытаться определить точки пересечения более точно.

Я также заметил, что у вас есть эти странные категории, которые идут 1, 2, 3, 4, затем 6 (пропуск 5), затем 8 (пропуск 7). Если 5 и 7 отсутствовали по дизайну, это нормально. Если это действительные категории, в которые carbпросто не попадают, это не хорошо.

Stask
источник
Обратите внимание, как я использовал «переход из категории 1 углеводов в любые другие 5 категорий». Это неправильно? Я изо всех сил пытаюсь справиться с тем, что "поскольку миль на галлон увеличивается на одну единицу, шансы на наблюдение категории 1 карбюратора по сравнению с другими 5 категориями возрастают на 21%". Это означает, что, если миль на галлон увеличится примерно на 5 единиц, будет 100% вероятность наблюдения категории 1. Но если миль на галлон увеличится на 5 единиц, должен быть более высокий шанс наблюдения категории 8, а не категории 1.
Лучано
3
Я добавил рисунок; Я подозревал, что это облегчит ваш ответ - надеюсь, вам понравится. (Кстати, в документации к ? Mtcars говорится, что данные являются результатами испытаний из выпуска Motor Trends 1974 года .)
gung - Восстановить Монику
Может кто-нибудь ответить на последний вопрос Лучано? Я нахожу это очень интересным.
Еросеннин
1
mpg23134515
1
Как polrопределяет модель как logit P(Y <= k | x) = zeta_k - eta, если интерпретация @ StasK не гласит: «При mpg увеличении на одну единицу шансы наблюдения категории 1 carb против других 5 категорий возрастут на 26% ( exp(-(-0.2335)) = 1.26)».
moremo
3

В упорядоченной логит-модели шансы формируют отношение вероятности нахождения в любой категории ниже определенного порога к вероятности нахождения в категории выше того же порога (например, с тремя категориями: вероятность нахождения в категории A или B против .C, а также вероятность быть в категории A против B или C).

Это приводит к модели, logit P(Y <= k | x) = zeta_k - etaкак указано в описании polr(). Следовательно, отношения шансов могут быть построены либо для разных категорий, либо для разных регрессоров. Последний, более распространенный, сравнивает шансы для тех же категорий, но разных регрессоров и равен

оdds(YaК|Иксa)оdds(YбК|Иксб) знак равно ехр(-(ηa-ηб)),

Соотношение шансов для разных категорий определяется как

оdds(YяК|Икся)оdds(Yям|Икся) знак равно ехр(ζК-ζм),

при этом отношение не зависит от регрессоров. Это свойство приводит к альтернативному названию модели пропорциональных шансов.

В этом простом, но, возможно, не очень интуитивном примере вы могли бы сформулировать: для увеличения регрессора на одну единицу mpgшансы наблюдения категории 1 по сравнению с наблюдением любой более высокой категории (или шансы наблюдения любой категории ниже определенного порога по сравнению с соблюдение любой категории выше того же порога) умножается на 1,26 или увеличивается на 26% ( exp(-(-0.233 - 0)) = 1.263). Если вы хотите сформулировать соотношение шансов для разных категорий, вы можете, например, сказать, что шансы на то, чтобы быть в категории 1, против любой категории выше, по сравнению с шансами на то, чтобы быть в категории 1 или 2, против любой категории выше, равны exp((-6.470) - (-4.415)) = 0.128. При этом последняя интерпретация не очень полезна в этой конкретной ситуации. Примером отношения шансов для разных категорий могут быть шансы на поступление в колледж по сравнению с шансами на поступление в старшую школу.

(ζК-ζК-1)К

MoreMo
источник