классификация переменной превращает ее из незначительной в значительную

17

У меня есть числовая переменная, которая оказывается несущественной в многомерной модели логистической регрессии. Однако, когда я делю это на группы, это внезапно становится значительным. Это очень нелогично для меня: при категоризации переменной мы отказываемся от некоторой информации.

Как это может быть?

Омры Атия
источник

Ответы:

25

Одним из возможных объяснений могут быть нелинейности в отношениях между вашим исходом и предиктором.

[-1,1]Икс-1Икс1Икс0

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Однако это не означает, что дискретизация предиктора является лучшим подходом. (Это почти никогда не бывает.) Намного лучше моделировать нелинейность, используя или аналогичные.

С. Коласса - Восстановить Монику
источник
Есть ли примеры, когда дискретизация может быть разумной? Например, если у вас есть определенный порог (например, 18 лет), при котором происходит двоичное переключение в результатах. Числовой возраст в диапазоне 18+ может быть несущественным, но двоичный возраст> 18 может быть значимым?
ajrwhite
3
@ajrwhite: это зависит от области. Везде, где пороги кодифицированы в законе, дискретизация может иметь смысл. Например, если вы моделируете поведение при голосовании, имеет смысл проверить, действительно ли кто-то имеет право голосовать в возрасте 18 лет. Точно так же, в Германии, ваш налог на транспортное средство зависит от объема вашего двигателя и прыгает на 1700, 1800, 1900, ... куб.см Таким образом, почти все автомобили имеют смещения 1699, 1799, ... куб.см (вид самодискретизации). В естественных науках, таких как биология, медицина, психология и т. Д., Я изо всех сил пытаюсь найти пример, где дискретизация имеет смысл.
С. Коласса - Восстановить Монику
7

Один из возможных способов заключается в том, что отношения явно нелинейны. Невозможно сказать (учитывая нехватку деталей), действительно ли это объясняет, что происходит.

Вы можете проверить сами. Во-первых, вы можете создать добавленную переменную для самой переменной, а также отразить подгоночные эффекты в факторной версии модели. Если объяснение верно, оба должны видеть отчетливо нелинейный образец.

Glen_b - Восстановить Монику
источник