Интерпретация терминов взаимодействия в логит-регрессии с категориальными переменными

25

У меня есть данные из опроса, в котором респонденты были случайным образом распределены в одну из четырех групп:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

В то время как три группы лечения немного различаются по применяемому стимулу, главное различие, о котором я забочусь, - это контрольная и терапевтическая группы. Итак, я определил фиктивную переменнуюControl :

> summary(df$Control)
     TRUE FALSE 
       59   191 

В ходе опроса респондентам было предложено (среди прочего) выбрать, какую из двух вещей они предпочитают:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Затем, после получения какого-либо стимула, определенного их группой лечения (и ни одного, если они были в контрольной группе), респондентам было предложено выбрать одно и то же:

> summary(df$Choice)
  A    B 
149  101 

Я хочу знать, повлияло ли нахождение в одной из трех групп лечения на выбор, который респонденты сделали в этом последнем вопросе. Моя гипотеза состоит в том, что респонденты, которые получили лечение, более склонны выбиратьA чем B.

Учитывая, что я работаю с категориальными данными, я решил использовать регрессию логита (не стесняйтесь, если вы считаете, что это неправильно). Поскольку респонденты были распределены случайным образом, у меня сложилось впечатление, что мне не нужно обязательно контролировать другие переменные (например, демографические данные), поэтому я оставил их для этого вопроса. Моя первая модель была просто следующей:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

У меня сложилось впечатление, что перехват, являющийся статистически значимым, не имеет интерпретируемого значения. Возможно, я подумал, что мне следует включить термин взаимодействия следующим образом:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Теперь статус респондентов как в группе лечения имеет ожидаемый эффект. Был ли это правильный набор шагов? Как я могу интерпретировать термин взаимодействия ControlFALSE:PreferA? Остальные коэффициенты остаются логарифмами?

Пигмалион
источник
Мой ответ здесь уместен: stats.stackexchange.com/questions/246873/…
kjetil b halvorsen

Ответы:

31

Я предполагаю, что PreferA = 1, когда один предпочитал A и 0 в противном случае, и что ControlFALSE = 1 при лечении и 0 при контроле.

ехр(3,135)знак равно23 , то есть есть 23 таких человека, которые предпочитают А для каждого такого человека, который предпочитает B. Так что A очень популярен.

ехр(-2,309)знак равно0,099(1-0,099)×100%знак равно-90,1%0,099*23знак равно2,3Таким образом, есть 2,3 таких человека, которые предпочитают A для каждого такого человека, который предпочитает B. Таким образом, среди этой группы A все еще более популярен, чем B, но в меньшей степени, чем в необработанной / базовой группе.

0,006-99,4% делают это сейчас. Имеет ли это смысл?)

ехр(2,850)знак равно+17,3+17,3×0,099знак равно1,71ехр(2,850-2,309)

Таким образом, экспоненциальная константа дает вам базовые шансы , возведенные в степень коэффициенты основных эффектов дают вам отношения шансов, когда другая переменная равна 0, а возведенный в степень коэффициент членов взаимодействия говорит вам отношение, на которое изменяется отношение шансов .

Мартен Буис
источник
Спасибо, Мартен, это очень полезно, как и твой ответ на другой мой связанный вопрос. Я просто хотел бы немного разъяснить один момент, хотя. Как я уже упоминал в своем другом вопросе, меня беспокоит статистическая достоверность того, что я здесь сделал, из-за того факта, что ControlFALSEв первой модели имеет высокое значение p, а во второй - довольно низкое. Применяя свой ответ на другой мой вопрос к этому конкретному случаю, вы сказали, что это может произойти, если будет Controlиметь отрицательное влияние на одну группу Preferи положительное влияние на другую.
Пигмалион
(выбежал из космоса) Имеет ли эта интерпретация смысл здесь? Я не совсем уверен, как применить это непосредственно.
Пигмалион
Эффект ControlFALSEв первой модели является эффект лечения как тех , кого Предпочтительнее Ранее и те , которые не сделали, в то время как эффект во второй модели является только эффект лечения для тех , кто предпочитает не ранее. Хорошо это или нет, это не статистический вопрос, но имеет ли это смысл.
Мартен Буис
@MaartenBuis Отличное объяснение. Как бы вы сделали эквивалентные расчеты для доверительных интервалов оценок? Для простоты интерпретации я, как правило, расслаиваю логистические модели (например, по предварительному предпочтению в этом примере) и использую термин взаимодействия как «статистический тест для значительного различия в OR. Это приемлемо?»
bobmcpop
2

Я также нашел эту статью полезной для интерпретации взаимодействия в логистической регрессии:

Чен, JJ (2003). Передача сложной информации: интерпретация статистического взаимодействия в множественном логистическом регрессионном анализе . Американский журнал общественного здравоохранения , 93 (9), 1376-1377.

deepseas
источник
4
Я предоставил полную ссылку (название, автор, дата, журнал и т. Д.), Что означает, что вклад все равно будет полезен, если адрес ссылки изменится. Но не могли бы вы расширить его, чтобы суммировать содержание? В противном случае это действительно больше комментарий, чем ответ - мы предпочитаем, чтобы наши ответы были автономными, поэтому они устойчивы к "гниению ссылок". В качестве альтернативы мы можем преобразовать это в комментарий для вас.
Серебряная рыба
Спасибо. Я связывал NCBI, поэтому думал, что все будет хорошо. Я согласен с изменениями. Благодарность!
Deepseas
0

Когда я пытаюсь интерпретировать взаимодействия в логистической регрессии, я предпочитаю смотреть на предсказанные вероятности для каждой комбинации категориальных переменных. В вашем случае это будет всего 4 вероятности:

  1. Предпочитаю А, контроль есть
  2. Предпочитаю А, контролировать ложь
  3. Предпочитаю Б, контроль есть
  4. Предпочитаю Б, контролировать ложь

Когда у меня есть непрерывные переменные, я обычно смотрю на предсказанное значение в медиане, 1-м и 3-м квартилях.

Хотя это напрямую не влияет на интерпретацию каждого коэффициента, я обнаружил, что это часто позволяет мне (и моим клиентам) ясно видеть происходящее.

Питер Флом - Восстановить Монику
источник