У меня есть данные из опроса, в котором респонденты были случайным образом распределены в одну из четырех групп:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
В то время как три группы лечения немного различаются по применяемому стимулу, главное различие, о котором я забочусь, - это контрольная и терапевтическая группы. Итак, я определил фиктивную переменнуюControl
:
> summary(df$Control)
TRUE FALSE
59 191
В ходе опроса респондентам было предложено (среди прочего) выбрать, какую из двух вещей они предпочитают:
> summary(df$Prefer)
A B NA's
152 93 5
Затем, после получения какого-либо стимула, определенного их группой лечения (и ни одного, если они были в контрольной группе), респондентам было предложено выбрать одно и то же:
> summary(df$Choice)
A B
149 101
Я хочу знать, повлияло ли нахождение в одной из трех групп лечения на выбор, который респонденты сделали в этом последнем вопросе. Моя гипотеза состоит в том, что респонденты, которые получили лечение, более склонны выбиратьA
чем B
.
Учитывая, что я работаю с категориальными данными, я решил использовать регрессию логита (не стесняйтесь, если вы считаете, что это неправильно). Поскольку респонденты были распределены случайным образом, у меня сложилось впечатление, что мне не нужно обязательно контролировать другие переменные (например, демографические данные), поэтому я оставил их для этого вопроса. Моя первая модель была просто следующей:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
У меня сложилось впечатление, что перехват, являющийся статистически значимым, не имеет интерпретируемого значения. Возможно, я подумал, что мне следует включить термин взаимодействия следующим образом:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Теперь статус респондентов как в группе лечения имеет ожидаемый эффект. Был ли это правильный набор шагов? Как я могу интерпретировать термин взаимодействия ControlFALSE:PreferA
? Остальные коэффициенты остаются логарифмами?
источник
Ответы:
Я предполагаю, что PreferA = 1, когда один предпочитал A и 0 в противном случае, и что ControlFALSE = 1 при лечении и 0 при контроле.
Таким образом, экспоненциальная константа дает вам базовые шансы , возведенные в степень коэффициенты основных эффектов дают вам отношения шансов, когда другая переменная равна 0, а возведенный в степень коэффициент членов взаимодействия говорит вам отношение, на которое изменяется отношение шансов .
источник
ControlFALSE
в первой модели имеет высокое значение p, а во второй - довольно низкое. Применяя свой ответ на другой мой вопрос к этому конкретному случаю, вы сказали, что это может произойти, если будетControl
иметь отрицательное влияние на одну группуPrefer
и положительное влияние на другую.ControlFALSE
в первой модели является эффект лечения как тех , кого Предпочтительнее Ранее и те , которые не сделали, в то время как эффект во второй модели является только эффект лечения для тех , кто предпочитает не ранее. Хорошо это или нет, это не статистический вопрос, но имеет ли это смысл.Я также нашел эту статью полезной для интерпретации взаимодействия в логистической регрессии:
Чен, JJ (2003). Передача сложной информации: интерпретация статистического взаимодействия в множественном логистическом регрессионном анализе . Американский журнал общественного здравоохранения , 93 (9), 1376-1377.
источник
Когда я пытаюсь интерпретировать взаимодействия в логистической регрессии, я предпочитаю смотреть на предсказанные вероятности для каждой комбинации категориальных переменных. В вашем случае это будет всего 4 вероятности:
Когда у меня есть непрерывные переменные, я обычно смотрю на предсказанное значение в медиане, 1-м и 3-м квартилях.
Хотя это напрямую не влияет на интерпретацию каждого коэффициента, я обнаружил, что это часто позволяет мне (и моим клиентам) ясно видеть происходящее.
источник