В недавней работе Norton et al. (2018) утверждают, что
Разные отношения шансов из одного и того же исследования нельзя сравнивать, когда статистические модели, которые приводят к оценкам отношения шансов, имеют разные объясняющие переменные, поскольку каждая модель имеет свой произвольный коэффициент масштабирования. Также нельзя сравнивать величину отношения шансов из одного исследования с величиной отношения шансов из другого исследования, потому что разные образцы и разные спецификации моделей будут иметь разные произвольные коэффициенты масштабирования. Еще одним следствием является то, что величины отношения шансов данной ассоциации в нескольких исследованиях не могут быть синтезированы в мета-анализе.
Небольшая симуляция иллюстрирует это (код R находится внизу вопроса). Предположим, что истинная модель:
Представьте далее, что одни и те же данные, сгенерированные вышеуказанной моделью, анализируются четырьмя разными исследователями с использованием логистической регрессии. Исследователь 1 включает только как ковариату, исследователь 2 включает и и и так далее. Средние смоделированные оценки отношения шансов для четырех исследователей составили:
res_1 res_2 res_3 res_4
1.679768 1.776200 2.002157 2.004077
Очевидно, что только исследователи 3 и 4 получают правильное соотношение шансов около а исследователи 1 и 2 - нет. Этого не происходит при линейной регрессии, что может быть легко показано аналогичным моделированием (здесь не показано). Я должен признаться, что этот результат был довольно удивительным для меня, хотя эта проблема, кажется, хорошо известна . Эрнан и др. (2011) называют это «математической странностью» вместо смещения.[ 2 ]
Мои вопросы:
- Если отношения шансов в основном несопоставимы между исследованиями и моделями, как мы можем объединить результаты различных исследований для бинарных результатов?
- Что можно сказать о бесчисленных мета-анализов, так и комбинируют отношения шансов из различных исследований , в которых каждое исследование , возможно , с поправкой на другой набор регрессоров? Они по сути бесполезны?
Ссылки
[1]: Norton EC, Dowd BE, Maciejewski ML (2018): коэффициенты шансов - наилучшая текущая практика и использование. JAMA 320 (1): 84-85.
[2]: Norton EC, Dowd BE (2017): коэффициенты входа и интерпретация моделей Logit. Health Serv Res. 53 (2): 859-878.
[3]: Эрнан М.А., Клейтон Д., Кейдинг Н. (2011): парадокс Симпсона раскрылся. Int J Epidemiol 40: 780-785.
раскрытие
Вопрос (включая код R) является модифицированной версией вопроса, заданного пользователем timdisher для методов данных .
Код R
set.seed(142857)
n_sims <- 1000 # number of simulations
out <- data.frame(
treat_1 = rep(NA, n_sims)
, treat_2 = rep(NA, n_sims)
, treat_3 = rep(NA, n_sims)
, treat_4 = rep(NA, n_sims)
)
n <- 1000 # number of observations in each simulation
coef_sim <- "x1" # Coefficient of interest
# Coefficients (log-odds)
b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0
for(i in 1:n_sims){
x1 <- rbinom(n, 1, 0.5)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
z <- b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4
pr <- 1/(1 + exp(-z))
y <- rbinom(n, 1, pr)
df <- data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
model1 <- glm(y ~ x1, data = df, family = "binomial")
model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")
out$treat_1[i] <- model1$coefficients[coef_sim]
out$treat_2[i] <- model2$coefficients[coef_sim]
out$treat_3[i] <- model3$coefficients[coef_sim]
out$treat_4[i] <- model4$coefficients[coef_sim]
}
# Coefficients
colMeans(out)
exp(colMeans(out)) # Odds ratios
источник
Ответы:
Существует ряд альтернативных эффектов, которые можно получить из модели логистической регрессии, которые не страдают от этой же проблемы. Одним из самых простых является средний предельный эффект переменной. Предположим следующую модель логистической регрессии:
где - матрица (падежи) по (ковариатам), - веса регрессии для ковариат, - представляющая интерес переменная лечения, а - ее эффект.Икс N К β К d γ
Формула для среднего предельного эффекта будет иметь вид:d
Этот эффект был бы средней вероятностной разницей в исходе между группой лечения и контрольной группой для тех, кто имеет те же значения на других предикторах (см. Gelman & Hill, 2007, p. 101).
Соответствующий синтаксис R данного примера OP будет:
Я изменил синтаксис OP, чтобы продемонстрировать, что на него не влияют переменные в модели, если интересующая переменная предиктора не связана с другими предикторами.
Я изменил фрейм данных результатов так:
И в рамках симуляции я сохранил вычисленную среднюю разницу вероятностей:
И новые результаты:
Предполагаемый эффект был постоянным независимо от спецификации модели. А добавление ковариат повышает эффективность, как в случае модели линейной регрессии:
Существуют дополнительные эффекты, которые OP может вычислить, например, среднее отношение вероятностей между двумя группами. Средняя разность вероятностей, вычисленная выше, доступна из пакета полей в команде R и полей в Stata. Среднее отношение вероятностей доступно только в Stata.
На другой вопрос о достоверности результатов метаанализа. С одной стороны, направление эффекта не должно быть бесполезным. Проблема с коэффициентами шансов не влияет на знак коэффициентов. Таким образом, если большая часть исследований имеет отношение шансов выше единицы, нет причин сомневаться в этом эффекте из-за этой конкретной проблемы.
Что касается точной оценки, то нет причин верить этому. Хорошая вещь состоит в том, что, если составляющие исследования являются рандомизированными контролируемыми испытаниями, то отношения шансов являются консервативными оценками, а фактические результаты еще больше. Это связано с тем, что продемонстрированный эффект OP уменьшает отношение шансов к единице. Таким образом, если основная масса исследований имеет отношение шансов выше 1 и метаанализ указывает в этом направлении, то фактическое ИЛИ после того, как все соответствующие ковариаты будут скорректированы, еще больше. Таким образом, этот метаанализ не совсем бесполезен.
Но я бы предпочел использовать другие оценки эффекта в мета-анализе. Средняя разница вероятностей - это один подход, а есть и другие.
Gelman, A. & Hill, J. (2007). Анализ данных с использованием регрессионных и многоуровневых / иерархических моделей. Издательство Кембриджского университета.
источник