Меня интересует лучшее понимание дельта-метода для аппроксимации стандартных ошибок средних предельных эффектов регрессионной модели, включающей термин взаимодействия. Я посмотрел на связанные вопросы в рамках дельта-метода, но ни один из них не дал того, что я ищу.
Рассмотрим следующие данные в качестве мотивирующего примера:
set.seed(1)
x1 <- rnorm(100)
x2 <- rbinom(100,1,.5)
y <- x1 + x2 + x1*x2 + rnorm(100)
m <- lm(y ~ x1*x2)
Меня интересуют средние предельные эффекты (AMEs) x1
и x2
. Чтобы вычислить их, я просто делаю следующее:
cf <- summary(m)$coef
me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2
me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of x2 given x1
mean(me_x1) # AME of x1
mean(me_x2) # AME of x2
Но как я могу использовать дельта-метод для расчета стандартных ошибок этих AME?
Я могу рассчитать SE для этого конкретного взаимодействия вручную:
v <- vcov(m)
sqrt(v['x1','x1'] + (mean(x2)^2)*v['x1:x2','x1:x2'] + 2*mean(x2)*v['x1','x1:x2'])
Но я не понимаю, как использовать дельта-метод.
В идеале я ищу некоторые рекомендации о том, как думать (и кодировать) дельта-метод для AME любой модели произвольной регрессии. Например, этот вопрос предоставляет формулу для SE для конкретного эффекта взаимодействия, а в этом документе от Мэтта Голдера приводятся формулы для различных интерактивных моделей, но я хочу лучше понять общую процедуру вычисления SE для AME, а не формулу для SE любого конкретного AME.
Ответы:
Дельта-метод просто говорит, что если вы можете представить вспомогательную переменную, которую вы можете представить как функцию от нормально распределенных случайных величин, эта вспомогательная переменная приблизительно нормально распределена с дисперсией, соответствующей степени изменения вспомогательной функции по отношению к нормальным переменным (РЕДАКТИРОВАТЬ: как отметил Алекос Пападопулос, дельта-метод может быть сформулирован более широко, так что он не требует асимптотической нормальности). Проще всего думать об этом как о разложении Тейлора, где первый член функции является средним, а дисперсия исходит из членов второго порядка. В частности, если - функция параметра β, а b - согласованная, нормально распределенная оценка для этого параметра: g (грамм β б
Поскольку β - постоянная величина, а b - непротиворечивая оценка для β , мы можем тогда сказать:
√
R
numDeriv
ADDENDUM: в этом конкретном случае
R
код будет:источник
mean(x2)
при расчете SE. Разве это не было бы только для предельного эффекта в среднем? Моя интуиция состояла бы в том, что для AME я должен был бы проводить SE для каждого наблюдения, а затем усреднять их.g
среднее значение предельных эффектов для каждого индивидуума и, возможно, использовать числовой градиент, я не уверен, что взятие SE для каждого будет совершенно одинаковым.