Это кажется основной проблемой, но я только что понял, что на самом деле не знаю, как проверить равенство коэффициентов двух разных регрессий. Может кто-нибудь пролить некоторый свет на это?
Более формально, предположим, что я запустил следующие две регрессии: и где относится к матрице проектирования регрессии , а к вектору коэффициентов в регрессии , Обратите внимание, что и потенциально очень разные, с разными размерами и т. Д. Меня интересует, например, .
Если бы они пришли из одной и той же регрессии, это было бы тривиально. Но так как они приходят от разных, я не совсем уверен, как это сделать. У кого-нибудь есть идея или можете дать мне несколько советов?
Моя проблема в деталях: моя первая интуиция состояла в том, чтобы посмотреть на доверительные интервалы, и если они перекрываются, то я бы сказал, что они по сути одинаковы. Однако эта процедура не соответствует правильному размеру теста (т. Е. Каждый отдельный доверительный интервал имеет , скажем, , но совместное рассмотрение их не будет иметь одинаковой вероятности). Моей «второй» интуицией было провести нормальный t-тест. То есть взять
где принимается за значение моей нулевой гипотезы. Однако это не учитывает неопределенность оценки , и ответ может зависеть от порядка регрессий (который я называю 1 и 2).
Моя третья идея состояла в том, чтобы сделать это, как в стандартном тесте на равенство двух коэффициентов из одной и той же регрессии, то есть take
Осложнение возникает из-за того, что оба происходят из разных регрессий. Обратите внимание, что
Это заставило меня задать этот вопрос здесь. Это должна быть стандартная процедура / стандартный тест, но я не могу найти ничего, что было бы достаточно похоже на эту проблему. Так что, если кто-нибудь может указать мне на правильную процедуру, я был бы очень благодарен!
источник
Ответы:
Хотя это не общий анализ, он действительно представляет интерес. Принятый ответ соответствует тому, как вы задали свой вопрос, но я собираюсь предоставить другой достаточно хорошо принятый метод, который может быть или не быть эквивалентным (я оставлю это на ум лучше прокомментировать).
Этот подход заключается в использовании следующего Z-теста:
Где - стандартная ошибка .SEβ β
Это уравнение предоставлено Clogg, CC, Petkova E., & Haritou, A. (1995). Статистические методы сравнения коэффициентов регрессии между моделями. Американский журнал социологии , 100 (5), 1261-1293. и цитируется Paternoster R., Brame R., Mazerolle P. & Piquero A. (1998). Использование правильного статистического теста на равенство коэффициентов регрессии. Криминология , 36 (4), 859-866. уравнение 4, которое доступно без платного доступа. Я адаптировал формулу Петерностера, чтобы использовать вместоβ b потому что вполне возможно, что вас могут заинтересовать разные DV по какой-то ужасной причине и моей памяти о Clogg et al. было то, что их формула использовала . Я также помню перекрестную проверку этой формулы по Коэну, Коэну, Уэсту и Айкену, и корень того же мышления можно найти в доверительном интервале различий между коэффициентами, уравнение 2.8.6, стр. 46-47.β
источник
Для людей с похожим вопросом позвольте мне дать простую схему ответа.
Хитрость заключается в том, чтобы установить два уравнения как систему, казалось бы, не связанных между собой уравнений и оценить их совместно. То есть мы укладываем и друг на друга и делаем более или менее то же самое с матрицей проекта. То есть система для оценки:y1 y2
Это приведет к дисперсионно-ковариационной матрице, которая позволяет проверять равенство двух коэффициентов.
источник
expand =2, generate(indicator); generate y = cond(indicator, y2, y1); regress y i.indicator##c.X, vce(cluster id);
использование кластеризованных стандартных ошибок объясняет тот факт, что e1 и e2 не являются независимыми для одного и того же наблюдения после суммирования набора данных.Когда регрессии происходят из двух разных выборок, вы можете предположить: что приводит к формуле, приведенной в другом ответе.Var(β1−β2)=Var(β1)+Var(β2)
Но ваш вопрос был точно связан со случаем, когда . В этом случае, казалось бы, несвязанные уравнения представляются наиболее общим случаем. Тем не менее, он будет обеспечивать коэффициенты, отличные от коэффициентов из исходных уравнений, которые могут не соответствовать тому, что вы ищете.covar(β1,β2)≠0
(Clogg, CC, Petkova E., & Haritou, A. (1995). Статистические методы для сравнения коэффициентов регрессии между моделями. Американский журнал социологии, 100 (5), 1261-1293.) Представляет ответ в особом случае вложенных уравнений (т.е. чтобы получить второе уравнение, рассмотрите первое уравнение и добавьте несколько поясняющих переменных). Они говорят, что это легко реализовать.
Если я хорошо понимаю, в этом особом случае можно также применить тест Хаусмана. Ключевое отличие состоит в том, что их тест считает истинным второе (полное) уравнение, в то время как тест Хаусмана считает истинным первое уравнение.
Обратите внимание, что Clogg et al (1995) не подходит для панельных данных. Но их тест был обобщен (Yan, J., Aseltine Jr, RH, & Harel, O. (2013). Сравнение коэффициентов регрессии между вложенными линейными моделями для кластеризованных данных с обобщенными оценочными уравнениями. Журнал образовательной и поведенческой статистики, 38 (2), 172-189.) С пакетом, предоставленным в R: geepack См .: https://www.jstor.org/stable/pdf/41999419.pdf?refreqid=excelsior%3Aa0a3b20f2bc68223edb59e3254c234be&seq=1
И (для R-пакета): https://cran.r-project.org/web/packages/geepack/index.html
источник