Проверка равенства коэффициентов двух разных регрессий

44

Это кажется основной проблемой, но я только что понял, что на самом деле не знаю, как проверить равенство коэффициентов двух разных регрессий. Может кто-нибудь пролить некоторый свет на это?

Более формально, предположим, что я запустил следующие две регрессии: и где относится к матрице проектирования регрессии , а к вектору коэффициентов в регрессии , Обратите внимание, что и потенциально очень разные, с разными размерами и т. Д. Меня интересует, например, .

y1=X1β1+ϵ1
y2=X2β2+ϵ2
XiiβiiX1X2β^11β^21

Если бы они пришли из одной и той же регрессии, это было бы тривиально. Но так как они приходят от разных, я не совсем уверен, как это сделать. У кого-нибудь есть идея или можете дать мне несколько советов?

Моя проблема в деталях: моя первая интуиция состояла в том, чтобы посмотреть на доверительные интервалы, и если они перекрываются, то я бы сказал, что они по сути одинаковы. Однако эта процедура не соответствует правильному размеру теста (т. Е. Каждый отдельный доверительный интервал имеет , скажем, , но совместное рассмотрение их не будет иметь одинаковой вероятности). Моей «второй» интуицией было провести нормальный t-тест. То есть взятьα=0.05

β11β21sd(β11)

где принимается за значение моей нулевой гипотезы. Однако это не учитывает неопределенность оценки , и ответ может зависеть от порядка регрессий (который я называю 1 и 2).β21β21

Моя третья идея состояла в том, чтобы сделать это, как в стандартном тесте на равенство двух коэффициентов из одной и той же регрессии, то есть take

β11β21sd(β11β21)

Осложнение возникает из-за того, что оба происходят из разных регрессий. Обратите внимание, что

Var(β11β21)=Var(β11)+Var(β21)2Cov(β11,β21)
но так как они из разных регрессий, как мне получить ?Cov(β11,β21)

Это заставило меня задать этот вопрос здесь. Это должна быть стандартная процедура / стандартный тест, но я не могу найти ничего, что было бы достаточно похоже на эту проблему. Так что, если кто-нибудь может указать мне на правильную процедуру, я был бы очень благодарен!

coffeinjunky
источник
2
Похоже, это относится к моделированию структурных / одновременных уравнений. Одним из способов решения этой проблемы является одновременное согласование обоих уравнений, например, с максимальным правдоподобием, а затем использование критерия отношения правдоподобия ограниченной (модели с равными параметрами) против неограниченной модели. Практически это можно сделать с помощью программного обеспечения SEM (Mplus, Lavaan и т. Д.)
Tomka
2
Знаете ли вы о кажущейся несвязанной регрессии (SUR)?
Дмитрий Васильевич Мастеров
2
Я думаю, что вопрос, который вы подняли, то есть, как получить cov обоих коэффициентов, решается с помощью SEM, который даст вам матрицу var-cov всех коэффициентов. Тогда вы могли бы использовать тест Вальда так, как вы предлагали, вместо теста LRT. Кроме того, вы также можете использовать повторную выборку / начальную загрузку, которая может быть более прямой.
Томка
3
Да, вы правы об этом, @tomka. В модели SUR (которую можно условно рассмотреть как особый случай моделей SEM) я могу получить соответствующий тест. Спасибо, что указали мне в этом направлении! Я думаю, что не думал об этом, потому что это похоже на стрельбу по воробью из пушки, но я действительно не могу придумать лучшего способа. Если вы напишите ответ, я отмечу его как правильный. В противном случае, я скоро напишу это сам, с кратким теоретическим объяснением и, возможно, с примером.
coffeinjunky
1
SUR довольно легко реализовать. Вот один пример со Stata . С R вы хотите systemfit .
Дмитрий Васильевич Мастеров

Ответы:

30

Хотя это не общий анализ, он действительно представляет интерес. Принятый ответ соответствует тому, как вы задали свой вопрос, но я собираюсь предоставить другой достаточно хорошо принятый метод, который может быть или не быть эквивалентным (я оставлю это на ум лучше прокомментировать).

Этот подход заключается в использовании следующего Z-теста:

Z=β1β2(SEβ1)2+(SEβ2)2

Где - стандартная ошибка .SEββ

Это уравнение предоставлено Clogg, CC, Petkova E., & Haritou, A. (1995). Статистические методы сравнения коэффициентов регрессии между моделями. Американский журнал социологии , 100 (5), 1261-1293. и цитируется Paternoster R., Brame R., Mazerolle P. & Piquero A. (1998). Использование правильного статистического теста на равенство коэффициентов регрессии. Криминология , 36 (4), 859-866. уравнение 4, которое доступно без платного доступа. Я адаптировал формулу Петерностера, чтобы использовать вместоβbпотому что вполне возможно, что вас могут заинтересовать разные DV по какой-то ужасной причине и моей памяти о Clogg et al. было то, что их формула использовала . Я также помню перекрестную проверку этой формулы по Коэну, Коэну, Уэсту и Айкену, и корень того же мышления можно найти в доверительном интервале различий между коэффициентами, уравнение 2.8.6, стр. 46-47.β

russellpierce
источник
Смотрите также: stats.stackexchange.com/questions/55501/…
russellpierce
Отличный ответ! Дополнительный вопрос: относится ли это также к линейным комбинациям из Модели 1 и из Модели 2? Например,β1β2
Z=Aβ1Bβ2(SEAβ1)2+(SEBβ2)2
Sibbs Gambling
1
Также я заметил, что в статье обсуждается случай, когда одна модель вложена в другую, и DV двух моделей одинаковы. Что если эти два условия не будут выполнены? Вместо этого у меня матрицы дизайна двух моделей одинаковы, но у них разные DV. Эта формула все еще применяется? Большое спасибо!
Sibbs Gambling
1
@SibbsGambling: Вы можете сделать этот вопрос сами по себе, чтобы привлечь больше внимания.
Russellpierce
На первый взгляд, это выглядит как частный случай решения SUR, на который намекает coffeinjunky в ответе. Это особый случай, потому что ковариация между оценками и подразумевается равной нулю. Интересно, это вообще оправданно? Чтобы быть в безопасности, я бы пошел к более общему решению coffeinjunky вместо этого. Что заставляет меня задуматься, почему это принятый ответ с явным большинством голосов. β1β2
Ричард Харди
12

Для людей с похожим вопросом позвольте мне дать простую схему ответа.

Хитрость заключается в том, чтобы установить два уравнения как систему, казалось бы, не связанных между собой уравнений и оценить их совместно. То есть мы укладываем и друг на друга и делаем более или менее то же самое с матрицей проекта. То есть система для оценки:y1y2

(y1y2)=(X1  00  X2)(β1β2)+(e1e2)

Это приведет к дисперсионно-ковариационной матрице, которая позволяет проверять равенство двух коэффициентов.

coffeinjunky
источник
11
Я реализовал способ, который вы предложили, и сравнил его с способом выше. Я обнаружил, что ключевое отличие заключается в том, является ли предположение о том, что отклонение ошибки одинаково или нет. Ваш способ предполагает, что дисперсия ошибки одинакова, а способ выше не предполагает ее.
КХ Ким
2
Это хорошо сработало для меня. В Stata я сделал что-то вроде: expand =2, generate(indicator); generate y = cond(indicator, y2, y1); regress y i.indicator##c.X, vce(cluster id); использование кластеризованных стандартных ошибок объясняет тот факт, что e1 и e2 не являются независимыми для одного и того же наблюдения после суммирования набора данных.
wkschwartz
1
  • Когда регрессии происходят из двух разных выборок, вы можете предположить: что приводит к формуле, приведенной в другом ответе.Var(β1β2)=Var(β1)+Var(β2)

  • Но ваш вопрос был точно связан со случаем, когда . В этом случае, казалось бы, несвязанные уравнения представляются наиболее общим случаем. Тем не менее, он будет обеспечивать коэффициенты, отличные от коэффициентов из исходных уравнений, которые могут не соответствовать тому, что вы ищете.covar(β1,β2)0

  • (Clogg, CC, Petkova E., & Haritou, A. (1995). Статистические методы для сравнения коэффициентов регрессии между моделями. Американский журнал социологии, 100 (5), 1261-1293.) Представляет ответ в особом случае вложенных уравнений (т.е. чтобы получить второе уравнение, рассмотрите первое уравнение и добавьте несколько поясняющих переменных). Они говорят, что это легко реализовать.

  • Если я хорошо понимаю, в этом особом случае можно также применить тест Хаусмана. Ключевое отличие состоит в том, что их тест считает истинным второе (полное) уравнение, в то время как тест Хаусмана считает истинным первое уравнение.

  • Обратите внимание, что Clogg et al (1995) не подходит для панельных данных. Но их тест был обобщен (Yan, J., Aseltine Jr, RH, & Harel, O. (2013). Сравнение коэффициентов регрессии между вложенными линейными моделями для кластеризованных данных с обобщенными оценочными уравнениями. Журнал образовательной и поведенческой статистики, 38 (2), 172-189.) С пакетом, предоставленным в R: geepack См .: https://www.jstor.org/stable/pdf/41999419.pdf?refreqid=excelsior%3Aa0a3b20f2bc68223edb59e3254c234be&seq=1

И (для R-пакета): https://cran.r-project.org/web/packages/geepack/index.html

Александр Казенав-Лакруц
источник