Как правильно проверить существенные различия между коэффициентами?

18

Я надеюсь, что кто-то может помочь исправить ситуацию для меня. Скажем, я хочу проверить, существенно ли отличаются два набора коэффициентов регрессии друг от друга, с помощью следующей настройки:

  • yi=α+βxi+ϵi , с 5 независимыми переменными.
  • 2 группы, с примерно равными размерами n1,n2 (хотя это может варьироваться)
  • Тысячи подобных регрессий будут выполняться одновременно, поэтому необходимо выполнить некоторую коррекцию множественных гипотез.

Один из подходов, который мне предложили, - это использовать Z-тест:

Z=b1b2(SEb12+SEb22)

Еще один совет, который я видел на этой доске, - ввести фиктивную переменную для группировки и переписать модель следующим образом:

yi=α+βxi+δ(xigi)+ϵi , гдеg - группирующая переменная, закодированная как 0, 1.

Мой вопрос: как эти два подхода различны (например, сделаны разные предположения, гибкость)? Является ли один более подходящим, чем другой? Я подозреваю, что это довольно просто, но любые разъяснения будут с благодарностью.

cashoes
источник
Я считаю, что ответы и комментарии к подобному вопросу могут дать некоторые разъяснения, которые вы ищете.
whuber
Спасибо, что. Я был знаком с этим ответом. Из приведенного ниже обсуждения принятого ответа (и ваших комментариев там) у меня сложилось впечатление, что сравнение коэффициентов 2 отдельных подборок было неуместным. Применяется ли z-критерий к коэффициентам из отдельных подборок некорректно, или же кодирование фиктивной переменной просто проще и дает эквивалентный ответ?
День
1
Пожалуйста, смотрите последний абзац моего ответа («Основное ограничение ...»). Z-тест действителен, если предположить, что большие (в противном случае они используются при тестировании) и предполагаемые стандартные отклонения S E b i не слишком отличаются друг от друга. Ни один из подходов не является наилучшим, когда стандартные отклонения сильно различаются (примерно, больше, чем соотношение 3: 1). niSEbi
whuber

Ответы:

13

Два подхода различаются.

Пусть оценочные стандартные ошибки двух регрессий равны и s 2 . Тогда, поскольку объединенная регрессия (со всеми взаимодействиями коэффициентов и фиктивных переменных) соответствует одним и тем же коэффициентам, она имеет те же невязки, откуда ее стандартная ошибка может быть вычислена какs1s2

s=(n1p)s12+(n2p)s22)n1+n22p.

Число параметров равно 6 в примере: пять наклонов и пересечение в каждой регрессии.p6

Пусть оценивает параметр в одной регрессии, b 2 оценивает тот же параметр в другой регрессии, а b оценивает их разность в комбинированной регрессии. Тогда их стандартные ошибки связаны сb1b2b

SE(b)=s(SE(b1)/s1)2+(SE(b2)/s2)2.

Если вы еще не сделали объединенную регрессию, но имеете статистику только для отдельных регрессий, вставьте предыдущее уравнение для . Это будет знаменатель для t-теста. Очевидно, это не то же самое, что знаменатель, представленный в вопросе.s

Предположение, сделанное объединенной регрессией, состоит в том, что отклонения от остатков по существу одинаковы в обеих отдельных регрессиях. Однако, если это не так, z-тест тоже не будет хорошим (если только размеры выборки не велики): вы можете использовать тест CABF или t-тест Welch-Satterthwaite.

Whuber
источник
9

Самый прямой способ проверить разницу в коэффициентах между двумя группами - это включить в регрессию термин взаимодействия , который почти соответствует тому, что вы описываете в своем вопросе. Модель, которую вы запустите, выглядит следующим образом:

yi=α+βxi+γgi+δ(xi×gi)+εi

Обратите внимание, что я включил групповую переменную в качестве отдельного регрессора в модель. В этой модели тест с нулевой гипотезой H 0 : δ = 0 является проверкой того, что коэффициенты одинаковы между двумя группами. Чтобы увидеть это, сначала позвольте g i = 0 в приведенной выше модели. Затем мы получаем следующее уравнение для группы 0:tH0:δ=0gi=0

yi=α+βxi+εi

Теперь, если , то имеем:gi=1

yi=(α+γ)+(β+δ)xi+εi

δ

Мэтт Блэквелл
источник
Спасибо за исправление модели (я полагаю, что моя версия выше просто заставляет перехват быть одинаковым в обеих группах ...). Более того, будет ли это эквивалентно z-тесту, который я выложил выше?
День
yi=α+βxi+γgi+εiyi=α+βxi+γgi+δ(xi×gi)+εi
@ matt-blackwell это концептуально то же самое, что стратификация модели по каждому значению g? (т.е. b будет коэффициентом x, когда g = 0, и бета + дельта, когда g = 1) Хотя я понимаю, что стратификация не позволяет проводить статистическое сравнение.
bobmcpop