Я надеюсь, что кто-то может помочь исправить ситуацию для меня. Скажем, я хочу проверить, существенно ли отличаются два набора коэффициентов регрессии друг от друга, с помощью следующей настройки:
- , с 5 независимыми переменными.
- 2 группы, с примерно равными размерами (хотя это может варьироваться)
- Тысячи подобных регрессий будут выполняться одновременно, поэтому необходимо выполнить некоторую коррекцию множественных гипотез.
Один из подходов, который мне предложили, - это использовать Z-тест:
Еще один совет, который я видел на этой доске, - ввести фиктивную переменную для группировки и переписать модель следующим образом:
, где - группирующая переменная, закодированная как 0, 1.
Мой вопрос: как эти два подхода различны (например, сделаны разные предположения, гибкость)? Является ли один более подходящим, чем другой? Я подозреваю, что это довольно просто, но любые разъяснения будут с благодарностью.
Ответы:
Два подхода различаются.
Пусть оценочные стандартные ошибки двух регрессий равны и s 2 . Тогда, поскольку объединенная регрессия (со всеми взаимодействиями коэффициентов и фиктивных переменных) соответствует одним и тем же коэффициентам, она имеет те же невязки, откуда ее стандартная ошибка может быть вычислена какs1 s2
Число параметров равно 6 в примере: пять наклонов и пересечение в каждой регрессии.p 6
Пусть оценивает параметр в одной регрессии, b 2 оценивает тот же параметр в другой регрессии, а b оценивает их разность в комбинированной регрессии. Тогда их стандартные ошибки связаны сb1 b2 b
Если вы еще не сделали объединенную регрессию, но имеете статистику только для отдельных регрессий, вставьте предыдущее уравнение для . Это будет знаменатель для t-теста. Очевидно, это не то же самое, что знаменатель, представленный в вопросе.s
Предположение, сделанное объединенной регрессией, состоит в том, что отклонения от остатков по существу одинаковы в обеих отдельных регрессиях. Однако, если это не так, z-тест тоже не будет хорошим (если только размеры выборки не велики): вы можете использовать тест CABF или t-тест Welch-Satterthwaite.
источник
Самый прямой способ проверить разницу в коэффициентах между двумя группами - это включить в регрессию термин взаимодействия , который почти соответствует тому, что вы описываете в своем вопросе. Модель, которую вы запустите, выглядит следующим образом:
Обратите внимание, что я включил групповую переменную в качестве отдельного регрессора в модель. В этой модели тест с нулевой гипотезой H 0 : δ = 0 является проверкой того, что коэффициенты одинаковы между двумя группами. Чтобы увидеть это, сначала позвольте g i = 0 в приведенной выше модели. Затем мы получаем следующее уравнение для группы 0:t H0:δ=0 gi=0
Теперь, если , то имеем:gi=1
источник