Собрав ценные отзывы о предыдущих вопросах и обсуждениях, я поставил следующий вопрос: предположим, что цель состоит в том, чтобы выявить различия в эффектах в двух группах, например, мужчины и женщины. Есть два способа сделать это:
запустить две отдельные регрессии для двух групп и использовать тест Вальда, чтобы отклонить (или нет) нулевую гипотезу : , где - коэффициент одного IV в мужской регрессии, а - коэффициент того же самого IV в женской регрессии.b 1 - b 2 = 0 b 1 b 2
объедините две группы вместе и запустите совместную модель, включив в себя гендерный манекен и термин взаимодействия (IV * гендерный манекен). Тогда обнаружение группового эффекта будет основано на признаке взаимодействия и t-критерия значимости.
Что если Ho отклоняется в случае (1), то есть различие в группе значимо, но коэффициент члена взаимодействия в случае (2) статистически незначим, то есть различие в группе несущественно. Или, наоборот, Ho не отклоняется в случае (1), а член взаимодействия имеет значение в случае (2). Я заканчивал с этим результатом несколько раз, и мне было интересно, какой результат будет более надежным, и какова причина этого противоречия.
Большое спасибо!
Ответы:
Первая модель будет полностью взаимодействовать с полом со всеми другими ковариатами в модели. По сути, эффект каждого ковариата (b2, b3 ... bn). Во второй модели влияние пола зависит только от вашего IV. Итак, если у вас больше ковариат, чем только IV и пол, это может привести к несколько иным результатам.
Если у вас есть только два ковариата, есть документированные случаи, когда разница в максимизации между тестом Вальда и тестом отношения правдоподобия приводит к разным ответам (см. Больше в Википедии ).
По своему опыту я стараюсь руководствоваться теорией. Если существует доминирующая теория, предполагающая, что пол будет взаимодействовать только с IV, но не с другими ковариатами, я бы пошел с частичным взаимодействием.
источник
Каждый раз, когда для проверки конкретной гипотезы используются две разные процедуры, будут разные значения p. Сказать, что одно имеет значение, а другое - не просто принятие черно-белого решения на уровне 0,05. Если один тест дает значение р 0,03, а другой скажет 0,07, я бы не назвал результаты противоречивыми. Если вы будете настолько строги в размышлениях о значении, то легко иметь ситуацию (i) или (ii), когда имеет значение значение совета директоров.
Как я упоминал в ответ на предыдущий вопрос, я предпочитаю искать взаимодействие, чтобы сделать одну комбинированную регрессию.
источник
Во втором случае стандартное программное обеспечение будет предлагать вам t-стат с p-значениями t-студента, тогда как в первом случае тесты Вальда могут иметь два варианта. При допущении нормальности ошибок статистика Вальда следует точной статистике Фишера (которая эквивалентна t-стату, так как предполагает нормальность ошибки). В то время как при асимптотической нормальности статистика Вальда следует распределению Chi2 (которое аналогично t-стату после асимптотически нормального распределения) Какое распределение вы предполагаете? В зависимости от этого ваши p-значения рискуют дать вам разные результаты.
В учебниках вы найдете, что для двухсторонних одиночных тестов (один параметр) статистика t-student и Fisher эквивалентна.
Если ваша выборка не велика, то сравнение значений chi2 и t-stat даст разные результаты наверняка. В этом случае допущение асимптотического распределения не будет разумным. Если ваша выборка довольно мала, то предполагается, что нормальность кажется более разумной, это подразумевает значения t-stat и Fisher для случая 2 и 1 соответственно.
источник