Как проверить, модерируется ли коэффициент регрессии переменной группировки?

9

У меня есть регрессия, проведенная в двух группах выборки на основе модерирующей переменной (скажем, пола). Я делаю простой тест на смягчающий эффект, проверяя, потеряна ли значимость регрессии в одном наборе, а в другом.

Q1: приведенный выше метод действителен, не так ли?

Q2: уровень достоверности моего исследования установлен на уровне 95%. Для одной группы регрессия значима на уровне .000. С другой стороны, оно значимо на уровне 0,038. Поэтому я считаю, что я должен принять обе регрессии как значимые, и что эффект замедления отсутствует. Принятие регрессии является значительным, в то время как доказано, что оно не в 0,01. Я вызываю ошибку I типа (принимая ложный аргумент)?

скорпион
источник

Ответы:

12

Ваш метод, по-видимому, не отвечает на этот вопрос, предполагая, что «эффект смягчения» - это изменение одного или нескольких коэффициентов регрессии между двумя группами. Критерии значимости в регрессии оценивают, являются ли коэффициенты ненулевыми. Сравнение значений р в двух регрессиях мало что говорит (если вообще что-то) о различиях в этих коэффициентах между двумя выборками.

Вместо этого, представьте пол как фиктивную переменную и взаимодействуйте со всеми интересующими коэффициентами. Затем проверьте на значимость связанных коэффициентов.

Например, в простейшем случае (с одной независимой переменной) ваши данные могут быть выражены в виде списка кортежей, где g i - это роды, закодированные как 0 и 1 . Модель для пола 0 есть(xi,yi,gi)гя010

Yязнак равноα0+β0Икся+εя

(где индексирует данные , для которых г я = 0 ) и модель для пола 1 являетсяягязнак равно01

Yязнак равноα1+β1Икся+εя

(где индексирует данные, для которых g i = 1 ). Параметры α 0 , α 1 , β 0 , и & beta ; 1 . Ошибки являются ε i . Давайте предположим, что они независимы и одинаково распределены с нулевым средним. Комбинированная модель для проверки разницы в наклонах ( β ) может быть записана какягязнак равно1α0α1β0β1εяβ

Yязнак равноα+β0Икся+(β1-β0)(Иксягя)+εя

(где охватывает все данные), потому что когда вы устанавливаете g i = 0, последний член выпадает, давая первой модели с α = α 0 , а когда вы устанавливаете g i = 1, два множителя x i объединяются, чтобы дать β 1 , что дает вторую модель с α = α 1 . Таким образом, вы можете проверить, одинаковы ли наклоны («эффект замедления»), подгоняя модельягязнак равно0αзнак равноα0гязнак равно1Иксяβ1αзнак равноα1

Yязнак равноα+βИкся+γ(Иксягя)+εя

и тестирование ли оценочный модераторы размер , равен нуль. Если вы не уверены, что перехваты будут одинаковыми, включите четвертый термин:γ^

Yязнак равноα+δгя+βИкся+γ(Иксягя)+εя,

Вы не обязательно должны проверить , является ли δ равен нулю, если это не представляет никакого интереса: он включен , чтобы отдельные линейные припадки в двух полов , не заставляя их иметь тот же перехватывать.δ^

Основным ограничением этого подхода является предположение о том , что дисперсии ошибок одинаковы для обоих полов. Если нет, вам необходимо включить эту возможность, а это требует немного больше работы с программным обеспечением, чтобы соответствовать модели, и глубже задуматься о том, как проверить значимость коэффициентов.εя

Whuber
источник
Спасибо, я могу понять, как это работает. Этот метод работает, если у меня есть несколько модерирующих переменных? Скажем, например, регион (сельский / городской), уровень образования (высшее образование / нет)? Могу ли я добавить дополнительные фиктивные переменные и проверить эффект?
скорпион
1
@whuber, я иногда сталкиваюсь с функционально схожими ситуациями, в которых аналитик просто разбивает выборку на две группы, использует один и тот же набор независимых переменных для обеих групп и просто качественно сравнивает коэффициенты. Есть ли какие-то преимущества в той ситуации, которую я только что описал, по сравнению с этой формулой использования эффектов взаимодействия?
Энди W
3
@ Andy Без какого-либо намерения казаться критичным или осуждающим, единственное преимущество, которое я могу придумать для качественного метода, состоит в том, что он не предъявляет требований к пониманию или компетентности аналитика: это делает его доступным для большего количества людей. Качественный подход чреват трудностями. Например, могут быть большие очевидные различия между склонами и пересечениями только по случайности. Качественная оценка только коэффициентов не сможет отличить эту ситуацию от реальных последствий.
whuber
1
@whuber, моя первоначальная мысль была такой же, и я недавно дал то же самое предложение коллеге, который проигнорировал это предложение ради простоты (как вы намекали). Я подумал, что, возможно, комментарий о предположении, что отклонения ошибок одинаковы для обоих полов, может сделать двухмодельный подход более подходящим, учитывая, что это предположение нарушается.
Энди W
1
@ Andy Да, но возможность различных отклонений не увеличивает ценность не качественного сравнения. Скорее, это потребовало бы более детального количественного сравнения оценок параметров. Например, в качестве грубого (но информативного) приближения можно выполнить вариант t-критерия CABF или Satterthwaite, основанный на оцененных дисперсиях ошибок и их степенях свободы. Даже визуальное исследование хорошо построенной диаграммы рассеяния было бы легко сделать и гораздо более информативным, чем простое сравнение коэффициентов регрессии.
whuber
-1

Я предполагаю, что модерирование группирующей переменной будет одинаково хорошо работать при сравнении коэффициентов регрессии для независимых волн поперечных данных (например, год1, год2 и год3 как группа1, группа2 и группа3)?

bloodnut
источник