Должен ли я проводить отдельные регрессии для каждого сообщества или сообщество может быть просто управляющей переменной в агрегированной модели?

11

Я использую модель OLS с непрерывной переменной индекса ресурса в качестве DV. Мои данные собраны из трех аналогичных сообществ в географической близости друг к другу. Несмотря на это, я подумал, что важно использовать сообщество в качестве управляющей переменной. Как оказалось, сообщество значимо на уровне 1% (t-оценка -4,52). Сообщество - это номинальная / категориальная переменная, закодированная как 1,2,3 для 1 из 3 различных сообществ.

Мой вопрос заключается в том, означает ли эта высокая степень значимости, что я должен проводить регрессию в сообществах индивидуально, а не как совокупность. Иначе, делает ли это использование сообщества в качестве управляющей переменной?

cadamt
источник
Имеет ли смысл использовать иерархическую модель с сообществом в качестве случайного эффекта? Сообщества не являются вашей главной заботой, не так ли? Используя иерархическую модель, вы разделяете силу.
Уэйн

Ответы:

14

Вопрос предполагает сравнение трех связанных моделей. Чтобы сделать сравнение ясным, пусть будет зависимой переменной, пусть X { 1 , 2 , 3 } будет текущим кодом сообщества, и определим X 1 и X 2 как индикаторы сообществ 1 и 2 соответственно. (Это означает, что X 1 = 1 для сообщества 1 и X 1 = 0 для сообществ 2 и 3; X 2 = 1 для сообщества 2 и X 2 = 0YX{1,2,3}X1X2X1=1X1=0X2=1X2=0 для сообществ 1 и 3.)

Текущий анализ может быть одним из следующих:

Y=α+βX+ε(first model)

или же

Y=α+β1X1+β2X2+ε(second model).

В обоих случаях представляет собой набор одинаково распределенных независимых случайных величин с нулевым ожиданием. Вторая модель, скорее всего, предназначена, но первая модель будет соответствовать кодировке, описанной в вопросе.ε

Результатом регрессии OLS является набор подогнанных параметров (обозначенных «шляпами» на их символах) вместе с оценкой общей дисперсии ошибок. В первой модели есть один Т-тест для сравнения β к 0 . Во второй модели есть два t-критерия: один для сравнения ^ β 1 с 0 и другой для сравнения ^ β 2 с 0 . Поскольку вопрос содержит только один t-критерий, давайте начнем с изучения первой модели.β^0β1^0β2^0

Завершив , что β существенно отличается от 0 , мы можем сделать оценку Y = E [ α + β X + ε ] = α + β X для любого сообщества:β^0YE[α+βX+ε]α+βX

для сообщества 1 и оценка равна α + β ;X=1α+β

для сообщества 2 и оценка равна α + 2 β ; иX=2α+2β

для сообщества 3 и оценка равна α + 3 β . X=3α+3β

В частности, первая модель заставляет эффекты сообщества находиться в арифметической прогрессии. Если кодирование сообщества предназначено как простой способ различения сообществ, это встроенное ограничение одинаково произвольно и, вероятно, неправильно.

Поучительно выполнить тот же подробный анализ предсказаний второй модели:

Для сообщества 1, где и X 2 = 0 , прогнозируемое значение Y равно α + β 1 . В частности,X1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

Для сообщества 2, где и X 2 = 1 , прогнозируемое значение Y равно α + β 2 . В частности,X1=0X2=1Yα+β2

Y(community 2)=α+β2+ε.

Для сообщества 3, где , прогнозируемое значение Y равно α . В частности,X1=X2=0Yα

Y(community 3)=α+ε.

Три параметра эффективно дают второй модели полную свободу для оценки трех ожидаемых значений отдельно. Y Т-тесты оценивают ли (1) ; то есть, есть ли разница между сообществами 1 и 3; и (2) β 2 = 0 ; то есть, есть ли разница между общинами 2 и 3. Кроме того, можно проверить «контраст» β 2 - β 1 с т-тест , чтобы увидеть , различаются ли сообщества 2 и 1: это работает , потому что их разность ( α + β 2 ) - ( α +β1=0β2=0β2β1 = β 2 - β 1 .(α+β2)(α+β1)β2β1

Теперь мы можем оценить влияние трех отдельных регрессий. Они будут

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

Сравнивая это со второй моделью, мы видим, что должен совпадать с α + β 1 , α 2 должен совпадать с α + β 2 , а α 3 должен совпадать с α . Итак, с точки зрения гибкости подгонки параметров обе модели одинаково хороши. Тем не менее, предположения в этой модели о членах ошибки слабее. Все ε 1 должны быть независимыми и одинаково распределенными (iid); все ε 2 должны быть iid, и все ε 3 должны быть iid,α1α+β1α2α+β2α3αε1ε2ε3но ничего не предполагается относительно статистических отношений между отдельными регрессиями. Таким образом, отдельные регрессии обеспечивают дополнительную гибкость:

  • ε1ε2ε3

  • εiεj

Эта дополнительная гибкость означает, что результаты t-теста для параметров, вероятно, будут отличаться между второй и третьей моделью. (Однако это не должно приводить к различным оценкам параметров.)

Чтобы увидеть, нужны ли отдельные регрессии , сделайте следующее:

Подойдет вторая модель. График остатков против сообщества, например, в виде ряда бок о бок, трио гистограмм или даже три вероятностных графика. Ищите доказательства различных форм распределения и особенно заметно различающихся отклонений. Если это доказательство отсутствует, вторая модель должна быть в порядке. Если он присутствует, отдельные регрессии оправданы.

Когда модели являются многомерными, то есть включают другие факторы, возможен аналогичный анализ с аналогичными (но более сложными) выводами. В общем, выполнение отдельных регрессий равносильно включению всех возможных двусторонних взаимодействий с переменной сообщества (закодировано как во второй модели, а не в первой) и допускает различные распределения ошибок для каждого сообщества.

Whuber
источник
-3
  • Выбор модели (ИМХО) введите описание изображения здесьможет быть рекомендован. Поскольку сложные модели (отдельный уклон) будут иметь более строгий штраф, таким образом, более сжатые и легкие для интерпретации модели будут «лучше».
Иван Кшнясев
источник
1
Не совсем понятно, что вы рекомендуете здесь, или как эта таблица связана с этим.
Scortchi - Восстановить Монику