Я использую модель OLS с непрерывной переменной индекса ресурса в качестве DV. Мои данные собраны из трех аналогичных сообществ в географической близости друг к другу. Несмотря на это, я подумал, что важно использовать сообщество в качестве управляющей переменной. Как оказалось, сообщество значимо на уровне 1% (t-оценка -4,52). Сообщество - это номинальная / категориальная переменная, закодированная как 1,2,3 для 1 из 3 различных сообществ.
Мой вопрос заключается в том, означает ли эта высокая степень значимости, что я должен проводить регрессию в сообществах индивидуально, а не как совокупность. Иначе, делает ли это использование сообщества в качестве управляющей переменной?
Ответы:
Вопрос предполагает сравнение трех связанных моделей. Чтобы сделать сравнение ясным, пусть будет зависимой переменной, пусть X ∈ { 1 , 2 , 3 } будет текущим кодом сообщества, и определим X 1 и X 2 как индикаторы сообществ 1 и 2 соответственно. (Это означает, что X 1 = 1 для сообщества 1 и X 1 = 0 для сообществ 2 и 3; X 2 = 1 для сообщества 2 и X 2 = 0Y Икс∈ { 1 , 2 , 3 } Икс1 Икс2 Икс1= 1 Икс1= 0 Икс2= 1 Икс2= 0 для сообществ 1 и 3.)
Текущий анализ может быть одним из следующих:
или же
В обоих случаях представляет собой набор одинаково распределенных независимых случайных величин с нулевым ожиданием. Вторая модель, скорее всего, предназначена, но первая модель будет соответствовать кодировке, описанной в вопросе.ε
Результатом регрессии OLS является набор подогнанных параметров (обозначенных «шляпами» на их символах) вместе с оценкой общей дисперсии ошибок. В первой модели есть один Т-тест для сравнения β к 0 . Во второй модели есть два t-критерия: один для сравнения ^ β 1 с 0 и другой для сравнения ^ β 2 с 0 . Поскольку вопрос содержит только один t-критерий, давайте начнем с изучения первой модели.β^ 0 β1^ 0 β2^ 0
Завершив , что β существенно отличается от 0 , мы можем сделать оценку Y = E [ α + β X + ε ] = α + β X для любого сообщества:β^ 0 Y E [α+βИкс+ ε ] α + βИкс
для сообщества 1 и оценка равна α + β ;Икс= 1 α + β
для сообщества 2 и оценка равна α + 2 β ; иИкс= 2 α + 2 β
для сообщества 3 и оценка равна α + 3 β .Икс= 3 α + 3 β
В частности, первая модель заставляет эффекты сообщества находиться в арифметической прогрессии. Если кодирование сообщества предназначено как простой способ различения сообществ, это встроенное ограничение одинаково произвольно и, вероятно, неправильно.
Поучительно выполнить тот же подробный анализ предсказаний второй модели:
Для сообщества 1, где и X 2 = 0 , прогнозируемое значение Y равно α + β 1 . В частности,Икс1= 1 Икс2= 0 Y α + β1
Для сообщества 2, где и X 2 = 1 , прогнозируемое значение Y равно α + β 2 . В частности,Икс1= 0 Икс2= 1 Y α + β2
Для сообщества 3, где , прогнозируемое значение Y равно α . В частности,Икс1= Х2= 0 Y α
Три параметра эффективно дают второй модели полную свободу для оценки трех ожидаемых значений отдельно.Y Т-тесты оценивают ли (1) ; то есть, есть ли разница между сообществами 1 и 3; и (2) β 2 = 0 ; то есть, есть ли разница между общинами 2 и 3. Кроме того, можно проверить «контраст» β 2 - β 1 с т-тест , чтобы увидеть , различаются ли сообщества 2 и 1: это работает , потому что их разность ( α + β 2 ) - ( α +β1= 0 β2= 0 β2- β1 = β 2 - β 1 .( α + β2) - ( α + β1) β2- β1
Теперь мы можем оценить влияние трех отдельных регрессий. Они будут
Сравнивая это со второй моделью, мы видим, что должен совпадать с α + β 1 , α 2 должен совпадать с α + β 2 , а α 3 должен совпадать с α . Итак, с точки зрения гибкости подгонки параметров обе модели одинаково хороши. Тем не менее, предположения в этой модели о членах ошибки слабее. Все ε 1 должны быть независимыми и одинаково распределенными (iid); все ε 2 должны быть iid, и все ε 3 должны быть iid,α1 α + β1 α2 α + β2 α3 α ε1 ε2 ε3 но ничего не предполагается относительно статистических отношений между отдельными регрессиями. Таким образом, отдельные регрессии обеспечивают дополнительную гибкость:
Эта дополнительная гибкость означает, что результаты t-теста для параметров, вероятно, будут отличаться между второй и третьей моделью. (Однако это не должно приводить к различным оценкам параметров.)
Чтобы увидеть, нужны ли отдельные регрессии , сделайте следующее:
Подойдет вторая модель. График остатков против сообщества, например, в виде ряда бок о бок, трио гистограмм или даже три вероятностных графика. Ищите доказательства различных форм распределения и особенно заметно различающихся отклонений. Если это доказательство отсутствует, вторая модель должна быть в порядке. Если он присутствует, отдельные регрессии оправданы.
Когда модели являются многомерными, то есть включают другие факторы, возможен аналогичный анализ с аналогичными (но более сложными) выводами. В общем, выполнение отдельных регрессий равносильно включению всех возможных двусторонних взаимодействий с переменной сообщества (закодировано как во второй модели, а не в первой) и допускает различные распределения ошибок для каждого сообщества.
источник
источник