Как выполнить остаточный анализ для бинарных / дихотомических независимых предикторов в линейной регрессии?

Я выполняю множественную линейную регрессию ниже в R, чтобы предсказать доходность управляемого фонда.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Здесь только GRI и MBA являются бинарными / дихотомическими предикторами; остальные предикторы являются непрерывными.

Я использую этот код для генерации остаточных графиков для двоичных переменных.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x)

Мой вопрос: я знаю, как проверять остаточные графики для непрерывных предикторов, но как вы проверяете предположения о линейной регрессии, такие как гомоскедастичность, когда независимая переменная является двоичной?

Остаточные участки:

Остаточный участок для GR1 Остаточный участок для MBA

r multiple-regression categorical-data heteroscedasticity residuals GeorgeOfTheRF
источник

Ответы:

@NickCox хорошо поработал, рассказав об отображениях остатков, когда у вас есть две группы. Позвольте мне обратиться к некоторым из явных вопросов и неявных предположений, которые лежат в основе этой темы.

Вопрос спрашивает: «Как вы проверяете предположения о линейной регрессии, такие как гомоскедастичность, когда независимая переменная является двоичной?» У вас есть модель множественной регрессии. Модель (множественной) регрессии предполагает, что существует только один член ошибки, который является постоянным везде. Не очень важно (и не нужно) проверять гетероскедастичность для каждого предиктора в отдельности. Вот почему, когда у нас есть модель множественной регрессии, мы диагностируем гетероскедастичность по графикам остатков по сравнению с прогнозируемыми значениями. Вероятно, наиболее полезным графиком для этой цели является график масштаба (также называемый «спред-уровень»), который представляет собой квадратный корень из абсолютного значения остатков по сравнению с прогнозируемыми значениями. Чтобы увидеть примеры,Что означает наличие «постоянной дисперсии» в модели линейной регрессии?

Кроме того, вам не нужно проверять невязки для каждого предиктора на нормальность. (Я, честно говоря, даже не знаю, как это будет работать.)

То, что вы можете сделать с графиками остатков для отдельных предикторов, это проверить, правильно ли указана функциональная форма. Например, если остатки образуют параболу, в данных, которые вы пропустили, есть некоторая кривизна. Чтобы увидеть пример, посмотрите на второй график в ответе @ Glen_b здесь: Проверка качества модели в линейной регрессии . Однако эти проблемы не относятся к двоичному предиктору.

Для чего это стоит, если у вас есть только категориальные предикторы, вы можете проверить на гетероскедастичность. Вы просто используете тест Левена. Я обсуждаю это здесь: почему Левен проверяет равенство дисперсий, а не отношение F? В R вы используете ? LeveneTest из пакета автомобиля.

Изменить: Чтобы лучше проиллюстрировать точку зрения, что просмотр графика невязки по сравнению с отдельной переменной предиктора не помогает, если у вас есть модель множественной регрессии, рассмотрите этот пример:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

Из процесса генерации данных видно, что гетероскедастичности нет. Давайте рассмотрим соответствующие графики модели, чтобы увидеть, подразумевают ли они проблемную гетероскедастичность:

введите описание изображения здесь

Нет, не о чем беспокоиться. Тем не менее, давайте посмотрим на график зависимости невязок от отдельной двоичной переменной-предиктора, чтобы увидеть, есть ли там гетероскедастичность:

введите описание изображения здесь

О-о, похоже, может быть проблема. Из процесса генерации данных мы знаем, что нет никакой гетероскедастичности, и основные графики для исследования этого также не показали, так что же здесь происходит? Может быть, эти участки помогут:

введите описание изображения здесь

x1 а также x2 не являются независимыми друг от друга. Причем наблюдения там, где x2 = 1крайности. У них больше рычагов, поэтому их остатки, естественно, меньше. Тем не менее, нет гетероскедастичности.

Сообщение «забрать домой»: Лучше всего диагностировать гетероскедастичность только по соответствующим графикам (график зависимости остатков от подгонки и график уровня спреда).

Gung - Восстановить Монику
источник

Спасибо! Для той же регрессии, которую я делал, я обнаружил, что Residual Vs Y гомоскедастичен, но когда я проверил Residual Vs владение (независимо), это была форма воронки. Так что мне нужно сделать некоторые преобразования, чтобы исправить это право? Тогда в этом контексте просто хотел понять, почему вы упомянули, что проверка остаточной Vs независимой переменной не нужна?

GeorgeOfTheRF

@ mrcet007, нет, тебе не нужно преобразование. Если соотнесенное соотношение показывает отсутствие гетероскедастичности, вы в порядке. Возможно, иллюстрация поможет вам. Я отредактировал свой ответ, чтобы добавить демонстрацию.

gung - Восстановить Монику

Можете ли вы проверить эту ссылку people.duke.edu/~rnau/testing.htm . В нем также указывается проверка остаточной и независимой переменной. Просто делюсь для обсуждения ради. Можете ли вы прокомментировать это? Я думал о том, что нам нужно всегда проверять как прогнозируемые остаточные, так и независимые. гомоскедастичность (постоянная дисперсия) ошибок (a) в зависимости от времени (в случае данных временных рядов) (b) в сравнении с прогнозами (c) в сравнении с любой независимой переменной

GeorgeOfTheRF

Мой комментарий заключается в том, что я предоставил вам причину, по которой вы смотрите на графики остаточных и прогнозных значений, чтобы проверить гетероскедастичность, и показал вам пример того, как просмотр графиков остаточных и IV может привести вас в заблуждение. Я не знаю, что еще можно сказать.

gung - Восстановить Монику

Это правда, что обычные остаточные графики в этом случае труднее: может быть (намного) сложнее увидеть, являются ли распределения примерно одинаковыми. Но здесь есть легкие альтернативы. Вы просто сравниваете два дистрибутива, и есть много хороших способов сделать это. Некоторые возможности представляют собой расположенные рядом или наложенные квантильные графики, гистограммы или коробочные графики. Мое собственное предубеждение заключается в том, что приукрашенные квадраты часто здесь используются слишком часто: они обычно подавляют детали, на которые нам следует обратить внимание, даже если мы можем часто отклонять их как неважные. Но вы можете съесть свой торт и иметь его.

Вы используете R, но в вашем вопросе нет ничего статистического. Здесь я использовал Stata для регрессии на одном двоичном предикторе, а затем запустил графики квантильных блоков, сравнивая невязки для двух уровней предиктора. Практический вывод в этом примере состоит в том, что распределения примерно одинаковы.

введите описание изображения здесь

$1/4$ $3/4$

Примечание. См. Также Как представить прямоугольник с экстремальным выбросом? включая пример @ Glen_b подобных графиков, использующих R. Такие графики должны быть просты в любом приличном программном обеспечении; если нет, ваше программное обеспечение не приличное.

Ник Кокс
источник

+1 Красиво. Считаете ли вы, что здесь есть роль для проверки гипотез об остатках?

Алексис

@gung Я отредактировал твою правку. Очевидно, оригинал был недостаточно ясен, если вы его неправильно поняли.

Ник Кокс

@ Алексис Спасибо! Я доволен идеей, что в этом случае неформально поддерживается гипотеза о равном разбросе. Я не из школы мысли, что каждый маленький шаг в анализе должен быть освящен P-значением. К сожалению, никогда не бывает легко быть уверенным, что вы прыгаете правильно, но на практике я бы развлекал и другие модели, если бы у меня были сомнения. Здесь пример только придуман для вопроса, а не является частью серьезного анализа.

Ник Кокс

Мои извинения, Ник. Я неправильно понял смысл этой фразы. Я думал, что это была опечатка. Теперь стало понятнее.

gung - Восстановить Монику

@whuber Я в порядке. Некоторые люди находят их смущающими, или мне так сказали.

Ник Кокс