@NickCox хорошо поработал, рассказав об отображениях остатков, когда у вас есть две группы. Позвольте мне обратиться к некоторым из явных вопросов и неявных предположений, которые лежат в основе этой темы.
Вопрос спрашивает: «Как вы проверяете предположения о линейной регрессии, такие как гомоскедастичность, когда независимая переменная является двоичной?» У вас есть модель множественной регрессии. Модель (множественной) регрессии предполагает, что существует только один член ошибки, который является постоянным везде. Не очень важно (и не нужно) проверять гетероскедастичность для каждого предиктора в отдельности. Вот почему, когда у нас есть модель множественной регрессии, мы диагностируем гетероскедастичность по графикам остатков по сравнению с прогнозируемыми значениями. Вероятно, наиболее полезным графиком для этой цели является график масштаба (также называемый «спред-уровень»), который представляет собой квадратный корень из абсолютного значения остатков по сравнению с прогнозируемыми значениями. Чтобы увидеть примеры,Что означает наличие «постоянной дисперсии» в модели линейной регрессии?
Кроме того, вам не нужно проверять невязки для каждого предиктора на нормальность. (Я, честно говоря, даже не знаю, как это будет работать.)
То, что вы можете сделать с графиками остатков для отдельных предикторов, это проверить, правильно ли указана функциональная форма. Например, если остатки образуют параболу, в данных, которые вы пропустили, есть некоторая кривизна. Чтобы увидеть пример, посмотрите на второй график в ответе @ Glen_b здесь: Проверка качества модели в линейной регрессии . Однако эти проблемы не относятся к двоичному предиктору.
Для чего это стоит, если у вас есть только категориальные предикторы, вы можете проверить на гетероскедастичность. Вы просто используете тест Левена. Я обсуждаю это здесь: почему Левен проверяет равенство дисперсий, а не отношение F? В R вы используете ? LeveneTest из пакета автомобиля.
Изменить: Чтобы лучше проиллюстрировать точку зрения, что просмотр графика невязки по сравнению с отдельной переменной предиктора не помогает, если у вас есть модель множественной регрессии, рассмотрите этот пример:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
Из процесса генерации данных видно, что гетероскедастичности нет. Давайте рассмотрим соответствующие графики модели, чтобы увидеть, подразумевают ли они проблемную гетероскедастичность:
Нет, не о чем беспокоиться. Тем не менее, давайте посмотрим на график зависимости невязок от отдельной двоичной переменной-предиктора, чтобы увидеть, есть ли там гетероскедастичность:
О-о, похоже, может быть проблема. Из процесса генерации данных мы знаем, что нет никакой гетероскедастичности, и основные графики для исследования этого также не показали, так что же здесь происходит? Может быть, эти участки помогут:
x1
а также x2
не являются независимыми друг от друга. Причем наблюдения там, где x2 = 1
крайности. У них больше рычагов, поэтому их остатки, естественно, меньше. Тем не менее, нет гетероскедастичности.
Сообщение «забрать домой»: Лучше всего диагностировать гетероскедастичность только по соответствующим графикам (график зависимости остатков от подгонки и график уровня спреда).
Это правда, что обычные остаточные графики в этом случае труднее: может быть (намного) сложнее увидеть, являются ли распределения примерно одинаковыми. Но здесь есть легкие альтернативы. Вы просто сравниваете два дистрибутива, и есть много хороших способов сделать это. Некоторые возможности представляют собой расположенные рядом или наложенные квантильные графики, гистограммы или коробочные графики. Мое собственное предубеждение заключается в том, что приукрашенные квадраты часто здесь используются слишком часто: они обычно подавляют детали, на которые нам следует обратить внимание, даже если мы можем часто отклонять их как неважные. Но вы можете съесть свой торт и иметь его.
Вы используете R, но в вашем вопросе нет ничего статистического. Здесь я использовал Stata для регрессии на одном двоичном предикторе, а затем запустил графики квантильных блоков, сравнивая невязки для двух уровней предиктора. Практический вывод в этом примере состоит в том, что распределения примерно одинаковы.
Примечание. См. Также Как представить прямоугольник с экстремальным выбросом? включая пример @ Glen_b подобных графиков, использующих R. Такие графики должны быть просты в любом приличном программном обеспечении; если нет, ваше программное обеспечение не приличное.
источник