В качестве примера рассмотрим ChickWeight
набор данных в R. Разница, очевидно, со временем увеличивается, поэтому, если я использую простую линейную регрессию, например:
m <- lm(weight ~ Time*Diet, data=ChickWeight)
Мои вопросы:
- Какие аспекты модели будут сомнительными?
- Проблемы ограничены экстраполяцией вне
Time
диапазона? - Насколько толерантна линейная регрессия к нарушению этого предположения (т. Е. Насколько гетероскедастичным должно быть, чтобы вызывать проблемы)?
Ответы:
Линейная модель (или «обычные наименьшие квадраты») в этом случае все еще обладает свойством беспристрастности.
Перед лицом гетероскедастичности в терминах ошибок у вас все еще есть несмещенные оценки параметров, но вы теряете ковариационную матрицу: ваш вывод (т. Е. Тесты параметров) может быть отключен. Распространенным решением является использование надежного метода для вычисления ковариационной матрицы или стандартных ошибок. Какой из них вы используете, зависит от домена, но метод Уайта - это начало.
И для полноты, последовательная корреляция слагаемых ошибок хуже, поскольку это приведет к смещенным оценкам параметров.
источник
Гомоскедастичность является одним из предположений Гаусса-Маркова, которые требуются для того, чтобы МНК была лучшей линейной несмещенной оценкой (СИНИЙ).
Теорема Гаусса-Маркова говорит нам, что оценка наименьших квадратов для коэффициентовβ
Кратко суммируя информацию с сайтов выше, гетероскедастичность не вносит систематической ошибки в оценки ваших коэффициентов. Однако, учитывая гетероскедастичность, вы не сможете правильно оценить матрицу дисперсии и ковариации. Следовательно, стандартные ошибки коэффициентов неверны. Это означает, что невозможно вычислить любую t-статистику и p-значения, и, следовательно, проверка гипотез невозможна. В целом, при гетероскедастичности OLS теряет свою эффективность и больше не СИНИЙ.
Тем не менее, гетероскедастичность не конец света. К счастью, исправить гетероскедастичность несложно. Оценщик сэндвича позволяет оценить согласованные стандартные ошибки для коэффициентов. Тем не менее, вычисление стандартных ошибок с помощью сэндвич-оценки обходится дорого. Оценка не очень эффективна, и стандартные ошибки могут быть очень большими. Один из способов вернуть часть эффективности - это кластеризовать стандартные ошибки, если это возможно.
Вы можете найти более подробную информацию по этому вопросу на сайтах, которые я упомянул выше.
источник
Отсутствие гомоскедастичности может дать ненадежные стандартные оценки погрешности параметров. Оценки параметров объективны. Но оценки не могут быть эффективными (не синий). Вы можете найти больше по следующей ссылке
источник
источник
В других ответах есть хорошая информация, особенно на ваш первый вопрос. Я думал, что добавлю некоторую дополнительную информацию относительно ваших последних двух вопросов.
источник