Последствия гетероскедастичности:
Обычный метод наименьших квадратов (МНК) оценки Ь = ( X ' X ) X ' у до сих пор соответствует , но это уже не эффективны .b^=(X′X)X′y
Оценка , где σ 2 = 1Var^(b)=(X′X)−1σ^2являетсянесостоятельной оценкой больше для ковариационной матрицы вашей оценивани б . Это может быть как предвзятым, так и противоречивым. И на практике это может существенно недооценивать дисперсию.σ^2=1n−ke′eb^
Пункт (1) не может быть серьезной проблемой; люди все равно часто используют обычный оценщик OLS. Но пункт (2) должен быть решен. Что делать?
Вам нужны стандартные ошибки, совместимые с гетероскедастичностью . Стандартный подход заключается в том, чтобы опираться на допущения для большой выборки, асимптотические результаты и оценить дисперсию используя:b
гдеSоценивается какS=1
V a r^( б ) = 1N( Х'ИксN)- 1S( Х'ИксN)- 1
S.
S= 1n−k∑i(xяея) ( хяея)'
Это дает гетероскедастичность, соответствующую стандартным ошибкам. Их также называют стандартными ошибками Губера-Уайта, надежными стандартными ошибками, сэндвич-оценкой и т. Д. Любой базовый стандартный статистический пакет имеет опцию для устойчивых стандартных ошибок. Используй это!
Некоторые дополнительные комментарии (обновление)
Если гетероскедастичность достаточно велика, регулярная оценка МНК может иметь большие практические проблемы. Несмотря на постоянную оценку, у вас могут быть небольшие проблемы с выборкой, когда вся ваша оценка определяется несколькими наблюдениями с высокой дисперсией. (Это то, на что @ seanv507 ссылается в комментариях). Оценщик OLS неэффективен, поскольку он придает большее значение наблюдениям с высокой дисперсией, чем оптимальным. Оценка может быть очень шумной.
Проблема с попыткой исправить неэффективность заключается в том, что вы, вероятно, также не знаете ковариационную матрицу для термов ошибок, поэтому использование чего-то вроде GLS может ухудшить ситуацию, если ваша оценка ковариационной матрицы термов ошибок будет мусором.
Кроме того, стандартные ошибки Губера-Уайта, которые я привел выше, могут иметь большие проблемы в небольших выборках. Существует много литературы на эту тему. Например. см. Imbens and Kolesar (2016), «Надежные стандартные ошибки в малых выборках: некоторые практические советы».
Направление для дальнейшего изучения:
Если это самообучение, то следующей практической вещью, которую следует рассмотреть, являются кластерные стандартные ошибки. Они корректны для произвольной корреляции внутри кластеров.
Ну, краткий ответ в основном ваша модель неверна, т.е.
Таким образом, в случае гетероскедастичности возникают проблемы с оценкой дисперсионно-ковариационной матрицы, которые приводят к неправильным стандартным ошибкам коэффициентов, что, в свою очередь, приводит к неправильной t-статистике и p-значениям. Короче говоря, если ваши термины ошибок не имеют постоянной дисперсии, то обычные наименьшие квадраты не самый эффективный способ оценки. Посмотрите на этот связанный вопрос.
источник
«Гетероскедастичность» затрудняет оценку истинного стандартного отклонения ошибок прогноза. Это может привести к слишком широким или слишком узким доверительным интервалам (в частности, они будут слишком узкими для прогнозов вне выборки, если дисперсия ошибок со временем увеличивается).
Кроме того, регрессионная модель может быть слишком сосредоточена на подмножестве данных.
Хорошая ссылка: Тестирование предположений о линейной регрессии
источник