Эта ссылка на Википедию перечисляет ряд методов для определения гетероскедастичности остатков МНК. Я хотел бы узнать, какой практический метод более эффективен в обнаружении областей, затронутых гетероскедастичностью.
Например, здесь видно, что центральная область на графике OLS «Остаточные и адаптированные» имеет более высокую дисперсию, чем стороны графика (я не совсем уверена в фактах, но давайте предположим, что это так и есть ради вопроса). Для подтверждения, глядя на метки ошибок на графике QQ, мы видим, что они совпадают с метками ошибок в центре графика остатков.
Но как мы можем количественно определить остаточную область, которая имеет значительно более высокую дисперсию?
regression
least-squares
heteroscedasticity
Роберт Кубрик
источник
источник
Ответы:
Эта проблема имеет исследовательский смысл. Джон Тьюки описывает многие процедуры изучения гетероскедастичности в своем классическом Исследовательском анализе данных (Addison-Wesley 1977). Пожалуй, наиболее полезным является вариант его « блуждающего схематического сюжета ». Это нарезает одну переменную (например, прогнозируемое значение) на ячейки и использует m-буквенные сводки (обобщения коробчатых диаграмм), чтобы показать местоположение, разброс и форму другой переменной для каждой ячейки. М-буквенная статистика дополнительно сглаживается, чтобы подчеркнуть общие закономерности, а не случайные отклонения.
Быстрая версия может быть приготовлена путем использования
boxplot
процедуры вR
. Проиллюстрируем с помощью смоделированных сильно гетероскедастических данных:Получим предсказанные значения и остатки из регрессии OLS:
Здесь, затем, блуждающий схематический график, использующий ячейки с равным количеством для прогнозируемых значений. Я использую
lowess
для быстрой и грязной гладкой.Синяя кривая сглаживает медианы. Его горизонтальная тенденция указывает на то, что регрессия, как правило, хорошо подходит. Другие кривые сглаживают концы прямоугольника (квартили) и заборы (которые обычно являются экстремальными значениями). Их сильная конвергенция и последующее разделение свидетельствуют о гетероскедастичности - и помогают нам охарактеризовать и оценить ее.
(Обратите внимание на нелинейный масштаб на горизонтальной оси, отражающий распределение прогнозируемых значений. При немного большей работе эта ось может быть линеаризована, что иногда полезно.)
источник
Как правило, гетероскедастичность моделируется с использованием подхода Брейша-Пагана. Остатки от вашей линейной регрессии затем возводятся в квадрат и регрессируют на переменные в вашей исходной линейной модели. Последняя регрессия называется вспомогательной регрессией .
Для ваших целей вы могли бы сосредоточиться на отдельных коэффициентах из этой модели, чтобы увидеть, какие переменные наиболее предсказуемы для результатов с высокой или низкой дисперсией.
источник