Являются ли уместными стандартные ошибки и доверительные интервалы в регрессиях, где допущение гомоскедастичности нарушено?

13

Если в стандартных регрессиях OLS нарушаются два предположения (нормальное распределение ошибок, гомоскедастичность), является ли начальная загрузка стандартных ошибок и доверительных интервалов подходящей альтернативой для получения значимых результатов в отношении значимости коэффициентов регрессора?

Тесты значимости с загруженными стандартными ошибками и доверительными интервалами все еще работают с гетероскедастичностью?

Если да, то какие будут применяться доверительные интервалы, которые можно использовать в этом сценарии (процентиль, BC, BCA)?

Наконец, если в этом сценарии уместна начальная загрузка, какую литературу необходимо прочитать и процитировать, чтобы прийти к такому выводу? Любая подсказка будет принята с благодарностью!

Дэвид
источник
1
Если есть такое нарушение, я не думаю, что начальная загрузка вылечит его. Вместо этого, почему бы не попытаться преобразовать (зарегистрировать) данные, чтобы приблизиться к нормальности и использовать надежную стандартную ошибку, такую ​​как из сэндвич-пакета в R?
B_Miner
Начальная загрузка

Ответы:

20

Существует как минимум три (может быть и больше) подхода к выполнению начальной загрузки для линейной регрессии с независимыми, но не одинаково распределенными данными. (Если у вас есть другие нарушения «стандартных» допущений, например, из-за автокорреляции с данными временных рядов или кластеризации из-за дизайна выборки, все становится еще сложнее).

  1. Вы можете изменить выборку наблюдения в целом, т. Е. Взять выборку с заменой на исходные данные { ( y i , x i ) } . Это будет асимптотически эквивалентно выполнению коррекции гетероскедастичности по Губеру-Уайту .(yj,xj){(yi,xi)}
  2. Вы можете приспособить вашу модель, получить остатки и частоты дискретизации независимо хei=yixiβ^xjej
  3. Вы можете выполнить дикую загрузку, в которой вы повторно выбираете знак остатка, который управляет условным вторым моментом (и, с некоторыми дополнительными настройками, также и условным третьим моментом). Это была бы процедура, которую я бы порекомендовал (при условии, что вы сможете понять ее и защитить ее для других, когда вас спросят: «Что вы сделали, чтобы контролировать гетероскедастичность? Как вы знаете, что она работает?»).

Конечная ссылка - Ву (1986) , но Анналы не совсем читают книжки с картинками.

ОБНОВЛЕНИЯ на основе последующих вопросов ФП, заданных в комментариях:

Количество повторов показалось мне большим; единственное хорошее обсуждение этого параметра начальной загрузки, о котором я знаю, находится в книге Efron & Tibshirani's Intro to Bootstrap .

M) по сравнению между корректировками бутстрапа и гетероскедастичности.

Stask
источник
Большое спасибо за твою помощь! Пожалуйста, позвольте мне ответить на один вопрос: единственные допущения, которые я нарушаю, - это нормальное распределение ошибок и допущения гомоскедастичности. Кроме того, меня интересует только то, являются ли мои коэффициенты регрессии сигнатурными. в ожидаемом направлении или нет. Величина эффекта не важна. Я думаю, что то, что я сделал до сих пор, это ваш вариант 1. Я загрузил стандартные ошибки и дополнительно сгенерировал доверительные интервалы. Я сделал это с помощью Stata: vce (bootstrap, reps (2500) bca), estat bootstrap. Вылечит ли это мои нарушения предположений?
Дэвид
Я не занимаюсь диагностикой данных, основываясь только на вашем синтаксисе, и никто не будет. Каков размер вашего набора данных? reps(2500)вероятно, излишнее, по крайней мере, для стандартных ошибок; Я думаю, что reps(500)это нормально для большинства практических целей. Во вступительной книге Эфрона и Тибширани есть раздел о количестве копий. У них также есть целая глава по регрессии, так что это может быть еще одним хорошим справочным материалом для вас.
StasK
Спасибо за Ваш быстрый ответ. Набор данных ~ 250. Помимо вопросов о количестве повторений (спасибо за ссылку!), Согласитесь ли вы, что стандартные ошибки при загрузке (с помощью повторной выборки наблюдений в целом) и / или доверительные интервалы при загрузке (например, исправлены процентиль или смещение) будут Подходящий способ определить значение (или его отсутствие) коэффициента регрессии с учетом допущения нарушения гомоскедастичности и нормального распределения ошибок? Большое спасибо за ваш вклад!
Дэвид
Да, я бы сказал, что лучше. Если вы используете Stata, вы можете получить очень похожий ответ, используя robustопцию вашей регрессии. est storeи результаты, и est tab, seих сравнивать бок о бок.
StasK
Спасибо StasK. Я также видел следующий комментарий, который вы сделали где-то еще на этом сайте: «Простая начальная загрузка с передискретизацией rob Устойчивая оценка гетероскедастичности белых». В контексте моих вопросов, как изложено выше: есть ли опубликованные журнальные статьи, которые подчеркивают это?
Дэвид