Являются ли уместными стандартные ошибки и доверительные интервалы в регрессиях, где допущение гомоскедастичности нарушено?

Если в стандартных регрессиях OLS нарушаются два предположения (нормальное распределение ошибок, гомоскедастичность), является ли начальная загрузка стандартных ошибок и доверительных интервалов подходящей альтернативой для получения значимых результатов в отношении значимости коэффициентов регрессора?

Тесты значимости с загруженными стандартными ошибками и доверительными интервалами все еще работают с гетероскедастичностью?

Если да, то какие будут применяться доверительные интервалы, которые можно использовать в этом сценарии (процентиль, BC, BCA)?

Наконец, если в этом сценарии уместна начальная загрузка, какую литературу необходимо прочитать и процитировать, чтобы прийти к такому выводу? Любая подсказка будет принята с благодарностью!

regression bootstrap least-squares heteroscedasticity Дэвид
источник

Если есть такое нарушение, я не думаю, что начальная загрузка вылечит его. Вместо этого, почему бы не попытаться преобразовать (зарегистрировать) данные, чтобы приблизиться к нормальности и использовать надежную стандартную ошибку, такую как из сэндвич-пакета в R?

B_Miner

Начальная загрузка

Существует как минимум три (может быть и больше) подхода к выполнению начальной загрузки для линейной регрессии с независимыми, но не одинаково распределенными данными. (Если у вас есть другие нарушения «стандартных» допущений, например, из-за автокорреляции с данными временных рядов или кластеризации из-за дизайна выборки, все становится еще сложнее).

Вы можете изменить выборку наблюдения в целом, т. Е. Взять выборку с заменой на исходные данные . Это будет асимптотически эквивалентно выполнению коррекции гетероскедастичности по Губеру-Уайту . $(y_j^*, {\bf x}_j^*)$ $\{ (y_i, {\bf x}_i) \}$
Вы можете приспособить вашу модель, получить остатки и частоты дискретизации независимо $e_i = y_i - {\bf x}_i ' \hat\beta$ ${\bf x}_j^*$ $e_j^*$
Вы можете выполнить дикую загрузку, в которой вы повторно выбираете знак остатка, который управляет условным вторым моментом (и, с некоторыми дополнительными настройками, также и условным третьим моментом). Это была бы процедура, которую я бы порекомендовал (при условии, что вы сможете понять ее и защитить ее для других, когда вас спросят: «Что вы сделали, чтобы контролировать гетероскедастичность? Как вы знаете, что она работает?»).

Конечная ссылка - Ву (1986) , но Анналы не совсем читают книжки с картинками.

ОБНОВЛЕНИЯ на основе последующих вопросов ФП, заданных в комментариях:

Количество повторов показалось мне большим; единственное хорошее обсуждение этого параметра начальной загрузки, о котором я знаю, находится в книге Efron & Tibshirani's Intro to Bootstrap .

$M$ ) по сравнению между корректировками бутстрапа и гетероскедастичности.

Stask
источник

Большое спасибо за твою помощь! Пожалуйста, позвольте мне ответить на один вопрос: единственные допущения, которые я нарушаю, - это нормальное распределение ошибок и допущения гомоскедастичности. Кроме того, меня интересует только то, являются ли мои коэффициенты регрессии сигнатурными. в ожидаемом направлении или нет. Величина эффекта не важна. Я думаю, что то, что я сделал до сих пор, это ваш вариант 1. Я загрузил стандартные ошибки и дополнительно сгенерировал доверительные интервалы. Я сделал это с помощью Stata: vce (bootstrap, reps (2500) bca), estat bootstrap. Вылечит ли это мои нарушения предположений?

Дэвид

Я не занимаюсь диагностикой данных, основываясь только на вашем синтаксисе, и никто не будет. Каков размер вашего набора данных? reps(2500)вероятно, излишнее, по крайней мере, для стандартных ошибок; Я думаю, что reps(500)это нормально для большинства практических целей. Во вступительной книге Эфрона и Тибширани есть раздел о количестве копий. У них также есть целая глава по регрессии, так что это может быть еще одним хорошим справочным материалом для вас.

StasK

Спасибо за Ваш быстрый ответ. Набор данных ~ 250. Помимо вопросов о количестве повторений (спасибо за ссылку!), Согласитесь ли вы, что стандартные ошибки при загрузке (с помощью повторной выборки наблюдений в целом) и / или доверительные интервалы при загрузке (например, исправлены процентиль или смещение) будут Подходящий способ определить значение (или его отсутствие) коэффициента регрессии с учетом допущения нарушения гомоскедастичности и нормального распределения ошибок? Большое спасибо за ваш вклад!

Дэвид

Да, я бы сказал, что лучше. Если вы используете Stata, вы можете получить очень похожий ответ, используя robustопцию вашей регрессии. est storeи результаты, и est tab, seих сравнивать бок о бок.

StasK

Спасибо StasK. Я также видел следующий комментарий, который вы сделали где-то еще на этом сайте: «Простая начальная загрузка с передискретизацией rob Устойчивая оценка гетероскедастичности белых». В контексте моих вопросов, как изложено выше: есть ли опубликованные журнальные статьи, которые подчеркивают это?

Дэвид

Являются ли уместными стандартные ошибки и доверительные интервалы в регрессиях, где допущение гомоскедастичности нарушено?

Ответы: