Предположим следующую линейную зависимость: , где - зависимая переменная, - одна независимая переменная, а - термин ошибки.Y i X i u i
Согласно Stock & Watson (Введение в эконометрику; глава 4 ), третье предположение о наименьших квадратах состоит в том, что четвертые моменты и ненулевые и конечные .u i ( 0 < E ( X 4 i ) < ∞ и 0 < E ( u 4 i ) < ∞ )
У меня три вопроса:
Я не до конца понимаю роль этого предположения. Является ли OLS предвзятым и противоречивым, если это предположение не выполняется или нам нужно это предположение для вывода?
Сток и Уотсон пишут, что «это предположение ограничивает вероятность проведения наблюдения с чрезвычайно большими значениями или ». Тем не менее, моя интуиция заключается в том, что это предположение является крайним. Мы в беде, если у нас есть большие выбросы (такие, что четвертые моменты большие), но если эти значения все еще конечны? Кстати: что является основным определением выброса?ты я
Можем ли мы переформулировать это следующим образом: "эксцесс и ненулевой и конечный?"ты я
Ответы:
Вам не нужны предположения о 4-х моментах для согласованности оценки OLS, но вам нужны предположения о более высоких моментах и для асимптотической нормальности и для последовательной оценки, что такое асимптотическая ковариационная матрица.ϵx ϵ
В некотором смысле это математическая, техническая, а не практическая точка зрения. Для правильной работы OLS в конечных выборках в некотором смысле требуется нечто большее, чем минимальные предположения, необходимые для достижения асимптотической согласованности или нормальности при .n→∞
Достаточные условия для согласованности:
Если у вас есть уравнение регрессии:
Оценщик OLS может быть записан как:b^
Для согласованности вы должны уметь применять закон больших чисел Колмогорова или, в случае временных рядов с последовательной зависимостью, что-то вроде эргодической теоремы Карлина и Тейлора, чтобы:
Другие необходимые предположения:
Тогда и вы получите(X′Xn)−1(X′ϵn)→p0 b^→pβ
Если вы хотите, чтобы центральная предельная теорема для применения , то вам нужно предположений о более высоких моментах, например, , где . Центральная предельная теорема дает вам асимптотическую нормальность и позволяет говорить о стандартных ошибках. Чтобы существовал второй момент , вам нужны 4-ые моменты и . Вы хотите утверждать, что гдеE[gig′i] gi=xiϵi b^ E[gig′i] x ϵ n−−√(1n∑ix′iϵi)→dN(0,Σ) Σ=E[xix′iϵ2i] . Чтобы это работало, должна быть конечной.Σ
Хорошее обсуждение (которое мотивировало этот пост) дано в Эконометрике Хаяси . (См. Также стр. 149 для 4-х моментов и оценки ковариационной матрицы.)
Обсуждение:
Эти требования к 4-м моментам, вероятно, скорее технические, чем практические. Вы, вероятно, не будете встречать патологические распределения, где это является проблемой в повседневных данных? Это для более распространенных или других предположений OLS, чтобы пойти не так, как надо.
Другой вопрос, на который, несомненно, ответили в другом месте на Stackexchange, заключается в том, какой размер выборки вам нужен, чтобы конечные выборки приблизились к асимптотическим результатам. В некотором смысле фантастические выбросы приводят к медленной конвергенции. Например, попробуйте оценить среднее логнормальное распределение с действительно высокой дисперсией. Среднее значение выборки является последовательной, беспристрастной оценкой среднего значения популяции, но в этом логарифмическом случае с сумасшедшим избыточным эксцессом и т. Д. (Перейдите по ссылке) конечные результаты выборки действительно не соответствуют действительности.
Конечное против бесконечного - чрезвычайно важное различие в математике. Это не проблема, с которой вы сталкиваетесь в повседневной статистике. Практические проблемы больше в категории «маленький против большого». Является ли дисперсия, эксцесс и т. Д. Достаточно малой, чтобы я мог получить разумные оценки с учетом размера моей выборки?
Патологический пример, где оценка OLS является последовательной, но не асимптотически нормальной
Рассматривать:
Распределение ненормально, хвосты слишком тяжелые. Но если вы увеличите степени свободы до 3, чтобы существовал второй момент тогда применяется центральный предел, и вы получите:b^ ϵi
Код для его генерации:
источник
Это достаточное предположение, но не минимальное [1]. В этих условиях МНК не предвзята, она просто противоречива. Асимптотические свойства OLS нарушаются, когда может иметь чрезвычайно большое влияние и / или если вы можете получить очень большие невязки. Возможно, вы не сталкивались с формальным изложением центральной предельной теоремы Линдеберга Феллера, но это то, к чему они обращаются здесь с условиями четвертого момента, и условие Линдеберга говорит нам в основном то же самое: нет чрезмерных точек влияния, нет чрезмерно высокого кредитного плеча очки [2].X
Эти теоретические основы статистики вызывают много путаницы, когда сводятся к практическим приложениям. Нет определения выброса, это интуитивное понятие. Чтобы понять это примерно, наблюдение должно быть точкой высокого рычага или точкой высокого влияния, например такой, для которой диагностика удаления (DF бета) очень велика, или для которой расстояние Махаланобиса в предикторах велико (в одномерной статистике) это просто оценка Z). Но давайте вернемся к практическим вопросам: если я проведу случайный опрос людей и доходов их домохозяйств, и из 100 человек 1 из выбранных мной людей станет миллионером, я думаю, что миллионеры представляют 1% населения. , В лекции по биостатистике эти принципы обсуждаются и подчеркивается, что любой диагностический инструмент по существу является исследовательским [3].не «анализ, который исключает выбросы - это тот, которому я верю», это «удаление одной точки полностью изменило мой анализ».
Куртоз - это масштабированная величина, которая зависит от второго момента распределения, но предположение о конечной ненулевой дисперсии для этих значений является молчаливым, поскольку это свойство невозможно сохранить в четвертый момент, но не во второй. В общем, да, но в целом я никогда не проверял ни эксцесс, ни четвертый момент. Я не считаю их практической или интуитивной мерой. В этот день, когда гистограмма или график рассеяния создаются щелчком пальцев, мы должны использовать качественную графическую диагностическую статистику, проверяя эти графики.
[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied
[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818
[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html
источник