Большая выборка асимптотик / теория - зачем заботиться?

13

Я надеюсь, что этот вопрос не будет помечен как «слишком общий», и надеюсь, что начнется обсуждение, которое принесет пользу всем.

В статистике мы тратим много времени на изучение больших выборочных теорий. Мы глубоко заинтересованы в оценке асимптотических свойств наших оценок, в том числе в отношении того, являются ли они асимптотически несмещенными, асимптотически эффективными, их асимптотическое распределение и так далее. Слово асимптотика сильно связано с предположением, что .N

В действительности, однако, мы всегда имеем дело с конечным . Мои вопросы:N

1) что мы подразумеваем под большой выборкой? Как мы можем различить маленькие и большие образцы?

2) Когда мы говорим , подразумеваем ли мы буквально, что должно идти в ?NN

Например, для биномиального распределения, нужно около n = 30, чтобы сходиться к нормальному распределению в CLT. Должны ли мы иметь или в этом случае мы имеем в виду 30 или больше ?!Икс¯N

3) Предположим, что у нас есть конечная выборка, и предположим, что мы знаем все об асимптотическом поведении наших оценок. Ну и что? Предположим, что наши оценки асимптотически несмещены, тогда есть ли у нас несмещенная оценка для нашего параметра интереса в нашей конечной выборке, или это означает, что если бы у нас было , то у нас была бы несмещенная оценка ?N

Как видно из приведенных выше вопросов, я пытаюсь понять философию «асимптотики больших выборок» и понять, почему нас это волнует? Мне нужно получить некоторые интуиции для теорем, которые я изучаю.

Сэм
источник
5
Поведение большой выборки - это один из способов показать, что данный оценщик работает или что-то еще в пределе бесконечных данных. Вы правы, что это не обязательно говорит нам о том, насколько хороша оценка на практике, но это первый шаг: вы вряд ли захотите использовать оценку, которая не асимптотически непротиворечива (или что-то еще). Преимущество асимптотического анализа состоит в том, что его часто легче понять, чем анализ с конечной выборкой.
Дугал
Вы должны начать читать об асимптотике высшего порядка, поскольку вы, очевидно, знакомы только с асимптотической нормальностью первого порядка и т. Д .; с этим вы еще не знаете все об асимптотическом поведении. Это все равно что сказать: «Я знаю, что ; почему все говорят, что синус периодический ???». sяNИксзнак равноИкс
StasK
1
N>30пзнак равно0,001Nзнак равно30Nмин(п,1-п)>15

Ответы:

6

Лучше поздно, чем никогда. Позвольте мне сначала перечислить три (я считаю важными) причины, по которым мы фокусируемся на асимптотической непредвзятости (непротиворечивости) оценок.

а) Согласованность является минимальным критерием. Если оценщик не дает правильной оценки даже при большом количестве данных, тогда что хорошего в этом? Это обоснование, данное в Вулдридже: Вводная эконометрика.

б) Свойства конечного образца гораздо сложнее доказать (или, скорее, асимптотические утверждения легче). В настоящее время я сам провожу некоторые исследования, и всякий раз, когда вы можете положиться на большие выборочные инструменты, все становится намного проще. Законы больших чисел, теоремы сходимости мартингалов и т. Д. Являются хорошими инструментами для получения асимптотических результатов, но не помогают с конечными выборками. Я полагаю, что нечто подобное упоминается в Hayashi (2000): Econometrics.

c) Если оценки смещены для небольших выборок, можно потенциально исправить или, по крайней мере, улучшить с помощью так называемых небольших выборочных поправок. Они часто сложны теоретически (чтобы доказать, что они улучшают оценку без коррекции). Кроме того, большинству людей хорошо полагаться на большие выборки, поэтому небольшие исправления выборок часто не реализуются в стандартном программном обеспечении статистики, поскольку они требуются лишь немногим (тем, кто не может получить больше данных И заботится о непредвзятости). Таким образом, существуют определенные препятствия для использования этих необычных исправлений.

На твои вопросы. Что мы подразумеваем под «большой выборкой»? Это сильно зависит от контекста, и для конкретных инструментов можно ответить с помощью моделирования. То есть вы искусственно генерируете данные и видите, как, скажем, коэффициент отклонения ведет себя как функция размера выборки, или смещение ведет себя как функция размера выборки. Конкретный пример приведен здесь , где авторы видят, сколько кластеров требуется для того, чтобы кластерные стандартные ошибки OLS, блокированные стандартные ошибки загрузки и т. Д. Работали хорошо. У некоторых теоретиков также есть утверждения о скорости сходимости, но для практических целей моделирование представляется более информативным.

N

На вопрос 3: как правило, вопрос о непредвзятости (для всех размеров выборки) и последовательности (несмещенности для больших выборок) рассматривается отдельно. Оценщик может быть предвзятым, но непротиворечивым, и в этом случае объективными являются только объективные оценки. Но существуют также объективные и непротиворечивые оценки, которые теоретически применимы для любого размера выборки. ( Оценщик также может быть непредвзятым, но непоследовательным по техническим причинам. )

безымянный
источник