Насколько большой должна быть выборка для данной методики и параметров оценки?

12

Существует ли эмпирическое правило или вообще какой-либо способ сказать, насколько большой должна быть выборка, чтобы оценить модель с заданным количеством параметров?

Так, например, если я хочу оценить регрессию наименьших квадратов с 5 параметрами, насколько большой должна быть выборка?

Имеет ли значение метод оценки, который вы используете (например, максимальное правдоподобие, метод наименьших квадратов, GMM), или сколько тестов вы собираетесь выполнить? Следует ли учитывать изменчивость выборки при принятии решения?

Виви
источник

Ответы:

11

Тривиальный ответ заключается в том, что больше данных всегда предпочтительнее, чем меньше данных.

Проблема малого размера выборки очевидна. В линейной регрессии (OLS) технически вы можете подобрать модель, такую ​​как OLS, где n = k + 1, но вы получите мусор из нее, то есть очень большие стандартные ошибки. На эту тему есть замечательная статья Артура Голдбергера под названием Micronumerocity, которая кратко изложена в главе 23 его книги «Курс эконометрики» .

Обычная эвристика заключается в том, что у вас должно быть 20 наблюдений для каждого параметра, который вы хотите оценить. Это всегда компромисс между размером ваших стандартных ошибок (и, следовательно, проверкой значимости) и размером вашей выборки. Это одна из причин, по которой некоторые из нас ненавидят тестирование значимости, так как вы можете получить невероятно маленькую (относительную) стандартную ошибку с огромной выборкой и, следовательно, найти бессмысленную статистическую значимость в наивных тестах, например, равен ли коэффициент регрессии нулю.

В то время как размер выборки важен, качество вашей выборки более важно, например, является ли выборка обобщенной для популяции, является ли она простой случайной выборкой или какой-либо другой подходящей методологией выборки (и учитывались ли это во время анализа), существует ли ошибка измерения смещение ответа, смещение выбора и т. д.

Грэм Куксон
источник
3

Мне нравится использовать повторную выборку: я повторяю любой метод, который я использовал с подвыборкой данных (скажем, 80% или даже 50% от общего объема). Делая это со многими различными подвыборками, я чувствую, насколько надежны оценки. Для многих процедур оценки это может быть сделано в реальной (то есть публикуемой) оценке ваших ошибок.

HBAR
источник
2

Он всегда должен быть достаточно большим! ;)

Все оценки параметров сопровождаются неопределенностью оценки, которая определяется размером выборки. Если вы проводите регрессионный анализ, это поможет вам напомнить, что распределение Χ 2 построено из набора входных данных. Если в вашей модели 5 параметров, а у вас 5 точек данных, вы сможете рассчитать только одну точку распределения Χ 2 . Поскольку вам нужно будет минимизировать его, вы можете выбрать только одну точку в качестве предположения для минимума, но вам придется присваивать бесконечные ошибки вашим оценочным параметрам. Наличие большего количества точек данных позволит вам лучше отобразить пространство параметров, что приведет к лучшей оценке минимума распределения and 2 и, следовательно, к меньшим ошибкам оценки.

Если бы вы использовали оценку максимального правдоподобия, вместо этого ситуация была бы аналогичной: чем больше точек данных, тем лучше оценка минимума.

Что касается точечной дисперсии, вам также нужно смоделировать это. Наличие большего количества точек данных сделает кластеризацию точек вокруг «истинного» значения более очевидной (из-за центральной теоремы о пределе), и опасность интерпретации большого случайного колебания как истинного значения для этой точки снизится. И как и для любого другого параметра, ваша оценка дисперсии точек станет более стабильной, чем больше у вас точек данных.

Бенджамин Банье
источник
2

Я слышал два практических правила в этом отношении. Один считает, что до тех пор, пока в члене ошибки достаточно наблюдений, чтобы вызвать центральную предельную теорему, например, 20 или 30, у вас все в порядке. Другой считает, что для каждого предполагаемого уклона должно быть не менее 20 или 30 наблюдений. Разница между использованием 20 или 30 в качестве целевого числа основана на различных соображениях относительно того, когда имеется достаточно наблюдений, чтобы разумно вызвать Центральную предельную теорему.

russellpierce
источник
1
два ответа выглядят слишком разными для меня. Один говорит от 20 до 30, другой говорит от 20 до 30 раз на склонах. Таким образом, если у вас есть 5 склонов, одно правило говорит вам от 20 до 30, а другое от 100 до 150 наблюдений. Это не кажется мне правильным ...
Виви
1
Это довольно разные рекомендации. Я подозреваю, что разрыв связан с тем, считаете ли вы, что тест всей модели имеет значение (нижний уровень N) или тест отдельных уклонов, которые имеют значение (более высокий уровень N).
Расселпирс