Тривиальный ответ заключается в том, что больше данных всегда предпочтительнее, чем меньше данных.
Проблема малого размера выборки очевидна. В линейной регрессии (OLS) технически вы можете подобрать модель, такую как OLS, где n = k + 1, но вы получите мусор из нее, то есть очень большие стандартные ошибки. На эту тему есть замечательная статья Артура Голдбергера под названием Micronumerocity, которая кратко изложена в главе 23 его книги «Курс эконометрики» .
Обычная эвристика заключается в том, что у вас должно быть 20 наблюдений для каждого параметра, который вы хотите оценить. Это всегда компромисс между размером ваших стандартных ошибок (и, следовательно, проверкой значимости) и размером вашей выборки. Это одна из причин, по которой некоторые из нас ненавидят тестирование значимости, так как вы можете получить невероятно маленькую (относительную) стандартную ошибку с огромной выборкой и, следовательно, найти бессмысленную статистическую значимость в наивных тестах, например, равен ли коэффициент регрессии нулю.
В то время как размер выборки важен, качество вашей выборки более важно, например, является ли выборка обобщенной для популяции, является ли она простой случайной выборкой или какой-либо другой подходящей методологией выборки (и учитывались ли это во время анализа), существует ли ошибка измерения смещение ответа, смещение выбора и т. д.