Эмпирические правила для минимального размера выборки для множественной регрессии

72

В рамках предложения по исследованию социальных наук мне был задан следующий вопрос:

Я всегда использовал 100 + m (где m - количество предикторов) при определении минимального размера выборки для множественной регрессии. Это уместно?

Я часто получаю похожие вопросы, часто с разными правилами. Я также очень много читал такие практические правила в различных учебниках. Я иногда задаюсь вопросом, основана ли популярность правила с точки зрения цитирования на том, как низко установлен стандарт. Однако я также осознаю ценность хорошей эвристики в упрощении принятия решений.

Вопросов:

  • В чем польза простых эмпирических правил для минимальных размеров выборки в контексте прикладных исследователей, проектирующих научные исследования?
  • Вы бы предложили альтернативное правило для минимального размера выборки для множественной регрессии?
  • В качестве альтернативы, какие альтернативные стратегии вы бы предложили для определения минимального размера выборки для множественной регрессии? В частности, было бы хорошо, если бы значение присваивалось той степени, в которой любая стратегия может быть легко применена не статистиком.
Джером англим
источник

Ответы:

36

Я не фанат простых формул для генерации минимальных размеров выборки. По крайней мере, любая формула должна учитывать величину эффекта и интересующие вопросы. И разница между обеими сторонами отсечки минимальна.

Размер выборки как проблема оптимизации

  • Большие образцы лучше.
  • Размер выборки часто определяется прагматическими соображениями.
  • Размер выборки следует рассматривать как одно из соображений в задаче оптимизации, где затраты времени, денег, усилий и т. Д. На привлечение дополнительных участников сопоставляются с преимуществами наличия дополнительных участников.

Грубое правило большого пальца

С точки зрения очень грубых эмпирических правил в типичном контексте наблюдательных психологических исследований, включающих такие вещи, как тесты способностей, шкалы отношений, показатели личности и т. Д., Я иногда думаю о:

  • n = 100 как адекватный
  • n = 200 хорошо
  • п = 400 + как отлично

Эти эмпирические правила основаны на 95% доверительных интервалах, связанных с корреляциями на этих соответствующих уровнях, и степени точности, с которой я хотел бы теоретически понять отношения интересов. Однако это только эвристика.

Сила 3

Множественная регрессия проверяет несколько гипотез

  • Любой вопрос анализа мощности требует рассмотрения величины эффекта.
  • Анализ мощности для множественной регрессии усложняется тем фактом, что существует множество эффектов, включая общий r-квадрат и один для каждого отдельного коэффициента. Кроме того, большинство исследований включают более одной множественной регрессии. Для меня это еще одна причина больше полагаться на общую эвристику и думать о минимальном размере эффекта, который вы хотите обнаружить.

  • Что касается множественной регрессии, я часто буду больше думать о степени точности при оценке базовой корреляционной матрицы.

Точность в оценке параметров

Мне также нравится обсуждение Кеном Келли и коллегами точности в оценке параметров.

  • Смотрите сайт Кена Келли для публикаций
  • Как уже упоминалось @Dmitrij, в Kelley and Maxwell (2003) FREE PDF есть полезная статья.
  • Кен Келли разработал MBESSпакет в R для проведения анализа, связывающего размер выборки с точностью при оценке параметров.
Джером англим
источник
17

Я не предпочитаю думать об этом как о проблеме власти, а скорее задаю вопрос "насколько большим должно быть , чтобы можно было доверять очевидному "? Один из подходов к этому - рассмотреть соотношение или разницу между и , причем последний является скорректированным заданным и формирует более объективную оценку «истинного» .nR2R2Radj2R21(1R2)n1np1R2

Некоторый код R можно использовать для определения для фактора что должно быть таким, чтобы был только фактором меньшим, чем или только меньшим на . pn1Radj2kR2k

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

введите описание изображения здесь Обозначения: Ухудшение которое приводит к относительному падению с до на указанный относительный коэффициент (левая панель, 3 фактора) или абсолютную разницу (правая панель, 6 декрементов).R2R2Radj2

Если кто-нибудь видел это уже в печати, пожалуйста, дайте мне знать.

Фрэнк Харрелл
источник
1
+1. Я подозреваю, что упускаю что-то довольно фундаментальное и очевидное, но почему мы должны использовать способность для оценки в качестве критерия? У нас уже есть доступ к , даже если мало. Есть ли способ объяснить, почему это правильный способ думать о минимально адекватном вне того факта, что он делает лучшей оценкой ? R^2R2Radj2NNR^2R2
gung - Восстановить Монику
@FrankHarrell: смотрите здесь автор , кажется, использует сюжеты 260-263 во многом таким же образом , как и те , в вашем посте выше.
user603
5
Спасибо за ссылку. @ Gung, это хороший вопрос. Один (слабый) ответ заключается в том, что в некоторых типах моделей у нас нет , и у нас также нет скорректированного индекса, если был сделан какой-либо выбор переменной. Но основная идея заключается в том, что, если является беспристрастным, другие показатели прогнозирующей дискриминации, такие как меры ранговой корреляции, вероятно, будут беспристрастными также из-за адекватности размера выборки и минимального переобучения. Radj2R2
Фрэнк Харрелл
12

(+1) для действительно важного, на мой взгляд, вопроса.

В макроэкономике у вас обычно гораздо меньший размер выборки, чем в микро, финансовых или социологических экспериментах. Исследователь чувствует себя хорошо, когда может дать хотя бы возможные оценки. Мое личное наименьшее эмпирическое правило - ( степени свободы на один оценочный параметр). В других прикладных областях исследований вам, как правило, больше везет с данными (если это не слишком дорого, просто соберите больше точек данных), и вы можете спросить, каков оптимальный размер выборки (а не просто минимальное значение для таких данных). Последняя проблема связана с тем, что более низкокачественные (зашумленные) данные не лучше, чем более мелкая выборка высококачественных данных.4m4

Большинство размеров выборки связаны с силой тестов для гипотезы, которую вы собираетесь проверить после того, как вы подойдете к модели множественной регрессии.

Есть хороший калькулятор, который может быть полезен для нескольких моделей регрессии и некоторых формул за кулисами. Я думаю, что такой априорный калькулятор может быть легко применен не статистиком.

Возможно K.Kelley и SEMaxwell статья может быть полезным , чтобы ответить на другие вопросы, но мне нужно больше времени , чтобы изучить первую проблему.

Дмитрий Челов
источник
11

Ваше эмпирическое правило не особенно хорошо, если очень велико. Возьмите : ваше правило гласит, что можно использовать переменных с наблюдениями. Я так не думаю!mm=500500600

Для множественной регрессии у вас есть теория, предлагающая минимальный размер выборки. Если вы собираетесь использовать обычные наименьшие квадраты, то одно из предположений, которые вам требуются, состоит в том, чтобы «истинные остатки» были независимыми. Теперь, когда вы подгоняете модель наименьших квадратов к переменным, вы накладываете линейные ограничения на свои эмпирические остатки (заданные наименьшими квадратами или «нормальными» уравнениями). Это подразумевает, что эмпирические остатки не являются независимыми - как только мы знаем из них, оставшиеся могут быть выведены, где - размер выборки. Таким образом, у нас есть нарушение этого предположения. Теперь порядок зависимости . Следовательно, если вы выбираетеmm+1nm1m+1nO(m+1n)n=k(m+1) для некоторого числа , тогда порядок задается как . Итак, выбирая , вы выбираете, какую зависимость вы готовы терпеть. Я выбираю почти так же, как вы применяете для применения «центральной предельной теоремы» - - это хорошо, и у нас есть правило «подсчета статистики» (т.е. система подсчета статистики равна ).kkk10-20301,2,,26,27,28,29,O(1k)kk1020301,2,,26,27,28,29,

probabilityislogic
источник
Вы говорите, что 10-20 - это хорошо, но будет ли это также зависеть от размера ошибки (возможно, относительно других вещей)? Например, предположим, что была только одна переменная предиктора. Если бы было известно, что дисперсия ошибки была действительно крошечной, то, похоже, что 3 или 4 точек данных может быть достаточно для надежной оценки наклона и перехвата. С другой стороны, если было известно, что дисперсия ошибок огромна, то даже 50 точек данных могут быть неадекватными. Я что-то неправильно понимаю?
mark999
Не могли бы вы дать ссылку на предложенное уравнение n=k(m+1)?
Соси
6

В психологии:

Зеленый (1991) указывает, что (где m - число независимых переменных) необходимо для тестирования множественной корреляции и для тестирования отдельных предикторов.N > 104 + мN>50+8mN>104+m

Другие правила, которые могут быть использованы ...

Харрис (1985) говорит, что число участников должно превышать количество предикторов как минимум на .50

Van Voorhis & Morgan (2007) ( pdf ), используя 6 или более предикторов, абсолютный минимум участников должен быть . Хотя лучше по участников на переменную.301030

Adria
источник
1
Ваше первое «правило» не содержит м.
Дейсон
Его первое эмпирическое правило записано так N = 50 + 8 m, хотя и был задан вопрос, действительно ли нужен термин 50
Соси
Я добавил новое и более сложное эмпирическое правило, которое учитывает размер эффекта выборки. Это также было представлено Грин (1991).
Соси
2
Каковы полные ссылки на ссылки Green (1991) и Harris (1985)?
Хатшепсут
2

Я согласен, что калькуляторы мощности полезны, особенно для того, чтобы увидеть влияние различных факторов на мощность. В этом смысле калькуляторы, которые включают больше входной информации, намного лучше. Для линейной регрессии, мне нравится регрессионный калькулятор здесь , который включает в себя такие факторы, как ошибки в Xs, корреляция между Xs, и многими другими.

Галит Шмуэли
источник
0

Я нашел эту сравнительно недавнюю работу (2015 г.), в которой оценивается, что достаточно только 2 наблюдения на переменную, если мы заинтересованы в точности оценочных коэффициентов регрессии и стандартных ошибках (и в эмпирическом охвате результирующих доверительных интервалов), и мы используйте скорректированный :R2

( pdf )

Конечно, как также признается в документе, (относительная) объективность не обязательно подразумевает наличие достаточной статистической мощности. Однако вычисления мощности и размера выборки обычно производятся путем указания ожидаемых эффектов; в случае множественной регрессии это предполагает гипотезу о значении коэффициентов регрессии или о матрице корреляции между регрессорами и результатом. На практике это зависит от силы корреляции регрессоров с результатом и между собой (очевидно, чем сильнее, тем лучше для корреляции с результатом, в то время как с мультиколлинеарностью дела ухудшаются). Например, в крайнем случае двух совершенно коллинеарных переменных вы не можете выполнить регрессию независимо от количества наблюдений и даже только с двумя ковариатами.

Федерико Тедески
источник