Как выбрать уровень значимости для большого набора данных?

15

Я работаю с набором данных, имеющих N около 200 000. В регрессиях я вижу очень маленькие значения значимости << 0,001, связанные с очень маленькими величинами эффекта, например, r = 0,028. Я хотел бы знать, есть ли принципиальный способ определения подходящего порога значимости по отношению к размеру выборки? Есть ли другие важные соображения относительно интерпретации величины эффекта при такой большой выборке?

ted.strauss
источник
10
Это вопрос практической и статистической значимости. Если наклон действительно отличается от 0, даже на минимальную величину (например, .00000000000001), достаточно большая выборка даст очень маленькое значение, несмотря на то, что результат не имеет практического значения. Вы бы лучше интерпретировали точечную оценку, чем значение p, когда у вас такой большой размер выборки. pp
Макрос
@ Макро, извините, вы можете уточнить, что вы подразумеваете под оценкой здесь?
ted.strauss
3
Добавляя комментарий Макро выше, в этой ситуации я ищу «практическое» или «клиническое» значение в выводах. Для того, что вы делаете, достаточно ли велик эффект для вас?
Мишель
1
Точечная оценка - это оценка наблюдаемого наклона регрессии.
Макрос
2
@Macro и я оба говорим, что вам нужно решить, важен ли клинический эффект (точечные оценки, уклоны). Ваш порог основан на решении «да, это важный клинический эффект», а не «значимое значение p», потому что большинство (все?) Ваших значений p значимы.
Мишель

Ответы:

20

В «Тесте незначительности значимости» Джонсон (1999) отметил, что p-значения являются произвольными, так как вы можете сделать их настолько малыми, насколько пожелаете, собрав достаточно данных, предполагая, что нулевая гипотеза ложна, что почти всегда так и есть. В реальном мире маловероятно, что получастичные корреляции точно равны нулю, что является нулевой гипотезой при проверке значимости коэффициента регрессии. Предельные значения значимости P еще более произвольны. Значение 0,05 как граница между значимостью и незначимостью используется соглашением, а не принципом. Таким образом, ответ на ваш первый вопрос - нет, нет принципиального способа определить подходящий порог значимости.

Итак, что вы можете сделать, учитывая ваш большой набор данных? Это зависит от ваших причин для изучения статистической значимости ваших коэффициентов регрессии. Вы пытаетесь смоделировать сложную многофакторную систему и разработать полезную теорию, которая разумно соответствует или предсказывает реальность? Тогда, возможно, вы могли бы подумать о разработке более сложной модели и взглянуть на нее с точки зрения моделирования, как описано в Rodgers (2010), «Эпистемология математического и статистического моделирования» . Одним из преимуществ наличия большого количества данных является возможность исследовать очень богатые модели, имеющие несколько уровней и интересные взаимодействия (при условии, что у вас есть переменные для этого).

Если, с другой стороны, вы хотите сделать какое-то суждение относительно того, следует ли рассматривать конкретный коэффициент как статистически значимый или нет, вы можете принять предложение Гуда (1982), обобщенное в Woolley (2003) : Рассчитать значение q как который стандартизирует p-значения до размера выборки 100. Р-значение ровно 0,001 преобразуется в р-значение 0,045 - статистически значимое значение.p(n/100)

Так что, если это важно, используя какой-то произвольный порог или другой, что из этого? Если это обсервационное исследование, у вас есть гораздо больше работы, чтобы обосновать, что оно действительно имеет смысл в вашем мышлении, а не просто ложные отношения, которые проявляются, потому что вы неправильно определили свою модель. Обратите внимание, что небольшой эффект не столь интересен с клинической точки зрения, если он представляет существовавшие ранее различия между людьми, выбирающими разные уровни лечения, а не эффект лечения.

Вы должны подумать о том, являются ли отношения, которые вы видите, практически значимыми, как отметили комментаторы. Преобразование цифр, которые вы цитируете, из в r 2 для объясненной дисперсии ( r - корреляция, возведите ее в квадрат, чтобы получить объяснение дисперсии) дает только 3 и 6% объясненной дисперсии, соответственно, что не так уж много.rr2r

Энн З.
источник
@ rolando2 спасибо за редактирование, всегда путаюсь между большими / маленькими p-значениями! Я думаю, что если он справа от распределения, он большой, но значение p мало.
Энн З.
2
(+1) Это важный факт, о котором многие практики не думают внимательно: «р-значения произвольны, так как вы можете сделать их настолько малыми, насколько захотите, собрав достаточно данных, предполагая, что нулевая гипотеза ложна, что почти всегда есть. "
Макрос
Спасибо! Точки в вашем предпоследнем абзаце хорошо приняты. Я читаю статью Вулли и заметил, что ваша формула q-значения выключена. Это должно быть p * not p / - я попытался изменить это здесь, но изменения должны быть> 6 символов.
ted.strauss
@ ted.strauss Я рад, что это полезно. Иногда меня обескураживают ограничения инструментов, таких как p-значения, с которыми нам приходится работать. Спасибо, что заметили ошибку в формуле, я исправил ее.
Энн З.
Спасибо за прекрасный ответ. Но я не могу получить доступ к статье Woolley 2003 по ссылке, указанной выше.
KarthikS
-3

Я полагаю, что простым способом проверки была бы случайная выборка одинаково большого числа из того, что вы знаете, - одно распределение дважды, и сравнение двух результатов. Если вы делаете это несколько раз и наблюдаете аналогичные значения p, это наводит на мысль, что реального эффекта нет. С другой стороны, если нет, то, вероятно, есть.

Ларс Котхофф
источник
7
p<.001pp
1
pUniform(0,1)
1
H0pU[0,1]T=T(X)t=t(x)pp(t)=P(TtH0)H0TG0G0G01p(t)=1G0(t)u[0,1]
1
P(p(T)u)=P(1G0(T)u)=P(G0(T)1u)=P(TG01(1u))=1G0(G01(1u))=u.
p(T)H0U[0,1]