Действительно ли размеры эффекта превосходят p-значения?

14

Большое внимание уделяется тому, чтобы полагаться на величины эффекта и сообщать о них, а не на значения p в прикладных исследованиях (например, цитаты ниже).

Но разве это не тот случай, когда размер эффекта, как и значение p, является случайной величиной и, как таковой, может изменяться от образца к образцу при повторении одного и того же эксперимента? Другими словами, я спрашиваю, какие статистические особенности (например, размер эффекта менее изменчив от образца к образцу, чем значение p) делают показатели эффекта лучше для оценки фактических данных, чем значения p?

Однако я должен упомянуть важный факт, который отделяет значение p от величины эффекта. То есть размер эффекта - это то, что нужно оценить, потому что у него есть параметр совокупности, но p-значение не нужно оценивать, потому что у него нет какого-либо параметра совокупности.

Для меня размер эффекта - это просто метрика, которая в определенных областях исследований (например, исследования на людях) помогает преобразовать эмпирические результаты, полученные из различных инструментов измерения, разработанных исследователями, в общую метрику (справедливо сказать, что использование этой метрики человеческих исследований может лучше соответствовать Квантовый исследовательский клуб).

Может быть, если мы возьмем простую пропорцию в качестве величины эффекта, следующее (в R), что показывает превосходство размеров эффекта над p-значениями? (p-значение изменяется, но размер эффекта не меняется)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Обратите внимание, что большинство размеров эффектов линейно связаны с тестовой статистикой. Таким образом, это простой шаг для проверки нулевой гипотезы с использованием размеров эффекта.

Например, t-статистика, полученная в результате предварительного исследования, может быть легко преобразована в соответствующий размер эффекта Коэна d. Таким образом, дистрибутив Cohen's d является просто версией для масштаба при распределении.

Цитаты:

Поскольку значения p являются ошибочными индексами, в теории 100 исследований с различными размерами выборки и 100 различными размерами эффекта могут иметь одно и то же значение p, а 100 исследований с одинаковым размером эффекта могут иметь 100 различных значений для значения p. ,

или

р-значение является случайной величиной, которая варьируется от образца к образцу. , , , Следовательно, неуместно сравнивать p-значения из двух разных экспериментов или из тестов двух переменных, измеренных в одном и том же эксперименте, и заявлять, что одно является более значимым, чем другое?

Цитирование:

Томпсон, Б. (2006). Основы поведенческой статистики: основанный на понимании подход. Нью-Йорк, Нью-Йорк: Гилфорд Пресс.

Хорошо, PI & Hardin, JW (2003). Распространенные ошибки в статистике (и как их избежать). Нью-Йорк: Уайли.

rnorouzian
источник
12
Я не делаю те же выводы из цитат (что размеры эффекта "превосходят" или должны сообщаться вместо значений p). Я знаю, что некоторые люди слишком остро реагировали на подобные заявления (например, запрет BASP на p-значения). Это не ситуация «один или другой»: это случай, когда нужно указать, что p-значения и размеры эффектов дают различную полезную информацию. Обычно одно не следует рассматривать, не рассматривая его в контексте другого.
whuber
1
Я лично считаю, что достаточно сообщить об оценке вместе с доверительным интервалом. Он дает размер эффекта (практическая значимость) и проверку гипотез (статистическую значимость) одновременно.
Джирапат Самранведхья
1
Являются ли значения p или величины эффекта «превосходящими», зависит от вашей перспективы. Первое следует из фишерской традиции NHST, а второе - из традиции Неймана-Пирсона. В некоторых областях (биологические науки, гуманитарные науки) величины эффекта, как правило, очень малы, что делает привлекательными значения p. И наоборот, как отмечают другие, p-значения могут быть «принудительно» уменьшены за счет изменений в дизайне, как, например, увеличение N.
HEITZ
3
Отвертка лучше молотка?
kjetil b halvorsen
Гайка лучше болта?
Секст Эмпирик

Ответы:

21

Рекомендация о предоставлении значений эффекта, а не значений Р, основана на ложной дихотомии и является глупой. Почему бы не представить оба?

Научные выводы должны основываться на рациональной оценке имеющихся данных и теории. Значения P и наблюдаемые величины эффекта в отдельности или вместе недостаточны.

Ни один из указанных вами отрывков не поможет. Конечно, значения P варьируются от эксперимента к эксперименту, достоверность данных варьируется от эксперимента к эксперименту. Значение P - это всего лишь числовое извлечение этих данных с помощью статистической модели. Учитывая природу P-значения, очень редко в аналитических целях сравнивать одно P-значение с другим, поэтому, возможно, именно это пытается передать автор цитаты.

Если вам захочется сравнить P-значения, то вам, вероятно, следовало бы провести тест значимости для другого расположения данных, чтобы разумно ответить на интересующий вопрос. Смотрите эти вопросы: p-значения для p-значений? и если среднее значение для одной группы отличается от нуля, а для другой нет, можем ли мы сделать вывод, что группы разные?

Итак, ответ на ваш вопрос сложный. Я не считаю, что дихотомические ответы на данные, основанные на P-значениях или размерах эффектов, могут быть полезными, поэтому размеры эффектов превосходят P-значения? Да, нет, иногда, может быть, и это зависит от вашей цели.

Майкл Лью
источник
Я думаю, что было бы предпочтительным представить размер эффекта и его доверительный интервал, при условии, что аналитик правильно может указать, какой значимый размер эффекта имеет значение для данного исследования. Доверительный интервал, в отличие от значения p, дает читателю ощущение как точности оценки, так и ее конечности.
AdamO
1
@AdamO Да, я в основном согласен, но у P-значения есть две вещи, которые следует предложить, и их не следует опускать. Это показатель силы доказательств против нуля, то, что может быть получено только из доверительного интервала очень опытным глазом, и точное значение P напрямую не вызывает дихотомию внутри / снаружи, что доверительный интервал делает , Конечно, функция правдоподобия предлагает преимущества над обоими.
Майкл Лью
14

В контексте прикладных исследований величины эффекта необходимы для читателей, чтобы интерпретировать практическую значимость (в отличие от статистической значимости) результатов. В целом, p-значения гораздо более чувствительны к размеру выборки, чем размеры эффекта. Если эксперимент точно измеряет величину эффекта (т. Е. Он достаточно близок к оцениваемому параметру совокупности), но выдает незначительное значение p, то при прочих равных условиях увеличение размера выборки приведет к тому же размеру эффекта, но более низкое значение р. Это можно продемонстрировать с помощью анализа мощности или моделирования.

В свете этого можно достичь очень значимых значений p для величин эффекта, которые не имеют практического значения. В отличие от этого, проекты исследований с низкой мощностью могут давать несущественные значения р для величин эффекта, имеющих большое практическое значение.

Трудно обсудить понятия статистической значимости для величины эффекта без конкретного реального применения. В качестве примера рассмотрим эксперимент, в котором оценивается влияние нового метода обучения на средний балл учащихся (GPA). Я бы сказал, что величина эффекта 0,01 балла имеет небольшое практическое значение (то есть 2,50 по сравнению с 2,51). Предполагается, что размер выборки составляет 2000 учащихся в группах лечения и контроля, а стандартное отклонение для населения составляет 0,5 балла:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

Обработка образец среднего = 2,51

среднее значение контрольной выборки = 2,50

величина эффекта = 2,51 - 2,50 = 0,01

р = 0,53

Увеличение размера выборки до 20 000 учеников и постоянство всего остального дает значительное значение p:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

Обработка образец среднего = 2,51

среднее значение контрольной выборки = 2,50

величина эффекта = 2,51 - 2,50 = 0,01

р = 0,044

Очевидно, нетрудно увеличить размер выборки на порядок! Однако я думаю, что мы все можем согласиться с тем, что практическое улучшение, предлагаемое этим методом исследования, незначительно. Если бы мы полагались исключительно на значение p, то мы могли бы поверить в обратное в случае n = 20000.

Лично я выступаю за то, чтобы сообщать как p-значения, так и величины эффекта. И бонусные баллы за t- или F-статистику, степени свободы и диагностику модели!

Даррен Джеймс
источник
2
Даррен, пожалуйста, покажи, что ты имеешь в виду под R или что-то вроде PO.
user138773
7
@ Darrent James Нет никакой практической важности в разнице между p = 0,065 и p = 0,043, кроме неудачного предположения, что p = 0,05 - яркая линия, которую следует соблюдать. Ни P-значение не представляет убедительных доказательств за или против чего-либо само по себе.
Майкл Лью
@ Майкл Лью Да, я согласен!
Даррен Джеймс
1
Джеймс, учитывая твой код и объяснения, ты, кажется, совершенно не понял точку зрения ОП. Ваш код R также неверен! Потому что вы не установите время, var.equal = TRUEпока ваши sdравны. С таким фоном, я не уверен, почему вы даже опубликовали ответ как этот. ОП задает вопрос, на который нет простого ответа, по крайней мере, в настоящее время!
user138773
1
Я добавил var.equal = TRUE в код. Но в этом нет необходимости. Одинаковые значения p получаются как с var.equal = TRUE, так и по умолчанию var.equal = FALSE.
Даррен Джеймс
5

В настоящее время я работаю в области науки о данных, а до этого я занимался исследованиями в области образования. В то время как на каждой «карьере» я сотрудничал с людьми, которые не имели формального опыта в области статистики, и где упор на статистическую (и практическую) значимость уделяется значению р . Я научился включать и подчеркивать размеры эффекта в моих анализах, потому что есть разница между статистической значимостью и практической значимостью.

Как правило, люди, с которыми я работал, заботились об одном: «влияет ли наша программа / функция, да или нет?». На такой вопрос вы можете сделать что-то простое, например, t-тест, и сообщить им: «Да, ваша программа / функция имеет значение». Но насколько велика или мала эта «разница»?

Во-первых, прежде чем я начну углубляться в эту тему, я хотел бы подвести итог тому, что мы имеем в виду, говоря о размерах эффектов.

Размер эффекта - это просто способ количественно определить размер разницы между двумя группами. [...] Это особенно ценно для количественной оценки эффективности конкретного вмешательства по сравнению с некоторым сравнением. Это позволяет нам выйти за рамки упрощенного: «Работает или нет?» гораздо более изощренным: «Насколько хорошо это работает в различных контекстах?» Более того, делая акцент на наиболее важном аспекте вмешательства - размере эффекта - а не его статистической значимости (которая связывает размер эффекта и размер выборки), он способствует более научному подходу к накоплению знаний. По этим причинам величина эффекта является важным инструментом в отчетности и интерпретации эффективности.

Это размер эффекта, глупый: какой размер эффекта и почему он важен

α

Почему не достаточно значения P?

Статистическая значимость - это вероятность того, что наблюдаемая разница между двумя группами обусловлена ​​случайностью. Если значение P больше выбранного уровня альфа (например, 0,05), предполагается, что любая наблюдаемая разница объясняется изменчивостью выборки. При достаточно большой выборке статистический тест почти всегда будет демонстрировать существенную разницу, если только не будет никакого эффекта, то есть когда величина эффекта точно равна нулю; все же очень маленькие различия, даже если они значительны, часто бессмысленны. Таким образом, представление только значимого значения P для анализа не является достаточным для читателей, чтобы полностью понять результаты.

И чтобы подтвердить комментарии @ DarrenJames относительно больших размеров выборки

Например, если размер выборки составляет 10 000, вероятно, будет найдено значительное значение P, даже если разница в результатах между группами незначительна и может не оправдать дорогостоящее или длительное вмешательство по сравнению с другой. Уровень значимости сам по себе не предсказывает величину эффекта. В отличие от тестов значимости, размер эффекта не зависит от размера выборки. Статистическая значимость, с другой стороны, зависит как от размера выборки, так и от величины эффекта. По этой причине значения P считаются смешанными из-за их зависимости от размера выборки. Иногда статистически значимый результат означает только то, что использовался огромный размер выборки. [Существует ошибочное мнение, что такое поведение представляет собой предвзятость против нулевой гипотезы.Почему тестирование частых гипотез смещается в сторону отклонения нулевой гипотезы с достаточно большими выборками? ]

Использование размера эффекта или почему P недостаточно

Сообщите как P-значение, так и размеры эффекта

Теперь, чтобы ответить на вопрос, превосходят ли размеры эффекта значения p? ? Я бы сказал, что каждый из них является важным компонентом статистического анализа, который нельзя сравнивать в таких терминах, и о котором следует сообщать вместе. Значение p - это статистика, показывающая статистическую значимость (отличие от нулевого распределения), где величина эффекта выражает словами, насколько велика разница.

В качестве примера, скажем, ваш руководитель Боб, который не очень дружелюбен к статистике, заинтересован в том, чтобы выяснить, существует ли значительная связь между wt (weight) и mpg. (мили на галлон). Вы начинаете анализ с гипотез

ЧАС0:βмпграммзнак равно0 против ЧАСA:βмпграмм0

αзнак равно0,05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summaryβмпграмм0

Таким образом, вы смогли сделать вывод, что результаты были статистически значимыми, и сообщить о значении на практике.

Я надеюсь, что это было полезно, чтобы ответить на ваш вопрос.

Джон
источник
Джон, спасибо, есть много серых областей, о которых я надеялся услышать больше, но я этого не сделал. Во многих ситуациях размеры эффекта и значения p не совпадают. Многие доверяют разным эффектам в таких ситуациях, которые я хотел знать почему. Я надеялся услышать больше об симуляциях, которые могли показать важные моменты. Что касается вопроса, который вы затронули, т. Е. Размер эффекта может быть крошечным, но не совсем нулевым; методы проверки эквивалентности существуют уже несколько лет. Мне еще больше нравится тест на байесовскую эквивалентность. В любом случае, я, вероятно, недостаточно четко задал свой вопрос. - Спасибо
rnorouzian
Кстати, коллега отметил, что код Дарена R неверен, кажется, он / она прав. Он не поставил var.equal = TRUE.
rnorouzian
* Во многих ситуациях размеры эффектов и значения p не совпадают. * - Можете ли вы предоставить больше информации по этому вопросу? Пример? Что касается вопроса, который вы затронули, т. Е. Размер эффекта может быть крошечным, но не равным нулю - эта ситуация может привести к большому размеру выборки. Таким образом, если величина эффекта почти равна нулю, то представляющая интерес переменная может не оказать существенного влияния на результат, или может быть неправильно задана связь (например, линейная или нелинейная).
Джон
Просто попробуйте этот инструмент . Также см. Этот документ . Кажется, мне нужно будет задать другой вопрос позже, используя некоторый код для ясности. -- Спасибо.
rnorouzian
@rnorouzian, хорошо, я запустил твой код. В чем ваша точка зрения?
Джон
4

Полезность величин эффектов относительно p-значений (а также других метрик статистического вывода) обычно обсуждается в моей области - психологии - и в настоящее время дискуссия «горячее», чем обычно, по причинам, относящимся к вашему вопросу. И хотя я уверен, что психология не обязательно является самой сложной в статистическом отношении научной областью, она с готовностью обсуждала, изучала, а иногда и демонстрировала, ограничения различных подходов к статистическому выводу или, по крайней мере, то, как они ограничены использованием человеком. Уже опубликованные ответы включают в себя хорошее понимание, но в случае, если вас интересует более обширный список (и ссылки) причин за и против каждого, см. Ниже.

Почему р-значения нежелательны?

  • Как отмечает Даррен Джеймс (и его симуляция), p-значения в значительной степени зависят от количества наблюдений, которые у вас есть (см. Kirk, 2003).
  • Как отмечает Джон, p-значения представляют условную вероятность наблюдения данных как экстремальную или более экстремальную, учитывая, что нулевая гипотеза верна. Поскольку большинство исследователей предпочли бы иметь вероятности исследовательской гипотезы и / или нулевой гипотезы, значения p не говорят с вероятностями, которые наиболее интересуют исследователей (т. Е. С нулевой или исследовательской гипотезой, см. Dienes, 2008).
  • Многие, кто использует p-значения, не понимают, что они означают / не значат (Schmidt & Hunter, 1997). Ссылка Майкла Лью на статью Гельмана и Стерна (2006) еще раз подчеркивает недопонимание исследователя о том, что можно (или нельзя) интерпретировать из p-значений. И как относительно недавняя история на FiveThirtyEight , это продолжает иметь место.
  • p-значения не велики при прогнозировании последующих p-значений (Cumming, 2008)
  • p-значения часто искажаются (чаще раздувают значимость), а неправильная отчетность связана с нежеланием делиться данными (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
  • Значения p могут (и исторически были) активно искажены из-за аналитической гибкости, и поэтому не заслуживают доверия (John et al., 2012; Simmons et al., 2011)
  • Значения р несоразмерно значимы, поскольку академические системы, по-видимому, вознаграждают ученых за статистическую значимость за научную точность (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)

Почему желательны размеры эффекта?

Обратите внимание, что я интерпретирую ваш вопрос как относящийся конкретно к стандартизированным величинам эффекта, поскольку вы говорите, что они позволяют исследователям преобразовывать свои выводы в «ОБЩУЮ метрику».

  • Как указывают Джон и Даррен Джеймс, величины эффекта указывают на величину эффекта, независимо от числа наблюдений (Американская психологическая ассоциация 2010; Камминг, 2014), в отличие от принятия дихотомических решений о том, присутствует ли эффект или нет.
  • Размеры эффекта ценны, потому что они делают возможным мета-анализ, а мета-анализ способствует накоплению знаний (Borenstein et al., 2009; Chan & Arvey, 2012)
  • Размеры эффекта помогают упростить планирование размера выборки с помощью априорного анализа мощности и, следовательно, эффективного распределения ресурсов в исследованиях (Cohen, 1992)

Почему р-значения желательны?

Хотя они реже поддерживаются, р-значения имеют ряд льгот. Некоторые из них известны и давно, в то время как другие являются относительно новыми.

  • Значения P обеспечивают удобный и знакомый показатель силы доказательств против нулевой гипотезы статистической модели.

  • При правильном расчете p-значения обеспечивают возможность принятия дихотомических решений (которые иногда необходимы), а p-значения помогают поддерживать долгосрочный уровень ложноположительных ошибок на приемлемом уровне (Dienes, 2008; Sakaluk, 2016) [It не совсем правильно говорить, что P-значения необходимы для дихотомических решений. Они действительно широко используются таким образом, но Нейман и Пирсон использовали «критические области» в тестовом статистическом пространстве для этой цели. Смотрите этот вопрос и его ответы]

  • Значения p могут использоваться для обеспечения непрерывно эффективного планирования размера выборки (а не только однократного анализа мощности) (Lakens, 2014)
  • Значения p могут использоваться для облегчения мета-анализа и оценки доказательной ценности (Simonsohn et al., 2014a; Simonsohn et al., 2014b). См. Этот пост для ознакомления с тем, как таким образом можно использовать распределения p-значений, а также этот пост CV. для соответствующего обсуждения.
  • Значения p можно использовать в качестве судебно-медицинской экспертизы, чтобы определить, могли ли быть использованы сомнительные методы исследования и насколько могут быть воспроизведены результаты (Schimmack, 2014; см. также приложение Schönbrodt, 2015)

Почему размер эффекта нежелателен (или переоценен)?

Возможно, самая нелогичная позиция для многих; почему сообщение о стандартных величинах эффекта было бы нежелательным или, по крайней мере, завышенным?

  • В некоторых случаях стандартизированные размеры эффекта - это еще не все, что им нужно (например, Greenland, Schlesselman & Criqui, 1986). В частности, у Baguely (2009) есть хорошее описание некоторых причин, по которым необработанные / нестандартные величины эффекта могут быть более желательными.
  • Несмотря на свою полезность для априорного анализа мощности, размеры эффекта фактически не используются надежно для облегчения эффективного планирования размера выборки (Maxwell, 2004)
  • Даже когда размеры эффекта используются при планировании размера выборки, поскольку они завышены из-за систематической ошибки публикации (Rosenthal, 1979), опубликованные размеры эффекта представляют сомнительную пользу для надежного планирования размера выборки (Simonsohn, 2013).
  • Оценки величины эффекта могут быть - и были - систематически неправильно рассчитаны в статистическом программном обеспечении (Levine & Hullet, 2002)
  • Размеры эффекта ошибочно извлекаются (и, вероятно, неправильно сообщаются), что подрывает достоверность метаанализа (Gøtzsche et al., 2007)
  • Наконец, исправление смещения публикаций в размерах эффекта остается неэффективным (см. Carter et al., 2017), что, если вы считаете, что смещение публикаций существует, делает метаанализ менее эффективным.

Резюме

Повторяя точку зрения Майкла Лью, p-значения и величины эффекта - это всего лишь два статистических доказательства; Есть и другие, которые стоит рассмотреть. Но, как и значения p и величины эффекта, другие метрики доказательной ценности также имеют общие и уникальные проблемы. Исследователи обычно неправильно применяют и неверно истолковывают доверительные интервалы (например, Hoekstra et al., 2014; Morey et al., 2016), а результаты байесовского анализа могут искажаться исследователями, как при использовании значений p (например, Симонсона). 2014).

Все метрики доказательств выиграли, и все должны иметь призы.

Ссылки

Американская Психологическая Ассоциация. (2010). Руководство по публикации Американской психологической ассоциации (6-е издание). Вашингтон, округ Колумбия: Американская психологическая ассоциация.

Baguley, T. (2009). Стандартизированный или простой размер эффекта: о чем следует сообщать? Британский журнал психологии, 100 (3), 603-617.

Bakker, M. & Wicherts, JM (2011). (Неправильное) представление статистических результатов в психологических журналах. Методы исследования поведения, 43 (3), 666-678.

Боренштейн М., Хеджес Л.В., Хиггинс Дж. И Ротштейн Г.Р. (2009). Введение в метаанализ. Западный Суссекс, Великобритания: John Wiley & Sons, Ltd.

Картер, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 августа). Исправление предвзятости в психологии: сравнение метааналитических методов. Получено с osf.io/preprints/psyarxiv/9h3nu

Чан, ME & Arvey, RD (2012). Мета-анализ и развитие знаний. Перспективы психологических наук, 7 (1), 79-92.

Коэн, J. (1992). Энергетический праймер. Психологический вестник, 112 (1), 155-159. 

Камминг Г. (2008). Репликация и интервалы p: значения p предсказывают будущее лишь неопределенно, но доверительные интервалы работают намного лучше. Перспективы психологических наук, 3, 286–300.

Dienes, D. (2008). Понимание психологии как науки: введение в научный и статистический вывод. Нью-Йорк, Нью-Йорк: Palgrave MacMillan.

Fanelli, D. (2010). «Позитивные» результаты увеличивают иерархию наук. PloS one, 5 (4), e10068.

Gelman, A. & Stern, H. (2006). Разница между «значимым» и «несущественным» сама по себе не является статистически значимой. Американский статистик, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K. & Tendal, B. (2007). Ошибки извлечения данных в мета-анализе, которые используют стандартизированные средние различия. JAMA, 298 (4), 430-437.

Гренландия, С., Шлессельман, JJ & Criqui, MH (1986). Ошибочность использования стандартизированных коэффициентов регрессии и корреляций в качестве меры эффекта. Американский журнал эпидемиологии, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Надежная неверная интерпретация доверительных интервалов. Психономический бюллетень и обзор, 21 (5), 1157-1164.

John, LK, Loewenstein, G. & Prelec, D. (2012). Измерение распространенности сомнительной исследовательской практики с стимулами для правды. PsychologicalSscience, 23 (5), 524-532.

Кирк, RE (2003). Важность величины эффекта. В SF Дэвис (ред.), Справочник методов исследования в экспериментальной психологии (стр. 83–105). Малден, Массачусетс: Блэквелл.

Лакенс Д. (2014). Эффективное проведение мощных исследований с последовательным анализом. Европейский журнал социальной психологии, 44 (7), 701-710.

Levine, TR & Hullett, CR (2002). Эта квадрат, частичная эта квадрат, и неверный отчет о величине эффекта в исследованиях коммуникации. Human Communication Research, 28 (4), 612-625.

Максвелл, SE (2004). Постоянство слабых исследований в психологических исследованиях: причины, последствия и средства правовой защиты. Психологические методы, 9 (2), 147.

Морей Р.Д., Хукстра Р., Роудер Дж.Н., Ли М.Д. и Вагенмакерс Э.Дж. (2016). Ошибка уверенности в доверительных интервалах. Психономический бюллетень и обзор, 23 (1), 103-123.

Носек Б.А., Шпионы Дж.Р. и Мотил М. (2012). Научная утопия: II. Перестройка стимулов и практики для продвижения правды над публикуемостью. Перспективы психологических наук, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp S., & Wicherts, JM (2016). Распространенность ошибок статистической отчетности в психологии (1985–2013). Методы исследования поведения, 48 (4), 1205-1226.

Розенталь Р. (1979). Проблема с ящиком файлов и допуск для нулевых результатов. Психологический вестник, 86 (3), 638-641.

Сакалук, JK (2016). Изучение малого, подтверждение большого: альтернативная система для новой статистики для продвижения кумулятивных и воспроизводимых психологических исследований. Журнал экспериментальной социальной психологии, 66, 47-54.

Schimmack, U. (2014). Количественная оценка достоверности статистических исследований: индекс воспроизводимости. Получено с http://www.r-index.org 

Schmidt, FL, & Hunter, JE (1997). Восемь распространенных, но ложных возражений против прекращения значимого тестирования при анализе данных исследований. В LL Harlow, SA Mulaik и JH Steiger (Eds.), Что если бы не было тестов значимости? (стр. 37–64). Махва, Нью-Джерси: Эрлбаум.

Schönbrodt, FD (2015). p-checker: универсальный анализатор p-значений. Получено с http://shinyapps.org/apps/p-checker/

Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Психологическая наука, 22 (11), 1359-1366.

Simonsohn, U. (2013). Глупость мощных репликаций, основанная на наблюдаемой величине эффекта. Получено с http://datacolada.org/4

Simonsohn, U. (2014). Задний взлом. Получено с http://datacolada.org/13 .

Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014). P-образная кривая: ключ к выдвижному ящику. Журнал экспериментальной психологии: общий, 143 (2), 534-547.

Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014). Кривая P и размер эффекта: исправление смещения публикации с использованием только значимых результатов. Перспективы психологических наук, 9 (6), 666-681.

Wicherts, JM, Bakker, M. & Molenaar, D. (2011). Готовность делиться данными исследований связана с убедительностью доказательств и качеством представления статистических результатов. PloS one, 6 (11), e26828.

jsakaluk
источник
2
Очень хорошая коллекция идей и ссылок. Это должно быть полезно для тех, кто хочет копать немного дальше, но учтите, что многие из пунктов имеют соответствующие вопросы и ответы на этом сайте. Ссылки на них тоже помогут.
Майкл Лью
@MichaelLew Спасибо. Я посмотрю о добавлении некоторых ссылок, когда у меня будет время - у меня ушла лучшая часть дня, чтобы составить этот ответ и собрать ссылки. Что касается вашего редактирования, я думаю, что ваша точка зрения хорошо принята, но, возможно, больше дополнения, чем исправление? Я сказал , р-значения обеспечивают средства принятия решений дихотомических (не то, что они «необходимы», или единственным способом сделать это). Я согласен с тем, что критические области NP являются другим способом, но я ответил на OP в контексте того, что p-значения позволяют сравнивать со стандартизированными величинами эффекта.
Джакалук
1
jsakaluk, да я вижу, что вы бы потратили много времени на ответ, и это очень полезно и стоит ваших усилий. Я отредактировал пункт о преимуществах P-значений, потому что вы написали «При правильном использовании», их можно дихотомизировать, в то время как реальность такова, что такое использование игнорирует большую часть информации, которая закодирована в P-значении, и поэтому, вероятно, (и на мой взгляд) неправильное использование. Я не хотел подрывать ваше намерение, поэтому я изменил «использовал» на «рассчитал».
Майкл Лью
3

С точки зрения эпидемиолога, почему я предпочитаю величину эффекта значению p (хотя, как отмечали некоторые люди, это что-то вроде ложной дихотомии):

  1. Размер эффекта говорит мне, что я на самом деле хочу, р просто говорит мне, можно ли его отличить от нуля. Относительный риск 1,0001, 1,5, 5 и 50 может иметь одинаковое значение р, ассоциированное с ними, но означать совершенно разные вещи с точки зрения того, что нам может понадобиться на уровне населения.
  2. Опора на p-значение укрепляет представление о том, что основанное на значении тестирование гипотез является конечным доказательством. Рассмотрим следующие два утверждения: «Врачи, улыбающиеся пациентам, не были значительно связаны с неблагоприятным исходом во время их пребывания в больнице». vs. «Пациенты, у которых доктор улыбался им, имели на 50% меньшую вероятность неблагоприятного исхода (р = 0,086)». Вы все еще, может быть, учитывая, что это абсолютно бесплатно, подумаете о том, чтобы предложить врачам улыбнуться своим пациентам?
  3. Я работаю со многими стохастическими имитационными моделями, в которых размер выборки является функцией вычислительной мощности и терпения, а значения p по существу не имеют смысла. Мне удалось получить p <0,05 результатов для вещей, которые не имеют абсолютно никакого клинического или общественного значения.
фомиты
источник