Большое внимание уделяется тому, чтобы полагаться на величины эффекта и сообщать о них, а не на значения p в прикладных исследованиях (например, цитаты ниже).
Но разве это не тот случай, когда размер эффекта, как и значение p, является случайной величиной и, как таковой, может изменяться от образца к образцу при повторении одного и того же эксперимента? Другими словами, я спрашиваю, какие статистические особенности (например, размер эффекта менее изменчив от образца к образцу, чем значение p) делают показатели эффекта лучше для оценки фактических данных, чем значения p?
Однако я должен упомянуть важный факт, который отделяет значение p от величины эффекта. То есть размер эффекта - это то, что нужно оценить, потому что у него есть параметр совокупности, но p-значение не нужно оценивать, потому что у него нет какого-либо параметра совокупности.
Для меня размер эффекта - это просто метрика, которая в определенных областях исследований (например, исследования на людях) помогает преобразовать эмпирические результаты, полученные из различных инструментов измерения, разработанных исследователями, в общую метрику (справедливо сказать, что использование этой метрики человеческих исследований может лучше соответствовать Квантовый исследовательский клуб).
Может быть, если мы возьмем простую пропорцию в качестве величины эффекта, следующее (в R), что показывает превосходство размеров эффекта над p-значениями? (p-значение изменяется, но размер эффекта не меняется)
binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55%
binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%
Обратите внимание, что большинство размеров эффектов линейно связаны с тестовой статистикой. Таким образом, это простой шаг для проверки нулевой гипотезы с использованием размеров эффекта.
Например, t-статистика, полученная в результате предварительного исследования, может быть легко преобразована в соответствующий размер эффекта Коэна d. Таким образом, дистрибутив Cohen's d является просто версией для масштаба при распределении.
Цитаты:
Поскольку значения p являются ошибочными индексами, в теории 100 исследований с различными размерами выборки и 100 различными размерами эффекта могут иметь одно и то же значение p, а 100 исследований с одинаковым размером эффекта могут иметь 100 различных значений для значения p. ,
или
р-значение является случайной величиной, которая варьируется от образца к образцу. , , , Следовательно, неуместно сравнивать p-значения из двух разных экспериментов или из тестов двух переменных, измеренных в одном и том же эксперименте, и заявлять, что одно является более значимым, чем другое?
Цитирование:
Томпсон, Б. (2006). Основы поведенческой статистики: основанный на понимании подход. Нью-Йорк, Нью-Йорк: Гилфорд Пресс.
Хорошо, PI & Hardin, JW (2003). Распространенные ошибки в статистике (и как их избежать). Нью-Йорк: Уайли.
Ответы:
Рекомендация о предоставлении значений эффекта, а не значений Р, основана на ложной дихотомии и является глупой. Почему бы не представить оба?
Научные выводы должны основываться на рациональной оценке имеющихся данных и теории. Значения P и наблюдаемые величины эффекта в отдельности или вместе недостаточны.
Ни один из указанных вами отрывков не поможет. Конечно, значения P варьируются от эксперимента к эксперименту, достоверность данных варьируется от эксперимента к эксперименту. Значение P - это всего лишь числовое извлечение этих данных с помощью статистической модели. Учитывая природу P-значения, очень редко в аналитических целях сравнивать одно P-значение с другим, поэтому, возможно, именно это пытается передать автор цитаты.
Если вам захочется сравнить P-значения, то вам, вероятно, следовало бы провести тест значимости для другого расположения данных, чтобы разумно ответить на интересующий вопрос. Смотрите эти вопросы: p-значения для p-значений? и если среднее значение для одной группы отличается от нуля, а для другой нет, можем ли мы сделать вывод, что группы разные?
Итак, ответ на ваш вопрос сложный. Я не считаю, что дихотомические ответы на данные, основанные на P-значениях или размерах эффектов, могут быть полезными, поэтому размеры эффектов превосходят P-значения? Да, нет, иногда, может быть, и это зависит от вашей цели.
источник
В контексте прикладных исследований величины эффекта необходимы для читателей, чтобы интерпретировать практическую значимость (в отличие от статистической значимости) результатов. В целом, p-значения гораздо более чувствительны к размеру выборки, чем размеры эффекта. Если эксперимент точно измеряет величину эффекта (т. Е. Он достаточно близок к оцениваемому параметру совокупности), но выдает незначительное значение p, то при прочих равных условиях увеличение размера выборки приведет к тому же размеру эффекта, но более низкое значение р. Это можно продемонстрировать с помощью анализа мощности или моделирования.
В свете этого можно достичь очень значимых значений p для величин эффекта, которые не имеют практического значения. В отличие от этого, проекты исследований с низкой мощностью могут давать несущественные значения р для величин эффекта, имеющих большое практическое значение.
Трудно обсудить понятия статистической значимости для величины эффекта без конкретного реального применения. В качестве примера рассмотрим эксперимент, в котором оценивается влияние нового метода обучения на средний балл учащихся (GPA). Я бы сказал, что величина эффекта 0,01 балла имеет небольшое практическое значение (то есть 2,50 по сравнению с 2,51). Предполагается, что размер выборки составляет 2000 учащихся в группах лечения и контроля, а стандартное отклонение для населения составляет 0,5 балла:
Обработка образец среднего = 2,51
среднее значение контрольной выборки = 2,50
величина эффекта = 2,51 - 2,50 = 0,01
р = 0,53
Увеличение размера выборки до 20 000 учеников и постоянство всего остального дает значительное значение p:
Обработка образец среднего = 2,51
среднее значение контрольной выборки = 2,50
величина эффекта = 2,51 - 2,50 = 0,01
р = 0,044
Очевидно, нетрудно увеличить размер выборки на порядок! Однако я думаю, что мы все можем согласиться с тем, что практическое улучшение, предлагаемое этим методом исследования, незначительно. Если бы мы полагались исключительно на значение p, то мы могли бы поверить в обратное в случае n = 20000.
Лично я выступаю за то, чтобы сообщать как p-значения, так и величины эффекта. И бонусные баллы за t- или F-статистику, степени свободы и диагностику модели!
источник
var.equal = TRUE
пока вашиsd
равны. С таким фоном, я не уверен, почему вы даже опубликовали ответ как этот. ОП задает вопрос, на который нет простого ответа, по крайней мере, в настоящее время!В настоящее время я работаю в области науки о данных, а до этого я занимался исследованиями в области образования. В то время как на каждой «карьере» я сотрудничал с людьми, которые не имели формального опыта в области статистики, и где упор на статистическую (и практическую) значимость уделяется значению р . Я научился включать и подчеркивать размеры эффекта в моих анализах, потому что есть разница между статистической значимостью и практической значимостью.
Как правило, люди, с которыми я работал, заботились об одном: «влияет ли наша программа / функция, да или нет?». На такой вопрос вы можете сделать что-то простое, например, t-тест, и сообщить им: «Да, ваша программа / функция имеет значение». Но насколько велика или мала эта «разница»?
Во-первых, прежде чем я начну углубляться в эту тему, я хотел бы подвести итог тому, что мы имеем в виду, говоря о размерах эффектов.
Это размер эффекта, глупый: какой размер эффекта и почему он важен
И чтобы подтвердить комментарии @ DarrenJames относительно больших размеров выборки
Использование размера эффекта или почему P недостаточно
Сообщите как P-значение, так и размеры эффекта
Теперь, чтобы ответить на вопрос, превосходят ли размеры эффекта значения p? ? Я бы сказал, что каждый из них является важным компонентом статистического анализа, который нельзя сравнивать в таких терминах, и о котором следует сообщать вместе. Значение p - это статистика, показывающая статистическую значимость (отличие от нулевого распределения), где величина эффекта выражает словами, насколько велика разница.
В качестве примера, скажем, ваш руководитель Боб, который не очень дружелюбен к статистике, заинтересован в том, чтобы выяснить, существует ли значительная связь между wt (weight) и mpg. (мили на галлон). Вы начинаете анализ с гипотез
summary
Таким образом, вы смогли сделать вывод, что результаты были статистически значимыми, и сообщить о значении на практике.
Я надеюсь, что это было полезно, чтобы ответить на ваш вопрос.
источник
var.equal = TRUE
.Полезность величин эффектов относительно p-значений (а также других метрик статистического вывода) обычно обсуждается в моей области - психологии - и в настоящее время дискуссия «горячее», чем обычно, по причинам, относящимся к вашему вопросу. И хотя я уверен, что психология не обязательно является самой сложной в статистическом отношении научной областью, она с готовностью обсуждала, изучала, а иногда и демонстрировала, ограничения различных подходов к статистическому выводу или, по крайней мере, то, как они ограничены использованием человеком. Уже опубликованные ответы включают в себя хорошее понимание, но в случае, если вас интересует более обширный список (и ссылки) причин за и против каждого, см. Ниже.
Почему р-значения нежелательны?
Почему желательны размеры эффекта?
Обратите внимание, что я интерпретирую ваш вопрос как относящийся конкретно к стандартизированным величинам эффекта, поскольку вы говорите, что они позволяют исследователям преобразовывать свои выводы в «ОБЩУЮ метрику».
Почему р-значения желательны?
Хотя они реже поддерживаются, р-значения имеют ряд льгот. Некоторые из них известны и давно, в то время как другие являются относительно новыми.
Значения P обеспечивают удобный и знакомый показатель силы доказательств против нулевой гипотезы статистической модели.
При правильном расчете p-значения обеспечивают возможность принятия дихотомических решений (которые иногда необходимы), а p-значения помогают поддерживать долгосрочный уровень ложноположительных ошибок на приемлемом уровне (Dienes, 2008; Sakaluk, 2016) [It не совсем правильно говорить, что P-значения необходимы для дихотомических решений. Они действительно широко используются таким образом, но Нейман и Пирсон использовали «критические области» в тестовом статистическом пространстве для этой цели. Смотрите этот вопрос и его ответы]
Почему размер эффекта нежелателен (или переоценен)?
Возможно, самая нелогичная позиция для многих; почему сообщение о стандартных величинах эффекта было бы нежелательным или, по крайней мере, завышенным?
Резюме
Повторяя точку зрения Майкла Лью, p-значения и величины эффекта - это всего лишь два статистических доказательства; Есть и другие, которые стоит рассмотреть. Но, как и значения p и величины эффекта, другие метрики доказательной ценности также имеют общие и уникальные проблемы. Исследователи обычно неправильно применяют и неверно истолковывают доверительные интервалы (например, Hoekstra et al., 2014; Morey et al., 2016), а результаты байесовского анализа могут искажаться исследователями, как при использовании значений p (например, Симонсона). 2014).
Все метрики доказательств выиграли, и все должны иметь призы.
Ссылки
Американская Психологическая Ассоциация. (2010). Руководство по публикации Американской психологической ассоциации (6-е издание). Вашингтон, округ Колумбия: Американская психологическая ассоциация.
Baguley, T. (2009). Стандартизированный или простой размер эффекта: о чем следует сообщать? Британский журнал психологии, 100 (3), 603-617.
Bakker, M. & Wicherts, JM (2011). (Неправильное) представление статистических результатов в психологических журналах. Методы исследования поведения, 43 (3), 666-678.
Боренштейн М., Хеджес Л.В., Хиггинс Дж. И Ротштейн Г.Р. (2009). Введение в метаанализ. Западный Суссекс, Великобритания: John Wiley & Sons, Ltd.
Картер, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 августа). Исправление предвзятости в психологии: сравнение метааналитических методов. Получено с osf.io/preprints/psyarxiv/9h3nu
Чан, ME & Arvey, RD (2012). Мета-анализ и развитие знаний. Перспективы психологических наук, 7 (1), 79-92.
Коэн, J. (1992). Энергетический праймер. Психологический вестник, 112 (1), 155-159.
Камминг Г. (2008). Репликация и интервалы p: значения p предсказывают будущее лишь неопределенно, но доверительные интервалы работают намного лучше. Перспективы психологических наук, 3, 286–300.
Dienes, D. (2008). Понимание психологии как науки: введение в научный и статистический вывод. Нью-Йорк, Нью-Йорк: Palgrave MacMillan.
Fanelli, D. (2010). «Позитивные» результаты увеличивают иерархию наук. PloS one, 5 (4), e10068.
Gelman, A. & Stern, H. (2006). Разница между «значимым» и «несущественным» сама по себе не является статистически значимой. Американский статистик, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K. & Tendal, B. (2007). Ошибки извлечения данных в мета-анализе, которые используют стандартизированные средние различия. JAMA, 298 (4), 430-437.
Гренландия, С., Шлессельман, JJ & Criqui, MH (1986). Ошибочность использования стандартизированных коэффициентов регрессии и корреляций в качестве меры эффекта. Американский журнал эпидемиологии, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Надежная неверная интерпретация доверительных интервалов. Психономический бюллетень и обзор, 21 (5), 1157-1164.
John, LK, Loewenstein, G. & Prelec, D. (2012). Измерение распространенности сомнительной исследовательской практики с стимулами для правды. PsychologicalSscience, 23 (5), 524-532.
Кирк, RE (2003). Важность величины эффекта. В SF Дэвис (ред.), Справочник методов исследования в экспериментальной психологии (стр. 83–105). Малден, Массачусетс: Блэквелл.
Лакенс Д. (2014). Эффективное проведение мощных исследований с последовательным анализом. Европейский журнал социальной психологии, 44 (7), 701-710.
Levine, TR & Hullett, CR (2002). Эта квадрат, частичная эта квадрат, и неверный отчет о величине эффекта в исследованиях коммуникации. Human Communication Research, 28 (4), 612-625.
Максвелл, SE (2004). Постоянство слабых исследований в психологических исследованиях: причины, последствия и средства правовой защиты. Психологические методы, 9 (2), 147.
Морей Р.Д., Хукстра Р., Роудер Дж.Н., Ли М.Д. и Вагенмакерс Э.Дж. (2016). Ошибка уверенности в доверительных интервалах. Психономический бюллетень и обзор, 23 (1), 103-123.
Носек Б.А., Шпионы Дж.Р. и Мотил М. (2012). Научная утопия: II. Перестройка стимулов и практики для продвижения правды над публикуемостью. Перспективы психологических наук, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp S., & Wicherts, JM (2016). Распространенность ошибок статистической отчетности в психологии (1985–2013). Методы исследования поведения, 48 (4), 1205-1226.
Розенталь Р. (1979). Проблема с ящиком файлов и допуск для нулевых результатов. Психологический вестник, 86 (3), 638-641.
Сакалук, JK (2016). Изучение малого, подтверждение большого: альтернативная система для новой статистики для продвижения кумулятивных и воспроизводимых психологических исследований. Журнал экспериментальной социальной психологии, 66, 47-54.
Schimmack, U. (2014). Количественная оценка достоверности статистических исследований: индекс воспроизводимости. Получено с http://www.r-index.org
Schmidt, FL, & Hunter, JE (1997). Восемь распространенных, но ложных возражений против прекращения значимого тестирования при анализе данных исследований. В LL Harlow, SA Mulaik и JH Steiger (Eds.), Что если бы не было тестов значимости? (стр. 37–64). Махва, Нью-Джерси: Эрлбаум.
Schönbrodt, FD (2015). p-checker: универсальный анализатор p-значений. Получено с http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Психологическая наука, 22 (11), 1359-1366.
Simonsohn, U. (2013). Глупость мощных репликаций, основанная на наблюдаемой величине эффекта. Получено с http://datacolada.org/4
Simonsohn, U. (2014). Задний взлом. Получено с http://datacolada.org/13 .
Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014). P-образная кривая: ключ к выдвижному ящику. Журнал экспериментальной психологии: общий, 143 (2), 534-547.
Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014). Кривая P и размер эффекта: исправление смещения публикации с использованием только значимых результатов. Перспективы психологических наук, 9 (6), 666-681.
Wicherts, JM, Bakker, M. & Molenaar, D. (2011). Готовность делиться данными исследований связана с убедительностью доказательств и качеством представления статистических результатов. PloS one, 6 (11), e26828.
источник
С точки зрения эпидемиолога, почему я предпочитаю величину эффекта значению p (хотя, как отмечали некоторые люди, это что-то вроде ложной дихотомии):
источник