Мой вопрос в названии говорит сам за себя, но я хотел бы дать ему некоторый контекст.
Ранее на этой неделе ASA опубликовала заявление « о p-значениях: контекст, процесс и цель », в котором изложены различные распространенные заблуждения о p-значении и содержится настоятельная рекомендация не использовать его без контекста и обдумывания (что можно сказать только о любой статистический метод, правда).
В ответ на ASA профессор Matloff написал сообщение в блоге под названием: « Через 150 лет ASA говорит нет p-значениям» . Затем профессор Бенджамини (и я) написал ответную статью под названием « Это не ошибка р-значений» - размышления о недавнем заявлении ASA . В ответ на это профессор Matloff спросил в последующей записи :
То, что я хотел бы видеть [... это] - хороший, убедительный пример, в котором полезны p-значения. Это действительно должно быть суть.
Чтобы процитировать его два основных аргумента против полезности значения:
С большими выборками тесты значимости набрасываются на крошечные, незначительные отклонения от нулевой гипотезы
В реальном мире почти нет нулевых гипотез, поэтому проверка их значимости абсурдна и причудлива.
Мне очень интересно, что другие перекрестно утвержденные члены сообщества думают об этом вопросе / аргументах, и что может составить хороший ответ на него.
источник
Ответы:
Я рассмотрю оба вопроса Матлоффа:
Логика здесь в том, что если кто-то сообщает об очень значительном , то только по одному этому числу мы не можем сказать, является ли эффект большим и важным или неуместно крошечным (как это может случиться с большим ). Я нахожу этот аргумент странным и вообще не могу с ним связаться, потому что я никогда не видел исследования, в котором бы сообщалось о значении без сообщения [некоторого эквивалента] величины эффекта. Исследования, которые я читал, например, сказали бы (и обычно показывают на рисунке), что группа A имела такое-то и такое-то среднее значение, группа B имела такое-то и такое-то среднее значение, и они значительно различались с таким-и таким- значением. Очевидно, я могу сам судить, велика ли разница между A и B.н р рp=0.0001 n p p
(В комментариях @RobinEkman указал мне на несколько высоко цитируемых исследований Ziliak & McCloskey ( 1996 , 2004 ), которые отметили, что большинство экономических статей озвучивают «статистическую значимость» некоторых эффектов, не обращая большого внимания на величину эффекта и его «практическое значение» (которое, как утверждают Z & MS, часто может быть незначительным). Это явно плохая практика. Однако, как объясняет @MatteoS ниже, величины эффекта (оценки регрессии) всегда сообщаются, поэтому мой аргумент в силе.)
Эта проблема также часто озвучивается, но и здесь я не могу по-настоящему подключиться к ней. Важно понимать, что исследователи не увеличивают свои до бесконечности . В той области неврологии, с которой я знаком, люди будут проводить эксперименты с или, может быть, , скажем, с крысами. Если эффекта не видно, то вывод состоит в том, что эффект недостаточно велик, чтобы быть интересным. Никто , я знаю , пошел бы по разведению, обучению, записи и жертвуя крыс , чтобы показать , что это какая - то статистически значимая , но крошечная эффект. И в то время как это может быть правдой , что почти никаких реальных эффектов не в точности равна нулю, то естьn = 20 n = 50 n = 5000n n=20 n=50 n=5000 безусловно, верно, что многие реальные эффекты достаточно малы, чтобы их можно было обнаружить при разумных размерах выборки, которые на самом деле используют разумные исследователи, используя свое здравое суждение.
(Существует обоснованное опасение, что размеры выборки часто недостаточно велики и что многие исследования недостаточно эффективны. Поэтому, возможно, исследователи во многих областях должны стремиться, скажем, к вместо Тем не менее, независимо от размера выборки , это накладывает ограничение на размер эффекта, который исследование может обнаружить.)n = 20n=100 n=20
Кроме того, я не думаю, что согласен с тем, что почти никакие нулевые гипотезы не верны, по крайней мере, в экспериментальных рандомизированных исследованиях (в отличие от наблюдательных). Две причины:
Очень часто есть направление к прогнозу, который проверяется; Исследователь стремится продемонстрировать, что некоторый эффект является положительным . По соглашению это обычно делается с помощью двустороннего теста, предполагающего нулевую точку но на самом деле это скорее односторонний тест, пытающийся отклонить . (Ответ @ CliffAB, +1, указывает на это.) И это, безусловно, может быть правдой.H 0 : δ = 0 H 0 : δ < 0δ>0 H0:δ=0 H0:δ<0
Даже говоря о точке «ноль» нуль , я не понимаю, почему они никогда не соответствуют действительности. Некоторые вещи просто не имеют причинно-следственной связи с другими вещами. Посмотрите на психологические исследования, которые не воспроизводятся в последние годы: люди чувствуют будущее; женщины одеваются в красное при овуляции; наполнение старческими словами, влияющими на скорость ходьбы; и т.д. Это может быть очень хорошо , что нет причинно - следственных связей здесь вообще и поэтому истинные эффекты точно равны нулю.H0:δ=0
Сам Норм Матлофф предлагает использовать доверительные интервалы вместо значений, поскольку они показывают величину эффекта. Доверительные интервалы хороши, но отмечают один недостаток доверительного интервала по сравнению с значением: доверительный интервал сообщается для одного конкретного значения покрытия, например, . Видя доверительный интервал не могу сказать, насколько широким будет доверительный интервал . Но одно значение можно сравнить с любым и разные читатели могут иметь в виду разные альфы.р 95 % 95 % 99 % р αp p 95% 95% 99% p α
Другими словами, я думаю, что для тех, кто любит использовать доверительные интервалы, значение является полезной и значимой дополнительной статистикой для отчета.p
Я хотел бы дать длинную цитату о практической полезности значений от моего любимого блоггера Скотта Александра; он не статистик (он психиатр), но имеет большой опыт чтения психологической / медицинской литературы и изучения статистики в ней. Цитата из его сообщения в блоге о поддельном исследовании шоколада, которое я очень рекомендую. Акцент мой.p
Дальнейшее обсуждение различных альтернатив (включая байесовские) см. В моем ответе в ASA обсуждаются ограничения значений - каковы альтернативы?рp p
источник
Я очень обижен на следующие две идеи:
Это такой бессмысленный аргумент о p-значениях. Самая фундаментальная проблема, которая мотивировала развитие статистики, возникает из-за того, что мы наблюдаем тенденцию и хотим знать, является ли то, что мы видим, случайно или представителем систематической тенденции.
Имея это в виду, это правда, что мы, статистики, как правило, не считаем, что нулевая гипотеза верна (то есть , где - это средняя разница в некоторых измерениях между двумя группами). Однако с помощью двухсторонних тестов мы не знаем, какая альтернативная гипотеза верна! В двухстороннем тесте мы можем быть готовы сказать, что мы на 100% уверены, что до просмотра данных. Но мы не знаем, или . Поэтому, если мы запустим наш эксперимент и что , мы отклонили (как мог бы сказать Матлофф; бесполезное заключение), но, что более важно, мы также отклонилиμ d μ d ≠ 0 μ d > 0 μ d < 0 μ d > 0 μ d = 0 μ d < 0Ho:μd=0 μd μd≠0 μd>0 μd<0 μd>0 μd=0 μd<0 (говорю; полезный вывод). Как отметил @amoeba, это также относится к одностороннему тесту, который потенциально может быть двусторонним, например, к проверке того, оказывает ли препарат положительный эффект.
Это правда, что это не говорит о величине эффекта. Но он говорит вам направление эффекта. Так что давайте не будем ставить телегу перед лошадью; прежде чем начать делать выводы о величине эффекта, я хочу быть уверенным, что у меня есть правильное направление эффекта!
Точно так же аргумент, что «p-значения набрасываются на крошечные, неважные эффекты», кажется мне совершенно ошибочным. Если вы рассматриваете значение p как меру того, насколько данные поддерживают направление вашего вывода, тогда, конечно, вы хотите, чтобы оно улавливало небольшие эффекты, когда размер выборки достаточно велик. Сказать, что это означает, что они бесполезны, очень странно для меня: эти области исследований, которые пострадали от значений p, - это те же самые, которые имеют столько данных, что им не нужно оценивать достоверность своих оценок? Точно так же, если ваши проблемы действительно состоят в том, что p-значения «набрасываются на крошечные величины эффекта», то вы можете просто проверить гипотезы иH 2 : μ d < - 1H1:μd>1 H2:μd<−1 (при условии, что вы считаете 1 минимально важным размером эффекта). Это часто делается в клинических испытаниях.
Чтобы дополнительно проиллюстрировать это, предположим, что мы просто посмотрели на доверительные интервалы и отбросили p-значения. Какую первую вещь вы бы проверили в доверительном интервале? Был ли эффект строго положительным (или отрицательным), прежде чем воспринимать результаты слишком серьезно. Таким образом, даже без р-значений мы неофициально проводим проверку гипотез.
Наконец, что касается запроса OP / Matloff: «Дайте убедительный аргумент, что значения p значительно лучше», я думаю, что вопрос немного неловкий. Я говорю это потому, что, в зависимости от вашего взгляда, он автоматически отвечает сам на себя («приведите один конкретный пример, в котором проверка гипотезы лучше, чем не проверка их»). Однако, особый случай, который я считаю почти неоспоримым, - это данные RNAseq. В этом случае мы обычно смотрим на уровень экспрессии РНК в двух разных группах (то есть, больные, контроли) и пытаемся найти гены, которые дифференциально экспрессируются в этих двух группах. В этом случае сам размер эффекта даже не имеет смысла. Это связано с тем, что уровни экспрессии разных генов изменяются настолько сильно, что для некоторых генов увеличение экспрессии в 2 раза ничего не значит, в то время как для других жестко регулируемых генов более высокая экспрессия в 1,2 раза является фатальной. Таким образом, фактическая величина величины эффекта на самом деле несколько неинтересна при первом сравнении групп. Но тыдействительно, очень хочется узнать, меняется ли экспрессия гена между группами и направление изменения! Кроме того, гораздо сложнее решать вопросы множественных сравнений (для которых вы можете выполнять 20 000 из них за один прогон) с доверительными интервалами, чем с p-значениями.
источник
Прости мой сарказм, но один очевидный хороший пример полезности p-значений - публикация. У меня был один экспериментатор, который подходил ко мне для получения p-значения ... он ввел трансген в отдельное растение для улучшения роста. Из этого единственного растения он произвел несколько клонов и выбрал самый большой клон, пример, где перечисляется все население. На свой вопрос рецензент хочет увидеть p-значение, которое этот клон является самым крупным. Я упомянул, что в этом случае нет никакой необходимости в статистике, так как он имел под рукой все население, но безрезультатно.
Более серьезно, по моему скромному мнению, с академической точки зрения, я нахожу эти дискуссии интересными и стимулирующими, точно так же, как дебаты против байесовских выступлений, проведенные несколько лет назад. Он выявляет различные точки зрения лучших умов в этой области и освещает многие допущения / ловушки, связанные с методологией, которая обычно не всегда доступна.
На практике, я думаю, что вместо того, чтобы спорить о лучшем подходе и заменять один некорректный критерий другим, как было предложено ранее, для меня это скорее раскрытие основной системной проблемы, и следует сосредоточиться на попытках найти оптимальный решения. Например, можно представить ситуации, когда p-значения и CI дополняют друг друга, и обстоятельства, при которых одно является более надежным, чем другое. В общей схеме вещей я понимаю, что все логические инструменты имеют свои недостатки, которые необходимо понимать в любом приложении, чтобы не препятствовать продвижению к конечной цели ... более глубокому пониманию системы обучения.
источник
Я дам вам пример того, как p-значения должны использоваться и сообщаться. Это очень недавнее сообщение о поиске таинственной частицы на Большом адронном коллайдере (LHC) в ЦЕРНе .
Несколько месяцев назад в кругах физики высоких энергий было много возбужденных разговоров о возможности обнаружения большой частицы на LHC. Помните, это было после открытия бозона Хиггса . Вот отрывок из статьи «Поиск ATLAS Collaboration от 15 декабря 2015 года « Поиск резонансов, распадающихся на пары фотонов в 3,2 фб-1 pp-столкновений при √s = 13 ТэВ »с помощью детектора ATLAS, и мои комментарии следующие:
Они говорят, что количество событий превышает то, что предсказывает стандартная модель . На рисунке ниже из статьи показаны p-значения избыточных событий в зависимости от массы частицы. Вы видите, как p-значение погружается около 750 ГэВ. Таким образом, они говорят, что есть вероятность, что новая частица обнаружена с массой, равной 750 Гига эВ . Значения p на рисунке рассчитаны как «локальные». Глобальные значения р намного выше. Это не важно для нашего разговора.
Важно то, что p-значения еще не являются «достаточно низкими» для того, чтобы физики могли объявить о находке, но «достаточно низкими», чтобы взволноваться. Таким образом, они планируют продолжать считать и надеяться, что эти значения p еще больше уменьшатся.
Увеличить на несколько месяцев вперед, до августа 2016 г., Чикаго, конференции по HEP . Был представлен новый отчет «Поиск резонансного рождения пар фотонов с большой массой с использованием 12,9 фб-1 протон-протонных столкновений при √ s = 13 ТэВ и комбинированная интерпретация поисков при 8 и 13 ТэВ» на этот раз CMS Collaboration . Вот выдержки с моими комментариями снова:
Итак, ребята продолжили собирать события, и теперь этот избыток событий на 750 ГэВ исчез. На приведенном ниже рисунке из бумаги показаны значения p, и вы можете увидеть, как значение p увеличилось по сравнению с первым отчетом. Таким образом, они печально приходят к выводу, что при 750 ГэВ частицы не обнаружены.
Я думаю, что именно так предполагается использовать p-значения. Они полностью имеют смысл, и они четко работают. Я думаю, что причина в том, что частые подходы по своей природе естественны. Нет ничего субъективного в рассеянии частиц. Вы собираете достаточно большой образец и получаете четкий сигнал, если он там есть.
Если вы действительно хотите узнать, как именно p-значения вычисляются здесь, прочитайте эту статью : «Асимптотические формулы для основанных на вероятности тестов новой физики», Cowan et al.
источник
Другие объяснения все в порядке, я просто хотел попытаться дать краткий и прямой ответ на вопрос, который возник у меня в голове.
Проверка ковариатного дисбаланса в рандомизированных экспериментах
Ваше второе утверждение (о нереалистичных нулевых гипотезах) неверно, когда мы проверяем ковариатный баланс в рандомизированных экспериментах, где мы знаем, что рандомизация была выполнена правильно. В этом случае мы знаем, что нулевая гипотеза верна. Если мы получим значительную разницу между лечением и контрольной группой по некоторому ковариате - после контроля нескольких сравнений, конечно - тогда это говорит нам о том, что мы получили «плохую ничью» в рандомизации, и мы, возможно, не должны доверять причинной оценке как много. Это связано с тем, что мы можем подумать, что наши оценки эффекта лечения от этой конкретной рандомизации «плохой ничьей» более далеки от истинных эффектов лечения, чем оценки, полученные из «хорошей ничьей».
Я думаю, что это идеальное использование р-значений. Он использует определение p-значения: вероятность получения значения как более экстремального, учитывая нулевую гипотезу. Если результат крайне маловероятен, тогда мы действительно получили «плохую ничью».
Балансовые таблицы / статистика также распространены при использовании данных наблюдений, чтобы попытаться сделать причинные выводы (например, сопоставление, естественные эксперименты). Хотя в этих случаях таблицы баланса далеко не достаточны для обоснования «причинной» метки для оценок.
источник
Контроль уровня ошибок аналогичен контролю качества на производстве. У робота в производственной линии есть правило для определения того, что деталь является дефектной, что гарантирует не превышать указанную норму дефектных деталей, которые проходят незамеченными. Точно так же агентство, которое принимает решения об одобрении лекарств на основе «честных» P-значений, имеет способ поддерживать частоту ложных отклонений на контролируемом уровне по определению с помощью частых долгосрочных тестов. Здесь «честный» означает отсутствие неконтролируемых предубеждений, скрытых выборов и т. Д.
Однако ни робот, ни агентство не имеют личной заинтересованности в каком-либо конкретном лекарстве или части, которая проходит через сборочный конвейер. В науке, с другой стороны, мы, как отдельные исследователи, больше всего заботимся о конкретной гипотезе, которую мы изучаем, а не о доле ложных утверждений в нашем любимом журнале, который мы представляем. Ни величина P-значения, ни границы доверительного интервала (CI) не имеют прямого отношения к нашему вопросу о достоверности того, что мы сообщаем. Когда мы строим границы CI, мы должны сказать, что единственное значение этих двух чисел состоит в том, что если другие ученые выполняют такие же вычисления CI в своих исследованиях, 95% или любой другой охват будет поддерживаться в различных исследованиях в целом. ,
В этом свете я нахожу ироничным то, что P-значения «запрещены» журналами, учитывая, что в условиях кризиса тиражируемости они представляют большую ценность для редакторов журналов, чем для исследователей, представляющих свои статьи, в качестве практического способа сохранения Скорость ложных результатов, сообщаемых журналом в безвыходном положении, в долгосрочной перспективе. P-значения хороши для фильтрации, или, как писал IJ Good, они хороши для защиты задней части статистики, но не так сильно для задней части клиента.
PS Я большой поклонник идеи Бенджамини и Хохберга о принятии безусловных ожиданий в исследованиях с несколькими тестами. Согласно глобальному «нулевому», «частый» FDR все еще контролируется - исследования с одним или несколькими отклонениями появляются в журнале с контролируемой скоростью, хотя в этом случае любое исследование, в котором были сделаны некоторые отклонения, имеет пропорцию ложных отклонений, который равен единице.
источник
Я согласен с Мэттом, что p-значения полезны, когда нулевая гипотеза верна.
Самый простой пример, который я могу вспомнить, - это тестирование генератора случайных чисел. Если генератор работает правильно, вы можете использовать любой подходящий размер выборки реализаций, и при тестировании соответствия по многим выборкам p-значения должны иметь равномерное распределение. Если они это сделают, это является хорошим доказательством правильной реализации. Если они этого не делают, вы знаете, что где-то допустили ошибку.
Другие подобные ситуации возникают, когда вы знаете, что статистика или случайная величина должны иметь определенное распределение (опять же, наиболее очевидный контекст - это симуляция). Если p-значения одинаковы, вы нашли поддержку действительной реализации. Если нет, то вы знаете, что где-то в вашем коде есть проблема.
источник
Я могу вспомнить пример, в котором p-значения полезны в экспериментальной физике высоких энергий. См. Рис. 1 Этот график взят из этой статьи: Наблюдение новой частицы в поиске бозона Хиггса стандартной модели с детектором ATLAS на LHC
На этом рисунке p-значение показано в зависимости от массы гипотетической частицы. Нулевая гипотеза обозначает совместимость наблюдения с непрерывным фоном. Большое ( ) отклонение при m ГэВ было первым свидетельством и открытием новой частицы. Это принесло Франсуа Энглерту Нобелевскую премию по физике Питера Хиггса в 2013 году.H ≈ 1255σ H≈125
источник