Почему более низкие значения р не являются более убедительными доказательствами против нуля? Аргументы от Йоханссона 2011

31

Йоханссон (2011) в « Приветствую невозможное: p-значения, доказательства и вероятность » (здесь также ссылка на журнал ) утверждает, что более низкие значения часто рассматриваются как более сильные доказательства против нуля. Йоханссон предполагает, что люди будут считать доказательства против нуля более сильными, если их статистический тест выдает значение , чем если бы их статистический тест выдает значение . Йоханссон перечисляет четыре причины, по которым значение нельзя использовать в качестве доказательства против нуля: $p$ $p$ $0.01$ $p$ $0.45$ $p$

$p$ равномерно распределен по нулевой гипотезе и поэтому никогда не может указывать на доказательство нулевого.

$p$ обусловлен исключительно нулевой гипотезой и, следовательно, не подходит для количественной оценки доказательств, поскольку доказательства всегда являются относительными в том смысле, что являются доказательствами за или против гипотезы относительно другой гипотезы.

$p$ обозначает вероятность получения доказательств (с нулевым значением), а не силу доказательств.

$p$ зависит от ненаблюдаемых данных и субъективных намерений и поэтому подразумевает, учитывая доказательную интерпретацию, что доказательная сила наблюдаемых данных зависит от того, чего не произошло, и от субъективных намерений.

К сожалению, я не могу получить интуитивное понимание из статьи Йоханссона. Для меня значение указывает на то, что вероятность того, что нулевое значение истинно, меньше, чем значение . Почему более низкие значения не являются более сильным доказательством против нуля $p$ $0.01$ $p$ $0.45$ $p$

hypothesis-testing statistical-significance p-value philosophical Лучиано
источник

Здравствуйте, @luciano! Я вижу, что вы не приняли никакого ответа в этой теме. Какой ответ вы ищете? Ваш вопрос в первую очередь об аргументах Джоханнсона конкретно или о более низких значениях p в целом?

говорит амеба: восстанови монику

Это все о частых структурах Фишера и Неймана-Пирсона. Смотрите больше в этом ответе @gung .

Firebug

21

Моя личная оценка его аргументов:

Здесь он говорит об использовании качестве доказательства для нулевого значения, тогда как его тезис заключается в том, что нельзя использовать в качестве доказательства против нулевого значения. Итак, я думаю, что этот аргумент в значительной степени не имеет значения. $p$ $p$
Я думаю, что это недоразумение. Фишеровское тестирование строго следует идее Критического Рационализма Поппера, которая утверждает, что вы не можете поддерживать теорию, а только критиковать ее. Таким образом, в этом смысле существует только одна гипотеза (Нуль), и вы просто проверяете, соответствуют ли ваши данные ей. $p$
Я не согласен здесь. Это зависит от статистики теста, но обычно является трансформацией величины эффекта, которая говорит против нуля. Таким образом, чем выше эффект, тем ниже значение p - при прочих равных условиях. Конечно, для разных наборов данных или гипотез это уже недействительно. $p$
Я не уверен , что я полностью понимаю это утверждение, но от того, что я могу собрать это меньше , проблема как людей , использующих его неправильно. предназначался для долгосрочной интерпретации частоты, и это особенность, а не ошибка. Но вы не можете винить за людей, принимающих одно значение качестве доказательства своей гипотезы, или за людей, публикующих только . $p$ $p$ $p$ $p$ $p<.05$

Его предложение использовать отношение правдоподобия как меру доказательств, на мой взгляд, является хорошим (но здесь идея байесовского фактора носит более общий характер), но в контексте, в котором он приводит это, немного странно: сначала он уходит Основы тестирования Fisherian, где нет альтернативной гипотезы для расчета отношения правдоподобия. Но качестве доказательства против Нулевой является фишерианской. Отсюда он смущает Фишера и Неймана-Пирсона. Во-вторых, большинство тестовых статистик, которые мы используем, являются (функциями) отношения правдоподобия, и в этом случае является преобразованием отношения правдоподобия. Как говорит Косма Шализи : $p$ $p$

среди всех тестов данного размера тот, у которого наименьшая вероятность промаха или наибольшая мощность, имеет форму «скажем« сигнал », если , в противном случае произнесите« шум » "и что порог изменяется обратно пропорционально . Величина является отношением правдоподобия; лемма Неймана-Пирсона гласит, что для максимизации мощности мы должны сказать «сигнал», если она достаточно вероятна, чем шум. $s$ $q(x)/p(x) > t(s)$ $t$ $s$ $q(x)/p(x)$

Здесь - плотность в состоянии «сигнал», а - плотность в состоянии «шум». Мера для «достаточно вероятного» здесь будет есть . Обратите внимание, что в правильном тесте Неймана-Пирсона заменяется фиксированным $q(x)$ $p(x)$ $P(q(X)/p(x) > t_{obs} \mid H_0)$ $p$ $t_{obs}$ $t(s)$ $P(q(X)/p(x) > t(s) \mid H_0)=\alpha$

Момо
источник

6

+1 для пункта 3 в одиночку. Кокс описывает значение p как калибровку отношения правдоподобия (или другой тестовой статистики), и об этой точке зрения часто забывают.

Scortchi - Восстановить Монику

(+1) Хороший ответ, @Momo. Мне интересно, можно ли это улучшить, добавив что-то вроде "Но они есть!" крупным шрифтом в качестве заголовка вашего ответа, потому что это, кажется, ваш ответ на заглавный вопрос OP: «Почему более низкие значения p не являются более убедительным доказательством против нуля?». Вы разоблачаете все приведенные аргументы, но явно не предоставляете ответ на вопрос о названии.

говорит амеба: восстанови Монику

1

Я бы не решился сделать это, все это очень тонко и очень зависит от предположений, контекста и т. Д. Например, вы можете категорически отрицать, что вероятностные утверждения могут использоваться в качестве «доказательств», и, таким образом, утверждение является правильным. С точки зрения рыболовства это не так. Кроме того, я бы не сказал, что опровергаю (все) аргументы, я думаю, что я только предоставляю другую точку зрения и указываю на некоторые логические недостатки в аргументе. Автор хорошо аргументирует свою точку зрения и пытается найти решение для подходящего подхода, который сам по себе может рассматриваться как столь же проблематичный.

Момо

9

Причина, по которой аргументы, подобные аргументам Йоханссона, часто используются повторно, связана с тем фактом, что значения P являются показателями доказательств против нуля, но не являются показателями доказательств. Доказательства имеют больше аспектов, чем любое отдельное число, которое можно измерить, и поэтому всегда существуют аспекты взаимосвязи между P-значениями и доказательствами, которые людям трудно найти.

Я рассмотрел многие из аргументов, использованных Йоханссоном, в документе, который показывает взаимосвязь между P-значениями и функциями правдоподобия и, таким образом, доказательствами: http://arxiv.org/abs/1311.0081 К сожалению, этот документ трижды отклонялся, хотя его аргументы и доказательства для них не были опровергнуты. (Кажется, что это неприятно для судей, которые придерживаются мнения, подобного мнению Йоханссона, а не ошибаются.)

Майкл Лью
источник

+1 @ Майкл Лью, а как насчет смены названия? Для P (ee) или нет для P (ee) ... не похоже на дилемму. Мы все знаем, что делать в этой ситуации. = D Шутки в сторону, по каким причинам ваша статья была отклонена?

Старик в море.

4

Добавление к хорошему ответу @ Momo:

$1$

JohnRos
источник

2

Стоит отметить, что на само свидетельство не влияет множественность испытаний, даже если ваш ответ на свидетельство может быть изменен. Данные в данных являются доказательствами в данных, и на них не влияют никакие вычисления, которые вы можете выполнять на своем компьютере. Типичная «коррекция» p-значений для множественности тестирования связана с сохранением ложноположительных ошибок, а не с исправлением взаимосвязи между p-значением и экспериментальными данными.

Майкл Лью

1

Говорит ли Йоханссон о p-значениях из двух разных экспериментов? Если это так, сравнение значений p может быть похоже на сравнение яблок с отбивными из баранины. Если в эксперименте «А» задействовано огромное количество образцов, даже небольшая несущественная разница может быть статистически значимой. Если в эксперименте «В» участвуют только несколько образцов, важное различие может быть статистически незначимым. Еще хуже (именно поэтому я сказал, что ягненок отбирает, а не апельсины), весы могут быть абсолютно несопоставимы (пси в одном и квт в час в другом).

Эмиль Фридман
источник

3

У меня сложилось впечатление, что Йоханссон не говорит о сравнении значений р из разных экспериментов. В свете этого комментария & @ Glen_b, не могли бы вы уточнить свой пост, Эмиль? Хорошо поднять вопрос («Я думаю, что J не прав в контексте A, но в контексте B это имеет смысл»), но должно быть ясно, что это то, что вы делаете. Если будут задавать вопросы или комментарии, пожалуйста , удалите это сообщение и сделать его комментарий.

gung - Восстановить Монику

Почему более низкие значения р не являются более убедительными доказательствами против нуля? Аргументы от Йоханссона 2011

Ответы: