Почему более низкие значения р не являются более убедительными доказательствами против нуля? Аргументы от Йоханссона 2011

31

Йоханссон (2011) в « Приветствую невозможное: p-значения, доказательства и вероятность » (здесь также ссылка на журнал ) утверждает, что более низкие значения часто рассматриваются как более сильные доказательства против нуля. Йоханссон предполагает, что люди будут считать доказательства против нуля более сильными, если их статистический тест выдает значение , чем если бы их статистический тест выдает значение . Йоханссон перечисляет четыре причины, по которым значение нельзя использовать в качестве доказательства против нуля:р 0,01 р 0,45 рpp0.01p0.45p

  1. p равномерно распределен по нулевой гипотезе и поэтому никогда не может указывать на доказательство нулевого.
  2. p обусловлен исключительно нулевой гипотезой и, следовательно, не подходит для количественной оценки доказательств, поскольку доказательства всегда являются относительными в том смысле, что являются доказательствами за или против гипотезы относительно другой гипотезы.
  3. p обозначает вероятность получения доказательств (с нулевым значением), а не силу доказательств.
  4. p зависит от ненаблюдаемых данных и субъективных намерений и поэтому подразумевает, учитывая доказательную интерпретацию, что доказательная сила наблюдаемых данных зависит от того, чего не произошло, и от субъективных намерений.

К сожалению, я не могу получить интуитивное понимание из статьи Йоханссона. Для меня значение указывает на то, что вероятность того, что нулевое значение истинно, меньше, чем значение . Почему более низкие значения не являются более сильным доказательством против нуля 0,01 р 0,45 рp0.01p0.45p

Лучиано
источник
Здравствуйте, @luciano! Я вижу, что вы не приняли никакого ответа в этой теме. Какой ответ вы ищете? Ваш вопрос в первую очередь об аргументах Джоханнсона конкретно или о более низких значениях p в целом?
говорит амеба: восстанови монику
Это все о частых структурах Фишера и Неймана-Пирсона. Смотрите больше в этом ответе @gung .
Firebug

Ответы:

21

Моя личная оценка его аргументов:

  1. Здесь он говорит об использовании качестве доказательства для нулевого значения, тогда как его тезис заключается в том, что нельзя использовать в качестве доказательства против нулевого значения. Итак, я думаю, что этот аргумент в значительной степени не имеет значения.рpp
  2. Я думаю, что это недоразумение. Фишеровское тестирование строго следует идее Критического Рационализма Поппера, которая утверждает, что вы не можете поддерживать теорию, а только критиковать ее. Таким образом, в этом смысле существует только одна гипотеза (Нуль), и вы просто проверяете, соответствуют ли ваши данные ей.p
  3. Я не согласен здесь. Это зависит от статистики теста, но обычно является трансформацией величины эффекта, которая говорит против нуля. Таким образом, чем выше эффект, тем ниже значение p - при прочих равных условиях. Конечно, для разных наборов данных или гипотез это уже недействительно. p
  4. Я не уверен , что я полностью понимаю это утверждение, но от того, что я могу собрать это меньше , проблема как людей , использующих его неправильно. предназначался для долгосрочной интерпретации частоты, и это особенность, а не ошибка. Но вы не можете винить за людей, принимающих одно значение качестве доказательства своей гипотезы, или за людей, публикующих только . p p p p < .05ppppp<.05

Его предложение использовать отношение правдоподобия как меру доказательств, на мой взгляд, является хорошим (но здесь идея байесовского фактора носит более общий характер), но в контексте, в котором он приводит это, немного странно: сначала он уходит Основы тестирования Fisherian, где нет альтернативной гипотезы для расчета отношения правдоподобия. Но качестве доказательства против Нулевой является фишерианской. Отсюда он смущает Фишера и Неймана-Пирсона. Во-вторых, большинство тестовых статистик, которые мы используем, являются (функциями) отношения правдоподобия, и в этом случае является преобразованием отношения правдоподобия. Как говорит Косма Шализи :рpp

среди всех тестов данного размера тот, у которого наименьшая вероятность промаха или наибольшая мощность, имеет форму «скажем« сигнал », если , в противном случае произнесите« шум » "и что порог изменяется обратно пропорционально . Величина является отношением правдоподобия; лемма Неймана-Пирсона гласит, что для максимизации мощности мы должны сказать «сигнал», если она достаточно вероятна, чем шум.q ( x ) / p ( x ) > t ( s ) t s q ( x ) / p ( x )sq(x)/p(x)>t(s)tsq(x)/p(x)

Здесь - плотность в состоянии «сигнал», а - плотность в состоянии «шум». Мера для «достаточно вероятного» здесь будет есть . Обратите внимание, что в правильном тесте Неймана-Пирсона заменяется фиксированнымp ( x ) P ( q ( X ) / p ( x ) > t o b sH 0 ) p t o b s t ( s )q(x)p(x)P(q(X)/p(x)>tobsH0)ptobst(s)P(q(X)/p(x)>t(s)H0)=α

Момо
источник
6
+1 для пункта 3 в одиночку. Кокс описывает значение p как калибровку отношения правдоподобия (или другой тестовой статистики), и об этой точке зрения часто забывают.
Scortchi - Восстановить Монику
(+1) Хороший ответ, @Momo. Мне интересно, можно ли это улучшить, добавив что-то вроде "Но они есть!" крупным шрифтом в качестве заголовка вашего ответа, потому что это, кажется, ваш ответ на заглавный вопрос OP: «Почему более низкие значения p не являются более убедительным доказательством против нуля?». Вы разоблачаете все приведенные аргументы, но явно не предоставляете ответ на вопрос о названии.
говорит амеба: восстанови Монику
1
Я бы не решился сделать это, все это очень тонко и очень зависит от предположений, контекста и т. Д. Например, вы можете категорически отрицать, что вероятностные утверждения могут использоваться в качестве «доказательств», и, таким образом, утверждение является правильным. С точки зрения рыболовства это не так. Кроме того, я бы не сказал, что опровергаю (все) аргументы, я думаю, что я только предоставляю другую точку зрения и указываю на некоторые логические недостатки в аргументе. Автор хорошо аргументирует свою точку зрения и пытается найти решение для подходящего подхода, который сам по себе может рассматриваться как столь же проблематичный.
Момо
9

Причина, по которой аргументы, подобные аргументам Йоханссона, часто используются повторно, связана с тем фактом, что значения P являются показателями доказательств против нуля, но не являются показателями доказательств. Доказательства имеют больше аспектов, чем любое отдельное число, которое можно измерить, и поэтому всегда существуют аспекты взаимосвязи между P-значениями и доказательствами, которые людям трудно найти.

Я рассмотрел многие из аргументов, использованных Йоханссоном, в документе, который показывает взаимосвязь между P-значениями и функциями правдоподобия и, таким образом, доказательствами: http://arxiv.org/abs/1311.0081 К сожалению, этот документ трижды отклонялся, хотя его аргументы и доказательства для них не были опровергнуты. (Кажется, что это неприятно для судей, которые придерживаются мнения, подобного мнению Йоханссона, а не ошибаются.)

Майкл Лью
источник
+1 @ Майкл Лью, а как насчет смены названия? Для P (ee) или нет для P (ee) ... не похоже на дилемму. Мы все знаем, что делать в этой ситуации. = D Шутки в сторону, по каким причинам ваша статья была отклонена?
Старик в море.
4

Добавление к хорошему ответу @ Momo:

1

JohnRos
источник
2
Стоит отметить, что на само свидетельство не влияет множественность испытаний, даже если ваш ответ на свидетельство может быть изменен. Данные в данных являются доказательствами в данных, и на них не влияют никакие вычисления, которые вы можете выполнять на своем компьютере. Типичная «коррекция» p-значений для множественности тестирования связана с сохранением ложноположительных ошибок, а не с исправлением взаимосвязи между p-значением и экспериментальными данными.
Майкл Лью
1

Говорит ли Йоханссон о p-значениях из двух разных экспериментов? Если это так, сравнение значений p может быть похоже на сравнение яблок с отбивными из баранины. Если в эксперименте «А» задействовано огромное количество образцов, даже небольшая несущественная разница может быть статистически значимой. Если в эксперименте «В» участвуют только несколько образцов, важное различие может быть статистически незначимым. Еще хуже (именно поэтому я сказал, что ягненок отбирает, а не апельсины), весы могут быть абсолютно несопоставимы (пси в одном и квт в час в другом).

Эмиль Фридман
источник
3
У меня сложилось впечатление, что Йоханссон не говорит о сравнении значений р из разных экспериментов. В свете этого комментария & @ Glen_b, не могли бы вы уточнить свой пост, Эмиль? Хорошо поднять вопрос («Я думаю, что J не прав в контексте A, но в контексте B это имеет смысл»), но должно быть ясно, что это то, что вы делаете. Если будут задавать вопросы или комментарии, пожалуйста , удалите это сообщение и сделать его комментарий.
gung - Восстановить Монику