Я читал о , коэффициентах ошибок типа 1, уровнях значимости, расчетах мощности, размерах эффектов и дебатах Фишера против Неймана-Пирсона. Это заставило меня чувствовать себя немного ошеломленным. Я прошу прощения за стену текста, но я чувствовал, что необходимо дать обзор моего текущего понимания этих концепций, прежде чем я перейду к своим актуальным вопросам.
Из того, что я понял, значение - это просто мера неожиданности, вероятность получения результата, по крайней мере, экстремального, учитывая, что нулевая гипотеза верна. Первоначально Фишер намеревался сделать это непрерывной мерой.
В структуре Неймана-Пирсона вы заранее выбираете уровень значимости и используете его как (произвольную) точку отсечения. Уровень значимости равен частоте ошибок типа 1. Он определяется длительной частотой, то есть, если вы будете повторять эксперимент 1000 раз, и нулевая гипотеза верна, около 50 из этих экспериментов приведут к значительному эффекту из-за изменчивости выборки. Выбирая уровень значимости, мы защищаем себя от ложных срабатываний с определенной вероятностью. традиционно не фигурируют в этих рамках.
Если мы находим значение 0,01, это не означает, что коэффициент ошибок типа 1 равен 0,01, ошибка типа 1 устанавливается априори. Я полагаю, что это один из главных аргументов в дебатах Фишера против NP, потому что p- значения часто сообщаются как 0,05 *, 0,01 **, 0,001 ***. Это может ввести в заблуждение людей, говоря, что эффект является значительным при определенном значении p , а не при определенном значении значимости.
Я также понимаю, что значение является функцией размера выборки. Поэтому его нельзя использовать как абсолютное измерение. Небольшое p- значение может указывать на небольшой, не относящийся к делу эффект в эксперименте с большой выборкой. Чтобы противостоять этому, важно выполнить расчет мощности / эффекта при определении размера выборки для вашего эксперимента. P-значения говорят нам, есть ли эффект, а не насколько он велик. См Салливан 2012 .
Мой вопрос: как я могу примирить факты о том, что значение является мерой неожиданности (меньше = более убедительно), и в то же время его нельзя рассматривать как абсолютное измерение?
Что меня смущает, так это следующее: можем ли мы быть более уверенными в маленьком значении, чем в большом? В фишерском смысле я бы сказал, да, мы более удивлены. В рамках НП, выбор меньшего уровня значимости означал бы, что мы сильнее защищаемся от ложных срабатываний.
Но с другой стороны, значения зависят от размера выборки. Они не являются абсолютной мерой. Таким образом, мы не можем просто сказать, что 0,001593 более значимо, чем 0,0439. И все же это то, что подразумевается в рамках Фишера: мы были бы более удивлены такой экстремальной ценности. Существует даже дискуссия о том, что термин « очень значительный» является неправильным: неправильно ли называть результаты «очень значительными»?
Я слышал, что в некоторых областях науки считаются важными только тогда, когда они меньше 0,0001, тогда как в других областях значения около 0,01 уже считаются очень значимыми.
Смежные вопросы:
Ответы:
Являются ли меньшие более убедительными? Да, конечно.p
В рамках Фишера значение - это количественная оценка количества доказательств против нулевой гипотезы. Доказательства могут быть более или менее убедительными; чем меньше значение p , тем убедительнее оно. Обратите внимание, что в любом данном эксперименте с фиксированным размером выборки n значение p монотонно связано с величиной эффекта, как @Scortchi хорошо указывает в своем ответе (+1). Таким образом, меньшие p-значения соответствуют большим величинам эффекта; конечно они более убедительны!p p n p p
В рамках модели Неймана-Пирсона цель состоит в том, чтобы получить бинарное решение: либо доказательства являются «значительными», либо нет. Выбирая порог , мы гарантируем, что у нас будет не более α ложных срабатываний. Обратите внимание, что разные люди могут иметь разные α при взгляде на одни и те же данные; возможно, когда я читаю статью из области, к которой я отношусь скептически, я лично не считаю «значительными» результаты, например, с p = 0,03, даже если авторы называют их значительными. Мой личный α может быть установлен на 0,001 или что-то еще. Очевидно, чем ниже сообщаемое рα α α p=0.03 α 0.001 p -значение, тем более скептически настроенных читателей это сможет убедить! Следовательно, более низкие значения более убедительны.p
В настоящее время стандартной практикой является объединение подходов Фишера и Неймана-Пирсона: если , то результаты называются «значимыми», а значение p сообщается [точно или приблизительно] и используется как мера убедительности (отмечая его со звездами, используя выражения как «очень значимые» и т. д.); если p > α , то результаты называются «несущественными» и все.p<α p p>α
Это обычно называют «гибридным подходом», и действительно это гибрид. Некоторые люди утверждают, что этот гибрид бессвязен; Я склонен не соглашаться Почему нельзя делать две правильные вещи одновременно?
Дальнейшее чтение:
Является ли «гибрид» между подходами Фишера и Неймана-Пирсона к статистическому тестированию действительно «бессвязной путаницей»? - мой вопрос о "гибриде". Это вызвало некоторую дискуссию, но я все еще не удовлетворен ни одним из ответов, и планирую вернуться к этой теме в какой-то момент.
Неправильно ли называть результаты «очень значимыми»? - см. мой вчерашний ответ, который, по сути, говорит: это не так (но, возможно, немного небрежно).
Почему более низкие значения р не являются более убедительными доказательствами против нуля? Аргументы от Йоханссона 2011 - пример статьи против Фишера, утверждающей, что не дают доказательств против нуля; лучший ответ @Momo отлично справляется с разоблачением аргументов. Мой ответ на заглавный вопрос таков: но, конечно, они есть.p
источник
Я не знаю, что имеется в виду, когда меньшие p-значения «лучше» или что мы «более уверены в них». Но если рассматривать р-значения как меру того, насколько мы удивлены данными, если мы верили, что нулевая гипотеза кажется достаточно разумной; значение p является монотонной функцией выбранной вами статистики тестачтобы измерить расхождение с нулевой гипотезой в интересующем вас направлении, откалибровать ее относительно ее свойств в соответствии с соответствующей процедурой отбора проб из популяции или случайного назначения экспериментальных обработок. «Значение» стало техническим термином для обозначения p-значений, которые находятся выше или ниже некоторого определенного значения; таким образом, даже те, кто не интересуется указанием уровней значимости и принятием или отклонением гипотез, имеют тенденцию избегать таких фраз, как «очень значимые» - просто соблюдение соглашения.
Что касается зависимости значений p от размера выборки и размера эффекта, возможно, возникает некоторая путаница, потому что, например, может показаться, что 474 головы из 1000 бросков должны быть менее удивительными, чем 2 из 10 для того, кто считает монету честной - в конце концов доля выборки только немного отклоняется от 50% в первом случае, но значения p примерно одинаковы. Но правда или ложь не допускают степеней; р-значение делает то, что от него требуется: часто доверительные интервалы для параметра - это действительно то, что нужно для оценки точности измерения эффекта, а также практической или теоретической важности его оценочной величины.
источник
Спасибо за комментарии и предложенные чтения. У меня было еще немного времени, чтобы обдумать эту проблему, и я считаю, что мне удалось изолировать свои основные источники путаницы.
Сначала я думал, что существует дихотомия между просмотром p-значения как меры неожиданности и утверждением, что это не абсолютная мера. Теперь я понимаю, что эти утверждения не обязательно противоречат друг другу. Первое позволяет нам быть более или менее уверенным в экстремальности (даже в сходстве?) Наблюдаемого эффекта по сравнению с другими гипотетическими результатами того же эксперимента. Принимая во внимание, что последний только говорит нам, что то, что можно считать убедительным p-значением в одном эксперименте, может совсем не быть впечатляющим в другом, например, если размеры выборки различаются.
Тот факт, что в некоторых областях науки используется другая базовая линия сильных р-значений, может быть либо отражением различия в общих размерах выборки (астрономия, клинические, психологические эксперименты) и / или попыткой передать величину эффекта в р- ценность. Но последнее является неправильным слиянием двух.
Значение - это вопрос да / нет, основанный на альфа, который был выбран до эксперимента. Следовательно, значение p не может быть более значимым, чем другое, так как оно меньше или больше выбранного уровня значимости. С другой стороны, меньшее значение p будет более убедительным, чем большее (для аналогичного размера выборки / идентичного эксперимента, как упоминалось в моем первом пункте).
Доверительные интервалы по своей сути передают величину эффекта, что делает их хорошим выбором для защиты от проблем, упомянутых выше.
источник
Значение p не может быть мерой неожиданности, потому что это всего лишь мера вероятности, когда ноль истинен. Если значение равно нулю, то каждое возможное значение p одинаково вероятно. Нельзя удивляться никакому p-значению, прежде чем принять решение отклонить нуль. Как только кто-то решает, что есть эффект, значение p-значения исчезает. Кто-то просто сообщает об этом как о звене в относительно слабой индуктивной цепочке, чтобы оправдать отрицание или нет нулевого значения. Но если это было отклонено, это фактически больше не имеет никакого значения.
источник