Общий консенсус по аналогичному вопросу. Неправильно ли называть результаты «очень значимыми»? заключается в том, что «очень значительный» является допустимым, хотя и неспецифическим, способом описания силы ассоциации, у которой значение p намного ниже предварительно установленного порога значимости. Однако как насчет описания p-значений, которые немного выше вашего порога? Я видел, что в некоторых работах используются такие термины, как «несколько значительный», «почти значимый», «приближающийся к значению» и так далее. Я нахожу эти термины немного странными, в некоторых случаях это неискренний способ вывести значимый результат из исследования с отрицательными результатами. Являются ли эти термины приемлемыми для описания результатов, которые «просто пропускают» ваше значение р-значения?
13
Ответы:
Если вы хотите, чтобы «значимость» допускала получение степеней, то достаточно справедливо («несколько значительный», «довольно значительный»), но избегайте фраз, которые предполагают, что вы по-прежнему привержены идее порога, такого как «почти значимый» , «приближается к значению» или «на пороге значимости» (мой любимый из «Все еще не значимым» в блоге « Вероятная ошибка» ), если вы не хотите, чтобы вы выглядели отчаянно.
источник
С моей точки зрения, проблема сводится к тому, что на самом деле означает провести проверку значимости. Проверка значимости была разработана как средство принятия решения либо об отклонении нулевой гипотезы, либо об отказе от нее. Сам Фишер ввел печально известное правило 0,05 для принятия этого (произвольного) решения.
По сути, логика проверки значимости заключается в том, что пользователь должен указать альфа-уровень для отклонения нулевой гипотезы (условно 0,05). перед сбором данных . После завершения теста значимости пользователь отклоняет нулевое значение, если значение p меньше альфа-уровня (или не может отклонить его в противном случае).
Причина, по которой вы не можете объявить эффект очень значительным (скажем, на уровне 0,001), заключается в том, что вы не можете найти более убедительные доказательства, чем вы намеревались найти. Таким образом, если вы установите уровень альфа в 0,05 перед тестом, вы можете найти доказательства только на уровне 0,05, независимо от того, насколько малы ваши значения p. Точно так же, говоря об эффектах, которые «несколько значительны» или «приближаются к значению», также не имеет особого смысла, потому что вы выбрали этот произвольный критерий 0,05. Если вы буквально истолковываете логику проверки значимости, все, что больше 0,05, не имеет значения.
Я согласен с тем, что такие термины, как «приближающаяся значимость», часто используются для улучшения перспектив публикации. Тем не менее, я не думаю, что авторы могут быть обвинены в этом, потому что текущая культура публикаций в некоторых науках все еще сильно зависит от «святого Грааля» 0,05.
Некоторые из этих вопросов обсуждаются в:
Gigerenzer, G. (2004). Бессмысленная статистика. Журнал социально-экономических, 33 (5), 587-606.
Royall, R. (1997). Статистические данные: парадигма вероятности (том 71). CRC пресс.
источник
Этот скользкий уклон обращается к системе Фишера против Неймана / Пирсона для проверки значимости нулевой гипотезы (NHST). С одной стороны, кто-то хочет дать количественную оценку того, насколько маловероятен результат при нулевой гипотезе (например, величина эффекта). С другой стороны, в конце дня вы хотите получить дискретное решение относительно того, могут ли ваши результаты быть вероятными или нет по одной только случайности. В результате мы получили гибридный подход, который не очень удовлетворяет.
В большинстве дисциплин общепринятая p для значимости установлена на 0,05, но на самом деле нет оснований для того, почему это должно быть так. Когда я рецензирую статью, у меня нет абсолютно никаких проблем с автором, который называет значимость 0,06 или даже 0,07 при условии, что методология является правильной, а вся картина, включая все анализы, цифры и т. Д., Рассказывает последовательную и правдоподобную историю. Когда вы сталкиваетесь с проблемами, авторы пытаются создать историю из тривиальных данных с небольшими размерами эффекта. И наоборот, я не могу полностью «поверить», что тест практически имеет смысл, даже когда он достигает общепринятого значения р <0,05. Мой коллега однажды сказал: «Ваша статистика должна просто подтверждать то, что уже очевидно в ваших цифрах».
Это все сказал, я думаю, что Васильев правильно. Учитывая неработающую систему публикации, вы в значительной степени должны включать значения p, и, следовательно, вы должны использовать слово «значительный», чтобы воспринимать его всерьез, даже если оно требует прилагательных типа «незначительно» (что я предпочитаю). Вы можете всегда бороться с этим в рецензировании, но вы должны добраться туда первым.
источник
Разница между двумя p-значениями обычно незначительна. Таким образом, не имеет значения, является ли ваше значение p 0,05, 0,049, 0,051 ...
Что касается p-значений как меры силы ассоциации: p-значение не является непосредственно мерой силы ассоциации. Значение p - это вероятность найти такие же экстремальные или более экстремальные данные, как данные, которые вы наблюдали, если предположить, что параметр равен 0 (если вас интересует нулевая гипотеза - см. Комментарий Ника Кокса). Тем не менее, это часто не та величина, которая интересует исследователя. Многие исследователи скорее заинтересованы в ответах на вопросы типа «какова вероятность того, что параметр будет больше некоторого выбранного предельного значения?» Если это то, что вас интересует, вам нужно включить дополнительную предварительную информацию в вашу модель.
источник
источник
Я склонен думать, что что-то почти статистически значимое не является правильным с технической точки зрения. После того, как вы установите свой уровень толерантности, будет установлен статистический критерий значимости. Вы должны вернуться к идее распределения выборок. Если ваш уровень толерантности равен 0,05, и вы получаете значение р 0,053, то случайно выбранная выборка дала такую статистику. Вы могли бы очень хорошо получить другую выборку, которая может не дать таких же результатов - я полагаю, что вероятность этого происходит на основе установленного уровня допуска, а не на статистике выборки. Помните, что вы тестируете выборки по параметру совокупности, и выборки имеют собственное распределение выборок. Так что, на мой взгляд, либо что-то статистически значимо, либо нет.
источник
Значение р равномерно распределено по[ 0 , 1 ] под ЧАС0 таким образом, получение результата с p-значением 0,051 столь же вероятно, как получение результата с p-значением 1. Так как вам нужно установить уровень значимости перед получением данных, вы отклоняете нуль для каждого p-значения. р > а , Поскольку вы не отклоняете свое значение NULL, вы должны принять равномерно распределенное значение p, более высокое или более низкое значение по существу не имеет смысла.
Это совершенно другая история, когда вы отклоняете значение NULL, так как значение p распределено неравномерноЧАС1 но распределение зависит от параметра.
Смотрите, например, Википедию .
источник