Правильно ли называть результаты «почти» или «несколько» значительными?

13

Общий консенсус по аналогичному вопросу. Неправильно ли называть результаты «очень значимыми»? заключается в том, что «очень значительный» является допустимым, хотя и неспецифическим, способом описания силы ассоциации, у которой значение p намного ниже предварительно установленного порога значимости. Однако как насчет описания p-значений, которые немного выше вашего порога? Я видел, что в некоторых работах используются такие термины, как «несколько значительный», «почти значимый», «приближающийся к значению» и так далее. Я нахожу эти термины немного странными, в некоторых случаях это неискренний способ вывести значимый результат из исследования с отрицательными результатами. Являются ли эти термины приемлемыми для описания результатов, которые «просто пропускают» ваше значение р-значения?

Ядерный Ван
источник
3
Я не верю, что кто-либо предлагал дать определение «значимости», чтобы описать «силу ассоциации»; последнее звучит скорее как мера величины эффекта. В любом случае, смотрите здесь для более полного списка.
Scortchi - Восстановить Монику
1
@ Scortchi - Насколько я понимаю, очень маленькое значение p очень важно, что означает тесную связь между рассматриваемой переменной и целью. Это результат большого размера эффекта, большого количества данных или того и другого. Для больших значений p доказательства, подтверждающие связь между переменной и целью, являются слабыми. Кроме того, любите этот список в вашей ссылке.
Ядерный Ван
9
Получение очень маленького значения p для небольшого размера эффекта вряд ли можно назвать «сильной ассоциацией». Это было бы только обнаружимой ассоциацией.
whuber
2
Я видел людей, которые часто используют эти фразы в промышленности, но не в научных статьях.
Аксакал
1
Возможно, ваш дискомфорт связан с верой в то, что значения p (или любое другое число, полученное из выборки) являются точными показателями чего-либо.
Эрик Тауэрс

Ответы:

14

Если вы хотите, чтобы «значимость» допускала получение степеней, то достаточно справедливо («несколько значительный», «довольно значительный»), но избегайте фраз, которые предполагают, что вы по-прежнему привержены идее порога, такого как «почти значимый» , «приближается к значению» или «на пороге значимости» (мой любимый из «Все еще не значимым» в блоге « Вероятная ошибка» ), если вы не хотите, чтобы вы выглядели отчаянно.

Scortchi - Восстановить Монику
источник
9
(+1) за ссылку. Но я думаю, что основным моментом поэтического творчества является «балансирующая грань значимости (р = 0,06)» .
Алекос Пападопулос
1
@AlecosPapadopoulos: Вы правы, хотя «заигрывание с обычными уровнями значимости» и «приближение к статистической значимости» заслуживают похвальных упоминаний. «Квази-значимый», возможно, победитель в другой категории.
Scortchi - Восстановить Монику
4
Действительно, первые два имеют настоящий кинематографический дух, первый из фильма «Статистический жиголо» (кто еще будет флиртовать с обычным уровнем ?), А второй из фильма «Умирающий на хвосте», где мы видим угрожающего стервятника (p-значение) зависание над умирающим героем (статистическая значимость).
Алекос Пападопулос
1
Лично я бы отказался от слова «значительный» в своей фразе и назвал бы р = 0,06 «довольно интересным». Правильно или неверно, когда я впервые столкнулся с p-значениями в рамках курса Six Sigma, инструктор предположил, что для 0,05 <= 0,1 правильная метка была «больше данных требуется» (на основе промышленных условий, где трудно получить дополнительные точки данных , настолько отличающийся от любого сценария «больших данных»
Роберт де Грааф
6

С моей точки зрения, проблема сводится к тому, что на самом деле означает провести проверку значимости. Проверка значимости была разработана как средство принятия решения либо об отклонении нулевой гипотезы, либо об отказе от нее. Сам Фишер ввел печально известное правило 0,05 для принятия этого (произвольного) решения.

По сути, логика проверки значимости заключается в том, что пользователь должен указать альфа-уровень для отклонения нулевой гипотезы (условно 0,05). перед сбором данных . После завершения теста значимости пользователь отклоняет нулевое значение, если значение p меньше альфа-уровня (или не может отклонить его в противном случае).

Причина, по которой вы не можете объявить эффект очень значительным (скажем, на уровне 0,001), заключается в том, что вы не можете найти более убедительные доказательства, чем вы намеревались найти. Таким образом, если вы установите уровень альфа в 0,05 перед тестом, вы можете найти доказательства только на уровне 0,05, независимо от того, насколько малы ваши значения p. Точно так же, говоря об эффектах, которые «несколько значительны» или «приближаются к значению», также не имеет особого смысла, потому что вы выбрали этот произвольный критерий 0,05. Если вы буквально истолковываете логику проверки значимости, все, что больше 0,05, не имеет значения.

Я согласен с тем, что такие термины, как «приближающаяся значимость», часто используются для улучшения перспектив публикации. Тем не менее, я не думаю, что авторы могут быть обвинены в этом, потому что текущая культура публикаций в некоторых науках все еще сильно зависит от «святого Грааля» 0,05.

Некоторые из этих вопросов обсуждаются в:

Gigerenzer, G. (2004). Бессмысленная статистика. Журнал социально-экономических, 33 (5), 587-606.

Royall, R. (1997). Статистические данные: парадигма вероятности (том 71). CRC пресс.

Мартин Р. Васильев
источник
1
Вы смешиваете философию науки Фишера с подходом Неймана / Пирсона, если добавляете альфа-уровень к тестированию значимости Фишера.
RBirkelbach
5

Этот скользкий уклон обращается к системе Фишера против Неймана / Пирсона для проверки значимости нулевой гипотезы (NHST). С одной стороны, кто-то хочет дать количественную оценку того, насколько маловероятен результат при нулевой гипотезе (например, величина эффекта). С другой стороны, в конце дня вы хотите получить дискретное решение относительно того, могут ли ваши результаты быть вероятными или нет по одной только случайности. В результате мы получили гибридный подход, который не очень удовлетворяет.

В большинстве дисциплин общепринятая p для значимости установлена ​​на 0,05, но на самом деле нет оснований для того, почему это должно быть так. Когда я рецензирую статью, у меня нет абсолютно никаких проблем с автором, который называет значимость 0,06 или даже 0,07 при условии, что методология является правильной, а вся картина, включая все анализы, цифры и т. Д., Рассказывает последовательную и правдоподобную историю. Когда вы сталкиваетесь с проблемами, авторы пытаются создать историю из тривиальных данных с небольшими размерами эффекта. И наоборот, я не могу полностью «поверить», что тест практически имеет смысл, даже когда он достигает общепринятого значения р <0,05. Мой коллега однажды сказал: «Ваша статистика должна просто подтверждать то, что уже очевидно в ваших цифрах».

Это все сказал, я думаю, что Васильев правильно. Учитывая неработающую систему публикации, вы в значительной степени должны включать значения p, и, следовательно, вы должны использовать слово «значительный», чтобы воспринимать его всерьез, даже если оно требует прилагательных типа «незначительно» (что я предпочитаю). Вы можете всегда бороться с этим в рецензировании, но вы должны добраться туда первым.

HEITZ
источник
5

Разница между двумя p-значениями обычно незначительна. Таким образом, не имеет значения, является ли ваше значение p 0,05, 0,049, 0,051 ...

Что касается p-значений как меры силы ассоциации: p-значение не является непосредственно мерой силы ассоциации. Значение p - это вероятность найти такие же экстремальные или более экстремальные данные, как данные, которые вы наблюдали, если предположить, что параметр равен 0 (если вас интересует нулевая гипотеза - см. Комментарий Ника Кокса). Тем не менее, это часто не та величина, которая интересует исследователя. Многие исследователи скорее заинтересованы в ответах на вопросы типа «какова вероятность того, что параметр будет больше некоторого выбранного предельного значения?» Если это то, что вас интересует, вам нужно включить дополнительную предварительную информацию в вашу модель.

RBirkelbach
источник
6
Я согласен с духом этого, но мелкий шрифт как всегда нуждается в полной бдительности. «данный параметр предполагается равным 0»: часто, но не всегда. Значения P можно рассчитать и для других гипотез. Также для «предполагаемого» читайте «гипотезы».
Ник Кокс
Вы совершенно правы - я отредактирую свой ответ!
Р.Биркельбах,
3

p<αp>α(не сила эффекта, конечно). Для такого «континуалиста» «почти значимый» является разумным способом описания результата с умеренным значением p. Проблема возникает, когда люди смешивают эти две философии или, что еще хуже, не осознают, что обе существуют. (Между прочим - люди часто принимают эти карты чисто на Неймана / Пирсона и Фишера, но они этого не делают; отсюда мои по общему признанию неуклюжие термины для них). Более подробно об этом в блоге на эту тему здесь:https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/

Стивен Херд
источник
1

Я склонен думать, что что-то почти статистически значимое не является правильным с технической точки зрения. После того, как вы установите свой уровень толерантности, будет установлен статистический критерий значимости. Вы должны вернуться к идее распределения выборок. Если ваш уровень толерантности равен 0,05, и вы получаете значение р 0,053, то случайно выбранная выборка дала такую ​​статистику. Вы могли бы очень хорошо получить другую выборку, которая может не дать таких же результатов - я полагаю, что вероятность этого происходит на основе установленного уровня допуска, а не на статистике выборки. Помните, что вы тестируете выборки по параметру совокупности, и выборки имеют собственное распределение выборок. Так что, на мой взгляд, либо что-то статистически значимо, либо нет.

Крис Кварамба
источник
0

Значение р равномерно распределено по [0,1] под ЧАС0 таким образом, получение результата с p-значением 0,051 столь же вероятно, как получение результата с p-значением 1. Так как вам нужно установить уровень значимости перед получением данных, вы отклоняете нуль для каждого p-значения. п>α, Поскольку вы не отклоняете свое значение NULL, вы должны принять равномерно распределенное значение p, более высокое или более низкое значение по существу не имеет смысла.

Это совершенно другая история, когда вы отклоняете значение NULL, так как значение p распределено неравномерно ЧАС1 но распределение зависит от параметра.

Смотрите, например, Википедию .

snaut
источник
Я не совсем понимаю тебя. Да, в любом непрерывном распределении вероятность получения результата ровно 0,051 равна вероятности получения результата ровно 1 - это ноль. Но проверка гипотез исследует вероятность увидеть значение, по крайней мере, столь же экстремальное, как и наблюдаемое. Вы всегда найдете p-значение, по крайней мере, столь же экстремальное, как 1, но гораздо менее вероятно, что p-значение будет таким же экстремальным, как 0,051. Что делает эту разницу "бессмысленной"?
Ядерный Ван
При нулевом значении вероятность появления значения p в интервале [0.05,0.051] так же велика, как и вероятность появления значения p в интервале [0.999,1]. Наблюдение p-значения ближе к порогу не является более убедительным показателем против 0, чем наблюдение любого другого p-значения за пределами области отклонения.
Снаут
Некоторые называют значение ap 0,05 значимым, другие используют 0,01 или 0,1 в качестве порога. Таким образом, среди 3 исследователей, которые проводят такой же анализ и находят значение р 0,03, двое могут назвать его значимым, а один - нет. Если все они найдут значение р 0,91, никто не назовет его значимым. Значение p, близкое к пороговому значению, означает, что все больше людей сочтут, что существует достаточно доказательств, чтобы отклонить ноль. Я не понимаю, почему p = 0,051 и p = 1 должны быть неразличимы с точки зрения поддержки H1 - некоторые люди будут оправданно поддерживать H1 с p = 0,051; никто не будет делать это с р = 1.
Ядерный Ван