Что касается значений р, почему 1% и 5%? Почему не 6% или 10%?

80

Что касается s, мне интересно, почему % и % кажутся золотым стандартом для . Почему не другие значения, такие как % или %?15"statistical significance"610

Есть ли фундаментальная математическая причина для этого или это просто широко распространенное соглашение?

Контанго
источник
2
Что, если у всех было по 12 пальцев? Мы будем считать базу 12, а не базу 10. А это значит, что «1%» будет 1/144 или 0,0069444444.
Контанго

Ответы:

77

Если вы проверите ссылки ниже, вы найдете довольно много изменений в фоновом режиме, хотя есть некоторые общие элементы.

Эти цифры, по крайней мере, частично основаны на некоторых комментариях Фишера, где он сказал

(при обсуждении уровня 1/20)

Удобно принять этот пункт за предел при оценке того, следует ли считать отклонение значительным или нет. Таким образом, отклонения, превышающие стандартное отклонение в два раза, формально считаются значительными

Fisher, RA (1925) Статистические методы для научных работников , с. 47

С другой стороны, он был иногда более широким:

Если один из двадцати не имеет достаточно высоких шансов, мы можем, если захотим, провести черту один к пятидесяти (точка 2%) или к одному из ста (точка 1%). Лично автор предпочитает устанавливать низкий уровень значимости на уровне 5 процентов и полностью игнорировать все результаты, которые не достигают этого уровня. Научный факт следует рассматривать как экспериментально установленный, только если правильно спланированный эксперимент редко не дает такого уровня значимости.

Фишер, Р. (1926) Расположение полевых экспериментов . Журнал Министерства сельского хозяйства, с. 504

Фишер также использовал 5% для одной из таблиц своей книги - но большинство других его таблиц имели большее разнообразие уровней значимости

Некоторые из его комментариев предлагают более или менее строгие (то есть более низкие или более высокие альфа-уровни) подходы в различных ситуациях.

Такого рода обсуждения выше привели к тенденции создавать таблицы с акцентом на 5% и 1% уровней значимости (а иногда и с другими, такими как 10%, 2% и 0,5%) для отсутствия каких-либо других «стандартных» значений.

Тем не менее, в этой статье Коулз и Дэвис предполагают, что использование 5% - или что-то близкое к этому - восходит дальше, чем комментарий Фишера.

Короче говоря, наше использование 5% (и в меньшей степени 1%) является в значительной степени произвольным соглашением, хотя очевидно, что многие люди считают, что по многим проблемам они находятся на подходящем уровне.

Нет причин, по которым следует использовать конкретное значение.

Дальнейшие ссылки:

Dallal, Gerard E. (2012). Маленький справочник статистической практики. - Почему 0,05?

Стиглер, Стивен (декабрь 2008). «Фишер и 5% уровень». Шанс 21 (4): 12. доступно здесь

(Между ними вы получаете достаточный опыт - похоже, что между ними есть хороший повод для размышлений об уровнях значимости, по крайней мере, в общем приблизительном балле 5%, скажем, между 2% и 10% - более или менее воздух на некоторое время.)

Glen_b
источник
36

Я должен дать не ответ (так же, как здесь ):

«... конечно, Бог любит .06 почти так же, как и .05. Могут ли быть какие-либо сомнения в том, что Бог рассматривает силу доказательств за или против нуля как довольно непрерывную функцию величины р?» (P.1277)

Rosnow, RL & Rosenthal, R. (1989). Статистические процедуры и обоснование знаний в психологической науке. Американский психолог , 44 (10), 1276-1284. PDF

В документе содержится еще несколько дискуссий по этому вопросу.

Хенрик
источник
9
А как насчет 0,055? :)
Нико
33
@nico Никому не нравится
0.055
18

Я считаю, что есть некоторая базовая психология для 5%. Я должен сказать, что я не помню, где я поднял это, но вот упражнение, которое я делал для каждого старшекурсника.

Представьте, что в пабе к вам подходит незнакомец и говорит: «У меня есть предвзятая монета, которая производит головы чаще, чем хвосты. Вы хотите купить ее у меня, чтобы вы могли делать ставки со своими приятелями и зарабатывать на этом деньги?» Вы нерешительно соглашаетесь взглянуть и бросить монету 10 раз. Вопрос : сколько раз ему приходится приземляться головой / хвостом, чтобы убедить вас в том, что он предвзят?

Затем я поднимаю руку: кто будет убежден, что монета смещена, если раскол 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Ну, первые два или три никого не убедят, а последний убедит всех; 2/8 и 1/9 убедили бы большинство людей, все же. Теперь, если вы посмотрите биномиальную таблицу, 2/8 - 5,5%, а 1/9 - 1%. QED.

Если кто-то сейчас читает вступительный курс, я бы посоветовал вам тоже выполнить это упражнение и опубликовать свои результаты в виде комментариев, чтобы мы могли накопить большой массив результатов метаанализа и опубликовать их по крайней мере на американском языке. Учебный уголок статистиков . Не стесняйтесь менять и односторонние и двухсторонние условия!n

В другом ответе Glen_b цитирует Фишера, в котором обсуждается, следует ли изменять эти магические числа в зависимости от того, насколько серьезна проблема, поэтому, пожалуйста, не делайте этого. «Существует новое лечение лейкемии вашей сестры, но это либо вылечит ее 3 месяца или убейте ее за 3 дня, так что давайте подбросим несколько монет »- это выглядело бы так же глупо, как печально известный комикс xkcd, который даже Эндрю Гельману не очень понравился.

Говоря о монетах и ​​Гельмане, у TAS была очень любопытная статья Гельмана и Нолана под названием «Вы можете загрузить кубик, но вы не можете сместить монетку» , выдвигая аргумент, что монета подбрасывалась в воздух или вращалась на настольная, потратит примерно половину времени на хедз-апы, а другое время - на хвосты, поэтому сложно придумать физический механизм для серьезного смещения монеты. (Очевидно, это было исследование паба, поскольку они экспериментировали с крышками от бутылок пива.) С другой стороны, загрузка штампа - это относительно простая вещь, и я дал своим студентам упражнение с примерно 1 см / половиной. -дюймовые деревянные кубики из местного магазина хобби и наждачная бумага с просьбой загрузить матрицу и доказать мне, что она загружена - что было упражнением в тесте Пирсона на пропорции и его мощность.χ2

Stask
источник
3
Маги часто могут контролировать подбрасывание монет. Статистик-математик-маг (переставлять по вкусу) Перси Диаконис хорошо известен этим (и многим, многим другим).
Ник Кокс
@StasK - Несколько лет назад я задал вопрос, аналогичный тому, который описан во втором абзаце выше. Вот ссылка: stats.stackexchange.com/questions/7036/…
bill_080
Билл, вы спросили о власти, по сути. Этот вопрос касается уровня теста.
StasK
9

5%, по-видимому, были округлены с 4,56% по Фишеру, что соответствует «хвостовым участкам кривой за пределами среднего плюс три или минус три вероятные ошибки» (Hurlbert & Lombardi, 2009).

Другим элементом этой истории является воспроизведение таблиц с критическими значениями (Pearson et al., 1990; Lehmann, 1993). Фишер не получил разрешения от Пирсона на использование его таблиц (вероятно, из-за маркетинга Пирсоном его собственной публикации (Hurlbert & Lombardi, 2009) и проблемного характера их отношений.

Hurlbert, SH & Lombardi, CM (2009, октябрь). Окончательный крах теоретической основы решения Неймана-Пирсона и рост неофишерианства. В Annales Zoologici Fennici (том 46, № 5, с. 311-349). Финское Зоологическое и Ботаническое Издательство

Lehmann, EL (1993). Теории проверки гипотез Фишера-Неймана-Пирсона: одна теория или две? Журнал Американской статистической ассоциации, 88 (424), 1242-1249.

Пирсон Е.С., Госсет В.С., Плакетт Р.Л. и Барнард Г.А. (1990). Студент: статистическая биография Уильяма Сили Госсета. Издательство Оксфордского университета, США.

См. Также: Gigerenzer, G. (2004). Бессмысленная статистика. Журнал социально-экономических, 33 (5), 587-606.

Хаббард Р. и Линдсей Р.М. (2008). Почему значения P не являются полезной мерой доказательства в тестировании статистической значимости. Теория и психология, 18 (1), 69-88.

Jank
источник
7

Мне кажется, что ответ скорее в теории игр, чем в статистике. Сжигание 1% и 5% в общем сознании означает, что исследователи не могут эффективно выбирать уровни значимости, которые соответствуют их предрасположенности. Скажем, мы увидели бумагу с p-значением 0,055, где уровень значимости был установлен на уровне 6% - будут заданы вопросы. 1% и 5% обеспечивают форму заслуживающего доверия обязательства.

гипотезы
источник
7
Может быть, но вы думаете, что исследователи не манипулируют регрессиями, не используют повторное тестирование и т. Д., Чтобы выжать, например, до установленного уровня 5% ...
Кирк
Конечно, это возможно, и, вероятно, случается. Но вопрос был о 1% и 5%. Мне кажется, что это попытка создать социальную конвенцию о том, когда принимать что-то значимое. Они произвольны, но произвольны для исследователей как группы, а не произвольны для отдельных исследователей.
предположения
3
Согласен, я только что указал, что наличие обычных уровней значимости не означает, что вопросы не следует задавать, как вы поняли в своем посте. Тот факт, что статья представляет значительный результат на обычном уровне, не означает, что он заслуживает доверия!
Кирк
Ах, я использовал заслуживающий доверия в смысле теории игр (или пытался). Как и в случае, если вы делаете угрозу достоверной, если это не то, от чего вы можете отступить или передумать позже. В этом случае отдельным исследователям будет трудно выйти на какой-то другой произвольный порог.
предположения
2
То, на что ссылается @kirk, определенно происходит. Это называется хакерство . p
Ник Стаунер
6

Моя личная гипотеза состоит в том, что 0,05 (или 1 из 20) связано со значением at / z (очень близким к) 2. Использование 2 - это хорошо, потому что очень легко определить, является ли ваш результат статистически значимым. Других слияний круглых чисел нет.

Джереми Майлз
источник
7
Я сомневаюсь, что это правильно. Конечно, существуют «слияния круглых чисел»: почему бы, например, не использовать критическое значение или ? Более того, никто не стеснялся составлять обширные таблицы критических ценностей сто лет назад, поэтому трудно понять, откуда взялась мотивация. Z = 3Z=1Z=3
whuber
9
Наоборот, они дают хорошие цифры! Для нормального распределения шансы составляют около , , и для . Все эти приближения точнее, чем одно значимое число, и «1 из 20» является худшим из всех (1 из 22 будет гораздо ближе к истине). 1 / 20 1 / 400 1 / +16000 г = 1 , 2 , 3 , 41/31/201/4001/16000z=1,2,3,4
whuber
1
:) Хм ... хорошая мысль. Но вы должны быть ограничены тем, что вы использовали бы в качестве отсечки - 1/3 немного слабовато, 1/400 - жесткое касание.
Джереми Майлз
10
Это именно то, к чему я стремлюсь, Джереми: традиция в 5% и 1% основана, по крайней мере частично, на концепции статистического риска («немного слабый» или «строгий») и изначально не вытекают из любого удобного эмпирического правила.
whuber
1
@whuber Использование дает примерно , и вы не можете получить намного больше, чем это! 1 / πZ=11/π
Джеймс
6

Единственный правильный номер .04284731

... который является легкомысленным ответом, предназначенным для обозначения того, что выбор .05 по сути произвольный. Я обычно просто сообщаю значение p, а не то, что значение p больше или меньше.

«Значение» - это непрерывная переменная, и, на мой взгляд, ее дискретизация часто приносит больше вреда, чем пользы. Я имею в виду, что если р = 0,13, у вас больше уверенности, чем если р = 0,21 и меньше, чем если р = 0,003

generic_user
источник
Что ж, во времена таблиц каждый был более или менее вынужден дискретизировать ... поскольку таблицы используются в обучении, это продолжается ...
kjetil b halvorsen
@kjetilbhalvorsen хорошо, что создатели таблиц явно ошиблись, не выбрав .04284731 из-за своих критических значений.
generic_user
2

Это область проверки гипотез, которая всегда очаровывала меня. Именно потому, что однажды кто-то определился с произвольным числом, которое дихотомизировало процедуру тестирования, и с тех пор люди редко подвергают ее сомнению.

Я помню, как лектор говорил нам не слишком доверять тесту инструментальных переменных Стейгера и Стокса (где F-stat должен быть выше 10 на первой стадии регрессии, чтобы избежать проблем со слабым инструментом), потому что число 10 было совершенно произвольный выбор. Я помню, как говорил: «Но разве это не то, что мы делаем с помощью регулярного тестирования гипотез?»

EconStats
источник
5
@EconStats - это как ответ? Это больше похоже на комментарий. Помните, что резюме не предназначено для обсуждения. Не могли бы вы сделать ответ в этом посте более заметным?
gung - Восстановить Монику
1
Извините @gung. Я предполагаю, что моя точка зрения состояла в том, что, несмотря на некоторые доказательства, предоставленные другими пользователями, я все еще думаю, что наиболее вероятный ответ заключается в том, что у нас есть система счисления, основанная на десятичной системе счисления, и она все еще используется сегодня, чтобы придумать произвольные числа для проверки гипотез. например, F-тест Staiger и Stock, о котором я упоминал.
EconStats
1
Как оригинальный постер этого вопроса, я считаю, что это определенно считается ответом. Спасибо!
Contango
0

Почему 1 и 5? Потому что они чувствуют себя хорошо.

Я уверен, что есть исследования эмоциональной ценности и когнитивной значимости конкретных чисел, но мы можем понять выбор 1 и 5, не прибегая к исследованиям.

Люди, которые создали сегодняшнюю статистику, родились, выросли и живут в десятичном мире. Конечно, существуют недесятичные системы подсчета, и подсчет до двенадцати с использованием фаланг возможен и был выполнен, но это не очевидно так же, как использование пальцев (которые поэтому называются «цифрами», как числа ). И хотя вы (и Фишер), возможно, знаете о недесятичных системах подсчета, десятичная система является и была преобладающей системой подсчета вашей (и мира Фишера) в последние сто лет.

Но почему цифры пять и один особенные? Потому что оба являются наиболее естественными подразделениями основной десятки: один палец, одна рука (или: половина).

Вам даже не нужно заходить так далеко, чтобы осмыслить дроби, чтобы получить от десяти до одного и пяти. Тот просто там, так же, как твой палец просто там. И наполовину что-то - операция, намного более простая, чем деление этого на любую другую пропорцию. Разрезание чего-либо на две части не требует размышлений, а деление на три или четыре уже довольно сложно.

Большинство валютных систем валют имеют монеты и банкноты со значениями, такими как 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Некоторые валютные системы не имеют 2, 20 и 200, но почти все имеют те, которые начинаются в 1 и 5. В то же время большинство валютных систем не имеют монеты или банкноты, которые начинаются с 3, 4, 6, 7, 8 или 9. Интересно, не правда ли? Но почему это так?

Потому что вам всегда нужны десять из 1 или два из 5 (или пять из 2), чтобы прийти к следующему большему заказу. Расчет с деньгами очень прост: раз десять или вдвое. Всего два вида операций. Каждая имеющаяся у вас монета составляет половину или десятую часть монеты следующего порядка. Эти числа умножаются и складываются легко и хорошо.

Таким образом, 1 и 5 были глубоко укоренились с самого раннего детства в Фишера, и тот, кто выбрал уровни значимости в качестве самых простых, самых простых, самых основных делений на 10. Любое другое число нуждается в аргументе для этого, в то время как цифры просто есть.

В отсутствие объективного способа расчета соответствующего уровня значимости для каждого отдельного набора данных, один и пять просто чувствуют себя хорошо.


источник
«Не прибегая к исследованиям». Хотя я думаю, что ответ хороший, это твердо ставит его в поле зрения. Это придаст много доверия и сделает ответ более авторитетным, если будут источники, подтверждающие это.
Момо