Почему мы отвергаем нулевую гипотезу на уровне 0,05, а не на уровне 0,5 (как мы делаем в классификации)

11

Проверка гипотез сродни проблеме классификации. Так, скажем, у нас есть 2 возможных ярлыка для наблюдения (субъекта) - Виновен против Не виновен. Пусть Non-Guilty будет нулевой гипотезой. Если бы мы рассматривали проблему с точки зрения классификации, мы бы обучали классификатор, который предсказывал бы вероятность принадлежности субъекта к каждому из 2 классов с учетом данных. Затем мы выбрали бы класс с наибольшей вероятностью. В этом случае вероятность 0,5 будет естественным порогом. Мы могли бы изменить порог в случае, если мы установили разные затраты на ошибки «Ложно положительный» или «Ложно отрицательный». Но редко бы мы пошли настолько экстремально, как установление порога в 0,05, то есть присвоение субъекту класса «виновный», только если вероятность составляет 0,95 или выше. Но если я хорошо понимаю, это то, что мы делаем в качестве стандартной практики, когда рассматриваем ту же проблему, что и проблема проверки гипотез. В этом последнем случае мы не будем присваивать метку «Невиновный», что эквивалентно присвоению метки «Виновен», только если вероятность того, что он не виновен, составляет менее 5%. И, возможно, это может иметь смысл, если мы действительно хотим избежать осуждения невинных людей. Но почему это правило должно преобладать во всех доменах и во всех случаях?

Решение о том, какую гипотезу принять, эквивалентно определению Оценщика Истины с учетом Данных. В оценке максимального правдоподобия мы принимаем гипотезу, которая более вероятна с учетом данных - не обязательно, хотя в подавляющем большинстве случаев более вероятна. Смотрите график ниже:

Используя подход максимального правдоподобия, мы предпочли бы альтернативную гипотезу в этом примере, если бы значение предиктора было больше 3, например 4, хотя вероятность того, что это значение было получено из нулевой гипотезы, была бы больше 0,05.

И хотя пример, с которого я начал пост, возможно, эмоционально насыщен, мы могли бы подумать о других случаях, например о техническом улучшении. Почему мы должны дать такое преимущество статус-кво, когда данные говорят нам, что вероятность того, что новое решение является улучшением, больше, чем вероятность того, что это не так?

probability hypothesis-testing classification p-value RF7
источник

1

2

$2$

1

ОП правильно, что предпосылка здесь ошибочна, в классической процедуре НХСТ нет ничего, что требовало бы отклонения на уровне 5%. Это культурный феномен дискуссионной ценности.

Мэтью Друри

1

@ Мэтью Друри: «выбирайте высоких людей для баскетбольных команд» не является ошибкой как стратегией только потому, что она не включает в себя, как высокий, как точное правило. Хотя существует множество других проблем, как вы знаете, предоставление пользователю возможности выбрать, где провести линию, возможно, является особенностью NHST. Мое отвращение к риску не исключало недавних поездок в Париж или Лондон, но исключало бы поездки во многие страны: другие люди могли бы провести черту иначе. Я согласен с тем, что существует культурное явление [sic], поскольку разные группы имеют разные соглашения о том, когда отвергать гипотезы.

Ник Кокс

Я не уверен, что вы читаете в мой комментарий Ник. Полагаю, мне следовало быть более ясным. Я просто хочу, чтобы люди больше задумывались над установкой конкретных пороговых значений.

Мэтью Друри

Вы, кажется (ed), говорите, что NHST имеет недостатки, потому что это не подразумевает определенный уровень отклонения. Я согласен с вами относительно проблемных порогов.

Ник Кокс

17

Скажем, вы оказались в суде и не сделали этого. Как вы думаете, это справедливо, что у вас все еще есть 50% шанс быть признанным виновным? Является ли 50% шанс быть невиновным "виновным вне всякого разумного сомнения"? Считаете ли вы справедливым, что у вас был 5% шанс быть признанным виновным, даже если вы этого не сделали? Если бы я был в суде, я бы посчитал 5% недостаточно консервативным.

$\pi$ $e$

В ответ на ваше редактирование вопроса:

$\alpha$

Мартен Буис
источник

6

α = 0.05

$\alpha = 0.05$

α = 0.05

$\alpha = 0.05$

8

Это как вы говорите - это зависит от того, насколько важны ложные и ложные ошибки.

В примере, который вы используете, как уже ответил Мартен Буис, осуждение, если есть вероятность 50%, что вы были невиновны, вряд ли справедливо.

Применяя его для исследования, посмотрите на это так: представьте, что вы хотите знать, помогает ли определенное новое лекарство против определенной болезни. Скажите, что вы находите разницу между вашей группой лечения и вашей контрольной группой в пользу лечения. Большой! Лекарство должно работать, верно? Вы можете отвергнуть нулевую гипотезу о том, что лекарство не работает. Ваше p- значение равно 0,49! Существует большая вероятность того, что эффект, который вы обнаружили, основан на правде, а не случайно!
Теперь рассмотрим это: препарат имеет неприятные побочные эффекты. Вы хотите взять его, только если уверены, что это работает. А ты? Нет, потому что есть все еще 51% шанс, что разница, которую вы обнаружили между двумя группами, была чисто случайной.

Я могу представить, что есть домены, где вы довольны, например, 10%. Я видел статьи, где принято 10%. Я также видел статьи, где они выбрали 2%. Это зависит от того, насколько важно, на ваш взгляд, убеждение, что отказ от нулевой гипотезы будет основан на правде, а не на случайности. Я с трудом представляю ситуацию, когда вы удовлетворены 50% -ной вероятностью того, что разница, которую вы обнаружили, основана на чистой удаче.

Тами
источник

5

$.05$ $.50$

Вы берете «тестирование гипотезы, чтобы быть похожим на проблему классификации». Кажущееся сходство здесь только поверхностно; это не совсем верно в значимом смысле.

$.67$ $.67$

$0$ $0$ $100\%$ $0.\bar{0}$ $0$ $0$ $p<.5$ ). В результате вы всегда будете заключать, что нулевая гипотеза неверна. Чтобы сделать это явным, ошибочная предпосылка в вашем вопросе состоит в том, что есть одна значимая синяя линия (как показано на вашем рисунке), которую можно использовать, как вы предлагаете.

$.50$

Gung - Восстановить Монику
источник

3

Чтобы добавить к очень хорошим предыдущим ответам: да, 5% является произвольным, но независимо от выбранного вами порогового значения, оно должно быть достаточно маленьким, иначе проверка гипотез не имеет большого смысла.

Вы ищете эффект и хотите убедиться, что ваши результаты не случайно. В этой степени вы устанавливаете уровень значимости, который говорит в основном: «Если бы на самом деле не было никакого эффекта (нулевая гипотеза верна), это было бы вероятностью все же получить такие результаты (или более экстремальные) по чистой случайности» . Установка слишком высокого значения приведет к множеству ложных срабатываний и подорвет вашу способность получить значимый ответ на ваш вопрос исследования.

Как всегда, существует компромисс, поэтому исследовательское сообщество разработало 5-процентную рекомендацию. Но это разные в разных областях. В физике элементарных частиц это больше похоже на 0,00001% или что-то в этом роде.

khaozavr
источник

0

Классификация и проверка гипотез различны и используются по-разному . В большинстве случаев люди используют

«Классификация» «для выполнения задачи« классификации чего-либо в соответствии с общими качествами или характеристиками ».
И используйте «проверку гипотез» для проверки некоторых «значительных открытий».

Обратите внимание, что при проверке гипотез «нулевая гипотеза» является «здравым смыслом», но если мы можем отвергнуть нулевые гипотезы, тогда у нас будет перерыв.

Вот почему у нас есть более строгие критерии проверки гипотез. Вспомните пример разработки новых драг, мы хотим быть очень осторожными, чтобы сказать, что это важно и эффективно.

Хайтау Ду
источник

Почему мы отвергаем нулевую гипотезу на уровне 0,05, а не на уровне 0,5 (как мы делаем в классификации)

Ответы: