Разница между односторонним и двусторонним тестированием?

13

Во время учебы по курсу статистики я пытался понять разницу между односторонними и двусторонними проверками гипотез. В частности, почему односторонний тест отклоняет нулевое значение, а двусторонний - нет?

Пример:

разница между односторонними и двусторонними проверками гипотез

Лу Си
источник
Обратите внимание, что вы отклоняете только на указанном уровне значимости. Вы все еще можете отклонить обе гипотезы, подняв уровень значимости до 10%. вам также не удастся отклонить оба, если вы снизите уровень значимости до 1%.
вероятностная

Ответы:

11

Двухсторонние тесты на разницу в любом направлении. Таким образом, значением P будет площадь под распределением t справа от t = 1,92 ПЛЮС площадь под распределением слева от t = -1,92. Это вдвое больше площади, чем односторонний тест, поэтому значение P в два раза больше.

Если вы используете односторонний тест, вы получаете силу, но за счет потенциальной стоимости необходимости игнорировать разницу, которая противоположна той, которая была предположена до получения данных. Если вы получили данные до того, как формализовали и записали гипотезу, вам действительно следует использовать двусторонний тест. Точно так же, если вы заинтересованы в эффекте в любом направлении, вы используете двухсторонний тест. На самом деле, вы можете использовать двусторонний тест в качестве подхода по умолчанию и использовать односторонний тест только в необычном случае, когда эффект может существовать только в одном направлении.

Майкл Лью
источник
Спасибо за ваш комментарий, Майкл. Вот что я не понимаю: как площадь под кривой может быть в два раза больше для двустороннего теста? Не должно ли P быть одинаковым в обоих случаях, поскольку альфа = 0,05?
Лу Ци
Альфа, в вашем вопросе, - это всего лишь ваше ограничение для принятия решения о том, что означает р (отклонить ноль или нет). Таким образом, это не влияет на значение р.
Джон
Немного придирчиво, но идея о том, что вам нужно выбрать гипотезу перед просмотром данных, не нужна. Вы можете сделать два односторонних теста. Вы всегда будете отклонять направление, не поддерживаемое данными. Таким образом, имеет смысл пойти на односторонний тест, который одобрен данными.
вероятностная
1
@probabilityislogic - Я полностью согласен, за исключением случаев, когда требуется, чтобы значение альфа отражало фактический долгосрочный процент ложноположительных ошибок (т. е. нужно использовать подход Неймана-Пирсона). Если вы используете односторонний тест и выбираете направление изменения для тестирования на основе наблюдаемого эффекта, то вы получите в два раза больше ложноположительных результатов, чем подразумевает ваш альфа-уровень.
Майкл Лью
Это только долгосрочная частота ошибок для тех, кто продолжает игнорировать предыдущие данные. Это не хороший способ добиться хорошей долгосрочной производительности. частота ошибок, определяемая по значимости, распространяется на все наборы данных, которые мы могли бы наблюдать один раз .
вероятностная
5

Площадь под кривой не в два раза больше для двухстороннего теста: для двухстороннего теста с критическим p = 0,05 вы проверяете, как часто наблюдаемые данные могут быть получены из нижнего или верхнего 2,5% от нулевого распределения ( .05 всего). С помощью теста с 1 хвостом вы проверяете, как часто данные поступают из крайнего 5% хвоста одного (предварительно определенного) хвоста.

Частично ответ на ваш вопрос - один из практических: большинство исследователей считают эксперименты, сообщающие о 1-сторонних тестах, маловероятными для повторения (т. Е. Они предполагают, что исследователь выбрал это, чтобы сделать их статистику «значимой»).

Однако существуют допустимые варианты использования. Если вы знаете, что любой результат в обратном направлении невозможен в соответствии с тестируемой теорией, то, как отмечалось в предыдущем комментарии, вы можете указать это заранее и провести односторонний тест. Большинство людей, опять же, все еще смотрят на это осмотрительно.

Тим
источник
0

S(D)рр

S(D)знак равно|T||T|>T0T0αS(D)знак равноTT>T1T1пр(|T|>T0|ЧАС0)пр(T>T0|ЧАС0), поэтому для достижения того же значения мы должны иметьT0T1,

Это приводит к вопросу: зачем использовать разные тестовые статистические данные? Причина в том, что альтернативы разные, и поэтому мощность каждой тестовой статистики различна. В частности, мощность каждого теста уменьшается (при условии, что мы используем то же значение), если мы используем статистику теста и область отклонения от другого теста.

probabilityislogic
источник