Объясняя двусторонние тесты

16

Я ищу различные способы объяснить моим студентам (в курсе элементарной статистики), что такое двусторонний тест и как рассчитывается его значение P.

Как вы объясните своим ученикам двухсторонний тест?

Таль Галили
источник

Ответы:

17

Это большой вопрос, и я с нетерпением жду любой версии объяснения p-значения и двухстороннего и одностороннего теста. Я преподаю статистику коллегам-ортопедам и поэтому стараюсь держать ее как можно более простой, так как большинство из них не занимались математикой в ​​течение 10-30 лет.

Мой способ объяснения расчета р-значений и хвостов

Я начну с объяснения, что, если мы считаем, что у нас есть честная монета, мы знаем, что в итоге она должна составить в среднем 50% бросков ( ). Теперь, если вам интересно, какова вероятность получения всего 2 хвостов из 10 бросков с этой честной монетой, вы можете рассчитать эту вероятность, как я сделал на гистограмме. Из графика видно , что вероятность получения 8 из 10 переворачивается с изрядной монеты составляет около около 4,4 % .=H04.4%

Поскольку мы ставим под сомнение справедливость монеты, если у нас 9 или 10 хвостов, мы должны включить эти возможности, хвост теста. Добавляя значения, мы получаем, что вероятность сейчас составляет чуть больше от получения 2 хвостов или меньше.5.5%

Теперь, если бы мы получили только 2 головы, то есть 8 голов (другой хвост), мы, вероятно, были бы так же готовы поставить под сомнение справедливость монеты. Это означает, что вы получите вероятность для двустороннего теста .5,4 ...%+5,4 ...%10,9%

Поскольку мы, работающие в области медицины, обычно заинтересованы в изучении неудач, нам необходимо учитывать противоположную сторону вероятности, даже если наше намерение состоит в том, чтобы делать добро и вводить полезное лечение.

Мой график монеток

Отражения немного не по теме

Этот простой пример также показывает, насколько мы зависимы от нулевой гипотезы для вычисления p-значения. Я также хотел бы отметить сходство между кривой бинома и кривой колокола. При переходе на 200 сальто вы получаете естественный способ объяснить, почему вероятность получить ровно 100 сальто начинает неактуальна. Представляющие интерес интервалы представляют собой естественный переход к функциям плотности вероятности / функции массы и их кумулятивным аналогам.

В моем классе я рекомендую им видео со статистикой академии Хана, а также использую некоторые из его объяснений для определенных понятий. Они также подбрасывают монеты, где мы смотрим на случайность подбрасывания монет - я стараюсь показать, что случайность более случайна, чем то, что мы обычно считаем вдохновленным этим эпизодом с Radiolab .

Код

У меня обычно есть один график / слайд, R-код, который я использовал для создания графика:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))
Макс Гордон
источник
Отличный ответ Макс - и спасибо, что признали нетривиальность моего вопроса :)
Tal Galili
+1 хороший ответ, очень тщательный. Прости меня, но я собираюсь придираться к двум вещам. 1) р-значение понимается как вероятность того, что данные будут такими же экстремальными или более экстремальными, как ваши при нулевом значении, поэтому ваш ответ верен. Однако при использовании дискретных данных, таких как подбрасывание монет, это неадекватно консервативно. Лучше всего использовать то, что называется «средним p-значением», т. Е. 1/2 вероятность того, что данные столь же экстремальны, как ваша, + вероятность того, что данные будут более экстремальными. Легкое обсуждение этих вопросов можно найти в Agresti (2007) 2.6.3. (продолжение)
Банда - Восстановить Монику
2) Вы утверждаете, что случайность более случайна, чем мы думаем. Я могу догадаться, что вы можете иметь в виду (у меня не было возможности послушать эпизод с Radiolab, который вы связали, но я это сделаю). Как ни странно, я всегда говорил студентам, что случайность менее случайна, чем вы думаете. Я имею в виду здесь восприятие полос (например, в азартных играх). Люди полагают, что случайные события должны чередоваться гораздо больше, чем случайные события, и в результате считают, что они видят полосы. См. Фальк (1997). Осмысление случайности Psych Rev 104,2. Опять же, вы не ошиблись - просто пища для размышлений.
gung - Восстановить Монику
Спасибо @gung за ваш вклад. Я на самом деле не слышал о среднем значении - это имеет смысл, хотя. Я не уверен в том, упомянул ли бы я об этом что-то, когда преподаю основную статистику, так как это может дать ощущение потери практического чувства, которое я пытаюсь дать. Что касается случайности, мы имеем в виду одно и то же - когда мы видим действительно случайное число, мы дурачимся, думая, что в нем есть образец. Я думаю, что я слышал на подкасте Freakonomics глупость предсказания, что ...
Макс Гордон
... человеческий разум за эти годы узнал, что неспособность обнаружить хищника обходится дороже, чем думать, что это, вероятно, ничто. Мне нравится эта аналогия, и я пытаюсь сказать своим коллегам, что одна из главных причин использования статистики - помочь нам с этим недостатком, с которым мы все родились.
Макс Гордон
9

Предположим, что вы хотите проверить гипотезу о том, что средний рост мужчин составляет «5 футов 7 дюймов». Вы выбираете случайную выборку мужчин, измеряете их рост и вычисляете среднее значение выборки. Ваша гипотеза тогда такова:

ЧАС0:μзнак равно5 фут 7 дюймов

ЧАСA:μ5 фут 7 дюймов

В описанной выше ситуации вы выполняете двусторонний тест, поскольку отклоняете нулевое значение, если среднее значение выборки слишком низкое или слишком высокое.

В этом случае значение p представляет вероятность реализации выборочного среднего значения, которое при крайней мере таким же экстремальным как и значение, которое мы фактически получили, предполагая, что нулевое значение фактически является истинным. Таким образом, если значение выборки составляет «5 футов 8 дюймов», то значение p будет представлять вероятность того, что мы будем наблюдать высоты, превышающие «5 футов 8 дюймов», или высоты меньше, чем «5 футов 6 дюймов», при условии, что значение равно нулю. правда.

Если, с другой стороны, ваша альтернатива была оформлена так:

ЧАСA:μ>5 фут 7 дюймов

В описанной выше ситуации вы бы прошли односторонний тест с правой стороны. Причина в том, что вы бы предпочли отклонить ноль в пользу альтернативы, только если среднее значение выборки чрезвычайно велико.

Интерпретация p-значения остается той же самой с небольшим нюансом, который мы сейчас говорим о вероятности реализации выборочного среднего значения, которое больше того, которое мы фактически получили. Таким образом, если значение выборки составляет «5 футов 8 дюймов», тогда значение p будет представлять вероятность того, что мы будем наблюдать высоты, превышающие «5 футов 8 дюймов», при условии, что нулевое значение истинно.

Varty
источник
2
Раньше для вашего второго ЧАСA нуль должен читать ЧАС0:μ5 фут 7 дюймовне ЧАС0:μзнак равно5 фут 7 дюймов, См. Один из комментариев @ whuber к этому вопросу: должны ли нулевые и альтернативные гипотезы быть исчерпывающими или нет? ,
ЧЛ
2
@ CHL Я согласен. Однако для человека, который только знакомится со статистическими идеями, переписывание нулевого значения для одностороннего теста может быть отвлекающим фактором, когда основное внимание уделяется тому, как и почему все меняется в отношении интерпретации р-значения.
Varty
1
Справедливо. Это стоит упомянуть, хотя, даже в учебных целях.
ЧЛ