Сравнение и противопоставление, p-значения, уровни значимости и ошибка типа I

21

Мне было интересно, если кто-нибудь мог бы дать краткое изложение в отношении определений и использования значений p, уровня значимости и ошибки типа I.

Я понимаю, что значения p определяются как «вероятность получения тестовой статистики, по крайней мере, такой же экстремальной, как та, которую мы наблюдали на самом деле», тогда как уровень значимости - это просто произвольное пороговое значение, чтобы оценить, является ли значение p значительным или нет , Ошибка типа I - это ошибка отклоненной нулевой гипотезы, которая была верной. Однако я не уверен относительно разницы между уровнем значимости и ошибкой типа I, не являются ли они одним и тем же понятием?

Например, предположим очень простой эксперимент, в котором я подбрасываю монету 1000 раз и подсчитываю, сколько раз она приземляется на «головы». Моя нулевая гипотеза, H0, состоит в том, что головы = 500 (несмещенная монета). Затем я установил свой уровень значимости на альфа = 0,05.

Я переворачиваю монету 1000 раз, а затем вычисляю значение p, если значение p> 0,05, тогда я не могу отклонить нулевую гипотезу, а если значение p <0,05, то я отвергаю нулевую гипотезу.

Теперь, если бы я проводил этот эксперимент несколько раз, каждый раз вычисляя значение p и отклоняя или не отклоняя нулевую гипотезу, и сохраняя счет того, сколько я отклонил / не смог отклонить, то я бы в конечном итоге отверг 5% нулевых гипотез которые были на самом деле правдой, это правильно? Это определение ошибки типа I. Поэтому уровень значимости при проверке значимости Фишера, по сути, является ошибкой I типа при проверке гипотезы Неймана-Пирсона, если вы выполняли повторные эксперименты.

Теперь, что касается значений p, если бы я получил значение p 0,06 из моего последнего эксперимента, и я провел несколько экспериментов и посчитал все те, что я получил значение p от 0 до 0,06, то я бы тоже не имел 6% шанс отклонить истинную нулевую гипотезу?

BYS2
источник

Ответы:

16

Вопрос выглядит простым, но ваше размышление об этом показывает, что это не так просто.

На самом деле, р-значения являются относительно поздним дополнением к теории статистики. Вычисление p-значения без компьютера очень утомительно; именно поэтому до недавнего времени единственным способом выполнения статистического теста было использование таблиц статистических тестов, как я объясняю в этом сообщении в блоге . Поскольку эти таблицы были рассчитаны для фиксированных уровней (обычно 0,05, 0,01 и 0,001), вы можете выполнить тест только с этими уровнями.α

Компьютеры сделали эти таблицы бесполезными, но логика тестирования остается прежней. Вам следует:

  1. Сформулируйте нулевую гипотезу.
  2. Сформулируйте альтернативную гипотезу.
  3. Определите максимальную ошибку типа I (вероятность ошибочного отклонения нулевой гипотезы), которую вы готовы принять.
  4. Проектируйте область отклонения. Вероятность того, что тестовая статистика попадет в область отклонения, учитывая, что нулевой гипотезой является ваш уровень . Как объясняет @ MånsT, это должно быть не меньше допустимой ошибки типа I, и во многих случаях использовать асимптотические приближения.α
  5. Проведите случайный эксперимент, вычислите статистику теста и посмотрите, попадает ли она в область отклонения.

Теоретически существует строгая эквивалентность между событиями «статистика попадает в область отклонения» и «значение p меньше, чем »α , поэтому считается, что вместо этого вы можете сообщить значение p . На практике это позволяет пропустить шаг 3. и оценить ошибку типа I после завершения теста .

Чтобы вернуться к вашему посту, утверждение нулевой гипотезы неверно. Нулевая гипотеза состоит в том, что вероятность перевернуть голову равна (нулевая гипотеза не может относиться к результатам случайного эксперимента).1/2

Если вы повторяете эксперимент снова и снова с пороговым значением p, равным 0,05, да, у вас должно быть приблизительно 5% отклонения. И если вы установите отсечение р-значения 0,06, вы получите примерно 6% отклонения. В более общем случае для непрерывных испытаний по определению значенияp

проб(п<Икс)знак равноИкс,(0<Икс<1),

что только приблизительно верно для дискретных тестов.

Вот некоторый код R, который, я надеюсь, может прояснить это немного. Биноминальный тест относительно медленный, поэтому я провожу всего 10 000 случайных экспериментов, в которых я подбрасываю 1000 монет. Я выполняю биномиальный тест и собираю 10000 р-значений.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Вы можете видеть, что пропорции не являются точными, потому что размер выборки не бесконечен, а тест дискретен, но между этими двумя значениями наблюдается увеличение примерно на 1%.

gui11aume
источник
@ MånsT Спасибо! +1 к вам за различие между непрерывными и дискретными тестами (которые я бы честно полностью упустил из виду).
gui11aume
4
@ gui11aume, спасибо за ваш вклад! Однако ваше утверждение «р-значения являются сравнительно поздним дополнением к теории статистики» странно. Из того, что я прочитал, «проверка значимости» Фишера с p-значениями возникла примерно в 1925 году. В то время как «проверка гипотезы» Неймана-Пирсона стала «улучшением» работы Фишера несколько лет спустя. Хотя верно, что p-значения было трудно вычислить (поэтому и использовались стандартные уровни значимости), его работа была монументальной. На самом деле его называют «отцом статистики», потому что он лег в основу большей части современной статистики.
BYS2
2
@ BYS2 Абсолютно верно (+1). Теория р-значений восходит к происхождению статистики. Это их повсеместное использование, которое недавно. Спасибо, что заметили ;-)
gui11aume
@ Guillaume спасибо за это, у меня есть еще один быстрый вопрос, хотя. Вы говорите, что моя нулевая гипотеза не может быть H 0 = 500, но мне кажется, что многочисленные тексты используют, например: nul l гипотеза состоит в том, что среднее будет 0 или что разница в средних будет 10 .. У меня никогда не было проблем делаю так: s .. Распределение t по существу просто масштабируется, если я использовал H0 = 500 вместо H0 = 0.5
BYS2
1
@ gui11aume: Может быть, было бы интересно взглянуть на мой ответ: stats.stackexchange.com/questions/166323/…
15

Вы получаете хорошие ответы здесь от @MansT & @ gui11aume (+1 к каждому). Позвольте мне посмотреть, смогу ли я получить более четкие ответы на оба вопроса.

NК

п(К)знак равноN!К!(N-К)!пК(1-п)N-К
αзнак равно+0,05
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

αзнак равно+0,050,021αошибка типа Iα+0,05биномиальные вероятности. Отметим далее, что подобные ситуации побудили разработать среднее значение р, чтобы минимизировать расхождение между значением р и уровнем значимости.

Могут быть случаи, когда вычисленное значение p не равно долгосрочной частоте ошибок типа I, в дополнение к тому факту, что частота ошибок типа I не обязательно равна уровню значимости. Рассмотрим таблицу непредвиденных обстоятельств 2x2 с этими наблюдаемыми значениями:

     col1 col2
row1   2    4   
row2   4    2

χ2χ12знак равно1,3,пзнак равно0,248χ2χ2пзнак равно0,56710,56370,5671

Таким образом, проблемы здесь заключаются в том, что с дискретными данными:

  • Ваш предпочтительный уровень значимости не может быть одним из возможных уровней ошибок типа I, и
  • использование (обычных) приближений к непрерывной статистике приведет к неточным расчетным значениям p.

N

(Хотя вопрос не касается решения этих проблем), есть вещи, которые смягчают эти проблемы:

  • N
  • часто есть поправки (такие как поправка Йейтса на непрерывность), которые приблизят вычисленные значения к правильным значениям,
  • N
  • среднее значение p дает возможность приблизить уровень ошибок типа I к выбранному доверительному уровню,
  • Вы можете явно использовать один из существующих уровней ошибок типа I (или заметить, что это будет).
Gung - Восстановить Монику
источник
Здорово, что вы углубились в детали, которые мы оставили на стороне (+1).
gui11aume
@ gung - не могли бы вы прокомментировать, как вы получили коэффициент ошибок типа I для первой таблицы?
stats134711
@ stats134711, это всего лишь сумма индивидуальных вероятностей для вариантов, которые являются экстремальными или более экстремальными (2-сторонними).
gung - Восстановить Монику
14

Понятия действительно тесно связаны друг с другом.

п(TYпе я еррор)знак равноααп(TYпе я еррор)ααп(TYпе я еррор)αα

Значение p - это самый низкий уровень значимости, при котором нулевая гипотеза будет принята . Таким образом, он говорит нам, «насколько значительным» является результат.

MånsT
источник