Я продолжаю видеть эту знаменитую цитату повсюду, но не могу понять подчеркнутую часть каждый раз.
Человек, который «отвергает» гипотезу временно, в порядке обычной практики, когда значение находится на уровне 1% или выше, наверняка будет ошибаться не более чем в 1% таких решений. Поскольку, когда гипотеза верна, он будет ошибаться только в 1% этих случаев, а когда она неверна, он никогда не ошибется в отклонении. [...] Тем не менее, расчет является абсурдным академическим, поскольку на самом деле ни один научный работник не имеет определенного уровня значимости, при котором из года в год он при любых обстоятельствах отвергает гипотезы; он скорее думает о каждом конкретном случае в свете своих доказательств и своих идей.Не следует забывать, что случаи, выбранные для применения теста, являются явно отобранным набором и что условия отбора не могут быть определены даже для одного работника; и что в использованном аргументе было бы явно нелегитимным выбирать фактический уровень значимости, указанный конкретным испытанием, как если бы он имел привычку на протяжении всей жизни использовать именно этот уровень.
(Статистические методы и научный вывод, 1956, стр. 42-45)
Конкретнее я не понимаю
- Почему кейсы выбираются для применения теста "высоко отобранные"? Допустим, вы удивляетесь, что средний рост людей на участке меньше 165 см, и решили провести тест. Насколько мне известно, стандартной процедурой является выборка случайных образцов из области и измерение их высоты. Как это можно выбрать?
- Предположим, что случаи тщательно отобраны, но как это связано с выбором уровня значимости? Рассмотрим снова приведенный выше пример, если ваш метод выборки (который, как я полагаю, является тем, что Фишер называет условиями отбора ) искажен и каким-то образом благоприятствует высоким людям, тогда все исследование рушится, и субъективное определение уровня значимости не может его спасти.
Пытаясь увидеть фон цитаты, я пришел к версии книги (я не уверен, какая версия), которая имеет немного другую цитату
https://archive.org/details/in.ernet.dli.2015.134555/page/n47
Мне кажется, это критика использовать математическое выражение возможностей отклонения, ошибки типа I, в качестве строгого аргумента. Эти выражения часто не являются хорошим выражением того, что имеет отношение, и при этом они не являются строгими.
Почему кейсы выбираются для применения теста "высоко отобранные"?
Это похоже на предложение
Мы не безразличны к проверяемой гипотезе, и часто проверяемая гипотеза не считается верной.
как это связано с выбором уровня значимости?
Это относится к
Р-значение только частота делает ошибку , когда нулевая гипотеза является истинной. Но фактическая частота ошибок будет другой (ниже).
что такое «фактический уровень значимости, указанный конкретным испытанием», относящийся к
Я считаю, что эта часть относится к некоторому взлому p-значения. Изменяя уровень значимости, альфа, после того, как наблюдения произошли, чтобы соответствовать наблюдаемому p-значению, и сделайте вид, что это было пороговое значение с самого начала.
источник