Почему тестирование частых гипотез смещается в сторону отклонения нулевой гипотезы с достаточно большими выборками?

46

Я просто читал эту статью о байесовском факторе для совершенно не связанной проблемы, когда наткнулся на этот отрывок

Тестирование гипотез с байесовскими факторами является более надежным, чем тестирование с использованием частых гипотез, поскольку байесовская форма позволяет избежать смещения при выборе модели, оценивает доказательства в пользу нулевой гипотезы, включает неопределенность модели и позволяет сравнивать не вложенные модели (хотя, конечно, модель должна имеют одинаковую зависимую переменную). Кроме того, тесты на частоту значимости становятся предвзятыми в пользу отклонения нулевой гипотезы с достаточно большим размером выборки. [выделение добавлено]

Я видел это утверждение раньше в газете Карла Фристона 2012 года в NeuroImage , где он называет это ошибкой классического вывода .

У меня были небольшие проблемы с поиском действительно педагогического объяснения того, почему это должно быть правдой. Конкретно мне интересно:

  1. почему это происходит
  2. как защититься от этого
  3. если это не удалось, как это обнаружить
БИК
источник
7
Это несколько спорно , потому что это не соответствует действительности , когда нулевая буквально, именно так, но так как это так редко бывает (из - за разного рода сложностей как паразитных корреляций), это, вероятно , справедливо для большинства практических применений. Гипотетически говоря, можно обнаружить самые слабые из паразитных корреляций (например, r = .001) из-за цепочки посредников длиной в сотни переменных, несмотря на такое же количество неконтролируемых модераторов, если выборка была достаточно колоссальной. Можно утверждать, что эти отношения действительно существуют, поэтому то, является ли это действительно «предвзятостью», все еще несколько спорным ИМО ...
Ник Стаунер
@NickStauner, Ах, это действительно имеет большой смысл! Спасибо за интуитивное объяснение!
Blz
3
Таль Яркони написал очень поучительную критику статьи Фристона
Иона,
@jona, Похоже, я бегу к целой толпе cogsci здесь =) Спасибо за ссылку, это действительно похоже на хорошее чтение!
Blz
8
Учитывая, что предположения верны, это утверждение, похоже, является строго ложным в его нынешнем виде, но оно наталкивается на реальную проблему (что при достаточно больших выборках NHST почти наверняка отклонит ложный ноль, независимо от того, насколько крошечный эффект) , Когда люди обнаруживают, что это проблема, это обычно означает, что проверка гипотез - это не то, что им нужно. В этом ответе
Glen_b

Ответы:

44

pp

Ответ на вопрос 2: В рамках системы проверки гипотезы часто можно защититься от этого, не делая вывод только об обнаружении различий . Например, можно объединить выводы о разнице и эквивалентности, чтобы не отдавать предпочтение (или не смешивать!) Бремени доказывания доказательств воздействия с доказательством отсутствия эффекта . Доказательством отсутствия эффекта являются, например:

  1. два односторонних теста на эквивалентность (TOST),
  2. равномерно наиболее мощные тесты на эквивалентность , и
  3. 12αα

То, что разделяют все эти подходы, - это априорное решение о том, какой размер эффекта составляет существенную разницу, и нулевая гипотеза, сформулированная с точки зрения разницы, по крайней мере, такой же, как и то, что считается релевантным.

0+0

Четыре варианта из комбинированных тестов на разность и тестов на эквивалентность

Обратите внимание на верхний левый квадрант: односторонний тест - это тест, в котором да вы отвергаете нулевую гипотезу о разнице, но вы также отвергаете нулевую гипотезу о значимой разнице, так что да, есть разница, но вы априори решили, что вас не волнует это потому что он слишком маленький.

Ответ на вопрос 3: см. Ответ на 2.

Alexis
источник
2
Ответы как этот - то, почему я продолжаю приходить сюда. Спасибо!
Blz
2
1αα2α
В дополнение к ответу на вопрос 1, соответствующая запись в блоге от Cosma Shalizi
2
Я немного удивлен, что все считают этот вопрос таким полезным, хотя на «Ответ на вопрос 1» на самом деле гораздо более уместно отвечает Майкл Лью - Алексис, поскольку кажется почти очевидным, что этот вопрос будет продолжаться, возможно, вы могли бы исправить свой ответ Сказать, что, говоря математически, тесты на гипотезы на самом деле НЕ ОБЪЯВЛЯЮТСЯ большим размером выборки, в соответствии с обычным определением смещения (наоборот, на самом деле, небольшой размер выборки может быть проблемой)!
Флориан Хартиг
3
Я понимаю проблему и согласен с оценкой - нецелесообразно или вводить в заблуждение проведение теста на гипотезу, когда! H0, во-первых, бесконечно вероятно, и у вас есть сила, близкая к 1. Но это не делает тест смещенным, если вы не определили, что метод дает правильный результат для вопроса, который, по вашему мнению, не следует задавать.
Флориан Хартиг
21

Частые тесты с большими выборками НЕ демонстрируют уклон в сторону отклонения нулевой гипотезы, если нулевая гипотеза верна. Если предположения теста верны, а нулевая гипотеза верна, то больше нет риска, что большая выборка приведет к отклонению нулевой гипотезы, чем маленькая выборка. Если значение NULL не соответствует действительности, то мы, безусловно, будем рады отклонить его, поэтому тот факт, что большая выборка будет чаще отклонять ложное значение NULL, чем маленькая выборка, - это не «смещение», а соответствующее поведение.

Страх перед «чрезмерными экспериментами» основан на предположении, что не стоит отвергать нулевую гипотезу, когда она почти верна. Но если это только почти правда, то это на самом деле ложь! Отклоните, но не забывайте замечать (и четко сообщать) наблюдаемый эффект. Он может быть незначительным и поэтому не заслуживает серьезного рассмотрения, но решение по этому вопросу должно приниматься после рассмотрения информации, полученной вне проверки гипотезы.

Майкл Лью
источник
2
00+really frickin' tiny
6
@Alexis Прочтите второй абзац еще раз. Я абсолютно согласен, что на самом деле чертовски крошечный не является существенно важным, но это также не логически ноль.
Майкл Лью,
6
Извините за комментарий, который бесполезен для публики, но @MichaelLew, мне очень понравился ваш ответ. Первое предложение очень важно, и я не думаю, что оно было эффективно объяснено в ответе Алексис (что также, конечно, приятно).
Ричард Харди