В ответ на растущее число статистиков и исследователей, которые критикуют полезность тестирования нулевых гипотез (NHT) для науки в качестве совокупного усилия, Целевая группа Американской психологической ассоциации по статистическому выводу избежала прямого запрета на NHT, но вместо этого предположила, что исследователи сообщить размеры эффекта в дополнение к значениям р, полученным из NHT.
Тем не менее, размеры эффекта не легко накапливаются в разных исследованиях. Мета-аналитические подходы могут накапливать распределения размеров эффекта, но размеры эффекта обычно рассчитываются как отношение между необработанной величиной эффекта и необъяснимым «шумом» в данных данного эксперимента, что означает, что на распределение размеров эффекта влияет не только изменчивость необработанной величины эффекта в разных исследованиях, а также изменчивость проявления шума в разных исследованиях.
Напротив, альтернативная мера силы эффекта, отношений правдоподобия, позволяет как интуитивно понятную интерпретацию для каждого исследования в отдельности, так и может быть легко объединена между исследованиями для мета-анализа. В рамках каждого исследования вероятность представляет собой вес данных для модели, содержащей данный эффект, по сравнению с моделью, которая не содержит эффекта и обычно может быть представлена как, например, «Расчет отношения правдоподобия для эффекта X». выявлено в 8 раз больше доказательств для эффекта, чем для его соответствующего нуля ". Кроме того, отношение правдоподобия также позволяет интуитивно представлять силу нулевых результатов, поскольку отношения правдоподобия ниже 1 представляют собой сценарии, в которых предпочтительным является нулевое значение, а взятие обратной величины этого значения представляет вес свидетельства для нулевого значения по сравнению с эффектом. Следует отметить, что Отношение правдоподобия математически представляется как отношение необъяснимых дисперсий двух моделей, которые отличаются только дисперсией, объясняемой эффектом, и, таким образом, не являются значительным концептуальным отклонением от величины эффекта. С другой стороны, вычисление метааналитического отношения правдоподобия, представляющего вес доказательств для эффекта в разных исследованиях, является просто вопросом принятия произведения отношений правдоподобия в разных исследованиях.
Таким образом, я утверждаю, что для науки, стремящейся установить степень грубых доказательств в пользу эффекта / модели, отношения вероятности - путь.
Есть более нюансированные случаи, когда модели различаются только по конкретному размеру эффекта, и в этом случае может быть предпочтительным какое-то представление интервала, в течение которого мы считаем, что данные соответствуют значениям параметра эффекта. Действительно, целевая группа APA также рекомендует сообщать доверительные интервалы, которые могут использоваться для этой цели, но я подозреваю, что это также необдуманный подход.
Доверительные интервалы, к сожалению, часто неверно истолковываются ( как студентами, так и исследователями ). Я также опасаюсь, что их способность использовать в NHT (путем оценки включения нуля в CI) будет только способствовать дальнейшей задержке исчезновения NHT как логической практики.
Вместо этого, когда теории дифференцируются только по размеру эффектов, я предполагаю, что байесовский подход был бы более уместным, когда предварительное распределение каждого эффекта определяется каждой моделью в отдельности, а полученные последующие распределения сравниваются.
Представляется ли достаточным такой подход, заменяющий значения p, величины эффекта и доверительные интервалы отношениями правдоподобия и, при необходимости, сравнение байесовской модели? Не упускает ли он какой-то необходимой логической функции, которую предоставляют альтернативы, приведенные здесь?
источник
Ответы:
Основными преимуществами байесовского подхода, по крайней мере для меня, как для исследователя психологии, являются:
1) позволяет накапливать доказательства в пользу нуля
2) обходит теоретические и практические проблемы последовательного тестирования
3) не подвержен отклонению нуля только из-за огромного N (см. Предыдущий пункт)
4) лучше подходит для работы с небольшими эффектами (с большими эффектами как частые, так и байесовские методы имеют тенденцию почти всегда соглашаться)
5) позволяет осуществлять иерархическое моделирование в возможной форме. Например, введение эффектов элементов и участников в некоторые классы моделей, такие как модели Multinomial Tree Tree, должно быть выполнено в байесовской структуре, иначе время вычисления будет безумно долгим.
6) получает «реальные» доверительные интервалы
7) Вам требуется 3 вещи: вероятность, априоры и вероятность данных. первое, которое вы получаете из своих данных, второе, которое вы составляете, и третье, которое вам вообще не нужно, учитывая пропорциональность. Хорошо, может быть, я немного утрирую ;-)
В целом, можно перевернуть ваш вопрос: означает ли это, что классической статистики по частоте недостаточно? Я думаю, что сказать «нет» - слишком суровый приговор. Большинство проблем можно несколько избежать, если выйти за пределы p-значений и посмотреть на такие вещи, как размеры эффектов, возможность эффектов элементов и постоянно повторять результаты (слишком много публикаций за один эксперимент опубликовано!).
Но не все так просто с Байесом. Возьмем, например, выбор модели с не вложенными моделями. В этих случаях априорные значения чрезвычайно важны, так как они сильно влияют на результаты, и иногда вы не обладаете достаточными знаниями по большинству моделей, с которыми вы хотите работать, чтобы сделать ваши приоры правильными. Кроме того, занимает много времени ....
Я оставляю две рекомендации для тех, кто может быть заинтересован в погружении в Байес.
«Курс байесовского графического моделирования для когнитивной науки» Ли и Вагенмакерса
"Байесовское моделирование с использованием WinBUGS" Ntzoufras
источник