Предоставляют ли отношения правдоподобия и сравнения байесовской модели превосходные и достаточные альтернативы проверке нулевой гипотезы?

13

В ответ на растущее число статистиков и исследователей, которые критикуют полезность тестирования нулевых гипотез (NHT) для науки в качестве совокупного усилия, Целевая группа Американской психологической ассоциации по статистическому выводу избежала прямого запрета на NHT, но вместо этого предположила, что исследователи сообщить размеры эффекта в дополнение к значениям р, полученным из NHT.

Тем не менее, размеры эффекта не легко накапливаются в разных исследованиях. Мета-аналитические подходы могут накапливать распределения размеров эффекта, но размеры эффекта обычно рассчитываются как отношение между необработанной величиной эффекта и необъяснимым «шумом» в данных данного эксперимента, что означает, что на распределение размеров эффекта влияет не только изменчивость необработанной величины эффекта в разных исследованиях, а также изменчивость проявления шума в разных исследованиях.

Напротив, альтернативная мера силы эффекта, отношений правдоподобия, позволяет как интуитивно понятную интерпретацию для каждого исследования в отдельности, так и может быть легко объединена между исследованиями для мета-анализа. В рамках каждого исследования вероятность представляет собой вес данных для модели, содержащей данный эффект, по сравнению с моделью, которая не содержит эффекта и обычно может быть представлена ​​как, например, «Расчет отношения правдоподобия для эффекта X». выявлено в 8 раз больше доказательств для эффекта, чем для его соответствующего нуля ". Кроме того, отношение правдоподобия также позволяет интуитивно представлять силу нулевых результатов, поскольку отношения правдоподобия ниже 1 представляют собой сценарии, в которых предпочтительным является нулевое значение, а взятие обратной величины этого значения представляет вес свидетельства для нулевого значения по сравнению с эффектом. Следует отметить, что Отношение правдоподобия математически представляется как отношение необъяснимых дисперсий двух моделей, которые отличаются только дисперсией, объясняемой эффектом, и, таким образом, не являются значительным концептуальным отклонением от величины эффекта. С другой стороны, вычисление метааналитического отношения правдоподобия, представляющего вес доказательств для эффекта в разных исследованиях, является просто вопросом принятия произведения отношений правдоподобия в разных исследованиях.

Таким образом, я утверждаю, что для науки, стремящейся установить степень грубых доказательств в пользу эффекта / модели, отношения вероятности - путь.

Есть более нюансированные случаи, когда модели различаются только по конкретному размеру эффекта, и в этом случае может быть предпочтительным какое-то представление интервала, в течение которого мы считаем, что данные соответствуют значениям параметра эффекта. Действительно, целевая группа APA также рекомендует сообщать доверительные интервалы, которые могут использоваться для этой цели, но я подозреваю, что это также необдуманный подход.

Доверительные интервалы, к сожалению, часто неверно истолковываются ( как студентами, так и исследователями ). Я также опасаюсь, что их способность использовать в NHT (путем оценки включения нуля в CI) будет только способствовать дальнейшей задержке исчезновения NHT как логической практики.

Вместо этого, когда теории дифференцируются только по размеру эффектов, я предполагаю, что байесовский подход был бы более уместным, когда предварительное распределение каждого эффекта определяется каждой моделью в отдельности, а полученные последующие распределения сравниваются.

Представляется ли достаточным такой подход, заменяющий значения p, величины эффекта и доверительные интервалы отношениями правдоподобия и, при необходимости, сравнение байесовской модели? Не упускает ли он какой-то необходимой логической функции, которую предоставляют альтернативы, приведенные здесь?

Майк Лоуренс
источник
Может ли быть более сфокусированный вопрос? Возможно, один из подходов, ориентированных на вероятности к конкретной проблеме вывода?
конъюнктура
2
Но пока мы здесь: Об экспозиции: перепутали ли вы меры величины эффекта, обычно идентифицируемой с параметром, для мер сравнительного доказательства для полной модели? ЛР выглядят только как кандидаты на последнее. Кроме того, если вы хотите, чтобы функции правдоподобия по отдельности или в комбинации сообщали вам все, что данные пытаются рассказать о модели, то вы, по сути, байесовский. Потому что это принцип правдоподобия. (Заходите, вода прекрасна :-)
конъюнктур
Ваш заголовок и ваш заключительный пункт, кажется, не согласны с тем, предлагаете ли вы использовать доверительные интервалы или заменить их.
остановка
@onestop: действительно, я только что понял, что забыл изменить название; Я изменил свое мнение относительно доверительных интервалов при написании вопроса. Я отредактировал название сейчас. Извиняюсь за путаницу.
Майк Лоуренс
@Conjugate Prior: Полностью согласен с вашими первыми двумя предложениями. Но вы можете принять принцип правдоподобия, не будучи байесовским, если вам не нравится идея приоров и базовый вывод, основанный только на вероятностях - см. Книги Edwards books.google.com/books?id=2a_XZ-gvct4C и Royall books.google .com / books? id = oysWLTFaI_gC . Хотя кто-то (и я хотел бы вспомнить, кто и где) однажды сравнил это с разбиванием яиц, но не с едой омлета.
OneStop

Ответы:

3

Основными преимуществами байесовского подхода, по крайней мере для меня, как для исследователя психологии, являются:

1) позволяет накапливать доказательства в пользу нуля

2) обходит теоретические и практические проблемы последовательного тестирования

3) не подвержен отклонению нуля только из-за огромного N (см. Предыдущий пункт)

4) лучше подходит для работы с небольшими эффектами (с большими эффектами как частые, так и байесовские методы имеют тенденцию почти всегда соглашаться)

5) позволяет осуществлять иерархическое моделирование в возможной форме. Например, введение эффектов элементов и участников в некоторые классы моделей, такие как модели Multinomial Tree Tree, должно быть выполнено в байесовской структуре, иначе время вычисления будет безумно долгим.

6) получает «реальные» доверительные интервалы

7) Вам требуется 3 вещи: вероятность, априоры и вероятность данных. первое, которое вы получаете из своих данных, второе, которое вы составляете, и третье, которое вам вообще не нужно, учитывая пропорциональность. Хорошо, может быть, я немного утрирую ;-)

В целом, можно перевернуть ваш вопрос: означает ли это, что классической статистики по частоте недостаточно? Я думаю, что сказать «нет» - слишком суровый приговор. Большинство проблем можно несколько избежать, если выйти за пределы p-значений и посмотреть на такие вещи, как размеры эффектов, возможность эффектов элементов и постоянно повторять результаты (слишком много публикаций за один эксперимент опубликовано!).

Но не все так просто с Байесом. Возьмем, например, выбор модели с не вложенными моделями. В этих случаях априорные значения чрезвычайно важны, так как они сильно влияют на результаты, и иногда вы не обладаете достаточными знаниями по большинству моделей, с которыми вы хотите работать, чтобы сделать ваши приоры правильными. Кроме того, занимает много времени ....

Я оставляю две рекомендации для тех, кто может быть заинтересован в погружении в Байес.

«Курс байесовского графического моделирования для когнитивной науки» Ли и Вагенмакерса

"Байесовское моделирование с использованием WinBUGS" Ntzoufras

Дэйв Келлен
источник