Когда (если вообще когда-либо) подход с частыми подходами существенно лучше, чем байесовский?

72

Справочная информация : у меня нет официальной подготовки по байесовской статистике (хотя я очень заинтересован в получении дополнительной информации), но я знаю достаточно - я думаю - чтобы понять суть, почему многие считают, что они предпочтительнее, чем статистика Frequentist. Даже магистранты в классе вводной статистики (по общественным наукам), который я преподаю, находят байесовский подход привлекательным: «Почему мы заинтересованы в вычислении вероятности данных, учитывая ноль? Почему мы не можем просто количественно оценить вероятность ? нулевая гипотеза или альтернативная гипотеза И я также читал темы , как эти , которые свидетельствуют о эмпирических преимуществ байесовской статистики, а Но потом я наткнулся на эту цитату на Бласко (2001; курсив добавлен).:

Если животновод не заинтересован в философских проблемах, связанных с индукцией, но в инструментах для решения проблем, то как байесовские, так и частые школы умозаключений хорошо известны, и нет необходимости обосновывать, почему предпочтение отдается той или иной школе. Ни у одного из них в настоящее время нет операционных трудностей, за исключением некоторых сложных случаев ... Выбор одной или другой школы должен быть связан с тем, есть ли в одной школе решения, которых не предлагает другая , с тем, насколько легко решаются проблемы. и насколько комфортно ученому чувствовать конкретный способ выражения результатов.

Вопрос : Цитата Бласко, кажется, предполагает, что могут быть случаи, когда подход с использованием частот часто предпочтительнее байесовского подхода. И поэтому мне любопытно: когда частый подход предпочтительнее байесовского? Мне интересны ответы, которые касаются вопроса как концептуально (т. Е. Когда знание вероятности данных, обусловленных нулевой гипотезой, особенно полезно?), Так и эмпирически (т. Е. При каких условиях методы Frequentist лучше, чем байесовские?).

Было бы также предпочтительнее, если бы ответы передавались как можно более доступными - было бы неплохо взять некоторые ответы обратно в мой класс, чтобы поделиться с моими учениками (хотя я понимаю, что требуется некоторый уровень технической подготовки).

Наконец, несмотря на то, что я являюсь постоянным пользователем статистики Frequentist, я на самом деле открыт для вероятности того, что Bayesian просто выиграет по всем направлениям.

jsakaluk
источник
10
Когда вы имеете дело с объективными вероятностями, то есть естественными случайными процессами. Например, радиоактивный распад не имеет ничего общего с вашими субъективными убеждениями или неизвестной информацией, или в значительной степени чем-то еще. Он идет своим чередом, и атомы действительно случайно распадаются.
Аксакал
6
Посмотрите на этот недавний вопрос, который, к сожалению, оказался слишком широким (я проголосовал за повторное открытие, но так и не было): stats.stackexchange.com/questions/192572 . Вы спрашиваете почти точно то же самое. Проверьте ответ там.
говорит амеба, восстанови Монику
5
@Aksakal: Мне бы очень хотелось, чтобы это обсуждение, но это не по теме, и нам скажут, поэтому я замолчу (и посчитаю).
говорит амеба, восстанови Монику
12
«Байесовцы решают вопрос, который интересует всех, используя предположения, в которые никто не верит, в то время как частые люди используют безупречную логику для решения проблемы, которая никому не интересна» - Луи Лайонс
Руджеро Турра
4
@jsakaluk, обратите внимание, что опорные пункты Байеса - это области, в которых недостаточно данных или когда процессы нестабильны, например, социальные науки, псевдонауки, науки о жизни и т. д. Нет необходимости быть байесовским в квантовой механике или большей части физики. Конечно, вы тоже можете быть здесь байесовским, просто ваши выводы не будут отличаться от выводов для часто используемых пользователей
Аксакал

Ответы:

54

Вот пять причин, почему часто используемые методы могут быть предпочтительнее:

  • Быстрее. Учитывая, что байесовская статистика часто дает почти идентичные ответы на частые ответы (а если нет, то не на 100% ясно, что байесовский метод всегда уместен), тот факт, что статистику часто можно получить на несколько порядков быстрее, сильный аргумент. Аналогичным образом, для часто используемых методов не требуется столько памяти для хранения результатов. Хотя эти вещи могут показаться несколько тривиальными, особенно с небольшими наборами данных, тот факт, что байесовский и частый аналитики обычно сходятся в результатах (особенно если у вас много информативных данных) означает, что если вы собираетесь заботиться, вы можете начать заботиться о менее важных вещи. И, конечно, если вы живете в мире больших данных, это совсем не тривиально.

  • Непараметрическая статистика. Я признаю, что Байесовская статистика имеет непараметрические статистики, но я бы сказал, что частотная сторона поля имеет некоторые действительно неоспоримо практические инструменты, такие как эмпирическая функция распределения. Ни один метод в мире никогда не заменит EDF, ни кривые Каплана-Мейера и т. Д. (Хотя ясно, что эти методы не являются концом анализа).

  • Меньше диагностики. Методы MCMC, наиболее распространенный метод подгонки байесовских моделей, обычно требуют больше работы от пользователя, чем их частые коллеги. Обычно диагностика для оценки MLE настолько проста, что любая хорошая реализация алгоритма сделает это автоматически (хотя это не означает, что каждая доступная реализация хороша ...). Таким образом, частая алгоритмическая диагностика, как правило, «убедитесь, что при подгонке модели нет красного текста». Учитывая, что у всех статистиков ограниченная пропускная способность, это высвобождает больше времени, чтобы задавать вопросы типа «мои данные действительно нормальны?» или «эти риски действительно пропорциональны?» и т. д.

  • Допустимый вывод при неправильной спецификации модели. Мы все слышали, что «все модели неправильны, но некоторые полезны», но различные области исследований относятся к этому более или менее серьезно. В литературе Frequentist полно методов для исправления вывода, когда модель неверно определена: оценщик начальной загрузки, перекрестная проверка, оценка сэндвича (ссылка также обсуждает общий вывод MLE при неправильной спецификации модели), обобщенные уравнения оценки (GEE), методы квази-правдоподобия, и т.д. Насколько я знаюв байесовской литературе очень мало информации о логических выводах при неправильной спецификации моделей (хотя обсуждается много проверок моделей, т. е. апостериорных прогностических проверок). Я не думаю, что это случайно: оценка поведения оценщика в ходе повторных испытаний не требует, чтобы оценка основывалась на «истинной» модели, а использование теоремы Байеса!

  • Свобода от предыдущего (это, вероятно, самая распространенная причина того, почему люди не используют байесовские методы для всего). Сила байесовской точки зрения часто рекламируется как использование приоров. Однако во всех прикладных областях, в которых я работал, идея информативного априора в анализе не рассматривается. Чтение литературы о том, как извлечь аристократы из нестатистических экспертов, дает веские основания для этого; Я читал статьи, в которых говорится что-то вроде (жестокий соломенный человек, например, перефразируя мой собственный): «Спросите исследователя, который вас нанял, потому что у них есть проблемы с пониманием статистики, чтобы определить диапазон, на который они на 90% уверены, что размер эффекта, который они с трудом могут себе представить, будет быть в. Этот диапазон, как правило, будет слишком узким, поэтому произвольно постарайтесь заставить их немного его расширить. Спросите их, выглядит ли их вера гамма-распределением. Вам, вероятно, придется нарисовать гамма-распределение для них и показать, как оно может иметь тяжелые хвосты, если параметр формы мал. Это также будет связано с объяснением того, что для них PDF. "(Примечание: я не думаю, что даже статистики действительно способны точно сказать,априори , на 90% или 95% они уверены, находится ли величина эффекта в диапазоне, и эта разница может оказать существенное влияние на анализ!). По правде говоря, я веду себя довольно недоброжелательно, и могут быть ситуации, когда получение априора может быть немного более простым. Но вы можете видеть, как это банка червей. Даже если вы переключитесь на неинформативные приоры, это все равно может стать проблемой; при преобразовании параметров то, что легко принять за неинформативные априорные значения, внезапно можно рассматривать как очень информативное! Другим примером этого является то, что я говорил с несколькими исследователями, которые категорически неЯ хочу услышать, как интерпретирует данные другой эксперт, потому что опытным путем другие эксперты склонны быть слишком уверенными. Они бы предпочли просто узнать, что можно сделать из данных другого эксперта, а затем прийти к собственному выводу. Я не могу вспомнить, где я это слышал, но где-то я читал фразу «если вы байесовец, вы хотите, чтобы все были частыми лицами». Я понимаю, что теоретически это означает, что если вы байесовец и кто-то описывает результаты своего анализа, вы должны сначала попытаться устранить влияние их предшествующего уровня, а затем выяснить, каким будет это влияние, если бы вы использовали свой собственный. Это небольшое упражнение было бы упрощено, если бы он дал вам доверительный интервал, а не надежный интервал!

Конечно, если вы отказываетесь от информативных априорных данных, в байесовском анализе все еще есть полезность. Лично в этом и заключается их высшая полезность; Есть некоторые проблемы, на которые очень сложно получить ответ при использовании методов MLE, но их можно легко решить с помощью MCMC. Но моя точка зрения на то, что это Байесовская наивысшая полезность, связана с сильными приоры с моей стороны, поэтому возьмите это с крошкой соли.

Клифф AB
источник
1
(+1) Хороший ответ, хотя я предполагаю, что вы имели в виду, что вам не нужно столько памяти для хранения результатов?
jsakaluk
1
С точки зрения свободы от приоры: вы говорите, что чем меньше вам нужно думать и понимать свою проблему, тем лучше? Я знаю нескольких поставщиков программного обеспечения, которые хотели бы поговорить с вами, чтобы вы могли указывать одним щелчком мыши - или еще лучше - одним щелчком мыши - и иметь ответ на любую проблему, которую вы можете себе представить! Черт возьми, вам даже не нужна проблема, просто загрузите ваши данные на их сайт, и они найдут все возможные проблемы и решат их, черт возьми! (Извините, не смог удержаться от ответа жестоким, похожим на соломенного человека комментарием.)
Уэйн
1
@Wayne: я знаю, что ты шутишь, но это на 100% правильно. Статистика - это инструмент для решения реальных проблем. Я действительно хочу подчеркнуть, что это инструмент, а не конечный продукт. Независимо от того, на чьей стороне был тщательно выверен аргумент «Frequentist vs Bayesian» (я сижу «на стороне, которая дает мне лучший ответ на мой вопрос», что означает, что мне нравятся оба варианта для разных проблем), нет никаких утверждений, что простота использования очень реальная утилита для любого инструмента.
Клифф А.Б.
Конечно, если ваш инструмент часто производит ужасный продукт, это проблема. И если бы я был убежден, что метод частых случаев делал это, а метод Байеса - нет, я бы быстро одобрил метод Байеса.
Клифф А.Б.
1
@CliffAB: Простота использования важна, и, как вы говорите, если результаты одинакового качества, почему выбираете более сложный в использовании? В то же время размышления о четких и понимающих приорах (не байесовские, я имею в виду буквально приоры, которые есть у каждого ученого, в каждой области и в каждом исследовании) имеют решающее значение для хорошей науки. Байесовская статистика является явной и заставляет задуматься и понять некоторые из этих вопросов. В той мере, в которой это не просто педантичное неудобство, это возможно хорошо, и поэтому его противоположность также не хороша.
Уэйн
23

Несколько конкретных преимуществ статистики по частоте:

  • Часто существуют частые решения для частых проблем, в то время как вам потребуется конъюгат, прежде чем иметь решение в закрытой форме в байесовском аналоге. Это полезно по ряду причин, одной из которых является время вычислений.
  • Причина, которая, мы надеемся, в конце концов исчезнет: непрофессионалов учат статистику часто посещающих. Если вы хотите, чтобы вас понимали многие, вам нужно говорить с частыми лицами.
  • Подход «проверка невиновности до тех пор, пока не будет доказана вина» полезен при проверке достоверности нулевой гипотезы (NHST), когда цель состоит в том, чтобы доказать, что кто-то неправ (я собираюсь предположить, что вы правы, и показать, что подавляющее большинство данных говорит о том, что вы ошибаетесь). Да, в байесовском аналоге есть аналоги NHST, но я считаю, что версии для часто встречающихся людей гораздо проще и понятнее.
  • Нет такого понятия, как действительно неинформативный априор, который делает некоторых людей неудобными.
оборота TrynnaDoStat
источник
1
(+1) Спасибо - не могли бы вы уточнить первый момент? Как человек, не очень разбирающийся в байесовском учении, мысль о необходимости «сопряженного априора» (?) Для меня немного
утрачена
5
Я не думаю, что вы правильно истолковываете тест гипотезы частых. Вы только что дали , но значение p на самом деле равно . Правильное толкование значения p: при нулевом значении вероятность результата как экстремального или более экстремального, чем наблюдаемый , составляет всего %. Это неправильное толкование часто поднимается, когда речь идет о байесовском подходе. Кроме этого мне нравится ваш ответ. P ( D a t aP(H0|Data)αP(Data|H0)α
Захари Блюменфельд
@ZacharyBlumenfeld Спасибо за указание на это, у меня на уме был Байесовский. Я исправлю это сейчас.
TrynnaDoStat
1
@jsakaluk Если апостериор и априор имеют одинаковое распределение, априор называется сопряженным, что гарантирует замкнутую форму сзади. Например, если у нас есть данные Бернулли, и мы предварительно выбрали бета-версию ( , ), то мы знаем, что апостериорной является бета-версия ( , ) без какой-либо симуляции, выборки или интенсивных вычислений. β α + n i = 1 x i β + n - n i = 1 x iαβα+i=1nxiβ+ni=1nxi
TrynnaDoStat
16

Наиболее важной причиной использования подходов Frequentist, которая на удивление еще не упоминалась, является контроль ошибок. Очень часто исследования приводят к дихотомическим интерпретациям (должен ли я проводить исследование, основываясь на этом, или нет? Должно ли осуществляться вмешательство или нет?). Частые подходы позволяют строго контролировать уровень ошибок типа 1. Байесовские подходы этого не делают (хотя некоторые наследуют универсальную границу от вероятностных подходов, но даже в этом случае частота ошибок может быть довольно высокой в ​​небольших выборках и с относительно низкими порогами доказательств (например, BF> 3). Вы можете изучить свойства Frequentist of Байесовские факторы (см., Например, http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2604513), но это все еще частый подход. Я думаю, что очень часто, исследователи больше заботятся о контроле ошибок, чем о количественном определении доказательств как таковых (относительно некоторой конкретной гипотезы), и я думаю, что, по крайней мере, все заботятся о контроле ошибок в некоторой степени, и поэтому следует использовать два подхода дополн.

Daniel Lakens
источник
Хорошая точка зрения. Я также думаю о методах групповой последовательности и других формах множественного тестирования, где, как мне кажется (с моей узкой точки зрения, которая, возможно, упустила из виду значительную часть литературы), был недостаток интереса со стороны Байеса (поэтому далеко) с точки зрения получения какого-то контроля ошибок. Конечно, во многих обстоятельствах байесовские методы - особенно с несколько скептическими априорами или каким-то усадкой в ​​иерархической модели, до некоторой степени не позволяют измерить ошибки, но в них часто уделяется больше внимания частой стороне.
Бьорн
3
(+1) Мне очень нравится этот момент ... так как по этой причине я философски часто работаю ... когда мы делаем статистику, чтобы помочь с выводом, тогда мы хотим, чтобы наши выводы были более точными (т.е. меньше ошибок) чем слепое гадание. На самом деле, если я вообще беспокоюсь о том, что мои выводы на самом деле верны или неверны (в смысле того, что они подтверждаются последующими исследованиями), то коэффициент ошибок очень важен. Я просто не могу чувствовать себя комфортно с байесовской вероятностью (однако сами методы очень полезны в качестве разумных «регуляризованных оценок» для количества, когда размер выборки мал ... думаю, Agresit-Coull)
Это больше похоже на теорию принятия решений, чем сравнение байесов и частых. Кроме того , с байесовским подходом вам не нужно беспокоиться о правилах остановки .... Я также понимаю , что байес может достичь лучший «баланса» между ставками типа 1 и типа 2 ошибки ....
probabilityislogic
8

Я думаю, что один из самых больших вопросов, как статистику, который вы должны задать себе, заключается в том, верите ли вы или не хотите придерживаться принципа вероятности. Если вы не верите в принцип правдоподобия, то я думаю, что парадигма часто используемых статистических данных может быть чрезвычайно мощной, однако, если вы верите в принцип правдоподобия, то (я полагаю) вам, безусловно, придется поддержать байесовскую парадигму в не нарушать это.


Если вы не знакомы с ним, принцип правдоподобия говорит нам следующее:

θx

(θ;x)=p(x|θ)
x

xy(θ;x)(θ;y)C(x,y)

(θ;x)=C(x,y)(θ;y)for all θ,

xy

C(x,y)(x,y)C(x,y)θ

C(x,y)=1θθ


Теперь одна из особенностей байесовской статистики заключается в том, что при правильных примерах байесовская парадигма никогда не нарушает принцип правдоподобия. Тем не менее, существуют очень простые сценарии, в которых парадигма участника будет нарушать принцип вероятности.

Вот очень простой пример, основанный на проверке гипотез. Учтите следующее:

Рассмотрим эксперимент, в котором было проведено 12 испытаний Бернулли и 3 успеха. В зависимости от правила остановки мы можем охарактеризовать данные следующим образом:

  • X|θBin(n=12,θ)x=3
  • Y|θNegBin(k=3,θ)y=12

И, таким образом, мы получили бы следующие функции правдоподобия: что означает, что и, следовательно, по принципу правдоподобия мы должны получить одинаковые выводы о из любого вероятности.

1(θ;x=3)=(123)θ3(1θ)92(θ;y=12)=(112)θ3(1θ)9
1(θ;x)=C(x,y)2(θ,y)
θ

А теперь представьте, что вы проверяете следующие гипотезы из парадигмы частых людей

Ho:θ12versusHa:θ<12

Для биномиальной модели имеем следующее:

p-value=P(X3|θ=12)=(120)(12)12+(121)(12)12+(122)(12)12+(123)(12)12=0.0723

Обратите внимание, что но другие термины не удовлетворяют принципу вероятности.(123)(12)12=1(12;x=3)

Для модели отрицательного бинома мы имеем следующее:

p-value=P(Y12|θ12)=(112)(12)12+(122)(12)12+(132)(12)12+...=0.0375

Из приведенных выше расчетов p-значения мы видим, что в биномиальной модели мы не смогли бы отклонить но, используя модель отрицательных мы отвергли бы . Таким образом, хотя в существуют p-значения, а решения, основанные на этих p-значениях, не совпадают. Этот аргумент p-значения часто используется байесовцами против использования p-значений Frequentist.HoHo1(θ;x)2(θ;y)

Теперь рассмотрим снова проверку следующих гипотез, но из байесовской парадигмы

Ho:θ12versusHa:θ<12

Для биномиальной модели имеем следующее:

P(θ12|x)=1/21π(θ|x)dx=1/21θ3(1θ)9π(θ)dθ/01θ3(1θ)9π(θ)dθ

Аналогично, для модели отрицательного бинома мы имеем следующее:

P(θ12|y)=1/21π(θ|x)dx=1/21θ3(1θ)9π(θ)dθ/01θ3(1θ)9π(θ)dθ

Теперь, используя байесовские правила принятия решений, выберите если (или некоторый другой порог), и повторите то же самое для .Ho летP(θ12|x)>12y

Однако и поэтому мы приходим к тот же вывод и, следовательно, этот подход удовлетворяет принципу правдоподобия.P(θ12|x)=P(θ12|y)


Итак, в заключение мои разговоры: если вас не волнует принцип вероятности, то быть частым - это здорово! (Если вы не можете сказать, я байесовский :))

оборота РастиСтатист
источник
1
Я ценю четко продуманный (и, вероятно, отнимающий много времени) ответ, но я чувствую, что этот ответ является чем-то вроде отступления от «ответов ... переданных как можно более доступным ...» мандатом вопроса.
jsakaluk
1
@jsakaluk Я думаю, к чему я стремился и хотел быть уверен в поддержке аргумента, что если вы хотите упускать из виду определенные вещи, которые многие прикладные статистики постоянно принимают как должное, то есть принцип вероятности, то используйте Частотная парадигма может быть гораздо более простой альтернативой байесовской парадигме. Однако, если вы не можете, вам, скорее всего, придется искать альтернативы.
RustyStatistician
4
@RustyStatistician Принцип правдоподобия является центральным принципом для вероятностников. Likelihoodists не байесовский вообще . Я разместил ссылки в своем ответе. Ваше утверждение «если вы действительно верите в принцип правдоподобия, то (я полагаю) вы, безусловно, должны придерживаться байесовской парадигмы» ложно.
Стан
@ Стэн, я согласен с тобой, что да, вероятностники верят в принцип правдоподобия. Но мне было бы очень трудно поверить, что если вы спросите любого байесовца, верят ли они в то, что придерживаются принципа вероятности, что они ответят «нет» (это мое мнение, вы не должны соглашаться).
RustyStatistician
2
Роли принципа правдоподобия (LP), принципа условности (CP) и принципа достаточности (SP) в заключении не просты ... это потому, что эти принципы относятся к доказательствам (как представлено данными), тогда как вывод предполагает выход за пределы доказательств , Это всегда рискованно, но необходимо для достижения прогресса. См. Теорему Бирнбаумса (обсуждается здесь ... Я не обязательно согласен с остальной частью статьи): arxiv.org/abs/1302.5468
6

Вы и я, и ученые, и как ученые, в основном заинтересованы в вопросах доказательств. По этой причине я считаю, что байесовские подходы, когда это возможно, предпочтительнее.

Байесовские подходы отвечают на наш вопрос: какова сила доказательств одной гипотезы над другой? Частые подходы, с другой стороны, этого не делают: они сообщают только, являются ли данные странными, учитывая одну гипотезу.

Тем не менее, Эндрю Гельман, известный байесовский эксперт, похоже, поддерживает использование p-значений (или p-value-подобных графических проверок) в качестве проверки ошибок в спецификации модели. Вы можете увидеть намек на этот подход в этом блоге .

Его подход, насколько я понимаю, является чем-то вроде двухэтапного процесса: во-первых, он задает байесовский вопрос о том, что является свидетельством одной модели над другой. Во-вторых, он задает вопрос Frequentist о том, действительно ли предпочтительная модель выглядит на все правдоподобно, учитывая данные. Мне кажется, это разумный гибридный подход.

CoolBuffScienceDude
источник
1
Хотя ссылка на блог Гелмана должна оставаться действительной, она не будет «сегодняшней» после полуночи. Отредактировано соответственно.
Ник Кокс
8
Я категорически не согласен с замечанием о том, что частые подходы не измеряют доказательства и что это исключительно в байесовском мире. Вы не указываете источник проверки гипотез, такой как тест LR, который сравнивает доказательства одной гипотезы с доказательствами другой.
Клифф AB
1
(+1) - @CliffAB - для всех, кто задумывается о статистике «частых», пожалуйста, посмотрите «отношение правдоподобия», «теорему Бирнбаума» и, возможно, прочитайте немного Рояля… не прыгайте человеческие аргументы с участием NHST - что, кстати, похоже, не затормозило научный прогресс, несмотря на его якобы катастрофические недостатки ... это потому, что статистики - это не программы MINITAB на основе углерода ... они ДУМАЮ [да, статистика - это на самом деле профессия, точно так же, как медицина, или экономика, или автомеханика, ... вы не можете просто прочитать книгу, попробовать формулу и ожидать, что правда окажется у вас на коленях].
2
@Bey: Лично я верю, что p-значения несколько ослабили научный процесс (в том смысле, что биологи вынуждены становиться статистиками с частичной занятостью, чтобы публиковать статьи, сокращая время, которое они получают, чтобы стать биологами), но я не не думайте, что альтернативы значениям p каким-либо образом уменьшают эту проблему! Я чувствую, что проблема р-значений не в их теоретическом обосновании, а в простоте их использования статистиками. Задние вероятности, (например), я думаю, делают эту конкретную проблему скорее хуже, чем лучше.
Клифф AB
2
@CliffAB не мог согласиться больше ... не думал об этом с той стороны ... но я думаю, это просто характер публикации ... если исследовательские отделы не могут позволить себе иметь штатных статистиков. Любой статистический инструмент может быть неправильно использован тем, кто не знает, как его использовать ... Жаль, статистические инструменты кажутся такими простыми в использовании ...
6

Лично мне трудно думать о ситуации, когда ответ на частый вопрос предпочтительнее байесовского. Мои размышления подробно описаны здесь и в других статьях блога на fharrell.com о проблемах с p-значениями и проверкой нулевых гипотез. Частые участники имеют тенденцию игнорировать несколько фундаментальных проблем. Вот только образец:

  • За пределами гауссовой линейной модели с постоянной дисперсией и в нескольких других случаях вычисленные p-значения имеют неизвестную точность для вашего набора данных и модели
  • Когда эксперимент является последовательным или адаптивным, часто бывает, что значение p даже не может быть вычислено, и можно достичь только общего уровня для достиженияα
  • Похоже, что часто счастливчики не позволяют ошибкам типа I опуститься ниже, скажем, на 0,05, независимо от того, что сейчас размер выборки растет
  • Нет частого рецепта того, как формируются поправки множественности, что приводит к специальной мешанине методов

Что касается первого пункта, одной из наиболее часто используемых моделей является бинарная логистическая модель. Его логарифмическая вероятность очень неквадратична, и подавляющее большинство доверительных интервалов и значений p, рассчитанных для таких моделей, не очень точны. Сравните это с байесовской логистической моделью, которая обеспечивает точный вывод.

Другие упоминают контроль ошибок как причину для использования частых выводов. Я не думаю, что это логично, потому что ошибка, к которой они относятся, является долгосрочной ошибкой, предполагающей процесс, в котором выполняются тысячи статистических тестов. Судья, который сказал, что «долгосрочная вероятность ложного осуждения в моем зале суда составляет всего 0,03», должен быть отстранен от должности. Ее обвиняют в том, что она имеет наибольшую вероятность принятия правильного решения для нынешнего обвиняемого . С другой стороны, минус апостериорная вероятность эффекта - это вероятность нулевого или обратного эффекта и вероятность ошибки, которая нам действительно нужна.

Фрэнк Харрелл
источник
2
«Нет частого рецепта того, как формируются множественные поправки, что приводит к специальной мешанине методов». С другой стороны, я никогда не видел, чтобы байесовский метод вообще исправлял множественность. Эндрю Гельман даже гордо заявляет, что никогда их не использует. Например, я видел, как люди сообщали о предельных 95% вероятных интервалах для , но совместная достоверность этих интервалов не составляет 95%. Также не очевидно, как лучше всего решить эту проблему. Есть ли у вас какие-либо советы или примеры? kθ1,,θkk
Civilstat
5

Многие люди, кажется, не знают о третьей философской школе: вероятностности. Книга Эдвардса «Правдоподобие», вероятно, является лучшим местом для чтения. Вот небольшая статья, которую он написал.
Вероятностный подход избегает р-значений, как байесовский, но также избегает часто сомнительного предшественника байесовского. Существует лечение интро здесь , как хорошо.

стан
источник
5
Существует алгоритмический вероятностный подход Вовка, разработанный на основе идей Колмогорова.
Аксакал
2
«Многие люди, кажется, не знают о третьей философской школе: вероятностности». Я не думаю, что это предложение верно в 2016 году ...
Тим
4
@ Тим, хотя все, кого я знаю, знакомы с частотой и байесианством, я никогда не встречал никого, кто бы слышал о вероятностности. Первоначальный спрашивающий, похоже, похож на моих коллег, которые были обучены частоте и все больше интересуются байесианством. Возможно, большинство людей, которые читают мой ответ выше, думают, что я имею в виду оценку максимального правдоподобия или проверку гипотез с использованием отношений правдоподобия. Нет! Я предлагаю Yudi Pawitan и эту лекцию
стан
7
Ни один из этих подходов не является религией, поэтому верить не во что, они просто полезны для определенных проблем, а некоторые из них лучше подходят для одних проблем, а другие - для других :)
Тим
1
(+1) за упоминание вероятностной школы и за комментарий относительно Павитана. Книга Павитана «По всей вероятности» значительно расширена и дополнена статистической практикой ... Я также знал только о Байесе против Частотности. Он занимается многими философскими и методологическими аспектами байесовского «классического» частотности и, конечно же, охватывает школу вероятностного поведения. Просто отличная книга для того, чтобы стать более опытным пользователем статистики ... независимо от ваших философских предпочтений.
4

Как отмечает TrynnaDoStats в своей первой статье, одним из самых больших недостатков частых подходов к построению моделей всегда были проблемы, связанные с инвертированием больших закрытых решений. Инверсия закрытой формы матрицы требует, чтобы вся матрица находилась в ОЗУ, что является существенным ограничением для однопроцессорных платформ с большими объемами данных или массивными категориальными функциями. Байесовские методы смогли обойти эту проблему, симулируя случайные ничьи из указанного априора. Это всегда было одним из главных преимуществ байесовских решений, хотя ответы на них получены только при значительной стоимости процессора.

Эндрю Эйнсли и Кен Трейн в статье, опубликованной примерно 10 лет назад, о которой я потерял упоминание, сравнили конечную смесь (часто встречающуюся или закрытую форму) с байесовскими подходами к построению модели и обнаружили, что в широком спектре функциональных форм и метрики производительности, два метода дали по существу эквивалентные результаты. Где байесовские решения имели преимущество или обладали большей гибкостью, были в тех случаях, когда информация была и скудной, и очень объемной.

Однако эта статья была написана до того, как были разработаны алгоритмы «разделяй и властвуй», которые используют массивно параллельные платформы, например, см. Статью Чена и Минге для получения дополнительной информации об этом http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012- 01.pdf

Появление подходов D & C привело к тому, что даже для самых грубых, редких и наиболее масштабных задач байесовские подходы больше не имеют преимуществ перед частотными методами. Два метода находятся в паритете.

Это относительно недавнее развитие стоит отметить в любых дебатах о практических преимуществах или недостатках любого из этих методов.

Майк Хантер
источник
Я думаю, что это хорошее дополнение к обсуждению (+1), но мне трудно следовать. Это действительно, действительно, действительно откладывает свою изюминку ... Может быть, вы могли бы немного реорганизовать это? :)
usεr11852 говорит восстановить Monic
@ user11852 Вы не говорите, что в сообщении не говорится о чем-то полезном, в то время как вы обнаруживаете, что развитие логики не соответствует журналистским стандартам. Поскольку эта тема стала "сообществом", я не слишком склонен (мотивирован?) Работать над ее реорганизацией в соответствии с вашим предложением. Может стоять как есть. Но все равно спасибо за отзыв и комментарий.
Майк Хантер
1.) Матричная инверсия часто используется для оценки MLE (что является лишь одним из многих распространенных методов), но не всегда. Моя работа по оценке MLE включает в себя оптимизацию часто до параметров (то есть пространство параметров может расти линейно с размером выборки), и инверсия матрицы абсолютно не подходит ... но я все еще оптимизирую вероятность! 2.) Инверсия матриц все еще происходит в байесовской статистике, такой как сэмплер блока обновления блоков. n
Клифф А.Б.
@CliffAB Я думал об инверсии типа перекрестных произведений типа ANOVA.
Майк Хантер
@DJohnson: Понятно. Но моя точка зрения заключалась в том, что инверсия матриц ортогональна частым или байесовским методам; оба лагеря используют инструменты, которые делают что-то очень похожее (по крайней мере, с точки зрения вычислительных затрат) во многих своих методах.
Клифф AB
3

Частые тесты фокусируются на фальсификации нулевой гипотезы. Однако проверка достоверности нулевой гипотезы (NHST) также может быть проведена с байесовской точки зрения, поскольку во всех случаях NHST - это просто расчет P (наблюдаемый эффект | эффект = 0). Таким образом, трудно определить время, когда необходимо проводить НХСТ с частой точки зрения.

При этом лучший аргумент в пользу проведения НГСТ с использованием частого подхода - это легкость и доступность. Людей учат частые статистики. Таким образом, легче запустить частый NHST, потому что есть намного больше статистических пакетов, которые делают это простым. Точно так же легче сообщать результаты частого NHST, потому что люди знакомы с этой формой NHST. Таким образом, я считаю это лучшим аргументом для частых подходов: доступ к статистическим программам, которые будут их запускать, и удобство передачи результатов коллегам. Это просто культурно, поэтому этот аргумент может измениться, если частые подходы утратят свою гегемонию.

Лиз Пейдж-Гулд
источник
5
Комментарии о том, что думал Фишер, кажутся здесь искаженными, если вы не можете предоставить точные цитаты. Нулевая гипотеза - это устройство, являющееся частью теста на значимость, чтобы попытаться отговорить ученых от чрезмерной интерпретации результатов небольших выборок. Фишер так же, как и все остальные, стремился к тому, чтобы ученые использовали статистику для хорошей науки; сам он был очень серьезным вкладчиком в генетику.
Ник Кокс
4
Я полностью согласен, и поэтому я отредактировал ответ, чтобы удалить предположение о психическом состоянии Фишера.
Лиз Пейдж-Гулд
3

Несколько комментариев:

  • Фундаментальное различие между байесовским статистиком и статистиком-частником заключается в том, что байесовский агент готов распространить инструменты вероятности на ситуации, в которых не будет этого.

    • Точнее говоря, байесовка готова использовать вероятность, чтобы смоделировать неопределенность в своем уме по различным параметрам. Для часто встречающихся эти параметры являются скалярами (хотя и скалярами, где статистика не знает истинного значения). Для байесовских, различные параметры представлены в виде случайных величин! Это очень разные. Неопределенность Байеса по параметрам valeus представлена априорной .
  • В байесовской статистике надежда на то, что после наблюдения данных апостериор превосходит априор, а априор не имеет значения. Но это часто не так: результаты могут быть чувствительными к выбору ранее! Разные байесовцы с разными априорами не должны согласовывать апостериорные.

Ключевым моментом, который следует иметь в виду, является то, что утверждения статистика-частщика - это утверждения, с которыми могут согласиться любые два байесовца, независимо от их предыдущих убеждений!

Частый участник не комментирует приоры или постеры, просто вероятность.

Утверждения статистика-публициста в некотором смысле менее амбициозны, но более смелые высказывания байесовской системы могут в значительной степени опираться на назначение априора. В ситуациях, где важны априорные значения и существуют разногласия в отношении априорных критериев, более ограниченные условные утверждения статистики частых случаев могут стоять на более прочной основе.

Мэтью Ганн
источник
2

Цель большого исследования - не прийти к окончательному выводу, а просто получить немного больше доказательств, чтобы постепенно подтолкнуть сообщество к пониманию вопроса в одном направлении .

Байесовская статистика необходима, когда вам нужно оценить решение или заключение в свете имеющихся доказательств. Контроль качества был бы невозможен без байесовской статистики. Любая процедура, в которой вам нужно взять некоторые данные и затем действовать по ним (робототехника, машинное обучение, принятие бизнес-решений), получает выгоду от байесовской статистики.

Но многие исследователи этого не делают. Они проводят некоторые эксперименты, собирают некоторые данные и затем говорят: «Данные указывают таким образом», не слишком заботясь о том, является ли это лучшим выводом, учитывая все доказательства, которые до сих пор собирали другие. Наука может быть медленным процессом, и утверждение типа «Вероятность того, что эта модель верна, составляет 72%!» часто преждевременно или ненужно.

Это уместно и простым математическим способом, потому что статистика по частоте часто оказывается математически такой же, как шаг обновления байесовской статистики. Другими словами, в то время как байесовская статистика («Предыдущая модель», «Доказательство») → «Новая модель», статистика по частоте - это просто «доказательство», и она предоставляется другим для заполнения двух других частей.

Оуэн
источник
Хотя большая часть этой статьи интересна, она состоит из множества неподдерживаемых мнений. Пожалуйста, обратитесь в наш справочный центр, чтобы узнать, какие ответы ожидаются на этом сайте.
whuber
@ Понятно. Я добавил одну цитату, которую я могу вспомнить, но остальную часть я не цитирую, поэтому, если она кажется слишком неподдерживаемой, я могу удалить ее.
Оуэн
5
Я удивлен, что вы упомянули о контроле качества, поскольку это похоже на область, в которой частое толкование вероятности (относительная частота во многих испытаниях) было бы очень естественным: учитывая, что фабрика работает правильно, насколько вероятно, что мы увидим это много (или больше) сломанных виджетов? Могу ли я подтолкнуть вас к подробному анализу того, что делает байесовскую статистику особенно полезной для контроля качества?
Мэтт Краузе
@MattKrause Предположим, что наша цель - отправлять дефектные виджеты со скоростью <1%. Мы знаем, что фабрика производит дефектные виджеты со скоростью 10%, и у нас есть тест с частотой ошибок типов I и II как s и 1 / (sqrt (4 - 1 / s ^ 2)), где s - это параметр строгости. Что мы должны использовать для строгости?
Оуэн
2
Идея о том, что статистика часто не может объединить информацию из последовательных исследований, похоже, игнорирует область метаанализа.
Клифф AB
2

Фактическое выполнение байесовского метода является более техническим, чем у Frequentist. Под «более технической» я подразумеваю такие вещи, как: 1) выбор приоров, 2) программирование вашей модели в BUGS / JAGS / STAN и 3) размышление о выборке и конвергенции.

Очевидно, # 1 в значительной степени не является обязательным, по определению байесовского. Хотя с некоторыми проблемами и процедурами, могут быть разумные значения по умолчанию, скрывающие проблему от пользователя. (Хотя это также может вызвать проблемы!)

Вопрос № 2 зависит от программного обеспечения, которое вы используете. Байесовская статистика имеет тенденцию к более общим решениям, чем статистические методы, использующие частые методы, и такие инструменты, как BUGS, JAGS и STAN, являются естественным выражением этого. Однако в различных пакетах программного обеспечения есть байесовские функции, которые, похоже, работают как типичная процедура частых ответов, поэтому это не всегда проблема. (А недавние решения , такие как пакеты R rstanarmи brmsявляются преодоление этого разрыва.) Тем не менее, использование этих инструментов очень похоже на программирование на новом языке.

Пункт № 3 обычно применим, так как большинство реальных байесовских приложений собираются использовать выборку MCMC. (С другой стороны, процедуры на основе MLE, основанные на частоте, используют оптимизацию, которая может сходиться к локальным минимумам или не сходиться вообще, и мне интересно, сколько пользователей должны проверять это, а не?)

Как я сказал в комментарии, я не уверен, что свобода от приоры - это научная выгода. Это, конечно, удобно в нескольких отношениях и на нескольких этапах процесса публикации, но я не уверен, что это действительно способствует улучшению науки. (И в целом, мы все должны осознавать, что наши приоры являются учеными, иначе мы будем страдать от всевозможных ошибок в наших исследованиях, независимо от того, какие статистические методы мы используем.)

Wayne
источник
Что касается (3), многие классические модели статистики (например, glm) имеют вогнутые логарифмические правдоподобия, поэтому очень редко стандартные алгоритмы выходят из строя вне пределов крайних угловых случаев. Что касается не вогнутых проблем (например, NN), хотя они требуют серьезного беспокойства по поводу неправильной конвергенции (что обычно понимают пользователи), это (не случайно) также проблемы, в которых классические алгоритмы MCMC ужасно терпят неудачу, если работают только для скажем, жизнь одного человека. Однако, как правило, исправление MCMC менее сложное, чем алгоритм оптимизации!
Клифф AB
2

Концептуально : я не знаю. Я считаю, что байесовская статистика - самый логичный способ думать, но я не могу объяснить, почему.

Преимущество часто встречающегося в том, что большинству людей легче на начальном уровне. Но для меня это было странно. Потребовались годы, пока я действительно не смог интеллектуально уточнить, что такое доверительный интервал. Но когда я начал сталкиваться с практическими ситуациями, идеи для частых людей казались простыми и очень актуальными.

Эмпирически

Самый важный вопрос, на котором я сейчас пытаюсь сосредоточиться, - это больше практическая эффективность: личное время работы, точность и скорость вычислений.

Личное время работы: для базовых вопросов я фактически почти никогда не использую байесовские методы: я использую базовые инструменты для часто встречающихся участников и всегда предпочитаю t-тест по сравнению с байесовским эквивалентом, который просто вызовет у меня головную боль. Когда я хочу знать, действительно ли я лучше в tictactoe, чем моя подруга, я делаю хи-квадрат :-). На самом деле, даже при серьезной работе в качестве ученого, базовые инструменты для часто используемых пользователей просто неоценимы для исследования проблем и позволяют избежать ложных выводов из-за случайности.

Точность: в машинном обучении, где предсказание важнее, чем анализ, не существует абсолютной границы между байесовским и частым. MLE - частый подход: просто оценщик. Но регуляризованный MLE (MAP) - это частично байесовский подход : вы находите задний режим, и вам нет дела до остального заднего. Я не знаю частого обоснования того, зачем использовать регуляризацию. Практически, регуляризация иногда просто неизбежна, потому что необработанная оценка MLE настолько перегружена, что 0 будет лучшим предиктором. Если считается, что регуляризация является истинно байесовским методом, то это само по себе оправдывает то, что байесовский метод может учиться с меньшим количеством данных.

Скорость вычислений: часто используемые методы чаще всего вычислительно быстрее и проще в реализации. И каким-то образом регуляризация обеспечивает дешевый способ ввести в них немного Байеса. Это может быть потому, что байесовские методы все еще не так оптимизированы, как могли бы. Например, некоторые реализации LDA быстры в наше время. Но они требовали очень тяжелой работы. Для оценки энтропии первыми продвинутыми методами были байесовские. Они работали великолепно, но вскоре были обнаружены методы для часто используемых пользователей, и они занимают гораздо меньше времени на вычисление ... Что касается времени вычислений, то методы с частыми данными, как правило, явно лучше. Не абсурдно, если вы байесовский, думать о частотных методах как о приближениях байесовских методов.

Бенуа Санчес
источник
2
«Я не знаю частого оправдания того, почему [использовать] регуляризацию». Это просто; при повторных испытаниях это показало снижение ошибки вне выборки.
Клифф AB
2

Одним из типов проблем, в которых конкретный подход, основанный на частотах , по существу доминировал над любым байесовским подходом, является проблема прогнозирования в случае M-open.

Что означает M-open?

M-open подразумевает, что истинная модель, которая генерирует данные, не появляется в наборе моделей, которые мы рассматриваем. Например, если истинное среднее значение является квадратичным как функция от , но мы рассматриваем только модели со средним значением линейной функции от , мы находимся в M-открытом случае. Другими словами, несоответствие модели приводит к открытому делу.yxx

В большинстве случаев это огромная проблема для байесовского анализа; почти вся теория, о которой я знаю, основана на правильной спецификации модели. Конечно, как критические статистики, мы должны думать, что наша модель всегда неправильно определена. Это довольно проблема; Большая часть нашей теории основана на правильности модели, но мы знаем, что это не так. По сути, мы просто скрещиваем пальцы в надежде, что наша модель не слишком неправильная.

Почему методы Frequentist обрабатывают это лучше?

Не все так делают. Например, если мы используем стандартные инструменты MLE для создания стандартных ошибок или построения интервалов прогнозирования, мы не будем лучше, чем использование байесовских методов.

Тем не менее, существует один конкретный инструмент Frequentist, который специально предназначен именно для этой цели: перекрестная проверка. Здесь, чтобы оценить, насколько хорошо наша модель будет предсказывать новые данные, мы просто оставляем некоторые данные при подгонке модели и измеряем, насколько хорошо наша модель предсказывает невидимые данные.

Обратите внимание, что этот метод совершенно амбивалентен несоответствию модели, он просто предоставляет нам метод оценки того, насколько хорошо модель будет предсказывать новые данные, независимо от того, является ли модель «правильной» или нет.

Я не думаю, что слишком сложно утверждать, что это действительно меняет подход к прогнозному моделированию, который трудно обосновать с байесовской точки зрения (априор должен представлять предшествующее знание до того, как он увидит данные, функция правдоподобия - это модель и т. Д.) это очень легко оправдать с точки зрения Frequentist (мы выбрали модель + параметры регуляризации, которые при повторной выборке приводят к лучшему из ошибок выборки).

Это полностью изменило способ прогнозирования. Я не думаю, что какой-либо статистик будет (или, по крайней мере, должен) всерьез рассматривать прогностическую модель, которая не была построена или проверена с помощью перекрестной проверки, когда она доступна (т. Е. Мы можем разумно предположить, что наблюдения независимы, не пытаясь учесть для смещения выборки и т. д.).

Cliff AB
источник