Пример того, как байесовская статистика может оценивать параметры, которые очень сложно оценить с помощью частых методов

9

Байесовские статистики утверждают, что «Байесовская статистика может оценивать параметры, которые очень сложно оценить с помощью частых методов». Означает ли следующая цитата, взятая из этой документации SAS, то же самое?

Он обеспечивает выводы, которые зависят от данных и являются точными, не полагаясь на асимптотическое приближение. Вывод малых выборок происходит так же, как если бы выборка была большой. Байесовский анализ также может оценивать любые функции параметров напрямую, без использования «подключаемого» метода (способ оценки функционалов путем включения оценочных параметров в функционалы).

Я видел подобное утверждение в каком-то учебнике, но не помню где. Может кто-нибудь объяснить мне пример?

Стат-R,
источник
Какова вероятность того, что солнце взойдет завтра? en.wikipedia.org/wiki/Sunrise_problem Этот пример может быть более тривиальным, чем вы ожидали
Хью
Можете ли вы поставить цитату прямо в ваш вопрос? Название кажется не связанным со вторым пунктом.
Хью
1
Утверждение в этой цитате не велико в том смысле, что (а) «точное» ничего там не значит и (б) критика плагина применяется только тогда, когда рассматривается полная апостериорная, а не другая оценка, плюс в зависимости от выбранной функции потерь для оценки. Смотрите этот другой вопрос для некоторых ответов .
Сиань

Ответы:

8

У меня есть возражения с этой цитатой:

  1. «Частота» - это подход к выводу, основанный на частотных свойствах выбранных оценок. Это расплывчатое понятие в том смысле, что в нем даже не говорится о том, что оценщики должны сходиться, и если они это делают в соответствии с тем, как они должны сходиться. Например, непредвзятость является распространенным понятием, но оно не может быть применимо для любой и любой функции [параметра ], представляющей интерес, поскольку набор преобразований которые допускают непредвзятую оценку, очень ограничен. Кроме того, оценщик частоты не создается парадигмой, а должен быть сначала выбран перед оценкой. В этом смысле байесовская оценка является оценщиком частоты, если она удовлетворяет некоторому признаку частоты.θθ
  2. Вывод, произведенный байесовским подходом, основан на апостериорном распределении, представленном его плотностью . Я не понимаю, как термин «точный» может быть присоединен к Он однозначно связан с предыдущим распределением и точно получен по теореме Байеса. Но он не возвращает точного вывода в том смысле, что точечная оценка не является истинным значением параметра и он выдает точные вероятностные утверждения только в рамках, предоставленных парой ранее x вероятностьπ(θ|D)π(θ|D)π(θ)θ, Изменение одного термина в паре действительно изменяет апостериор и логический вывод, в то время как нет общего аргумента для защиты единственного априора или вероятности.
  3. Аналогичным образом, другие утверждения о вероятности, такие как «истинный параметр имеет вероятность 0,95 падения в доверительном интервале 95%», найденные на той же странице этой документации SAS, имеют значение относительно структуры апостериорного распределения, но не в абсолютном значении.
  4. С вычислительной точки зрения верно, что байесовский подход часто может возвращать точные или приблизительные ответы в случаях, когда стандартный классический подход не дает результатов. Это, например, случай для скрытых [или отсутствующих] переменных моделей где является совместной плотностью для пары и там, где не наблюдается, получение оценок и ее апостериора путем моделирования пары может оказаться намного проще, чем вывод Оценщик с максимальной вероятностью. Практическим примером такой установки является коалесцентная модель Кингмана в популяционной генетике.
    е(Икс|θ)знак равног(Икс,Z|θ)dZ
    г(Икс,Z|θ)(Икс,Z)Zθ(θ,Z)где эволюция популяций от общего предка включает в себя скрытые события на бинарных деревьях. Эта модель может обрабатываться с помощью [приблизительного] байесовского вывода с помощью алгоритма, называемого ABC, даже при том, что существуют также не байесовские программные разрешения .
  5. Однако даже в таких случаях я не думаю, что байесовский вывод является единственно возможным решением. Методы машинного обучения, такие как нейронные сети, случайные леса, глубокое обучение, могут быть классифицированы как частые методы, поскольку они обучаются на выборке путем перекрестной проверки, сводя к минимуму критерий ошибки или расстояния, который можно рассматривать как ожидание [в рамках истинной модели] аппроксимируется средней выборкой. Например, коалесцентная модель Кингмана также может обрабатываться не байесовскими программными решениями .
  6. Последний момент заключается в том, что для точечной оценки байесовский подход вполне может дать оценки подключаемых модулей. Для некоторых функций потерь, которые я назвал собственными потерями , оценщик Байеса преобразования является преобразованием байесовской оценки .час(θ)час(θ^)θ
Сиань
источник
Ответ хорош, насколько это возможно. Я возражаю против пункта № 5, поскольку он приписывает методам ML превосходную производительность, которая еще не подтверждена теорией. И что вообще означает "... настоящая модель ..."? Без сомнения, эти методы популярны, но эта популярность обычно оправдывается их способностью «масштабировать». К сожалению, многие из диагностических идей, предлагаемых не-ML байесовскими и частыми методами, теряются при использовании таких подходов. В частности, перекрестная проверка может дать более высокий уровень ошибок, чем другие методы. См. Efron, 1983, 1986, JASA.
Ян Галковски
Спасибо. На самом деле, я не наделяю методы ML «превосходными» способностями, просто упоминаю, что некоторые ответы ML могут быть предложены для сложных моделей. И под «истинными моделями» я подразумеваю оценку характеристик метода, предполагающего (ошибочно), что данные получены с помощью указанной модели. Что является дефектом большинства статистических анализов IMO.
Сиань