С фиксированным априором оценки ML (частота - максимальная вероятность) и MAP (байесовская апостериорная) совпадают.
В целом, однако, я говорю о точечных оценках, полученных как оптимизаторы некоторой функции потерь. Т.е.
(Bayesian) х (
где является оператором ожидания, является функцией потерь (минимизировано в является оценкой, учитывая данные , параметра , а случайные величины обозначены заглавными буквами.
Кто-нибудь знает какие-либо условия на , PDF из и , наложенной линейности и / или непредвзятости, где оценки будут совпадать?
редактировать
Как отмечается в комментариях, требование беспристрастности, такое как непредвзятость, необходимо для придания значимости проблеме Frequentist. Плоские приоры также могут быть общностью.
Помимо общих обсуждений, представленных некоторыми ответами, вопрос на самом деле также о предоставлении реальных примеров . Я думаю, что важным является линейная регрессия:
- х = ( D ' D ) - 1 D ' у есть (СИНИЙ теорема Гаусса-Маркова ), т.е. минимизирует MSE частотный среди линейно-непредвзятых оценок.
- если является гауссовым и до плоского, х = ( D ' D ) - 1 Д ' у является «задней» означает сводит к минимуму байесовской означает потерю для любой выпуклой функции потерь.
Здесь, кажется, известен как матрица данных / дизайна в жаргоне / байесовском жаргоне соответственно.
Ответы:
Вопрос интересный, но в некоторой степени безнадежный, если понятие оценки часто не уточняется. Это, безусловно , не один набор в вопросе х ( , так как ответ на минимизации х ( у ) = х для всех у «Sкак указано вответе Programmer2134 в. Фундаментальная проблема заключается в том, что не существует единого оценщика частоты для задачи оценки, без введения дополнительных ограничений или классов оценок. Без них все оценщики Байеса также являются оценщиками частоты.
Как указано в комментариях, объективность может быть таким ограничением, и в этом случае оценки Байеса исключаются. Но это частое понятие противоречит другим частым понятиям, таким как
Плюс беспристрастность относится только к ограниченному классу проблем оценки. Под этим я подразумеваю, что класс несмещенных оценок определенного параметра или преобразования h ( θ ) большую часть времени пуст.θ h(θ)
Говоря о допустимости, другом распространенном понятии, существуют параметры, для которых единственно допустимыми оценщиками являются байесовские оценки и наоборот. Этот тип настроек связан с полными теоремами классов, установленными Авраамом Уолдом в 1950-х годах. (То же самое относится к лучшим инвариантным оценкам, которые являются байесовскими по соответствующей правильной мере Хаара.)
источник
В общем, оценки по частоте и байесовским оценкам не совпадают, если только вы не используете вырожденную плоскость. Основная причина заключается в следующем: оценщики-частисты часто стремятся быть беспристрастными. Например, частые пользователи часто пытаются найти минимальную дисперсию объективного оценщика ( http://en.wikipedia.org/wiki/Minimum-variance_unbiased_estimator ). Между тем, все невырожденные байесовские оценки смещены (в частом смысле смещения). См., Например, http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , теорема 5.
Подводя итог: Большинство популярных оценщиков частоты часто стремятся быть объективными, в то время как все оценки Байеса являются предвзятыми. Таким образом, байесовские и частотные оценки редко совпадают.
источник
Это не полный ответ, но в то время как эти два взгляд «сек очень похожи, они принципиально отличаются таким образом: в минимизирует байесовский один выражение по отношению к одному значению (то есть, значение х ( у ) в зависимости от у ).argmin x^(y) y
Но для Frequentist нужно минимизировать функцию потерь по отношению к одному значению для каждого значения, которое может принять , не зная x . Это происходит потому , что минимум функции F ( х , х ) = E ( L ( х - х ( Y ) ) | х ) зависит от х , несмотря на то, что мы должны свести его к минимуму , не зная х . (заметим , что если бы мы просто минимизировать п ( х , х )x x f(x,x^)=E(L(x−x^(Y))|x) x x f(x,x^) WRT х , мы бы просто получить значение минимизирующего х = х ) . В частотной проблеме поэтому не определена. Я не уверен, возможно ли вообще сделать это четко определенным.x^ x^=x
источник
Там может не быть ответа на этот вопрос.
Альтернативой может быть запрос методов для эффективного определения двух оценок для любой рассматриваемой проблемы. Байесовские методы довольно близки к этому идеалу. Однако, хотя минимаксные методы можно использовать для определения точечной оценки частоты, в целом применение минимаксного метода остается сложным и, как правило, не применяется на практике.
Другой альтернативой было бы перефразировать вопрос об условиях, при которых байесовские оценки и оценщики частоты часто дают «согласованные» результаты, и попытаться определить методы для эффективного расчета этих оценок. Здесь «согласованный» используется для того, чтобы подразумевать, что байесовские и частичные оценки получены из общей теории и что один и тот же критерий оптимальности используется для обеих оценок. Это сильно отличается от попыток противопоставить байесовскую и частую статистику и может сделать излишний вопрос излишним. Один из возможных подходов состоит в том, чтобы нацеливаться как на частый случай, так и на байесовский случай на наборы решений, которые сводят к минимуму потери для данного размера, т. Е. Как предложено
Шефер, Чад М и Филипп Б. Старк. «Построение доверительных областей оптимального ожидаемого размера». Журнал Американской статистической ассоциации 104.487 (2009): 1080-1089.
Оказывается, это возможно - как для частого, так и для байесовского случая - путем включения наблюдений предпочтений и параметров с большой точечной взаимной информацией. Наборы решений не будут идентичны, поскольку задаваемый вопрос отличается:
Однако наборы будут в значительной степени перекрываться и становиться идентичными в некоторых ситуациях, если используются плоские априорные значения. Идея обсуждается более подробно вместе с эффективным имплементацией в
Bartels, Christian (2015): родовое и последовательное доверие и заслуживающие доверия регионы. figshare. https://doi.org/10.6084/m9.figshare.1528163
Для информативных априорных показателей наборы решений отклоняются больше (как это широко известно и было указано в вопросе и ответах выше). Тем не менее, в рамках согласованной структуры можно получить тесты для частых, которые гарантируют желаемое покрытие для частых, но учитывают предшествующие знания.
Бартельс, Кристиан (2017): Использование предварительных знаний в тестах для частых. figshare. https://doi.org/10.6084/m9.figshare.4819597
В предлагаемых способах все еще отсутствует эффективная реализация маргинализации.
источник