MAP является решением

10

Я столкнулся с этими слайдами (слайд № 16 и № 17) на одном из онлайн-курсов. Преподаватель пытался объяснить, как максимальная апостериорная оценка (MAP) на самом деле является решением L(θ)=I[θθ] , где - истинный параметр.θ

Может кто-нибудь объяснить, пожалуйста, как это следует?

Изменить: Добавлены слайды, если ссылка не работает. введите описание изображения здесь

введите описание изображения здесь

honeybadger
источник

Ответы:

3

После просмотра слайдов, которыми вы поделились, мне кажется, что идея состоит в том, чтобы объяснить, как оценка MAP может использоваться для оценки различных свойств апостериорного значения, таких как среднее значение, мода и медиана. Я попытаюсь объяснить это в контексте общих байесовских оценок, представленных в книге Стивена М. Кея «Основы статистической обработки сигналов» .

Начнем с рассмотрения трех типов риска (т. Е. Функций стоимости), связанных с оценкой параметра θ :

  1. C(e)=e2
  2. C(e)=|e|
  3. ifδ<e<δ,C(e)=0 ; иначеC(e)=1

где e=θθ^ , в котором θ представляет собой расчетное значение , и θ является истинным параметром. В байесовской оценке цель состоит в том, чтобы минимизировать ожидаемый риск, а именно:θ^θ

E[C(e)]=XθC(e)p(X,θ)dθdX=X[θC(e)p(θ|X)dθ]p(X)dX

так как мы только забота о & θ , мы будем сосредоточиться на внутренней интегральной minθθC(e)p(θ|X)dθ ; .

Теперь, в зависимости от того, какой C(e) мы выберем, оценщик даст нам другое свойство апостериорного. Например, если мы выбираем первый случай, C(e)=e2 , минимизируемый & θ ; для θC(e)p(θ|X)dθ ; , является средним. Так как вы вопрос касаемо к индикаторной функции I[θ^θ]Я рассмотрю третий риск, упомянутый выше (который, если подумать, при δ0 эквивалентен использованию индикатора).

Для случая 3 выше:

θC(e)p(θ|X)dθ=θ^δp(θ|X)dθ+θ^+δp(θ|X)dθ=1θ^+δθ^+δp(θ|X)dθ

который для δ0 сводится к минимуму , когда & thetas соответствует режиму задних.θ^

idnavid
источник
2
Спасибо за чудесное объяснение. Кроме того, будущие читатели могут прочитать о том же самом в похожем учебнике: Глава 5 Machine_Learning Вероятностная Перспектива Кевина Мерфи
honeybadger
Не могли бы вы указать детали этого ограничивающего аргумента в ? Вы имеете в виду предел процедуры, когда δ стремится к нулю, или предел задней потери? δδ
Сиань
Я имею в виду предел ожидания . E[C(e)]
idnavid
10

В конкретном случае пространство параметров конечна или счетное Θ = { & thetas ; 1 , & thetas ; 2 , ... } задняя потери , связанные с потерей индикатора равна вероятности того , чтобы быть неправильно P ( & thetas ; ≠ & thetas ; | х ) и она сводится к минимуму , когда апостериорная вероятность того , чтобы быть правильно Р ( & thetas ; = & thetas ; | х ) достигает максимума. Это означает , что θΘ

Θ={θ1,θ2,}
P(θ^θ|x)P(θ^=θ|x)θ^ является режимом апостериорного распределения или карты.

Тем не менее, эта ассоциация МАП и потеря является «народная теорема» в том , что это неверно в большинстве настроек, то есть, она не имеет места для непрерывных параметров пространства , где P ( θ = θ | х ) = 0 для всех θ «s и это дальнейшие конфликты с результатами Druihlet и Marin (BA, 2007), которые указывают на то , что ПДЧ в конечном счете , зависит от выбора меры доминирующей. (Даже если мера Лебега неявно выбрана по умолчанию.)01P(θ^=θ|x)=0θ^

L(θ,d)=I{Ψ(θ)d)/πΨ(Ψ(θ))
L(θ,d)=I{Ψ(θ)d}/max{η,πΨ(Ψ(θ))}
maxψπψ(ψ|x)/πψ(θ)
πψ(ψ|x)/πψ(θ)=f(x|ψ)/m(x)
f(x|ψ)={θ;Ψ(θ)=ψ}f(x|θ)π(θ)dθ
m(x)=f(x|θ)π(θ)dθ

Роберт Бассетт и Хулио Дериде в 2016 году опубликовали статью, в которой обсуждается положение MAP в байесовской теории принятия решений.

«… Мы приводим контрпример к общепринятому представлению об оценках MAP в качестве предела оценок Байеса с потерей 0-1».

Авторы упоминают мою книгу «Байесовский выбор» указанием этого свойства без каких-либо дополнительных мер предосторожности, и я полностью согласен с тем, чтобы быть небрежным в этом отношении! Сложность заключается в том, что предел максимизаторов не обязательно является максимизатором лимита. В документе приведен пример этого эффекта, с априорной, как указано выше, связанной с распределением выборки, которое не зависит от параметра. Предложенные достаточные условия заключаются в том, что задняя плотность почти наверняка является правильной или квазивогнутой.

||K(u^u)||2+2Dπ(u^,u)
производит MAP в качестве байесовской оценки. Можно все еще задаться вопросом о доминирующей мере, но как функция потерь, так и полученная оценка явно зависят от выбора доминирующей меры… (потеря зависит от предыдущей, но это не является недостатком как таковым).
Сиань
источник
1

Я приведу краткое изложение текста, упомянутого об этой проблеме, в главе 5 «Байесовская статистика, машинное обучение: вероятностная перспектива» - Мерфи .

Xp(θ|X)

В отличие от среднего значения или медианы, это «нетипичная» точка в том смысле, что она не учитывает все другие точки при оценке. В случае оценки среднего значения / медианы мы учитываем все остальные моменты.

Таким образом, как и ожидалось, в сильно искаженных задних распределениях MAP (и, как следствие, MLE) действительно не представляют фактически задний.

Итак, как мы суммируем апостериор, используя точечную оценку, такую ​​как Среднее / Медиана / Режим?

L(θ,θ^)θθ^

L(θ,θ^)I(θ^θ|x)θI(θ^=θ|x)θ,

honeybadger
источник