Почему байесовский апостериор концентрируется вокруг минимизатора расхождения KL?

9

Рассмотрим Байеса задней . Асимптотически его максимум возникает при оценке MLE , которая просто максимизирует вероятность .θXθ^argminθfθ(X)

Все эти концепции - байесовские априоры, максимизирующие вероятность - звучат сверхпринципно и вовсе не произвольно. Там не журнал в поле зрения.

Тем не менее, MLE минимизирует расхождение KL между реальным распределением и , т. Е. Минимизируетf~fθ(x)

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

Вау, откуда эти бревна? Почему KL расхождение в частности?

Почему, например, минимизация различных расхождений не соответствует сверхпринципным и мотивированным концепциям байесовских постеров и максимизирует вероятность выше?

Кажется, что-то особенное в дивергенции KL и / или журналах в этом контексте. Конечно, мы можем поднять руки вверх и сказать, что математика такова. Но я подозреваю, что может быть какая-то более глубокая интуиция или связи, чтобы раскрыть.

Яфарт Агарвал
источник
Вы можете найти некоторые идеи здесь: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen
@kjetilbhalvorsen Предыдущее название звучало как дубликат; Я приношу извинения. Я сделал правку, и должно быть понятно, почему этот вопрос не является дубликатом.
Яфарт Агарвал
Другие вопросы спрашивают: «Что такое дивергенция KL и почему она не симметрична?» Ответы объясняют концепцию расхождения и некоторую информацию о KL. Напротив, этот вопрос задает вопрос: «Почему байесовский апостериум концентрируется вокруг минимизатора расхождения KL?» Простое объяснение того, как расхождения не должны быть симметричными, и объяснение KL и утверждение, что KL связан с MLE, не решает суть вопроса здесь: почему среди множества возможных расхождений KL, в частности, имеет особую связь с байесовским апостериором. Имеет ли это смысл?
Яфарт Агарвал
Да, это имеет смысл, но проблема все еще существует. Задний также зависит от предшествующего, и, если он сильный, задний может иметь максимум от mle. Но априор отсутствует в вашем вопросе.
kjetil b halvorsen
@kjetilbhalversen Я имел в виду асимптотически все больше и больше образцов IID и в (жестких) условиях, при которых предварительное значение не имеет значения асимптотически!
Яфарт Агарвал

Ответы:

5

Использование логарифмов в таких вычислениях происходит из теории информации . В частном случае дивергенции KL меру можно интерпретировать как относительную информацию двух распределений:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

где является энтропией из и является кроссом-энтропия и . Энтропию можно рассматривать как меру средней скорости, создаваемой плотностью (мысль о перекрестной энтропии немного сложнее). Минимизация дивергенции KL для фиксированного значения (как в упомянутой вами проблеме) эквивалентна минимизации кросс-энтропии, и поэтому эта оптимизация может быть дана в теоретико-информационной интерпретации.H(f~)f~H(f~,fθ)f~fθf~

Я не могу кратко описать теорию информации и свойства мер информации. Тем не менее, я бы рекомендовал взглянуть на поле, так как оно тесно связано со статистикой. Многие статистические меры, включающие интегралы и суммы по логарифмам плотностей, представляют собой простые комбинации стандартных информационных мер, используемых в теории мер, и в таких случаях им могут быть даны интерпретации в терминах базовых уровней информации различной плотности и т. Д.

Бен - Восстановить Монику
источник
Изучение теории информации звучит многообещающе! Спасибо, что указал мне на это.
Яфарт Агарвал
Очевидно, что вы не можете объяснить целое математическое поле в посте StackExchange, но есть ли у вас какие-либо конкретные ссылки на то, что появляется журнал?
Яфарт Агарвал
Я просто думаю, что за такой глубокой интуицией скрывается, скажем, e в уравнении Эйлера, и такая, что здесь скрывается похожая интуиция. Может быть, продукт где-то вызывает возникновение натурального логарифма. Я не уверен.
Яфарт Агарвал
@ Yatharth логарифм возникает здесь из-за его центральной роли в определении энтропии Шеннона. Что касается «почему», то логарифм подходит для меры информации, в отличие от другой функции, взгляните на теорему 2 в «Математической теории коммуникации» Шеннона. Кроме того, "Теория информации и статистическая механика" Джейн - хорошее введение.
Нейт Папа