Рассмотрим Байеса задней . Асимптотически его максимум возникает при оценке MLE , которая просто максимизирует вероятность .
Все эти концепции - байесовские априоры, максимизирующие вероятность - звучат сверхпринципно и вовсе не произвольно. Там не журнал в поле зрения.
Тем не менее, MLE минимизирует расхождение KL между реальным распределением и , т. Е. Минимизирует
Вау, откуда эти бревна? Почему KL расхождение в частности?
Почему, например, минимизация различных расхождений не соответствует сверхпринципным и мотивированным концепциям байесовских постеров и максимизирует вероятность выше?
Кажется, что-то особенное в дивергенции KL и / или журналах в этом контексте. Конечно, мы можем поднять руки вверх и сказать, что математика такова. Но я подозреваю, что может быть какая-то более глубокая интуиция или связи, чтобы раскрыть.
источник
Ответы:
Использование логарифмов в таких вычислениях происходит из теории информации . В частном случае дивергенции KL меру можно интерпретировать как относительную информацию двух распределений:
где является энтропией из и является кроссом-энтропия и . Энтропию можно рассматривать как меру средней скорости, создаваемой плотностью (мысль о перекрестной энтропии немного сложнее). Минимизация дивергенции KL для фиксированного значения (как в упомянутой вами проблеме) эквивалентна минимизации кросс-энтропии, и поэтому эта оптимизация может быть дана в теоретико-информационной интерпретации.H(f~) f~ H(f~,fθ) f~ fθ f~
Я не могу кратко описать теорию информации и свойства мер информации. Тем не менее, я бы рекомендовал взглянуть на поле, так как оно тесно связано со статистикой. Многие статистические меры, включающие интегралы и суммы по логарифмам плотностей, представляют собой простые комбинации стандартных информационных мер, используемых в теории мер, и в таких случаях им могут быть даны интерпретации в терминах базовых уровней информации различной плотности и т. Д.
источник