Может ли кто-то доказать следующую связь между информационной метрикой Фишера и относительной энтропией (или дивергенцией KL) чисто математически строгим образом?
где , g_ {i, j} = \ int \part_i (\ log p (x; a)) \ part_j (\ log p (x; a)) ~ p (x; a) ~ dx и g_ {i, j} \, da ^ i \, da ^ j: = \ sum_ {i, j} g_ {i, j} \, da ^ i \, da ^ j - это соглашение Эйнштейна о суммировании.
Я нашел это в прекрасном блоге Джона Баеза, где Василий Анагностопулос говорит об этом в комментариях.
Ответы:
В 1946 году геофизик и байесовский статистик Гарольд Джеффрис представил то, что мы сегодня называем дивергенцией Кульбака-Лейблера, и обнаружил, что для двух распределений, которые «бесконечно близки» (будем надеяться, что ребята из Math SE этого не видят ;-) мы можем написать их расхождение Кульбака-Лейблера как квадратичная форма, коэффициенты которой задаются элементами информационной матрицы Фишера. Он интерпретировал эту квадратичную форму как элемент длины риманова многообразия, причем информация Фишера играет роль римановой метрики. Из этой геометризации статистической модели он вывел априор Джеффриса как меру, естественно индуцированную римановой метрикой, и эту меру можно интерпретировать как внутренне однородное распределение на многообразии, хотя, в общем, она не является конечной мерой.
Чтобы написать строгое доказательство, вам нужно определить все условия регулярности и позаботиться о порядке слагаемых ошибок в разложениях Тейлора. Вот краткий набросок аргумента.
Симметризованная дивергенция Кульбака-Лейблера между двумя плотностями и определяется какf g
Если у нас есть семейство плотностей, параметризованное , тоθ=(θ1,…,θk)
Это оригинальная статья:
Джеффрис, Х. (1946). Инвариантная форма априорной вероятности в задачах оценки. Proc. Royal Soc. Лондон, серия А, 186, 453–461.
источник
Доказательство для обычной (несимметричной) дивергенции KL
В ответе Дзэн используется симметризованная дивергенция KL, но результат верен и для обычной формы, поскольку он становится симметричным для бесконечно малых распределений.
Вот доказательство для дискретных распределений, параметризованных скалярным (потому что я ленивый), но может быть легко переписано для непрерывных распределений или вектора параметров:θ
источник
Вы можете найти аналогичное соотношение (для одномерного параметра) в уравнении (3) следующей статьи
Авторы ссылаются на
для доказательства этого результата.
источник