Связь между метрикой Фишера и относительной энтропией

20

Может ли кто-то доказать следующую связь между информационной метрикой Фишера и относительной энтропией (или дивергенцией KL) чисто математически строгим образом?

D(p(,a+da)p(,a))=12gi,jdaidaj+(O(da3)
где , g_ {i, j} = \ int \part_i (\ log p (x; a)) \ part_j (\ log p (x; a)) ~ p (x; a) ~ dx и g_ {i, j} \, da ^ i \, da ^ j: = \ sum_ {i, j} g_ {i, j} \, da ^ i \, da ^ j - это соглашение Эйнштейна о суммировании.a=(a1,,an),da=(da1,,dan)
gi,j=i(logp(x;a))j(logp(x;a)) p(x;a) dx
gi,jdaidaj:=i,jgi,jdaidaj

Я нашел это в прекрасном блоге Джона Баеза, где Василий Анагностопулос говорит об этом в комментариях.

Кумара
источник
1
Уважаемый Кумара! Для пояснения, это поможет лучше объяснить ваши обозначения, в частности, значение gi,j . Кроме того, я думаю, что в вашем выражении отсутствует постоянный коэффициент 1/2 перед первым членом правой части уравнения дисплея. Обратите внимание, что то, что сам Куллбек назвал дивергенцией (используя обозначение J(,) ), является симметризованной версией того, что известно как дивергенция KL, т. J(p,q)=D(pq)+D(qp) . Дивергенция KL была обозначена как I(,) в работах Кульбака. Это также объясняет коэффициент 1/2 . Приветствия.
кардинал

Ответы:

19

В 1946 году геофизик и байесовский статистик Гарольд Джеффрис представил то, что мы сегодня называем дивергенцией Кульбака-Лейблера, и обнаружил, что для двух распределений, которые «бесконечно близки» (будем надеяться, что ребята из Math SE этого не видят ;-) мы можем написать их расхождение Кульбака-Лейблера как квадратичная форма, коэффициенты которой задаются элементами информационной матрицы Фишера. Он интерпретировал эту квадратичную форму как элемент длины риманова многообразия, причем информация Фишера играет роль римановой метрики. Из этой геометризации статистической модели он вывел априор Джеффриса как меру, естественно индуцированную римановой метрикой, и эту меру можно интерпретировать как внутренне однородное распределение на многообразии, хотя, в общем, она не является конечной мерой.

Чтобы написать строгое доказательство, вам нужно определить все условия регулярности и позаботиться о порядке слагаемых ошибок в разложениях Тейлора. Вот краткий набросок аргумента.

Симметризованная дивергенция Кульбака-Лейблера между двумя плотностями и определяется какfg

D[f,g]=(f(x)g(x))log(f(x)g(x))dx.

Если у нас есть семейство плотностей, параметризованное , тоθ=(θ1,,θk)

D[p(θ),p(θ+Δθ)]=(p(x,θ)p(xθ+Δθ))log(p(xθ)p(xθ+Δθ))dx,
в котором . Вводя обозначение некоторая простая алгебра дает Используя разложение Тейлора для натурального логарифма, мы имеем Δθ=(Δθ1,,Δθk)
Δp(xθ)=p(xθ)p(xθ+Δθ),
D[p(θ),p(θ+Δθ)]=Δp(xθ)p(xθ)log(1+Δp(xθ)p(xθ))p(xθ)dx.
log(1+Δp(xθ)p(xθ))Δp(xθ)p(xθ),
и, следовательно, Но Следовательно, в котором
D[p(θ),p(θ+Δθ)](Δp(xθ)p(xθ))2p(xθ)dx.
Δp(xθ)p(xθ)1p(xθ)i=1kp(xθ)θiΔθi=i=1klogp(xθ)θiΔθi.
D[p(θ),p(θ+Δθ)]i,j=1kgijΔθiΔθj,
gij=logp(xθ)θilogp(xθ)θjp(xθ)dx.

Это оригинальная статья:

Джеффрис, Х. (1946). Инвариантная форма априорной вероятности в задачах оценки. Proc. Royal Soc. Лондон, серия А, 186, 453–461.

Zen
источник
1
Большое спасибо за хорошее письмо. Было бы хорошо, если бы вы могли помочь этому также.
Кумара
Да, вы правильно сказали. Я должен выйти из этой "ловушки абстракции".
Кумара
@zen Вы используете расширение логарифма Тейлора под интегралом, почему это верно?
Sus20200
1
Кажется крайне важным, чтобы вы начали с симметризованной дивергенции KL, в отличие от стандартной дивергенции KL. В статье Википедии не упоминается симметризованная версия, и поэтому она может быть неверной. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
хирургический командир,
11

Доказательство для обычной (несимметричной) дивергенции KL

В ответе Дзэн используется симметризованная дивергенция KL, но результат верен и для обычной формы, поскольку он становится симметричным для бесконечно малых распределений.

Вот доказательство для дискретных распределений, параметризованных скалярным (потому что я ленивый), но может быть легко переписано для непрерывных распределений или вектора параметров:θ

D(pθ,pθ+dθ)=pθlogpθpθlogpθ+dθ .
Тейлор, расширяющий последний член: Предполагая некоторые закономерности, я использовал два результата:
=pθlogpθpθlogpθ= 0dθpθddθlogpθ= 0 12dθ2pθd2dθ2logpθ=pθ(ddθlogpθ)2 +O(dθ3)=12dθ2pθ(ddθlogpθ)2Fisher information+O(dθ3).
:pθddθlogpθ=ddθpθ=ddθpθ=0,

:pθd2dθ2logpθ=pθddθ(1pθdpθdθ)=pθ[1pθd2pθdθ(1pθdpθdθ)2]=d2pθdθ2pθ(1pθdpθdθ)2=d2dθ2pθ= 0pθ(ddθlogpθ)2.
Абхранил Дас
источник
4

Вы можете найти аналогичное соотношение (для одномерного параметра) в уравнении (3) следующей статьи

D. Guo (2009), Относительная энтропия и функция оценки: новые соотношения информации и оценки через произвольное аддитивное возмущение , в Proc. IEEE Международный симпозиум по теории информации , 814–818. ( стабильная ссылка ).

Авторы ссылаются на

С. Кульбак, Теория информации и статистика . Нью-Йорк: Довер, 1968.

для доказательства этого результата.

Примо Карнера
источник
1
1/2