Почему дивергенция КЛ неотрицательна?

18

Почему дивергенция КЛ неотрицательна?

С точки зрения теории информации у меня есть такое интуитивное понимание:

Скажем, есть два ансамбля A и B которые состоят из одного и того же набора элементов, помеченных знаком x . p(x) и q(x) - разные распределения вероятностей по ансамблю A и B соответственно.

С точки зрения теории информации, представляет собой наименьшее количество битов , которое требуется для записи элемент х для ансамбля А . Так что ожидание Е х Руководство е н сек е м б л е - р ( х ) LN ( р ( х ) ) можно интерпретировать как , по меньшей мере , сколько бит , что нам нужно для записи элемент в А в среднем.log2(P(x))xA

xensemblep(x)ln(p(x))
A

Поскольку эта формула устанавливает нижнюю границу для битов, которые нам нужны в среднем, так что для другого ансамбля который приводит к другому распределению вероятности q ( x ) , граница, которую она дает для каждого элемента x , безусловно, не будет битом, который определяется как p ( x ) , что означает принятие ожидания, x e n s e m b l e - p ( x ) ln ( q ( x ) )Bq(x)xp(x)

xensemblep(x)ln(q(x))
эта средняя длина, безусловно, будет больше, чем предыдущая, что приводит к
я не ставлюздесь≥,посколькуp(x)иq(x)различны.
xensemblep(x)ln(p(x))ln(q(x))>0
p(x)q(x)

Это мое интуитивное понимание, существует ли чисто математический способ доказать, что дивергенция КЛ неотрицательна? Проблема может быть сформулирована как:

p(x)q(x)+p(x)dx=1+q(x)dx=1

+p(x)lnp(x)q(x)

Как это можно доказать? Или это можно доказать без дополнительных условий?

meTchaikovsky
источник
1
Если вы понимаете доказательство неравенства Фано, легко вывести неотрицательность относительной энтропии.
Лернер Чжан

Ответы:

30

Доказательство 1:

lnaa1a>0

DKL(p||q)0DKL(p||q)0

D(p||q)=xp(x)lnp(x)q(x)=xp(x)lnq(x)p(x)(a)xp(x)(q(x)p(x)1)=xq(x)xp(x)=11=0

ln

xp(x)log2p(x)xp(x)log2q(x)

xp(x)log2p(x)xp(x)log2q(x)0xp(x)log2p(x)q(x)0

Причина, по которой я не включаю это в качестве отдельного доказательства, состоит в том, что если бы вы попросили меня доказать неравенство Гиббса, мне пришлось бы исходить из неотрицательности дивергенции KL и делать то же самое доказательство сверху.


i=1nailog2aibi(i=1nai)log2i=1naii=1nbi

DKL(p||q)0

D(p||q)=xp(x)log2p(x)q(x)(b)(xp(x))log2xp(x)xq(x)=1log211=0

где мы использовали неравенство логарифмической суммы в (б).


Доказательство 3:

(Взято из книги «Элементы теории информации» Томаса М. Ковер и Джой А. Томас)

-D(п||Q)знак равно-ΣИксп(Икс)журнал2п(Икс)Q(Икс)знак равноΣИксп(Икс)журнал2Q(Икс)п(Икс)(С)журнал2ΣИксп(Икс)Q(Икс)п(Икс)знак равножурнал21знак равно0

где в (с) мы использовали неравенство Дженсена и тот факт, чтожурнал вогнутая функция

Андреас Г.
источник