Почему дивергенция КЛ неотрицательна?
С точки зрения теории информации у меня есть такое интуитивное понимание:
Скажем, есть два ансамбля и которые состоят из одного и того же набора элементов, помеченных знаком . и - разные распределения вероятностей по ансамблю и соответственно.
С точки зрения теории информации, представляет собой наименьшее количество битов , которое требуется для записи элемент х для ансамбля А . Так что ожидание Е х Руководство ∈ е н сек е м б л е - р ( х ) LN ( р ( х ) ) можно интерпретировать как , по меньшей мере , сколько бит , что нам нужно для записи элемент в А в среднем.
Поскольку эта формула устанавливает нижнюю границу для битов, которые нам нужны в среднем, так что для другого ансамбля который приводит к другому распределению вероятности q ( x ) , граница, которую она дает для каждого элемента x , безусловно, не будет битом, который определяется как p ( x ) , что означает принятие ожидания, ∑ x ∈ e n s e m b l e - p ( x ) ln ( q ( x ) )
я не ставлюздесь≥,посколькуp(x)иq(x)различны.
Это мое интуитивное понимание, существует ли чисто математический способ доказать, что дивергенция КЛ неотрицательна? Проблема может быть сформулирована как:
Как это можно доказать? Или это можно доказать без дополнительных условий?
источник
Ответы:
Доказательство 1:
Причина, по которой я не включаю это в качестве отдельного доказательства, состоит в том, что если бы вы попросили меня доказать неравенство Гиббса, мне пришлось бы исходить из неотрицательности дивергенции KL и делать то же самое доказательство сверху.
где мы использовали неравенство логарифмической суммы в (б).
Доказательство 3:
(Взято из книги «Элементы теории информации» Томаса М. Ковер и Джой А. Томас)
где в (с) мы использовали неравенство Дженсена и тот факт, чтожурнал вогнутая функция
источник