Анализ расхождения Кульбака-Лейблера

18

Рассмотрим следующие два вероятностных распределения.

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

Я рассчитал дивергенцию Кульбака-Лейблера, равную , я хочу знать, в целом, что показывает это число? Вообще, дивергенция Кульбака-Лейблера показывает мне, насколько далеко одно распределение вероятностей от другого, верно? Это похоже на терминологию энтропии, но что это означает с точки зрения чисел? Если я получу результат с результатом 0,49, могу ли я сказать, что примерно одно распределение далеко от другого на 50%?0.492820258

дато датуашвили
источник
Смотрите обсуждение здесь, которое может помочь.
Glen_b
Вы читали статью в Википедии?
Нил Г

Ответы:

42

Дивергенция Кульбака-Лейблера не является собственно метрикой, поскольку она не симметрична, а также не удовлетворяет неравенству треугольника. Таким образом, «роли», которые играют эти два распределения, различны, и важно распределить эти роли в соответствии с изучаемым явлением реального мира.

Когда мы пишем (ОП вычислил выражение, используя логарифмы с базой 2)

К(п||Q)знак равноΣяжурнал2(пя/Qя)пя

мы рассматриваем распределение как «целевое распределение» (обычно считается истинным), которое мы аппроксимируем, используя Q- распределение.пQ

Сейчас,

Σяжурнал2(пя/Qя)пязнак равноΣяжурнал2(пя)пя-Σяжурнал2(Qя)пязнак равно-ЧАС(п)-Еп(пер(Q))

где - энтропия Шеннона распределения P, а - E P ( ln ( Q ) ) называется «перекрестной энтропией P и Q » - также несимметричной.ЧАС(п)пEP(ln(Q))PQ

Письмо

K(P||Q)=H(P,Q)H(P)

(здесь также порядок, в котором мы записываем распределения в выражении кросс-энтропии, имеет значение, поскольку он также не является симметричным), позволяет нам видеть, что KL-дивергенция отражает увеличение энтропии по сравнению с неизбежной энтропией распределения ,P

Таким образом, нет , KL-дивергенцию лучше не интерпретировать как «меру расстояния» между распределениями, а скорее как меру увеличения энтропии из-за использования приближения к истинному распределению, а не самого истинного распределения .

Итак, мы находимся в Теории информации земли. Чтобы услышать это от мастеров (Cover & Thomas) "

... если бы мы знали истинное распределение случайной величины, мы могли бы построить код со средней длиной описания H ( P ) . Если бы вместо этого мы использовали код для распределения Q , нам понадобилось бы в среднем H ( P ) + K ( P | | Q ) битов для описания случайной величины.PH(P)QH(P)+K(P||Q)

Такие же мудрые люди говорят

... это не истинное расстояние между распределениями, так как оно не симметрично и не удовлетворяет неравенству треугольника. Тем не менее, часто полезно рассматривать относительную энтропию как «расстояние» между распределениями.

Но этот последний подход полезен главным образом, когда кто-то пытается минимизировать KL-расхождение, чтобы оптимизировать некоторую процедуру оценки. Для интерпретации его числового значения как такового оно бесполезно, и следует предпочесть подход «увеличение энтропии».

Для конкретных распределений вопроса (всегда с использованием логарифмов base-2)

K(P||Q)=0.49282,H(P)=1.9486

QP

Алекос Пападопулос
источник
Чрезвычайно полезный и информативный ответ.
MadHatter
1

KL Divergence измеряет потери информации, необходимые для представления символа из P, используя символы из Q. Если вы получили значение 0,49, это означает, что в среднем вы можете кодировать два символа из P с двумя соответствующими символами из Q плюс один бит дополнительной информации ,

Аарон
источник