Рассмотрим следующие два вероятностных распределения.
P Q
0.01 0.002
0.02 0.004
0.03 0.006
0.04 0.008
0.05 0.01
0.06 0.012
0.07 0.014
0.08 0.016
0.64 0.928
Я рассчитал дивергенцию Кульбака-Лейблера, равную , я хочу знать, в целом, что показывает это число? Вообще, дивергенция Кульбака-Лейблера показывает мне, насколько далеко одно распределение вероятностей от другого, верно? Это похоже на терминологию энтропии, но что это означает с точки зрения чисел? Если я получу результат с результатом 0,49, могу ли я сказать, что примерно одно распределение далеко от другого на 50%?
interpretation
information-theory
kullback-leibler
дато датуашвили
источник
источник
Ответы:
Дивергенция Кульбака-Лейблера не является собственно метрикой, поскольку она не симметрична, а также не удовлетворяет неравенству треугольника. Таким образом, «роли», которые играют эти два распределения, различны, и важно распределить эти роли в соответствии с изучаемым явлением реального мира.
Когда мы пишем (ОП вычислил выражение, используя логарифмы с базой 2)
мы рассматриваем распределение как «целевое распределение» (обычно считается истинным), которое мы аппроксимируем, используя Q- распределение.п Q
Сейчас,
где - энтропия Шеннона распределения P, а - E P ( ln ( Q ) ) называется «перекрестной энтропией P и Q » - также несимметричной.ЧАС( P) п −EP(ln(Q)) P Q
Письмо
(здесь также порядок, в котором мы записываем распределения в выражении кросс-энтропии, имеет значение, поскольку он также не является симметричным), позволяет нам видеть, что KL-дивергенция отражает увеличение энтропии по сравнению с неизбежной энтропией распределения ,P
Таким образом, нет , KL-дивергенцию лучше не интерпретировать как «меру расстояния» между распределениями, а скорее как меру увеличения энтропии из-за использования приближения к истинному распределению, а не самого истинного распределения .
Итак, мы находимся в Теории информации земли. Чтобы услышать это от мастеров (Cover & Thomas) "
Такие же мудрые люди говорят
Но этот последний подход полезен главным образом, когда кто-то пытается минимизировать KL-расхождение, чтобы оптимизировать некоторую процедуру оценки. Для интерпретации его числового значения как такового оно бесполезно, и следует предпочесть подход «увеличение энтропии».
Для конкретных распределений вопроса (всегда с использованием логарифмов base-2)
источник
KL Divergence измеряет потери информации, необходимые для представления символа из P, используя символы из Q. Если вы получили значение 0,49, это означает, что в среднем вы можете кодировать два символа из P с двумя соответствующими символами из Q плюс один бит дополнительной информации ,
источник
источник