Как интерпретировать дифференциальную энтропию?

15

Недавно я прочитал эту статью об энтропии дискретного распределения вероятностей. Он описывает хороший способ восприятия энтропии как ожидаемых числовых битов (по крайней мере, при использовании в определении энтропии), необходимых для кодирования сообщения, когда ваша кодировка оптимальна, учитывая распределение вероятностей используемых вами слов.log2

Однако при распространении на непрерывный случай, как здесь, я считаю, что этот способ мышления нарушается, поскольку для любого непрерывного распределения вероятности p ( x ) (пожалуйста, исправьте меня, если это не так), поэтому я был интересно, есть ли хороший способ думать о том, что означает непрерывная энтропия, как в случае с дискретным случаем.xp(x)=p(x)

dippynark
источник
Вы пытались читать статьи Википедии об энтропии и дифференциальной энтропии?
ttnphns
Непрерывное распределение не имеет функции вероятности массы. Аналогом в непрерывном случае является интеграл от плотности вероятности, а интеграл по всему диапазону x равен 1.
Майкл Р. Черник
@MichaelChernick Я не говорил, что он был, но способ размышления о дискретном случае основан на том факте, что сумма равна 1.
dippynark
@ttnphns нет, нет, но сейчас я проверю их, спасибо.
dippynark
См. Также stats.stackexchange.com/questions/66186/… для интерпретации энтропии Шеннона. Некоторые идеи могут быть переданы.
kjetil b halvorsen

Ответы:

15

Не существует интерпретации дифференциальной энтропии, которая была бы столь же значимой или полезной, как и энтропия. Проблема с непрерывными случайными переменными состоит в том, что их значения обычно имеют 0 вероятностей, и, следовательно, для кодирования потребуется бесконечное количество битов.

Если вы посмотрите на предел дискретной энтропии, измерив вероятность интервалов [nε,(n+1)ε[ , вы получите

p(x)log2p(x)dxlog2ε

а не дифференциальная энтропия. Эта величина в некотором смысле более значима, но будет расходиться до бесконечности, поскольку мы будем брать все меньшие и меньшие интервалы. Это имеет смысл, поскольку нам потребуется все больше и больше битов для кодирования, в какой из множества интервалов падает значение нашего случайного значения.

Более полезная величина для рассмотрения непрерывных распределений - это относительная энтропия (также дивергенция Кульбака-Лейблера). Для дискретных распределений:

DKL[P||Q]=xP(x)log2P(x)Q(x).

PlogQ2(x)x

DKL[p∣∣q]=p(x)log2p(x)q(x)dx,

так как log2ε

p(x)λ(x)=1

p(x)log2p(x)dx=DKL[p∣∣λ].

log2nε(n+1)εp(x)dxnlogελ

Смотрите выступление Серхио Верду, чтобы познакомиться с относительной энтропией.

Лукас
источник