Что энтропия говорит нам?

32

Я читаю об энтропии и мне трудно понять, что это означает в непрерывном случае. На вики-странице указано следующее:

Распределение вероятностей событий в сочетании с объемом информации о каждом событии образует случайную величину, ожидаемое значение которой представляет собой средний объем информации или энтропию, генерируемую этим распределением.

Так что, если я вычислю энтропию, связанную с непрерывным распределением вероятностей, что это действительно говорит мне? Они приводят пример с подбрасыванием монет, поэтому в отдельном случае, но если есть интуитивно понятный способ объяснить с помощью такого примера в непрерывном случае, это было бы здорово!

Если это помогает, определение энтропии для непрерывной случайной величины X является следующим:

H(X)=P(x)logbP(x)dx
где- функция распределения вероятностей.P(x)

Чтобы попытаться сделать это более конкретно, рассмотрим случай , а затем, согласно Википедии , энтропияX~Гамма(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

Итак, теперь мы вычислили энтропию для непрерывного распределения (гамма-распределения), и поэтому, если я теперь оценим это выражение, , с учетом и , что на самом деле мне скажет эта величина? H(X)αβ

RustyStatistician
источник
5
(+1) Эта цитата ссылается на действительно неудачный отрывок. Он пытается трудоемким и непрозрачным способом описать и интерпретировать математическое определение энтропии. Это определение . Его можно рассматривать как математическое ожидание , где является PDF случайной величины . Он пытается охарактеризовать как «количество информации», связанное с числом . f(x)log(f(x))dxlog(f(X))fXlog(f(x))x
whuber
5
Стоит спросить, потому что есть деликатная, но важная техническая проблема: непрерывная версия энтропии не совсем обладает теми же свойствами, что и дискретная версия (которая имеет естественную, интуитивную интерпретацию с точки зрения информации). @Tim AFAIK, этот поток по математике обращается только к дискретному случаю.
whuber
1
@RustyStatistician думает о как о том, насколько удивительным был результат x. Затем вы рассчитываете ожидаемый сюрприз. log(f(x))
Адриан
3
В связи с технической проблемой @whuber ссылки, это может представлять интерес.
Шон Пасха
3
В случае, если вас интересуют технические детали: энтропия основана на псевдометрике, называемой дивергенцией Кульбака-Лейблера, которая используется для описания расстояний между событиями в соответствующей мере, см. Projecteuclid.org/euclid.aoms/1177729694 для оригинала ( и радостная) статья Кульбака и Лейблера. Эта концепция также появляется в критериях выбора моделей, таких как AIC и BIC.
Иеремия К

Ответы:

31

Энтропия говорит вам, сколько неопределенности в системе. Допустим, вы ищете кошку и знаете, что она находится где-то между вашим домом и соседями, в 1 миле от вас. Ваши дети говорят вам, что вероятность того, что кошка окажется на расстоянии от вашего дома, лучше всего описывается бета-распределением f ( x ; 2 , 2 ) . Так что кошка может быть где -то между 0 и 1, но более вероятно, будет в середине, то есть х м а х = 1 / 2 .x f(x;2,2)xmax=1/2

введите описание изображения здесь

Давайте включим бета-распределение в ваше уравнение, тогда вы получите .H=0.125

Затем вы спрашиваете свою жену, и она говорит вам, что лучшим распределением, описывающим ее знания о вашей кошке, является равномерное распределение. Если вы подключите его к уравнению энтропии, вы получите .H=0

Распределение как по форме, так и по бета-версии позволяет кошке находиться в пределах 0-1 мили от вашего дома, но в униформе больше неопределенности, потому что ваша жена на самом деле не имеет ни малейшего понятия, где прячется кошка, в то время как у детей есть какая-то идея , они думают, что это больше скорее всего, будет где-то посередине. Вот почему энтропия беты ниже, чем у униформы.

введите описание изображения здесь

Вы можете попробовать другие дистрибутивы, может быть , ваш сосед говорит вам кошка любит быть рядом с любой из домов, так что его бета - распределение с . Его H должно быть ниже, чем у униформы, потому что вы получаете представление о том, где искать кошку. Угадайте, выше или ниже информационная энтропия вашего соседа, чем у ваших детей? Я бы сделал ставку на детей в любой день по этим вопросам.α=β=1/2H

введите описание изображения здесь

ОБНОВИТЬ:

Как это работает? Один из способов думать об этом - начать с равномерного распределения. Если вы согласны с тем, что это тот, кто обладает наибольшей неопределенностью, подумайте о том, чтобы его беспокоить Давайте посмотрим на дискретный случай для простоты. Возьмите из одной точки и добавьте его в другую следующим образом: p i = p - Δ p p j = p + Δ pΔp

pi=pΔp
pj=p+Δp

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0

nnnn=1n=13

введите описание изображения здесь

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'
Аксакал
источник
1
(+1) Я буду ждать, чтобы увидеть другие интерпретации, но мне очень нравится этот. Таким образом, кажется, что вы можете использовать энтропию как меру уверенности, вам нужно сравнить ее с другими распределениями? То есть номер сам по себе мало что говорит?
RustyStatistician
1
@RustyStatistician, я бы не сказал, что его абсолютное значение совершенно бессмысленно, но да, оно наиболее полезно, когда используется для сравнения состояний системы. Самый простой способ усвоить энтропию - это воспринимать ее как меру неопределенности
Аксакал,
Проблема с этим ответом заключается в том, что термин «неопределенность» остается неопределенным.
kjetil b halvorsen
1
срок оставлен неопределенным
Аксакал
Это очень мило.
Астрид
1

Я хотел бы добавить прямой ответ на этот вопрос:

что это количество на самом деле говорит мне?

log1p(x)

Elog1p(x)=p(x)log1p(x)

Лернер Чжан
источник