Почему энтропия максимизируется, когда распределение вероятностей равномерно?

32

Я знаю, что энтропия - это мера случайности процесса / переменной, и ее можно определить следующим образом. для случайной величины множестве : - . В книге МакКея об энтропии и теории информации он приводит это утверждение в гл. 2XH ( X ) =AH(X)=xiAp(xi)log(p(xi))

Энтропия максимальна, если р равномерно.

Интуитивно, я могу понять это, как если бы все точки данных в наборе выбирались с равной вероятностью ( является количеством элементов множества ), то случайность или энтропия увеличивались. Но если мы знаем, что некоторые точки в множестве будут встречаться с большей вероятностью, чем другие (скажем, в случае нормального распределения, где максимальная концентрация точек данных находится вокруг среднего значения и области стандартного малого отклонения вокруг него, то случайность или энтропия должна уменьшиться.A1/mmAA

Но есть ли математическое подтверждение этому? Как и уравнение для я дифференцирую его по и устанавливаю в 0 или что-то в этом роде.p ( x )H(X)p(x)

Кстати, есть ли связь между энтропией, возникающей в теории информации, и вычислениями энтропии в химии (термодинамике)?

user76170
источник
2
На этот вопрос ответили (мимоходом) на stats.stackexchange.com/a/49174/919 .
whuber
Меня очень смущает другое утверждение, данное в книге Кристофера Бишопса, в котором говорится, что «для единственной реальной переменной распределение, максимизирующее энтропию, является гауссовым». В нем также говорится, что «многомерное распределение с максимальной энтропией для данной ковариации является гауссовым». Насколько это утверждение верно? Разве энтропия равномерного распределения не всегда максимальная?
user76170
6
Максимизация всегда выполняется с учетом ограничений на возможное решение. Когда ограничения заключаются в том, что все вероятности должны исчезнуть за предопределенные пределы, максимальное решение энтропии является равномерным. Когда вместо этого существуют ограничения на то, что ожидание и дисперсия должны равняться заранее заданным значениям, ME-решение является гауссовым. Заявления, которые вы цитируете, должны быть сделаны в определенных контекстах, где эти ограничения были заявлены или, по крайней мере, неявно поняты.
whuber
2
Я, вероятно, также должен упомянуть, что слово «энтропия» означает нечто иное в гауссовой постановке, чем в исходном вопросе, поскольку тогда мы обсуждаем энтропию непрерывных распределений. Эта «дифференциальная энтропия» отличается от энтропии дискретных распределений. Основное отличие состоит в том, что дифференциальная энтропия не является инвариантной при смене переменных.
whuber
Итак, что означает, что максимизация всегда в отношении ограничений? Что делать, если нет никаких ограничений? Я имею в виду, не может быть такой вопрос? Какое распределение вероятностей имеет максимальную энтропию?
user76170

Ответы:

25

Эвристически, функция плотности вероятности на с максимальной энтропией оказывается той, которая соответствует наименьшему количеству знаний о , другими словами, Равномерное распределение.{ х 1 , х 2 , . , , . х н }{x1,x2,..,.xn}{x1,x2,..,.xn}

Теперь для более формального доказательства рассмотрим следующее:

Функция плотности вероятности на - это набор неотрицательных действительных чисел которые складываются в 1. Энтропия - это непрерывная функция от кортежей , и эти точки лежат в компактном подмножестве , поэтому существует кортеж, в котором энтропия максимальна. Мы хотим показать, что это происходит в и больше нигде.р 1 , . , , , Р п п ( р 1 , . . . , Р п ) Р н п ( 1 / п , . . . , 1 / п ){x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn(1/n,...,1/n)

Предположим, что не все равны, скажем, . (Ясно, что ) Мы найдем новую плотность вероятности с более высокой энтропией. Из этого следует, что, поскольку энтропия максимизируется в некотором кортеже, эта энтропия однозначно максимизируется в кортеже с для всех .p 1 < p 2 n 1 n n p i = 1 / n ipjp1<p2n1nnpi=1/ni

Поскольку , для небольшого положительного мы имеем . Энтропия минус энтропия равна ε р 1 + ε < р 2 - ε { р 1 + ε , р 2 - ε , р 3 , . , , , Р п } { р 1 , р 2 , р 3 , . , , , п н }p1<p2εp1+ε<p2ε{p1+ε,p2ε,p3,...,pn}{p1,p2,p3,...,pn}

ε-p1log(1+ε

p1log(p1+εp1)εlog(p1+ε)p2log(p2εp2)+εlog(p2ε)
Чтобы завершить доказательство, мы хотим показать, что это положительно для достаточно малого . Перепишите вышеприведенное уравнение как ε
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

Напоминая, что для малых , вышеприведенное уравнение имеет вид что положительно, когда достаточно мал, так как .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2)x

εεlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
εp1<p2

Менее строгое доказательство заключается в следующем:

Рассмотрим сначала следующую лемму:

Пусть и непрерывные функции плотности вероятности на интервале в действительных числах, с и на . Мы имеем если существуют оба интеграла. Более того, равенство существует тогда и только тогда, когда для всех .q ( x ) I p 0 q > 0 I - I p log p d x - I p log q d x p ( x ) = q ( x ) xp(x)q(x)Ip0q>0I

IplogpdxIplogqdx
p(x)=q(x)x

Теперь пусть - любая функция плотности вероятности на , где . Обозначая для всех , что является энтропией . Поэтому наша лемма говорит о с равенством тогда и только тогда, когда равномерно.{ х 1 , . , , , Х п } р я = р ( х я ) д я = 1 / п я - п Σ я = 1 р я войти д я = п Σ я = 1 р я лог п = лог п д ч ( р ) ч ( q )p{x1,...,xn}pi=p(xi)qi=1/ni

-Σязнак равно1NпяжурналQязнак равноΣязнак равно1NпяжурналNзнак равножурналN
Qчас(п)час(Q)п

Кроме того, в Википедии есть краткое обсуждение этого: вики

mitchus
источник
11
Я восхищаюсь попыткой представить элементарное (без исчисления) доказательство. Строгая однострочная демонстрация доступна через взвешенное неравенство AM-GM , отмечая, что = с равенством, если все равны, QED. ехр(ЧАС)Π(1пя)пяΣпя1пязнак равноN1/пя
whuber
Я не понимаю, как может быть равно . ΣжурналNжурналN
user1603472
4
@ user1603472 Вы имеете в виду ? Это потому, чтоΣязнак равно1NпяжурналNзнак равножурналNΣязнак равно1NпяжурналNзнак равножурналNΣязнак равно1Nпязнак равножурналN×1
HBeel
@Roland Я вытащил за пределы суммы, так как она не зависит от . Тогда сумма равна потому что - плотности функции вероятности массы. журналNя1п1,...,пN
HBeel
Такое же объяснение с более подробной информацией можно найти здесь: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Роланд
14

Энтропия в физике и теории информации не связаны. Они более разные, чем следует из названия, но между ними явно есть связь. Целью энтропийной метрики является измерение количества информации. Смотрите мой ответ с графиками здесь, чтобы показать, как энтропия меняется от равномерного распределения к горбатому.

Причина, по которой энтропия максимизируется для равномерного распределения, заключается в том, что она была разработана именно так! Да, мы строим показатель для отсутствия информации, поэтому мы хотим присвоить его наибольшее значение наименее информативному распределению.

Пример. Я спросил тебя " Чувак, где моя машина ?" Ваш ответ: «Это где-то в США между Атлантическим и Тихим океанами». Это пример равномерного распределения. Моя машина может быть где угодно в США. Я не получил много информации из этого ответа.

Однако, если вы сказали мне: «Я видел вашу машину час назад на трассе 66, направляющейся из Вашингтона, округ Колумбия» - это уже не единообразное распределение. Автомобиль, скорее всего, будет в 60 милях от округа Колумбия, чем где-либо недалеко от Лос-Анджелеса. Здесь явно больше информации.

Следовательно, наша мера должна иметь высокую энтропию для первого ответа и меньшую для второго. Форма должна быть наименее информативной, это, по сути, ответ «я понятия не имею».

Аксакал
источник
7

Математический аргумент основан на неравенстве Дженсена для вогнутых функций. То есть, если является вогнутой функцией на и являются точками в , то: f(x)[a,б]Y1,...YN[a,б]Nе(Y1+...YNN)е(Y1)+...+е(YN)

Примените это для вогнутой функции и неравенства Дженсена для и у вас есть доказательство. Обратите внимание, что определяет дискретное распределение вероятностей, поэтому их сумма равна 1. То, что вы получаете, это , с равенством для равномерного распределения.y i = p ( x i ) p ( x i ) l o g ( n ) n i = 1 - p ( x i ) l o g ( p ( x i) ) )е(Икс)знак равно-Иксжурнал(Икс)Yязнак равноп(Икся)п(Икся)Lог(N)Σязнак равно1N-п(Икся)Lог(п(Икся))

Октавиан Ганеа
источник
1
Я на самом деле нахожу доказательство неравенства Дженсена концептуально более глубоким, чем доказательство AM-GM.
Casebash
4

Кстати, есть ли связь между энтропией, возникающей в теории информации, и вычислениями энтропии в химии (термодинамике)?

Да, есть! Вы можете увидеть работу Джейнса и многих других после его работы (например, здесь и здесь , например).

Но основная идея заключается в том, что статистическую механику (и другие области науки) можно рассматривать как вывод, который мы делаем о мире .

В качестве дальнейшего чтения я бы порекомендовал книгу Ариэля Катича на эту тему.

kaslusimoes
источник
1

Интуитивное объяснение:

Если мы поместим больше вероятностной массы в одно событие случайной величины, нам придется отнять некоторые из других событий. У одного будет меньше информационного содержания и больше веса, у других больше информационного содержания и меньше веса. Следовательно, энтропия, являющаяся ожидаемым информационным содержанием, будет снижаться, поскольку событие с более низким информационным содержанием будет взвешиваться больше.

В качестве крайнего случая представьте, что одно событие получает вероятность, равную почти одному, поэтому другие события будут иметь суммарную вероятность, почти равную нулю, и энтропия будет очень низкой.

Roland
источник
0

пя

пяязнак равно1,,,,,NQзнак равно1-Σязнак равно0N-1пя

ЧАСзнак равно-Σязнак равно0N-1пяжурналпя-(1-Q)журналQЧАС*пер2знак равно-Σязнак равно0N-1пяперпя-(1-Q)перQ
ЧАСпязнак равноперQпязнак равно0
Qзнак равнопяяп1знак равноп2знак равно,,,знак равнопN

Ян Фан
источник
пя