Я знаю, что энтропия - это мера случайности процесса / переменной, и ее можно определить следующим образом. для случайной величины множестве : - . В книге МакКея об энтропии и теории информации он приводит это утверждение в гл. 2H ( X ) =
Энтропия максимальна, если р равномерно.
Интуитивно, я могу понять это, как если бы все точки данных в наборе выбирались с равной вероятностью ( является количеством элементов множества ), то случайность или энтропия увеличивались. Но если мы знаем, что некоторые точки в множестве будут встречаться с большей вероятностью, чем другие (скажем, в случае нормального распределения, где максимальная концентрация точек данных находится вокруг среднего значения и области стандартного малого отклонения вокруг него, то случайность или энтропия должна уменьшиться.
Но есть ли математическое подтверждение этому? Как и уравнение для я дифференцирую его по и устанавливаю в 0 или что-то в этом роде.p ( x )
Кстати, есть ли связь между энтропией, возникающей в теории информации, и вычислениями энтропии в химии (термодинамике)?
источник
Ответы:
Эвристически, функция плотности вероятности на с максимальной энтропией оказывается той, которая соответствует наименьшему количеству знаний о , другими словами, Равномерное распределение.{ х 1 , х 2 , . , , . х н }{ х1, х2, . , , . ИксN} { х1, х2, . , , . ИксN}
Теперь для более формального доказательства рассмотрим следующее:
Функция плотности вероятности на - это набор неотрицательных действительных чисел которые складываются в 1. Энтропия - это непрерывная функция от кортежей , и эти точки лежат в компактном подмножестве , поэтому существует кортеж, в котором энтропия максимальна. Мы хотим показать, что это происходит в и больше нигде.р 1 , . , , , Р п п ( р 1 , . . . , Р п ) Р н п ( 1 / п , . . . , 1 / п ){ х1, х2, . , , . ИксN} п1, . , , , рN N ( р1, . , , , рN) рN N ( 1 / п , . . . , 1 / п )
Предположим, что не все равны, скажем, . (Ясно, что ) Мы найдем новую плотность вероятности с более высокой энтропией. Из этого следует, что, поскольку энтропия максимизируется в некотором кортеже, эта энтропия однозначно максимизируется в кортеже с для всех .p 1 < p 2 n ≠ 1 n n p i = 1 / n iпJ п1< р2 n ≠ 1 N N пя= 1 / n я
Поскольку , для небольшого положительного мы имеем . Энтропия минус энтропия равна ε р 1 + ε < р 2 - ε { р 1 + ε , р 2 - ε , р 3 , . , , , Р п } { р 1 , р 2 , р 3 , . , , , п н }п1< р2 ε п1+ ε < p2- ε { р1+ ε , p2- ε , р3, . , , , рN} { р1, р2, р3, . , , , рN}
ε-p1log(1+ε
Напоминая, что для малых , вышеприведенное уравнение имеет вид что положительно, когда достаточно мал, так как .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2журнал( 1 + x ) = x + O ( x2) Икс
Менее строгое доказательство заключается в следующем:
Рассмотрим сначала следующую лемму:
Пусть и непрерывные функции плотности вероятности на интервале в действительных числах, с и на . Мы имеем если существуют оба интеграла. Более того, равенство существует тогда и только тогда, когда для всех .q ( x ) I p ≥ 0 q > 0 I - ∫ I p log p d x ≤ - ∫ I p log q d x p ( x ) = q ( x ) xр ( х ) Q( х ) я p ≥ 0 Q> 0 я
Теперь пусть - любая функция плотности вероятности на , где . Обозначая для всех , что является энтропией . Поэтому наша лемма говорит о с равенством тогда и только тогда, когда равномерно.{ х 1 , . , , , Х п } р я = р ( х я ) д я = 1 / п я - п Σ я = 1 р я войти д я = п Σ я = 1 р я лог п = лог п д ч ( р ) ≤ ч ( q )п { х1, . ,, , хN} пя= р (хя) Qя= 1 / n я
Кроме того, в Википедии есть краткое обсуждение этого: вики
источник
Энтропия в физике и теории информации не связаны. Они более разные, чем следует из названия, но между ними явно есть связь. Целью энтропийной метрики является измерение количества информации. Смотрите мой ответ с графиками здесь, чтобы показать, как энтропия меняется от равномерного распределения к горбатому.
Причина, по которой энтропия максимизируется для равномерного распределения, заключается в том, что она была разработана именно так! Да, мы строим показатель для отсутствия информации, поэтому мы хотим присвоить его наибольшее значение наименее информативному распределению.
Пример. Я спросил тебя " Чувак, где моя машина ?" Ваш ответ: «Это где-то в США между Атлантическим и Тихим океанами». Это пример равномерного распределения. Моя машина может быть где угодно в США. Я не получил много информации из этого ответа.
Однако, если вы сказали мне: «Я видел вашу машину час назад на трассе 66, направляющейся из Вашингтона, округ Колумбия» - это уже не единообразное распределение. Автомобиль, скорее всего, будет в 60 милях от округа Колумбия, чем где-либо недалеко от Лос-Анджелеса. Здесь явно больше информации.
Следовательно, наша мера должна иметь высокую энтропию для первого ответа и меньшую для второго. Форма должна быть наименее информативной, это, по сути, ответ «я понятия не имею».
источник
Математический аргумент основан на неравенстве Дженсена для вогнутых функций. То есть, если является вогнутой функцией на и являются точками в , то:е( х ) [ а , б ] Y1, ... уN [ а , б ] N ⋅ F( у1+ ... уNN) ≥ f( у1) + … + F( уN)
Примените это для вогнутой функции и неравенства Дженсена для и у вас есть доказательство. Обратите внимание, что определяет дискретное распределение вероятностей, поэтому их сумма равна 1. То, что вы получаете, это , с равенством для равномерного распределения.y i = p ( x i ) p ( x i ) l o g ( n ) ≥ ∑ n i = 1 - p ( x i ) l o g ( p ( x i) ) )е( х ) = - х лог( х ) Yя= р ( хя) р ( хя) л о г( n ) ≥ ∑Nя = 1- р ( хя) l o g( р ( хя) )
источник
Да, есть! Вы можете увидеть работу Джейнса и многих других после его работы (например, здесь и здесь , например).
Но основная идея заключается в том, что статистическую механику (и другие области науки) можно рассматривать как вывод, который мы делаем о мире .
В качестве дальнейшего чтения я бы порекомендовал книгу Ариэля Катича на эту тему.
источник
Интуитивное объяснение:
Если мы поместим больше вероятностной массы в одно событие случайной величины, нам придется отнять некоторые из других событий. У одного будет меньше информационного содержания и больше веса, у других больше информационного содержания и меньше веса. Следовательно, энтропия, являющаяся ожидаемым информационным содержанием, будет снижаться, поскольку событие с более низким информационным содержанием будет взвешиваться больше.
В качестве крайнего случая представьте, что одно событие получает вероятность, равную почти одному, поэтому другие события будут иметь суммарную вероятность, почти равную нулю, и энтропия будет очень низкой.
источник
источник