Интуиция о совместной энтропии

9

У меня проблемы с построением некоторой интуиции о совместной энтропии. = неопределенность в совместном распределении ; = неопределенность в ; = неопределенность в .p ( x , y ) H ( X ) p x ( x ) H ( Y ) p y ( y )ЧАС(Икс,Y)п(Икс,Y)ЧАС(Икс)пИкс(Икс)ЧАС(Y)пY(Y)

Если H (X) высока, то распределение более неопределенно, и если вы знаете результат такого распределения, то у вас больше информации! Таким образом, H (X) также количественно оценивает информацию.

Теперь мы можем показатьЧАС(Икс,Y)ЧАС(Икс)+ЧАС(Y)

Но если вы знаете вы можете получить и поэтому в некотором смысле имеет больше информации, чем и и , поэтому не следует t неопределенность, связанная с p (x, y), больше, чем сумма индивидуальных неопределенностей?p x ( x ) p y ( y ) p ( x , y ) p x ( x ) p y ( y )п(Икс,Y)пИкс(Икс)пY(Y)п(Икс,Y)пИкс(Икс)пY(Y)

user21455
источник

Ответы:

7

Как правило, дополнительная информация никогда не увеличивает энтропию, которая формально определяется как:

ЧАС(Икс|Y)ЧАС(Икс)*

равенство выполняется, если и независимы, что влечет .Y H ( X | Y ) = H ( X )ИксYЧАС(Икс|Y)знак равноЧАС(Икс)

Этот результат может быть использован для доказательства совместной энтропии . Чтобы продемонстрировать это, рассмотрим простой случай . Согласно правилу цепочки, мы можем записать энтропию соединения, как показано нижеН ( Х , Y )ЧАС(Икс1,Икс2,,,,,ИксN)Σязнак равно1NЧАС(Икся)ЧАС(Икс,Y)

ЧАС(Икс,Y)знак равноЧАС(Икс|Y)+ЧАС(Y)

Учитывая неравенство , никогда не увеличивает энтропию переменной и, следовательно, . Используя индукцию, можно обобщить этот результат на случаи, которые включают более двух переменных.*ЧАС(Икс|Y)ИксЧАС(Икс,Y)ЧАС(Икс)+ЧАС(Y)

Надеюсь, это помогло уменьшить двусмысленность (или вашу энтропию) в отношении совместной энтропии!

omidi
источник
4

Есть и другая точка зрения на энтропию Шеннона. Представьте, что вы хотите с помощью вопросов угадать, каково конкретное значение переменной. Для простоты представьте, что значение может принимать только восемь различных значений , и все они одинаково вероятны.(0,1,,,,,8)

Самый эффективный способ - выполнить бинарный поиск. Сначала вы спрашиваете, больше или меньше 4. Затем сравните его с 2 или 6 и так далее. В общей сложности вам не понадобится более трех вопросов (это количество битов этого конкретного распределения).

Мы можем провести аналогию для случая двух переменных. Если они не являются независимыми, то знание значения одного из них поможет вам лучше угадать (в среднем) следующий вопрос (это отражено в результатах, указанных omidi ). Следовательно, энтропия ниже, если они не являются полностью независимыми, где вам нужно угадать их значения независимо. Сказать, что энтропия ниже, означает (для этого конкретного примера), что вам нужно в среднем задавать меньше вопросов (т. Е. Чаще вы будете делать правильные предположения).

jpmuc
источник
2

Похоже, вы думаете: «Если больше информации, когда известно, то больше энтропии, когда неизвестно». Это не правильная интуиция, потому что, если распределение неизвестно, мы даже не знаем его энтропии. Если распределение известно, то энтропия количественно определяет количество информации, необходимое для описания неопределенности относительно реализации случайной величины, которая остается неизвестной (мы знаем только структуру, окружающую эту неопределенность, зная распределение). Энтропия вовсе не количественно информации «Present» в распределении. Напротив: чем больше информации «включено» в распределение, тем меньше информации «необходимо» для описания неопределенности и тем меньшеэнтропия есть. Рассмотрим равномерное распределение: оно содержит очень мало информации, потому что все возможные значения переменной равновероятны: следовательно, она имеет максимальную энтропию среди всех распределений с ограниченной поддержкой.

Что касается совместной энтропии, вы можете думать об этом следующим образом: совместное распределение содержит информацию о том, являются ли две переменные зависимыми или нет, а также информацию, достаточную для выведения предельных распределений. Предельные распределения не содержат информации о том, являются ли две случайные переменные зависимыми или независимыми. Таким образом, совместное распределение имеет больше информации и дает нам меньше неопределенности относительно случайных переменных:

Алекос Пападопулос
источник
(Икс,Y)ЧАС(Икс,Y)ЧАС(Икс)+ЧАС(Y)
Да, это суть.
Алекос Пападопулос