Сбор информации, взаимная информация и соответствующие меры

33

Эндрю Мор определяет получение информации как:

$IG(Y|X) = H(Y) - H(Y|X)$

где - условная энтропия . Однако Википедия называет вышеуказанное количество взаимной информацией . $H(Y|X)$

В Википедии, с другой стороны, прирост информации определяется как расхождение Кульбака – Лейблера (иначе говоря, расхождение информации или относительная энтропия) между двумя случайными переменными:

$D_{KL}(P||Q) = H(P,Q) - H(P)$

где определяется как кросс-энтропия . $H(P,Q)$

Эти два определения кажутся несовместимыми друг с другом.

Я также видел, как другие авторы говорили о двух дополнительных связанных понятиях, а именно: дифференциальной энтропии и относительном получении информации.

Каково точное определение или связь между этими величинами? Есть хороший учебник, который охватывает их все?

Получение информации
Взаимная информация
Перекрестная энтропия
Условная энтропия
Дифференциальная энтропия
Относительный прирост информации

information-theory Амелио Васкес-Рейна
источник

2

Чтобы еще больше усилить путаницу, обратите внимание, что обозначение, которое вы использовали для перекрестной энтропии, также является обозначением, используемым для совместной энтропии. Я использовал

для кросс-энтропии, чтобы не запутаться, но это для моей пользы, и я никогда не видел эту запись в другом месте.

H^{x} (P, Q)

$H^x(P, Q)$

Майкл МакГоуэн

24

Я думаю, что называть расхождение Кульбака-Лейблера «информационным приростом» нестандартно.

Первое определение является стандартным.

РЕДАКТИРОВАТЬ: Однако также можно назвать взаимной информацией. $H(Y)−H(Y|X)$

Обратите внимание, что я не думаю, что вы найдете какую-либо научную дисциплину, которая действительно имеет стандартизированную, точную и последовательную схему именования. Таким образом, вы всегда должны смотреть на формулы, потому что они, как правило, дают вам лучшее представление.

Учебники: см. «Хорошее введение в различные виды энтропии» .

Также: Cosma Shalizi: Методы и техники науки о сложных системах: обзор, глава 1 (стр. 33-114), Томас С. Дейсбок и Дж. Яша Креш (ред.), Наука о сложных системах в биомедицине http: // arxiv.org/abs/nlin.AO/0307015

Роберт М. Грей: теория энтропии и информации http://ee.stanford.edu/~gray/it.html

Дэвид Маккей: теория информации, умозаключения и алгоритмы обучения http://www.inference.phy.cam.ac.uk/mackay/itila/book.html

также «Что такое« энтропия и получение информации »?»

wolf.rauch
источник

Спасибо @ волк. Я склонен принять этот ответ. Если первое определение стандартное, как бы вы определили взаимную информацию?

Амелио Васкес-Рейна

2

извиняюсь. первая величина,

, также часто называется взаимной информацией. Это случай противоречивого именования. Как я уже сказал, я не думаю, что существует какое-либо непротиворечивое, однозначное, однозначное соответствие понятий и имен. Например, «взаимная информация» или «получение информации» - это особый случай расхождения KL, так что эта статья в Википедии не так уж и далека.

I G (Y | X) = H (Y) - H (Y | X)

$IG(Y|X)=H(Y)−H(Y|X)$

wolf.rauch

4

$p(X,Y)$ $P(X)P(Y)$

\begin{aligned} I (X; Y) & = H (Y) - H (Y ∣ X) \\ = - \sum_{y} p (y) \log p (y) + \sum_{x, y} p (x) p (y ∣ x) \log p (y ∣ x) \\ = \sum_{x, y} p (x, y) \log p (y ∣ x) - \sum_{y} (\sum_{x} p (x, y)) \log p (y) \\ = \sum_{x, y} p (x, y) \log p (y ∣ x) - \sum_{x, y} p (x, y) \log p (y) \\ = \sum_{x, y} p (x, y) \log \frac{p (y ∣ x)}{p (y)} \\ = \sum_{x, y} p (x, y) \log \frac{p (y ∣ x) p (x)}{p (y) p (x)} \\ = \sum_{x, y} p (x, y) \log \frac{p (x, y)}{p (y) p (x)} \\ = D_{K L} (P (X, Y) ∣∣ P (X) P (Y)) \end{aligned}

$\begin{align} I(X; Y) &= H(Y) - H(Y \mid X)\\ &= - \sum_y p(y) \log p(y) + \sum_{x,y} p(x) p(y\mid x) \log p(y\mid x)\\ &= \sum_{x,y} p(x, y) \log{p(y\mid x)} - \sum_{y} \left(\sum_{x}p(x,y)\right) \log p(y)\\ &= \sum_{x,y} p(x, y) \log{p(y\mid x)} - \sum_{x,y}p(x, y) \log p(y)\\ &= \sum_{x,y} p(x, y) \log \frac{p(y\mid x)}{p(y)}\\ &= \sum_{x,y} p(x, y) \log \frac{p(y\mid x)p(x)}{p(y)p(x)}\\ &= \sum_{x,y} p(x, y) \log \frac{p(x, y)}{p(y)p(x)}\\ &= \mathcal D_{KL} (P(X,Y)\mid\mid P(X)P(Y)) \end{align}$

$p(y) = \sum_x p(x,y)$

Крис Элгуг
источник

1

Взаимная информация может быть определена с использованием Kullback-Liebler как

\begin{aligned} я (Икс; Y) знак равно D_{К L} (п (Икс, год) | | п (Икс) п (год)), \end{aligned}

$\begin{align*} I(X;Y) = D_{KL}(p(x,y)||p(x)p(y)). \end{align*}$

yters
источник

1

Извлечение взаимной информации из текстовых наборов данных как функция для обучения модели машинного обучения: (задача состояла в том, чтобы предсказать возраст, пол и личность блоггеров)

Krebto
источник

1

Оба определения являются правильными и последовательными. Я не уверен, что вы находите неясным, поскольку вы указываете на несколько моментов, которые могут нуждаться в разъяснении.

Во-первых : $MI_{Mutual Information}\equiv$ $IG_{InformationGain}\equiv I_{Information}$ все разные имена для одной и той же вещи. В разных контекстах одно из этих имен может быть предпочтительным, я буду называть его здесь Информация .

Вторая точка является соотношение между дивергенции Кульбака-Лейблера - $D_{KL}$ и информация . Дивергенция Кульбака – Лейблера является просто мерой различия между двумя распределениями. Информация может быть определена в этих терминах распределений несходства (см Yters' ответ). Таким образом, информация является частным случаем $K_{LD}$ , где $K_{LD}$ is applied to measure the difference between the actual joint distribution of two variables (which captures their dependence) and the hypothetical joint distribution of the same variables, were they to be independent. We call that quantity Information.

The third point to clarify is the inconsistent, though standard notation being used, namely that $\operatorname{H} (X,Y)$ is both the notation for Joint entropy and for Cross-entropy as well.

So, for example, in the definition of Information:

\begin{aligned} I (X; Y) & \equiv H (X) - H (X | Y) \\ \equiv H (Y) - H (Y | X) \\ \equiv H (X) + H (Y) - H (X, Y) \\ \equiv H (X, Y) - H (X | Y) - H (Y | X) \end{aligned}

$\begin{aligned}\operatorname {I} (X;Y)&{}\equiv \mathrm {H} (X)-\mathrm {H} (X|Y)\\&{}\equiv \mathrm {H} (Y)-\mathrm {H} (Y|X)\\&{}\equiv \mathrm {H} (X)+\mathrm {H} (Y)-\mathrm {H} (X,Y)\\&{}\equiv \mathrm {H} (X,Y)-\mathrm {H} (X|Y)-\mathrm {H} (Y|X)\end{aligned}$ in both last lines,

H (X, Y)

$\operatorname{H}(X,Y)$ is the joint entropy. This may seem inconsistent with the definition in the Information gain page however:

D K L (P | | Q) = H (P, Q) - H (P)

$DKL(P||Q)=H(P,Q)−H(P)$ but you did not fail to quote the important clarification -

H (P, Q)

$\operatorname{H}(P,Q)$ is being used there as the cross-entropy (as is the case too in the cross entropy page).

Joint-entropy and Cross-entropy are NOT the same.

Check out this and this where this ambiguous notation is addressed and a unique notation for cross-entropy is offered - $H_q(p)$

I would hope to see this notation accepted and the wiki-pages updated.

אלימלך שרייבר
источник

wonder why the equations are not displayed properly..

Shaohua Li

Сбор информации, взаимная информация и соответствующие меры

Ответы: