Почему мы используем расхождение Кульбака-Лейблера, а не кросс-энтропию в целевой функции t-SNE?

Дивергенция KL является естественным способом измерения разницы между двумя вероятностными распределениями. Энтропия распределения дает минимально возможное количество битов в сообщении, которое потребуется (в среднем) для кодирования без потерь событий, извлеченных из . Достижение этой границы потребовало бы использования оптимального кода, разработанного для , который назначает более короткие кодовые слова событиям с более высокой вероятностью. можно интерпретировать как ожидаемое количество дополнительных битов в сообщении, необходимых для кодирования событий, извлеченных из истинного распределения $H(p)$ $p$ $p$ $p$ $D_{KL}(p \parallel q)$ $p$ , если использовать оптимальный код для распределения а не . У этого есть некоторые хорошие свойства для сравнения распределений. Например, если и равны, то дивергенция KL равна 0. $q$ $p$ $p$ $q$

Кросс-энтропия может быть интерпретирована как количество битов на сообщение, необходимое (в среднем) для кодирования событий, взятых из истинного распределения , если используется оптимальный код для распределения . Обратите внимание на разницу: измеряет среднее количество дополнительных битов в сообщении, тогда как измеряет среднее количество общих битов в сообщении. Это правда, что для фиксированного , $H(p, q)$ $p$ $q$ $D_{KL}(p \parallel q)$ $H(p, q)$ $p$ будет расти по мере того, как будет все больше отличаться от . Но, если не является фиксированным, трудно интерпретировать как абсолютную меру разности, потому что она растет с энтропией . $H(p, q)$ $q$ $p$ $p$ $H(p, q)$ $p$

Расхождение KL и кросс-энтропия связаны как:

D_{K L} (p ∥ q) = H (p, q) - H (p)

$D_{KL}(p \parallel q) = H(p, q) - H(p)$

Из этого выражения видно, что когда и равны, перекрестная энтропия не равна нулю; скорее, это равно энтропии . $p$ $q$ $p$

Перекрестная энтропия обычно проявляется в функциях потерь в машинном обучении. Во многих из этих ситуаций рассматривается как «истинное» распределение, а как модель, которую мы пытаемся оптимизировать. Например, в задачах классификации обычно используемая кросс-энтропийная потеря (или log-потеря ) измеряет кросс-энтропию между эмпирическим распределением меток (с учетом входных данных) и распределением, прогнозируемым классификатором. Эмпирическое распределение для каждой точки данных просто присваивает вероятность 1 классу этой точки данных, а 0 - всем другим классам. Примечание: перекрестная энтропия в этом случае оказывается пропорциональной отрицательной логарифмической вероятности, поэтому ее минимизация эквивалентна максимизации вероятности. $p$ $q$

Обратите внимание, что (эмпирическое распределение в этом примере) является фиксированным. Таким образом, было бы эквивалентно сказать, что мы минимизируем расхождение KL между эмпирическим распределением и прогнозируемым распределением. Как видно из вышеприведенного выражения, оба связаны аддитивным слагаемым (энтропия эмпирического распределения). Поскольку фиксировано, $p$ $H(p)$ $p$ $H(p)$ не изменяется с параметрами модели и может быть проигнорировано в функции потерь. Мы могли бы все еще хотеть говорить о дивергенции KL по теоретическим / философским причинам, но в этом случае они эквивалентны с точки зрения решения проблемы оптимизации. Это может быть неверно для других применений кросс-энтропии и дивергенции KL, где может варьироваться. $p$

t-SNE соответствует распределению во входном пространстве. Каждая точка данных отображается в пространство внедрения, где подходит соответствующее распределение . Попытки алгоритм для регулировки , чтобы минимизировать вложение . Как и выше, удерживается фиксированным. Таким образом, с точки зрения задачи оптимизации минимизация расхождения KL и минимизация кросс-энтропии эквивалентны. Действительно, Ван дер Маатен и Хинтон (2008) говорят в разделе 2: «Естественная мера верности, с которой моделирует $p$ $q$ $D_{KL}(p \parallel q)$ $p$ $q_{j \mid i}$ $p_{j \mid i}$ является дивергенцией Кульбака-Лейблера (которая в этом случае равна кросс-энтропии с точностью до аддитивной постоянной). "

Ван дер Маатен и Хинтон (2008) . Визуализация данных с использованием t-SNE.

user20160
источник

Можно ли как-нибудь «любимые» ответы? Я хочу сохранить это, потому что это очень хорошее объяснение

zwep

Спасибо, рад, что это полезно для вас. Вы можете пометить вопрос как избранное, чтобы сохранить всю цепочку, нажав на значок звезды под кнопками голосования. Вы можете просмотреть свой список избранного на странице вашего аккаунта.

user20160

Почему мы используем расхождение Кульбака-Лейблера, а не кросс-энтропию в целевой функции t-SNE?

Ответы: