Почему кросс-энтропия стала стандартной функцией потерь классификации, а не дивергенцией Кульбека-Лейблера?

15

Перекрестная энтропия идентична дивергенции KL плюс энтропия распределения цели. KL равняется нулю, когда два распределения одинаковы, что мне кажется более интуитивным, чем энтропия целевого распределения, то есть то, что перекрестная энтропия находится на совпадении.

Я не говорю, что в одном другом есть больше информации, за исключением того, что человеческий взгляд может найти ноль более интуитивным, чем позитивным. Конечно, обычно используют оценочный метод, чтобы действительно увидеть, насколько хорошо происходит классификация. Но является ли выбор перекрестной энтропии над KL историческим?

machine-learning classification Джош Альберт
источник

12

Когда дело доходит до проблемы классификации в машинном обучении, кросс-энтропия и дивергенция KL равны . Как уже говорилось в вопросе, общая формула такова:

ЧАС (п, Q) знак равно ЧАС (п) + D_{К L} (п | | Q)

$H(p, q) = H(p) + D_{KL}(p||q)$

Где $p$ - «истинное» распределение, а $q$ - предполагаемое распределение, $H(p, q)$ - кросс-энтропия, $H(p)$ - энтропия, а $D$ - дивергенция Кульбака-Лейблера.

Обратите внимание на то, что в машинном обучении $p$ является горячим представлением класса истинности, т.е.

п знак равно [0,,,,, 1,,,,, 0]

$p = [0,..., 1, ..., 0]$

который в основном является распределением дельта-функции . Но энтропия дельта-функции равна нулю, следовательно, дивергенция KL просто равна кросс-энтропии.

Фактически, даже если $H(p)$ не было $0$ (например, мягкие метки), оно является фиксированным и не влияет на градиент. С точки зрения оптимизации, можно просто удалить его и оптимизировать расхождение Кульбака-Лейблера.

Максим
источник

0

Кросс-энтропия - это энтропия, а не разница энтропии.

Более естественный и, возможно, интуитивно понятный способ концептуализации критериев категоризации заключается в использовании отношения, а не определения.

$H(P, Q) - H(P) = D_{\mathrm{KL}}(P\|Q) = - \sum_i P(i) \log\frac{Q(i)}{P(i)}$

Это следует параллелям, отождествленным Клодом Шенноном с Джоном фон Нейманом, между квантово-механической термодинамикой и теорией информации. Энтропия не абсолютная величина. Он является относительным, поэтому ни энтропия, ни перекрестная энтропия не могут быть рассчитаны, но их различие может быть как для дискретного случая выше, так и для его непрерывного брата ниже.

$H(P, Q) - H(P) = D_{\mathrm{KL}}(P\|Q) = - \int_{-\infty}^\infty \, p(x) \log\frac {q(x)} {p(x)} \, dx$

$H(...) = ...$

FauChristian
источник

Почему кросс-энтропия стала стандартной функцией потерь классификации, а не дивергенцией Кульбека-Лейблера?

Ответы: