Перекрестная энтропия идентична дивергенции KL плюс энтропия распределения цели. KL равняется нулю, когда два распределения одинаковы, что мне кажется более интуитивным, чем энтропия целевого распределения, то есть то, что перекрестная энтропия находится на совпадении.
Я не говорю, что в одном другом есть больше информации, за исключением того, что человеческий взгляд может найти ноль более интуитивным, чем позитивным. Конечно, обычно используют оценочный метод, чтобы действительно увидеть, насколько хорошо происходит классификация. Но является ли выбор перекрестной энтропии над KL историческим?
источник