Интуитивно понятно, почему кросс-энтропия является мерой расстояния двух распределений вероятности?

11

Для двух дискретных распределений и перекрестная энтропия определяется какpq

H(p,q)=xp(x)logq(x),

Интересно, почему это будет интуитивно понятная мера расстояния между двумя распределениями вероятностей?

Я вижу, что - энтропия , которая измеряет «удивление» . - это мера, которая частично заменяет на . Я до сих пор не понимаю интуитивное значение определения.H(п,п)ппЧАС(п,Q)пQ

Kadistar
источник
1
Я рекомендую вам посмотреть математическое определение метрики (и расстояния). обычно следование этим свойствам - это минимальная вещь, которой должна следовать функция, поскольку это расстояние. Надеюсь, поможет. Хотя кажется, что . Интуитивно понятно, что поскольку эта функция является частью дивергенции KL, я бы предположил, что это своего рода расхождение р и q, смещенное энтропией р. Хотя это только предположение. Кроме того, расхождение не является метрикой / расстоянием, поэтому я бы удивился, если бы была перекрестная энтропия. ЧАС(п,Q)знак равноЧАС(п)+DКL(п||Q)
Чарли Паркер
Тогда понимание расхождения Kullback_leibler помогает понять взаимную
kjetil b halvorsen
1
Вот отличное видео, объясняющее KL Divergence простым и понятным способом: youtube.com/watch?v=ErfnhcEV1O8
Кэтрин Чен
Посмотрите, помогает ли эта «Интуиция за Крестной Энтропией»: medium.com/@siddharth.4oct/…
Сиддхарт Рой

Ответы:

6

Минимизация перекрестной энтропии часто используется в качестве цели обучения в порождающих моделях, где p - это истинное распределение, а q - это изученное распределение.

Перекрестная энтропия p и q равна энтропии p плюс расхождение KL между p и q.

ЧАС(п,Q)знак равноЧАС(п)+DКL(п||Q)

Вы можете думать о как о константе, потому что p происходит непосредственно из обучающих данных и не изучается моделью. Таким образом, важен только термин дивергенции KL. Мотивация для дивергенции KL как расстояния между распределениями вероятности состоит в том, что она говорит вам, сколько битов информации получено при использовании распределения p вместо приближения q.ЧАС(п)п

Обратите внимание, что дивергенция KL не является правильной метрикой расстояния. Во-первых, оно не симметрично по p и q. Если вам нужна метрика расстояния для распределения вероятностей, вам придется использовать что-то еще. Но если вы используете слово «расстояние» неофициально, то вы можете использовать дивергенцию KL.

Аарон
источник
1
почему вы можете думать о р как константа? Что ты изучаешь"? д? Оригинальный вопрос ничего не говорил об обучении, поэтому мне было бы интересно лучше понять, что вы имели в виду :)
Чарли Паркер,
2
отредактировал это, чтобы сделать это более ясным. p - это распределение, полученное из обучающих данных, а q определяется моделью.
Аарон