Дивергенция Дженсена Шеннона - Дивергенция Кульбака-Лейблера?

14

Я знаю, что дивергенция KL не является симметричной, и ее нельзя строго рассматривать как метрику. Если да, то почему он используется, когда JS Divergence удовлетворяет требуемым свойствам метрики?

Существуют ли сценарии, в которых может использоваться дивергенция KL, но не дивергенция JS или наоборот?

user2761431
источник
Они оба используются, только это зависит от контекста. Когда становится ясно, что необходимо иметь строгую метрику, например, когда кластеризация выполнена, JS является более предпочтительным выбором. С другой стороны, при выборе модели широко используется AIC, основанный на KL. Веса Акаике имеют хорошую интерпретацию, для которой JS либо не может предоставить аналога, либо он еще не стал популярным.
Джеймс

Ответы:

5

Я нашел очень зрелый ответ по Quora и просто разместил его здесь для людей, которые ищут его здесь:

Дивергенция Кульбака-Лейблера имеет несколько хороших свойств, одним из которых является то, что 𝐾𝐿[𝑞;𝑝] вид областей, где 𝑞(𝑥) имеет 𝑝(𝑥) массу, а and ( 𝑥 ) имеет нулевую массу. Это может выглядеть как ошибка, но на самом деле это особенность в определенных ситуациях.

Если вы пытаетесь найти аппроксимации для сложного (неразрешимого) распределения 𝑝(𝑥) с помощью ( 𝑞(𝑥) приближенного распределения 𝑞 ( 𝑥 ), вы хотите быть абсолютно уверены, что любое 𝑥, которое было бы очень маловероятным, можно извлечь из 𝑝(𝑥) также было бы очень маловероятно получить из 𝑞(𝑥) . То, что у KL есть это свойство, легко показать: есть 𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)] в подынтегральном выражении. Когда 𝑞 (𝑥) мало, а𝑝(𝑥) нет, это нормально. Но когда𝑝(𝑥) мало, оно очень быстро растет, если𝑞(𝑥) тоже не мало. Итак, если вы выбираете𝑞(𝑥) чтобы минимизировать𝐾𝐿[𝑞;𝑝] , очень маловероятно, что𝑞(𝑥) выделит много массы в регионах, где𝑝(𝑥) близка к нулю.

Дивергенция Дженсена-Шеннона не имеет этого свойства. Он хорошо себя ведет, когда 𝑝(𝑥) и 𝑞(𝑥) малы. Это означает, что он не будет оштрафован так сильно, как распределение 𝑞(𝑥) из которого вы можете 𝑝(𝑥) значения, которые невозможны в 𝑝 ( 𝑥 ) .

MoH
источник
1

Дивергенция КЛ имеет четкую информационную теоретическую интерпретацию и хорошо известна; но я впервые слышу, что симметризация KL-дивергенции называется JS-дивергенцией. Причина, по которой JS-дивергенция используется не так часто, заключается в том, что она менее известна и не обладает необходимыми свойствами.

Джеймс Ли
источник