Я узнал об интуиции, лежащей в основе дивергенции KL, о том, насколько функция распределения моделей отличается от теоретического / истинного распределения данных. Источник Читаю продолжает говорить о том , что интуитивное понимание «расстояний» между этими двумя распределениями является полезным, но не следует воспринимать буквально , потому что для двух распределений и , то KL дивергенция не является симметричной в и .
Я не уверен, как понять последнее утверждение, или это где интуиция «расстояния» ломается?
Я был бы признателен за простой, но проницательный пример.
Ответы:
(Метрическое) расстояние должно быть симметричным, т.е. . Но, по определению, нет.D D(P,Q)=D(Q,P) KL
Пример: , , .Ω={A,B} P(A)=0.2,P(B)=0.8 Q(A)=Q(B)=0.5
У нас есть:
а также
таким образом, и, следовательно, не является (метрическим) расстоянием.K LKL(P,Q)≠KL(Q,P) KL
источник
В дополнение к другим превосходным ответам, ответ с другой точки зрения, который может добавить некоторую интуицию, о которой просили.
Расходимость Кульбака-Лейблера: Если у Вас есть две гипотезы о том, какие распределения генерирования данных , и , то является отношение правдоподобия для тестирования против . Мы видим, что расхождение Кульбака-Лейблера, приведенное выше, является ожидаемым значением логарифмического отношения правдоподобия согласно альтернативной гипотезе. Таким образом, является мерой сложности этой тестовой задачи, когда является нулевой гипотезой. Так что асимметрия
Давайте посмотрим на это в конкретном примере. Пусть будет -распределением, а - стандартным нормальным распределением (в численном примере ниже ). Интеграл, определяющий расхождение, выглядит сложным, поэтому давайте просто используем численное интегрирование в R:P tν Q ν=1
В первом случае интеграл, по-видимому, численно расходится, что указывает на то, что расхождение очень велико или бесконечно, во втором случае оно мало, суммируя: Первый случай подтверждается аналитическим символическим интегрированием в ответ @ Xi'an здесь: Каково максимальное значение дивергенции Кульбака-Лейблера (KL) .
Что это говорит нам в практическом плане? Если нулевая модель является стандартным нормальным распределением, но данные генерируются из распределения, тогда довольно легко отклонить нулевое! Данные из распределения не похожи на обычные распределенные данные. В другом случае роли поменялись. Ноль - но данные нормальные. Но обычные распределенные данные могут выглядеть как данные , поэтому эта проблема намного сложнее! Здесь мы имеем размер выборки , и все данные, которые могут поступить из нормального распределения, также могут быть получены из ! Смена ролей, нет, разница происходит в основном от ролей выбросов.t1 t1 t1 t1 n=1 t1
При альтернативном распределении существует довольно большая вероятность получения выборки, которая имеет очень малую вероятность при нулевой (нормальной) модели, что дает огромную расходимость. Но когда альтернативное распределение нормальное, практически все данные, которые мы можем получить, будут иметь умеренную вероятность (на самом деле, плотность ...) при нулевой модели , поэтому расхождение мало.t1 t1
Это связано с моим ответом: почему мы должны использовать t ошибок вместо обычных ошибок?
источник
Прежде всего, нарушение условия симметрии является наименьшей проблемой с расходимостью Кульбака-Лейблера. также нарушает неравенство треугольника. Вы можете просто ввести симметричную версию как , но это все еще не метрика, потому что и и нарушает неравенство треугольника. Чтобы доказать это, просто возьмите три смещенные монеты A, B и C, которые производят намного меньше голов, чем хвостов, например, монеты с вероятностью головы: A = 0,1, B = 0,2 и C = 0,3. В обоих случаях, регулярная дивергенция KL D или ее симметричная версия SKL, убедитесь, что они не заполняют неравенство треугольникаD(P||Q)
Я ввел этот пример в цель. Давайте представим, что вы подбрасываете несколько монет, например, 100 раз. Пока эти монеты беспристрастны, вы просто закодируете результаты броска с последовательностью 0-1 бит (1-головка, 0-хвост). В такой ситуации, когда вероятность головы равна вероятности хвоста и равна 0,5, это достаточно эффективное кодирование. Теперь у нас есть несколько предвзятых монет, поэтому мы бы предпочли кодировать более вероятные результаты с более коротким кодом, например, объединять группы голов и хвостов и представлять последовательности из k голов с более длинным кодом, чем последовательность из k хвостов (они более вероятны). И здесь происходит расхождение Кульбака-Лейблера . Если P представляет истинное распределение результатов, а Q является только приближением P, тоD(P||Q) D(P||Q) обозначает штраф, который вы платите, когда кодируете результаты, которые на самом деле приходят из P-дистрибьютора, с кодировкой, предназначенной для Q (штраф в смысле дополнительных битов, которые вам нужно использовать).
Если вам просто нужна метрика, используйте расстояние Bhattacharyya (конечно, модифицированная версия )1−[∑xp(x)q(x)−−−−−−−√]−−−−−−−−−−−−−−−√
источник
Я испытываю желание дать чисто интуитивный ответ на ваш вопрос. Перефразируя то, что вы говорите, дивергенция KL - это способ измерения расстояния между двумя распределениями, как если бы вы вычисляли расстояние между двумя наборами данных в гильбертовом пространстве, но следует соблюдать определенную осторожность.
Почему? Дивергенция KL - это не то расстояние, которое вы обычно используете, например, норма . Действительно, оно положительно и равно нулю тогда и только тогда, когда два распределения равны (как в аксиомах для определения расстояния). Но, как уже упоминалось, это не симметрично. Есть способы обойти это, но имеет смысл не быть симметричным.L2
Действительно, дивергенция KL определяет расстояние между модельным распределением (которое вы на самом деле знаете) и теоретическим , так что имеет смысл обрабатывать по-разному («теоретическое» расстояние от до предполагая, что модель ) и («эмпирическое» расстояние до предполагающее данные ), поскольку они означают совершенно разные меры.Q P KL(P,Q) P Q P KL(Q,P) P Q Q
источник
Учебник «Элементы теории информации» дает нам пример:
Перефразируя приведенное выше утверждение, мы можем сказать, что если мы изменим распределение информации (с q на p), нам потребуется в среднем D (p || q) дополнительных битов для кодирования нового распределения.
Иллюстрация
Позвольте мне проиллюстрировать это, используя одно его применение в обработке естественного языка.
Считаю , что большая группа людей, помеченный B, являются посредниками , и каждый из них назначается задачей выбрать существительное от
turkey
,animal
иbook
и передач его на C. Существует имя парня , который может послать каждый из них по электронной почте , чтобы дать им некоторые намеки. Если никто из группы не получил электронное письмо, они могут поднять брови и некоторое время сомневаться в том, что нужно С. И вероятность каждого выбранного варианта составляет 1/3. Единственное в своем роде распределение (если нет, это может касаться их собственных предпочтений, и мы просто игнорируем такие случаи).Но если им дают глагол, например
baste
, 3/4 из них могут выбратьturkey
и 3/16 выбратьanimal
и 1/16 выбратьbook
. Тогда сколько информации в битах в среднем получил каждый из медиаторов, узнав глагол? Это:Но что, если дан глагол
read
? Мы можем представить, что все они будут выбиратьbook
без колебаний, тогда среднее значение получения информации для каждого посредника от глаголаread
будет:read
может дать посредникам больше информации. И это то, что может измерить относительная энтропия.Давайте продолжим нашу историю. Если C подозревает, что существительное может быть неправильным, потому что A сказал ему, что он мог ошибиться, отправив неправильный глагол посредникам. Тогда сколько информации в битах может дать такая плохая новость C?
1) если глаголом, данным A, было
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
baste
:2) а что если глагол былD(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
read
?Поскольку C никогда не знает, какими будут два других существительных, и любое слово в словаре будет возможно.
Мы видим, что дивергенция KL асимметрична.
Я надеюсь, что я прав, и если нет, пожалуйста, прокомментируйте и помогите исправить меня. Заранее спасибо.
источник