Я сравниваю два распределения с дивергенцией KL, которая возвращает мне нестандартизированное число, которое, согласно тому, что я читал об этой мере, представляет собой объем информации, необходимый для преобразования одной гипотезы в другую. У меня есть два вопроса:
а) Есть ли способ количественно оценить дивергенцию KL, чтобы она имела более осмысленную интерпретацию, например, как размер эффекта или R ^ 2? Любая форма стандартизации?
b) В R при использовании KLdiv (пакет flexmix) можно установить значение 'esp' (стандартное esp = 1e-4), которое устанавливает все точки, меньшие чем esp, в некоторый стандарт, чтобы обеспечить числовую стабильность. Я играл с разными значениями esp, и для моего набора данных я получаю все большую и большую дивергенцию KL, чем меньше выбранное число. Что здесь происходит? Я ожидаю, что чем меньше esp, тем более достоверными должны быть результаты, поскольку они позволяют большему количеству «реальных значений» стать частью статистики. Нет? Я должен изменить esp, так как в противном случае он не вычисляет статистику, а просто отображается как NA в таблице результатов ...
KL имеет глубокий смысл, когда вы визуализируете множество зубных рядов как множество в метрическом тензоре Фишера , оно дает геодезическое расстояние между двумя «близкими» распределениями. Формально:
Следующие строки предназначены для подробного объяснения того, что подразумевается под этими математическими формулами.
Определение метрики Фишера.
Рассмотрим параметризованное семейство распределений вероятности (заданное плотностями в R n ), где x - случайная величина, а theta - параметр в R p . Вы все можете знать, что информационная матрица ФишераD=(f(x,θ)) Rn x Rp являетсяF=(Fij)
Вы можете сказать ... ОК, математическая абстракция, но где KL?
и, как известно, это двойная дивергенция Кулбека Лейблера:
Если вы хотите узнать больше об этом, я предлагаю прочитать статью Амари http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (я думаю, что есть также книга Амари о риманова геометрия в статистике, но я не помню названия)
источник
Расхождение KL (p, q) между распределениями p (.) И q (.) Имеет интуитивно понятную теоретическую информацию, которая может оказаться полезной.
Предположим, что мы наблюдаем данные x, порожденные некоторым распределением вероятности p (.). Нижняя граница средней длины кода в битах, необходимая для определения данных, сгенерированных p (.), Определяется энтропией p (.).
Теперь, так как мы не знаем p (.), Мы выбираем другое распределение, скажем, q (.) Для кодирования (или описания, состояния) данных. Средняя длина кода данных, сгенерированных p (.) И закодированных с использованием q (.), Обязательно будет больше, чем если бы для кодирования использовалось истинное распределение p (.). Дивергенция KL говорит нам о неэффективности этого альтернативного кода. Другими словами, расхождение KL между p (.) И q (.) Является средним числом дополнительных битов, необходимых для кодирования данных, сгенерированных p (.), С использованием распределения кодирования q (.). Расхождение KL неотрицательно и равно нулю, если фактическое распределение, генерирующее данные, используется для кодирования данных.
источник
Что касается части (b) вашего вопроса, вы можете столкнуться с проблемой того, что один из ваших дистрибутивов имеет плотность в регионе, а другой - нет.
Это расходится, если существуетя где пя> 0 и Qя= 0 , Числовой эпсилон в реализации R «спасает вас» от этой проблемы; но это означает, что результирующее значение зависит от этого параметра (техническиQя= 0 не требуется, просто это Qя меньше, чем числовой эпсилон).
источник