Вопросы о расхождении KL?

14

Я сравниваю два распределения с дивергенцией KL, которая возвращает мне нестандартизированное число, которое, согласно тому, что я читал об этой мере, представляет собой объем информации, необходимый для преобразования одной гипотезы в другую. У меня есть два вопроса:

а) Есть ли способ количественно оценить дивергенцию KL, чтобы она имела более осмысленную интерпретацию, например, как размер эффекта или R ^ 2? Любая форма стандартизации?

b) В R при использовании KLdiv (пакет flexmix) можно установить значение 'esp' (стандартное esp = 1e-4), которое устанавливает все точки, меньшие чем esp, в некоторый стандарт, чтобы обеспечить числовую стабильность. Я играл с разными значениями esp, и для моего набора данных я получаю все большую и большую дивергенцию KL, чем меньше выбранное число. Что здесь происходит? Я ожидаю, что чем меньше esp, тем более достоверными должны быть результаты, поскольку они позволяют большему количеству «реальных значений» стать частью статистики. Нет? Я должен изменить esp, так как в противном случае он не вычисляет статистику, а просто отображается как NA в таблице результатов ...

distributions kullback-leibler information-geometry Ampleforth
источник

10

Предположим, вы получили n образцов IID, сгенерированных либо p, либо q. Вы хотите определить, какое распределение породило их. Примите в качестве нулевой гипотезы, что они были сгенерированы q. Позвольте указать вероятность ошибки типа I, ошибочно отвергнув нулевую гипотезу, и b указывают вероятность ошибки типа II.

Тогда для больших n вероятность ошибки типа I не меньше

$\exp(-n \text{KL}(p,q))$

Другими словами, для «оптимальной» процедуры принятия решения вероятность типа I падает не более чем на множитель exp (KL (p, q)) с каждым точкой данных. Ошибка типа II падает не более чем на коэффициент . $\exp(\text{KL}(q,p))$

Для произвольного n a и b связаны следующим образом

$b \log \frac{b}{1-a}+(1-b)\log \frac{1-b}{a} \le n \text{KL}(p,q)$

и

$a \log \frac{a}{1-b}+(1-a)\log \frac{1-a}{b} \le n \text{KL}(q,p)$

Если мы выразим вышеуказанную границу как нижнюю границу a в терминах b и KL и уменьшим b до 0, результат, похоже, приблизится к границе «exp (-n KL (q, p))» даже для малых n

Более подробную информацию можно найти на странице 10 здесь и на страницах 74-77 «Теории и статистики информации» Кулбака (1978).

В качестве примечания, эту интерпретацию можно использовать для мотивации метрики Информации Фишера, поскольку для любой пары распределений p, q на расстоянии k Фишера друг от друга (малое k) вам необходимо одинаковое количество наблюдений, чтобы отличить их друг от друга.

Ярослав Булатов
источник

1

+1 Мне нравится эта интерпретация! Не могли бы вы уточнить «р ниже е»? почему вы берете маленький е? Вы говорите, «вероятность совершить противоположную ошибку» - это верхняя граница или точная вероятность? Если я помню, этот тип подхода связан с Черноффом, есть ли у вас ссылки (я считаю, что ваша первая ссылка не проясняет суть :))?

Робин Жирар

1

Почему я беру маленькое е ... хм ... это то, что сделала статья Баласубраманяна, но теперь, возвращаясь к Куллбеку, кажется, что его оценка верна для любого e, и он также дает оценку для конечного n, позвольте мне обновить ответ

Ярослав Булатов

Хорошо, нам не нужно, чтобы маленькое e (теперь называемое b, ошибка типа II) было маленьким для удержания границы, но b = 0 - это значение, для которого ограниченная граница (exp (-n KL (p, q))) соответствует более сложной границе, приведенной выше. Как ни странно, нижняя граница для ошибки типа I при 0 Ошибка типа II <1, интересно, действительно ли <1 тип ошибки II реально достижим

Ярослав Булатов

1

На самом деле гораздо легче понять ссылку на это - «Элементы теории информации», стр. 309, 12.8 «Лемма Штейна»

Ярослав Булатов,

8

KL имеет глубокий смысл, когда вы визуализируете множество зубных рядов как множество в метрическом тензоре Фишера , оно дает геодезическое расстояние между двумя «близкими» распределениями. Формально:

$ds^2=2KL(p(x, \theta ),p(x,\theta + d \theta))$

Следующие строки предназначены для подробного объяснения того, что подразумевается под этими математическими формулами.

Определение метрики Фишера.

Рассмотрим параметризованное семейство распределений вероятности (заданное плотностями в ), где - случайная величина, а theta - параметр в . Вы все можете знать, что информационная матрица Фишера $D=(f(x, \theta ))$ $R^n$ $x$ $R^p$ является $F=(F_{ij})$

$F_{ij}=E[d(\log f(x,\theta))/d \theta_i d(\log f(x,\theta))/d \theta_j]$

$D$ $F(\theta)$

Вы можете сказать ... ОК, математическая абстракция, но где KL?

$p=1$ $F_{11}$

$ds^2$ $p(x,\theta)$ $p(x,\theta+d \theta)$

$ds^2= \sum F_{ij} d \theta^i d \theta^j$

и, как известно, это двойная дивергенция Кулбека Лейблера:

$ds^2=2KL(p(x, \theta ),p(x,\theta + d \theta))$

Если вы хотите узнать больше об этом, я предлагаю прочитать статью Амари http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (я думаю, что есть также книга Амари о риманова геометрия в статистике, но я не помню названия)

Робин Жирар
источник

Пожалуйста, добавьте $ вокруг вашего латекса. Теперь это должно быть сделано в порядке. См. Meta.math.stackexchange.com/questions/2/…

Роб Хиндман

1

Поскольку я не математик и не статистик, я хотел бы повторить то, что вы говорили, чтобы убедиться, что я не понял неправильно. Итак, вы говорите, что взятие ds ^ 2 (вдвое больше KL) будет иметь то же значение, что и R ^ 2 (в модели регрессии) для общего распределения. И что это на самом деле может быть использовано для количественного определения расстояния геометрически? У ds ^ 2 есть имя, чтобы я мог больше почитать об этом. Есть ли документ, который напрямую описывает этот показатель и показывает приложения и примеры?

Ampleforth

Я думаю, что вы далеки от понимания сути, и я не уверен, что вы должны попытаться пойти дальше. Если у вас есть мотивация, вы можете прочитать статью Брэдли Эфрона, о которой я упоминал, или статью Амари projecteuclid.org/… .

Робин Жирар

1

Похоже, что это характеристика производной по направлению от KL, а не от самого KL, и, по-видимому, невозможно получить расхождение KL из него, потому что в отличие от производной, расхождение KL не зависит от геометрии многообразия

Ярослав Булатов

7

Расхождение KL (p, q) между распределениями p (.) И q (.) Имеет интуитивно понятную теоретическую информацию, которая может оказаться полезной.

Предположим, что мы наблюдаем данные x, порожденные некоторым распределением вероятности p (.). Нижняя граница средней длины кода в битах, необходимая для определения данных, сгенерированных p (.), Определяется энтропией p (.).

Теперь, так как мы не знаем p (.), Мы выбираем другое распределение, скажем, q (.) Для кодирования (или описания, состояния) данных. Средняя длина кода данных, сгенерированных p (.) И закодированных с использованием q (.), Обязательно будет больше, чем если бы для кодирования использовалось истинное распределение p (.). Дивергенция KL говорит нам о неэффективности этого альтернативного кода. Другими словами, расхождение KL между p (.) И q (.) Является средним числом дополнительных битов, необходимых для кодирования данных, сгенерированных p (.), С использованием распределения кодирования q (.). Расхождение KL неотрицательно и равно нулю, если фактическое распределение, генерирующее данные, используется для кодирования данных.

emakalic
источник

2

Что касается части (b) вашего вопроса, вы можете столкнуться с проблемой того, что один из ваших дистрибутивов имеет плотность в регионе, а другой - нет.

D (п | | Q) знак равно Σ п_{я} пер \frac{п_{я}}{Q_{я}}

$D( P \Vert Q ) = \sum p_i \ln \frac{p_i}{q_i}$

Это расходится, если существует $i$ где $p_i>0$ и $q_i=0$ , Числовой эпсилон в реализации R «спасает вас» от этой проблемы; но это означает, что результирующее значение зависит от этого параметра (технически $q_i=0$ не требуется, просто это $q_i$ меньше, чем числовой эпсилон).

Дейв
источник

Вопросы о расхождении KL?

Ответы: