Вопросы о расхождении KL?

14

Я сравниваю два распределения с дивергенцией KL, которая возвращает мне нестандартизированное число, которое, согласно тому, что я читал об этой мере, представляет собой объем информации, необходимый для преобразования одной гипотезы в другую. У меня есть два вопроса:

а) Есть ли способ количественно оценить дивергенцию KL, чтобы она имела более осмысленную интерпретацию, например, как размер эффекта или R ^ 2? Любая форма стандартизации?

b) В R при использовании KLdiv (пакет flexmix) можно установить значение 'esp' (стандартное esp = 1e-4), которое устанавливает все точки, меньшие чем esp, в некоторый стандарт, чтобы обеспечить числовую стабильность. Я играл с разными значениями esp, и для моего набора данных я получаю все большую и большую дивергенцию KL, чем меньше выбранное число. Что здесь происходит? Я ожидаю, что чем меньше esp, тем более достоверными должны быть результаты, поскольку они позволяют большему количеству «реальных значений» стать частью статистики. Нет? Я должен изменить esp, так как в противном случае он не вычисляет статистику, а просто отображается как NA в таблице результатов ...

Ampleforth
источник

Ответы:

10

Предположим, вы получили n образцов IID, сгенерированных либо p, либо q. Вы хотите определить, какое распределение породило их. Примите в качестве нулевой гипотезы, что они были сгенерированы q. Позвольте указать вероятность ошибки типа I, ошибочно отвергнув нулевую гипотезу, и b указывают вероятность ошибки типа II.

Тогда для больших n вероятность ошибки типа I не меньше

exp(nKL(p,q))

Другими словами, для «оптимальной» процедуры принятия решения вероятность типа I падает не более чем на множитель exp (KL (p, q)) с каждым точкой данных. Ошибка типа II падает не более чем на коэффициент .exp(KL(q,p))

Для произвольного n a и b связаны следующим образом

бжурналб1-a+(1-б)журнал1-бaNKL(п,Q)

и

aloga1-б+(1-a)журнал1-aбNKL(Q,п)

Если мы выразим вышеуказанную границу как нижнюю границу a в терминах b и KL и уменьшим b до 0, результат, похоже, приблизится к границе «exp (-n KL (q, p))» даже для малых n

Более подробную информацию можно найти на странице 10 здесь и на страницах 74-77 «Теории и статистики информации» Кулбака (1978).

В качестве примечания, эту интерпретацию можно использовать для мотивации метрики Информации Фишера, поскольку для любой пары распределений p, q на расстоянии k Фишера друг от друга (малое k) вам необходимо одинаковое количество наблюдений, чтобы отличить их друг от друга.

Ярослав Булатов
источник
1
+1 Мне нравится эта интерпретация! Не могли бы вы уточнить «р ниже е»? почему вы берете маленький е? Вы говорите, «вероятность совершить противоположную ошибку» - это верхняя граница или точная вероятность? Если я помню, этот тип подхода связан с Черноффом, есть ли у вас ссылки (я считаю, что ваша первая ссылка не проясняет суть :))?
Робин Жирар
1
Почему я беру маленькое е ... хм ... это то, что сделала статья Баласубраманяна, но теперь, возвращаясь к Куллбеку, кажется, что его оценка верна для любого e, и он также дает оценку для конечного n, позвольте мне обновить ответ
Ярослав Булатов
Хорошо, нам не нужно, чтобы маленькое e (теперь называемое b, ошибка типа II) было маленьким для удержания границы, но b = 0 - это значение, для которого ограниченная граница (exp (-n KL (p, q))) соответствует более сложной границе, приведенной выше. Как ни странно, нижняя граница для ошибки типа I при 0 Ошибка типа II <1, интересно, действительно ли <1 тип ошибки II реально достижим
Ярослав Булатов
1
На самом деле гораздо легче понять ссылку на это - «Элементы теории информации», стр. 309, 12.8 «Лемма Штейна»
Ярослав Булатов,
8

KL имеет глубокий смысл, когда вы визуализируете множество зубных рядов как множество в метрическом тензоре Фишера , оно дает геодезическое расстояние между двумя «близкими» распределениями. Формально:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Следующие строки предназначены для подробного объяснения того, что подразумевается под этими математическими формулами.

Определение метрики Фишера.

Рассмотрим параметризованное семейство распределений вероятности (заданное плотностями в R n ), где x - случайная величина, а theta - параметр в R p . Вы все можете знать, что информационная матрица ФишераD=(f(x,θ))RnxRp являетсяF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

DF(θ)

Вы можете сказать ... ОК, математическая абстракция, но где KL?

p=1F11

ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

и, как известно, это двойная дивергенция Кулбека Лейблера:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Если вы хотите узнать больше об этом, я предлагаю прочитать статью Амари http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (я думаю, что есть также книга Амари о риманова геометрия в статистике, но я не помню названия)

Робин Жирар
источник
Пожалуйста, добавьте $ вокруг вашего латекса. Теперь это должно быть сделано в порядке. См. Meta.math.stackexchange.com/questions/2/…
Роб Хиндман
1
Поскольку я не математик и не статистик, я хотел бы повторить то, что вы говорили, чтобы убедиться, что я не понял неправильно. Итак, вы говорите, что взятие ds ^ 2 (вдвое больше KL) будет иметь то же значение, что и R ^ 2 (в модели регрессии) для общего распределения. И что это на самом деле может быть использовано для количественного определения расстояния геометрически? У ds ^ 2 есть имя, чтобы я мог больше почитать об этом. Есть ли документ, который напрямую описывает этот показатель и показывает приложения и примеры?
Ampleforth
Я думаю, что вы далеки от понимания сути, и я не уверен, что вы должны попытаться пойти дальше. Если у вас есть мотивация, вы можете прочитать статью Брэдли Эфрона, о которой я упоминал, или статью Амари projecteuclid.org/… .
Робин Жирар
1
Похоже, что это характеристика производной по направлению от KL, а не от самого KL, и, по-видимому, невозможно получить расхождение KL из него, потому что в отличие от производной, расхождение KL не зависит от геометрии многообразия
Ярослав Булатов
7

Расхождение KL (p, q) между распределениями p (.) И q (.) Имеет интуитивно понятную теоретическую информацию, которая может оказаться полезной.

Предположим, что мы наблюдаем данные x, порожденные некоторым распределением вероятности p (.). Нижняя граница средней длины кода в битах, необходимая для определения данных, сгенерированных p (.), Определяется энтропией p (.).

Теперь, так как мы не знаем p (.), Мы выбираем другое распределение, скажем, q (.) Для кодирования (или описания, состояния) данных. Средняя длина кода данных, сгенерированных p (.) И закодированных с использованием q (.), Обязательно будет больше, чем если бы для кодирования использовалось истинное распределение p (.). Дивергенция KL говорит нам о неэффективности этого альтернативного кода. Другими словами, расхождение KL между p (.) И q (.) Является средним числом дополнительных битов, необходимых для кодирования данных, сгенерированных p (.), С использованием распределения кодирования q (.). Расхождение KL неотрицательно и равно нулю, если фактическое распределение, генерирующее данные, используется для кодирования данных.

emakalic
источник
2

Что касается части (b) вашего вопроса, вы можете столкнуться с проблемой того, что один из ваших дистрибутивов имеет плотность в регионе, а другой - нет.

D(п| |Q)знак равноΣпяперпяQя

Это расходится, если существует я где пя>0 и Qязнак равно0, Числовой эпсилон в реализации R «спасает вас» от этой проблемы; но это означает, что результирующее значение зависит от этого параметра (техническиQязнак равно0 не требуется, просто это Qя меньше, чем числовой эпсилон).

Дейв
источник