После долгих размышлений о Cross Validated я все еще не чувствую, что я ближе к пониманию дивергенции KL вне области теории информации. Это довольно странно, когда кто-то с математическим образованием находит, что гораздо легче понять объяснение теории информации.
Чтобы изложить мое понимание на фоне теории информации: если у нас есть случайная переменная с конечным числом результатов, существует оптимальное кодирование, которое позволяет нам сообщать результат кому-то еще, в среднем самое короткое сообщение (я считаю, что проще всего картинка в терминах битов). Ожидаемая длина сообщения, необходимого для сообщения результата, определяется как если используется оптимальное кодирование. Если бы вы использовали субоптимальное кодирование, то дивергенция KL в среднем говорит нам, насколько длиннее будет наше сообщение.
Мне нравится это объяснение, потому что оно довольно интуитивно касается асимметрии дивергенции KL. Если у нас есть две разные системы, то есть две загруженные монеты, которые загружаются по-разному, они будут иметь разные оптимальные кодировки. Я как-то инстинктивно не чувствую, что использование кодировки второй системы для первой «одинаково плохо» для кодирования первой системы для второй. Не вдаваясь в мыслительный процесс того, как я себя убедил, я теперь довольно счастлив, что дает вам эту "дополнительную ожидаемую длину сообщения", когда используется кодировка для .
Тем не менее, большинство определений дивергенции KL, включая Википедию, затем делают утверждение (сохраняя его в дискретных терминах, чтобы его можно было сравнить с интерпретацией теории информации, которая работает гораздо лучше в дискретных терминах, поскольку биты дискретны), что если у нас есть две дискретные вероятности распределений, то KL предоставляет некоторую метрику «насколько они различны». Мне еще предстоит увидеть одно объяснение того, как эти два понятия связаны между собой. Кажется, я помню, что в своей книге о выводах Дейв Маккей подчеркивает, что сжатие и вывод данных в основном одно и то же, и я подозреваю, что мой вопрос действительно связан с этим.
Независимо от того, так это или нет, вопрос, который я имею в виду, касается проблем логического вывода. (Сохраняя вещи дискретными), если у нас есть два радиоактивных образца, и мы знаем, что один из них - это определенный материал с известной радиоактивностью (это сомнительная физика, но давайте притворимся, что Вселенная работает так), и, таким образом, мы знаем «истинное» распределение количество радиоактивных щелчков, которые мы должны измерить, должно быть пуассоновским с известным Справедливо ли построить эмпирическое распределение для обоих образцов и сравнить их расхождения KL с известным распределением и сказать, что более низкий уровень вероятности будет тем материалом?
Если отойти от сомнительной физики, если я знаю, что два образца взяты из одного и того же распределения, но я знаю, что они выбраны не случайно, сравнение их расхождений KL с известным глобальным распределением дало бы мне ощущение того, «насколько смещены» образцы. Относительно одного и другого в любом случае?
И, наконец, если ответ на предыдущие вопросы - да, то почему? Можно ли понять эти вещи только со статистической точки зрения без каких-либо (возможно, незначительных) связей с теорией информации?
Ответы:
Существует чисто статистический подход к дивергенции Кульбака-Лейблера: возьмите выборку iid из неизвестного распределения p ⋆ и рассмотрите потенциальное соответствие семейством распределений, F = { p θИкс1, … , XN п⋆ Соответствующая вероятность определяется как
L ( θ | x 1 , … , x n ) = n ∏ i = 1 p θ ( x i )
и его логарифм равен
ℓ ( θ | x 1 , … , x n ) = n ∑ i = 1 log p θ ( x i )
Книга, которая связывает расхождение, теорию информации и статистический вывод, является Оптимальной оценкой параметров Риссанена , которую я рассмотрел здесь .
источник
Вот статистическая интерпретация дивергенции Кульбака-Лейблера, свободно взятая из IJ Good ( Вес доказательств: краткий обзор , Bayesian Statistics 2, 1985).
Вес доказательств.
Расхождение Кульбака-Лейблера
источник
I don't know much about information theory, but this is how I think about it: when I hear an information theory person say "length of the message," my brain says "surprise." Surprise is 1.) random and 2.) subjective.
By 1.) I mean that "surprise" is just a transformation of your random variableX , using some distribution q(X) . Surprise is defined as −logq(X) , and this is definition whether or not you have a discrete random variable.
Surprise is a random variable, so eventually we want to take an expectation to make it a single number. By 2), when I say "subjective," I mean you can use whatever distribution you want (q ), to transform X . The expectation, however, will always be taken with respect to the "true" distribution, p . These may or may not be equal. If you transform with the true p , you have Ep[−logp(X)] , that's entropy. If some other distribution q that's not equal to p , you get Ep[−logq(X)] , and that's cross entropy. Notice how if you use the wrong distribution, you always have a higher expected surprise.
Instead of thinking about "how different they are" I think about the "increase in expected surprise from using the wrong distribution." This is all from properties of the logarithm.
Edit
Response to: "Can you elaborate on how−log(q(x)) is a measure of "surprise"? This quantity alone seems meaningless, as it is not even invariant under linear transforms of the sample space (I assume q is a pdf)"
For one, think about what it maps values ofX to. If you have a q that maps a certain value x to 0 , then −log(0)=∞ . For discrete random variables, realizations with probability 1 have "surprise" 0 .
Second,−log is injective, so there is no way rarer values get less surprise than less rare ones.
For continuous random variables, aq(x)>1 will coincide with a negative surprise. I guess this is a downside.
Olivier seems to be hinting at a property his "weight of evidence" quantity has that mine does not, which he calls an invariance under linear transformations (I'll admit I don't totally understand what he means by sample space). Presumably he is talking about ifX∼qX(x) , then Y=aX+b∼qx((y−b)/a)|1/a| as long as X is continuous. Clearly −logqX(X)≠−logqY(Y) due to the Jacobian.
I don't see how this renders the quantity "meaningless," though. In fact I have a hard time understanding why invariance is a desirable property in this case. Scale is probably important. Earlier, in a commment, I mentioned the example of variance, wherein the random variable we are taking the expectation of is(X−EX)2 . We could interpret this as "extremeness." This quantity suffers from lack of invariance as well, but it doesn't render meaningless peoples' intuition about what variance is.
Edit 2: looks like I'm not the only one who thinks of this as "surprise." From here:
источник