Информационно-теоретическая центральная предельная теорема

11

Простейшая форма информационно-теоретического CLT заключается в следующем:

Пусть будут iid со средним и дисперсией 1 . Пусть f_n - плотность нормализованной суммы \ frac {\ sum_ {i = 1} ^ n X_i} {\ sqrt {n}}, а \ phi - стандартная гауссовская плотность. Тогда теоретико-информационный CLT утверждает, что если D (f_n \ | \ phi) = \ int f_n \ log (f_n / \ phi) dx конечно для некоторого n , то D (f_n \ | \ phi) \ до 0 при n \ до \ инфты .X1,X2,01fni=1nXinϕD(fnϕ)=fnlog(fn/ϕ)dxnD(fnϕ)0n

Конечно, эта конвергенция, в некотором смысле, «сильнее», чем хорошо установленные в литературе конвергенции, конвергенция в распределении и конвергенция в L1 метрике, благодаря неравенству Пинскера (|fnϕ|)22fnlog(fn/ϕ) . То есть сходимость в KL-дивергенции подразумевает сходимость в распределении и сходимость на расстоянии L1 .

Я хотел бы знать две вещи.

  1. Что такого замечательного в результате D(fnϕ)0 ?

  2. Это только по причине , указанной в третьем абзаце мы говорим , конвергенция в KL-дивергенции ( т.е. , D(fnϕ)0 ) сильнее?

NB: я задал этот вопрос некоторое время назад в math.stackexchange, где я не получил никакого ответа.

Ashok
источник
Пожалуйста, предоставьте ссылку на дубликат вопроса по математике.
кардинал
6
Кажется, ваше утверждение неявно предполагает существование плотности (по отношению к мере Лебега). Вас может заинтересовать эта короткая и восхитительная статья: А.Р. Баррон (1986), Энтропия и Центральная предельная теорема Энн. Вероятно. Том 14, № 1, 336-342. ( открытый доступ ).
кардинал
2
Я уже посмотрел на эту газету. Во втором абзаце страницы 1 он дал мотивацию с точки зрения теории информации. В то время мне это было не совсем понятно. Теперь это выглядит хорошо. Тем не менее, если можно четко объяснить следующее и опубликовать в качестве ответа, было бы здорово. «Из теории информации, относительная энтропия является наименьшей верхней границей избыточности (избыточной средней длины описания) кода Шеннона, основанной на нормальном распределении при описании квантований выборок из ». Я удалил этот вопрос в math.SE, так как он никого там не привлекDnfn
Ашок
@ Cardinal: TKS для хорошей бумаги.
Дзен

Ответы:

5

Что хорошо в этой теореме, так это то, что она предлагает предельные теоремы в некоторых случаях, когда обычная центральная предельная теорема неприменима. Например, в ситуациях, когда максимальное распределение энтропии - это некое ненормальное распределение, например, для распределений на окружности, это предполагает сходимость к равномерному распределению.

Къетил б Халворсен
источник
Я не понимаю Как я уже упоминал, конвергенция в дивергенции KL подразумевает конвергенцию в распределении, знаете? Таким образом, везде, где применяется теоретическая информация CLT, также применяется обычная CLT. Более того, теоретико-информационная CLT также предполагает конечную дисперсию. Или я что-то упустил?
Ашок
2
Я имел в виду, что метод энтропии предполагает, каким может быть предел в ситуациях, когда предел не является нормальным распределением. Тогда пределом является распределение, которое максимизирует энтропию.
kjetil b halvorsen
3

Посмотрев вокруг, я не смог найти ни одного примера конвергенции в распределении без конвергенции в относительной энтропии, поэтому трудно измерить «величие» этого результата.

Мне кажется, этот результат просто описывает относительную энтропию продуктов свертки. Его часто рассматривают как альтернативную интерпретацию и доказательную основу центральной предельной теоремы, и я не уверен, что она имеет прямое отношение к теории вероятностей (даже если это имеет место в теории информации).

Из теории информации и центральной предельной теоремы (стр. 19).

Второй закон термодинамики гласит, что термодинамическая энтропия всегда увеличивается со временем, что подразумевает некоторую сходимость к состоянию Гиббса. Сохранение энергии означает, что остается постоянным в течение этой временной эволюции, поэтому мы можем с самого начала сказать, какое состояние Гиббса будет пределом. Мы рассмотрим центральную предельную теорему таким же образом, показав, что теоретико-информационная энтропия возрастает до максимума по мере того, как мы принимаем свертки, что подразумевает сходимость к гауссову. Соответствующая нормализация означает, что дисперсия остается постоянной во время свертки, поэтому мы можем с самого начала определить, какой гауссов будет пределом.E

gui11aume
источник
2
Есть много примеров сходимости в распределении без сходимости в относительной энтропии - каждый раз, когда имеет дискретное распределение и применяется CLT. Xi
Марк Мекес,
1

D(fnϕ)0 гарантирует, что не существует «расстояния» между распределением суммы случайных величин и гауссовой плотностью как только из-за определения дивергенции KL, так что это доказательство сам. Возможно, я неправильно понял ваш вопрос.n

Что касается второго пункта, как вы назначили, он ответил в вашем пункте.

anotheruser
источник
1
Нормальный (Lindberg) CLT утверждает, что выборочное среднее сходится по распределению к нормальному RV. Это означает, что CDF точечно сходится к . Между этим и результатом ОП есть небольшая теоретическая разница, которая не отражена в вашем ответе. Φ
AdamO