Интерпретация производной Радона-Никодима между вероятностными мерами?

11

Я видел в некоторых моментах использование производной Радона-Никодима одной вероятностной меры по отношению к другой, особенно в дивергенции Кульбака-Лейблера, где она является производной вероятностной меры модели для некоторого произвольного параметра с относительно реального параметра θ 0 :θθ0

dPθdPθ0

Где это обе вероятностные меры в пространстве точек данных, обусловленные значением параметра: .Pθ(D)=P(D|θ)

Какова интерпретация такой производной Радона-Никодима в расходимости Кульбака-Лейблера или, в более общем смысле, между двумя вероятностными мерами?

user56834
источник

Ответы:

12

Во-первых, нам не нужны вероятностные меры, только конечность. Так пусть M = ( Ω , F ) измеримое пространство и пусть μ и v , быть σ -конечной меры по М .σM=(Ω,F)μνσM

Теорема Радона-Никодима утверждает, что если для всех A F , обозначаемых через µ ν , тогда существует неотрицательная борелевская функция f такая, что ν ( A ) = A fμ(A)=0ν(A)=0AFμνf для всех A F .

ν(A)=Afdμ
AF

Вот как мне нравится думать об этом. Во-первых, для любых двух мер на определим μ ν как среднее значение μ ( A ) = 0Mμν . Это правильное отношение эквивалентностии мы говоримчто μ и ν являютсяэквивалентнымив этом случае. Почему это разумная эквивалентность мер? Меры - это просто функции, но их области сложно представить. А что если две обыкновенные функции f , g : RR обладают этим свойством, т.е. f ( x ) = 0μ(A)=0ν(A)=0μνf,g:RR ? Итак, определим h ( x ) = { f ( x ) / g ( x ) g ( x ) 0 π e o.w. и заметим, что где-нибудь на носителе g мы имеем g h = f , а вне носителя g g h = 0 π e = 0 = f (так как ff(x)=0g(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
ggh=fg gh=0πe=0=ffи share поддерживает) поэтому h позволяет нам масштабировать g в f . Как @whuber указывает, ключевой идеей здесь является не то, что 0 / 0 как - то «безопасным» делать или игнорировать, а при г = 0 , то это не имеет значения , что час делает так что мы можем просто определить его как угодно (например , быть π е, который не имеет особого значения здесь), и все еще работает. Также в этом случае мы можем определить аналогичную функцию h с помощью g / f, так что f h = g .ghgf0/0g=0hπehg/ffh=g

Далее предположим, что , но другое направление не обязательно выполняется. Это означает, что наше предыдущее определение h все еще работает, но теперь h не работает, так как у него будет фактическое деление на 0 . Таким образом, мы можем перемасштабировать g в f через g h = f , но мы не можем пойти в другом направлении, потому что нам нужно было бы перемасштабировать что-то 0 в нечто ненулевое.g(x)=0f(x)=0hh0gfgh=f0

Теперь давайте вернемся к и ν и обозначим нашу RND через f . Если μ ν , то это интуитивно означает, что одно может быть перераспределено в другое, и наоборот. Но, как правило, мы хотим пойти в этом направлении только в одном направлении (т. Е. Перемасштабировать хорошую меру, такую ​​как мера Лебега, в более абстрактную меру), поэтому нам нужно только μ ν, чтобы делать полезные вещи. Этот масштаб является сердцем RND.μνfμνμν

Возвращаясь к точке @ whuber в комментариях, есть дополнительная тонкость , почему это безопасно игнорировать вопрос . Это потому, что с мерами мы всегда определяем вещи вплоть до наборов меры 0, поэтому на любом множестве A с μ ( A ) = 0 мы можем просто заставить нашу RND принимать любое значение, скажем, 1 . Так что это не то, что 0 / 0 искробезопасный, а где - нибудь , что мы имеем 0 / 0 есть множество меры 0 WRT ц0/00Aμ(A)=010/00/00μ так что мы можем просто определить наш RND, чтобы он был чем-то хорошим, не влияя ни на что.

В качестве примера предположим, что для некоторого k > 0 . Тогда ν ( A ) = AКμзнак равноνК>0 поэтому мы имеем, что f ( x ) = k = d ν

ν(A)знак равноAdνзнак равноAКdμ
- RND (это может быть более формально обосновано теоремой об изменении мер). Это хорошо, потому что мы точно восстановили коэффициент масштабирования.е(Икс)знак равноКзнак равноdνdμ

Вот второй пример, чтобы подчеркнуть, как изменение RND на наборах меры не влияет на них. Пусть f ( x ) = φ ( x ) + 1 Q ( x ) , то есть это стандартный нормальный PDF плюс 1, если вход рациональный, и пусть X будет RV с этой плотностью. Это означает, что P ( X A ) = A ( φ + 1 Q )0е(Икс)знак равноφ(Икс)+1Q(Икс)1Икс= A φ

п(ИксA)знак равноA(φ+1Q)dλ
так что на самом деле X все еще является стандартным гауссовым RV. Это никак не повлияло на распределение для изменения X на Q, потому что это набор мер 0 относительно λ .
знак равноAφdλ+λ(Q)знак равноAφdλ
ИксИксQ0λ

Икс~Pois(η)Y~мусорное ведро(N,п)пИкспYссс(A)знак равно0Aзнак равно

dпYdпИксзнак равноdпY/dсdпИкс/dсзнак равноеYеИкс

пY(A)знак равноAdпY
знак равноAdпYdпИксdпИксзнак равноAdпYdпИксdпXdсdс
знак равноΣYAdпYdпИкс(Y)dпИксdс(Y)знак равноΣYAеY(Y)еИкс(Y)еИкс(Y)знак равноΣYAеY(Y),

п(Иксзнак равноN)>0NY


п«QμdпdQзнак равноdп/dμdQ/dμзнак равноп/Q

JLD
источник
3
0/00/0
1
@whuber большое спасибо за комментарий, который действительно помогает. Я пытался обновить, чтобы обратиться к этому
JDD