Максимальное среднее расхождение (распределение по расстоянию)

15

У меня есть два набора данных (исходные и целевые данные), которые следуют за разным распределением. Я использую MMD - это непараметрическое распределение расстояний - для вычисления предельного распределения между исходными и целевыми данными.

исходные данные, хз

целевые данные, Xt

Матрица адаптации А

* Проецируемые данные, Zs = A '* Xs и Zt = A' Xt

* MMD => Расстояние (P (Xs), P (Xt)) = | среднее (A'Xs) - среднее (A ' Xt) |

Это означает, что расстояние распределения между исходными и целевыми данными в исходном пространстве эквивалентно расстоянию между средними проецируемыми исходными и целевыми данными во встроенном пространстве.

У меня вопрос по поводу концепции MMD.

В формуле MMD: почему с помощью вычисления расстояния в скрытом пространстве мы можем измерить расстояние распределения в исходном пространстве?

Спасибо

Mahsa
источник
На самом деле вы еще не задали вопрос: вы только сказали нам, что запутались!
whuber

Ответы:

44

Это может помочь дать немного больше обзора MMD.

В общем, MMD определяется идеей представления расстояний между распределениями в виде расстояний между средними вложениями признаков. То есть, скажем , у нас есть распределение и над множеством . MMD определяется картой объектов , где - это то, что называется воспроизводящим гильбертовым пространством ядра. В общем случае MMD имеет вид PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

В качестве одного примера, мы могли бы иметь и . В этом случае: так что это MMD - просто расстояние между средними двумя распределениями. Соответствующие распределения как это будут соответствовать их средствам, хотя они могут отличаться по своей дисперсии или другими способами.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

Ваш случай немного отличается: у нас есть и , где , где - матрица . Таким образом, мы имеем Это MMD - это разница между двумя разными проекциями среднего значения. Если или отображение иначе не обратимо,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA чем предыдущий: он не различает некоторые дистрибутивы, которые делает предыдущий.

Вы также можете построить более сильные расстояния. Например, если и вы используете , тогда MMD становится и может различать не только распределения с разными средними, но и с разными дисперсиями.X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

И вы можете стать намного сильнее, чем это: если отображается на общее воспроизводящее гильбертово пространство ядра, то вы можете применить трюк ядра для вычисления MMD, и оказывается, что многие ядра, включая ядро ​​Гаусса, приводят к MMD будучи нулем, если и только распределения идентичны.φ

В частности, если , вы получите который вы можете прямо оценить с образцами.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


Обновление: вот откуда взято «максимум» в названии.

Карта признаков отображается в гильбертово пространство воспроизводящего ядра. Это пространства функций , которые удовлетворяют ключевому свойству (так называемому свойству воспроизведения ): для любого .φ:XHF , φ ( х ) Н = F ( х ) F Hf,φ(x)H=f(x)fH

В простейшем примере, с , мы рассматриваем каждое как функцию, соответствующую некоторому , через . Тогда воспроизводящее свойство должно иметь смысл.X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

В более сложных настройках, таких как ядро ​​Гаусса, - гораздо более сложная функция, но свойство воспроизведения все еще сохраняется.f

Теперь мы можем дать альтернативную характеристику MMD: Вторая строка - это общий факт о нормах в гильбертовых пространствах:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g достигается с помощью . Четвертое зависит от технического условия, известного как интегрируемость Бохнера, но верно, например, для ограниченных ядер или распределений с ограниченной поддержкой. Затем в конце мы используем воспроизводящее свойство.f=g/g

Эта последняя строка объясняет, почему она называется «максимальное среднее расхождение» - это максимальная, сверх тестовых функций в единичном шаре , средней разности между двумя распределениями.fH

Дугал
источник
Спасибо за ваше объяснение, это становится более понятным для меня; Тем не менее, я не получил эту концепцию. В начале вы сказали: «MMD определяется идеей представления расстояний между распределениями как расстояний между средними вложениями объектов». Почему эта идея сбывается?
Махса
«MMD определяется идеей представления расстояний между распределениями как расстояний между средними вложениями объектов». Почему эта идея сбывается, связана ли она с пространством РХС?
Махса
1
Это просто определение: вы можете сравнивать распределения, сравнивая их средства. Или вы можете сравнить распределения, сравнивая некоторые преобразования их средств; или сравнивая их средства и различия; или путем сравнения среднего значения любой другой карты характеристик, в том числе в RKHS.
Дугал
Спасибо за ваш ответ; Я собираюсь прочитать больше о карте возможностей RKHS; Мне было интересно, почему MMD определяет расстояние в карте объектов RKHS? Я имею в виду, в чем преимущество RKHS в определении расстояния MMD?
Махса
Объяснение здесь сосредоточено на «Среднее несоответствие», а не «Максимальное среднее расхождение». Может ли кто-нибудь подробно остановиться на части «Максимизация»?
Цзян Сян
5

Вот как я интерпретировал MMD. Два распределения похожи, если их моменты похожи. Применяя ядро, я могу преобразовать переменную так, чтобы вычислялись все моменты (первый, второй, третий и т. Д.). В скрытом пространстве я могу вычислить разницу между моментами и усреднить ее. Это дает меру сходства / различий между наборами данных.

rsambasivan
источник