У меня есть два набора данных (исходные и целевые данные), которые следуют за разным распределением. Я использую MMD - это непараметрическое распределение расстояний - для вычисления предельного распределения между исходными и целевыми данными.
исходные данные, хз
целевые данные, Xt
Матрица адаптации А
* Проецируемые данные, Zs = A '* Xs и Zt = A' Xt
* MMD => Расстояние (P (Xs), P (Xt)) = | среднее (A'Xs) - среднее (A ' Xt) |
Это означает, что расстояние распределения между исходными и целевыми данными в исходном пространстве эквивалентно расстоянию между средними проецируемыми исходными и целевыми данными во встроенном пространстве.
У меня вопрос по поводу концепции MMD.
В формуле MMD: почему с помощью вычисления расстояния в скрытом пространстве мы можем измерить расстояние распределения в исходном пространстве?
Спасибо
Ответы:
Это может помочь дать немного больше обзора MMD.
В общем, MMD определяется идеей представления расстояний между распределениями в виде расстояний между средними вложениями признаков. То есть, скажем , у нас есть распределение и над множеством . MMD определяется картой объектов , где - это то, что называется воспроизводящим гильбертовым пространством ядра. В общем случае MMD имеет видP Q X φ:X→H H MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
В качестве одного примера, мы могли бы иметь и . В этом случае: так что это MMD - просто расстояние между средними двумя распределениями. Соответствующие распределения как это будут соответствовать их средствам, хотя они могут отличаться по своей дисперсии или другими способами.X=H=Rd φ(x)=x MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Ваш случай немного отличается: у нас есть и , где , где - матрица . Таким образом, мы имеем Это MMD - это разница между двумя разными проекциями среднего значения. Если или отображение иначе не обратимо,X=Rd H=Rp φ(x)=A′x A d×p MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp. p<d A′ чем предыдущий: он не различает некоторые дистрибутивы, которые делает предыдущий.
Вы также можете построить более сильные расстояния. Например, если и вы используете , тогда MMD становится и может различать не только распределения с разными средними, но и с разными дисперсиями.X=R φ(x)=(x,x2) (EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
И вы можете стать намного сильнее, чем это: если отображается на общее воспроизводящее гильбертово пространство ядра, то вы можете применить трюк ядра для вычисления MMD, и оказывается, что многие ядра, включая ядро Гаусса, приводят к MMD будучи нулем, если и только распределения идентичны.φ
В частности, если , вы получите который вы можете прямо оценить с образцами.k(x,y)=⟨φ(x),φ(y)⟩H MMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Обновление: вот откуда взято «максимум» в названии.
Карта признаков отображается в гильбертово пространство воспроизводящего ядра. Это пространства функций , которые удовлетворяют ключевому свойству (так называемому свойству воспроизведения ): для любого .φ:X→H ⟨ F , φ ( х ) ⟩ Н = F ( х ) F ∈ H⟨f,φ(x)⟩H=f(x) f∈H
В простейшем примере, с , мы рассматриваем каждое как функцию, соответствующую некоторому , через . Тогда воспроизводящее свойство должно иметь смысл.X=H=Rd φ(x)=x f∈H w∈Rd f(x)=w′x ⟨f,φ(x)⟩H=⟨w,x⟩Rd
В более сложных настройках, таких как ядро Гаусса, - гораздо более сложная функция, но свойство воспроизведения все еще сохраняется.f
Теперь мы можем дать альтернативную характеристику MMD: Вторая строка - это общий факт о нормах в гильбертовых пространствах:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)]. supf:∥f∥≤1⟨f,g⟩H=∥g∥ достигается с помощью . Четвертое зависит от технического условия, известного как интегрируемость Бохнера, но верно, например, для ограниченных ядер или распределений с ограниченной поддержкой. Затем в конце мы используем воспроизводящее свойство.f=g/∥g∥
Эта последняя строка объясняет, почему она называется «максимальное среднее расхождение» - это максимальная, сверх тестовых функций в единичном шаре , средней разности между двумя распределениями.f H
источник
Вот как я интерпретировал MMD. Два распределения похожи, если их моменты похожи. Применяя ядро, я могу преобразовать переменную так, чтобы вычислялись все моменты (первый, второй, третий и т. Д.). В скрытом пространстве я могу вычислить разницу между моментами и усреднить ее. Это дает меру сходства / различий между наборами данных.
источник