Максимальное среднее расхождение (распределение по расстоянию)

Это может помочь дать немного больше обзора MMD. $\DeclareMathOperator{\E}{\mathbb E}\newcommand{\R}{\mathbb R}\newcommand{\X}{\mathcal X}\newcommand{\h}{\mathcal H}\DeclareMathOperator{\MMD}{MMD}$

В общем, MMD определяется идеей представления расстояний между распределениями в виде расстояний между средними вложениями признаков. То есть, скажем , у нас есть распределение и над множеством . MMD определяется картой объектов , где - это то, что называется воспроизводящим гильбертовым пространством ядра. В общем случае MMD имеет вид $P$ $Q$ $\X$ $\varphi : \X \to \h$ $\mathcal H$

MMD (P, Q) = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} .

$\MMD(P, Q) = \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h .$

В качестве одного примера, мы могли бы иметь и . В этом случае: так что это MMD - просто расстояние между средними двумя распределениями. Соответствующие распределения как это будут соответствовать их средствам, хотя они могут отличаться по своей дисперсии или другими способами. $\X = \h = \R^d$ $\varphi(x) = x$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [X] - E_{Y \sim Q} [Y] ‖_{R^{d}} \\ = ‖ μ_{P} - μ_{Q} ‖_{R^{d}}, \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ X ] - \E_{Y \sim Q}[ Y ] \rVert_{\R^d} \\&= \lVert \mu_P - \mu_Q \rVert_{\R^d} ,\end{align}$

Ваш случай немного отличается: у нас есть и , где , где - матрица . Таким образом, мы имеем Это MMD - это разница между двумя разными проекциями среднего значения. Если или отображение иначе не обратимо, $\mathcal X = \mathbb R^d$ $\mathcal H = \mathbb R^p$ $\varphi(x) = A' x$ $A$ $d \times p$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [A^{'} X] - E_{Y \sim Q} [A^{'} Y] ‖_{R^{p}} \\ = ‖ A^{'} E_{X \sim P} [X] - A^{'} E_{Y \sim Q} [Y] ‖_{R^{p}} \\ = ‖ A^{'} (μ_{P} - μ_{Q}) ‖_{R^{p}} . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ A' X ] - \E_{Y \sim Q}[ A' Y ] \rVert_{\R^p} \\&= \lVert A' \E_{X \sim P}[ X ] - A' \E_{Y \sim Q}[ Y ] \rVert_{\R^p} \\&= \lVert A'( \mu_P - \mu_Q ) \rVert_{\R^p} .\end{align}$

p < d

$p < d$

A^{'}

$A'$ чем предыдущий: он не различает некоторые дистрибутивы, которые делает предыдущий.

Вы также можете построить более сильные расстояния. Например, если и вы используете , тогда MMD становится и может различать не только распределения с разными средними, но и с разными дисперсиями. $\X = \R$ $\varphi(x) = (x, x^2)$ $\sqrt{(\E X - \E Y)^2 + (\E X^2 - \E Y^2)^2}$

И вы можете стать намного сильнее, чем это: если отображается на общее воспроизводящее гильбертово пространство ядра, то вы можете применить трюк ядра для вычисления MMD, и оказывается, что многие ядра, включая ядро Гаусса, приводят к MMD будучи нулем, если и только распределения идентичны. $\varphi$

В частности, если , вы получите который вы можете прямо оценить с образцами. $k(x, y) = \langle \varphi(x), \varphi(y) \rangle_\h$

\begin{aligned} {MMD}^{2} (P, Q) & = ‖ E_{X \sim P} φ (X) - E_{Y \sim Q} φ (Y) ‖_{H}^{2} \\ = ⟨ E_{X \sim P} φ (X), E_{X^{'} \sim P} φ (X^{'}) ⟩_{H} + ⟨ E_{Y \sim Q} φ (Y), E_{Y^{'} \sim Q} φ (Y^{'}) ⟩_{H} - 2 ⟨ E_{X \sim P} φ (X), E_{Y \sim Q} φ (Y) ⟩_{H} \\ = E_{X, X^{'} \sim P} k (X, X^{'}) + E_{Y, Y^{'} \sim Q} k (Y, Y^{'}) - 2 E_{X \sim P, Y \sim Q} k (X, Y) \end{aligned}

$\begin{align} \MMD^2(P, Q) &= \lVert \E_{X \sim P} \varphi(X) - \E_{Y \sim Q} \varphi(Y) \rVert_\h^2 \\&= \langle \E_{X \sim P} \varphi(X), \E_{X' \sim P} \varphi(X') \rangle_\h + \langle \E_{Y \sim Q} \varphi(Y), \E_{Y' \sim Q} \varphi(Y') \rangle_\h - 2 \langle \E_{X \sim P} \varphi(X), \E_{Y \sim Q} \varphi(Y) \rangle_\h \\&= \E_{X, X' \sim P} k(X, X') + \E_{Y, Y' \sim Q} k(Y, Y') - 2 \E_{X \sim P, Y \sim Q} k(X, Y) \end{align}$

Обновление: вот откуда взято «максимум» в названии.

Карта признаков отображается в гильбертово пространство воспроизводящего ядра. Это пространства функций , которые удовлетворяют ключевому свойству (так называемому свойству воспроизведения ): для любого . $\varphi: \X \to \h$ $\langle f, \varphi(x) \rangle_\h = f(x)$ $f \in \h$

В простейшем примере, с , мы рассматриваем каждое как функцию, соответствующую некоторому , через . Тогда воспроизводящее свойство должно иметь смысл. $\X = \h = \R^d$ $\varphi(x) = x$ $f \in \h$ $w \in \R^d$ $f(x) = w' x$ $\langle f, \varphi(x) \rangle_\h = \langle w, x \rangle_{\R^d}$

В более сложных настройках, таких как ядро Гаусса, - гораздо более сложная функция, но свойство воспроизведения все еще сохраняется. $f$

Теперь мы можем дать альтернативную характеристику MMD: Вторая строка - это общий факт о нормах в гильбертовых пространствах:

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] ⟩_{H} - ⟨ f, E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [⟨ f, φ (X) ⟩_{H}] - E_{Y \sim Q} [⟨ f, φ (Y) ⟩_{H}] \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [f (X)] - E_{Y \sim Q} [f (Y)] . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rVert_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] \rangle_\h - \langle f, \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[\langle f, \varphi(X)\rangle_\h] - \E_{Y \sim Q}[\langle f, \varphi(Y) \rangle_\h] \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[f(X)] - \E_{Y \sim Q}[f(Y)] .\end{align}$

sup_{f : ‖ f ‖ \leq 1} ⟨ f, g ⟩_{H} = ‖ g ‖

$\sup_{f : \lVert f \rVert \le 1} \langle f, g \rangle_\h = \lVert g \rVert$ достигается с помощью . Четвертое зависит от технического условия, известного как интегрируемость Бохнера, но верно, например, для ограниченных ядер или распределений с ограниченной поддержкой. Затем в конце мы используем воспроизводящее свойство.

f = g / ‖ g ‖

$f = g / \lVert g \rVert$

Эта последняя строка объясняет, почему она называется «максимальное среднее расхождение» - это максимальная, сверх тестовых функций в единичном шаре , средней разности между двумя распределениями. $f$ $\h$

Дугал
источник

Спасибо за ваше объяснение, это становится более понятным для меня; Тем не менее, я не получил эту концепцию. В начале вы сказали: «MMD определяется идеей представления расстояний между распределениями как расстояний между средними вложениями объектов». Почему эта идея сбывается?

Махса

«MMD определяется идеей представления расстояний между распределениями как расстояний между средними вложениями объектов». Почему эта идея сбывается, связана ли она с пространством РХС?

Махса

Это просто определение: вы можете сравнивать распределения, сравнивая их средства. Или вы можете сравнить распределения, сравнивая некоторые преобразования их средств; или сравнивая их средства и различия; или путем сравнения среднего значения любой другой карты характеристик, в том числе в RKHS.

Дугал

Спасибо за ваш ответ; Я собираюсь прочитать больше о карте возможностей RKHS; Мне было интересно, почему MMD определяет расстояние в карте объектов RKHS? Я имею в виду, в чем преимущество RKHS в определении расстояния MMD?

Махса

Объяснение здесь сосредоточено на «Среднее несоответствие», а не «Максимальное среднее расхождение». Может ли кто-нибудь подробно остановиться на части «Максимизация»?

Цзян Сян

Максимальное среднее расхождение (распределение по расстоянию)

Ответы: