В чем практическая разница между метрикой Вассерштейна и дивергенцией Кульбака-Лейблера ? Метрика Вассерштейна также называется расстоянием перемещения Земли .
Из Википедии:
Метрика Вассерштейна (или Вазерштейна) - это функция расстояния, определяемая между вероятностными распределениями в данном метрическом пространстве М.
а также
Дивергенция Кульбака – Лейблера - это мера того, как одно распределение вероятностей отличается от второго ожидаемого распределения вероятностей.
Я видел, как KL использовался для реализации машинного обучения, но недавно я наткнулся на метрику Вассерштейна. Есть ли хорошее руководство о том, когда использовать один или другой?
(У меня недостаточно репутации, чтобы создать новый тег с помощью Wasserstein
или Earth mover's distance
.)
источник
Ответы:
При рассмотрении преимуществ метрики Вассерштейна по сравнению с дивергенцией KL, наиболее очевидным является то, что W является метрикой, а дивергенция KL - нет, поскольку KL не симметрична (т. Е. в общем случае) и не удовлетворяет неравенству треугольника (т.е. D K L ( R | | P ) ≤ D K L ( Q | | P ) + D KDKL(P||Q)≠DKL(Q||P) в общем случае не выполняется).DKL(R||P)≤DKL(Q||P)+DKL(R||Q)
Что касается практических различий, то одним из наиболее важных является то, что в отличие от KL (и многих других мер) Вассерштейн учитывает метрическое пространство, и то, что это означает в менее абстрактных терминах, возможно, лучше всего объяснить на примере (не стесняйтесь пропускать на рисунке, код только для его производства):
Здесь измерения между красным и синим распределением одинаковы для дивергенции KL, тогда как расстояние Вассерштейна измеряет работу, требуемую для переноса вероятностной массы из красного состояния в синее с использованием оси x в качестве «дороги». Эта мера, очевидно, тем больше, чем дальше масса вероятности (отсюда и псевдоним движка Земли). То, какой из них вы хотите использовать, зависит от области применения и того, что вы хотите измерить. Как примечание, вместо расхождения KL есть и другие параметры, такие как расстояние Дженсена-Шеннона, которые являются правильными метриками.
источник
Метрика Вассерштейна чаще всего возникает в задачах оптимального транспорта, где цель состоит в том, чтобы переместить вещи из заданной конфигурации в желаемую конфигурацию с минимальными затратами или минимальным расстоянием. Кульбак-Лейблер (КЛ) является дивергенцией (не метрикой) и очень часто проявляется в статистике, машинном обучении и теории информации.
Кроме того, метрика Вассерштейна не требует, чтобы обе меры находились в одном и том же вероятностном пространстве, тогда как для дивергенции KL требуется, чтобы обе меры были определены в одном и том же вероятностном пространстве.
источник
Метрика Вассерштейна полезна при проверке моделей, поскольку ее единицы - это единицы измерения самого ответа. Например, если вы сравниваете два стохастических представления одной и той же системы (например, модель с уменьшенным порядком), и , и ответ - это единицы смещения, метрика Вассерштейна также выражается в единицах смещения. Если бы вы сократили свое стохастическое представление до детерминированного, CDF распределения каждого из них является пошаговой функцией. Метрика Вассерштейна - это разность значений.P Q
Я нахожу это свойство очень естественным расширением, чтобы говорить об абсолютной разнице между двумя случайными переменными
источник