Что такое расстояние Хеллингера и когда его использовать?

19

Мне интересно знать, что на самом деле происходит на расстоянии Хеллингера (простыми словами). Кроме того, мне также интересно узнать, какие типы проблем мы можем использовать для расстояния Хеллингера? Каковы преимущества использования Hellinger Distance?

Кузнец волка
источник
9
Расстояние Хеллингера является вероятностным аналогом евклидова расстояния. Существенным свойством является его симметрия как метрика. Такие математические свойства полезны, если вы пишете статью, и вам нужна функция расстояния, которая обладает определенными свойствами, чтобы сделать ваше доказательство возможным. В приложении кто-то может обнаружить, что одна метрика дает хорошие или лучшие результаты, чем другая, для определенной задачи; Например, расстояние Вассерштейна - самая
Эмре,
Спасибо за комментарий. Я столкнулся с этим вопросом, который очень похож на вопрос, который у меня есть сейчас. datascience.stackexchange.com/questions/22324/… Пожалуйста, дайте мне знать, почему ответ говорит, что расстояние Хеллингера подходит?
Смит Волка
2
Вероятно, чтобы визуализировать темы в метрическом пространстве. Еще одним приятным свойством является то, что расстояние Хеллингера конечно для распределений с различной поддержкой. Это хорошо, что вы задаете эти вопросы. Я предлагаю попробовать разные метрики для себя и наблюдать за результатами.
Эмре
Благодарю. это хорошая ссылка. очень помогает Но ограничено ли расстояние Хеллингера только темами, полученными из скрытого распределения Дирихле (LDA), как упомянуто в ссылке?
Смит Волка
1
Нет, это не имеет никакого отношения к LDA.
Эмре

Ответы:

7

Расстояние Хеллингера - это показатель, измеряющий разницу между двумя вероятностными распределениями. Это вероятностный аналог евклидова расстояния .

PQ

h(P,Q)=12PQ2

Это полезно при количественной оценке разницы между двумя распределениями вероятностей. Например, если вы оцениваете распределение для пользователей и не пользователей службы. Если для некоторых объектов расстояние Хеллингера мало между этими группами, то эти объекты статистически не пригодны для сегментации.

Брайан Спиеринг
источник