Вопросы с тегом «distance-functions»

Функции расстояния относятся к функциям, используемым для количественной оценки понятия расстояния между элементами набора или между объектами.

241
Почему евклидово расстояние не является хорошим показателем в больших измерениях?

Я читал, что «евклидово расстояние не является хорошим расстоянием в больших измерениях». Я думаю, что это утверждение как-то связано с проклятием размерности, но что именно? Кроме того, что такое «большие размеры»? Я применял иерархическую кластеризацию, используя евклидово расстояние со 100...

73
Выбор метода кластеризации

При использовании кластерного анализа в наборе данных для группировки аналогичных случаев необходимо выбирать из большого числа методов кластеризации и измерений расстояния. Иногда один выбор может влиять на другой, но существует множество возможных комбинаций методов. Кто-нибудь есть какие-либо...

62
Почему алгоритм кластеризации k-средних использует только евклидову метрику расстояния?

Есть ли конкретная цель с точки зрения эффективности или функциональности, почему алгоритм k-средних не использует, например, косинусное (дис) сходство в качестве метрики расстояния, а может использовать только евклидову норму? В целом, будет ли метод K-средних соответствовать и быть правильным,...

42
Каково распределение евклидова расстояния между двумя нормально распределенными случайными величинами?

Предположим, вам даны два объекта, точное местоположение которых неизвестно, но они распределены в соответствии с обычным распределением с известными параметрами (например, и . Мы можем предположить, что это обе двумерные нормали, так что позиции описываются распределением по координатам (т. Е. и -...

37
Расстояние Кульбак – Лейблер - Колмогоров-Смирнов

Я вижу, что существует много формальных различий между мерами расстояния Кульбака-Лейблера-Колмогорова-Смирнова. Тем не менее, оба используются для измерения расстояния между распределениями. Есть ли типичная ситуация, когда один должен использоваться вместо другого? Каково обоснование для этого?...

34
Иерархическая кластеризация с данными смешанного типа - какое расстояние / сходство использовать?

В моем наборе данных у нас есть как непрерывные, так и естественно дискретные переменные. Я хочу знать, можем ли мы сделать иерархическую кластеризацию, используя оба типа переменных. И если да, то какое расстояние...

28
Измерение «расстояния» между двумя многомерными распределениями

Я ищу хорошую терминологию для описания того, что я пытаюсь сделать, чтобы упростить поиск ресурсов. Итак, скажем, у меня есть две группы точек A и B, каждая из которых связана с двумя значениями, X и Y, и я хочу измерить «расстояние» между A и B - то есть, насколько вероятно, что они были отобраны...

28
Сравнение иерархических кластерных дендрограмм, полученных разными расстояниями и методами

[Первоначальный заголовок «Измерение подобия для деревьев иерархической кластеризации» был позже изменен @ttnphns, чтобы лучше отражать тему] Я выполняю ряд иерархических кластерных анализов на базе данных записей пациентов (например, аналогично...

20
Существует ли объективная оценка расстояния Хеллингера между двумя распределениями?

В ситуации, когда наблюдается распределение X1,…,XnX1,…,XnX_1,\ldots,X_n распределенное по распределению с плотностью fff , мне интересно, существует ли объективная оценка (на основе XiXiX_i ) расстояния Хеллингера до другого распределения с плотностью f0f0f_0 , а именно...

16
Когда использовать взвешенное евклидово расстояние и как определить вес для использования?

У меня есть набор данных, где каждый данные состоят из NNn различных мер. Для каждого показателя у меня есть эталонное значение. Я хотел бы знать, насколько близки все данные к эталонному значению. Я подумал об использовании взвешенного евклидова расстояния следующим образом: dх , б= ( ∑Nя = 1веся(...

15
Можно ли использовать расстояние Манхэттена с межкластерными связями Уорда в иерархической кластеризации?

Я использую иерархическую кластеризацию для анализа данных временных рядов. Мой код реализован с использованием функции MathematicaDirectAgglomerate[...] , которая генерирует иерархические кластеры с учетом следующих входных данных: матрица расстояний D название метода, используемого для...

15
Кластеризация: я должен использовать расхождение Дженсена-Шеннона или его квадрат?

Я группирую распределения вероятностей, используя алгоритм распространения сродства , и планирую использовать расхождение Дженсена-Шеннона в качестве метрики расстояния. Правильно ли использовать сам JSD в качестве расстояния или JSD в квадрате? Почему? Какие различия могут возникнуть в результате...

14
Метрики или для кластеризации?

Кто-нибудь использует метрики или для кластеризации, а не ? Аггарвал и др. Об удивительном поведении метрик расстояния в многомерном пространстве сказали (в 2001 г.), чтоL1L1L_1L.5L.5L_.5L2L2L_2 L1L1L_1 неизменно предпочтительнее, чем евклидова метрика расстояния для приложений анализа больших...

13
Евклидово расстояние и сходство

Я просто работаю с книгой Коллективный разум (Тоби Сегаран) и натолкнулся на евклидову оценку расстояния. В книге автор показывает, как рассчитать сходство между двумя массивами рекомендаций (например, .человек × фильм ↦ оценка )person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto...

12
Расчет расхождения Дженсена-Шеннона для 3-х вероятных распределений: это нормально?

Я хотел бы рассчитать дивергенцию Дженсена-Шеннона для следующих трех распределений. Является ли приведенный ниже расчет правильным? (Я следовал формуле JSD из Википедии ): P1 a:1/2 b:1/2 c:0 P2 a:0 b:1/10 c:9/10 P3 a:1/3 b:1/3 c:1/3 All distributions have equal weights, ie 1/3. JSD(P1, P2, P3) =...

12
Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

12
Какова оптимальная функция расстояния для людей, когда атрибуты являются номинальными?

Я не знаю, какую функцию расстояния между людьми использовать в случае номинальных (неупорядоченных категориальных) атрибутов. Я читал какой-то учебник, и они предлагают функцию простого сопоставления, но некоторые книги предлагают, чтобы я изменил номинальные на двоичные атрибуты и использовал...

12
Лучшее расстояние для использования

контекст У меня есть два набора данных, которые я хочу сравнить. Каждый элемент данных в обоих наборах представляет собой вектор, содержащий 22 угла (все между −π−π-\pi и ππ\pi ). Углы относятся к данной конфигурации позы человека, поэтому поза определяется 22 углами соединения. В конечном итоге я...

11
Что такое расстояние Махаланобиса и как оно используется в распознавании образов?

Может кто-нибудь объяснить мне концепцию расстояния Махаланобиса? Например, каково расстояние Махаланобиса между двумя точками x и y, и особенно, как оно интерпретируется для распознавания...

11
Каковы расстояния между переменными, составляющими ковариационную матрицу?

У меня есть ковариационная матрица и я хочу разделить переменные на k кластеров, используя иерархическую кластеризацию (например, для сортировки ковариационной матрицы).n × nn×nn \times nКkk Существует ли типичная функция расстояния между переменными (то есть между столбцами / строками квадратной...