контекст
У меня есть два набора данных, которые я хочу сравнить. Каждый элемент данных в обоих наборах представляет собой вектор, содержащий 22 угла (все между и ). Углы относятся к данной конфигурации позы человека, поэтому поза определяется 22 углами соединения.
В конечном итоге я пытаюсь определить «близость» двух наборов данных. Поэтому для каждой позы (вектор 22D) в одном наборе я хочу найти ближайшего соседа в другом наборе и создать график расстояний для каждой из ближайших пар.
Вопросов
- Могу ли я просто использовать евклидово расстояние?
- Чтобы иметь смысл, я предполагаю, что метрика расстояния должна быть определена как: , гдеабсолютное значение, а мод по модулю. Затем, используя полученные 22 тэты, я могу выполнить стандартное вычисление евклидова расстояния, .
- Это верно?
- Была бы более полезной другая метрика расстояния, такая как хи-квадрат, или Бхаттачарья, или какая-то другая метрика? Если да, не могли бы вы дать некоторое представление о том, почему.
measurement
distance-functions
circular-statistics
мистифицировать
источник
источник
Ответы:
Вы можете вычислить ковариационную матрицу для каждого набора, а затем вычислить расстояние Хаусдорфа между двумя наборами, используя расстояние Махаланобиса.
Расстояние Махаланобиса - это полезный способ определения сходства неизвестной выборки с известной. Он отличается от евклидова расстояния тем, что учитывает корреляции набора данных и не зависит от масштаба.
источник
Что вы пытаетесь сделать с информацией о ближайшем соседе?
Я хотел бы ответить на этот вопрос, а затем сравнить различные меры расстояния в свете этого.
Например, скажем, вы пытаетесь классифицировать позы на основе конфигурации соединения и хотели бы, чтобы соединительные векторы из одной и той же позы были близки друг к другу. Простой способ оценить пригодность различных метрик расстояния состоит в том, чтобы использовать каждый из них в классификаторе KNN и сравнить точность выборки для каждой из полученных моделей.
источник
Похоже, это похоже на определенное приложение информационного поиска (IR). Несколько лет назад я присутствовал на лекции о распознавании походки, которая звучит похоже на то, что вы делаете. В информационном поиске «документы» (в вашем случае: данные об угле человека) сравниваются с некоторым запросом (в вашем случае это может быть «есть человек с данными об угле (.., ..)»). Затем документы перечисляются в том порядке, который соответствует ближайшему к тому, который соответствует наименьшему. Это, в свою очередь, означает, что одним из центральных компонентов IR является помещение документа в некое векторное пространство (в вашем случае: угловое пространство) и сравнение его с одним конкретным запросом или примером документа или измерение их расстояния. (См. Ниже.) Если у вас есть четкое определение расстояния между двумя отдельными векторами, все, что вам нужно сделать, это придумать меру для расстояния двух наборов данных. (Традиционно в IR расстояние в модели векторного пространства вычисляется либо по косинусной мере, либо по евклидову расстоянию, но я не помню, как они это делали в этом случае.) В IR также существует механизм, называемый «обратной связью по релевантности», который концептуально Работает на расстоянии двух комплектов документов. Этот механизм обычно использует меру расстояния, которая суммирует все индивидуальные расстояния между всеми парами документов (или в вашем случае: векторные векторы). Может быть, это полезно для вас.
На следующей странице есть некоторые документы, которые могут иметь отношение к вашей проблеме: http://www.mpi-inf.mpg.de/~mmueller/index_publications.html Особенно этот http://www.mpi-inf.mpg.de/ ~ mmueller / публикации / 2006_DemuthRoederMuellerEberhardt_MocapRetrievalSystem_ECIR.pdf кажется интересным. В выступлении Мюллера, на котором я присутствовал, упоминаются меры сходства Ковара и Глейхера, называемые «облаком точек» (см. Http://portal.acm.org/citation.cfm?id=1186562.1015760&coll=DL&dl=ACM ) и одна, называемая «кватернионами». , Надеюсь, это поможет.
источник
Эта проблема называется дистанционным метрическим обучением. Любая метрика расстояния может быть представлена как где является положительно-полуопределенным. Методы в этой области, изучите оптимальное значение для ваших данных. На самом деле, если оптимальной окажется единичная матрица, то можно использовать евклидовы расстояния. Если это обратная ковариация, было бы оптимальным использовать расстояние Махаланобиса и так далее, и так далее. Следовательно, метод изучения дистанционной метрики должен использоваться для изучения оптимального , чтобы выучить правильную метрику расстояния. AAAA(x−y)tA(x−y)−−−−−−−−−−−−−√ A A A A
источник
Одна проблема с использованием углов в качестве прокси для формы заключается в том, что небольшие возмущения в углах могут привести к большим возмущениям в форме. Кроме того, различные конфигурации углов могут привести к одинаковой (или сходной) форме.
источник