Лучшее расстояние для использования

12

контекст

У меня есть два набора данных, которые я хочу сравнить. Каждый элемент данных в обоих наборах представляет собой вектор, содержащий 22 угла (все между π и π ). Углы относятся к данной конфигурации позы человека, поэтому поза определяется 22 углами соединения.

В конечном итоге я пытаюсь определить «близость» двух наборов данных. Поэтому для каждой позы (вектор 22D) в одном наборе я хочу найти ближайшего соседа в другом наборе и создать график расстояний для каждой из ближайших пар.

Вопросов

  • Могу ли я просто использовать евклидово расстояние?
    • Чтобы иметь смысл, я предполагаю, что метрика расстояния должна быть определена как: θ=|θ1θ2|modπ , где|...|абсолютное значение, а мод по модулю. Затем, используя полученные 22 тэты, я могу выполнить стандартное вычисление евклидова расстояния,t12+t22++t222 .
    • Это верно?
  • Была бы более полезной другая метрика расстояния, такая как хи-квадрат, или Бхаттачарья, или какая-то другая метрика? Если да, не могли бы вы дать некоторое представление о том, почему.
мистифицировать
источник
3
В качестве примечания: я не думаю, что вы имеете в виду . Скорее что-то вроде . |θ1θ2|modπmin{|θ1θ2|,2π|θ1θ2|}
Эрик П.
4
Вместо того, чтобы работать с углами, я предлагаю сначала преобразовать координаты (x, y) в единичном круге. Затем вы можете рассчитать нормально (расстояния и т.п.), и усреднение не является проблемой, как с углами.
Каракал
2
@ Джош Эрик П. предложение хорошее. В качестве альтернативы, рассмотрите каждый угол как точку на единичной окружности и вычислите евклидовы расстояния между ними, используя обычную (пифагорейскую) формулу. Разница между этими расстояниями и угловыми расстояниями не должна иметь значения. (Я полагаю, что это может быть и то, что предложил Каракал.)θ(cos(θ),sin(θ))
whuber
2
@Josh Среднее значение, например, и равно . Во многих случаях это не имеет смысла, и вместо него должно быть . В вашей конкретной ситуации это может не быть проблемой, так как, возможно, человеческие суставы не имеют диапазона движения мимо . Кроме того, в вашем случае, возможно, вы хотите, чтобы вышеупомянутое среднее было поскольку совместное движение является однонаправленным. Предложение @ whuber именно то, что я имел в виду. π/47π/4π0ππ
Каракал
3
Ваша проблема, вероятно, станет намного легче решить, если вы сможете указать последствия «неправильного решения». Итак, если вы скажете, что наборы данных одинаковы или похожи, но на самом деле это не так, что с вами будет? Будет ли это зависеть от того, насколько неправильным было ваше решение? Что произойдет, если вы объявите данные / позы разными, но на самом деле они совпадают или похожи? Что потеряно? Ответ на эти вопросы поможет определить, что имеет значение для сравнения, которое вы хотите сделать. Это гарантирует, что вы отвечаете на правильный вопрос.
вероятностная

Ответы:

5

Вы можете вычислить ковариационную матрицу для каждого набора, а затем вычислить расстояние Хаусдорфа между двумя наборами, используя расстояние Махаланобиса.

Расстояние Махаланобиса - это полезный способ определения сходства неизвестной выборки с известной. Он отличается от евклидова расстояния тем, что учитывает корреляции набора данных и не зависит от масштаба.

Skyde
источник
3

Что вы пытаетесь сделать с информацией о ближайшем соседе?

Я хотел бы ответить на этот вопрос, а затем сравнить различные меры расстояния в свете этого.

Например, скажем, вы пытаетесь классифицировать позы на основе конфигурации соединения и хотели бы, чтобы соединительные векторы из одной и той же позы были близки друг к другу. Простой способ оценить пригодность различных метрик расстояния состоит в том, чтобы использовать каждый из них в классификаторе KNN и сравнить точность выборки для каждой из полученных моделей.

benhamner
источник
2

Похоже, это похоже на определенное приложение информационного поиска (IR). Несколько лет назад я присутствовал на лекции о распознавании походки, которая звучит похоже на то, что вы делаете. В информационном поиске «документы» (в вашем случае: данные об угле человека) сравниваются с некоторым запросом (в вашем случае это может быть «есть человек с данными об угле (.., ..)»). Затем документы перечисляются в том порядке, который соответствует ближайшему к тому, который соответствует наименьшему. Это, в свою очередь, означает, что одним из центральных компонентов IR является помещение документа в некое векторное пространство (в вашем случае: угловое пространство) и сравнение его с одним конкретным запросом или примером документа или измерение их расстояния. (См. Ниже.) Если у вас есть четкое определение расстояния между двумя отдельными векторами, все, что вам нужно сделать, это придумать меру для расстояния двух наборов данных. (Традиционно в IR расстояние в модели векторного пространства вычисляется либо по косинусной мере, либо по евклидову расстоянию, но я не помню, как они это делали в этом случае.) В IR также существует механизм, называемый «обратной связью по релевантности», который концептуально Работает на расстоянии двух комплектов документов. Этот механизм обычно использует меру расстояния, которая суммирует все индивидуальные расстояния между всеми парами документов (или в вашем случае: векторные векторы). Может быть, это полезно для вас.

На следующей странице есть некоторые документы, которые могут иметь отношение к вашей проблеме: http://www.mpi-inf.mpg.de/~mmueller/index_publications.html Особенно этот http://www.mpi-inf.mpg.de/ ~ mmueller / публикации / 2006_DemuthRoederMuellerEberhardt_MocapRetrievalSystem_ECIR.pdf кажется интересным. В выступлении Мюллера, на котором я присутствовал, упоминаются меры сходства Ковара и Глейхера, называемые «облаком точек» (см. Http://portal.acm.org/citation.cfm?id=1186562.1015760&coll=DL&dl=ACM ) и одна, называемая «кватернионами». , Надеюсь, это поможет.

xmjx
источник
Было бы полезно иметь ссылку, если вы можете найти ее. Благодарю.
Джош
2

Эта проблема называется дистанционным метрическим обучением. Любая метрика расстояния может быть представлена ​​как где является положительно-полуопределенным. Методы в этой области, изучите оптимальное значение для ваших данных. На самом деле, если оптимальной окажется единичная матрица, то можно использовать евклидовы расстояния. Если это обратная ковариация, было бы оптимальным использовать расстояние Махаланобиса и так далее, и так далее. Следовательно, метод изучения дистанционной метрики должен использоваться для изучения оптимального , чтобы выучить правильную метрику расстояния. AAAA(xy)tA(xy)AAAA

катафалк
источник
0

Одна проблема с использованием углов в качестве прокси для формы заключается в том, что небольшие возмущения в углах могут привести к большим возмущениям в форме. Кроме того, различные конфигурации углов могут привести к одинаковой (или сходной) форме.

Суреш Венкатасубраманян
источник