Когда использовать взвешенное евклидово расстояние и как определить вес для использования?

16

У меня есть набор данных, где каждый данные состоят из N различных мер. Для каждого показателя у меня есть эталонное значение. Я хотел бы знать, насколько близки все данные к эталонному значению.

Я подумал об использовании взвешенного евклидова расстояния следующим образом:

dИкс,бзнак равно(Σязнак равно1Nвеся(Икся-бя)2))1/2

где

Икся - это значение i-го показателя для конкретных данных

бя - соответствующее контрольное значение для этой меры.

веся - это значение веса, которое я добавлю к i-й мере, с учетом следующего:

0<веся<1 иΣязнак равно1N1

Однако, основываясь на этом документе, я обнаружил, что используемый вес является обратной величиной дисперсии i-го показателя. Я не думаю, что такого рода взвешивание будет учитывать важность, которую я буду придавать каждой мере.

Следовательно:

  1. Существуют ли методы для определения набора весов, который отражает относительную важность меры для наблюдателя, или же наблюдатель может назначить произвольные значения для весов?

  2. Целесообразно ли использовать взвешенное евклидово расстояние для решения этой проблемы?

Сара
источник

Ответы:

16

Веса для стандартизации

У вас есть установка расстояния Махаланобиса . Поэтому, когда является обратной величиной дисперсии каждого измерения, вы фактически помещаете все измерения в одну шкалу. Это подразумевает, что вы думаете, что различия в каждом из них одинаково «важны», но некоторые измеряются в единицах, которые не могут быть сразу сопоставлены.вес

Веса для важности

В качестве весов вы можете указывать все, что вам нравится, включая показатели «важности» (хотя вы можете захотеть стандартизировать до взвешивания важности, если единицы измерения различаются).

Пример может помочь прояснить проблемы: рассмотрим идею оценки идеологических «расстояний» между политическими игроками. В этом приложении и могут быть позициями двух действующих лиц по му вопросу, и значимость этого вопроса. Например,Иксбявесябяможет быть статус-кво в каком-то измерении, от которого отличаются позиции разных актеров. В этой заявке, безусловно, предпочтительнее измерить, чем отстаивать как значимость, так и позицию. В любом случае, большие веса будут влиять на несущественные проблемы, будут меньше влиять на общее расстояние между участниками, если они будут вычислены в соответствии с вашим первым уравнением. Обратите также внимание на то, что в этой версии мы не предполагаем никакой соответствующей ковариации между позициями, что является довольно сильным утверждением.

Сосредоточив внимание теперь на вопросе 2: В приложении я только что описал обоснование весов и расстояний в теоретических предположениях о транзитивных структурах предпочтений и тому подобном. В конечном счете, это единственные причины, по которым «уместно» вычислять расстояния таким образом. Без них у нас просто есть набор чисел, которые подчиняются неравенству треугольника.

Вес как неявное измерение

Что касается ковариационной темы, то может быть полезно думать о вашей проблеме как об идентифицирующей релевантном подпространстве, в котором расстояния имеют существенный смысл, исходя из предположения, что многие измерения, которые вы проводите, действительно измеряют похожие вещи. Измерительная модель, например факторный анализ, будет проецировать все через взвешенную комбинацию в общее пространство, в котором можно вычислить расстояния. Но, опять же, нам нужно знать контекст вашего исследования, чтобы сказать, имеет ли это смысл.

conjugateprior
источник
спасибо за ценную информацию. но у меня есть вопросы о том, как рассчитать вес?