Я не знаю, какую функцию расстояния между людьми использовать в случае номинальных (неупорядоченных категориальных) атрибутов. Я читал какой-то учебник, и они предлагают функцию простого сопоставления, но некоторые книги предлагают, чтобы я изменил номинальные на двоичные атрибуты и использовал коэффициент Джакарда . Однако что если значения номинального атрибута не равны 2? что если в этом атрибуте есть три или четыре значения?
Какую функцию расстояния я должен использовать для номинальных атрибутов?
Ответы:
Технически, чтобы вычислить меру несоответствия между индивидами по номинальным атрибутам, большинство программ сначала перекодируют каждую номинальную переменную в набор фиктивных двоичных переменных, а затем вычисляют некоторую меру для двоичных переменных. Вот формулы некоторых часто используемых бинарных мер сходства и различий .
Что такое фиктивные переменные (также называемые «горячими»)? Ниже 5 человек, две номинальные переменные (A с 3 категориями, B с 2 категориями). 3 манекена созданы вместо А, 2 манекена созданы вместо В.
(Нет необходимости исключать одну фиктивную переменную как «избыточную», как мы обычно делаем это при регрессии с фиктивными переменными. Это не практикуется при кластеризации, хотя в особых ситуациях вы можете рассмотреть этот вариант.)
Интуитивная достоверность коэффициента подобия костей основана на том факте, что это просто пропорция совпадения (или относительное согласие ). Для приведенного выше фрагмента данных возьмите номинальный столбец
A
и вычислите5x5
квадратную симметричную матрицу либо1
(оба человека попадали в одну и ту же категорию), либо0
(не в одну и ту же категорию). Вычислите аналогично матрицу дляB
.Суммируйте соответствующие записи двух матриц и разделите на 2 (количество номинальных переменных) - здесь вы с матрицей коэффициентов Dice. (Таким образом, на самом деле вам не нужно создавать фиктивные элементы для вычисления Dice, с матричными операциями вы, вероятно, можете сделать это быстрее, как только что описано.) См. Связанную тему Dice для ассоциации именных атрибутов .
Хотя кубики являются наиболее очевидной мерой, которую нужно использовать, когда вы хотите (не) использовать функцию сходства между случаями, когда атрибуты являются категориальными, можно использовать другие двоичные меры - если найти их формулу, удовлетворяющую соображениям о ваших номинальных данных.
Но ...
Поскольку во многих приложениях матрицы близости, например во многих методах кластерного анализа, результаты не изменятся или будут плавно меняться при линейном (а иногда даже при монотонном) преобразовании близости, кажется, что это может быть оправдано для огромного числа бинарные меры, кроме Dice, чтобы получить такие же или похожие результаты. Но вы должны сначала рассмотреть / изучить, как конкретный метод (например, связь в иерархической кластеризации) реагирует на данное преобразование ближайших сторон.
Если ваша запланированная кластеризация или анализ MDS чувствительны к монотонным преобразованиям расстояний, вам лучше воздержаться от использования мер, отмеченных как «монотонные» в таблице выше (и, следовательно, да, не рекомендуется использовать сходство по Джакарду или евклидово расстояние без квадратов с фиктивной , т. е. прежние именные, атрибуты).
источник