У меня есть 17 числовых и 5 двоичных (0-1) переменных, с 73 выборками в моем наборе данных. Мне нужно запустить кластерный анализ. Я знаю, что расстояние Гауэра является хорошим показателем для наборов данных со смешанными переменными. Однако я не мог понять, как расстояние Гауэра рассчитывает разницу между двоичными переменными . Мне кажется, что это не отличается от евклидова расстояния.
clustering
distance
mixed-type-data
Эмра Билгич
источник
источник
Gower
? stats.stackexchange.com/a/15313/3277Ответы:
Как насчет двоичных атрибутов, которые имеют значения «m» и «f», для «мужской» и «женский»?
Вы понимаете, что для двудольной переменной все, что вы можете получить, это «то же самое» или «другое»? Ключевой разницей между расстояниями нет, если значение равно 1 или 0; но как несколько переменных объединяются.
источник
Gower distance использует Manhattan для вычисления расстояния между непрерывными точками данных и Dice для расчета расстояния между категориальными точками данных
источник