Это зависит от ваших данных. И на самом деле это не имеет ничего общего с иерархической кластеризацией, но с самими функциями расстояния.
Проблема в том, что у вас смешанные атрибуты .
Скажем, у вас есть данные о людях. Вес в граммах и размер обуви. Размеры обуви отличаются очень мало, в то время как различия в массе тела (в граммах) намного больше. Вы можете придумать десятки примеров. Вы просто не можете сравнить разницу в 1 г и 1 размер обуви. Фактически, в этом примере вы вычисляете что-то, что будет иметь физическую единицу !грамм⋅ размер обуви---------√
Обычно в этих случаях евклидово расстояние просто не имеет смысла. Но это может все еще работать, во многих ситуациях, если вы нормализуете свои данные. Даже если это на самом деле не имеет смысла, это хорошая эвристика для ситуаций, когда у вас нет «доказанной правильной» функции расстояния, например, евклидово расстояние в физическом мире человеческого масштаба.
Если вы не стандартизируете свои данные, то переменные, измеренные в больших оцененных единицах, будут доминировать над вычисленной разницей, а переменные, которые измеряются в небольших значимых единицах, будут вносить очень незначительный вклад.
Мы можем визуализировать это в R через:
dist1
содержит евклидово расстояние для 100 наблюдений, основанное на всех трех переменных, в то время какdist2
содержит евклидово расстояние, основанное наvar1
одном.Обратите внимание, насколько схожи распределения расстояний, что указывает на небольшой вклад от
var2
иvar3
, а фактические расстояния очень похожи:Если мы стандартизируем данные
затем происходит большое изменение расстояний, основанных только на расстояниях,
var1
основанных на всех трех переменных:Поскольку иерархическая кластеризация использует эти расстояния, то, будет ли желательно стандартизировать или нет, будет зависеть от типа данных / переменных, которые у вас есть, и от того, хотите ли вы, чтобы большие вещи доминировали над расстояниями и, следовательно, доминировали при формировании кластеризации. Ответ на этот вопрос зависит от конкретной области и набора данных.
источник
Anony-Mousse дал отличный ответ . Я бы просто добавил, что метрика расстояния, которая имеет смысл, будет зависеть от формы многомерных распределений. Для многомерного гауссова расстояние Махаланобиса является подходящей мерой.
источник