Существует очень широкое разнообразие методов кластеризации, которые по своей природе являются исследовательскими, и я не думаю, что какой-либо из них, будь то иерархический или основанный на разделах, опирается на те предположения, с которыми приходится сталкиваться при анализе отклонений.
Взглянув на документацию [MV] в Stata, чтобы ответить на ваш вопрос, я нашел эту забавную цитату на странице 85:
Хотя некоторые говорят, что существует столько же методов кластерного анализа, сколько людей проводят кластерный анализ. Это грубое преуменьшение! Существует бесконечно больше способов выполнить кластерный анализ, чем людей, которые их выполняют.
В этом контексте я сомневаюсь, что существуют какие-либо предположения, применимые к методу кластеризации. Остальная часть текста просто устанавливает в качестве общего правила, что для создания кластеров вам нужна какая-то форма «меры отличия», которая даже не должна быть метрическим расстоянием.
Однако есть одно исключение, когда вы группируете наблюдения как часть анализа после оценки. В Stata vce
команда поставляется со следующим предупреждением на странице 86 того же источника:
Если вы знакомы с большим массивом команд оценки Stata, будьте осторожны, чтобы различать кластерный анализ (команда cluster) и параметр vce (cluster clustvar), допустимый для многих команд оценки. Кластерный анализ находит группы в данных. Опция vce (cluster clustvar), разрешенная для различных команд оценки, указывает на то, что наблюдения независимы от групп, определенных этой опцией, но не обязательно независимы в этих группах. Группирующая переменная, создаваемая командой cluster, редко удовлетворяет предположению об использовании опции vce (cluster clustvar).
Исходя из этого, я бы предположил, что независимые наблюдения не требуются вне этого конкретного случая. Интуитивно я бы добавил, что кластерный анализ может даже использоваться для точной цели исследования степени независимости наблюдений или нет.
В заключение я упомяну , что на странице 356 Статистики со Статой Лоуренс Гамильтон упоминает стандартизированные переменные как «существенный» аспект кластерного анализа, хотя он не углубляется в эту проблему.