Я изучаю использование статистической значимости (SST) для проверки результатов кластерного анализа. Я нашел несколько статей по этой теме, таких как
- « Статистическая значимость кластеризации для данных большого размера с малым размером выборки », Liu, Yufeng et al. (2008)
- « О некоторых тестах значимости в кластерном анализе », Бок (1985)
Но мне интересно найти некоторую литературу, в которой утверждается, что SST НЕ подходит для проверки результатов кластерного анализа. Единственный источник, который я нашел, утверждая, что это веб-страница поставщика программного обеспечения
Чтобы уточнить:
Я заинтересован в тестировании, была ли обнаружена значительная кластерная структура в результате кластерного анализа, поэтому я хотел бы знать о работах, подтверждающих или опровергающих озабоченность "по поводу возможности последующего тестирования результатов поисковых данных анализ используется для поиска кластеров ".
Я только что нашел статью 2003 года « Методы кластеризации и классификации », написанную Миллиганом и Хиртлом , например, в которой говорится, что использование ANOVA было бы неверным анализом, поскольку данные не имеют случайных назначений группам.
Ответы:
Совершенно очевидно, что вы не можете (наивно) проверять различия в распределениях для групп, которые были определены с использованием одних и тех же данных. Это известно как «выборочное тестирование», «двойное погружение», «круговой вывод» и т. Д.
Примером может служить проведение t-теста на высоту «высоких» и «коротких» людей в ваших данных. Нуль будет (почти) всегда отклоняться.
Сказав это, можно действительно объяснить этап кластеризации на этапе тестирования. Я, однако, незнаком с конкретной ссылкой, которая делает это, но я подозреваю, что это должно было быть сделано.
источник
Вместо проверки гипотез с помощью данного теста я бы порекомендовал средства начальной загрузки или другие сводные оценки между кластерами. Например, вы можете рассчитывать на процентиль начальной загрузки, как минимум, с 1000 сэмплами. Ключевым моментом является применение кластеризации независимо к каждому образцу начальной загрузки.
Этот подход будет достаточно надежным, предоставит доказательства различий и поддержит ваше утверждение о существенных различиях между кластерами. Кроме того, вы можете сгенерировать другую переменную (скажем, разницу между кластерами), и начальные оценки такой переменной разницы будут аналогичны формальной проверке гипотезы.
источник