Использование теста статистической значимости для проверки результатов кластерного анализа

13

Я изучаю использование статистической значимости (SST) для проверки результатов кластерного анализа. Я нашел несколько статей по этой теме, таких как

  • « Статистическая значимость кластеризации для данных большого размера с малым размером выборки », Liu, Yufeng et al. (2008)
  • « О некоторых тестах значимости в кластерном анализе », Бок (1985)

Но мне интересно найти некоторую литературу, в которой утверждается, что SST НЕ подходит для проверки результатов кластерного анализа. Единственный источник, который я нашел, утверждая, что это веб-страница поставщика программного обеспечения

Чтобы уточнить:

Я заинтересован в тестировании, была ли обнаружена значительная кластерная структура в результате кластерного анализа, поэтому я хотел бы знать о работах, подтверждающих или опровергающих озабоченность "по поводу возможности последующего тестирования результатов поисковых данных анализ используется для поиска кластеров ".

Я только что нашел статью 2003 года « Методы кластеризации и классификации », написанную Миллиганом и Хиртлом , например, в которой говорится, что использование ANOVA было бы неверным анализом, поскольку данные не имеют случайных назначений группам.

DPS
источник
Это хороший вопрос, но, возможно, стоит отметить, что он сформулирован таким образом, что кажется, что существует дихотомия: либо вы можете проверить значимость кластеризации, либо нет. Однако ситуация иная, потому что «кластерный анализ» означает разные вещи. В ссылочных статьях основное внимание уделяется проверке наличия доказательств кластеризации. В руководстве по программному обеспечению справедливо выражена обеспокоенность по поводу возможности последующего тестирования результатов поискового анализа данных, используемых для поиска кластеров. Здесь нет противоречия.
whuber
Спасибо за ответ. Вы правы в том, как я поставил вопрос. Я заинтересован в тестировании, была ли обнаружена значительная кластерная структура в результате кластерного анализа, поэтому я хотел бы знать о работах, подтверждающих или опровергающих озабоченность "по поводу возможности последующего тестирования результатов поисковых данных анализ используется для поиска кластеров ". Я только что нашел статью 2003 года «Методы кластеризации и классификации», написанную Миллиганом и Хиртлом, в которой говорится, например, что использование ANOVA было бы неверным анализом, поскольку данные не имеют случайных назначений группам.
ДПС
Может помочь: ослепленный наукой: управленческие последствия неадекватно проверенных решений кластерного анализа, mrs.org.uk/ijmr_article/article/78841
rolando2

Ответы:

3

Совершенно очевидно, что вы не можете (наивно) проверять различия в распределениях для групп, которые были определены с использованием одних и тех же данных. Это известно как «выборочное тестирование», «двойное погружение», «круговой вывод» и т. Д.

Примером может служить проведение t-теста на высоту «высоких» и «коротких» людей в ваших данных. Нуль будет (почти) всегда отклоняться.

Сказав это, можно действительно объяснить этап кластеризации на этапе тестирования. Я, однако, незнаком с конкретной ссылкой, которая делает это, но я подозреваю, что это должно было быть сделано.

JohnRos
источник
Я согласен с тем, что нулевое значение будет почти всегда отклоняться при применении теста значимости для различных групп кластеров. Хотя - это должно быть только в том случае, если кластеризация действительно смогла красиво разделить группы для всех переменных, рассматриваемых в ЦС? Разве нельзя использовать критерий значимости, чтобы определить, существуют ли переменные, которые плохо разделены между группами (то есть применить тест для каждой переменной)? Не могли бы вы уточнить статистическую причину, почему это не рекомендуется / нецелесообразно?
Люк
Формальным аргументом является то, что погрешность каждого измерения не центрирована относительно нуля. Вспомните мой высокий / низкий пример: все люди взяты из одного и того же распределения, но в «высокой» группе есть ошибки с положительным средним и «коротким» отрицательным средним.
JohnRos
0

Вместо проверки гипотез с помощью данного теста я бы порекомендовал средства начальной загрузки или другие сводные оценки между кластерами. Например, вы можете рассчитывать на процентиль начальной загрузки, как минимум, с 1000 сэмплами. Ключевым моментом является применение кластеризации независимо к каждому образцу начальной загрузки.

Этот подход будет достаточно надежным, предоставит доказательства различий и поддержит ваше утверждение о существенных различиях между кластерами. Кроме того, вы можете сгенерировать другую переменную (скажем, разницу между кластерами), и начальные оценки такой переменной разницы будут аналогичны формальной проверке гипотезы.

Joe_74
источник