Уведомление после таблицы ANOVA после анализа K-средних указывает на то, что уровни значимости не следует рассматривать как критерий равных средних, поскольку кластерное решение было получено на основе евклидова расстояния для максимизации расстояния. Какой тест я должен использовать, чтобы показать, отличаются ли средства переменных кластеризации между кластерами? Я видел это предупреждение в предоставленной таблице ANOVA для выходов k-средних, но в некоторых ссылках я вижу, что выполняются специальные тесты ANOVA. Должен ли я игнорировать выходные данные ANOVA для k-средних и запускать односторонние ANOVA с помощью специальных тестов и интерпретировать их традиционным способом? Или я могу подразумевать только величину F и какие переменные больше влияют на разницу? Другая путаница заключается в том, что кластеризованные переменные обычно не распределяются в нарушение предположения ANOVA, тогда я мог бы использовать непараметрический критерий Крускала-Уоллиса, но он имеет предположение о тех же распределениях. Межкластерные распределения для конкретных переменных не кажутся одинаковыми, некоторые имеют положительный перекос, некоторые - отрицательный ... У меня 1275 больших выборок, 5 кластеров, 10 кластерных переменных, измеренных в баллах PCA.
14
Ответы:
Нет!
Вы не должны использовать одни и те же данные для 1) выполнения кластеризации и 2) для поиска значительных различий между точками в кластерах. Даже если в данных нет фактической структуры, кластеризация навязывает одну, группируя точки, которые находятся рядом. Это уменьшает дисперсию внутри группы и увеличивает дисперсию между группами, что смещает вас к ложным срабатываниям.
Здесь нет ничего особенного в ANOVA - вы могли бы увидеть подобные эффекты, используя непараметрические тесты, логистическую регрессию, что угодно. В общем, проверка производительности алгоритма кластеризации является сложной задачей, особенно если данные не помечены. Однако есть несколько подходов к «внутренней проверке» или измерению качества кластеров без использования внешних источников данных. Как правило, они сосредоточены на компактности и отделимости кластеров. Этот обзор Lui et al. (2010) может быть хорошим местом для начала.
источник
Ваша настоящая проблема - отслеживание данных. Нельзя применять ANOVA или KW, если наблюдения были назначены группам (кластерам) на основе самого набора входных данных. Что вы можете сделать, это использовать что-то вроде статистики Gap для оценки количества кластеров.
С другой стороны, отслеживаемые p-значения смещены вниз, поэтому, если результат теста ANOVA или KW незначителен, то «истинное» p-значение еще больше, и вы можете решить объединить кластеры.
источник
Я думаю, что вы могли бы применить такой подход (то есть, используя статистику, такую как F-статистика или t-статистика или что-то еще), если вы выбрасываете обычные нулевые распределения .
То, что вам нужно сделать, - это смоделировать ситуацию, в которой ваше значение равно нулю, применить всю процедуру (кластеризация и т. Д.), А затем вычислять любую статистику каждый раз. Применительно ко многим симуляциям вы получите распределение для статистики с нулевым значением, с которым можно сравнить значение вашей выборки. Включая отслеживание данных в расчет, вы учитываете его влияние.
[В качестве альтернативы можно было бы разработать тест на основе повторной выборки (будь то на основе перестановки / рандомизации или начальной загрузки).]
источник