Соответствие ANOVA после кластерного анализа k-средних

14

Уведомление после таблицы ANOVA после анализа K-средних указывает на то, что уровни значимости не следует рассматривать как критерий равных средних, поскольку кластерное решение было получено на основе евклидова расстояния для максимизации расстояния. Какой тест я должен использовать, чтобы показать, отличаются ли средства переменных кластеризации между кластерами? Я видел это предупреждение в предоставленной таблице ANOVA для выходов k-средних, но в некоторых ссылках я вижу, что выполняются специальные тесты ANOVA. Должен ли я игнорировать выходные данные ANOVA для k-средних и запускать односторонние ANOVA с помощью специальных тестов и интерпретировать их традиционным способом? Или я могу подразумевать только величину F и какие переменные больше влияют на разницу? Другая путаница заключается в том, что кластеризованные переменные обычно не распределяются в нарушение предположения ANOVA, тогда я мог бы использовать непараметрический критерий Крускала-Уоллиса, но он имеет предположение о тех же распределениях. Межкластерные распределения для конкретных переменных не кажутся одинаковыми, некоторые имеют положительный перекос, некоторые - отрицательный ... У меня 1275 больших выборок, 5 кластеров, 10 кластерных переменных, измеренных в баллах PCA.

Inga
источник
Зачем вам проверять равенство средств? Не могли бы вы просто проверить, как ваша модель работает из образца?
Джеймс
Я хотел определить, какие средние значения переменных различаются в кластерах, т. Е. Отличается ли среднее значение v1 в кластере 1 от среднего значения v1 в кластере, 2, 3, 4, 5. Конечно, я могу это увидеть, составив график, но это не расскажу о статистической разнице. Тест на статистическую разницу заставил меня запутаться, так как для ANOVA мои данные не соответствовали предположению о нормальном распределении, но для теста Крускала Уоллиса такое же предположение о распределении формы между кластерными группами.
Инга
1
Как указал @James в своем ответе, вы «подглядываете». Что может быть причиной для проверки значимости между группами, которые вы (ваша кластеризация) предварительно выбрали, чтобы они максимально различались? Здесь нет никаких признаков случайной или пропорциональной выборки из популяций, которые различаются по некоторым внешним характеристикам фона.
ttnphns
Спасибо за ответы! Моя путаница возникла, поскольку в некоторых источниках я вижу, что статистические средние сравнения не подходят в этой ситуации, как вы также указали, но, например, цитата из главы 1 книги указывает на обратное: «мы обычно проверяем средние значения для каждого кластера в каждом измерении, используя ANOVA чтобы оценить, насколько различимы наши кластеры. В идеале мы получили бы существенно разные средние значения для большинства, если не для всех измерений, используемых в анализе. Величина значений F, выполненных для каждого измерения, является показателем того, насколько хорошо соответствующее измерение различает кластеры "
Инга
1
У вас есть право оценивать различия между кластерами по характеристикам, используемым для кластеризации, чтобы определить наиболее различимые из них. При этом вы можете вычислить относительные различия, F и даже p-значения. В качестве показателей величины эффекта. Не в качестве показателей статистической значимости (которые относятся к населению).
ttnphns

Ответы:

13

Нет!

Вы не должны использовать одни и те же данные для 1) выполнения кластеризации и 2) для поиска значительных различий между точками в кластерах. Даже если в данных нет фактической структуры, кластеризация навязывает одну, группируя точки, которые находятся рядом. Это уменьшает дисперсию внутри группы и увеличивает дисперсию между группами, что смещает вас к ложным срабатываниям.

К

Результаты моделирования, показывающие равномерное распределение значений p для случайных назначений и сильно искаженное (почти все 0,05 или менее) распределение значений p после кластеризации

Здесь нет ничего особенного в ANOVA - вы могли бы увидеть подобные эффекты, используя непараметрические тесты, логистическую регрессию, что угодно. В общем, проверка производительности алгоритма кластеризации является сложной задачей, особенно если данные не помечены. Однако есть несколько подходов к «внутренней проверке» или измерению качества кластеров без использования внешних источников данных. Как правило, они сосредоточены на компактности и отделимости кластеров. Этот обзор Lui et al. (2010) может быть хорошим местом для начала.

Мэтт Краузе
источник
4

Ваша настоящая проблема - отслеживание данных. Нельзя применять ANOVA или KW, если наблюдения были назначены группам (кластерам) на основе самого набора входных данных. Что вы можете сделать, это использовать что-то вроде статистики Gap для оценки количества кластеров.

С другой стороны, отслеживаемые p-значения смещены вниз, поэтому, если результат теста ANOVA или KW незначителен, то «истинное» p-значение еще больше, и вы можете решить объединить кластеры.

Джеймс
источник
4

Я думаю, что вы могли бы применить такой подход (то есть, используя статистику, такую ​​как F-статистика или t-статистика или что-то еще), если вы выбрасываете обычные нулевые распределения .

То, что вам нужно сделать, - это смоделировать ситуацию, в которой ваше значение равно нулю, применить всю процедуру (кластеризация и т. Д.), А затем вычислять любую статистику каждый раз. Применительно ко многим симуляциям вы получите распределение для статистики с нулевым значением, с которым можно сравнить значение вашей выборки. Включая отслеживание данных в расчет, вы учитываете его влияние.

[В качестве альтернативы можно было бы разработать тест на основе повторной выборки (будь то на основе перестановки / рандомизации или начальной загрузки).]

Glen_b - Восстановить Монику
источник
2
Правильно, это идея статистики Gap.
Джеймс