Справочная информация . Я хочу классифицировать жилые районы города по группам на основе их социально-экономических характеристик, включая плотность жилищных единиц, плотность населения, площадь зеленых насаждений, стоимость жилья, количество школ / медицинских центров / детских садов и т. Д. Я хочу понять, на сколько разных групп можно разделить жилые районы и каковы их уникальные характеристики. Эта информация может облегчить планирование города.
Основываясь на некоторых примерах (см. Этот пост в блоге: PCA и K-means Clustering Delta Aircraft ), я выяснил, как выполнить анализ:
Сначала сделайте анализ PCA.
Определите количество уникальных групп (кластеров) на основе результатов PCA (например, используя метод «колено» или, альтернативно, количество компонентов, которое объясняет от 80 до 90% общей дисперсии).
Определив количество кластеров, примените кластеризацию k-средних для выполнения классификации.
Мои вопросы: казалось, что количество компонентов PCA связано с кластерным анализом. Так что это правда, если, скажем, мы обнаружили, что 5 компонентов PCA объяснили более чем 90% вариации всех функций, то мы применили бы кластеризацию k-средних и получили бы 5 кластеров. Таким образом, 5 групп точно соответствуют 5 компонентам в анализе PCA?
Другими словами, я предполагаю, что мой вопрос: какова связь между анализом PCA и кластеризацией k-средних?
Обновления: благодаря вкладу Эмре, Ксеона и Кирилла. Итак, текущие ответы:
Выполнение PCA перед кластерным анализом также полезно для уменьшения размерности в качестве экстрактора признаков и визуализации / выявления кластеров.
Выполнение PCA после кластеризации может проверить алгоритм кластеризации (ссылка: анализ основных компонентов ядра ).
PCA иногда применяется для уменьшения размерности набора данных до кластеризации. Однако Yeung & Ruzzo (2000) показали, что кластеризация с ПК вместо исходных переменных не обязательно улучшает качество кластера. В частности, первые несколько компьютеров (которые содержат большую часть различий в данных) не обязательно фиксируют большую часть структуры кластера.
- Йенг, Ка Йи и Уолтер Л. Руццо. Эмпирическое исследование по анализу главных компонентов для кластеризации данных по экспрессии генов. Технический отчет, факультет компьютерных наук и инженерии, Вашингтонский университет, 2000 г. ( pdf )
Казалось, PCA необходим перед двухэтапным кластерным анализом . Основано на Ibes (2015), в котором кластерный анализ проводился с использованием факторов, определенных в PCA.
- Ибес, Дороти С. Многомерная классификация и анализ справедливости системы городских парков: новая методология и применение кейса. Ландшафтное и городское планирование , том 137, май 2015 г., стр. 122–137.
Ответы:
PCA не является методом кластеризации. Но иногда это помогает выявить кластеры.
Предположим, у вас есть 10-мерные нормальные распределения со средним значением (вектор нулей) и некоторая ковариационная матрица с тремя направлениями, имеющими большую дисперсию, чем другие. Применение анализа основных компонентов с 3 компонентами даст вам эти указания в порядке убывания, а подход «локтя» скажет вам, что это количество выбранных компонентов является правильным. Тем не менее, это будет все еще облако точек (1 кластер).010
Предположим, у вас есть 10 10-мерных нормальных распределений со средними значениями , , ... (средние значения остаются почти на линии) и аналогичными ковариационными матрицами. Применение PCA только с одним компонентом (после стандартизации) даст вам направление, в котором вы будете наблюдать все 10 кластеров. Анализируя объясненную дисперсию (подход «колено»), вы увидите, что для описания этих данных достаточно одного компонента.110 210 1010
источник