У меня есть набор месячных данных о температуре поверхности моря (SST), и я хочу применить некоторую кластерную методологию для обнаружения регионов с подобными закономерностями SST. У меня есть набор ежемесячных файлов данных, работающих с 1985 по 2009 год, и я хочу применить кластеризацию к каждому месяцу в качестве первого шага.
Каждый файл содержит данные в сетке для 358416 точек, где приблизительно 50% являются земельными участками и помечены значением 99,99, которое будет NA. Формат данных:
lon lat sst
-10.042 44.979 12.38
-9.998 44.979 12.69
-9.954 44.979 12.90
-9.910 44.979 12.90
-9.866 44.979 12.54
-9.822 44.979 12.37
-9.778 44.979 12.37
-9.734 44.979 12.51
-9.690 44.979 12.39
-9.646 44.979 12.36
Я попробовал метод кластеризации CLARA и получил некоторые, по-видимому, хорошие результаты, но мне также кажется, что это просто сглаживание (группирование) изолиний. Тогда я не уверен, что это лучший метод кластеризации для анализа пространственных данных.
Есть ли другой метод кластеризации, посвященный этому типу наборов данных? Некоторая ссылка была бы хороша, чтобы начать читать.
Заранее спасибо.
источник
Ответы:
Существует другой подход для масштабируемой кластеризации, подход «разделяй и властвуй», параллельная кластеризация и инкрементная. Это для общего подхода после того, как вы можете использовать обычные методы кластеризации. Хороший метод кластеризации, который я действительно ценю, - это DBSCAN (пространственная кластеризация приложений с шумом на основе плотности), это один из наиболее часто используемых алгоритмов кластеризации.
источник
PySAL - это хорошо документированная библиотека Python для пространственного анализа, которая имеет некоторую кластеризацию .
Еще одна библиотека python на стадии разработки, ориентированная на пространственную кластеризацию, - это clusterPy (презентация в формате PDF) .
Программное обеспечение с графическим интерфейсом GeoGrouper с более ограниченным выбором алгоритмов кластеризации, но с хорошим интерфейсом отображения .
источник