Даны данные точек с долготой, широтой и значением третьего свойства этой точки. Как я могу кластеризовать точки в группы (географические субрегионы) на основе значения свойства? Я искал по Google и выяснил, что эта проблема, кажется, называется «пространственно ограниченная кластеризация» или «регионализация». Тем не менее, я не знаком с обработкой географических данных и не знаю, какие алгоритмы хороши и какие пакеты python / R хороши для этой задачи.
Чтобы дать более интуитивное представление о том, что я хочу, скажем, мои графики разброса данных следующие:
Таким образом, каждая точка - это точка, x - это долгота, y - широта, а цветовая карта показывает, является ли значение большим или малым. Я хочу разделить эти точки на подрегионы / группы / кластеры в зависимости от местоположения и сходства ценностей. Как и в следующем (это не совсем то, что я хочу, просто чтобы показать интуитивную идею.):
Так как же мне этого добиться?
источник
Ответы:
Пакет rioja предоставляет функциональные возможности для ограниченной иерархической кластеризации. Для того, что вы считаете «пространственно ограниченным», вы указали бы свои сокращения на основе расстояния, тогда как для «регионализации» вы могли бы использовать k ближайших соседей. Я очень рекомендую проецировать ваши данные так, чтобы они находились в системе координат, основанной на расстоянии.
источник