У меня есть наборы данных, которые содержат, среди многих функций, GPS-координаты (широта и долгота). Я хотел бы использовать эти наборы данных для изучения таких проблем, как: (1) вычисление ETA для перехода между начальной и конечной точками; и (2) оценка количества преступлений по конкретной точке.
Я хотел бы использовать модель линейной регрессии. Однако можно ли использовать эти GPS-координаты непосредственно в линейной модели?
Широта и долгота не имеют порядкового свойства , например, с возрастом человека. Например, две точки (40.805996, -96.681473) и (41.226682, -95.986587), похоже, не имеют какого-либо значимого порядка. Они просто точки в пространстве. Я думал о том, чтобы заменить их категоричными почтовыми индексами США, а затем выполнить однократное кодирование , но это привело бы ко многим переменным.
источник
Ответы:
Вы не можете использовать их напрямую, так как маловероятно, что есть истинные линейные отношения, если вы не пытаетесь предсказать «насколько далеко восток или север». Как уже упоминалось в комментариях, вам необходимо преобразовать их в зоны. Если вы хотите сохранить простоту, вы можете использовать алгоритм кластеризации kNN с небольшим числом потенциальных кластеров, а затем назначить каждому экземпляру новую функцию с идентификатором кластера, а затем выполнить горячее кодирование.
Вы также можете прочитать о том, как люди интерполируют координаты для прогнозирования значений по всей карте. Первый пример - с температурными станциями, но вы также можете представить, что это «горячие зоны» для преступлений.
( Документы )
источник
Вы можете делать все, что душе угодно, но если ваша модель не предсказывает разницу температуры или времени, я не могу придумать какую-либо другую целевую переменную, которая зависит исключительно от координат.
Что вы, вероятно, хотите сделать, это использовать внешний источник данных и обогатить свои данные с помощью страны / почтового индекса / климата / других географических объектов, которые помогут вашей модели работать.
источник
Координаты GPS могут быть непосредственно преобразованы в геохэш . Geohash делит Землю на «ведра» разного размера в зависимости от количества цифр (короткие коды Geohash создают большие области и более длинные коды для небольших областей).
Геохеш - это одно число, которое можно использовать в качестве элемента в модели.
Геохаш относится только ко всему миру, почтовые индексы - нет.
источник