Можно ли использовать координаты GPS (широту и долготу) в качестве элементов в линейной модели?

10

У меня есть наборы данных, которые содержат, среди многих функций, GPS-координаты (широта и долгота). Я хотел бы использовать эти наборы данных для изучения таких проблем, как: (1) вычисление ETA для перехода между начальной и конечной точками; и (2) оценка количества преступлений по конкретной точке.

Я хотел бы использовать модель линейной регрессии. Однако можно ли использовать эти GPS-координаты непосредственно в линейной модели?

Широта и долгота не имеют порядкового свойства , например, с возрастом человека. Например, две точки (40.805996, -96.681473) и (41.226682, -95.986587), похоже, не имеют какого-либо значимого порядка. Они просто точки в пространстве. Я думал о том, чтобы заменить их категоричными почтовыми индексами США, а затем выполнить однократное кодирование , но это привело бы ко многим переменным.

stackoverflowuser2010
источник
1
Вы должны использовать их напрямую ? Слышали ли вы об инструментах зонирования, таких как алгоритм AZP С. Опеншоу? Вы можете даже вручную разграничить регионы на карте, чтобы разделить регионы / зоны, если область относительно непротиворечива.
Мефи
@Mephy: Это означало бы, что я бы конвертировал широту / долготу в зоны, верно? Но тогда у меня были бы сотни или тысячи категориальных зон, как с почтовыми индексами. Я должен был бы горячо закодировать их всех.
stackoverflowuser2010
Зависит от того, как вы разрезаете зоны, конечно. Если вы выберете «к югу от экваториальной линии / к северу от экваториальной линии», то это только два. Многие алгоритмы зонирования имеют некоторые гиперпараметры для определения величин, таких как количество зон или минимальный размер зоны.
Мефи
У меня та же проблема. Я хочу предсказать положение людей. Я геохашировал все геолокации в данных обучения. После этого LabelDecoder используется для преобразования функции категориального местоположения. Наконец, результат ужасен. Есть ли хорошая идея иметь дело с пространственным предсказанием?
berisfu

Ответы:

5

Вы не можете использовать их напрямую, так как маловероятно, что есть истинные линейные отношения, если вы не пытаетесь предсказать «насколько далеко восток или север». Как уже упоминалось в комментариях, вам необходимо преобразовать их в зоны. Если вы хотите сохранить простоту, вы можете использовать алгоритм кластеризации kNN с небольшим числом потенциальных кластеров, а затем назначить каждому экземпляру новую функцию с идентификатором кластера, а затем выполнить горячее кодирование.

Вы также можете прочитать о том, как люди интерполируют координаты для прогнозирования значений по всей карте. Первый пример - с температурными станциями, но вы также можете представить, что это «горячие зоны» для преступлений.

( Документы )

CalZ
источник
2

Вы можете делать все, что душе угодно, но если ваша модель не предсказывает разницу температуры или времени, я не могу придумать какую-либо другую целевую переменную, которая зависит исключительно от координат.

Что вы, вероятно, хотите сделать, это использовать внешний источник данных и обогатить свои данные с помощью страны / почтового индекса / климата / других географических объектов, которые помогут вашей модели работать.

Grega
источник
0

Координаты GPS могут быть непосредственно преобразованы в геохэш . Geohash делит Землю на «ведра» разного размера в зависимости от количества цифр (короткие коды Geohash создают большие области и более длинные коды для небольших областей).

Геохеш - это одно число, которое можно использовать в качестве элемента в модели.

Геохаш относится только ко всему миру, почтовые индексы - нет.

Брайан Спиеринг
источник
Выводом геохашера является строка, а не одно число, верно? И если геохэш - это строка, то мне придется кодировать ее в горячем режиме, что приведет к множеству переменных, как в случае с горячим закодированным почтовым индексом.
stackoverflowuser2010
Геохеш - это одно число, закодированное в базе 32. Нет причин для горячего кодирования 1. Выберите уровень точности и используйте соответствующее количество цифр.
Брайан Спиеринг
Я видел только строковые представления геохэшей. Однако, даже если геохэш был представлен как long int, есть ли между ними линейная связь для использования в линейной модели? Именно в этом смысл моего первоначального вопроса.
stackoverflowuser2010
Отношения между геохашами немного сложны - en.wikipedia.org/wiki/Geohash#Design
Брайан Спиеринг
1
Существует множество способов разработки функций, помимо линейного и быстрого кодирования. Например, трюк с ядром или преобразование Гельмерта.
Брайан Спиеринг