Нужен эталонный набор данных GPS-траектории?

13

Я ищу эталонный набор данных GPS, доступный для исследовательских целей бесплатно. Я нашел набор данных GeoLife GPS Trajectories из Microsoft Research, но нашел его немного неполным.

Что мне нужно, так это данные об активности GPS человека, например, в кортежах (широта, долгота, дата), отслеживаемые в течение как минимум нескольких месяцев, предпочтительно непрерывно. Я также хотел бы, чтобы записи были редкими; максимум 1 минута между каждой записью.

Я был бы очень признателен, если бы вы указали мне на такой надежный набор данных.

Мурат
источник
2
Должен ли этот набор данных быть человеком? (То, как вы до сих пор формулировали все, подразумевает да, но я не думаю, что это было прямо заявлено.)
Дан С.

Ответы:

17

Я думаю, что ваш лучший шанс будет отслеживать себя. Если идея вас беспокоит, это причина, по которой вы не найдете такие данные нигде.

Подземье
источник
6

Лучшее, что я могу придумать, - это трассировки GPS, доступные в OpenStreetMap. Они не будут непрерывными, но их очень много.

На веб-сайте OSM выберите «GPS Traces», чтобы посмотреть, что доступно для определенной области.

Мэтью Снейп
источник
2
Я полагаю, что это ссылка, которую вы пропустили в ответе: blog.openstreetmap.org/2012/04/01/bulk-gps-point-data
Dror Atariah
4

Я не задержал бы дыхание. Данные с такой точностью были бы огромным мероприятием и имели бы огромные последствия для конфиденциальности (даже если бы только на 30 дней для одного человека, который включал бы 43 200 точек данных (если регистрироваться каждую минуту), и, несомненно, определялся бы их домашний адрес).

Если вас интересуют вопросы существа, которые могут содержать такие данные, этот совет не поможет. Но если вас интересует только какая-то аналитическая стратегия для обработки таких массивных данных, вы можете просто имитировать данные в таком масштабе, чтобы они соответствовали вашим целям. Для моделирования данных я бы посоветовал вам взглянуть на статистическую программу R, в частности на spatstat и пакет trip (а также на все пространственные модули в R).

Я бы скептически отнесся к тому, что даже данные отслеживания животных будут отвечать вашим требованиям к точкам данных в такие короткие интервалы Я мог бы перечислить несколько статей, которые я прочитал, в которых используются данные о сотовых телефонах для оценки моделей человеческой деятельности, но ни одна из прочитанных мною статей не приблизилась бы к такому давнему времени и не измеряла бы активность людей так часто.

Энди У
источник
4

Один из вариантов - составить контракт и нанять много людей. Предоставьте им устройства GPS, сконфигурированные для получения показаний с предоставлением необходимых вам данных, достаточного количества батарей для выполнения контракта и инструкций (подключите его с помощью этого кабеля для ночной загрузки, отправьте мне по электронной почте этот файл и т. Д.)

Вам определенно нужно написать в контракте, как вы будете ограничивать распространение данных и анонимизировать их, чтобы защитить их (возможно, предоставляя приблизительный радиус исключения в полмили вокруг точек, указанных человеком, как частные), и вы можете даже рассмотреть возможность покупки страховки от потери. Если следы активности людей станут достоянием общественности, они будут заполнены такой информацией, как «Я ухожу на работу каждое утро в 7:00 и возвращаюсь домой каждую ночь в 19:00», и сюжет будет выглядеть как гигантская звездочка с центром на их доме говорят «ограбь это место с 8:00 до 18:00». Вы можете понять, почему вам нужно заботиться о конфиденциальности и безопасности.

Если вы думаете об этом, вы запрашиваете очень дорогие данные. А без достаточно большого статистического набора это будет иметь сомнительную ценность. Подумайте, как будут различаться следы между строителем (новый повторный поезд после каждого завершенного здания), почтовым перевозчиком (очень повторяющийся и очень змеиный маршрут), офисным работником (в основном повторяющийся прямой маршрут) и эвакуатором водитель (новые маршруты постоянно.) Социально-экономический статус может повлиять на следы: более низкие доходы могут больше следовать за общественным транспортом и меньше путешествовать. Родители детей школьного возраста могут иметь в среднем более высокие мили на работу после работы. Не говоря уже о парне, который водит автомобили Google Street View.

Ни один из этих следов, скорее всего, не будет пересекаться с каким-либо другим.

Количество уникальных стилей, вероятно, будет конечным, но настолько большим, что для его получения потребуется значительный бюджет. И это было бы только в одном городе.

Возможно, вам удастся получить меньший (более дешевый) набор данных, если вы лучше определили свои цели. Если вы пытаетесь количественно определить различные типы шаблонов, возможно, вы выбираете широкий круг людей в разных городах. Если вы пытаетесь выяснить, кому будет полезен общественный транспорт или где проложить пригородные железнодорожные коридоры, вам, вероятно, лучше подсчитывать автомобили на различных дорогах в районе, который вы планируете обслуживать, и проводить обследования.

Джон Детерс
источник
2

Я также ищу точный тип набора данных, который вы ищете. К сожалению, пока я не нашел ни одного. Несмотря на данные GeoLife, другой источник, который я нашел, - CRAWDAD . На сайте есть журналы GPS из кабины Сан-Франциско, а также пешеходов из Нью-Йорка. К сожалению, для пешеходов Нью-Йорка они предоставляют только относительные координаты, а не широту / долготу.

ejel
источник
2

Существует много тем исследований, в которых данные, необходимые для ответа на вопрос, по моральным причинам недоступны, и эксперименты, которые выходят за эти рамки, могут привести к будущим ограничениям, как в случае с экспериментом Милграма . Совсем недавно AOL пришлось вытащить совокупность поисковых запросов из-за проблем с конфиденциальностью, и единственный надежный набор данных, который у нас есть по привычкам электронной почты, пришел из испытания Enron .

Таким образом, хотя технически возможно получить такой набор данных о траекториях, это может никогда не быть практичным из-за последствий для конфиденциальности. Как уже упоминалось в других ответах, относительные наборы данных, агрегация по отдельным лицам или моделирование могут быть лучшими подходами для решения вашего вопроса, избегая при этом проблемы конфиденциальности.

SCW
источник
2

Открытый проект PFLOW предлагает:

открытый набор данных для массовых перемещений типичных людей в городах

Токио мегаполис доступен, и район Чукё, кажется, находится в стадии подготовки.

Подробности можно найти в недавней публикации:

Такехиро Касияма, Янбо Панг, Йошихиде Секимото, Open PFLOW: Создание и оценка открытого набора данных для массового перемещения типичных людей в городских районах, Часть 1: Исследования в области транспорта: Новые технологии (2017), том 85, страницы 249–267.


Набор данных траектории T-Drive - недавняя находка. Это обеспечивает:

однонедельные траектории 10 357 такси. Общее количество точек в этом наборе данных составляет около 15 миллионов, а общее расстояние траекторий достигает 9 миллионов километров.


Хотя не о человеческих движениях, компания Liquid Robotics предоставляет интересный набор данных из своей задачи PacX . Доступны для загрузки данные о местоположении и показаниях датчиков окружающей среды четырех роботизированных планеров, плавающих через Тихий океан . Больше информации о (действительно крутом) проекте в блоге , через WIRED и этот доклад .


Другой вариант решения проблем конфиденциальности - использование данных отслеживания животных. Я думаю, что защита данных будет меньше проблем здесь. В качестве преимущества вы все равно сможете протестировать свое программное обеспечение / методы с данными о реальном движении. Недостатком может быть то, что если вашему приложению нужны «специфичные для человека» движения - они могут не соответствовать вашей цели.

Загляните на веб-сайты Movebank или DRYAD, чтобы проверить, могут ли некоторые из их данных вписаться в ваш проект.


Что касается данных iphone, упомянутых Мэтью , вы могли бы взглянуть на проекты Crowflow и OpenPaths . Возможно, есть способ получить некоторые данные через них? Обновление: обе ссылки кажутся мертвыми.


Еще один вариант - пространственная часть данных такси Криса Вонга из Нью-Йорка . Они предоставляют только места получения и отправки, однако объем (11 ГБ!) И контекстная информация (стоимость проезда, пассажиры и т. Д.) Делают их действительно привлекательными (альтернативная загрузка , дополнительная информация о проблемах конфиденциальности, возникающих в данных).


Пост Уршки Демшар в ее недавней статье «Анализ человеческой мобильности на основе данных о добровольных перемещениях и контекстной информации» обещает:

Также скоро будет доступен бесплатный набор данных о добровольных GPS-траекториях, связанных с этим документом. Будьте на связи.

( больше информации )

Обновление: в статье упоминается, что данные будут доступны на CRAWDAD, упомянутом @ejel, но я там их не нашел.


Другим вариантом может быть создание синтетического набора данных самостоятельно . Если вам нужно вдохновение, взгляните на недавнюю статью Ван Дейка Дж. (2018). Определение точек движения-активности по GPS-данным с помощью нескольких движущихся окон Компьютеры, окружающая среда и городские системы ( ссылка ). Более подробная информация приведена в приложении, код и набор данных доступны на github .

Радек
источник
1

Экспедиция Tahina (блог Google Планета Земля) http://www.tahinaexpedition.com/map плавает в течение большей части прошлого года.

KML может быть обработан http://maps.google.com/maps/ms?source=embed&hl=en&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [теперь был преобразован в GPS-трек в kml]

Mapperz
источник
@Mapperez - Спасибо, Мапперез, но мне нужно немного другое. Я хотел бы, чтобы изо дня в день регистрировались точки GPS человека на земле. Человек с распорядком дня (немного рутиной) - как встает, идет на работу, проводит там часы, ходит по магазинам, приходит домой, повторяет.
Мурат
1

Люди предоставляют эти данные в Google бесплатно круглосуточно. Это называется Широта. Может быть, они будут делиться этим так же щедро, как их пользователи поделились им с ними.

mvexel
источник
1
Я, конечно, надеюсь, что они не будут. Я совершенно уверен, что им не разрешат выпускать какие-либо данные на уровне, требуемом приложением @ Murat.
Подземье