Считаете ли вы онлайн-геокодирование нарушением конфиденциальности?

21

Предположим, у меня есть несколько адресов лиц, участвующих в определенном исследовании (скорее всего, связанных со здоровьем, где конфиденциальность и этические соображения всегда являются важными вопросами).

В настоящее время провайдеры, такие как Google или Yahoo, предлагают приличные результаты с точки зрения точности позиционирования.

Североамериканская ассоциация центральных онкологических реестров ( NAACCR ) перечисляет такие варианты в своих руководствах « Геокодирование: обзор восьми распространенных систем геокодирования » и « Руководство по методам геокодирования ».

Например, Cinnamon и Schuurman (2010) использовали службу BatchGeocode как часть своего инструмента для расследования травм в условиях ограниченных ресурсов.

Считаете ли вы геокодирование таких адресов с помощью онлайн-сервисов, таких как Google Maps или OpenStreetMap, нарушением конфиденциальности?

PS1 возможно связанный вопрос .

В недавней статье PS2 в «Эпидемиологии» (одном из ведущих рецензируемых журналов в этой области) были опубликованы краткие сообщения с подробными инструкциями по геокодированию с использованием API Карт и Мест Google. Интересно, что ни слова о безопасности / конфиденциальности не упоминалось ...

оборота радек
источник
Вопрос вики сообщества?
artwork21

Ответы:

11

Здесь определенно сказывается конфиденциальность, особенно если вы работаете с небольшими партиями данных. Любой, кто пытается добывать поток данных, сможет предположить, что все запросы в одной и той же партии имеют что-то общее, даже если состояние здоровья или личная информация не передаются по проводам.

Лучшим методом является объединение большого количества несвязанных данных / пациентов для массового геокодирования.

Например - объедините ваши данные, нуждающиеся в геокодировании, с другими исследователями - чем больше не связанных проблем, тем лучше. Рандомизировать порядок запросов. И один раз в день пакетный процесс через эту очередь, все сразу.

Теперь становится намного сложнее добывать данные, даже если злоумышленник может подслушать запросы геокодирования.

radven
источник
Интересный! Любой инструмент / платформа, которая может облегчить этот процесс?
Николас Рауль
8

Геокодирование локально с помощью зашифрованных файлов на защищенном сервере определенно станет золотым стандартом конфиденциальности. Следующим лучшим вариантом будет использование Tor , если необходимо геокодирование с использованием удаленного API.

Tor защищает вас, направляя ваши коммуникации по распределенной сети ретрансляторов, управляемых добровольцами по всему миру: это предотвращает ... посещаемые вами сайты от изучения вашего физического местоположения.

Наряду с введением случайных адресов (как здесь рекомендуют другие) и использованием ssl (https) для шифрования сообщений на их конечных точках (убедитесь, что вы тоже это делаете), я не могу придумать более безопасный способ удаленного геокодирования, чем через проект Tor . Какой бы сервис геокодирования вы не использовали, он никогда не сможет определить, откуда в конечном итоге поступили запросы, и с https никто другой не сможет это сделать. Примечание: не используйте сервис геокодирования, для которого требуется ключ API, иначе вы больше не будете анонимным. (Google больше не требует ключ API).

Более подробную информацию об использовании Tor можно найти в моем ответе на соответствующий вопрос здесь.

Виктор Ван Хи
источник
Спасибо, я не думал о Tor, но это хорошая идея.
Радек
Даже если вы используете Tor, сервер геокодирования по-прежнему получает вашу информацию, что является фундаментальным нарушением конфиденциальности. Вы не можете доверять серверу геокодирования.
Николас Рауль
8

Это отличный вопрос, который мне задавали несколько раз в последнее время, так как я работаю в компании по проверке адресов под названием SmartyStreets.

Во-первых, почтовый адрес представляет собой одну обнаруживаемую точку на карте. Адрес сам по себе является доброкачественным, поскольку не содержит никакой дополнительной информации. Рисование точки на карте ничего не делает. Только когда вы начинаете назначать КОНТЕКСТ этой точке (адресу), это начинает что-то значить.

Имея это в виду, почтовый адрес может представлять человека, организацию, здание, автомобиль, что угодно. Как только вы начинаете собирать несколько почтовых адресов, вы увеличиваете контекст, который можно извлечь из этой группировки. Сходства можно определить, чтобы увидеть, что общего у адресов. Тем не менее, просто группировка адресов в подобной области не означает много контекста. Я могу посмотреть на карту Google и увидеть все дома в определенном районе. Это не нарушение конфиденциальности, если у меня нет несанкционированного доступа к конфиденциальной информации.

Другие точки контекста должны быть объединены для того, чтобы фактически выдавать любые личные данные. Например, группа почтовых адресов, которые отправляются в онлайн-сервис для проверки адреса и / или геокодирования, не выдает информацию, если вы не знаете, кто отправил список для обработки. Когда владелец списка известен, можно сделать определенные выводы о предполагаемом использовании списка. Знание этого дополнительного контекста, такого как владелец списка и предполагаемое использование, безусловно, будет квалифицироваться как привилегированная информация и может стать источником нарушения конфиденциальности.

Приведение обработки "на себя", чтобы не привлекать внешнюю службу данных, является вариантом. Это, безусловно, исключает любой тип несанкционированного доступа к конфиденциальной информации. Проверка адреса и геокодирование не являются задачами для непосвященных и, безусловно, требуют продвинутых навыков (то есть опыта, приобретенного с течением времени) для обработки очень больших списков, не требуя чрезмерных затрат времени и ресурсов. Так что привезти его в дом, безусловно, вариант, но есть ли у каждой компании, имеющей конфиденциальную адресную информацию, ресурсы для собственной «безопасной» обработки адресов (включая геокодирование) внутри дома? Нет. (Хотя это, безусловно, будет означать гарантию занятости для читателей этого сайта.)

Есть способы сохранить необходимую конфиденциальность и при этом использовать онлайн-сервисы. Один из способов - создать учетную запись, протестировать и выяснить все, а затем, используя временный адрес электронной почты, создать новую учетную запись с несвязанным платежным адресом, связанным с кредитной картой, которую вы не сможете отследить. Обработка адресов в этом аккаунте теоретически не даст какого-либо ценного контекста и, таким образом, сохранит конфиденциальность лиц в списке. (Это начинает звучать как фильм Враг государства .

Если это звучит сложно и ненужно, я согласен. Более простым способом было бы воспользоваться API, который использует HTTPS и POST и который не хранит и не регистрирует какие-либо данные, которые вы обрабатываете. Использование HTTPS означает, что единственной записью будет отметка времени и IP-адрес, с которого вы звоните. Основной URL не будет известен. Конечно, используемая вами учетная запись приведет к вам, НО, это не проблема, поскольку использование запроса POST позволяет вам присоединить полезную нагрузку (в данном случае пакет адресов), а содержимое полезной нагрузки не регистрируется. Таким образом, отправленные вами адреса отсутствуют ни в одном журнале сервера. И тот факт, что их память стирается между каждым процессом, означает, что эти адреса никогда не сохраняются и не регистрируются, и их передача обратно вам осуществляется через безопасное соединение.

13 марта 2012 г. 06:31 (-6) IP: 12.134.223.12 ИД пользователя: 875564 - КОЛИЧЕСТВО ПОСТА: 3439942 - [Обработано]

Любой, кто просматривает журналы, увидит только то, что вы обработали некоторые адреса, и они не будут знать, какие адреса были обработаны. Это удовлетворяет даже самым строгим требованиям политики конфиденциальности. Мне не имеет смысла указывать, что этот тип услуг доступен (и очень быстрый ), не упоминая, где его найти. Он уже встроен в сервис API LiveAddress от SmartyStreets. Другие сервисы, такие как Cdyne, QAS и ServiceObjects, также могут предлагать аналогичные сервисы, но я еще не слышал о них.

Джеффри
источник
Спасибо за подробную информацию. HTTPS определенно звучит как разумная идея. Я предполагаю, что SmartyStreets ограничивается США?
Радек
Да, проверка и геокодирование адресов SmartyStreets ограничено адресами почтовой службы США.
Джеффри
5

Возможно, вы могли бы создать идентификатор, разделить вашу таблицу. Удаление личной информации. затем присоединитесь к таблице после геокодирования.

В духе (federated PCness) я полагаю, что вы могли бы доказать, что, как только вы где-то запускаете данные на сервере, вы не поддерживаете цепочку поставок.

Я нашел немало писем на эту тему, если вы хотите следовать ...

Владение облаком и контроль

Электронный век владения и контроля

Google Book

Юридические последствия облачных вычислений

Если правоприменение осуществляется по закону, облачные вычисления могут быть полностью закрыты от государственных служб.

Брэд Несом
источник
5

Нет, вы можете геокодировать в автономном режиме. Если вы используете пакетные геокодеры онлайн, как преобразование адресов в географические координаты становится проблемой конфиденциальности? Было бы больше проблем, если бы имя каждого было включено и опубликовано. Как Брэд упоминает отдельный адрес с идентификатором и сопоставить его, когда адреса были геокодированы. Общепринятая практика.

Mapperz
источник
5
Я согласен, что вы можете геокодировать в автономном режиме и не должны раскрывать какую-либо личную информацию. Но я не согласен с вашим предложением, которое рассматривает только имя и удостоверение личности как информацию, которая должна храниться в тайне. Если вы раскрываете домашний адрес человека, даже без его имени, вы по существу идентифицировали его. Подумайте о том, чтобы опубликовать карту с точками на домах людей, страдающих инфекционными заболеваниями.
DavidF
2
Как сказал Mapperz, поскольку отправляемая вами информация ограничена адресом, проблем не должно быть. Не включайте «HECD» или любую другую конфиденциальную информацию в информацию, которую вы отправляете.
Jvangeld
1
@DavidF каждый адрес имеет географические координаты - геокодирование автоматизировано на 99,9% [вычисления], конфиденциальность не теряется. Если вам не нравится это онлайн, не помещайте это там, используйте автономную версию.
Mapperz
2
@jvangeld Я все еще думаю, что конфиденциальность может быть нарушена в онлайн-ситуации, когда третья сторона может объединить идентификационные данные организации, отправляющей запрос геокодирования, и адреса. Если Народный фронт по лечению вампиризма представит пакетный геокод со 100 адресами в нем, не думаете ли вы, что третья сторона может разумно предположить, что в 100 домах были люди, которые пытались излечиться от своего «альтернативного образа жизни»? Очевидно, это довольно академический аргумент, но если вы действительно хотите защитить конфиденциальность и анонимность, я думаю, что это актуально.
DavidF
1
Мнение @DavidF здесь очень важно: домашний адрес считается очень деликатным и может привести к раскрытию информации об участниках исследования. Если есть 1000 запросов с IP-адреса учреждения, изучающего вампиризм, можно просто предположить, что у них есть адреса потенциальных 1000 вампиров. Моя проблема здесь заключается в том, можно ли считать услугу онлайн-геокодирования «безопасной стороной» в таких условиях? Можно ли обвинить вас в том, что вы делитесь своими данными с посторонними лицами, которые не участвуют в исследовании? Сторона, что через процесс геокодирования потенциальные получили доступ к данным?
Радек
4

Геокодирование - низкий риск Ранее в этом году мы работали с некоторыми больницами, и этот вопрос возник. Сам сервис геокодирования не был большой проблемой, потому что мы удалили все, кроме идентификатора и адреса из данных, использовали безопасную передачу (https) и TOS, наш собственный геокодер указал защиту конфиденциальности, которой было достаточно, чтобы соответствовать их критериям.

Анонимно отображать местоположения сложнее Сложнее было отображать карты разреженных данных при сохранении анонимности. Первым вариантом, о котором просил клиент, было добавление случайной «помадки» в каждую точку, чтобы фактическое местоположение дома было скрыто. Проблема с этим подходом состоит в том, что требуемый размер выдумки довольно велик (1/2 мили или более) (что, если кто-то живет на ферме), а пользователи карт склонны считать точные местоположения точными. Мы остановились на агрегировании точек, отображающих достаточно, чтобы быть анонимными, имея при этом полезную карту. Кажется, нормой из других отраслей, с которыми мы работали, является то, что единица агрегации должна иметь не менее 7-10 записей.

Гленн
источник
2

Я предполагаю, что вы геокодируете это, а не публикуете результаты? Если так, то как облако узнает о том, что представляют эти данные?

Предположительно, вы также можете скрыть любые данные, которые вы геокодируете, со случайными данными, скрывая любой свойственный шаблон, который может существовать.

djq
источник
правильно, дело в том, чтобы получить набор географических координат для данного набора данных. весь остальной анализ будет в автономном режиме, и все, что будет опубликовано в дальнейшем, никогда не будет использовать информацию отдельного уровня. мне нравится идея запутывания набора данных!
Радек
2

Я не знаю, является ли это новым, так как вопрос был задан, но если кому-то было интересно в google maps api v3, вы можете использовать SSL (https). Также в разделе о конфиденциальности Руководства по рекомендациям NAACCR обсуждаются эти вопросы.

Скотт
источник
2

В Австрии это определенно будет проблемой конфиденциальности.

Прежде всего: данные о состоянии здоровья классифицируются как конфиденциальные, и нет никаких сомнений в том, что не разрешается передавать их третьим сторонам без явного согласия лица, связанного с этим набором данных.

Даже если они анонимизированы: эти данные о состоянии здоровья можно геокодировать, но можно также геокодировать общедоступные регистры имени в адрес (телефонная книга) и связывать данные о состоянии здоровья с живущими там лицами, поэтому адреса также классифицируются как личные данные.

Это приводит к тому, что вы не сможете геокодировать этот набор данных, отправив его третьему лицу без явного запроса ваших участников.

Jürgen Zornig
источник
1

Вам нужен точный геокод или общая область? Вы можете использовать только почтовый индекс или частичный почтовый индекс F

user1466
источник
@ user1466: точный геокод будет определенно предпочтительным.
Радек
1

Я работаю в геокодирующей компании ( YAddress.net ), и у нас большое количество клиентов с жесткими требованиями к конфиденциальности - финансовая индустрия, здравоохранение, юриспруденция и т. Д.

Мы решаем их проблемы конфиденциальности двумя способами:

  1. Онлайн обработка данных через зашифрованные соединения SSL (предотвращает отслеживание данных при передаче), а также соглашения о конфиденциальности с нашей стороны. Этого достаточно для некоторых клиентов, но не для всех.

  2. Для максимальной конфиденциальности, вариант развертывания программного обеспечения на месте, где геокодирование происходит полностью на территории клиента, и никакие данные никогда не передаются через Интернет.

Как правильно отметили другие комментаторы, почтовый адрес сам по себе является общедоступной информацией, и без каких-либо контекстных данных (таких как имена клиентов, номера и т. Д.) Он не представляет никакого раскрытия чего-либо. Тем не менее, реальные предприятия работают в реальной правовой среде, где эта аргументация может или не может быть в суде. Если конфиденциальность является насущной проблемой, дополнительные затраты на локальное решение могут стоить того, чтобы избежать риска возможных юридических осложнений в будущем.

Майкл Дёмин
источник