Кто-нибудь знает хорошее программное обеспечение для анонимизации данных? Или, может быть, пакет для R, который выполняет анонимизацию данных? Очевидно, не ожидая безотказной анонимизации - просто хочу сделать это сложно.
Предупреждение: имейте в виду, что может быть очень трудно анонимизировать данные таким образом, чтобы предотвратить повторную идентификацию (деанонимизацию), не теряя значительную часть данных. Это не та ситуация, когда вы можете просто подумать над этим. Защита анонимности людей требует тщательного обдумывания. См., Например, эту статью для более тщательного объяснения того, почему это не тривиально.
Примером предостерегающей истории является проблема Netflix, где казалось бы анонимный набор данных был фактически связан с личностью пользователей Netflix - или выпуск анонимных записей поиска AOL, многие из которых (исследователи обнаружили) все еще могут быть связаны с люди через более сложный анализ. Другой пример - из Массачусетса, где комиссия по медицинскому страхованию опубликовала данные обо всех государственных служащих, после того как анонимизировала их, удалив имена, адреса, номера SSN и т. Д. Однако исследователь конфиденциальности обнаружил, что по- прежнему можно повторно идентифицировать лици в качестве демонстрации показал, как определить медицинские записи губернатора. Позже она показала, например, что большинство людей могут быть однозначно идентифицированы только по их почтовому индексу (или переписи), дате рождения и полу. Это были истории людей, усердно анонимизирующих данные; они думали, что проделали хорошую работу по анонимизации, и просто не понимали, насколько сложна эта проблема. Эти предостерегающие истории должны дать вам паузу.
По этим причинам я не рекомендую вам самостоятельно анонимизировать ваш набор данных, если у вас нет опыта работы в этой области.
Важно: методы, необходимые для анонимизации данных, вероятно, будут во многом зависеть от типа данных, которые у вас есть, и от области приложения, в которой вы работаете. К сожалению, вы не предоставили эту информацию. В результате почти невозможно дать вам хороший совет о том, как анонимизировать ваш набор данных.
Я полагаю, что может быть соблазнительно рассматривать этот ответ как бесполезный, потому что вместо того, чтобы говорить «будь счастлив, не волнуйся, просто брось эту волшебную часть программного обеспечения в свои данные, и тебе не нужно думать», я говорю « подождите, это сложнее, чем кажется на первый взгляд, будьте осторожны ". Я понимаю, что это сообщение может быть не очень популярным, но я думаю, что это сообщение, которое люди должны услышать.
Одним из подходов будет использование фильтров Блума. Посетите веб-сайт проекта SAFELINK для программ на Java и Python. Метод объяснения бумаги здесь .
Существует также интересный подход к анонимизации строк в контексте связывания записей с использованием n-грамм, разработанный ANU Data Mining Group . Статья с описанием и примером кода Python доступна здесь .
Ответы:
Cornell Анонимизация Tookit является открытым исходным кодом. На их странице исследований есть ссылки на соответствующие публикации.
источник
Предупреждение: имейте в виду, что может быть очень трудно анонимизировать данные таким образом, чтобы предотвратить повторную идентификацию (деанонимизацию), не теряя значительную часть данных. Это не та ситуация, когда вы можете просто подумать над этим. Защита анонимности людей требует тщательного обдумывания. См., Например, эту статью для более тщательного объяснения того, почему это не тривиально.
Примером предостерегающей истории является проблема Netflix, где казалось бы анонимный набор данных был фактически связан с личностью пользователей Netflix - или выпуск анонимных записей поиска AOL, многие из которых (исследователи обнаружили) все еще могут быть связаны с люди через более сложный анализ. Другой пример - из Массачусетса, где комиссия по медицинскому страхованию опубликовала данные обо всех государственных служащих, после того как анонимизировала их, удалив имена, адреса, номера SSN и т. Д. Однако исследователь конфиденциальности обнаружил, что по- прежнему можно повторно идентифицировать лици в качестве демонстрации показал, как определить медицинские записи губернатора. Позже она показала, например, что большинство людей могут быть однозначно идентифицированы только по их почтовому индексу (или переписи), дате рождения и полу. Это были истории людей, усердно анонимизирующих данные; они думали, что проделали хорошую работу по анонимизации, и просто не понимали, насколько сложна эта проблема. Эти предостерегающие истории должны дать вам паузу.
По этим причинам я не рекомендую вам самостоятельно анонимизировать ваш набор данных, если у вас нет опыта работы в этой области.
Важно: методы, необходимые для анонимизации данных, вероятно, будут во многом зависеть от типа данных, которые у вас есть, и от области приложения, в которой вы работаете. К сожалению, вы не предоставили эту информацию. В результате почти невозможно дать вам хороший совет о том, как анонимизировать ваш набор данных.
Я полагаю, что может быть соблазнительно рассматривать этот ответ как бесполезный, потому что вместо того, чтобы говорить «будь счастлив, не волнуйся, просто брось эту волшебную часть программного обеспечения в свои данные, и тебе не нужно думать», я говорю « подождите, это сложнее, чем кажется на первый взгляд, будьте осторожны ". Я понимаю, что это сообщение может быть не очень популярным, но я думаю, что это сообщение, которое люди должны услышать.
источник
Посмотрите на пакет sdcMicro на CRAN. Один из авторов также написал статью, в которой описана не только виньетка.
источник
Одним из подходов будет использование фильтров Блума. Посетите веб-сайт проекта SAFELINK для программ на Java и Python. Метод объяснения бумаги здесь .
Существует также интересный подход к анонимизации строк в контексте связывания записей с использованием n-грамм, разработанный ANU Data Mining Group . Статья с описанием и примером кода Python доступна здесь .
источник