Я был бы очень удивлен, если бы существовал общий инструмент для этого - как бы он «узнал», что такое конфиденциальные данные, а что нет? Например, необходимо проверить все ваши данные и распознать все возможные форматы номера кредитной карты, номера телефона, почтового индекса, адреса электронной почты и любых других данных, которые считаются конфиденциальными. Он также должен быть умным в отношении вашей схемы - например, если она переписывает все адреса электронной почты клиентов на "nobody@company.com" - или если какая-либо часть вашей базы данных, приложений, других инструментов предполагает, что адрес электронной почты клиента (или SSN или что угодно) уникален? Или у вас есть какая-то часть приложения, которая проверяет контрольные суммы номеров кредитных карт, которая сломалась бы, если вы сбросите их все на 0000 0000 0000 0000? Или ваша телефонная система предполагает, что клиент
По сути, настройка любого инструмента для его выполнения будет такой же или большей работой, чем просто написание собственного сценария с использованием ваших знаний о приложении. На моем сайте мы просто установили политику, согласно которой любой, кто добавляет столбец с такими данными, обновляет сценарий, чтобы анонимизировать его одновременно, после первоначального аудита, чтобы найти все эти столбцы и написать версию 1.
Если ваша база данных крошечная, имеет простую модель данных и хорошо понимается действующими администраторами баз данных - сценарий «может» является ответом. Однако усилия (и стоимость) по ручному анализу и маскировке типовых баз данных могут быстро выйти из-под контроля, когда требования изменяются, добавляются функциональные возможности и приходят и уходят разработчики / администраторы баз данных.
Хотя я не знаю ни о каких продуктах для маскировки данных с открытым исходным кодом, есть коммерческие предложения, которые являются достаточно полными, относительно простыми в использовании и могут быть удивительно разумными с точки зрения затрат. Многие из них включают в себя возможность обнаружения «из коробки» для идентификации и классификации конфиденциальных данных (SSN, кредитные карты, номера телефонов), а также функции для поддержания контрольных сумм, форматирования адресов электронной почты, группировки данных и т. Д., Чтобы маскировать данные выглядит и чувствует себя настоящим.
Но вы не должны принимать мое (по общему признанию) слово за это. Спросите отраслевых аналитиков, таких как Gartner или Forrester, у которых есть несколько объективных отчетов о маскировке, которые могут помочь.
Надеемся, что эти комментарии помогут вам изучить как коммерческие продукты, так и внутреннюю разработку сценариев. В конце концов, самое важное - защитить конфиденциальные данные, которые многие из нас видят изо дня в день, которые нам действительно не нужны, чтобы выполнять свою работу - ставить нас и людей, чьи личные данные мы держим в опасности.
Кевин Хиллиер, старший специалист по интеграции, Camouflage Software Inc.
источник
Никогда не видел такого предмета, но, поработав с несколькими наборами конфиденциальных данных в свое время, главное, что нужно зашифровать, - это личность людей или личная информация. Это должно появиться только в нескольких местах в базе данных.
Ваша операция маскирования должна сохранять статистические свойства и взаимосвязи данных и, вероятно, должна сохранять фактические ссылочные коды (или, по крайней мере, какой-то механизм управляемого перевода), чтобы вы могли согласовать их с фактическими данными.
Подобного можно добиться, получив отдельный список имен в полях и заменив его чем-то вроде FirstNameXXXX (где XXXX - порядковый номер, один для каждого отдельного значения). Номера кредитных карт и аналогичная информация, которая может быть использована для кражи личных данных, в среде разработки, скорее всего, не годится, но реальные вам нужны, только если вы тестируете системы обработки платежей - обычно продавец дает вам специальные коды для фиктивных счетов.
Написание процедур анонимизации такого рода не составляет особой сложности, но вам нужно будет точно договориться о том, что необходимо анонимизировать с бизнесом. При необходимости просмотрите базу данных поле за полем. Если вы спросите «да / нет», вы получите ложные срабатывания, которые вам не нужны. Попросите делового представителя объяснить, почему, или последствия или нормативные последствия не анонимизации конкретных данных.
источник
У меня была такая же задача несколько недель назад. мы оценили некоторые программные системы, но большинство из них предназначены только для одного типа базы данных, например, oracle, и они часто очень сложны в использовании ... так что нет ничего лучше, чтобы это оценить. Это заняло у нас недели.
Мы решили купить профессиональную версию пакета для маскировки данных, так как она была наиболее простой в использовании. Он также имеет отличные возможности для маскировки данных, например, вы можете изменить адреса электронной почты на реальные, например ... @ siemens.com на mike.miller@seimsen.com.
Вы можете попробовать бесплатно около 500 (?) Записей, насколько я помню.
Вот ссылка http://www.data-masking-tool.com/
источник
Мой способ сделать это:
column to be masked
))источник
Впервые я пошел по этому пути несколько лет назад и с тех пор создал консалтинговую компанию, основанную на этой практике.
Я предполагаю, что цель состоит в том, чтобы создать тестовые данные для использования в тестовых средах, где те, кто имеет доступ к данным, не имеют прав на просмотр производственной информации.
Прежде всего необходимо установить, какие именно элементы данных вам нужно маскировать, и для этого лучше всего начать с инструмента обнаружения данных, такого как Schema Spy (с открытым исходным кодом), и для этой задачи вам потребуется соответствующий драйвер jdbc, но он это очень полезный шаг в этом процессе.
Talend Open Studio - один из лучших инструментов, которые я использовал в последние годы для выполнения некоторых функций ETL, и вы также сможете выполнять некоторые базовые практики маскирования, заменяя значения случайными или. Поиск / замена - для обеспечения согласованности - с использованием компонента карты.
Но если вы ищете реальный инструмент для маскировки данных, я не нашел подходящего инструмента с открытым исходным кодом. Если у вас очень скромный бюджет на инструменты, я бы предложил Data Masker, но вам нужно будет выполнить некоторые операции импорта и экспорта через MS SQL или Oracle, поскольку он подключается только через эти протоколы.
Посетите http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset для получения информации о маскировании данных, методологии маскирования данных, обнаружении данных и данных испытаний. управление. Есть также полезный блог на http://www.dataobfuscation.com.au
источник
На рынке доступен инструмент Informatica, который называется Informatica ILM (TDM). Это использует PowerCenter в качестве основы для ETL и маскирует данные с различными доступными параметрами маскирования. Хотя вам нужен аналитик данных или МСП, который может понять, как данные должны быть замаскированы. Сам инструмент не предоставляет информацию о том, какие поля должны быть замаскированы, однако существует внутренний алгоритм или процедура или процесс для идентификации чувствительных полей данных, таких как Имя, столбцы идентификаторов с номером, Кредитная карта, номер SSN, Номер счета и т. Д.
источник
В этом году у меня есть возможность работать с IBM Optim, который утверждает, что делает то, о чем просят. Это не бесплатно, но работает нормально.
источник
Больше всего мне нравится IRI FieldShield ( https://www.iri.com/products/fieldshield ) с точки зрения универсальности (большинство функций маскирования данных), скорости (механизм CoSort для перемещения данных внутри) и эргономики (простые задания 4GL). поддерживается в его Eclipse GUI с тоннами соединений с БД и файлами). По цене это примерно половина IBM и Informatica, хотя она также доступна в более широком пакете интеграции данных для преобразования «больших» данных, миграции и бизнес-аналитики. Так что это тоже не бесплатно, но использует некоторый открытый исходный код (IDE, и может использовать OpenSSL и GPG), и сценарии работают на Windows, Linux и других разновидностях Unix.
источник