Компании хотят избежать утечек персональных данных клиентов. Поэтому ограничивают доступ сотрудников к персданным. Но без информации об истинном соцдеме и геолокации клиентов дата-саентисты не ручаются за точность моделей. А продукт работает плохо, потому что тестировался на данных, которые в реальности не встречаются. Или наоборот — жизнь оказывается сложнее, чем рассчитывали разработчики.

Рассказали на вебинаре, как наш новый продукт маскирует персданные, подменяя клиентские данные на похожие. При этом «Маскировщик» сохраняет их смысл: семантику, валидность, социально-демографические характеристики и связи по домохозяйствам.

Так персональные данные хранятся в безопасности, а тестировщики, аналитики или подрядчики получают данные, похожие на настоящие. «Маскировщик» помогает в интеграциях, тестировании, аналитике и построении моделей машинного обучения.

Запись вебинара и ответы на вопросы участников выложили на наш YouTube-канал.

Публикуем краткую расшифровку вебинара.

Как обычно обезличивают персональные данные

Заменяют часть букв и цифр на «звездочки».

+ Это самый простой способ обезличивать персональные данные.

— Меняет тип данных.

Поэтому алгоритм не годится для обезличивания чисел и дат.

Некоторые программы требуют только цифры в определенных полях. Если заменить номер телефона «8 926 118 12 12» на «89*******12» часть систем откажутся работать, потому что не поймут, что это — номер телефона. Так обезличенные с помощью «звездочек» данные оказываются бесполезными

— Слабо защищает популярные имена и адреса.

Даже если сократить число «звездочек» до одной, популярные имена, отчества и города легко расшифровывать.

Попробуйте угадать, что зашифровали «звездочки»:

ФИО: «Н*****я С*******а», «П***р И***ч».
Улицы: «Л****а» и «С*******я».
Города: «Т****в», «М****а».

— Убивает смысл данных.

Обезличенные данные теряют семантику, валидность, социально-демографические характеристики и связи по домохозяйствам.

Абдюшев Павел Рашитович на А*****в П***л Р*******ч

При замене 43-летний мужчина из Москвы превратится в конструкт без каких-либо осмысленных данных. Тут из даты рождения потеряли информацию про возраст, из номера телефона — регион, город, часовой пояс. А без ФИО утратили возможные связи с другими людьми в базе. Поэтому не сможем воссоздать домохозяйство.

Меняют часть цифр и букв на другие цифры и буквы.

+ Безопаснее, чем замена на звездочки.

Данные расшифровать сложнее.

+ Годится для цифр и дат.

Программы получат цифры для полей, предназначенных только для цифр. Так тестируемый бизнес-процесс не сломается.

— Поддается расшифровке.

Если алгоритм замены простой, то обезличенные данные можно восстановить.

Массив данных, где цифры заменили на цифры, а буквы — на буквы, можно расшифровать, если зайти с окончаний популярных отчеств.

В русском языке большинство отчеств заканчиваются на «-евна» и «-ич». Проводим обратный анализ и находим «а», «е», «и», «в», «н», «ч». Затем пополняем словарь по популярным именам и фамилиям. Например, находим фамилию «Иванов» — получаем сопоставление для буквы «о», «Елена» — для буквы «л», Ирина — «р».

Так получаем ключ, чтобы расшифровать остальное.

— Портит качество и полноту данных.

Заменяя случайными буквами и цифрами осмысленные, мы теряем:

  • семантику,
  • валидность,
  • социально-демографические характеристики,
  • связи по домохозяйствам.

Еременко Наталья Сергеевна на Нонингел Гпьпдбч Мношннагп

При замене 61-летняя москвичка с действительным паспортом превратится в конструкт неизвестного пола в возрасте 49 лет, с несуществующим паспортом и номером телефона.

Тут утратили информацию про пол и испортили данные о возрастной группе, стране, регионе, паспорте и номере телефона. Потеряли возможные связи по ФИО и адресу с другими людьми в базе.

С такими данными невозможно провести соцдем-исследование или построить правдоподобную модель. Тестировщикам тоже придется трудно — данные не пройдут форматно-логических проверок.

Как работает «Маскировщик»

Решение HFLabs обезличивает персональные данные, сохраняя их смысл. Если нужно, «Маскировщик» сгенерирует базу данных нужного качества, подробнее рассказываем в вебинаре.

«Маскировщик» сохраняет:

Социально-демографические данные. Заменяет ФИО, сохраняя пол. Дата рождения остается в близкой возрастной группе.

Валидность данных. «Маскировщик» заменит существующие документы и номера телефонов на похожие существующие, а просроченные документы — на просроченные. Сохранит редкость или популярность ФИО и точность адреса — до района города.

Домохозяйства. «Маскировщик» понимает, что Ивановы Петр Ильясович и Ильяс Петрович, живущие по адресу город Тамбов, улица Советская, 11  — родственники. И учитывает эту информацию, когда маскирует их ФИО и адрес.

Замаскированные Ивановы останутся родственниками похожего возраста, которые живут по одному адресу

«Маскировщик» умный, потому что:

Использует большой набор справочников. С их помощью сохраняет семантику, качество и полноту данных.

«Маскировщик» оперирует справочниками:
– фамилий, имен и отчеств с указанием пола и популярности;
– ГАР/ФИАС;
– кодов и названий подразделений для паспортов физлиц;
– недействительных паспортов МВД;
– операторов по Россвязи;
– телефонных кодов стран.

Благодаря справочникам «Маскировщик» сохранит недействительный документ недействительным, популярное имя — популярным. Редкое ФИО заменит на редкое. А еще точно подберет похожий адрес и телефон.

Отличает типы данных и понимает их структуру. Поэтому качество данных не портится.

«Маскировщик» знает вид:
– фамилий, имен и отчеств;
– дат рождения;
– документов физлиц;
– адресов;
– номеров телефонов;
– емейлов;
– ИНН;
– СНИЛС;
– банковских карт;
– банковских счетов.

«Маскировщик» разбирается, какие данные и в каком порядке идут в строке.

«Маскировщик» понимает, какие цифры в номере и серии паспорта или в номере телефона менять на случайные, а какие — подбирать по справочникам

А еще «Маскировщик» рассчитает новую дату рождения с учетом сроков замены паспорта — чтобы подмененный документ остался действительным.

Структура ИНН и СНИЛС включает в себя контрольные числа. Эти данные зависят от предыдущих цифр в строке. Их вычисляют по специальному алгоритму.Структура ИНН и СНИЛС

Чтобы после замены предыдущих цифр ИНН и СНИЛС сохранили валидность, «Маскировщик» пересчитывает контрольное число.

Обычные алгоритмы и скрипты не справятся с таким детальным уровнем замены.

«Маскировщик» безопасный, потому что:

В каждой сессии «Маскировщик» подбирает замены случайным образом.

Данные в файле замен хранятся в виде хеша, набора цифр и букв. Не зная алгоритма, восстановить исходные персональные данные невозможно. Поэтому «Маскировщик» умеет безопасно обновлять замаскированную или сгенерированную базу, сохраняя файл с заменами.

Полная запись вебинара с ответами на вопросы участников хранится на нашем YouTube-канале.

Чтобы задать вопросы, напишите на ask@hflabs.ru