«Маскировщик» — один из новых продуктов HFLabs. Он обезличивает персональные данные, сохраняя их смысл. Это повышает качество тестирования и упрощает работу с внешними вендорами. С «Маскировщиком» вывести новые решения в прод можно быстрее и с меньшими затратами. А еще наше решение позволяет безопасно настраивать модели машинного обучения.

О том, как работает «Маскировщик», мы уже рассказывали в нашем блоге. А сегодня подготовили ответы на вопросы, которые нам чаще всего задают на демо-сессиях и пресейлах.

Работает маскирование из коробки или в облаке?

Возможны оба варианта.

Мы поставляем «Маскировщик» как коробочное решение. В этом случае оно разворачивается в контуре заказчика и чувствительные данные не покидают компанию.

Но «Маскировщик» умеет работать и в облаке. При таком сценарии он получает запрос с персональными данными, а ответ отдает с обезличенными. Попробовать можно здесь.

Сколько времени занимает маскирование?

На скорость маскирования влияет:

  • тип и состав данных. На обезличивание адресов потребуется больше времени, чем на ФИО и номера телефонов;
  • выбор алгоритма маскирования. Алгоритмами с упрощенной бизнес-логикой можно маскировать быстрее;
  • конфигурация сервера;
  • количество нод.

По нашим замерам, маскирование 1 млн записей занимает от 45 секунд до 25 минут в зависимости от типа данных. Конфигурация машины, на которой проводились замеры:

  • Модуль ETL: CPU — 2 ядра, RAM — 8 GB.
  • Маскировщик: CPU — 6 ядер, RAM — 16 GB, SSD диск (пропорциональный размер маскируемым данным).
  • Модуль стандартизации: CPU — 8 ядер, RAM — 24 GB, SSD диск от 40 ГБ.

Как маскируются ФИО?

«Маскировщик» использует для замен данные из наших внутренних справочников имен, отчеств и фамилий. Важная деталь: при обезличивании обязательно учитывается пол и популярность имени (редкие имена остаются редкими). Это значит, что Петр не превращается во Владлена, а Анжелика в Василия.

Кроме того, «Маскировщик» сохраняет семейные взаимосвязи: отчества остаются синхронны с именем.

«Маскировщик» умеет работать с именами, записанными транслитерацией. При маскировании он также использует транслитерацию.

Можно ли замаскировать несколько систем консистентно?

Если «Маскировщик» обезличивает данные из нескольких систем в течение одной сессии, он сохраняет их консистентность. Например, Иваны из всех систем-источников превратятся в Степанов, а Наталии — в Екатерин. То же самое и с телефонами, адресами и остальными типами данных.

Если мы хотим сохранить консистентность данных для нескольких сред, то можно сохранить кэш замен и использовать его для нескольких маскировок, в том числе последовательно на разных стендах. Это бывает важно для тестирования интеграций между несколькими БД.

При желании кэш замен можно не сохранять и маскировать каждый раз по-разному.

Можно ли расшифровать замаскированные данные?

Если коротко, то нет. Во время сессии файл замен хранится в зашифрованном виде. Невозможно проследить связь между данными в реальной и замаскированной базе.

Связаны ли «Маскировщик» и «Единый клиент»?

В разработке алгоритмов маскирования мы опирались на полученный опыт в работе с данными и их качеством, в рамках 18-ти летней истории развития нашего флагманского продукта CDI «Единый клиент».

Если компания использует «Единый клиент», это ускоряет процесс обезличивания, так как «Маскировщик» сразу получает стандартизированные данные.

Но «Маскировщик» работает и без «Единого клиента» — с источниками с любым составом и происхождением данных. В этом случае он сам стандартизирует их перед их обезличиванием.

С какими СУБД работает «Маскировщик»?

В коробочное решение входят PostgreSQL, Oracle, MS SQL.

Готовы коннекторы для:

  • MySql,
  • SQLite,
  • Clickhouse,
  • GreenPlum.

Если вашей СУБД нет в списке, то напишем коннектор и для нее.

Можно ли использовать «Маскировщик» для формирования тестовых сред?

Да, можно. В этом случае чувствительные данные мы маскируем, а остальные просто переносим. Так заказчик получает полноценную безопасную среду для тестирования.

Где уже работает «Маскировщик»?

На старте «Маскировщик» был опробован в банке «Открытие», где нужно было замаскировать данные клиентов из определенного сегмента. 1 млн записей был обработан за три минуты. База клиентов в результате обезличивания сохранила консистентность и семантические особенности.

Затем «Маскировщик» был использован в одной из страховых организаций. Сейчас идет внедрение «Маскировщика» в компании «Платферрум». Также мы проводим пилотные проекты еще в двух крупных банках.

Как именно проходят пилотные проекты и внедрение?

Для пилотного проекта подбираем наиболее показательные объекты по набору данных. Можем взять несколько систем, чтобы проверить консистентность маскирования между БД.

При внедрении на первом этапе согласуем с заказчиком модель маскирования. Обсуждаем, какие поля и каким способом лучше обезличить (с точки зрения наших рекомендаций и бизнес-сценариев организации). Затем прорабатываем комплексные варианты интеграции в процессы компании.

После внедрения заказчик может самостоятельно добавлять появляющиеся новые объекты и поля, а мы, если нужно, проконсультируем. При необходимости выполним работы под ключ по добавлению систем или внесению изменений.

Оставьте заявку, и мы проведем пилотную обработку ваших данных.

Скачать презентацию по продукту или записаться на пилотную обработку ваших данных можно на странице «Маскировщика».