10 самых частых вопросов о «Маскировщике»

«Маскировщик» — один из новых продуктов HFLabs. Он обезличивает персональные данные, сохраняя их смысл. Это повышает качество тестирования и упрощает работу с внешними вендорами. С «Маскировщиком» вывести новые решения в прод можно быстрее и с меньшими затратами. А еще наше решение позволяет безопасно настраивать модели машинного обучения.

О том, как работает «Маскировщик», мы уже рассказывали в нашем блоге. А сегодня подготовили ответы на вопросы, которые нам чаще всего задают на демо-сессиях и пресейлах.

Работает маскирование из коробки или в облаке?

Возможны оба варианта.

Мы поставляем «Маскировщик» как коробочное решение. В этом случае оно разворачивается в контуре заказчика и чувствительные данные не покидают компанию.

Но «Маскировщик» умеет работать и в облаке. При таком сценарии он получает запрос с персональными данными, а ответ отдает с обезличенными. Попробовать можно здесь.

Сколько времени занимает маскирование?

На скорость маскирования влияет:

тип и состав данных. На обезличивание адресов потребуется больше времени, чем на ФИО и номера телефонов;
выбор алгоритма маскирования. Алгоритмами с упрощенной бизнес-логикой можно маскировать быстрее;
конфигурация сервера;
количество нод.

По нашим замерам, маскирование 1 млн записей занимает от 45 секунд до 25 минут в зависимости от типа данных. Конфигурация машины, на которой проводились замеры:

Модуль ETL: CPU — 2 ядра, RAM — 8 GB.
Маскировщик: CPU — 6 ядер, RAM — 16 GB, SSD диск (пропорциональный размер маскируемым данным).
Модуль стандартизации: CPU — 8 ядер, RAM — 24 GB, SSD диск от 40 ГБ.

Как маскируются ФИО?

«Маскировщик» использует для замен данные из наших внутренних справочников имен, отчеств и фамилий. Важная деталь: при обезличивании обязательно учитывается пол и популярность имени (редкие имена остаются редкими). Это значит, что Петр не превращается во Владлена, а Анжелика в Василия.

Кроме того, «Маскировщик» сохраняет семейные взаимосвязи: отчества остаются синхронны с именем.

«Маскировщик» умеет работать с именами, записанными транслитерацией. При маскировании он также использует транслитерацию.

Можно ли замаскировать несколько систем консистентно?

Если «Маскировщик» обезличивает данные из нескольких систем в течение одной сессии, он сохраняет их консистентность. Например, Иваны из всех систем-источников превратятся в Степанов, а Наталии — в Екатерин. То же самое и с телефонами, адресами и остальными типами данных.

Если мы хотим сохранить консистентность данных для нескольких сред, то можно сохранить кэш замен и использовать его для нескольких маскировок, в том числе последовательно на разных стендах. Это бывает важно для тестирования интеграций между несколькими БД.

При желании кэш замен можно не сохранять и маскировать каждый раз по-разному.

Можно ли расшифровать замаскированные данные?

Если коротко, то нет. Во время сессии файл замен хранится в зашифрованном виде. Невозможно проследить связь между данными в реальной и замаскированной базе.

Связаны ли «Маскировщик» и «Единый клиент»?

В разработке алгоритмов маскирования мы опирались на полученный опыт в работе с данными и их качеством, в рамках 18-ти летней истории развития нашего флагманского продукта CDI «Единый клиент».

Если компания использует «Единый клиент», это ускоряет процесс обезличивания, так как «Маскировщик» сразу получает стандартизированные данные.

Но «Маскировщик» работает и без «Единого клиента» — с источниками с любым составом и происхождением данных. В этом случае он сам стандартизирует их перед их обезличиванием.

С какими СУБД работает «Маскировщик»?

В коробочное решение входят PostgreSQL, Oracle, MS SQL.

Готовы коннекторы для:

MySql,
SQLite,
Clickhouse,
GreenPlum.

Если вашей СУБД нет в списке, то напишем коннектор и для нее.

Можно ли использовать «Маскировщик» для формирования тестовых сред?

Да, можно. В этом случае чувствительные данные мы маскируем, а остальные просто переносим. Так заказчик получает полноценную безопасную среду для тестирования.

Где уже работает «Маскировщик»?

На старте «Маскировщик» был опробован в банке «Открытие», где нужно было замаскировать данные клиентов из определенного сегмента. 1 млн записей был обработан за три минуты. База клиентов в результате обезличивания сохранила консистентность и семантические особенности.

Затем «Маскировщик» был использован в одной из страховых организаций. Сейчас идет внедрение «Маскировщика» в компании «Платферрум». Также мы проводим пилотные проекты еще в двух крупных банках.

Как именно проходят пилотные проекты и внедрение?

Для пилотного проекта подбираем наиболее показательные объекты по набору данных. Можем взять несколько систем, чтобы проверить консистентность маскирования между БД.

При внедрении на первом этапе согласуем с заказчиком модель маскирования. Обсуждаем, какие поля и каким способом лучше обезличить (с точки зрения наших рекомендаций и бизнес-сценариев организации). Затем прорабатываем комплексные варианты интеграции в процессы компании.

После внедрения заказчик может самостоятельно добавлять появляющиеся новые объекты и поля, а мы, если нужно, проконсультируем. При необходимости выполним работы под ключ по добавлению систем или внесению изменений.

Оставьте заявку, и мы проведем пилотную обработку ваших данных.

Скачать презентацию по продукту или записаться на пилотную обработку ваших данных можно на странице «Маскировщика».

10 самых частых вопросов о «Маскировщике»

Работает маскирование из коробки или в облаке?

Сколько времени занимает маскирование?

Как маскируются ФИО?

Можно ли замаскировать несколько систем консистентно?

Можно ли расшифровать замаскированные данные?

Связаны ли «Маскировщик» и «Единый клиент»?

С какими СУБД работает «Маскировщик»?

Можно ли использовать «Маскировщик» для формирования тестовых сред?

Где уже работает «Маскировщик»?

Как именно проходят пилотные проекты и внедрение?

Клиенты VS Лиды: как разделить базу и никого не потерять

Лето 2023. Обновления «Фактора» и «Единого клиента» для бизнеса

Метки

Недавние статьи

Разумное согласие: масштабно обновили «Центр управления согласиями» (и внедрили AI)

Национальная страховая информационная система и HFLabs запустили проект по повышению качества данных

Миллионные штрафы за спам. Старые ошибки, новая ответственность

О компании

10 самых частых вопросов о «Маскировщике»

Работает маскирование из коробки или в облаке?

Сколько времени занимает маскирование?

Как маскируются ФИО?

Можно ли замаскировать несколько систем консистентно?

Можно ли расшифровать замаскированные данные?

Связаны ли «Маскировщик» и «Единый клиент»?

С какими СУБД работает «Маскировщик»?

Можно ли использовать «Маскировщик» для формирования тестовых сред?

Где уже работает «Маскировщик»?

Как именно проходят пилотные проекты и внедрение?

Блог HFLabs — делимся новостями и кейсами, пишем про клиентские данные

Клиенты VS Лиды: как разделить базу и никого не потерять

Лето 2023. Обновления «Фактора» и «Единого клиента» для бизнеса

Разумное согласие: масштабно обновили «Центр управления согласиями» (и внедрили AI)

Национальная страховая информационная система и HFLabs запустили проект по повышению качества данных

Миллионные штрафы за спам. Старые ошибки, новая ответственность