Миша Берёзин рассказал, как CDI-решения ищут дубликаты в базах клиентских данных. Запись уже на YouTube, посмотрите.

О чем шла речь

Чтобы построить «золотую» карточку клиента, нужно для начала понять, из каких «кирпичей» эту карточку собрать. То есть найти похожие записи — те, что описывают одного и того же человека.

Это непростая задача, и главное здесь — нащупать равновесие. Если правила поиска дубликатов сделать слишком мягкими, можно объдинить разных людей и получить «кентавра». Если же сильно перестраховаться, толку от мастер-системы не получишь — в базе останется полно дублей.

На вебинаре мы поговорим о тонкостях выявления записей-дубликатов:

  • почему не все дубликаты одинаково полезны и что такое «серая» зона;
  • что делать с дубликатами, по которым не удалось принять автоматическое решение;
  • как объединять карточки, когда кажется, что в них совсем мало данных;
  • как искать похожие карточки среди десятков миллионов записей за часы, а не дни.

Михаил готовит доклад, опираясь на реальные проекты HFLabs, боль и каждодневные задачи. Он расскажет, как все работает в жизни, а не в маркетинговых материалах мастер-систем.

Кому будет полезно

Вебинар пригодится архитекторам, дата-инженерам, аналитикам, специалистам по безопасности информации. И всем, кто хочет разобраться в сложностях работы с клиентскими данными.

Кто выступал

Спикером будет Михаил Берёзин, в HFLabs он руководит разработкой мастер-системы «Единый клиент».

На этой позиции Михаил изучает алгоритмы создания и обновления «золотых» записей. Анализирует эффективность подходов и типовые ошибки в работе.

«Единый клиент» используют такие компании как «Открытие», «Росгосстрах», «Альфастрахование», МТС, «Мегафон».

В общем, посмотрите вебинар, там интересные и важные штуки.