Процесс, когда «Единый клиент» ищет связи между сущностями разного типа, называется кросс-сверка.

Например, алгоритм сравнивает списки клиентов-физлиц и потенциальных клиентов-лидов. Или базу физлиц и черные списки — скажем, перечень террористов Росфинмониторинга.

Связи, которые «Единый клиент» находит благодаря кросс-сверке, помогают повысить продажи, защитить бизнес от рисков и от штрафов регуляторов.

Если сравнить списки физлиц и, например, террористов Росфинмониторинга, то компания увидит, кто из ее клиентов оказался в перечне террористов. Этим людям запрещено пользоваться банковскими картами, продавать и покупать имущество, получать наследство, алименты и страховые выплаты. Поэтому они обычно скрывают такую информацию о себе. А бизнес рискует заплатить штраф за то, что нарушил требования регулятора и провел операцию «спрятавшегося» списочника.

Теперь «Единый клиент» проверяет разнотипные списки в базе из 218 млн записей в 1,7—96 раз быстрее.  Скорость кросс-сверки выросла потому, что мы придумали новый, более быстрый алгоритм, и гибкие настройки поиска дублей. На сколько вырастет скорость, зависит от того,  какими опциями обновления воспользуется заказчик. Подробно о новых возможностях алгоритма рассказываем в главе «Что мы изменили».

Здесь кратко уточним, от чего зависит новая скорость кросс-сверки:
*В примерах показываем результаты использования возможностей нового алгоритма в базе одного и того же заказчика.

1. Сохраняем прежние критерии поиска. Скорость кросс-сверки увеличивается почти в два раза.

Кросс-сверка двух баз из 200 млн физлиц и 18 млн лидов ускорилась с 24 до 14 часов.

2. Убираем лишние сравнения. Новый алгоритм кросс-сверки позволяет гибко настраивать критерии поиска. Если компания исключит сравнения, от которых бизнес может отказаться, алгоритм не найдет часть дублей. Но скорость поиска вырастет почти в 100 раз.

Заказчик пожертвовал 1% связей, которые находил алгоритм кросс-сверки в двух базах из 200 млн и 18 млн записей. Мы ограничили количество сравнений в двух группах: отобранных по совпадению нескольких согласных в ФИО и по году в ДР клиента. Скорость кросс-сверки выросла в 96 раз — задача занимает 15 минут вместо 24 часов.

Чем полезна быстрая кросс-сверка

Когда кросс-сверка работает быстро, бизнес раньше узнает свежие данные о своих клиентах. Так как новая кросс-сверка занимает меньше времени, то IT-системы компании тоже нагружаются меньше.

Бизнес получает больше информации о клиентах, когда сверяет разнотипные списки. Этот процесс берет на себя кросс-сверка.

Благодаря связям, которые находит кросс-сверка, бизнес, например:
Увеличивает продажи. Сверив списки клиентов-физлиц и лидов, компания узнает, какие действующие клиенты интересовались в качестве лидов новыми услугами.

Обычно компания получает контакты лидов вне зависимости, нажал ли человек кнопку «купить» или «оставить заявку». Найдя в списке лидов действующих клиентов, их можно спросить, почему они не сделали заявку. Или предложить продукт на особенных условиях. Так бизнес увеличит конверсию рекламы в продажи и получит больше прибыли.

Защищает клиентов от потери денег и сохраняет репутацию компании. Сравнив таблицу клиентов-юридических лиц и ЕГРЮЛ, компания будет знать, в каких юрлицах произошли изменения.

Например, так банк сможет заранее вычислить «фейковых» директоров и защитить деньги клиентов и свою репутацию. Жулики придумали, как менять в ЕГРЮЛ данные настоящего директора на поддельного, а потом снимать деньги компании. Подробно о такой схеме банковского мошенничества мы писали в статье о продукте KYC.

Избегает риска. Найдя связи между списком клиентов-физических лиц и ЕГРИП, бизнес увидит, какие физлица работают как ИП. Такая информация поможет точнее оценить клиента-физлицо: например, проверить, есть ли на ИП судебные иски. Так работать надежнее.

Скажем, страховая компания оценивает стоимость ОСАГО для Ивана Травина и хочет дополнительно оценить риски. Сравнив списки физлиц и ЕГРИП, бизнес увидит связь клиента с ИП Иван Травин, который оказывает услуги такси. Так страховщик точнее рассчитает стоимость полиса.

Что мы изменили

Мы полностью переписали общий алгоритм поиска дублей, которым пользуется кросс-сверка. Изменили и архитектуру, и принципы сравнения данных.

Раньше кросс-сверка искала дубликаты в одном общем объеме, собранном из сравниваемых баз. Часть сравнений выполнялась вхолостую. Например, сравнивались не только клиенты с лидами, но и клиенты с с клиентами и лиды с лидами. От этих сравнений можно было отказаться. Но кросс-сверка все равно справлялась быстро, потому что клиентские базы были небольшими, в несколько миллионов записей.

Современные базы наших клиентов выросли до сотен миллионов записей. Поэтому мы придумали новый, более быстрый алгоритм дедупликации и исключили лишние сравнения.

Сейчас алгоритм кросс-сверки ищет совпадения не в одном большом объеме, как раньше, а сравнивает два отдельных объема. Например, физлиц в клиентской базе и «черносписочников» из какого-либо перечня.

Еще новый алгоритм умеет гибко регулировать критерии, по которым он предварительно группирует данные для сравнения. Такие критерии называются хешеры. Точная группировка ускоряет поиск в десятки раз, сохраняя нужное заказчику качество поиска.

Как работают хешеры. С помощью хешеров мы ускоряем проверку базы, потому что они группируют для сравнения потенциально похожие данные. Так мы сравниваем только те наборы записей, которые совпали по предварительным критериям. Тогда нам не приходится сравнивать «каждого с каждым».

Мы можем выбирать для хешера любые критерии. Например, использовать группировщик, который соберет все фамилии, где совпадают первых три согласные буквы. Или выберет записи с одинаковым годом рождения.

Существуют хешеры, которые объединят для сравнения очень большие группы — из миллионов записей. Например, если собрать данные для сравнения, используя из всего адреса только название города. Но искать дубли в такой большой группе очень долго и не всегда полезно.

Группировать данные для сравнения по слишком узким критериям тоже опасно — можно кого-нибудь пропустить. Например, если искать совпадения по полному ФИО, группы будут намного меньше. Но тогда, скажем, «Иванов Данил Петрович» и «Иванов Даниил Петрович» попадут в разные группы. Такой поиск будет более быстрым, но менее точным.

В алгоритме новой кросс-сверки мы придумали, как легко управлять количеством сравнений по разным хешерам. Так мы можем подобрать необходимую точность и скорость.

Мы можем отследить, насколько большие группы данных собирают хешеры. Затем исключить из сравнения те группы, что неразумно велики. Так мы теряем незначительное количество дублей, но в десятки раз выигрываем в скорости.

Например, хешер «в ФИО совпадают три первые согласные», собрал 15 327 групп. Мы видим, что три из этих групп превышают 100 тысяч записей. И можем исключить три слишком большие группы из кросс-сверки, а затем проверить, сколько дублей мы не нашли и на сколько выросла скорость. Затем сохранить настройки, если результат нам понравится.

Как получить обновление

Заказчики получат новый алгоритм кросс-сверки автоматически, установив обновление «Единого клиента».

Если у вас остались вопросы, напишите на ask@hflabs.ru