«Золотые записи» в MDM-системе: что это и как настроить их построение
Понятие «золотая запись» в MDM-системе подробно объясняет Дженнифер Вэйланд, ведущий руководитель целого ряда решений в Informatica. Также эксперт рассказывает, как эффективно наладить процессы создания таких записей. Пока не знакомы с терминами мастер-данные и MDM-система? Читайте подробное объяснение в статье Управление данными IoT с помощью MDM-систем. Больше реальных результатов управления данными с помощью MDM-систем ищите в статье: Мастер-данные в цифрах: 12 реальных результатов внедрения MDM-системы по ссылке.
Что такое золотая запись в MDM-системе?
Понятие «золотая запись» играет важнейшее значение в мире мастер-данных. Если организовать данные в формате таких записей, это позволит постоянно иметь доступ к очищенной, подтверждённой, полной информации в важнейших для компании доменах. Домен данных в контексте MDM-систем – предметная область, тип мастер-данных. Чаще всего компании, которые работают с клиентами, начинают с управления доменом клиентских мастер-данных.
«Золотая запись – это единая, точно определённая версия всех объектов данных в экосистеме организации. В таком контексте золотую запись можно также назвать «единой версией правды». Под «правдой» подразумеваются те факты, к которым пользователи данных могут обратиться, когда хотят быть уверенными, что используют правильную информацию. Золотая запись охватывает все релевантные данные во всех системах внутри организации».
Настройка построения золотых записей в MDM-системе
При применении MDM-системы основную сложность создаёт именно настройка автоматического потока операций по созданию золотых записей. Основная загвоздка – правильное сопоставление дубликатов информации об одном и том же объекте и объединение этих дубликатов. Например, имя клиента у вас могут фиксировать сразу две системы: система регистрации клиентов и система подачи жалоб. Не всегда легко понять, в какой из них информация об имени клиента будет наиболее достоверной. А может существовать ещё третья система, которая надёжно фиксирует адрес, но имя клиента в ней отсутствует.
Что важно для настройки сопоставления и объединения?
- MDM-система охватывает все источники релевантной информации в компании.
- правильно определено, какие из этих источников более надежны для заполнения конкретного поля в таблице MDM-системы.
- определены критерии, на которые нужно ориентироваться при выборе той системы, информация из которой попадёт в MDM-систему.
С чем сталкивается MDM-система
Пример двух дубликатов ниже:
Фамилия | Имя | Идентификационный номер клиента | Телефонный номер | Номер дома | Улица | Штат |
Вэйланд | Дженифер | 201215 | 7065842 | 123 | Мэйн стрит | Мэн |
Вэйланд | Дженн | 201211 | 2078675309 | 123 | Мэйн стрит | Мэн |
В дубликатах часть информации совпадает, часть – нет. Это значит, что автоматически без предварительных настроек MDM-система их не объединит.
Автоматизация работы благодаря MDM-системе
Давайте представим, что мы знаем, что первая информация для первого дубликата была получена из очень надёжного источника в том, что касается имени и адреса. А на источник данных для второго дубликата можно положиться в плане точности идентификационных номеров клиентов и их номеров телефона.
В качественной MDM-системе обязательно будет набор инструментов, который позволит получать информацию для создания одной золотой записи из нескольких источников. А также – возможность самостоятельно задавать критерии сопоставления и слияния дубликатов. Применимо к нашему примеру, имя и адрес MDM-система возьмёт из первого дубликата, идентификационный и телефонный номер – из второго. Результат – ниже.
Фамилия | Имя | Идентификационный номер клиента | Телефонный номер | Номер дома | Улица | Штат |
Вэйланд | Дженифер | 201211 | 2078675309 | 123 | Мэйн стрит | Мэн |
Процессы сопоставления и слияния становятся особенно интересными, когда нет понимания, какой из источников информации для конкретного поля более надёжный. Поэтому иногда потребуется вручную определять, данные их какой записи должны попасть в золотую. Поэтому важно, чтобы в MDM-системе были инструменты для управления потоком операций. Эти инструменты должны распределять спорные дубликаты среди data stewards (кураторы данных). Кураторы решают, основываясь на своём опыте и знаниях, информация из какого дубликата должна попасть в конкретное поле. Также в MDM-системе должен быть механизм согласования перед тем, как слияние записей полностью осуществится и будет создана золотая.
Чек-лист для создания золотых записей в MDM-системе
Для того, чтобы настроить процессы максимально эффективно, проанализируйте ситуацию в своей компании по чек-листу ниже:
- Какую информацию вам нужно фиксировать для золотой записи?
- В связи с этим – есть ли у вас информация, которая не очень важна для этого конкретного домена, но может быть интересной, если установить связи между записями?
- Какие у вас есть источники данных для создания золотых записей?
- Все ли источники данных интегрированы на текущий момент? Как быстро появляется доступ к новым или отредактированным записям?
- Какие источники самые надёжные и для каких полей?
- Какого порога точности достаточно вашей компании при автоматических слияниях дубликатов?
- Какой процесс согласования нужен вам перед слиянием дубликатов? Кто должен посмотреть на дубликаты и рекомендации по их слиянию перед завершение процесса слияния и создания единой версии правды?
Ответив себе на эти вопросы, вы сможете оптимально настроить MDM-систему. Остались вопросы? Задайте их ведущим специалистам по управлению мастер-данными и MDM-системам по почте info@dis-group.ru
Обновлено: 22.03.2023
Опубликовано: 07.05.2019