Что такое MDM-системы и мастер-данные?

1. Что такое master-данные?
2. Инструменты MDM
3. Big Data и машинное обучение для MDM
4. Актуальность внедрения MDM-систем
Что такое master-данные?
Мастер-данные («основные данные» или «нормативно-справочная информация») — это данные, записывающие справочную информацию, то есть значения, которые могут использоваться для указания, к чему какие данные относятся. Самый простой пример применения мастер-данных – разного рода справочники или классификаторы.
MDM-системы — это решения для управления справочной информацией. Их главная цель — обеспечить единство представления массивов данных во всех информационных системах. Кроме того, такой тип решений позволяет решить проблемы несоответствия, дублирования и несопоставимости данных.
Для того, чтобы разобраться в том, как MDM-система должна функционировать, важно понять, как устроены процессы по работе с данными.
Процессы можно поделить на несколько видов.
- Reference Data Management — это простые линейные справочники, в которых не требуется какая-либо сложная логика, например, справочники стран или валют. Cамый многочисленный набор справочных данных, с которыми приходится работать.
- MDM— это данные линейных или иерархических справочников с идентичной структурой хранения, где одна запись по своему составу и атрибутам похожа на другую. Пример таких справочников —клиенты, контрагенты, абоненты, организационная структура (например, сотрудники и все, что с ними связано).
Такие данные чаще всего подвергаются обязательной функции дедубликации (выявление и слияние дубликатов данных), поскольку работа с дублированными справочными данными может приводить к несоответствию отчетности, неверным решениям в части работы с клиентами и т.д.. Так, если для многих справочников (продуктовых/материальных ценностей) характерно централизованное ведение, то для клиентских справочников, где присутствуют физические лица, используют другую схему работы, которая называется консолидацией данных или гармонизацией мастер-данных.
Процесс консолидации начинается с появления данных во фронтальных системах, например, на интернет-порталах, после чего происходит их расшифровка и перемещение в систему управления нормативно-справочной информацией для поиска дубликатов, далее начинается разработка единой записи на основе всех, которые были найдены ранее. Затем данные направляются в хранилища, озера данных и другие системы как единая версия правды.
- Сложные иерархические справочники, часто зависящие от других справочников. Самый частый пример — продукты, товары, услуги, работы.
Исходя из потребностей работы с мастер-данными, промышленные системы MDM в своем составе имеют возможность:
- моделирования справочников;
- выполнения интеграционных процессов по наполнению и последующему предоставлению мастер-данных;
- слияния записей, которые были найдены как потенциальные дубликаты, или их разделения. Поскольку система может принять неверное решение, специалист должен иметь возможность вручную разделить записи и указать, что они уникальны. Для оптимизации этого процесса можно настроить систему так, чтобы она позволяла найти способ создать золотую запись или мастер-запись, которая соберет несколько дубликатов с различными полями и значениями;
- установки вертикальных и горизонтальных связей между используемыми значениями. Так, если справочники иерархические, — например, справочник холдингов, — специалистам необходимо управлять составными частями холдингов и их частями, например, дочерними организациями, и «привязывать» туда людей. При этом между справочниками должны быть и горизонтальные связи. Например, есть клиент, у которого есть продукт, который он приобрел в конкретной торговой точке. Горизонтальная связь здесь формируется между этими тремя объектами.
Инструменты MDM
Обычно для того, чтобы устранить разрозненность данных, создать единый источник достоверной информации, а также значительно улучшить управление данными, компании используют специализированные инструменты.
Кроме того, такие инструменты подходят для обработки не только структурированной информации, но и неструктурированных, а также операционных и аналитических данных. Благодаря этому правильное решение позволяет предприятиям создавать получать точную и качественную информацию, которая способствует более эффективному менеджменту.
Обычно инструменты для управления НСИ разделяются на три основных направления.
- Системы Reference Data Management (RDM): ведение линейных справочников;
- Системы класса Master Data Management: они используются для клиентской информации, контрагентской, организационных структур, сотрудников и так далее;
- Инструменты Product Information Management для ведения классификаторов: в первую очередь, это продукты, товары, другие товарно-материальные ценности.
При выборе MDM-решения компаниям следует определить, как они хотят его развернуть — в локальном центре обработки данных, в общедоступном, частном или гибридном облаке, поскольку некоторые MDM-запросы могут быть выполнены только в конкретной архитектуре.
Big Data и машинное обучение для MDM
Для того чтобы увеличить производительность процессов управления данными, многие предприятия в 2021 году начали активно использовать MDM-процессы в сочетании с машинным обучением и Big Data.
Так, технология MDM улучшает качество данных, используемых для машинного обучения, автоматизируя процесс подготовки данных и повышая точность модели. И наоборот, машинное обучение позволяет MDM автоматизировать процесс дедубликации и выявления взаимосвязей между записями, что помогает компании более эффективно управлять ресурсами.
Более того, внедрение Big Data и машинного обучения значительно сокращают нагрузку на сотрудников. Так, согласно исследованию, бизнес-аналитики и другие специалисты по анализу данных тратят 80% своего времени на поиск, очистку и реорганизацию соответствующих наборов данных. В этом случае машинное обучение можно использовать для автоматизации исправлений, внесенных ранее вручную, которые платформа в дальнейшем запомнит и будет применять самостоятельно.
И, конечно же, чем быстрее и эффективнее управление данными, тем больше новых данных можно внести в справочники и тем лучше общие данные, доступные для управления бизнес-аналитикой, операциями и прогнозной аналитикой на основе машинного обучения.
Актуальность внедрения MDM-систем
Сегодня справочные данные играют ключевую роль в работе любого бизнеса, поскольку они влияют практически на все существующие транзакционные данные. Любая информация о перемещении денежных средств, о поведении клиентов сопровождается справкой о том, что из себя представляет этот объект, как он называется, какой у него тип. Для того, чтобы грамотно и эффективно управлять всей этой информацией, компании необходима современная архитектура с MDM-системой.
При этом стоит помнить, что подходы по построению управления нормативно-справочной информацией крайне тяжелые с точки зрения организации. В первую очередь, любому заказчику тяжело найти бизнес-спонсора. Так, практически все подразделения задействованы тем или иным образом в работе со справочниками, поэтому найти драйвера для такого проекта бывает очень сложно.
Вторая трудность связана с аналитическими вопросами, а именно: каким образом искать дубликаты, как сливать данные, а также как взять на себя ответственность за то, что это может оказаться неверная или неактуальная информация.
Таким образом, база MDM позволит компании не только наладить процессы управления данными, но и увеличить производительность и улучшить качество данных, а также сократить количество ручного труда.
Автор: Олег Гиацинтов, технический директор DIS Group