Что такое data catalog и для чего он нужен?
Что такое Data Catalog?
Невозможно представить развитие бизнеса без работы с данными и ведения каталога данных. Он включает в себя описание физического и логического уровней метаданных и показывает, где находятся данные, как они перемещаются и трансформируются. Работа с каталогом данных эффективна при создании отчетности, построении озер данных и для последующей аналитики. Каталог данных дает представление пользователю, как данные используются в реальности, и предоставляет возможности по детализации каждого действия, которое с ними осуществляется.
Функции Data Catalog
К основным функциям каталога данных относятся следующие:
- Сканирование метаданных при извлечении их из систем хранения и систем перемещения данных и их визуализации. Основными источниками данных в таком случае являются базы данных, производственные системы, системы отчетности и аналитики, системы ETL, хранилища, озера данных и другие средства по перемещению и трансформации данных.
- Профилирование данных. Оно позволяет оценить качество данных, осуществить сбор статистики и информации об этих данных. Это дает дополнительные возможности определить пригодность данных для решений задач бизнеса.
- Выявление доменов данных, которое помогает определить, соответствует ли название реально хранимым данным. Например, в проектах Data Governance зачастую тратится много времени на проведение связи между определенным полем, которое было выявлено в ходе сканирования, и его реальным описанием. В хранилище данных могут быть тысячи таких полей, и детальный разбор каждого поля (если это делать вручную) занимает много времени. Сэкономить это время помогает выявление доменов данных. В рамках этой функции сегодня все чаще применяется искусственный интеллект.
- Сертификация данных. Дает возможность бизнес-пользователю быстрее находить данные, если они хранятся в разных местах.
- Поиск похожих данных для быстрого проведения связей между ними.
- Классификация данных. Каталог данных позволяет классифицировать данные по разным критериям: тип данных, тематика, формат и другие.
Как использовать Data Catalog?
Основное применение каталога данных лежит в области решений класса Data Governance, при которых каталог содержит всю информацию о текущем состоянии данных, их перемещении, хранении и дает возможность сравнить бизнес-логику формирования показателей с технической реализацией.
Обычно Data Catalog используется вместе с бизнес-глоссарием, который обеспечивает согласованность использования данных. Это дает возможность ускорить предоставление достоверных данных бизнес-пользователю.
Таким образом, каталог данных позволяет повысить эффективность работы с данными, облегчая их поиск, анализ, улучшая их качество за счет сканирования и профилирования данных и делая сотрудничество бизнес-пользователей с техническими специалистами продуктивнее. Это повышает качество аналитики данных и принимаемых на их основе решений в компании, оптимизирует бизнес-процессы.
Узнать подробности про решение класса Data Governance
Юниверс DG
Вам может быть интересно
Исследование
Оценка зрелости
управления данными
Запись вебинара
Data Governance в ритейле:
специфика и особенности
(Кейс “Magnit Data”)
Обновлено: 03.07.2024
Опубликовано: 17.01.2024
Автор