Top.Mail.Ru

Что такое data catalog и для чего он нужен?

  1. Что такое Data Catalog?
  2. Функции Data Catalog
  3. Как использовать Data Catalog?

Что такое Data Catalog?

Невозможно представить развитие бизнеса без работы с данными и ведения каталога данных. Он включает в себя описание физического и логического уровней метаданных и показывает, где находятся данные, как они перемещаются и трансформируются. Работа с каталогом данных эффективна при создании отчетности, построении озер данных и для последующей аналитики. Каталог данных дает представление пользователю, как данные используются в реальности, и предоставляет возможности по детализации каждого действия, которое с ними осуществляется.

Функции Data Catalog

К основным функциям каталога данных относятся следующие:

  • Сканирование метаданных при извлечении их из систем хранения и систем перемещения данных и их визуализации. Основными источниками данных в таком случае являются базы данных, производственные системы, системы отчетности и аналитики, системы ETL, хранилища, озера данных и другие средства по перемещению и трансформации данных.
  • Профилирование данных. Оно позволяет оценить качество данных, осуществить сбор статистики и информации об этих данных. Это дает дополнительные возможности определить пригодность данных для решений задач бизнеса.
  • Выявление доменов данных, которое помогает определить, соответствует ли название реально хранимым данным. Например, в проектах Data Governance зачастую тратится много времени на проведение связи между определенным полем, которое было выявлено в ходе сканирования, и его реальным описанием. В хранилище данных могут быть тысячи таких полей, и детальный разбор каждого поля (если это делать вручную) занимает много времени. Сэкономить это время помогает выявление доменов данных. В рамках этой функции сегодня все чаще применяется искусственный интеллект.
  • Сертификация данных. Дает возможность бизнес-пользователю быстрее находить данные, если они хранятся в разных местах.
  • Поиск похожих данных для быстрого проведения связей между ними.
  • Классификация данных. Каталог данных позволяет классифицировать данные по разным критериям: тип данных, тематика, формат и другие.

Как использовать Data Catalog?

Основное применение каталога данных лежит в области решений класса Data Governance, при которых каталог содержит всю информацию о текущем состоянии данных, их перемещении, хранении и дает возможность сравнить бизнес-логику формирования показателей с технической реализацией.

Обычно Data Catalog используется вместе с бизнес-глоссарием, который обеспечивает согласованность использования данных. Это дает возможность ускорить предоставление достоверных данных бизнес-пользователю.

Таким образом, каталог данных позволяет повысить эффективность работы с данными, облегчая их поиск, анализ, улучшая их качество за счет сканирования и профилирования данных и делая сотрудничество бизнес-пользователей с техническими специалистами продуктивнее. Это повышает качество аналитики данных и принимаемых на их основе решений в компании, оптимизирует бизнес-процессы.



Автор
Олег Гиацинтов
Технический директор DIS Group
Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов.

Поделиться
{{ responsive_img( url='/../../static/upload/news/detail-image.jpg',lazy=true, img_attrs={ class: "img-fluid lazy" }, formats=['webp'] ) }}

Рассылка новостей

    Продолжая пользоваться сайтом, вы даёте Согласие на автоматический сбор и анализ ваших данных, необходимых для работы сайта и его улучшения, использование файлов cookie.