Индустрия: Нефтегаз и энергетика
Решение: Informatica Axon Data Governance, Enterprise Data Catalog, Data Quality, Big Data Management, PowerCenter
Технологии: Data Governance
Индустрия: Нефтегаз и энергетика
Решение: Informatica Axon Data Governance, Enterprise Data Catalog, Data Quality, Big Data Management, PowerCenter
Технологии: Data Governance
«Мы создали комплексную инфраструктуру работы с данными, реализовав сложную современную архитектуру Big Data. Для выполнения проекта был создан Центр аналитических решений, включающий подразделения по инжинирингу данных и Центр компетенций по Data science, создана «с нуля» сильная команда внутри и вся разработка проведена без привлечения внешних подрядчиков. Мы уже видим эффект от внедрения «умного озера данных» в сокращении затрат на поиск и поставку качественных данных для цифровых инициатив и проектов. Ожидаем, что, благодаря активному использованию инструментов Data Governance в течение трех лет повысим качество данных на 60%, что значительно снизит операционные риски и затраты бизнеса»,
Александр Крылов., директор по региональным продажам ПАО «Газпром нефть»
Цель проекта – внедрить в едином решении комплексную систему для анализа данных и управления данными Дирекции региональных продаж ПАО «Газпром нефть».
Основные ожидаемые бизнес-эффекты внедренного решения: снижение затрат на интеграцию данных, реализацию продуктивных аналитических проектов за счет централизованных инфраструктуры и сервисов, демократизация данных через общий пользовательский портал (доступ к единому бизнес-словарю всех аналитических витрин и приложений, актуальным картам происхождения, правилам и метрикам по качеству данных), повышение доступности данных и быстрое развертывание сред и предоставление датасетов для инициатив data science (с месяцев – до дней), повышение эффективности работы аналитиков (паспорта источников, объектов данных и их происхождение, инструменты профилирования и автоматической разметки всех данных в едином каталоге), обеспечение промышленных инструментов контроля и улучшения качества данных.
«Умное озеро данных» включает компоненты обработки, хранения и анализа данных – Data lake и хранилище данных, лабораторию продвинутой аналитики Data science, работающие в тесной интеграции с компонентами Data Governance.
Ключевые для «умного озера данных» компоненты Data Governance реализованы на платформе Informatica, которая является признанным мировым лидером решений для интеграции и управления данными. Партнером по поставке и поддержке внедрения продуктов Informatica выступила компания DIS Group, официальный представитель Informatica в России и СНГ.
Решение работает на 48 физических серверах и использует 12 выделенных систем хранения данных (СХД), оборудование размещено в Центре обработки данных ПАО «Газпром нефть» в Санкт-Петербурге.
Ведется активная работа по интеграции компонент «умного озера данных» с существующими DevOps–инструментами. Это позволит автоматизировать рабочие процессы инжиниринга данных, тестирования, выпуска релизов и в дальнейшем прийти к внедрению SLA («данные как сервис») по типовым задачам поставки данных для различных категорий бизнес-заказчиков и команд аналитиков.
«Умное озеро данных» имеет два ландшафта (тестовый и продуктивный) и три зоны («Сырой слой» для хранения копий данных из источников, «Продуктивная фабрика данных» с фокусом на оптимизацию, производительность и управление, «Исследовательская лаборатория» для задач прототипирования аналитических моделей) с различным уровнем управления данными для разных режимов работы.
Основной сценарий разработки в «умном озере данных» подразумевает применение промышленных средств интеграции данных Informatica (Big Data Management, PowerCenter) над озером данных (Hadoop) и хранилищем данных (MS SQL Server 2017) таким образом, чтобы обеспечить автоматическую загрузку структур, цепочек происхождения, формул преобразования данных и выборок данных до полей в каталог данных Informatica (Enterprise Data Catalog).
В каталоге данных производится паспортизация источников данных, таблиц и витрин, разметка данных по доменам с помощью настроенных шаблонов (например, для коммерческой тайны и персональных данных), а также профилирование данных (выявление типов и масок для полей данных, схожесть с полями других таблиц и т.д.).
Кроме этого, в каталоге данных настраивается связь между объектами технических метаданных и бизнес-метаданных, что в дальнейшем обеспечивает бесшовную интеграцию с бизнес-глоссарием.
Компонента управления качеством данных Informatica (Data Quality) позволяет вести единый каталог правил по качеству данных, обогащать его (уровень критичности, аспекты качества, теги для правил), бесшовно интегрировать в ETL-цепочки над озером и хранилищем данных, что дает возможность просматривать статус и историю выполнения каждого правила.
Бизнес-глоссарий Informatica позволяет вести паспорта бизнес-объектов данных (определения, методики расчёта, связь с владельцами, стюардами, бизнес-процессами), управлять изменениями.
Между объектами глоссария выстраиваются связи (иерархические, логические связи, которые могут характеризоваться характером самой связи, обязательностью и множественностью).
Пользовательский портал Informatica Axon автоматически объединяет информацию из каталога данных, компоненты управления качеством данных и бизнес-глоссария, предоставляет массовый доступ для пользователей. Портал позволяет проводить поиск бизнес-терминов, просматривать паспорта бизнес-объектов, их связи с другими объектами, историю изменений, связанные правила по качеству данных и датасеты на уровне хранилища, цепочки происхождения данных и формулы преобразования данных на этапах ETL. Кроме этого, пользователям портала доступны актуальные статусы и история правил по качеству данных, а также сводные дашборды по качеству данных.
В ходе проекта при разработке озера данных и хранилища данных апробировались и применялись подходы, которые в итоге позволили получить уникальный функционал: автоматическое построение происхождения данных (data lineage) до полей и автоматическая разметка в каталоге данных, единый управляемый каталог правил по качеству данных, интегрированный с ETL и бизнес-глоссарием, автоматический мониторинг качества данных по каждому датасету и др. Для этого пришлось значительно изменить культуру разработки и создать большое количество инструментов для автоматической передачи данных и метаданных между компонентами решения.
Внедрение аналитической платформы является частью стратегии цифровой трансформации дирекции региональных продаж, где около 50% всех аналитических проектов и инициатив уже реализуются в контуре «умного озера данных», а в 2020 году – их доля достигнет не менее 75%.
«Умное озеро данных» признано «Проектом года» IT-портала Global CIO в номинации «Аналитические решения и Big Data».
Комплексное решение создает гибкую инфраструктуру для любых задач анализа и системного улучшения качества данных, что позволяют бизнесу быстро разрабатывать и внедрять клиентские решения и повышать операционную эффективность сбытового бизнеса. За счет централизации обработки и хранения данных снижаются затраты на инфраструктуру и подготовку данных для проектов компании. Сотрудники получают мгновенный доступ через единый пользовательский портал к описаниям любых объектов и наборов данных. Компания может предугадывать предпочтения клиентов и персонализировать предложения.
Первые задачи «умного озера» включили в себя обработку транзакций сети АЗС «Газпром нефть», расчет сегментов для клиентской аналитики, анализ обратной связи от клиентов. Кроме этого, в платформу были интегрированы данные значительного числа внешних источников, в частности, Санкт-Петербургской товарно-сырьевой биржи, сайтов Центробанков России и СНГ, географические и метеорологические ресурсы, метрики и отзывы Google, App Store, «Яндекс», открытые данные социальных сетей, различные данные партнеров и сведения о конкурентах, данные мобильных приложений.
125284, Москва, Ленинградский проспект 31А, стр1, 6 этаж, БЦ «МонАрх»8 (495) 645-02-01info@dis-group.ru
Этот веб-сайт использует куки для улучшения вашей навигации по сайту. Из этих файлов cookie файлы, которые классифицируются по мере необходимости, хранятся в вашем браузере, поскольку они необходимы для работы основных функций веб-сайта. Мы также используем сторонние файлы cookie, которые помогают нам анализировать и понимать, как вы используете этот веб-сайт. Эти куки будут храниться в вашем браузере только с вашего согласия. У вас также есть возможность отказаться от этих файлов cookie. Но отказ от некоторых из этих файлов cookie может повлиять на ваш опыт просмотра.
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.