«Газпром нефть» построила «умное озеро данных» на базе Informatica для решения задач анализа и системного улучшения качества данных

Клиент: «Газпром нефть»

Индустрия: Нефтегаз и энергетика

Решение: Informatica Axon Data Governance, Enterprise Data Catalog,  Data Quality, Big Data Management,  PowerCenter

Технологии: Data Governance

Модуль изображения

«Мы создали комплексную инфраструктуру работы с данными, реализовав сложную современную архитектуру Big Data. Для выполнения проекта был создан Центр аналитических решений, включающий подразделения по инжинирингу данных и Центр компетенций по Data science, создана «с нуля» сильная команда внутри и вся разработка проведена без привлечения внешних подрядчиков. Мы уже видим эффект от внедрения «умного озера данных» в сокращении затрат на поиск и поставку качественных данных для цифровых инициатив и проектов. Ожидаем, что, благодаря активному использованию инструментов Data Governance в течение трех лет повысим качество данных на 60%, что значительно снизит операционные риски и затраты бизнеса»,

Александр Крылов., директор по региональным продажам ПАО «Газпром нефть»

Бизнес-задача

Цель проекта – внедрить в едином решении комплексную систему для анализа данных и управления данными Дирекции региональных продаж ПАО «Газпром нефть».

Основные ожидаемые бизнес-эффекты внедренного решения: снижение затрат на интеграцию данных, реализацию продуктивных аналитических проектов за счет централизованных инфраструктуры и сервисов, демократизация данных через общий пользовательский портал (доступ к единому бизнес-словарю всех аналитических витрин и приложений, актуальным картам происхождения, правилам и метрикам по качеству данных), повышение доступности данных и быстрое развертывание сред и предоставление датасетов для инициатив data science (с месяцев – до дней), повышение эффективности работы аналитиков (паспорта источников, объектов данных и их происхождение, инструменты профилирования и автоматической разметки всех данных в едином каталоге), обеспечение промышленных инструментов контроля и улучшения качества данных.

Решение

«Умное озеро данных» включает компоненты обработки, хранения и анализа данных – Data lake и хранилище данных, лабораторию продвинутой аналитики Data science, работающие в тесной интеграции с компонентами Data Governance.

Ключевые для «умного озера данных» компоненты Data Governance реализованы на платформе Informatica, которая является признанным мировым лидером решений для интеграции и управления данными. Партнером по поставке и поддержке внедрения продуктов Informatica выступила компания DIS Group, официальный представитель Informatica в России и СНГ.

Решение работает на 48 физических серверах и использует 12 выделенных систем хранения данных (СХД), оборудование размещено в Центре обработки данных ПАО «Газпром нефть» в Санкт-Петербурге.

Ведется активная работа по интеграции компонент «умного озера данных» с существующими DevOps–инструментами. Это позволит автоматизировать рабочие процессы инжиниринга данных, тестирования, выпуска релизов и в дальнейшем прийти к внедрению SLA («данные как сервис») по типовым задачам поставки данных для различных категорий бизнес-заказчиков и команд аналитиков.

«Умное озеро данных» имеет два ландшафта (тестовый и продуктивный) и три зоны («Сырой слой» для хранения копий данных из источников, «Продуктивная фабрика данных» с фокусом на оптимизацию, производительность и управление, «Исследовательская лаборатория» для задач прототипирования аналитических моделей) с различным уровнем управления данными для разных режимов работы.

Основной сценарий разработки в «умном озере данных» подразумевает применение промышленных средств интеграции данных Informatica (Big Data Management, PowerCenter) над озером данных (Hadoop) и хранилищем данных (MS SQL Server 2017) таким образом, чтобы обеспечить автоматическую загрузку структур, цепочек происхождения, формул преобразования данных и выборок данных до полей в каталог данных Informatica (Enterprise Data Catalog).

В каталоге данных производится паспортизация источников данных, таблиц и витрин, разметка данных по доменам с помощью настроенных шаблонов (например, для коммерческой тайны и персональных данных), а также профилирование данных (выявление типов и масок для полей данных, схожесть с полями других таблиц и т.д.).

Кроме этого, в каталоге данных настраивается связь между объектами технических метаданных и бизнес-метаданных, что в дальнейшем обеспечивает бесшовную интеграцию с бизнес-глоссарием.

Компонента управления качеством данных Informatica (Data Quality) позволяет вести единый каталог правил по качеству данных, обогащать его (уровень критичности, аспекты качества, теги для правил), бесшовно интегрировать в ETL-цепочки над озером и хранилищем данных, что дает возможность просматривать статус и историю выполнения каждого правила.

Бизнес-глоссарий Informatica позволяет вести паспорта бизнес-объектов данных (определения, методики расчёта, связь с владельцами, стюардами, бизнес-процессами), управлять изменениями.

Между объектами глоссария выстраиваются связи (иерархические, логические связи, которые могут характеризоваться характером самой связи, обязательностью и множественностью).

Пользовательский портал Informatica Axon автоматически объединяет информацию из каталога данных, компоненты управления качеством данных и бизнес-глоссария, предоставляет массовый доступ для пользователей. Портал позволяет проводить поиск бизнес-терминов, просматривать паспорта бизнес-объектов, их связи с другими объектами, историю изменений, связанные правила по качеству данных и датасеты на уровне хранилища, цепочки происхождения данных и формулы преобразования данных на этапах ETL. Кроме этого, пользователям портала доступны актуальные статусы и история правил по качеству данных, а также сводные дашборды по качеству данных.

В ходе проекта при разработке озера данных и хранилища данных апробировались и применялись подходы, которые в итоге позволили получить уникальный функционал: автоматическое построение происхождения данных (data lineage) до полей и автоматическая разметка в каталоге данных, единый управляемый каталог правил по качеству данных, интегрированный с ETL и бизнес-глоссарием, автоматический мониторинг качества данных по каждому датасету и др. Для этого пришлось значительно изменить культуру разработки и создать большое количество инструментов для автоматической передачи данных и метаданных между компонентами решения.

Результат

Внедрение аналитической платформы является частью стратегии цифровой трансформации дирекции региональных продаж, где около 50% всех аналитических проектов и инициатив уже реализуются в контуре «умного озера данных», а в 2020 году – их доля достигнет не менее 75%.

«Умное озеро данных» признано «Проектом года» IT-портала Global CIO в номинации «Аналитические решения и Big Data».

Комплексное решение создает гибкую инфраструктуру для любых задач анализа и системного улучшения качества данных, что позволяют бизнесу быстро разрабатывать и внедрять клиентские решения и повышать операционную эффективность сбытового бизнеса. За счет централизации обработки и хранения данных снижаются затраты на инфраструктуру и подготовку данных для проектов компании. Сотрудники получают мгновенный доступ через единый пользовательский портал к описаниям любых объектов и наборов данных. Компания может предугадывать предпочтения клиентов и персонализировать предложения.

Первые задачи «умного озера» включили в себя обработку транзакций сети АЗС «Газпром нефть», расчет сегментов для клиентской аналитики, анализ обратной связи от клиентов. Кроме этого, в платформу были интегрированы данные значительного числа внешних источников, в частности, Санкт-Петербургской товарно-сырьевой биржи, сайтов Центробанков России и СНГ, географические и метеорологические ресурсы, метрики и отзывы Google, App Store, «Яндекс», открытые данные социальных сетей, различные данные партнеров и сведения о конкурентах, данные мобильных приложений.

Избранные истории успеха клиентов

Узнать больше
Изображения баннера
Узнать больше
Изображения баннера
Узнать больше
Изображения баннера
Посмотреть все истории успеха

У вас возникли вопросы?

Обучение

Записаться на тренинг

Поддержка

Получить поддержку

Свяжитесь с нами

Оставить сообщение