Решение
Для выполнения стратегических и тактических задач ПАО «Газпром нефть» было выбрано комплексное решение Smart Data Lake.
Решение Smart Data Lake позволяет не только собирать большие данные и работать с ними, но также профилировать качество данных, строить карты их трансформации, формировать каталоги данных, глоссарии.
«Умное озеро данных» имеет два ландшафта (тестовый и продуктивный) и три зоны («Сырой слой» для хранения копий данных из источников, «Продуктивная фабрика данных» с фокусом на оптимизацию, производительность и управление, «Исследовательская лаборатория» для задач прототипирования аналитических моделей) с различным уровнем управления данными для разных режимов работы.
В каталоге данных производится паспортизация источников данных, таблиц и витрин, разметка данных по доменам с помощью настроенных шаблонов (например, для коммерческой тайны и персональных данных), а также профилирование данных (выявление типов и масок для полей данных, схожесть с полями других таблиц и т.д.).
Кроме этого, в каталоге данных настраивается связь между объектами технических метаданных и бизнес-метаданных, что в дальнейшем обеспечивает бесшовную интеграцию с бизнес-глоссарием.
В ходе проекта при разработке озера данных и хранилища данных апробировались и применялись подходы, которые в итоге позволили получить уникальный функционал: автоматическое построение происхождения данных (data lineage) до полей и автоматическая разметка в каталоге данных, единый управляемый каталог правил по качеству данных, интегрированный с ETL и бизнес-глоссарием, автоматический мониторинг качества данных по каждому датасету и др. Для этого пришлось значительно изменить культуру разработки и создать большое количество инструментов для автоматической передачи данных и метаданных между компонентами решения.