Методики и опыт, концепции и инструменты – все ключевые аспекты работы с данными и информацией охватил прошедший 24 сентября форум «Управление данными 2019: стратегии, архитектуры, платформы, практики», организованный издательством «Открытые системы» и собравший около 300 участников – представителей коммерческих и государственных структур и поставщиков ИТ-решений. Одим из ключевых вопросов форума стала монетизация данных.
Чтобы извлечь прибыль из данных, следует задуматься об управлении не просто потоками данных, а информационными активами. Как отметил Валерий Артемьев, консультант департамента статистики и управления данными Банка России, это понятие охватывает не только «сырые» данные, но также информацию (факты, документы, различные виды контента, классификаторы и пр.), метаданные – описания информационных активов, знания (их отличительная особенность – наличие семантической интерпретации) и артефакты искусственного интеллекта.
Грамотно выстроенное управление информационными активами поможет решить очень важные вопросы: есть ли в организации нужные данные, где они находятся, как получить доступ к ним и к их описаниям, каковы их источники, поставщики и потребители. Чаще всего добиться монетизации информационными активами организации предполагают благодаря анализу данных, поэтому управление ими должно помочь получить ответы на смежные вопросы: анализировались ли интересующие нас данные прежде, решалась ли с их помощью похожая задача, какие именно данные были проанализированы, какие результаты получены, какой эффект для бизнеса достигнут, какие для этого применялись инструменты, как получить доступ к ним и пр.
Отдельная тема, которую затрагивали очень многие, — управление качеством данных. Как заметил Артемьев, их качество напрямую зависит от постановки задач, которые планируется решать на их основе, и вытекающих их них критериев и их приоритетов. В любом случае, чтобы управление качеством данных принесло свои плоды, его необходимо измерять, иначе улучшать его будет практически невозможно.
Данные на службе общества и государства
Александра Аронова: «Важно позиционировать управление данными правильно – так, чтобы обеспечить доверие заинтересованных лиц» |
«Важно позиционировать управление данными – так, чтобы обеспечить доверие заинтересованных лиц», — уверена Александра Аронова, заместитель генерального директора компании «ГЛОНАСС».
В качестве примера Аронова поделилась опытом создания благоприятного информационного поля вокруг системы спасения на автодорогах «ЭРА-ГЛОНАСС». Ее появление сопровождалось мощным негативным фоном. Однако благодаря информационной кампании удалось значительно улучшить восприятие системы гражданами, убеждая их в том, что, во-первых, она поможет спасти им жизнь, если вдруг неприятности случатся с ними на дороге, а во-вторых, многочисленные устройства и установленные на них приложения от автопроизводителя собирают и передают сторонним организациям гораздо более конфиденциальные и детальные данные, чем те, что собирает «ЭРА-ГЛОНАСС». Одним из весомых аргументов является реальная эффективность системы: время реагирования экстренных служб на ее сигналы оказывается примерно вдвое меньше, чем у европейских аналогов, благодаря правильному выбору набора данных, передаваемых в случае аварии.
«Государственные данные должны стать рыночным активом, — заявил Василий Слышкин, директор департамента развития архитектуры и координации информатизации Минкомсвязи РФ. – Для этого они должны удовлетворять трем ключевым условиям: обладать юридической значимостью, доступностью и безопасностью».
Василий Слышкин: «Государственные данные должны стать активом на рынке данных» |
В настоящее время объем данных, которыми владеет наше государство, составляет около 80 Пбайт. Идет работа над созданием Национальной системы управления данных, утверждена ее концепция и «дорожная карта», которые охватывают компетенции управления данными, политику в этой области, платформу, а также эталонные данные. Ключевая цель НСУД – обеспечить доверие граждан и бизнеса к государственным данным. Она поможет установить прозрачные правила для рынка данных. В 2019-м — 2020 году предполагается реализовать пилотные проекты НСУД вместе с ЦИК (автоматизированное формирование реестра избирателей), ЦБ (цифровой профиль гражданина в части банковских услуг), ФНС (повышение качества данных в ФИАС), Минэкономразвития (создание цифровых паспортов муниципальных образований) и Росстатом (создание цифровой аналитической платформы статистики). На 2021 год запланирован запуск НСУД в действие на федеральном уровне, а к 2024-му должна быть завершена гармонизация федеральных и региональных информационных ресурсов.
Как пояснил Сергей Сергиенко, руководитель направления НСУД в НИИ «Восход», при создании системы активно используется инфраструктура информационного правительства (в первую очередь СМЭВ), вокруг нее будет выстраиваться собственная экосистема. Поставщиками и потребителями данных для НСУД станут различные ведомства с их витринами данных, которые будут представлять собой контейнеры СУБД разного типа. Предполагается, что они будут обладать возможностями эластичного масштабирования, многоуровневого распределения нагрузки, оптимизации выполнения запросов и введения квот на их выполнение. Их единообразную семантику обеспечит онтология государственных данных.
Вместе с тем, многие ведомства реализуют свои масштабные проекты в области данных. Так, в Счетной палате РФ ведется большая программа цифровой трансформации. Ее опорой служат данные из множества источников: от субъектов хозяйственной деятельности, закупочных электронных площадок, из ЕГАИС и других систем, где с помощью маркировки продукции отслеживается ее перемещение и сбыт, и пр. Как рассказал Михаил Петров, директор департамента цифровой трансформации Счетной палаты РФ, нынешние проекты нацелены на то, чтобы свести к минимуму ручные операции, которые инспекторы проводят в ходе проверок: цифровая платформа поможет выявлять подозрительные сделки и операции, предоставив инспекторам возможность сосредоточиться именно на них. Объекты проверки будут представлены в виде цифровых двойников. Данные для их проверок будут браться из множества источников и изучаться с помощью инструментов анализа различных типов данных (как структурированных, так и неструктурированных), предиктивной аналитики и искусственного интеллекта.
Александр Чистобородов, начальник управления развития цифровых методов аудита центра экспертно-аналитических и информационных технологий Счетной палаты, уточнил: в ведомстве используется девять собственных систем, также данные поступают от других государственных систем и от субъектов контроля. Сбор, консолидацию всех данных и максимальную цифровизацию неструктурированных данных обеспечивает ведомственное озеро данных. Сложность состоит в том, что приходится иметь дело с очень большим разнообразием их форматов. Сейчас разрабатывается технология единообразного их хранения. «Сырые» данные, а также метаданные пока хранятся в MongoDB в формате JSON. В скором будущем планируется реализовать масштабное внедрение платформы Arenadata. Предполагается, что объемы накопленных в ведомстве данных будут достигать десятков и сотен петабайт.
Большие выгоды для всех заинтересованных сторон сулит совместное использование медицинских данных. По словам Бориса Зингермана, генерального директора Ассоциации разработчиков и пользователей искусственного интеллекта в медицине «Национальная база медицинских знаний», в 2024 году планируется предоставить доступ к своим электронным данным всем пациентам. В 2018 году начался переход к распределенному хранению их данных на основе реестра электронных медицинских документов.
«Реестр формирует новый рынок независимых систем, позволяющих вести персональные электронные медицинские карты пациентов, аккумулируя информацию из их личных кабинетов на Едином портале госуслуг, — отметил Зингерман. – Также реестр может стать основой для формирования рынка больших данных в медицине».
«Сырье» для цифровой трансформации
Судя по выступлениям, сегодня очень часто вопросы управления данными решаются в контексте цифровой трансформации организаций, которые хотят их использовать, рассчитывая извлечь из данных весомую пользу. В «Северстали», например, для этого стараются сохранить максимально возможное количество производственных данных. По словам Доната Фетисова, начальника отдела архитектуры и разработки компании, за сутки в цехах холдинга собирается более 800 Гбайт данных. Проекты для реализации выбираются в ходе встреч с представителями производственных подразделений, затем они проходят оценку в финансовых отделах и уже после того, как от них получено положительное заключение, стартуют пилотные проекты. По их завершении проводится оценка полученного эффекта и сравнение с прогнозом, и лишь затем проекты запускаются в том масштабе, в котором они были задуманы.
В «Газпром нефти» работают над выстраиванием цифровой нефтяной компании. С точки зрения управления данными ключевым вопросом является обеспечение их качества – так считает Любовь Кайдалова, руководитель направления по качеству данных «Газпром нефти». Это необходимо и для большего доверия к ним, и для получения большего эффекта от их использования. Особую роль в этом играет созданная в компании система верификации данных. Как рассказал Руслан Гизатуллин, начальник управления геолого-геофизических баз данных компании «Газпромнефть НТЦ», эта система выступает в качестве ключевого элемента обеспечения качества данных.
В «Росатоме» особое значение придается данным, на основе которых «живут» цифровые двойники, применяемые в рамках технологии информационного моделирования зданий и сооружений (Building Information Modeling, BIM). По словам Владимира Панчука, главного эксперта группы архитекторов госкорпорации, информационный двойник, по сути, является полной моделью объекта (например, АЭС), которая актуализируется практически в реальном времени благодаря системе датчиков и включает в себя не только данные, но также модули физических расчетов, инструменты прогнозной аналитики и пр. Чтобы обеспечить актуализацию данных, в госкорпорации создали собственную платформу, отображающую в модели то, что происходит на стройке. Среди ключевых задач, решаемых с помощью цифровых двойников, — поиск пространственных коллизий, определение физических объемов и площадей, а также выпуск двумерных документов и спецификаций.
В интернет-магазине «Утконос», основной ассортимент которого составляют продукты питания и товары повседневного спроса, акцент в управлении данными делается на их монетизации. Как отметил Данила Наумов, директор по данным (Chief Data Officer, CDO) «Утконоса», добиваться монетизации здесь намерены в первую очередь благодаря встраиванию продвинутых методов аналитики в бизнес-процессы, связанные с маркетингом, управлением цепочками поставок, ценообразованием и выстраиванием ассортимента. Данные из систем ERP, CRM, управления складом, маркетингом и прочих бизнес-приложений на платформе SAP стекаются в два основных хранилища. Первое предназначено для структурированных данных, оно реализовано на основе СУБД Oracle. Вся прочая информация собирается в озере данных на платформе Spark. Ведутся эксперименты с потоками данных.
Факторы монетизации
«Монетизация данных – командная игра, здесь требуется взаимодействие людей, — отметил Юрий Сирота, старший вице-президент, руководитель департамента искусственного интеллекта и анализа данных центра компетенций BI банка «УралСиб». — Цифровые инновации следует внедрять в первую очередь в тех подразделениях, бизнес-процессах, на тех участках, где вероятность успеха наиболее велика, где можно получить максимальные преимущества».
Юрий Сирота: «Монетизация данных – командная игра, здесь требуется взаимодействие людей» |
Сирота считает, что взять на себя ответственность за управление данными должен топ-менеджер в ранге CDO. Он должен сочетать в себе знания и опыт бизнесмена, математика, ИТ-эксперта и менеджера проектов, чтобы быть и генератором бизнес-инициатив, и «продавцом» идей внутри своей организации, и специалистом по ИТ и данным, и стратегом бизнеса, и руководителем проектов.
Александр Тарасов, управляющий партнер компании DIS Group, призвал различать внутреннюю монетизацию, в рамках которой проекты нацелены на оптимизацию организации и повышение ее эффективности, внешнюю – способствующую развитию каналов дистанционного взаимодействия с клиентами и партнерами, а также государственную – ориентированную на выполнение требований регулирующих органов с целью минимизации штрафных санкций, а также на реализацию проектов частно-государственного партнерства. По мнению Тарасова, в организации должен быть выстроен процесс, позволяющий лучше узнать и понять данные, которыми она располагает. В рамках этого процесса необходимо обеспечить постоянный поиск и выявление новых данных, их интеграцию и оценку качества, каталогизацию и обновление каталогов данных, ведение бизнес-глоссариев, определение владельцев данных, их публикацию и использование.
Как считает Никита Кардашин, руководитель отдела развития интеллектуальных систем компании Naumen, сегодняшние тенденции подводят бизнес к тому, чтобы все, что повторяется, было автоматизировано. Чтобы этот подход реализовать эффективно, необходимо правильно выявлять точки для измерений и настраивать для них метрики, причем это касается как внутренних процессов, так и рыночного окружения организации. Одновременно существенно растут требования к данным и к их анализу: приходится работать не с записями, а с гораздо более сложными сущностями, при этом нужно не просто изучать данные, но и строить на их основе прогнозы и рекомендации для лиц, принимающих решения.
Платформы данных
Важную роль в управлении данными играют платформы. Разработчики Arenadata выстроили свою платформу на основе ПО с открытым кодом. Как пояснил Сергей Золотарев, управляющий партнер компании Arenadata, сегодня ни один из крупных вендоров не предлагает весь спектр технологий, которые требуются для реализации разных сценариев использования данных на крупных предприятиях. Опираясь на системы с открытым кодом, в Arenadata не только создали единую универсальную платформу, ставшую популярной у российских заказчиков, к том числе из госсектора, но и предусмотрели в ней «конвейер», позволяющий наращивать ее новыми возможностями.
На работу с современными экосистемами данных ориентировали свою программно-аппаратную платформу Hitachi Content Platform (HCP) в компании Hitachi Vantara. По выражению Алексея Никифорова, руководителя подразделения технологических решений Hitachi Vantara, HCP – это «универсальный боец» в мире данных: платформа может использоваться в самых разных сценариях, предусматривающих работу как со структурированными, так и с неструктурированными данными, поддерживает файловое, блочное и объектное хранение и пр. Платформа обеспечивает поиск и индексацию информации, токенизацию конфиденциальной информации и пр. Программное обеспечение платформы позволяет реализовать единый ETL-конвейер для подготовки данных.
Сделать реализацию подготовки и загрузки данных для их последующего изучения и анализа более качественной и менее затратной нацелена среда визуальной разработки ETL-приложений Neoflex Datagram. Среда унифицирует подходы к работе с различными источниками данных, автоматически генерирует код приложений на языке Scala, предоставляет возможность применять бизнес-правила и библиотеки машинного обучения на этапе трансформации данных, и кроме того, позволяет анализировать данные с использованием языков Python и R. Что также важно, среда обеспечивает потоковую.обработку и интеграцию данных на основе Apache Kafka. Как сообщил Артем Меркулов, руководитель бизнес-направления Big Data Solutions компании «Неофлекс», среда поддерживает разработку по методике DevOps и может использоваться в инструментальных конвейерах непрерывной интеграции и развертывания релизов приложений.
Собственную облачную платформу предлагает клиентам Mail.Ru Group. Платформа объединяет множество различных сервисов и инструментов, в том числе те, что предназначены для работы с данными – для их хранения и архивирования (с «холодным» доступом) и оперативной работы, в том числе веб-сервисов, ориентированных на распространение цифрового контента. Также поддерживается стандартный API-интерфейс Amazon S3 для объектного хранения данных. В прошлом году появились отдельные сервисы для работы с большими данными на основе Hadoop, Apache Spark, HBase и Kafka. Как отметил Дмитрий Лазаренко, директор по продажам PaaS-сервисов Mail.Ru Cloud Solutions, платформа позволяет работать с разнородными источниками и форматами данных, давая компаниям возможность решать самые разные задачи, связанные с хранением, анализом и монетизацией информационных активов.
CDO Award 2020
В финале конференции прозвучал анонс премии CDO Award 2020 — награды, учрежденной издательством «Открытые системы» и профессиональным ресурсом «Директор информационной службы» для руководителей, отвечающих за стратегию работы с данными, определение принципов хранения и обработки данных, политик использования данных и формирование корпоративной культуры работы с данными. Прием заявок на участие стартовал 1 октября 2019 года. Присуждение премии планируется проводить по пяти номинациям вместо четырех, как было в «дебютном» конкурсе CDO Award 2019.
Источник: https://computerworld.ru/articles/Upravlenie-dannymi–2019-v-poiskah-monetizatsii