Почему озеро данных не приносит пользы и что с этим делать?

О самых распространённых ошибках в построении корпоративного озера данных и о том, как их исправить, рассуждает Вамши Шриперумбудур. В Informatica Вамши Шриперумбудур занимается маркетингом решений в области Big Data и аналитики.

13 мая 2020

Эксперты начали сомневаться в пользе озера данных

Многие эксперты сейчас сходятся во мнении, что озеро данных уже давно должно было доказать свою эффективность для бизнеса. По мнению многих специалистов, пришло время, когда необходимо чётко показать выгоду от озера данных или заменить его на более перспективную технологию. К сожалению, в целом я вынужден согласиться: из озера данных многим так и не удалось извлечь никакой выгоды. Большинство компаний продолжают использовать его только в тестовом режиме, для экспериментов. Бизнес-пользователи (data scientists и аналитики) ценят озеро данных за то, что оно обеспечивает быстрый доступ к информации для оперативной проверки тех или иных бизнес-гипотез, позволяет экспериментировать на основе этой информации. Но перехода от экспериментов к переносу значимых процессов в озера чаще всего так и не происходит. Давайте рассмотрим, что этому мешает.

Озеро данных стало болотом

Озеро данных может стать болотом, в котором собраны совершенно разные данные совершенно разного качества. Этим данным вы не можете доверять, а значит, не можете доверять результатам их анализа. Именно поэтому необходимо перестроить озеро данных таким образом, чтобы ко всей информации, которая туда поступает применялись правила по поддержанию качества данных, их очистке и обогащения.

В озере данных нет качественной карты, которая могла бы помочь найти нужные сведения

Мы все используем навигаторы. Они не только позволяют выстроить самый эффективный маршрут из пункта А в пункт Б, но и по дороге показывают заправки, магазины, кафе и прочее. При работе с корпоративными данными также нужны такие навигаторы – каталоги данных. Каталоги данных сканируют метаданные в различных системах компании (базы данных, приложения, инструменты), собирают их в одно место, автоматически составляют и семы метаданных и их связей друг с другом. Это позволяет находить метаданные, которые могут быть нужны для того или иного приложения, той или иной интеграции. Кроме того, во многих каталогах находить и классифицировать данные пользователям помогают встроенные алгоритмы искусственного интеллекта и машинного обучения. Благодаря этому поиск по корпоративным данным становится интуитивным, как поиск в Google. Больше о каталогах данных читайте в статье Каталог данных: что такое, зачем он нужен, как его выбрать.

Нет возможности качественно обрабатывать информацию в озере данных

Из-за того, что всё большее число бизнес-пользователей начинает самостоятельно работать с корпоративной информацией, приходится менять традиционный подход к управлению данными. Эффективные инструменты для подготовки данных к анализу позволяют data scientists и аналитикам самостоятельно находить и обрабатывать сведения, которые нужны им для аналитики. Важно, чтобы такие инструменты предоставляли возможность интегрировать данные, трансформировать и очищать. Без этого доверять результатам анализа данных нельзя. Кроме того, должна быть возможность перенести уже обработанные сеты данных в отдельную среду для того, чтобы другие сотрудники компании могли также ими воспользоваться. К тому же у бизнес-пользователей должна быть возможность объединяться для совместной подготовки тех или иных дата-сетов к анализу. Это значительно ускорит и упростит многие процессы.

Озеру данных ещё предстоит доказать свою пользу для бизнеса

Озеро данных – сравнительно молодая технология. Бизнесу ещё только предстоит научиться извлекать из неё пользу. Правильный подход к построению озера данных поможет вам извлечь выгоду из этой технологии быстрее. О российском опыте использования озера данных читайте в статье «Газпром нефть» первой в России запустила «умное озеро данных» на базе решений Informatica.

Рекомендуем также

Экосистема управления большими данными в АСНА, подробности проекта

10 сентября 2019
В мае 2019 года Ассоциация независимых аптек (АСНА) рассказала о создании экосистемы управления большими данными с использованием кластера Hadoop. Система оказалась уникальной для российского рынка. Благодаря ей более 25 тысяч пользователей получают оперативный доступ к большим данным. Среди пользователей – партнеры ассоциации: собственники, заведующие аптек, первостольники, а также сотрудники АСНА – менеджеры и аналитики компании. О том, как проходила реализация проекта и какую роль в нём сыграло решение Informatica Big Data Management, на сайте DIS Group рассказала Ольга Руднева, руководитель департамента ИТ, АСНА. Кейс вызвал большой резонанс на рынке: многим было интересно узнать подробности его реализации. Ниже Ольга Руднева и Максим Семиренко (куратор проекта со стороны компании DIS Group, которая осуществляла вендорский контроль проекта) делятся этими подробностями.

Какие возможности были у АСНА до разработки экосистемы

До внедрения экосистемы управления большими данными слабым местом АСНА были недостаточная полнота и доступность корпоративных данных. Ежедневная загрузка и обработка данных 6,5 тысяч аптек длилась около 18 часов. Процессы интеграции аптечной сети и валидации данных также занимали много времени. Процедура закрытия периода, сверки данных была сложной, постоянно возникали проблемы с загрузкой. В 2018 компании удалось настроить обработку данных с помощью Hadoop и инструментов его экосистемы, а также Informatica Big Data Management (BDM), данные были структурированы, очищены. Была разработана единая подсистема НСИ и мастер-данных в условиях постоянных изменений. Появилась валидация данных, добавлены новые источники, организован собственный ЦОД компании. На 2019 год в АСНА применяются методики машинного обучения для задач консолидации НСИ. Проект продолжает развиваться, сейчас проводится изменение структуры хранения данных под новые требования бизнеса, организовывается архивное хранение, разрабатываются API. Озеро данных также по-прежнему совершенствуется.

Почему было выбрано решение Informatica Big Data Management

Какие задачи выполняет Informatica Big Data Management в экосистеме управления большими данными АСНА? Решение осуществляет парсинг файлов данных (о парсинге данных в Informatica читайте в другой статье блога), проверку формата данных на соответствие, удаление дубликатов строк, преобразование данных в единую структуру, обогащение данных внутренней подсистемой НСИ, архивирование данных. Кроме того, BDM осуществляет процесс pushdown (подробнее о pushdown-оптимизации читайте в статье Как перемещать, выгружать и интегрировать очень большие данные дёшево и быстро? Что такое pushdown-оптимизация?). «Informatica Big Data Management обладает удобным интерфейсом без необходимости писать тысячи строк кода. Было важно не использовать программирование в чистом виде, а иметь возможность управлять обработкой данных из единого центра. Платформа работает с множеством источников информации, разными форматами файлов и экосистемой Hadoop», – отмечает Ольга Руднева. Максим Семиренко, директор по продажам консалтинга, DIS Group, подробнее объясняет преимущества Informatica Big Data Management: «Благодаря Informatica Big Data Management вы сегодня можете создать маппинг для формирования adhoc-отчёта на кластере с использованием последней версии Apache Spark, а завтра поставить этот маппинг на периодическую загрузку в аналитическое хранилище на Greenplum. При этом вам не нужно будет менять для этого команду разработчиков или покупать новые инструменты для работы с системами – вся разработка ведется в Informatica, а среду исполнения выбирает разработчик». После выхода Informatica Big Data Management 10.2.2 АСНА перешла на новую версию решения. В версии BDM 10.2.2:
  • Была улучшена стабильность работы решения. Сервис интеграции данных теперь может обрабатывать в 6 раз больше запросов. Также сервис интеграции данных теперь может автоматически переподчинять задачи для выполнения их на кластере Hadoop даже после сбоя в своей работе. Кроме того, теперь доступны REST-запросы, которые отображают статус задачи и другую информацию для мониторинга выполняемых маппингов и другое.
  • Была повышена продуктивность разработки. Стала доступна инкрементальная загрузка при массовой загрузке и инкрементальное внедрение. Были улучшены динамические маппинги, теперь они доступны для более широкого перечня типов данных и экосистем, в частности, для AWS и Azure.
  • Был сделан больший фокус на промышленный характер решения. Введена поддержка Azul OpenJDK, возможность использования для DevOps и другое.
Максим Семиренко объясняет: «Informatica постоянно развивает свою платформу управления большими данными, выпуская релизы ежеквартально с новыми функциональными возможностями. Например, версия 10.2.2 Informatica BDM поддерживает последние обновления стэка Hadoop и NoSQL, интегрируется в парадигму DevOPS и позволяет использовать Docker для контейнеризации. Постоянное развитие и обновление продукта вендором позволяет получить максимальную отдачу от инвестиций в Big Data, вне зависимости от того какая технология будет выбрана в Open Source стэке. Особенно это актуально для таких сложных проектов таких, как реализованная в АСНА экосистема управления большими данными.

Что дальше?

«Сегодня можно с уверенностью сказать, что мы готовы масштабироваться и принимая в ассоциацию неограниченное количество партнеров, менять отрасль, создавая дополнительную ценность для конечного потребителя фармацевтического ритейла», – отмечает Ольга Руднева. Если у вас остались вопросы по проекту, присылайте их на почту info@dis-group.ru Кроме того, уровень стабильности и масштабирования систем был неудовлетворительным. Добавление новых аптек в систему АСНА приводило к значительному увеличению времени её работы. В случае сбоя одного из процессов обработки данных, приходилось стабилизировать работу системы в течение недели. Решение этих проблем было критично для бизнеса АСНА. «Данные – это одна из ключевых ценностей бизнеса», – отмечает Ольга Руднева.

Как эволюционировала архитектура проекта по ходу

В 2016, когда проект экосистемы ещё был в проработке, данные располагались в двух хранилищах данных, они были «грязными», мастер-данных и единой подсистемы НСИ (нормативно-справочная информация) не было. Функционировал набор разнородных приложений, в том числе активно использовался Access. В 2017, когда проект стартовал, было создано единое хранилище, данные были структурированы. Положено начало для разработки единой подсистемы НСИ, мастер-данных. Для того, чтобы справиться с большими объёмами данных, сотрудники вынуждены постоянно «тушить пожары». Параллельно с тушением пожаров команда старалась построить озеро данных. Изначально планировалось реализовать весь проект на стороне Hadoop с использованием Informatica BDM. Но АСНА пришлось столкнуться с целым рядом сложностей. После проектирования ИТ-архитектуры экосистемы управления данными в нее были внесены значительные корректировки. В ходе реализации проекта команда АСНА пришла к выводу, что данные, которые постоянно подвергаются изменениям (удаление, обновление, вставка в параллельно выполняемые транзакции) лучше было оставить в реляционной СУБД. Также целесообразнее было оставить в реляционной СУБД срез данных для операционных расчетов – «горячие» данные для оперативной аналитики. Кроме того, на собственном опыте команда АСНА убедилась, что NoSQL действительно хорошо справляется с обработкой неструктурированных данных. Но полностью заменить технологию OLAP для выполнения всех задач работы с данными он не может. Также, несмотря на доступность выборки данных в HDFS, скорость выборки не позволяла отдавать её конечному потребителю данных.

Рекомендуем также

Управление данными в нефтегазовом секторе с помощью MDM-систем

19 февраля 2019
Управление данными в нефтегазовом секторе имеет свои особенности. О том, как это делать с помощью MDM-систем размышляет Праш Чандрамохан. Праш работает маркетологом в Informatica и отвечает за Informatica Master Data Management.

Сложности индустрии

Нефтегазовая индустрия – основа многих экономик мира. Но именно она чаще всего страдает от бурь постоянно меняющихся экономических трендов, требований регуляторов и технологических инноваций. Нефтяная и газовая промышленность зависит и от ценовой волатильности. Последняя основана на микроэкономической структуре спроса и предложения, на которую в свою очередь значительно влияют и геополитические изменения, и экономические кризисы, и даже публичные заявления. Подливает масла в огонь ожесточённая конкуренция среди поставщиков. Кто-то готов на низкую маржу. У кого-то добыча сырья оказывается дешевле, чем у других игроков рынка. Достигать значительных и предсказуемых бизнес-результатов в таких условиях непросто. Кроме того, у предприятий в этой индустрии традиционно сложные и интенсивные процессы обработки данных. А эффективно управлять обработкой данных особенно важно, чтобы успешно работать в условиях постоянно меняющихся трендов, политик и инструкций.

PwC: Цифровые технологии важны для нефтегаза

PwC недавно опросил генеральных директоров в нефтегазовой индустрии, которые единогласно заключили: «Генеральные директора ТЭК не могут контролировать факторы рынка, такие как состояние мировой экономики или предложение нефти на рынке. Но они могут изменить свою реакцию на них, например, извлекать максимальную пользу из инвестиций в технологии, эффективнее использовать партнёрства и стратегии диверсификации.” Также почти 80% респондентов согласны, что цифровые технологии приносят большую пользу. Относится это прежде всего к анализу данных и повышению операционной эффективности.

Домены мастер-данных нефтегаза и управление данными

Нефтегазовая отрасль разделена на три сектора. Некоторые компании работают только в одном из них, наиболее крупные предприятия – во всех трёх. Первый сектор – геологоразведка и добыча. Второй – хранение и транспортировка углеводородов. Третий – переработка и продажа. Чтобы организовать эффективное управление данными, прежде всего важно в каждом секторе вычленить несколько доменов мастер-данных. Мастер-данные – ключевая для организации информация. Домен мастер-данных «разведка и добыча» включает в себя информацию об активах: скважинах, материалах, гео-локационную информацию, а также о том, что с ними связано, например об инженерах и технических специалистах. Домен «хранение и транспортировка» включает в себя сведения о торговых партнёрах и дистрибуторах. Домен «переработки и продажи» – сведения о коммерческих и бытовых потребителях. Классическая схема продажи включает и мастер-данные об адресах отгрузок, крупных клиентах (например, авиакомпании и другие логистические компании, которые закупают миллионы галлонов топлива и смазочного материала), розничных клиентах заправочных станций. Кроме того, вся индустрия использует справочные данные и план счетов для подведения итогов затрат и прибыли. Ключевая проблема, с которой приходится сталкиваться, – мастер-данные рассредоточены в разных системах. Из-за этого организации становится сложно вовремя принимать решения, обеспечивать эффективность процессов и наращивать активы. Чтобы таких проблем избежать, нужно в разрозненных системах мастер-данные найти. А потом организовать управление данными с помощью MDM-системы.

Главный актив – скважина

Самый главный актив нефтегазового предприятия – скважина. Она проходит через разные циклы жизни, её характеристики могут меняться. Среди них – расположение, ID, название, физические характеристики, глубина, перечень сотрудников, которые на ней работают и принадлежность компании. Данные об этих характеристиках – мастер-данные для скважины. Если мы организуем эффективное управление данными, мастер-данные можно будет можно связать с транзакционной информацией и информацией с датчиков IoT. На основе этого предприятие сможет принимать инвестиционные решения, распределять траты и прибыль, которые касаются:
  • распределения рабочей силой;
  • платежа роялти;
  • экологической инспекции и проверки безопасности;
  • планирования ремонтных работ и в целом производственных работ.
При этом MDM-система должна:
  • быть гибкой единой мультидоменной платформой, которая позволяет легко управлять различными активами;
  • уметь создавать единый, сквозной для предприятия образец «цифрового двойника» скважины;
  • уметь определить отношения между скважиной, оборудованием, её расположением и сотрудниками, а также управлять этими отношениями;
  • уметь наладить сквозное руководство активами, помещениями, оборудованием и месторождениями на протяжении всего их жизненного типа.
Скважинами владеют предприятия сектора геологоразведки и добычи. Поэтому они оказываются в уникальном положении. Они могут извлекать пользу из очень больших объёмов данных. Тысячи сенсоров на скважинах, миллионы частей в цепочках поставок, международные капитальные проекты и высококвалифицированные сотрудники создают богатую с точки зрения данных среду. Всё, что нужно, – научиться эффективно этой средой управлять. Управление данными с помощью MDM-системы способно создать прочный фундамент для этого. MDM-системы также успешно применяются для управления данными, собранными с помощью интернета вещей. Об этом читайте в другой статье блога. Примеры измеряемых результатов управления данными с помощью MDM-систем ищите здесь.

Рекомендуем также

Управление мастер-данными IoT с помощью MDM-систем. Часть 2

17 января 2019
Мастер-данные – это ключевые для бизнеса данные. Чаще всего это – данные о клиентах или продуктах компании. Для управления ими используются специализированные решения – MDM-системы (Master Data Management). Такие системы собирают данные в единые «золотые записи» для каждой бизнес-сущности (отдельный поставщик или клиент), показывают взаимосвязи между такими записями. Кроме того, они стандартизируют данные, повышают их качество, распространяют среди заинтересованных сотрудников. Можно ли использовать MDM-системы не только для мастер-данных, но и для управления данными, собранными с помощью интернета вещей (IoT)? Читайте размышления об этом Праша Чандрамохана. Праш работает маркетологом в Informatica и отвечает за Informatica Master Data Management. Про сценарии использования мастер-данных в телеком-компаниях читайте в другой статье блога. Больше реальных результатов управления данными с помощью MDM-систем ищите здесь. О том, как управление данными IoT с помощью MDM-систем осуществляется в автомобильном бизнесе и авиации, читайте в первой части статьи.

Управление данными в нефтегазовой отрасли

Master Data Managment помогает создать внутри организации единую систему самой важной информации о скважинах. Такая система позволяет фиксировать отношения между скважинами, их оборудованием, сотрудниками и местоположением. Скважины – самый ценный актив нефтегазовых компаний. Поэтому именно на них в первую очередь устанавливаются датчики интернета вещей. Потоковые данные с них MDM-система сопоставляет с основной информацией о скважинах и их местоположении (чаще всего они разбросаны на большой территории). Соединяя потоковые данные и мастер-данные, нефтегазовые компании могут в реальном времени мониторить безопасность на производстве. А также – управлять производственными процессами в реальном времени, на планировать ремонт и производство, принимать точные инвестиционные решения.

Управление данными в ЖКХ

Для служб ЖКХ важно как можно аккуратнее и как можно чаще измерять потребление. Выполнять эту задачу помогают умные счётчики. Управление данными с помощью MDM-систем позволяет связать данные о клиентах, данные о счётчиках, которые они установили, с данными, которые были получены с этих счётчиков. Это позволяет лучше понять закономерности в потреблении электроэнергии, воды, тепла и так далее. Кроме того, коммунальные службы могут использовать Master Data Management, чтобы делиться собранной информацией с клиентами. Это нужно для того, чтобы поднять их осведомлённость о проблемах окружающей среды. А также – рассказать о новых методах сбережения энергии, которые кроме прочего позволяют меньше платить за услуги ЖКХ. При оповещении клиентов с использованием MDM-системы требуется минимальное вмешательство сотрудников. Это позволяет коммунальным службам снизить затраты за счёт сокращения операций, которые выполняются вручную.

Управление данными в логистике

Как добиться успеха в логистике? Поток операций должен идти без помех, а неиспользованных активов должно оставаться как можно меньше. Это и позволит получить максимальную прибыль. Кроме того, большое значение имеет качество клиентского обслуживания. Поэтому логистические компании стараются обеспечить прозрачность и надёжность своего сервиса. Интернет вещей в этой индустрии помогает эффективно отслеживать перемещение груза, гарантировать своевременную доставку, минимизировать потери из-за воровства и избежать повреждений. Данные имеют большое значение для разработки более удобных маршрутов, которые позволят быстрее, надёжнее и дешевле доставить груз к порогу заказчика. Для этого логистические компании мониторят закономерности в траффике и погодных условиях. Эти данные они комбинируют в MDM-системе с данными датчиков местоположения, а также данными о поставщике и того, что нужно доставить.

Управление данными в области недвижимости

В этой области главную роль играют данные о местоположении объекта, текущих условиях на рынке, стоимости недвижимости в целом. Работа ведётся с данными из автоматизированных систем управления зданиями, с сенсоров интернета вещей, из открытых источников и других источников. Из этих данных можно получать масштабные инсайты, которые можно будет использовать для всего процесса принятия решений, в том числе:
  • при выборе местоположения объекта;
  • для мониторинга систем отопления, вентиляции, кондиционирования, который помогает понять, когда ремонтировать систему, а когда её нужно заменить;
  • для мониторинга освещения и потребление энергии;
  • для обеспечения безопасности и улучшения рабочего места;
  • для определения поэтажного плана здания и количества переговорных комнат (например, на основе рассадки сотрудников в бизнес-центре и частоты использования переговорных комнат).
Кроме того, принятие решений на основе данных и дата-центричные процессы помогают компаниям в сфере недвижимости эффективно управлять своими активами удалённо. А это в свою очередь помогает им снижать затраты. Среди тех, кто ведёт успешное управление данными IoT с помощью Master Data Management, – JLL. Эта компания – мировой лидер на рынке профессиональных услуг в сфере недвижимости и управления инвестициями.

Рекомендуем также

Управление мастер-данными IoT с помощью MDM-систем. Часть 1

17 января 2019
Мастер-данные – это ключевые для бизнеса данные. Чаще всего это – данные о клиентах или продуктах компании. Для управления ими используются специализированные решения – MDM-системы (Master Data Management). Такие системы собирают данные в единые «золотые записи» для каждой бизнес-сущности (отдельный поставщик или клиент), показывают взаимосвязи между такими записями. Кроме того, они стандартизируют данные, повышают их качество, распространяют среди заинтересованных сотрудников. Можно ли использовать MDM-системы не только для мастер-данных, но и для управления данными, собранными с помощью интернета вещей (IoT)? Читайте размышления об этом Праша Чандрамохана. Праш работает маркетологом в Informatica и отвечает за Informatica Master Data Management. Про сценарии использования мастер-данных в телеком-компаниях читайте в другой статье блога. Больше реальных результатов управления данными с помощью MDM-систем ищите здесь.

Трудности создаёт не сбор, а управление данными

Исследовательская компания HIS предсказывает, что в 2020 году количество датчиков интернета вещей вырастет до 30,7 миллиардов устройств. В 2025 году – до 75,4 миллиардов. Интернет вещей будет применяться во всех индустриях. Не будет значения, в какой области вы работаете. Сбор информации с сенсоров, управление данными и извлечение из них пользы будут для вас актуальны. Компаниям уже сейчас приходится иметь дело с невероятным потоком данных, собранных с помощью интернета вещей. Может показаться, что в таких условиях главной проблемой должен стать именно процесс сбора. Однако оказывается, что организовать управление данными, найти им применение и извлечь их них пользу намного сложнее, чем получить их. Ещё сложнее научиться действовать на основе инсайтов (важные для бизнеса закономерности в данных), прогнозов, полученных из данных. Помочь бизнесу в этом могут MDM-системы.

Что именно делают системы управления мастер-данными?

Мастер-данные обеспечивают информацию, собранную с помощью интернета вещей, контекстом. Правильный контекст позволяет лучше понять данные и сделать инсайты и прогнозы более точными, осмысленными. На такие инсайты можно полагаться, можно действовать, опираясь на них. Собрали данные об изменениях в работе оборудования? Свяжите их с «золотой записью» об этом оборудовании, чтобы увидеть, какие из его характеристик могли повлиять на такие изменения. Пересечение MDM и интернета вещей создаёт интересные кейсы в разных компаниях из разных индустрий. Ниже – примеры, где это комбо уже применяется.

Управление данными в авиации

В том, что касается управления данными IoT с помощью MDM-систем, авиация – один из лидеров. В блоге уже упоминался кейс GE Aviation. Компания производит авиационные двигатели. Собирает она данные с датчиков на планере и на двигателе самолётов. Потоковые данные интернета вещей поступают в MDM-систему Informatica – Informatica Master Data Management. В ней же хранятся мастер-данные: информация о владельце самолётов, о самих самолётах и их двигателях и так далее. Informatica MDM, как клей, связывает данные IoT и корпоративные мастер-данные (их профиль, историю), информацию авиаперевозчиков, которая нужна для составления полной картины. Помещение данных IoT в контекст помогает прогнозировать, как двигатель будет работать в дальнейшем. Полученные на основе таких данных инсайты помогают предотвратить незапланированный простой транспортных средств и поломки, а также оптимизировать ремонтные работы. Всё это позволяет значительно экономить средства и повышать продуктивность перевозок. А главное – предотвращать возможные аварии и несчастные случаи с самолётами, на которых установлены комплектующие GE Aviation.

Управление данными в автомобильном бизнесе

Автомобильные компании также давно активно применяют управление данными IoT с помощью MDM-систем. Хорошим примером служит компания Renault. Это даёт им возможность централизовать информацию о клиентах и транспортных средствах. Это позволяет им мониторить полный жизненный цикл транспортного средства. А это в свою очередь помогает:
  • определять аномалии в работе автомобилей, которыми пользуются их клиенты;
  • в реальном времени определять детали автомобиля, которые требуют замены;
  • отправлять актуальные уведомления владельца машин.
Качество инсайтов и прогнозов благодаря такому комбо также растёт. На их основе можно точнее предсказывать клиентские потребности и время возможной поломки транспортного средства. И для компании, и для её клиентов такая ситуация оказывается выгодной. О том, как управление данными IoT с помощью MDM-систем осуществляется в нефтегазовом секторе, ЖКХ, недвижимости и логистике, читайте во второй части статьи.

Рекомендуем также

Смотреть видео: История успеха. Внедрение системы управления знаниями в ВТБ

16 января 2019
«Бизнес-Википедия» на основе системы управления знаниями KMS Lighthouse помогает банку ВТБ быстрее и качественнее обслуживать клиентов. Подробнее читать о проекте.

Рекомендуем также

Смотреть видео: История успеха. Применение PowerCenter в «Ренессанс Кредит»

21 декабря 2018
«Ренессанс Кредит» повышает операционную эффективность и решает амбициозные задачи потребительского кредитования с помощью Informatica PowerCenter. Историю успеха также можно прочитать по ссылке.

Рекомендуем также

Мастер-данные в цифрах: 12 реальных результатов внедрения MDM-системы

Мастер-данные – самые важные данные для вашего бизнеса. О том, как умение управлять ими приносит компаниям результаты, которые можно измерить, рассказывает Антониа Реннер, старший менеджер по маркетингу решений в Informatica.

20 ноября 2018

Управление мастер-данными – основа успеха в e-commerce

Знакомьтесь, это Питер. У него 15 лет опыта в электронной коммерции. Его новый работодатель ждёт от него выполнения амбициозного плана продаж. А также того, что он сможет поддержать стратегию цифровой трансформации в компании. Питер изучил рынок, пообщался с клиентами, сотрудниками и партнёрами. После этого он пришёл к выводу, что его компания может выстроить и реализовать успешную e-commerce стратегию, только если начнёт эффективно управлять мастер-данными. Питер начал работать над улучшением менеджмента и бизнес-процессов, связанных с мастер-данными. Параллельно он оценивал технологии, которые могли бы помочь ему с выполнение поставленных целей. Он изучал MDM-системы (системы, которые помогают управлять мастер-данными) и системы управления продуктовой информацией (PIM). Но в большинстве своём у решений не было функциональных возможностей, которые искал наш герой. А искал он встроенную автоматическую проверку качества мастер-данных, возможность подключения к отдельным каналам, e-commerce-решениям и системам-источникам. А также – способность работать с большими объёмами данных, так как компания планировала начать продавать онлайн много новых продуктов. После тщательного изучения рынка Питер понял, что можно найти MDM-систему, которая могла бы стать основой для новой и гибкой модели цифрового бизнеса. Но также он понял, что решения, которые соответствуют его требованиям – не из дешёвых. Они требуют значительных инвестиций.

Окупятся ли инвестиции в систему управления мастер-данными?

Питер был в замешательстве. Качественная система управления мастер-данными могла повысить продуктивность, облегчить коммуникацию внутри компании и с партнёрами, ускорить выведение новых продуктов на рынок и снизить затраты. Кроме того, она позволила бы команде Питера улучшить качество мастер-данных, установить единую омниканальную среду для клиента, в которой тот получал бы унифицированный опыт. Однако для того, чтобы получить финансирование, Питеру было нужно убедить своего нового боса Лизу в необходимости инвестиций в MDM-систему. Кроме того, ему нужна была поддержка руководителей смежных отделов: отдела категорийного управления ассортиментом товаров, отдела контент-маркетинга и мерчандайзинга. Для того, чтобы убедить коллег и руководство, Питер начал собирать реальные кейсы, результаты которых были измерены. Кейсы оказалось нелегко найти. Чтобы помочь ему с этой задачей я собрала примеры успешного использования систем управления мастер-данными из оптовой и розничной торговли и производства. Вот таких результатов удалось добиться разным компаниям.

Система управления мастер-данными помогла повысить продуктивность и сократить расходы

  • Kmart Australia повысила продуктивность работы компании в три раза. Команда при этом осталась прежней (Эмма Туп, менеджер по стратегическим онлайн-инициативам, Kmart Australia).
  • MDM-системы на 50% снижает нагрузку на data stewards, ответственных за данные (Том Готтвейс, бывший руководитель отдела стратегии данных Winsupply и старший консультант в Ideosity Inc.)

Система управления мастер-данными создала ценность данных для бизнеса, которые можно измерить

  • В Kmart Australia решение в 4 раза ускорило внедрение новых продуктов на рынок (Эмма Туп, менеджер по стратегическим онлайн-инициативам, Kmart Australia).
  • В Saint-Gobain Distribution BeNeLux MDM-система на 67% ускорила расчёт стоимости товаров и услуг для клиента – с 60 минут до 20 – (Рон Кесселс, директор направления e-business, Saint-Gobain Distribution BeNeLux).
  • При покупке новых бизнесов системы интегрируются на 94% быстрее. Ранее на это требовалось 3 месяца, теперь 5 дней (Том Готтвейс, бывший руководитель отдела стратегии данных Winsupply и старший консультант в Ideosity Inc.).
  • MDM-система помогла ElkJop на 60% ускорить вывод новых продуктов на рынок. Этого удалось добиться благодаря более быстрому размещению новой продуктовой информации. Раньше на это уходило несколько часов, теперь – всего несколько минут (Томас Тхикьяер, архитектор мастер-данных, ElkJop).
  • Бизнес вырос на 60%, удалось выполнить цели по продажам. Весь ассортимент продуктов сейчас доступен онлайн (Эмма Туп, менеджер по стратегическим онлайн-инициативам, Kmart Australia).

Система управления мастер-данными обеспечила лучший клиентский опыт

  • Стало на 25% меньше возвратов при онлайн-покупках благодаря исчерпывающей продуктовой информации (Рон Кесселс, директор направления e-business, Saint-Gobain Distribution BeNeLux).
  • Один покупатель приобретает за раз на 21% больше благодаря кросс-продажам (Рон Кесселс, директор направления e-business, Saint-Gobain Distribution BeNeLux).
  • Теперь больше продуктов представлено на сайте. Ранее только 12% всех товаров было размещено онлайн, теперь 96% (Эмма Туп, менеджер по стратегическим онлайн-инициативам, Kmart Australia).
  • MDM-система помогла PUMA снизить уровень конверсии с 10% до 20% (Хайке Зенкель, руководитель группы управления контентом, отдел глобальной электронной торговли PUMA).

Система управления мастер-данными улучшила качество продуктовых данных

  • На 80% снизила количество проблем с качеством данных (Эмма Туп, менеджер по стратегическим онлайн-инициативам, Kmart Australia).
Эти цифры показывают, какого значительного успеха можно добиться, если использовать качественную MDM-систему и эффективно управлять мастер-данными. Все эти результаты легко померить и оценить.

Рекомендуем также

5 критериев для Apache Hadoop при построении Data Hub

О том, каким должен быть ваш Apache Hadoop для построения на нём корпоративного Data Hub, рассказывает Дейл Ким, директор по индустриальным решениям в MapR Technologies.

9 ноября 2018
MapR Technologies – партнёр Informatica. Компания предлагает целый ряд решений для работы с Big Data, доработок Apache Hadoop и другое. Сейчас Apache Hadoop всё чаще используется для построения корпоративного Data Hub (EDH). Data Hub отличается и от хранилищ данных, и от озёр. EDH расширяет и оптимизирует модель традиционного хранилища, добавляя в неё технологии Big Data. Он позволяет сфокусироваться на самых ценных данных в компании. А те данные, которые используются реже всего, перемещает на отдельную платформу. Data Hub также агрегирует данные из источников, которые ранее не использовались. А это в свою очередь создаёт более полную картину собранной в компании информации.

Внедряете Data Hub? Но готов ли к этому ваш Apache Hadoop?

Итак, вы всё подготовили для внедрения корпоративного Data Hub: существующие хранилища, аналитические инструменты. Но готов ли ваш Apache Hadoop? Вот список критериев для проверки такой готовности:
  • Требования корпоративной среды
  • Совместимость
  • Коллективное использование
  • Безопасность
  • Операционные требования
Давайте разберём каждый критерий в отдельности.

Корпоративная среда

Корпоративная среда подразумевает, что любая система должна быть отказоустойчивой, способным к восстановлению после аварий, обеспечивать защиту данных. Отказоустойчивость позволяет системе работать даже тогда, когда происходит сбой в её компонентах (отдельные компьютеры, роутеры, блоки питания). По отношению к Apache Hadoop этот значит, что не должно быть никаких простоев и потерь данных. Если в узле кластера происходит сбой, вы же всё равно хотите, чтобы все процессы были доведены до конца. Сохранить данные при аварийной ситуации можно с помощью удалённой репликации (зеркального отражения данных). Для продуктивной среды работы с данными она эффективнее, чем резервное копирование (backup). Чтобы восстановление информации прошло успешно, удалённая репликация должна быть всеобъемлющей. Кроме того, восстановить данные после повреждений позволяют снэпшоты (моментальные снимки). Особенно если повреждения вызваны пользователями и или ошибкой в работе приложения. Так же, как и удалённая репликация, создание снэпшотов должно быть целостными и полно отображать данные до сбоя. К сожалению, не все дистрибутивы Apache Hadoop позволяют реализовать все указанные возможности. Поэтому перед построением Data Hub, проверьте, есть ли они в вашем кластере.

Совместимость

Очевидно, что экосистема Apache Hadoop должна быть совместима со другими приложениями, которые работают с данными. Файловая система с доступом к NFS, которая соответствует POSIX, позволяет использовать установленные ранее приложения, основанные на файловой системе, для данных Apache Hadoop. Поддержка существующих инструментов позволит разработчикам легко включиться в работу. А интеграция с REST API обеспечивает лёгкое соединение с другими системами.

Коллективное использование

У вас должна быть возможность логически разделить кластеры для разных кейсов, типов работ, групп пользователей и администраторов, если это нужно. Чтобы не созвать сложную конструкцию из нескольких кластеров, выбирайте дистрибутив Apache Hadoop c возможностью коллективного использования. Это упростит архитектуру, уменьшит риск ошибок, дублирования данных и усилий.

Безопасность

Защита конфиденциальных данных от утечек должна быть главным приоритетом. Перед построением EDH ужно оценить, как у вас обстоят дела с аутентификацией (например, используется ли Kerberos?), авторизацией (хорошо ли контролируется доступ к разным данным?), шифрованием и аудитом. Некоторые из этих функций можно выполнить с помощью нативных инструментов дистрибутивов Apache Hadoop, другие – с помощью решений сторонних вендоров. Читайте подробнее об инструментах обеспечения безопасности в экосистеме Apache Hadoop.

Операционные требования

Любое крупномасштабное внедрение требует возможности быстро читать, записывать данные и обновлять функциональные возможности. Apache Hadoop может поддерживать операционные требования EDH с помощью интегрированных баз данных Apache HBase™, Accumulo™ или MapR-DB (MapR NoSQL база данных). Такие модели в целом помогают упростить архитектуру будущего Data Hub.

Эффективный Apache Hadoop – эффективный EDH

Использование Apache Hadoop для создания Data Hub – это прекрасная возможность для бизнеса. А правильный выбор дистрибутива кластера – ключ к эффективному EDH. Хотите, чтобы экосистема Apache Hadoop соответствовала высоким ожиданиям, которые предъявляются к корпоративной системе? Позаботьтесь, чтобы кластер соответствовал и требованиям к ней. Ещё размышляете, нужно ли вам внедрять экосистему Apache Hadoopя? Читайте о том, как окупаются инвестиции в него.

Рекомендуем также

Решаем 5 главных проблем Big Data и среды Apache Hadoop. Часть 2

Apache Hadoop и его экосистема приобретают всё большую популярность. Компании собирают и обрабатывают всё больше данных. Но Big Data приносит не только новые возможности, но и новые проблемы. О том, как их решить, рассказывает Джон Хаддад, старший директор по продуктовому маркетингу Big Data в Informatica.

1 ноября 2018

Большие данные – большие проблемы

В первой части статьи мы рассмотрели решение трёх проблем больших данных:
  • Сложно подобрать и удержать квалифицированных специалистов, которые умеют работать с экосистемой Apache Hadoop.
  • Требуется много времени на реализацию проекта от пилотной версии до продуктовой среды.
  • Технологии Big Data эволюционируют очень быстро, что затрудняет их внедрение.
Читайте первую часть статьи по ссылке: Решаем 5 главных проблем Big Data и среды Apache Hadoop. Часть 1. Эта часть будет посвящена оставшимся двум проблемам:
  • Проекты не приносят той пользы, которую от них ожидают.
  • Сложно добиться того, чтобы данные в Apache Hadoop подходили для выполнения поставленных целей, были доступными и надёжными, хранились в безопасности.

Как извлекать пользу из Big Data

Бизнес постоянно жалуется, что проекты Big Data не приносят ожидаемой выгоды. Согласно последнему опросу, 86% маркетологов признают, что могли бы генерировать больше прибыли для компании, если бы лучше знали своего клиента. Особенно важно знать не потенциального клиента, а действующего, который когда-то у вас покупал товары или услуги. Мы все знаем, что продать что-то действующему клиенту дешевле, чем привлечь нового. Но хорошо узнать клиентов не так-то просто. Помочь с этим бизнесу призваны инициативы CRM. Но и они часто не приносят желаемой пользы. Результат этого – низкие показатели ROI маркетинга, некачественный клиентский опыт, отток клиентов и упущенные возможности продажи. Для того, чтобы этого избежать, Informatica предлагает обогащать мастер-данные клиентов инсайтами, полученными на основе Big Data. Используются для этого два решения Informatica – Big Data Management и Master Data Management. Такой механизм позволяет создать единое и полное видение клиентов и достигать значительных результатов в продажах и маркетинге. Указанный механизм улучшает общий клиентский опыт, превращая большие данные в информацию, на основе которых можно действовать. Например, такое решение позволяет сотрудникам клиентского сервиса понять, какие покупатели скорее всего перейдут к конкуренту в ближайшие две недели. Соответственно они могут предпринять необходимые меры заранее. Специалистам отдела продаж и маркетинга решение помогает определить лучшие предложения для конкретного клиента, основываясь на его поведении онлайн. Также это облегчает дополнительные и кросс-продажи. Прибыль от использования больших данных ценна не только сама по себе. Она позволяет окупить инвестиции и стоимость администрирования Apache Hadoop. О том, как ещё окупаются инвестиции в Apache Hadoop, читайте в другой статье блога.

Что делать, чтобы данные в Apache Hadoop стали лучше

Директору по данным (CDO), команде аналитиков и data scientists приходится прилагать много усилий, чтобы большие данные подходили для решения конкретных задач, были доступными, защищёнными и надёжными. В первой части мы уже обсуждали, что неэффективно использовать высококвалифицированных специалистов и дорогих специалистов для решения таких задач. Они должны тратить своё время на анализ данных и поиск ценных бизнес-инсайтов. Иначе не избежать задержек в реализации проектов, перерасхода средств и упущенных возможностей. На помощь в такой ситуации могут прийти инструменты Informatica для Apache Hadoop, в том числе озеро данных. Озеро в этом случае может служить как единое место для хранения информации и подготовки данных для аналитики. Инструменты Informatica для Apache Hadoop способны создать конвейер по сбору, очистке данных, их предоставлению пользователям и управлению ими так, чтобы команда аналитиков могла легко найти, получить доступ, интегрировать данные, а главное, доверять им. Если вы только начинаете своё путешествие в мире больших данных и экосистеме Apache Hadoop, используйте опыт мировых лидеров вместо того, чтобы набивать свои шишки. Какие ошибки подстерегают вас в этом путешествии читайте в статье о 5 самых распространённых ошибках при работе с большими данными.

Рекомендуем также