Мастер-данные в цифрах: 12 реальных результатов внедрения MDM-системы

Мастер-данные – самые важные данные для вашего бизнеса. О том, как умение управлять ими приносит компаниям результаты, которые можно измерить, рассказывает Антониа Реннер, старший менеджер по маркетингу решений в Informatica.

20 ноября 2018

Управление мастер-данными – основа успеха в e-commerce

Знакомьтесь, это Питер. У него 15 лет опыта в электронной коммерции. Его новый работодатель ждёт от него выполнения амбициозного плана продаж. А также того, что он сможет поддержать стратегию цифровой трансформации в компании. Питер изучил рынок, пообщался с клиентами, сотрудниками и партнёрами. После этого он пришёл к выводу, что его компания может выстроить и реализовать успешную e-commerce стратегию, только если начнёт эффективно управлять мастер-данными. Питер начал работать над улучшением менеджмента и бизнес-процессов, связанных с мастер-данными. Параллельно он оценивал технологии, которые могли бы помочь ему с выполнение поставленных целей. Он изучал MDM-системы (системы, которые помогают управлять мастер-данными) и системы управления продуктовой информацией (PIM). Но в большинстве своём у решений не было функциональных возможностей, которые искал наш герой. А искал он встроенную автоматическую проверку качества мастер-данных, возможность подключения к отдельным каналам, e-commerce-решениям и системам-источникам. А также – способность работать с большими объёмами данных, так как компания планировала начать продавать онлайн много новых продуктов. После тщательного изучения рынка Питер понял, что можно найти MDM-систему, которая могла бы стать основой для новой и гибкой модели цифрового бизнеса. Но также он понял, что решения, которые соответствуют его требованиям – не из дешёвых. Они требуют значительных инвестиций.

Окупятся ли инвестиции в систему управления мастер-данными?

Питер был в замешательстве. Качественная система управления мастер-данными могла повысить продуктивность, облегчить коммуникацию внутри компании и с партнёрами, ускорить выведение новых продуктов на рынок и снизить затраты. Кроме того, она позволила бы команде Питера улучшить качество мастер-данных, установить единую омниканальную среду для клиента, в которой тот получал бы унифицированный опыт. Однако для того, чтобы получить финансирование, Питеру было нужно убедить своего нового боса Лизу в необходимости инвестиций в MDM-систему. Кроме того, ему нужна была поддержка руководителей смежных отделов: отдела категорийного управления ассортиментом товаров, отдела контент-маркетинга и мерчандайзинга. Для того, чтобы убедить коллег и руководство, Питер начал собирать реальные кейсы, результаты которых были измерены. Кейсы оказалось нелегко найти. Чтобы помочь ему с этой задачей я собрала примеры успешного использования систем управления мастер-данными из оптовой и розничной торговли и производства. Вот таких результатов удалось добиться разным компаниям.

Система управления мастер-данными помогла повысить продуктивность и сократить расходы

  • Kmart Australia повысила продуктивность работы компании в три раза. Команда при этом осталась прежней (Эмма Туп, менеджер по стратегическим онлайн-инициативам, Kmart Australia).
  • MDM-системы на 50% снижает нагрузку на data stewards, ответственных за данные (Том Готтвейс, бывший руководитель отдела стратегии данных Winsupply и старший консультант в Ideosity Inc.)

Система управления мастер-данными создала ценность данных для бизнеса, которые можно измерить

  • В Kmart Australia решение в 4 раза ускорило внедрение новых продуктов на рынок (Эмма Туп, менеджер по стратегическим онлайн-инициативам, Kmart Australia).
  • В Saint-Gobain Distribution BeNeLux MDM-система на 67% ускорила расчёт стоимости товаров и услуг для клиента – с 60 минут до 20 – (Рон Кесселс, директор направления e-business, Saint-Gobain Distribution BeNeLux).
  • При покупке новых бизнесов системы интегрируются на 94% быстрее. Ранее на это требовалось 3 месяца, теперь 5 дней (Том Готтвейс, бывший руководитель отдела стратегии данных Winsupply и старший консультант в Ideosity Inc.).
  • MDM-система помогла ElkJop на 60% ускорить вывод новых продуктов на рынок. Этого удалось добиться благодаря более быстрому размещению новой продуктовой информации. Раньше на это уходило несколько часов, теперь – всего несколько минут (Томас Тхикьяер, архитектор мастер-данных, ElkJop).
  • Бизнес вырос на 60%, удалось выполнить цели по продажам. Весь ассортимент продуктов сейчас доступен онлайн (Эмма Туп, менеджер по стратегическим онлайн-инициативам, Kmart Australia).

Система управления мастер-данными обеспечила лучший клиентский опыт

  • Стало на 25% меньше возвратов при онлайн-покупках благодаря исчерпывающей продуктовой информации (Рон Кесселс, директор направления e-business, Saint-Gobain Distribution BeNeLux).
  • Один покупатель приобретает за раз на 21% больше благодаря кросс-продажам (Рон Кесселс, директор направления e-business, Saint-Gobain Distribution BeNeLux).
  • Теперь больше продуктов представлено на сайте. Ранее только 12% всех товаров было размещено онлайн, теперь 96% (Эмма Туп, менеджер по стратегическим онлайн-инициативам, Kmart Australia).
  • MDM-система помогла PUMA снизить уровень конверсии с 10% до 20% (Хайке Зенкель, руководитель группы управления контентом, отдел глобальной электронной торговли PUMA).

Система управления мастер-данными улучшила качество продуктовых данных

  • На 80% снизила количество проблем с качеством данных (Эмма Туп, менеджер по стратегическим онлайн-инициативам, Kmart Australia).
Эти цифры показывают, какого значительного успеха можно добиться, если использовать качественную MDM-систему и эффективно управлять мастер-данными. Все эти результаты легко померить и оценить.

Рекомендуем также

5 критериев для Apache Hadoop при построении Data Hub

О том, каким должен быть ваш Apache Hadoop для построения на нём корпоративного Data Hub, рассказывает Дейл Ким, директор по индустриальным решениям в MapR Technologies.

9 ноября 2018
MapR Technologies – партнёр Informatica. Компания предлагает целый ряд решений для работы с Big Data, доработок Apache Hadoop и другое. Сейчас Apache Hadoop всё чаще используется для построения корпоративного Data Hub (EDH). Data Hub отличается и от хранилищ данных, и от озёр. EDH расширяет и оптимизирует модель традиционного хранилища, добавляя в неё технологии Big Data. Он позволяет сфокусироваться на самых ценных данных в компании. А те данные, которые используются реже всего, перемещает на отдельную платформу. Data Hub также агрегирует данные из источников, которые ранее не использовались. А это в свою очередь создаёт более полную картину собранной в компании информации.

Внедряете Data Hub? Но готов ли к этому ваш Apache Hadoop?

Итак, вы всё подготовили для внедрения корпоративного Data Hub: существующие хранилища, аналитические инструменты. Но готов ли ваш Apache Hadoop? Вот список критериев для проверки такой готовности:
  • Требования корпоративной среды
  • Совместимость
  • Коллективное использование
  • Безопасность
  • Операционные требования
Давайте разберём каждый критерий в отдельности.

Корпоративная среда

Корпоративная среда подразумевает, что любая система должна быть отказоустойчивой, способным к восстановлению после аварий, обеспечивать защиту данных. Отказоустойчивость позволяет системе работать даже тогда, когда происходит сбой в её компонентах (отдельные компьютеры, роутеры, блоки питания). По отношению к Apache Hadoop этот значит, что не должно быть никаких простоев и потерь данных. Если в узле кластера происходит сбой, вы же всё равно хотите, чтобы все процессы были доведены до конца. Сохранить данные при аварийной ситуации можно с помощью удалённой репликации (зеркального отражения данных). Для продуктивной среды работы с данными она эффективнее, чем резервное копирование (backup). Чтобы восстановление информации прошло успешно, удалённая репликация должна быть всеобъемлющей. Кроме того, восстановить данные после повреждений позволяют снэпшоты (моментальные снимки). Особенно если повреждения вызваны пользователями и или ошибкой в работе приложения. Так же, как и удалённая репликация, создание снэпшотов должно быть целостными и полно отображать данные до сбоя. К сожалению, не все дистрибутивы Apache Hadoop позволяют реализовать все указанные возможности. Поэтому перед построением Data Hub, проверьте, есть ли они в вашем кластере.

Совместимость

Очевидно, что экосистема Apache Hadoop должна быть совместима со другими приложениями, которые работают с данными. Файловая система с доступом к NFS, которая соответствует POSIX, позволяет использовать установленные ранее приложения, основанные на файловой системе, для данных Apache Hadoop. Поддержка существующих инструментов позволит разработчикам легко включиться в работу. А интеграция с REST API обеспечивает лёгкое соединение с другими системами.

Коллективное использование

У вас должна быть возможность логически разделить кластеры для разных кейсов, типов работ, групп пользователей и администраторов, если это нужно. Чтобы не созвать сложную конструкцию из нескольких кластеров, выбирайте дистрибутив Apache Hadoop c возможностью коллективного использования. Это упростит архитектуру, уменьшит риск ошибок, дублирования данных и усилий.

Безопасность

Защита конфиденциальных данных от утечек должна быть главным приоритетом. Перед построением EDH ужно оценить, как у вас обстоят дела с аутентификацией (например, используется ли Kerberos?), авторизацией (хорошо ли контролируется доступ к разным данным?), шифрованием и аудитом. Некоторые из этих функций можно выполнить с помощью нативных инструментов дистрибутивов Apache Hadoop, другие – с помощью решений сторонних вендоров. Читайте подробнее об инструментах обеспечения безопасности в экосистеме Apache Hadoop.

Операционные требования

Любое крупномасштабное внедрение требует возможности быстро читать, записывать данные и обновлять функциональные возможности. Apache Hadoop может поддерживать операционные требования EDH с помощью интегрированных баз данных Apache HBase™, Accumulo™ или MapR-DB (MapR NoSQL база данных). Такие модели в целом помогают упростить архитектуру будущего Data Hub.

Эффективный Apache Hadoop – эффективный EDH

Использование Apache Hadoop для создания Data Hub – это прекрасная возможность для бизнеса. А правильный выбор дистрибутива кластера – ключ к эффективному EDH. Хотите, чтобы экосистема Apache Hadoop соответствовала высоким ожиданиям, которые предъявляются к корпоративной системе? Позаботьтесь, чтобы кластер соответствовал и требованиям к ней. Ещё размышляете, нужно ли вам внедрять экосистему Apache Hadoopя? Читайте о том, как окупаются инвестиции в него.

Рекомендуем также

Защита данных: маскирование и шифрование не одно и то же!

8 ноября 2018
Защита данных сейчас – не только антивирусы и DLP-системы. Объёмы Big Data растут. Уже недостаточно охранять информацию от хакерских атак и утечек. Её нужно прятать – шифровать или маскировать, чтобы уберечь от использования злоумышленников. Ришу Гарг, инженер в Informatica, рассказывает о том, зачем нужно прятать данные и чем маскирование отличается от шифрования. Если вы считаете, что защита данных не нужна вашей компании, читайте другую статью блога.

Главное различие – обратимость

Несомненно, между маскированием и шифрованием много сходства. А оптимальной защиты данных можно добиться, только если использовать их совместно. Часто даже специалисты в области защиты данных считают шифрование разновидностью маскирования. Что ещё хуже, есть те, кто считает, что это одно и то же. Но, по сути, это два разных с технической точки зрения процесса. Для шифрования большую роль играет обратимость процесса. Для маскирования обратимость –недостаток. Ни при каких условиях пользователь не должен видеть первоначальную информацию, которая была замаскирована. Если маскируете данные, процессы редактирования (фрагментирование данных, скрывание или удаление) важных элементов дата-сета необратимы.

Ключ от шифра, где данные лежат

Шифрование данных – трансформация информации с помощью шифра в нечитаемый набор знаков. Восстановить её можно, только использовав ключ и соответствующий алгоритм. Этот метод широко применяется, чтобы защитить файлы на локальных дисках, дисках сети или облака, сетевых коммуникаций или для того, чтобы защитить интернет-трафик и почту.

Нет доступа? Увидишь фейковые данные

При маскировании информация не шифруется. Элементы данных прячутся не ото всех, а только от пользователей, чьи роли не подразумевают доступа к ним. Эти элементы заменяются искусственно сгенерированными данными. Они выглядят как настоящие и соответствуют требованиям систем тестирования и требованиям работы с маскированными результатами. Гарантируется, что важные части персональной информации (например, номер паспорта или полиса) скрыты совсем или по ним нельзя идентифицировать владельца данных. По сути, формат данных остаётся исходным. Шифровальных ключей не нужно. По мере изменения правил безопасности и должностных обязанностей пользователя, меняются и элементы информации, к которой у него есть доступ. Динамическое маскирование может трансформировать данные «на лету», в реальном времени. Этот метод часто используется для того, чтобы обезопасить транзакционные системы. Он значительно ускоряет скрытие данных. Защита данных с помощью маскирования более надёжна, чем шифрование. Даже самые лучшие системы шифрования можно взломать (качественные – через миллионы лет). Замаскированные данные нельзя размаскировать. Такие данные не содержат никаких отсылок к первоначальной информации, а значит они совершенно бесполезны для злоумышленников. Напоминаю, маскирование не требует обратимости. Мы можем отойти от принципов 1 к 1 и однозначности. А это обеспечивает ещё лучшую защиту данных.

Что выбрать для оптимальной защиты данных?

Обе технологии сравнительно просто применять, когда вы знаете, что и как делать. Обе они нужны, чтобы обеспечить защиту данных компании, а значит, и её репутации, и клиентской лояльности. Используйте шифрование, если нужна защита данных в продуктивной среде от неавторизованного доступа, но данные важны в своём текущем контексте. Шифрование часто используется для защиты данных при их трансфере между компьютерами или сетями. Маскируйте – если нужно использовать данные продуктивной среды в тестовой, где реальное содержание данных не имеет значение. Также этот метод подходит, когда чувствительная информация проходит через много рук, если с ней работают сотрудники на аутсорсинге, удалённые сотрудники, подрядчики и так далее. Читайте о том, как ПАО «Вымпелком» маскирует чувствительные данные с помощью Informatica Dynamic Data Masking, а Сбербанк – с помощью Test Data Masking.

Рекомендуем также

ETL-процессы VS анархия. Что выбрать?

В хранилищах данных власть завоёвывают анархисты. Они призывают провести ИТ-революцию и избавиться от ETL-процессов и долгой, сложной и разрозненной интеграции. О том, почему не стоит идти у них на поводу и нужно внедрять демократию данных, а не анархию, рассуждает Мурти Матипракасам главный менеджер по продуктам в категории решений Big Data.

8 ноября 2018

Кто такие анархисты в области данных и почему они против ETL-процессов?

Анархистов, призывающих к революции, всё больше. «Аналитикам нечего терять кроме кандалов», – считают они. С появлением эффективных и легко масштабируемых платформ, таких как Hadoop, анархисты требуют «не использовать ETL-процессы и долгую, сложную и разрозненную интеграцию». С одной стороны, призыв к революции может показаться интересным. Количество систем-источников растёт. CDO всё сложнее поддерживать централизованную организацию данных. Вместо традиционных ETL-процессов анархисты предлагают новый порядок, при котором данные перемещаются неконтролируемо. А CDO просто отрекается от своей обязанности управлять корпоративными данными как активом. Но те ETL-процессы, о которых говорят анархисты, сильно изменились за последнее время.

ETL-процессы значительно развились, их рано списывать со счетов

Анархисты застряли в прошлом. Они видят ETL-процессы такими, какими они были в 1999 году. Теперь же многое изменилось. Ещё хуже то, что революционный подход отвлекает внимание от успешного опыта организаций, которым удалось эволюционно модернизировать свою работу с данными. Такие компании смогли организовать автономность аналитики и гибкость ИТ-отдела, при этом соблюсти все требования в области безопасности и управления данными. Большую роль в этом сыграли технологии работы с метаданными (данными о данных). Метаданные становятся всё важнее в мире больших объёмов неструктурированных данных и динамических схем.

Анархия в управлении данными – не выход. Выход – демократия

Так что же нужно организациям, чтобы установить демократию? Я предлагаю 7 рекомендаций, которые уже доказали свою эффективность у клиентов Informatica для успешной аналитики без анархии и хаоса.

Автоматический ввод данных

Автоматизируйте ввод данных с высокопроизводительными предустановленными коннекторами или технологиями обработки данных. Такие эффективные и масштабируемые платформы, как Hadoop, позволяют данные в сыром формате без сложной обработки и настройки вручную. Инструменты легко справляются с такими задачами. При этом такой формат ввода данных позволяет обеспечить гибкость и скорость.

Разные группы данных

Разделите данные на разные группы в зависимости от того, для кого они предназначены. Data scientists может быть удобнее получить данные, очищенные только на 70%, но быстро. А BI-пользователи предпочтут подождать, пока данные не будут очищены на 100%. Такие группы можно создать на различных платформах (например, на Hadoop) с помощью инструментов профилирования данных и их валидации.

Блендинг данных

Дайте возможность потребителям данных самостоятельно комбинировать их из разных источников в дата-сеты– заниматься блендингом (Data Blending). Теперь не обязательно, чтобы обеспечение качества данных было прерогативой ИТ-отдела. После первоначального очищения данных предоставьте другим специалистам (например, data scientists) прямой доступ к данным. А также – упрощённым инструментам Data Blending, чтобы они могли принимать активное участие в курировании данных.

Быстрое прототипирование и совместное курирование данных

Применяйте гибкое курирование данных, к которому подключено несколько специалистов и с быстрым прототипированием. Быстрые и успешные проекты всегда получаются благодаря совместной работе бизнес-пользователей и ИТ-отдела. Инструменты для работы нескольких специалистов с возможностью быстрого прототипирования делают курирование данных гибким и позволяет быстро получать пользу.

Мониторинг качества данных

Применяйте мониторинг качества данных вместо их микроменеджмента. Обеспечение качества– это не чётко определённый процесс, который нужно одинаково использовать для всех данных. Мониторинг, основанный на системе правил, и система оповещений позволяют ИТ-отделу гибко следить за процессами, которые происходят в данных, и совместно достигать наглядности качества данных.

Виртуализация данных и программа-брокер

Используйте виртуализацию (Data Virtualization) для улучшения доступности данных. Также для этой цели можно использовать программу-брокера. До того, как станет ясно, какую ценность имеют данные, возможно, нет смысла перемещать их куда-то из системы-источника. Виртуализация данных может помочь обеспечить быстрый просмотр дата-сетов без их перемещения. Когда ценность данных определена, перемещение данных и их курирование можно автоматизировать с помощью программы-брокера. Она будет автоматически вводить данные в один центр. В нём пользователи смогут подписаться на получение этих данных.

Каталог метаданных

Применяйте универсальный каталог метаданных для того, чтобы извлекать больше пользы из информации, которую храните. Сейчас появились новые технологии, которые базируются на машинном обучении и графах. Их можно использовать, чтобы сделать предположение насчёт структуры, значения, ценности актива данных, рисков, связанных с ними. А также – чтобы передать эту информацию аналитикам и ИТ-специалистам для их большей автономии и улучшения управления данными и их защиты.

Стройте демократию!

Все эти рекомендации были подготовлены на основе опыта клиентов Informatica, которым удалось добиться успеха в области обеспечения доступности данных, их интеграции, миграции и ETL-процессов. Придерживаясь этих советов, вы добьётесь того, что правильные данные будут доступны в нужное время для сквозной, гибкой и надёжной аналитики. А это и есть основа для хорошо управляемой демократии. Радж Патил (глава стратегии управления данными, архитектуры и поддержки принятия управленческих решений в BNY Mellon) недавно выступил на MIT CDO Симпозиуме. «Именно неуправляемая цифровая трансформация – причина хаоса, – рассказал он. – Я не предлагаю строить хранилище данных, в котором вам придётся моделировать весь окружающий мир. Выберете для себя один подход, который позволит вам эволюционировать по ходу дела. Например, онтологический подход. Наша цель здесь – создать схему данных для всей организации, которая будет поддерживать курирование данных, их безопасность, управление ими и так далее». Анархисты в мире данных только создают хаос и превращают данные из актива в обузу. Успешные лидеры стараются использовать демократию.

Рекомендуем также

Сбор и обработка данных IoT. Стоит ли внедрять и как это сделать эффективно

Сбор и обработка данных с датчиков интернета вещей (IoT, Internet of Things) становится всё масштабнее. Но насколько большую пользу компании получают от них? Можно ли сравнивать эту пользу с уроном, который может принести утечка? Что делать, чтобы сбор и обработка данных стали выгоднее для компании? Обо всём этом рассуждает Стефан Зодер, эксперт Infonomics и практики ИТ бизнес-консалтинга корпорации Informatica.

1 ноября 2018

Сбор и обработка данных: много данных, новых терминов и сомнений

Потоки Big Data всё масштабнее. Они открывают перед бизнесом новые возможности и бросают ему новые вызовы. Для того, чтобы в этом разобраться вводится много терминов и понятий: Индустрия 4.0, Промышленность 4.0, Цифровая трансформация. Даже наша повседневная жизнь генерирует целое цунами данных. Они идут из мобильных телефонов, систем домашней безопасности и климатического контроля. Информация, которая собирается с портативной электроники, также достигает критической массы. Это приводит к повышению риска утечек данных, их нецелевому использованию и злоупотреблениям со стороны бизнеса, который их хранит. Чтобы защитить данные уже был введён регламент GDPR и множество других правовых инициатив по защите данных. Но дискуссия о защищённости Big Data снова и снова возобновляется с каждой новой утечкой. А значит, снова и снова поднимаются вопросы о том, насколько вообще сбор и обработка данных нужны бизнесу. При этом мало говорят о том, что Big Data уже приносит очень большую пользу компаниями, которые научились правильно с ними работать.

Зачем нужны сбор и обработка данных IoT?

Некоторые организации активно собирают данные с портативных устройств, которые носят сотрудники. Это помогает контролировать показатели здоровья персонала и улучшать безопасность. Всё больше устанавливается датчиков IoT на промышленное оборудование. Данные с них помогают измерять показатели с промышленных роботов и мониторить линии производства в реальном времени. Также компании могут следить за оборудованием во время его работы, чтобы понять ухудшается ли его эффективность при изменении факторов окружающей среды. Среди таких факторов – температура, наличие крена, влажность, давление, географическое положение. Ещё одна область, где можно использовать сбор и обработку данных с сенсоров на оборудовании – конструкторская деятельность. Организация может собрать информацию о работе тестируемого устройства в естественных условиях, а также – в искусственно контролируемых условиях. Анализ такой информации поможет выделить коренные причины поломок, если они произойдут во время процедуры оценки качества нового оборудования. Возможно, вы уже знакомы с сервисом «сбой-как-услуга» (failure-as-a-service). Это оценка ущерба и последствий от сбоев в работе, а также моделирование и предсказание таких сбоев. Внедрение интернета вещей позволило этому сервису выйти на новый уровень. Текущий виток развития я бы назвал «сбой-как-услуга 2.0». Новая версия сервиса способна эффективнее оповещать бизнес о том, при каких сценариях возможен сбой в работе устройства. Продвинутые алгоритмы машинного обучения помогают предсказывать поломки в будущем и решить проблему до её возникновения. Это позволяет снизить число незапланированных простоев и работать с максимальной продуктивностью.

Как сделать сбор и обработку данных IoT эффективнее?

Чтобы эффективно использовать Big Data, организациям нужно перестать относить сбор и обработку данных с сенсоров IoT к уровню одного завода, исследования или отдела. Бизнес должен научиться работать с Big Data стратегически, на уровне нескольких компаний и в долгосрочной перспективе. Также нужно разработать гибкую методологию быстрого получения результата от тестирования. Это поможет не тратить ресурсы на безрезультативное тестирование. Нужно учиться избегать случаев, когда данные нового теста показывают те же результаты, что и предыдущего. В компании должно быть центральное хранилище данных, возможно, Hadoop. Разработчики, инженеры и аналитики должны буду работать в нём совместно. В частности, искать там данные, комбинировать, комментировать их, добавлять новые, повторно использовать те, с которыми они работали ранее. Что ещё важнее – это способность обеспечить доверие к результатам анализа данных. Достичь этого можно благодаря коллективной проверке данных, при которой будут учитываться уже имеющиеся комментарии к ним и их первоначальный линедж. Если вы обеспечиваете надёжные данные с датчиков в контексте другой достоверной «базовой» информации, вы сможете принимать на её основе более эффективные решения. «Базовая информация» включает в себя образование и квалификацию персонала, который установил оборудование и сенсоры, модель, серийный номер и производителя оборудования, его местонахождение, условия, в которых оно находилось во время установки, работы и тестирования. Эффективная обработка данных подразумевает и обеспечение их высокого качества. Почему качество данных имеет большое значение для интернета вещей и как его обеспечить, читайте в другой статье блога.

Главный залог успеха – делиться данными

Прошли те времена, когда целые команды квалифицированных инженеров и технических специалистов тратили целые дни и недели на установку датчиков. А также – на их калибровку, тестирование, ожидание результатов. А в итоге оказывалось, что наборы данных не имеют значения для бизнеса или очень похожи на те, которые были собраны во время прошлого теста, о котором они не знали. Инженеры сейчас могут работать совместно со своими коллегами из бизнес-подразделений. Когда показания датчика говорят о необходимости что-то поменять, они могут обсудить это друг с другом. Сделать это можно будет, принимая во внимание исторические тестовые данные, которые хранятся в архиве. Компания должна активно делиться собранными данными с инженерами, поставщиками, клиентами. А иногда выгодно делиться и с конкурентами! Совместная работа с конкурентами часто позволяет получить новые инсайты по рынку. Это позволяет совместно улучшить категорию продукта и снизить влияние макроэкономических факторов, например эмиссии денежных средств. Обмен данными также можно монетизировать и создать дополнительный поток прибыли для своей организации. Успешный сбор и обработка данных IoT – конкурентное преимущество для любой компании. Они влияет не только на операционную деятельность, но и на изменения в конструкции оборудования, тестирования его сбоев, обучение специалистов, перестройке, регулятивной отчётности. А главное – удовлетворённость клиента, неважно внутри компании или снаружи.

Рекомендуем также

Решаем 5 главных проблем Big Data и среды Apache Hadoop. Часть 2

Apache Hadoop и его экосистема приобретают всё большую популярность. Компании собирают и обрабатывают всё больше данных. Но Big Data приносит не только новые возможности, но и новые проблемы. О том, как их решить, рассказывает Джон Хаддад, старший директор по продуктовому маркетингу Big Data в Informatica.

1 ноября 2018

Большие данные – большие проблемы

В первой части статьи мы рассмотрели решение трёх проблем больших данных:
  • Сложно подобрать и удержать квалифицированных специалистов, которые умеют работать с экосистемой Apache Hadoop.
  • Требуется много времени на реализацию проекта от пилотной версии до продуктовой среды.
  • Технологии Big Data эволюционируют очень быстро, что затрудняет их внедрение.
Читайте первую часть статьи по ссылке: Решаем 5 главных проблем Big Data и среды Apache Hadoop. Часть 1. Эта часть будет посвящена оставшимся двум проблемам:
  • Проекты не приносят той пользы, которую от них ожидают.
  • Сложно добиться того, чтобы данные в Apache Hadoop подходили для выполнения поставленных целей, были доступными и надёжными, хранились в безопасности.

Как извлекать пользу из Big Data

Бизнес постоянно жалуется, что проекты Big Data не приносят ожидаемой выгоды. Согласно последнему опросу, 86% маркетологов признают, что могли бы генерировать больше прибыли для компании, если бы лучше знали своего клиента. Особенно важно знать не потенциального клиента, а действующего, который когда-то у вас покупал товары или услуги. Мы все знаем, что продать что-то действующему клиенту дешевле, чем привлечь нового. Но хорошо узнать клиентов не так-то просто. Помочь с этим бизнесу призваны инициативы CRM. Но и они часто не приносят желаемой пользы. Результат этого – низкие показатели ROI маркетинга, некачественный клиентский опыт, отток клиентов и упущенные возможности продажи. Для того, чтобы этого избежать, Informatica предлагает обогащать мастер-данные клиентов инсайтами, полученными на основе Big Data. Используются для этого два решения Informatica – Big Data Management и Master Data Management. Такой механизм позволяет создать единое и полное видение клиентов и достигать значительных результатов в продажах и маркетинге. Указанный механизм улучшает общий клиентский опыт, превращая большие данные в информацию, на основе которых можно действовать. Например, такое решение позволяет сотрудникам клиентского сервиса понять, какие покупатели скорее всего перейдут к конкуренту в ближайшие две недели. Соответственно они могут предпринять необходимые меры заранее. Специалистам отдела продаж и маркетинга решение помогает определить лучшие предложения для конкретного клиента, основываясь на его поведении онлайн. Также это облегчает дополнительные и кросс-продажи. Прибыль от использования больших данных ценна не только сама по себе. Она позволяет окупить инвестиции и стоимость администрирования Apache Hadoop. О том, как ещё окупаются инвестиции в Apache Hadoop, читайте в другой статье блога.

Что делать, чтобы данные в Apache Hadoop стали лучше

Директору по данным (CDO), команде аналитиков и data scientists приходится прилагать много усилий, чтобы большие данные подходили для решения конкретных задач, были доступными, защищёнными и надёжными. В первой части мы уже обсуждали, что неэффективно использовать высококвалифицированных специалистов и дорогих специалистов для решения таких задач. Они должны тратить своё время на анализ данных и поиск ценных бизнес-инсайтов. Иначе не избежать задержек в реализации проектов, перерасхода средств и упущенных возможностей. На помощь в такой ситуации могут прийти инструменты Informatica для Apache Hadoop, в том числе озеро данных. Озеро в этом случае может служить как единое место для хранения информации и подготовки данных для аналитики. Инструменты Informatica для Apache Hadoop способны создать конвейер по сбору, очистке данных, их предоставлению пользователям и управлению ими так, чтобы команда аналитиков могла легко найти, получить доступ, интегрировать данные, а главное, доверять им. Если вы только начинаете своё путешествие в мире больших данных и экосистеме Apache Hadoop, используйте опыт мировых лидеров вместо того, чтобы набивать свои шишки. Какие ошибки подстерегают вас в этом путешествии читайте в статье о 5 самых распространённых ошибках при работе с большими данными.

Рекомендуем также

Решаем 5 главных проблем Big Data и среды Apache Hadoop. Часть 1.

Apache Hadoop и его экосистема приобретают всё большую популярность. Компании собирают и обрабатывают всё больше данных. Но большие данные приносят не только новые возможности, но и новые проблемы. О том, как их решить, рассказывает Джон Хаддад, старший директор по продуктовому маркетингу Big Data в Informatica.

31 октября 2018

Большие данные в Apache Hadoop – большие проблемы

  • Сложно подобрать и удержать квалифицированных специалистов, которые умеют работать с экосистемой Apache Hadoop.
  • Требуется много времени на реализацию проекта от пилотной версии до продуктовой среды.
  • Технологии Big Data эволюционируют очень быстро, что затрудняет их внедрение.
  • Проекты не приносят той пользы, которую от них ожидают.
  • Сложно добиться того, чтобы данные в Apache Hadoop подходили для выполнения поставленных целей, были доступными и надёжными, хранились в безопасности.

Как найти хороших специалистов

Самая большая проблема в работе с Big Data сейчас – найти хороших специалистов. Их требуется всё больше. Один из крупнейших международных банков начал свой проект по большим данным с командой из 5 Java-разработчиков. Но инициатива быстро развилась и в этом году им понадобилось нанять ещё 25 специалистов. Масштабировать свою инфраструктуру, чтобы хранить и обрабатывать большие объёмы данных, банк смог быстро. А увеличить число квалифицированных кадров – нет. Но, если детально разобраться с функциями специалистов по работе с большими данными, то окажется, что они выполняют много монотонных задач, которые могут быть автоматизированы. Согласно консалтинговой фирме Booz Allen Hamilton, «в некоторых организациях, аналитики тратят до 80% своего времени на подготовку данных. На проведение самого анализа у них остаётся всего 20%». Автоматизировать выполнение задач по подготовке данных к аналитике (их интеграцию, каталогизацию, обеспечение их качества, обезличивание и так далее) помогают промышленные инструменты. В частности, решения компании Informatica, которые эффективно работают в среде Apache Hadoop. Для платформы Informatica вы легко найдёте специалиста на рынке. И он заменит армию программистов, которые вручную пишут код на Java и других языках программирования, которые подходят для Apache Hadoop. Проведённые тесты показали, что специалисты Informatica в среднем в 5 раз продуктивнее работают с данными на Apache Hadoop, чем программисты, которые работают вручную. И это при том, что первым не нужно осваивать написание кода на многочисленных языках программирования. Сейчас ситуация на рынке такая, что только каждой из топ-100 компаний мира необходимо нанять по 40 data scientists. Хотите ли вы тратить время таких востребованных специалистов на подготовку данных к анализу, а не на сам анализ? Или автоматизируете 80% их задач?

Как быстрее выводить проекты в продуктовые среды

Один из клиентов Informatica из области медиа и развлечений перед покупкой Informatica Big Data Management рассказал мне, что его предыдущий проект в области больших данных уже потерпел неудачу. Он так объяснил мне причину этой неудачи: «Мы наняли опытных Java-разработчиков. Они придумали идею решения и даже доказали её жизнеспособность в песочнице. Но потом пришло время выводить это решение в продуктовую среду. И тогда им пришлось переработать большую часть кода, чтобы оно заработало, легко масштабировалось, было доступно 24х7 и интегрировалось с остальной продуктовой инфраструктурой. Кроме того, созданное решение было сложно поддерживать, когда что-то менялось. Всё вместе привело к задержкам в реализации всего проекта и перерасходу средств». Сложно представить себе, что такая ситуация произойдёт с промышленной платформой. Благодаря ей всё, что вы разрабатываете в песочнице, может быть мгновенно и автоматически использоваться для продуктовой среды. Производительность, масштабируемость и надёжность платформы обеспечиваются благодаря параметрам конфигурации. При этом нет необходимости перестраивать или перерабатывать разработки, как это приходится делать при работе с решениями, которые вы напишите сами. Также промышленная платформа упрощает повторное использование существующих разработок и поддержку проектов Big Data даже тогда, когда что-то меняется. Informatica BDM включает в себя технологию Vibe, которая обеспечивает универсальную совместимость систем и ускоряет загрузку новых типов данных в любых объёмах и на любой скорости.

Как подстраиваться под быстро меняющиеся технологии

Технологии Big Data появляются и развиваются очень быстро. Многие организации не успевают внедрить предыдущую разработку до того, как появится новая. Что, если вы сделаете ставку не на ту технологию, и узнаете, что она вышла из употребления ещё до того, как вы начали её использовать? Apache Hadoop сейчас широко внедряется. Но он постоянно меняется и развивается вместе с другими решениями в области. Сейчас в сфере больших данных буквально сотни open-source и коммерческих решений. Informatica смогла эффективно решить проблему взрывного развития технологий. В платформу Big Data Management (BDM) встроена технология Vibe, которая позволяет использовать виртуальную машину. Благодаря этому практически любой процесс, который работает на традиционном оборудовании, может быть запущен без каких-либо дополнительных усилий на кластере Apache Hadoop. Другими словами, инфраструктура, которую вы выстроили для корпоративных данных среднего размера, может использоваться и для Big Data. Текущие клиенты Informatica могут взять маппинги PowerCenter, которые они создали много лет назад, импортировать их в BDM и использовать в Apache Hadoop. В большинстве случаев это можно сделать без дополнительных усилий и не внося никаких изменений. Сегодня существуют платформы Apache Hadoop с пятью различными приправами. Завтра будет Apache Hadoop и пять совершенно других технологических платформ. Решения Informatica уже готовы к такой ситуации и смогут эффективно работать и с ними. Как решить оставшиеся две проблемы Big Data и среды Apache Hadoop, читайте во второй части статьи по ссылке Решаем 5 главных проблем Big Data и среды Apache Hadoop. Часть 2.

Рекомендуем также

Облачное хранилище данных. Вот где деньги для цифровой трансформации

О том, как перемещение данных организации в облачное хранилище данных, помогает ИТ-директору получить дополнительные ресурсы, рассказывает Кевин Флит, вице-президент отдела оказания профессиональных услуг в корпорации Informatica.

18 октября 2018
Любой поставщик программного обеспечения пообещает вам, что его решение переместит собранную вами информацию в облачное хранилище данных легко и быстро. Также он пообещает, что его решение справится со всеми потенциальными проблемами масштабной миграции. Какой вендор при этом будет говорить о том, что иногда могут потребоваться дополнительные шаги, траты, время или усложнение процесса миграции в облачное хранилище данных? Informatica будет.

Просто не значит хорошо

Самый простой способ перемещения данных в облако – подход “lift-and-shift” (копирование в облако без изменения архитектуры). Он заключается в том, что вы перемещаете содержимое своего хранилища (ХД) в облако в том же самом виде, в котором оно было размещено на серверах компании. Это касается не только данных, но и маппингов, процессов и кода, который помогает определить, обработать и переместить эти данные. Но такая схема предполагает, что в облачное хранилище данных вы экспортируете и неэффективный код, неоптимальные сокращения и устаревшие практики. Они копились в течение многих лет и тихо сжигали большую часть ваших затрат на операционную деятельность. Но зачем закреплять старые ошибки на новой платформе? (Читайте о том, как правильно перемещать информацию в облачное хранилище данных, читайте в статье Хранилище данных никуда не уйдёт, оно улетит в облако) Вместо этого можно использовать миграцию в облачное хранилище данных для поиска и исправления слабых мест в коде. При перемещении данных в облако, вам придётся всё протестировать заново в любом случае. Тестирование скорее всего займёт много времени и ресурсов. А если вы их тратите в любом случае, оптимально использовать их так, чтобы повысить эффективность системы, связанной с данными?

ИТ-отделы теряют ресурсы из-за неэффективности

Каждый ИТ-отдел пытается держать баланс внедрения инноваций и поддержания существующей системы. Традиционно 70% ИТ-бюджета идёт на поддержку действующей инфраструктуры. 30% на то, чтобы внедрять что-то новое. И это не простая статистика. С течением времени неэффективность множится, и задача поддержки поглощает всё больше ресурсов. Начинается всё с малого. Немного ИТ-организаций строго подходит к улучшению стандартов написания кода. Поэтому с течением времени десяток разных девелоперов используют сокращения кода по своему усмотрению для того, чтобы справиться с десятками различных ошибок. Это приводит к тому, что, когда где-то возникает неполадка, для её исправления специалисту приходится самостоятельно изобретать её решение. Он не сможет ориентироваться на чужой опыт, потому что система и код в организации будут уникальными. Каждое последующее исправление будет требовать больше времени и бюджетных трат. И я имею ввиду реальные деньги. Когда я руководил большим корпоративным ХД в Pfizer, я сократил расходы на поддержку системы на 20% ежегодно благодаря перестройке существующей инфраструктуры. Каждый сэкономленный цент был потрачен на внедрение инноваций. Это жизненно необходимо сегодня. Всё больше руководство настаивает на необходимости внедрения самых передовых решений в ИТ. А бюджет, который выделяется этому отделу, редко соответствует масштабу амбиций компании. Невозможно добиться успеха в таких условиях без сокращения затрат на поддержку существующих решений и инфраструктуры.

Правильная миграция в облачное хранилище данных – источник ресурсов для ИТ отдела

ИТ-специалисты, особенно те, кто работает с инфраструктурой, способны оценить эффективность и красивую архитектуру как таковые. Хорошо выстроенные процессы и чистый код могут приносить удовольствие сами по себе. Но они ещё и имеют большую ценность для бизнеса, особенно в эпоху, когда гибкость ИТ в компании имеет такое большое значение. Плановая миграция в облачное хранилище данных позволяет добавить этапы по очистке и улучшению кода, связанного с данными. Такая очистка добавит дополнительную ценность вашему проекту по перемещению данных в облако и повысит шансы на его одобрение руководством. Шансы повышаются даже для тех проектов, на которые руководство не дало бы зелёного света без этой дополнительной функции.

Используйте все возможности для повышения эффективности

Безусловно, если вы используете миграцию в облако для полной проверки кода, связанного с данными, вы увеличите время всего процесса и траты на неё. Но в конечном итоге вы останетесь в плюсе. Периодически я слышу от руководителей ИТ-отделов примерно следующее: «Да, мы инвестировали на 20% больше во фронтенд, чтобы улучшить наши ETL-процессы во время перемещения информации в облачное хранилище данных. Но теперь ежегодно мы сможем экономить. И эта экономия окупит затраты меньше, чем за 18 месяцев. А средства от неё можно потратить на инновации и инициативы по цифровой трансформации». Если в компании есть теневые ИТ-команды, ИТ-директор организации должен их также убедить в выгодности совместного перемещения информации в облачное хранилище данных. (Теневая ИТ-команда создаётся внутри отдельного юнита или подразделения для обслуживания его собственных нужд). Бизнес-подразделения используют свои бюджеты, чтобы поддерживать собственные теневые ИТ-сервисы по ситуации. ИТ-директор может пойти в такое бизнес-подразделение и сказать: “Выделите моей команде свой бюджет и моя команда улучшит ваш код и решит ваши проблемы. Мы проведём миграцию данных, обеспечим поддержку этого сервиса. А всё, что сможем сэкономить таким образом поделим пополам между вашим и нашим отделом». У указанного бизнес-подразделения будет на одну головную боль меньше и больше бюджетных средств на то, чтобы потратить их на что-то более важное. Общекорпоративный ИТ-отдел получает лучший контроль инфраструктуры компании, лучшее качество данных и потратит меньше денег на инновации. Кроме того, всегда разговаривайте со своими внутренними клиентами и никогда не упускайте возможностей. Вместо того, чтобы привязываться только к ИТ-составляющей проектов, потрудитесь выяснить, как пользователи на самом деле используют программное обеспечение, которое вы предоставляете им. Сколько лицензий скорее всего не будет использоваться? Какие функции никому не нужны? Что можно вы могли бы добавить к своему проекту, чтобы сделать его успешнее? Ответы на все эти вопросы помогут вам и добиться лучшей эффективности, и внедрить инновации. А зачастую первое поможет оплатить второе.

Рекомендуем также

Как окупаются инвестиции в Apache Hadoop

15 октября 2018
Что такое Apache Hadoop и как он работает, вы можете узнать в статье Что такое Big Data? Азбука больших данных от А до Я. О том, что делать, чтобы внедрение Apache Hadoop окупилась, рассказывает Питер Ку. В корпорации Informatica Питер отвечает за консалтинг в области решений для финансовой индустрии. Эксперт помогает компаниям банковского и финансового рынка эффективно применять данные и решения управления ими для выполнения различных бизнес-задач. Среди этих задач – соответствие требованиям регуляторов и улучшение клиентского опыта.

Big Data стала мейнстримом, а Apache Hadoop начал широко применяться

Теперь всё реже можно услышать вопрос «Что такое Big Data?» и всё чаще – «Как мы можем с максимальной эффективностью использовать Big Data для решения конкретных бизнес-задач?». Кажется, что с большими данными сейчас работают все. Одни компании предлагают программное обеспечение для предиктивной аналитики «нового поколения» в традиционных базах данных. Другие — для обеспечения качества данных, для их интеграции, для Business Intelligence. Каждая организация считает, что именно она играет ключевую роль в работе с Big Data. Правда же в том, что важные роли играет каждая из них. Но самое восторженное отношение сейчас – к Apache Hadoop и его экосистеме. Обусловлено это тем, что первопроходцы, которые экспериментировали с версиями этого решения в open source, быстро выросли до масштаба внедрения промышленных решений уровня организации. Apache Hadoop сейчас предлагают Cloudera™, HortonWorks™, MapR™ и Amazon’s RedShift™.

Apache Hadoop окупается благодаря своей архитектуре

Apache Hadoop быстро и дешево обрабатывает большие объёмы данных за счёт распределённой архитектуры. Все операции в нём осуществляются на отдельных недорогих серверах. В самом Apache Hadoop нет нативных инструментов для аналитики или Business Intelligence. Модели для них запускаются аналитиками и data scientists с помощью специальных приложений, которые могут работать в среде Apache Hadoop. Только результаты анализа извлекаются в отдельное хранилище для использования решениями Business Intelligence, управления кампаниями, систем отчётности. Такой механизм ускоряет предоставление данных и сокращает затраты на вычисления и работу моделей по сравнению с традиционной архитектурой хранилища.

Apache Hadoop окупается, когда активно используется для бизнес-задач

Apache Hadoop позволяет компаниям решать целый ряд реальных бизнес-задач, выполнить которые было бы сложно с помощью традиционных инструментов. На основе больших данных в Apache Hadoop можно выявлять фрод (мошенничество в области информационных технологий) в финансовом секторе и электронной торговле. Для этого анализируется информация из журнала регистрации вызовов, социальные данные, данные по оплатам и транзакциям за всё время. Анализ клиентских настроений в телекоме и здравоохранении позволяет определить клиентов, которые с большой вероятностью перейдут к конкуренту. Это можно сделать с помощью интеграции транзакционных данных и информации о взаимодействии компании и клиента в реальном времени. Также с помощью больших данных можно повысить качество риск-менеджмента во всей организации. Для этого нужно консолидировать данные о рисках по кредитам, на рынке и в операционной деятельности и анализировать их.

Apache Hadoop окупается благодаря дополнительным инструментам

Безусловно, Apache Hadoop открывает перед бизнесом широкие возможности. Но реализовать их можно, только если у компании есть эффективные и масштабируемые инструменты для интеграции Big Data и обеспечения их качества. Инструменты должны подходить для всех трёх главных признаков больших данных: больших объёмов, скорости и многообразия. Давайте начнём с того, как переместить Big Data на Apache Hadoop. При том, что сейчас увеличиваются не только объёмы данных, но и число систем-источников, которые эти данные генерируют. Данные в разных форматах, с разной структурой и типами должны быть трансформированы, форматированы и валидированы перед загрузкой в Apache Hadoop. Интеграция данных с использованием нативных языков программирования Hadoop (PIG, MapReduce и другие) требует привлечения разработчиков, которые владеют такими языками. Может быть непросто найти подобных специалистов из-за их высокой стоимости и долгого цикла проектов. Помочь в такой ситуации смогут промышленные инструменты, которые автоматизируют интеграцию данных. Кроме того, качество и достоверность данных играет большое значение и тогда, когда data scientists и аналитики начинают запускать на них свои модели. Как говорится в одной известной пословице, «что посеешь, то и пожнёшь». Можете спросить любого data scientist или аналитика, на что они тратят большую часть своего времени. Скорее всего, они ответят, что на то, чтобы обеспечить качество данных для своих моделей и аналитики. Исследование Elder Research показало, что аналитики и data scientists тратят от 60% до 80% процентов рабочего времени на очищение и подготовку тех данных, которые предоставили им ИТ-специалисты. В течение многих лет обеспечение качества данных остаётся одним из главных приоритетов бизнеса. Но несмотря на это, многие и большим, и маленьким компаниям не хватает отлаженных процессов и технологий для того, чтобы автоматизировать обнаружение, фиксацию и мониторинг процессов обеспечения качества данных из систем-источников, которые генерируют данные для аналитики, BI, применения для бизнес-целей. Пока эта проблема не решена, сложно добиться и окупаемости Apache Hadoop. Сейчас большие данные используют все шире, всё шире используется и Apache Hadoop. Для того, чтобы эта технология работала эффективно и приносила реальную прибыль, необходимы решения по интеграции данных и обеспечению их качества.

Рекомендуем также

6 категорий решений для защиты Big Data в Apache Hadoop

Как защитить конфиденциальную и чувствительную информацию в Apache Hadoop, рассказывает Клаудия Чандра, вице-президент по продуктовому менеджменту корпорации Informatica.

12 октября 2018
Если вы не знаете, что такое Apache Hadoop, читайте статью Что такое Big Data? Азбука больших данных от А до Я. Часть 1 . Если вы сомневаетесь, нужно ли защищать данные, читайте статью Защита данных по GDPR: пугаться или радоваться? Часть 1 В последние годы был сделан значительный шаг вперёд в области безопасности Big Data в среде Apache Hadoop. Свои решения предлагают и дистрибутивы (Hortonworks и Clouderra), и независимые вендоры (например, Informatica). Сейчас на рынке доступны инструменты для Apache Нadoop в следующих категориях:
  • Выявление чувствительных данных и их классификация;
  • Анализ распространения и перемещения чувствительных данных;
  • Аутентификация;
  • Авторизация;
  • Продвинутая защита данных;
  • Аудит;
  • Аналитика чувствительных данных и их классификация;
Давайте подробнее остановимся на каждой категории.

Выявление чувствительных данных и их классификация для Apache Hadoop

Informatica Secure@Source автоматизирует выявление и классификацию чувствительной информации в Hive. Также решение позволяет определить уровень защищённости такой информации.

Анализ распространения и перемещения чувствительных данных для Apache Hadoop

Чем шире распространяются чувствительные данные, тем они уязвимее и выше риск их утечки. Informatica Secure@Source анализирует распространение и перемещение чувствительной информации через Informatica Big Data Integration и Big Data Management в и из Hive. В будущем решение также сможет интегрировать такую информацию из Cloudera Navigator.

Аутентификация для Apache Hadoop

За аутентификацию в Hadoop обычно отвечает Kerberos. Кроме того, Apache Knox обеспечивает централизованную аутентификацию для всех сервисов Apache Hadoop. Он интегрируется с LDAP, Active Directory и Identity Management / Cloud Single-Sign On. Apache Knox покрывает Hive, Hbase, HDFS, Oozie и Hcat.

Авторизация для Apache Hadoop

В Apache Hadoop доступно множество уровней авторизации. Авторизацию на уровне сервиса обеспечивает Apache Knox. Apache Sentry – контроль доступа на уровнях сервера, базы данных, таблицы и типа доступа (возможность просматривать, выбирать, трансформировать) в соответствии с ролью пользователей. Решение работает с Hive и Impala. Cloudera выводит на рынок RecordService для усиления более точного (на уровне столбца и строчки) унифицированного контроля доступа для всех платформ по хранению Big Data (включая HDFS, HBase) и вычислительных – Spark, MapReduce, Hive и Impala. RecordService усиляет безопасность на тракте считывания и уточняет разрешения, которые дал Apache Sentry. Apache Ranger обеспечивает центральное управление политиками для контроля доступа к файлам, папкам, базам данных, таблицам, столбцам на HDFS, Hive и Hbase, Knox, Solr, Kafka, и YARN. Ranger поддерживает многие методы авторизации, включая доступ на основе ролей и – на основе атрибутов.

Продвинутая защита для Apache Hadoop

Cloudera предлагает шифрование на основе файлов как часть Navigator для защиты HDFS-файлов, записей HBase, метаданных Hive и аудита логов. Система управления ключами к шифрованию доступна как часть Cloudera Security. Hortonworks предлагает шифрование данных HDFS и систему управления ключами в Apache Ranger. Informatica Big Data Management посредством Informatica Persistent Data Masking маскирует чувствительную информацию Hive и текстовые файлы, при этом сохраняя их первоначальные характеристики для тестирования и аналитики. Данные могут быть замаскированы во время миграции в Apache Hadoop или уже на кластере, когда они уже туда загружены.

Аудит в Apache Hadoop

Дистрибутив Cloudera обеспечивает аудит доступа к данным на HDFS, Impala, Hive, HBase и Sentry с помощью своего решения Navigator. Hortonworks поддерживает аудит изменений политик и доступа к Big Data в HDFS, HBase, Hive с помощью Knox, Kafka, Yarn, Solr, Storm через Ranger.

Аналитика чувствительных данных и их классификация в Apache Hadoop

Informatica Secure@Source обеспечивает информацию о наличии чувствительных данных, их объёме, статусе защиты, уровне распространения, числу сотрудников, которые имеют к ним доступ, сотрудников, которые действительно используют их и стоимость риска утечки. Это помогает подсчитать уровень риска для отдельного хранилища, региона, департамента. Также Secure@Source определяет массивы данных и группы пользователей с самым большим риском, чтобы установить приоритет усилий для защиты Big Data. Решение также обнаруживает условия повышенного риска. Например, когда чувствительные данные перемещаются из страны, где их безопасность строго регулируется, или когда доступ к данным получает пользователь не из той страны, где они хранятся. С Secure@Source организации получают полную картину того, как обстоят дела с чувствительными Big Data в масштабах всей компании. Защита данных становится ключевым элементом среды Apache Hadoop. Новые инструменты уже сейчас позволяют решать многие задачи. При этом они продолжают развиваться и в будущем планируется внедрить новые функциональные возможности. Самостоятельно разобраться с экосистемой Apache Hadoop и оптимальными для неё инструментами пока не получается? Обращайтесь за помощью к специалистам DIS Group, которые одними из первых в России начали работать с этой экосистемой.

Рекомендуем также