ETL-процессы VS анархия. Что выбрать?

В хранилищах данных власть завоёвывают анархисты. Они призывают провести ИТ-революцию и избавиться от ETL-процессов и долгой, сложной и разрозненной интеграции. О том, почему не стоит идти у них на поводу и нужно внедрять демократию данных, а не анархию, рассуждает Мурти Матипракасам главный менеджер по продуктам в категории решений Big Data.

8 ноября 2018

Кто такие анархисты в области данных и почему они против ETL-процессов?

Анархистов, призывающих к революции, всё больше. «Аналитикам нечего терять кроме кандалов», – считают они. С появлением эффективных и легко масштабируемых платформ, таких как Hadoop, анархисты требуют «не использовать ETL-процессы и долгую, сложную и разрозненную интеграцию». С одной стороны, призыв к революции может показаться интересным. Количество систем-источников растёт. CDO всё сложнее поддерживать централизованную организацию данных. Вместо традиционных ETL-процессов анархисты предлагают новый порядок, при котором данные перемещаются неконтролируемо. А CDO просто отрекается от своей обязанности управлять корпоративными данными как активом. Но те ETL-процессы, о которых говорят анархисты, сильно изменились за последнее время.

ETL-процессы значительно развились, их рано списывать со счетов

Анархисты застряли в прошлом. Они видят ETL-процессы такими, какими они были в 1999 году. Теперь же многое изменилось. Ещё хуже то, что революционный подход отвлекает внимание от успешного опыта организаций, которым удалось эволюционно модернизировать свою работу с данными. Такие компании смогли организовать автономность аналитики и гибкость ИТ-отдела, при этом соблюсти все требования в области безопасности и управления данными. Большую роль в этом сыграли технологии работы с метаданными (данными о данных). Метаданные становятся всё важнее в мире больших объёмов неструктурированных данных и динамических схем.

Анархия в управлении данными – не выход. Выход – демократия

Так что же нужно организациям, чтобы установить демократию? Я предлагаю 7 рекомендаций, которые уже доказали свою эффективность у клиентов Informatica для успешной аналитики без анархии и хаоса.

Автоматический ввод данных

Автоматизируйте ввод данных с высокопроизводительными предустановленными коннекторами или технологиями обработки данных. Такие эффективные и масштабируемые платформы, как Hadoop, позволяют данные в сыром формате без сложной обработки и настройки вручную. Инструменты легко справляются с такими задачами. При этом такой формат ввода данных позволяет обеспечить гибкость и скорость.

Разные группы данных

Разделите данные на разные группы в зависимости от того, для кого они предназначены. Data scientists может быть удобнее получить данные, очищенные только на 70%, но быстро. А BI-пользователи предпочтут подождать, пока данные не будут очищены на 100%. Такие группы можно создать на различных платформах (например, на Hadoop) с помощью инструментов профилирования данных и их валидации.

Блендинг данных

Дайте возможность потребителям данных самостоятельно комбинировать их из разных источников в дата-сеты– заниматься блендингом (Data Blending). Теперь не обязательно, чтобы обеспечение качества данных было прерогативой ИТ-отдела. После первоначального очищения данных предоставьте другим специалистам (например, data scientists) прямой доступ к данным. А также – упрощённым инструментам Data Blending, чтобы они могли принимать активное участие в курировании данных.

Быстрое прототипирование и совместное курирование данных

Применяйте гибкое курирование данных, к которому подключено несколько специалистов и с быстрым прототипированием. Быстрые и успешные проекты всегда получаются благодаря совместной работе бизнес-пользователей и ИТ-отдела. Инструменты для работы нескольких специалистов с возможностью быстрого прототипирования делают курирование данных гибким и позволяет быстро получать пользу.

Мониторинг качества данных

Применяйте мониторинг качества данных вместо их микроменеджмента. Обеспечение качества– это не чётко определённый процесс, который нужно одинаково использовать для всех данных. Мониторинг, основанный на системе правил, и система оповещений позволяют ИТ-отделу гибко следить за процессами, которые происходят в данных, и совместно достигать наглядности качества данных.

Виртуализация данных и программа-брокер

Используйте виртуализацию (Data Virtualization) для улучшения доступности данных. Также для этой цели можно использовать программу-брокера. До того, как станет ясно, какую ценность имеют данные, возможно, нет смысла перемещать их куда-то из системы-источника. Виртуализация данных может помочь обеспечить быстрый просмотр дата-сетов без их перемещения. Когда ценность данных определена, перемещение данных и их курирование можно автоматизировать с помощью программы-брокера. Она будет автоматически вводить данные в один центр. В нём пользователи смогут подписаться на получение этих данных.

Каталог метаданных

Применяйте универсальный каталог метаданных для того, чтобы извлекать больше пользы из информации, которую храните. Сейчас появились новые технологии, которые базируются на машинном обучении и графах. Их можно использовать, чтобы сделать предположение насчёт структуры, значения, ценности актива данных, рисков, связанных с ними. А также – чтобы передать эту информацию аналитикам и ИТ-специалистам для их большей автономии и улучшения управления данными и их защиты.

Стройте демократию!

Все эти рекомендации были подготовлены на основе опыта клиентов Informatica, которым удалось добиться успеха в области обеспечения доступности данных, их интеграции, миграции и ETL-процессов. Придерживаясь этих советов, вы добьётесь того, что правильные данные будут доступны в нужное время для сквозной, гибкой и надёжной аналитики. А это и есть основа для хорошо управляемой демократии. Радж Патил (глава стратегии управления данными, архитектуры и поддержки принятия управленческих решений в BNY Mellon) недавно выступил на MIT CDO Симпозиуме. «Именно неуправляемая цифровая трансформация – причина хаоса, – рассказал он. – Я не предлагаю строить хранилище данных, в котором вам придётся моделировать весь окружающий мир. Выберете для себя один подход, который позволит вам эволюционировать по ходу дела. Например, онтологический подход. Наша цель здесь – создать схему данных для всей организации, которая будет поддерживать курирование данных, их безопасность, управление ими и так далее». Анархисты в мире данных только создают хаос и превращают данные из актива в обузу. Успешные лидеры стараются использовать демократию.

Рекомендуем также

Сбор и обработка данных IoT. Стоит ли внедрять и как это сделать эффективно

Сбор и обработка данных с датчиков интернета вещей (IoT, Internet of Things) становится всё масштабнее. Но насколько большую пользу компании получают от них? Можно ли сравнивать эту пользу с уроном, который может принести утечка? Что делать, чтобы сбор и обработка данных стали выгоднее для компании? Обо всём этом рассуждает Стефан Зодер, эксперт Infonomics и практики ИТ бизнес-консалтинга корпорации Informatica.

1 ноября 2018

Сбор и обработка данных: много данных, новых терминов и сомнений

Потоки Big Data всё масштабнее. Они открывают перед бизнесом новые возможности и бросают ему новые вызовы. Для того, чтобы в этом разобраться вводится много терминов и понятий: Индустрия 4.0, Промышленность 4.0, Цифровая трансформация. Даже наша повседневная жизнь генерирует целое цунами данных. Они идут из мобильных телефонов, систем домашней безопасности и климатического контроля. Информация, которая собирается с портативной электроники, также достигает критической массы. Это приводит к повышению риска утечек данных, их нецелевому использованию и злоупотреблениям со стороны бизнеса, который их хранит. Чтобы защитить данные уже был введён регламент GDPR и множество других правовых инициатив по защите данных. Но дискуссия о защищённости Big Data снова и снова возобновляется с каждой новой утечкой. А значит, снова и снова поднимаются вопросы о том, насколько вообще сбор и обработка данных нужны бизнесу. При этом мало говорят о том, что Big Data уже приносит очень большую пользу компаниями, которые научились правильно с ними работать.

Зачем нужны сбор и обработка данных IoT?

Некоторые организации активно собирают данные с портативных устройств, которые носят сотрудники. Это помогает контролировать показатели здоровья персонала и улучшать безопасность. Всё больше устанавливается датчиков IoT на промышленное оборудование. Данные с них помогают измерять показатели с промышленных роботов и мониторить линии производства в реальном времени. Также компании могут следить за оборудованием во время его работы, чтобы понять ухудшается ли его эффективность при изменении факторов окружающей среды. Среди таких факторов – температура, наличие крена, влажность, давление, географическое положение. Ещё одна область, где можно использовать сбор и обработку данных с сенсоров на оборудовании – конструкторская деятельность. Организация может собрать информацию о работе тестируемого устройства в естественных условиях, а также – в искусственно контролируемых условиях. Анализ такой информации поможет выделить коренные причины поломок, если они произойдут во время процедуры оценки качества нового оборудования. Возможно, вы уже знакомы с сервисом «сбой-как-услуга» (failure-as-a-service). Это оценка ущерба и последствий от сбоев в работе, а также моделирование и предсказание таких сбоев. Внедрение интернета вещей позволило этому сервису выйти на новый уровень. Текущий виток развития я бы назвал «сбой-как-услуга 2.0». Новая версия сервиса способна эффективнее оповещать бизнес о том, при каких сценариях возможен сбой в работе устройства. Продвинутые алгоритмы машинного обучения помогают предсказывать поломки в будущем и решить проблему до её возникновения. Это позволяет снизить число незапланированных простоев и работать с максимальной продуктивностью.

Как сделать сбор и обработку данных IoT эффективнее?

Чтобы эффективно использовать Big Data, организациям нужно перестать относить сбор и обработку данных с сенсоров IoT к уровню одного завода, исследования или отдела. Бизнес должен научиться работать с Big Data стратегически, на уровне нескольких компаний и в долгосрочной перспективе. Также нужно разработать гибкую методологию быстрого получения результата от тестирования. Это поможет не тратить ресурсы на безрезультативное тестирование. Нужно учиться избегать случаев, когда данные нового теста показывают те же результаты, что и предыдущего. В компании должно быть центральное хранилище данных, возможно, Hadoop. Разработчики, инженеры и аналитики должны буду работать в нём совместно. В частности, искать там данные, комбинировать, комментировать их, добавлять новые, повторно использовать те, с которыми они работали ранее. Что ещё важнее – это способность обеспечить доверие к результатам анализа данных. Достичь этого можно благодаря коллективной проверке данных, при которой будут учитываться уже имеющиеся комментарии к ним и их первоначальный линедж. Если вы обеспечиваете надёжные данные с датчиков в контексте другой достоверной «базовой» информации, вы сможете принимать на её основе более эффективные решения. «Базовая информация» включает в себя образование и квалификацию персонала, который установил оборудование и сенсоры, модель, серийный номер и производителя оборудования, его местонахождение, условия, в которых оно находилось во время установки, работы и тестирования. Эффективная обработка данных подразумевает и обеспечение их высокого качества. Почему качество данных имеет большое значение для интернета вещей и как его обеспечить, читайте в другой статье блога.

Главный залог успеха – делиться данными

Прошли те времена, когда целые команды квалифицированных инженеров и технических специалистов тратили целые дни и недели на установку датчиков. А также – на их калибровку, тестирование, ожидание результатов. А в итоге оказывалось, что наборы данных не имеют значения для бизнеса или очень похожи на те, которые были собраны во время прошлого теста, о котором они не знали. Инженеры сейчас могут работать совместно со своими коллегами из бизнес-подразделений. Когда показания датчика говорят о необходимости что-то поменять, они могут обсудить это друг с другом. Сделать это можно будет, принимая во внимание исторические тестовые данные, которые хранятся в архиве. Компания должна активно делиться собранными данными с инженерами, поставщиками, клиентами. А иногда выгодно делиться и с конкурентами! Совместная работа с конкурентами часто позволяет получить новые инсайты по рынку. Это позволяет совместно улучшить категорию продукта и снизить влияние макроэкономических факторов, например эмиссии денежных средств. Обмен данными также можно монетизировать и создать дополнительный поток прибыли для своей организации. Успешный сбор и обработка данных IoT – конкурентное преимущество для любой компании. Они влияет не только на операционную деятельность, но и на изменения в конструкции оборудования, тестирования его сбоев, обучение специалистов, перестройке, регулятивной отчётности. А главное – удовлетворённость клиента, неважно внутри компании или снаружи.

Рекомендуем также

Tinkoff Bank innovates at a lower cost

24 февраля 2018

Рекомендуем также