ETL-процессы VS анархия. Что выбрать?
В хранилищах данных власть завоёвывают анархисты. Они призывают провести ИТ-революцию и избавиться от ETL-процессов и долгой, сложной и разрозненной интеграции. О том, почему не стоит идти у них на поводу и нужно внедрять демократию данных, а не анархию, рассуждает Мурти Матипракасам главный менеджер по продуктам в категории решений Big Data.
Кто такие анархисты в области данных и почему они против ETL-процессов?
Анархистов, призывающих к революции, всё больше. «Аналитикам нечего терять кроме кандалов», – считают они.
С появлением эффективных и легко масштабируемых платформ, таких как Hadoop, анархисты требуют «не использовать ETL-процессы и долгую, сложную и разрозненную интеграцию».
С одной стороны, призыв к революции может показаться интересным. Количество систем-источников растёт. CDO всё сложнее поддерживать централизованную организацию данных. Вместо традиционных ETL-процессов анархисты предлагают новый порядок, при котором данные перемещаются неконтролируемо. А CDO просто отрекается от своей обязанности управлять корпоративными данными как активом. Но те ETL-процессы, о которых говорят анархисты, сильно изменились за последнее время.
ETL-процессы значительно развились, их рано списывать со счетов
Анархисты застряли в прошлом. Они видят ETL-процессы такими, какими они были в 1999 году. Теперь же многое изменилось.
Ещё хуже то, что революционный подход отвлекает внимание от успешного опыта организаций, которым удалось эволюционно модернизировать свою работу с данными. Такие компании смогли организовать автономность аналитики и гибкость ИТ-отдела, при этом соблюсти все требования в области безопасности и управления данными. Большую роль в этом сыграли технологии работы с метаданными (данными о данных). Метаданные становятся всё важнее в мире больших объёмов неструктурированных данных и динамических схем.
Анархия в управлении данными – не выход. Выход – демократия
Так что же нужно организациям, чтобы установить демократию? Я предлагаю 7 рекомендаций, которые уже доказали свою эффективность у клиентов Informatica для успешной аналитики без анархии и хаоса.
Автоматический ввод данных
Автоматизируйте ввод данных с высокопроизводительными предустановленными коннекторами или технологиями обработки данных.
Такие эффективные и масштабируемые платформы, как Hadoop, позволяют данные в сыром формате без сложной обработки и настройки вручную. Инструменты легко справляются с такими задачами. При этом такой формат ввода данных позволяет обеспечить гибкость и скорость.
Разные группы данных
Разделите данные на разные группы в зависимости от того, для кого они предназначены. Data scientists может быть удобнее получить данные, очищенные только на 70%, но быстро. А BI-пользователи предпочтут подождать, пока данные не будут очищены на 100%. Такие группы можно создать на различных платформах (например, на Hadoop) с помощью инструментов профилирования данных и их валидации.
Блендинг данных
Дайте возможность потребителям данных самостоятельно комбинировать их из разных источников в дата-сеты– заниматься блендингом (Data Blending).
Теперь не обязательно, чтобы обеспечение качества данных было прерогативой ИТ-отдела. После первоначального очищения данных предоставьте другим специалистам (например, data scientists) прямой доступ к данным. А также – упрощённым инструментам Data Blending, чтобы они могли принимать активное участие в курировании данных.
Быстрое прототипирование и совместное курирование данных
Применяйте гибкое курирование данных, к которому подключено несколько специалистов и с быстрым прототипированием. Быстрые и успешные проекты всегда получаются благодаря совместной работе бизнес-пользователей и ИТ-отдела.
Инструменты для работы нескольких специалистов с возможностью быстрого прототипирования делают курирование данных гибким и позволяет быстро получать пользу.
Мониторинг качества данных
Применяйте мониторинг качества данных вместо их микроменеджмента. Обеспечение качества– это не чётко определённый процесс, который нужно одинаково использовать для всех данных.
Мониторинг, основанный на системе правил, и система оповещений позволяют ИТ-отделу гибко следить за процессами, которые происходят в данных, и совместно достигать наглядности качества данных.
Виртуализация данных и программа-брокер
Используйте виртуализацию (Data Virtualization) для улучшения доступности данных. Также для этой цели можно использовать программу-брокера.
До того, как станет ясно, какую ценность имеют данные, возможно, нет смысла перемещать их куда-то из системы-источника. Виртуализация данных может помочь обеспечить быстрый просмотр дата-сетов без их перемещения.
Когда ценность данных определена, перемещение данных и их курирование можно автоматизировать с помощью программы-брокера. Она будет автоматически вводить данные в один центр. В нём пользователи смогут подписаться на получение этих данных.
Каталог метаданных
Применяйте универсальный каталог метаданных для того, чтобы извлекать больше пользы из информации, которую храните.
Сейчас появились новые технологии, которые базируются на машинном обучении и графах. Их можно использовать, чтобы сделать предположение насчёт структуры, значения, ценности актива данных, рисков, связанных с ними. А также – чтобы передать эту информацию аналитикам и ИТ-специалистам для их большей автономии и улучшения управления данными и их защиты.
Стройте демократию!
Все эти рекомендации были подготовлены на основе опыта клиентов Informatica, которым удалось добиться успеха в области обеспечения доступности данных, их интеграции, миграции и ETL-процессов. Придерживаясь этих советов, вы добьётесь того, что правильные данные будут доступны в нужное время для сквозной, гибкой и надёжной аналитики. А это и есть основа для хорошо управляемой демократии.
Радж Патил (глава стратегии управления данными, архитектуры и поддержки принятия управленческих решений в BNY Mellon) недавно выступил на MIT CDO Симпозиуме. «Именно неуправляемая цифровая трансформация – причина хаоса, – рассказал он. – Я не предлагаю строить хранилище данных, в котором вам придётся моделировать весь окружающий мир. Выберете для себя один подход, который позволит вам эволюционировать по ходу дела. Например, онтологический подход. Наша цель здесь – создать схему данных для всей организации, которая будет поддерживать курирование данных, их безопасность, управление ими и так далее».
Анархисты в мире данных только создают хаос и превращают данные из актива в обузу. Успешные лидеры стараются использовать демократию.
Обновлено: 21.03.2023
Опубликовано: 08.11.2018