Как окупаются инвестиции в Apache Hadoop
Что такое Apache Hadoop и как он работает, вы можете узнать в статье Что такое Big Data? Азбука больших данных от А до Я.
О том, что делать, чтобы внедрение Apache Hadoop окупилась, рассказывает Питер Ку. В корпорации Informatica Питер отвечает за консалтинг в области решений для финансовой индустрии. Эксперт помогает компаниям банковского и финансового рынка эффективно применять данные и решения управления ими для выполнения различных бизнес-задач. Среди этих задач – соответствие требованиям регуляторов и улучшение клиентского опыта.
Big Data стала мейнстримом, а Apache Hadoop начал широко применяться
Теперь всё реже можно услышать вопрос «Что такое Big Data?» и всё чаще – «Как мы можем с максимальной эффективностью использовать Big Data для решения конкретных бизнес-задач?». Кажется, что с большими данными сейчас работают все. Одни компании предлагают программное обеспечение для предиктивной аналитики «нового поколения» в традиционных базах данных. Другие — для обеспечения качества данных, для их интеграции, для Business Intelligence. Каждая организация считает, что именно она играет ключевую роль в работе с Big Data. Правда же в том, что важные роли играет каждая из них.
Но самое восторженное отношение сейчас – к Apache Hadoop и его экосистеме. Обусловлено это тем, что первопроходцы, которые экспериментировали с версиями этого решения в open source, быстро выросли до масштаба внедрения промышленных решений уровня организации. Apache Hadoop сейчас предлагают Cloudera™, HortonWorks™, MapR™ и Amazon’s RedShift™.
Apache Hadoop окупается благодаря своей архитектуре
Apache Hadoop быстро и дешево обрабатывает большие объёмы данных за счёт распределённой архитектуры. Все операции в нём осуществляются на отдельных недорогих серверах. В самом Apache Hadoop нет нативных инструментов для аналитики или Business Intelligence. Модели для них запускаются аналитиками и data scientists с помощью специальных приложений, которые могут работать в среде Apache Hadoop.
Только результаты анализа извлекаются в отдельное хранилище для использования решениями Business Intelligence, управления кампаниями, систем отчётности. Такой механизм ускоряет предоставление данных и сокращает затраты на вычисления и работу моделей по сравнению с традиционной архитектурой хранилища.
Apache Hadoop окупается, когда активно используется для бизнес-задач
Apache Hadoop позволяет компаниям решать целый ряд реальных бизнес-задач, выполнить которые было бы сложно с помощью традиционных инструментов. На основе больших данных в Apache Hadoop можно выявлять фрод (мошенничество в области информационных технологий) в финансовом секторе и электронной торговле. Для этого анализируется информация из журнала регистрации вызовов, социальные данные, данные по оплатам и транзакциям за всё время.
Анализ клиентских настроений в телекоме и здравоохранении позволяет определить клиентов, которые с большой вероятностью перейдут к конкуренту. Это можно сделать с помощью интеграции транзакционных данных и информации о взаимодействии компании и клиента в реальном времени. Также с помощью больших данных можно повысить качество риск-менеджмента во всей организации. Для этого нужно консолидировать данные о рисках по кредитам, на рынке и в операционной деятельности и анализировать их.
Apache Hadoop окупается благодаря дополнительным инструментам
Безусловно, Apache Hadoop открывает перед бизнесом широкие возможности. Но реализовать их можно, только если у компании есть эффективные и масштабируемые инструменты для интеграции Big Data и обеспечения их качества. Инструменты должны подходить для всех трёх главных признаков больших данных: больших объёмов, скорости и многообразия. Давайте начнём с того, как переместить Big Data на Apache Hadoop. При том, что сейчас увеличиваются не только объёмы данных, но и число систем-источников, которые эти данные генерируют.
Данные в разных форматах, с разной структурой и типами должны быть трансформированы, форматированы и валидированы перед загрузкой в Apache Hadoop. Интеграция данных с использованием нативных языков программирования Hadoop (PIG, MapReduce и другие) требует привлечения разработчиков, которые владеют такими языками. Может быть непросто найти подобных специалистов из-за их высокой стоимости и долгого цикла проектов. Помочь в такой ситуации смогут промышленные инструменты, которые автоматизируют интеграцию данных. Кроме того, качество и достоверность данных играет большое значение и тогда, когда data scientists и аналитики начинают запускать на них свои модели. Как говорится в одной известной пословице, «что посеешь, то и пожнёшь». Можете спросить любого data scientist или аналитика, на что они тратят большую часть своего времени. Скорее всего, они ответят, что на то, чтобы обеспечить качество данных для своих моделей и аналитики.
Исследование Elder Research показало, что аналитики и data scientists тратят от 60% до 80% процентов рабочего времени на очищение и подготовку тех данных, которые предоставили им ИТ-специалисты. В течение многих лет обеспечение качества данных остаётся одним из главных приоритетов бизнеса. Но несмотря на это, многие и большим, и маленьким компаниям не хватает отлаженных процессов и технологий для того, чтобы автоматизировать обнаружение, фиксацию и мониторинг процессов обеспечения качества данных из систем-источников, которые генерируют данные для аналитики, BI, применения для бизнес-целей. Пока эта проблема не решена, сложно добиться и окупаемости Apache Hadoop. Сейчас большие данные используют все шире, всё шире используется и Apache Hadoop. Для того, чтобы эта технология работала эффективно и приносила реальную прибыль, необходимы решения по интеграции данных и обеспечению их качества.
Обновлено: 21.03.2023
Опубликовано: 15.10.2018