Apache Hadoop окупается благодаря дополнительным инструментам
Безусловно, Apache Hadoop открывает перед бизнесом широкие возможности. Но реализовать их можно, только если у компании есть эффективные и масштабируемые инструменты для интеграции Big Data и обеспечения их качества. Инструменты должны подходить для всех трёх главных признаков больших данных: больших объёмов, скорости и многообразия. Давайте начнём с того, как переместить Big Data на Apache Hadoop. При том, что сейчас увеличиваются не только объёмы данных, но и число систем-источников, которые эти данные генерируют.
Данные в разных форматах, с разной структурой и типами должны быть трансформированы, форматированы и валидированы перед загрузкой в Apache Hadoop. Интеграция данных с использованием нативных языков программирования Hadoop (PIG, MapReduce и другие) требует привлечения разработчиков, которые владеют такими языками. Может быть непросто найти подобных специалистов из-за их высокой стоимости и долгого цикла проектов. Помочь в такой ситуации смогут промышленные инструменты, которые автоматизируют интеграцию данных. Кроме того, качество и достоверность данных играет большое значение и тогда, когда data scientists и аналитики начинают запускать на них свои модели. Как говорится в одной известной пословице, «что посеешь, то и пожнёшь». Можете спросить любого data scientist или аналитика, на что они тратят большую часть своего времени. Скорее всего, они ответят, что на то, чтобы обеспечить качество данных для своих моделей и аналитики.
Исследование Elder Research показало, что аналитики и data scientists тратят от 60% до 80% процентов рабочего времени на очищение и подготовку тех данных, которые предоставили им ИТ-специалисты. В течение многих лет обеспечение качества данных остаётся одним из главных приоритетов бизнеса. Но несмотря на это, многие и большим, и маленьким компаниям не хватает отлаженных процессов и технологий для того, чтобы автоматизировать обнаружение, фиксацию и мониторинг процессов обеспечения качества данных из систем-источников, которые генерируют данные для аналитики, BI, применения для бизнес-целей. Пока эта проблема не решена, сложно добиться и окупаемости Apache Hadoop. Сейчас большие данные используют все шире, всё шире используется и Apache Hadoop. Для того, чтобы эта технология работала эффективно и приносила реальную прибыль, необходимы решения по интеграции данных и обеспечению их качества.