Дистрибуция и внедрение инновационных продуктов и решений для корпоративного сектора от лидеров мирового ИТ-рынка

Hadoop

Файлы для скачивания
Технология Hadoop от DIS Group

Что такое технология Hadoop

Технология Hadoop представляет собой программный framework, позволяющий хранить и обрабатывать данные с помощью компьютерных кластеров, используя парадигму MapReduce. Данный подход позволяет построить высокопроизводительный кластер на базе low-end или middle-end серверов, что обеспечивает существенно более низкую стоимость решения по сравнению с одним высокопроизводительным сервером.

В основе технологии лежит распределённая файловая система HDFS (Hadoop Distributed File System), которая обеспечивает хранение данных Hadoop сразу на нескольких узлах кластера. Таким образом, если один или несколько узлов кластера выходят из строя, то риск потери информации сводится к минимуму и кластер продолжает работу в штатном режиме.

Вторым важным элементом Hadoop является MapReduce – framework для вычисления распределенных задач. В соответствии с подходом MapReduce обработка данных состоит из двух шагов: Map и Reduce. На шаге Map выполняется предварительная обработка данных, которая осуществляется параллельно на различных узлах кластера. На шаге Reduce происходит сведение предварительно обработанных данных в единый результат.

Применение технологии Hadoop

Технология Hadoop применяется в таких  информационных гигантах как Google, Facebook или Amazon, которые оперируют петабайтами данных. За пределами Интернет среды технология может применяться, прежде всего, в Телекоме и в Финансовом секторе, где также присутствуют большие объемы данных.

Прежде всего, технология применяется для анализа накопленных данных, а также данных, полученных из дополнительных источников, таких как Социальные сети, Интернет, архивы данные информационных систем и т.д. Hadoop позволяет не только сократить время на обработку и подготовку данных для аналитических систем, но и существенно расширяет возможности по анализу, позволяя оперировать новой информацией, слабоструктурированными или совсем неструктурированными данными.

Технология также используется для оптимизации существующих процессов обработки данных, позволяет существенно сократить затраты на хранение и обработку и при этом обеспечить эффективность работы с данными.

Опыт и экспертиза DIS Group

Компания DIS Group развивает направление по внедрению технологий класса Big Data, и в частности технологии Hadoop. Специалисты компании прорабатывают различные решения в данной области, включая детальную проработку технических аспектов применения технологий и позиционирования их в инфраструктуре заказчиков.

Специалисты компании DIS Group прошли обучение и сертификацию в учебном центре Cloudera (Германия), получив знания и практический опыт в области разработки решений на платформе Hadoop.

На текущий момент в компании создана рабочая группа из шести разработчиков и аналитиков, а также развернут многофункциональный стенд, на котором проводится проработка подходов по применению данной технологии для различных задач для финансового сектора и Телекома.

Полученные опыт и наличие внутреннего стенда позволяют компании тиражировать накопленные знания и при необходимости быстро увеличить команду разработчиков Hadoop.

Преимущества решения на базе Hadoop

Решения, построенные на базе технологии Hadoop, обладают рядом существенных преимуществ. Основные преимущества приведены ниже в таблице 3.

Таблица 3

Преимущества решения на базе Hadoop

Преимущество

Краткое описание

Снижение времени на обработку данных

При обработке данных на кластере можно существенно сократить время на обработку данных.

Снижение стоимости оборудования

Применение технологии Hadoop позволяет сократить затраты на оборудование, требуемое для хранения и обработки данных, в десятки раз.

Повышение отказоустойчивости

Технология позволяет построить отказоустойчивое решение. Выход из строя одного или нескольких узлов кластера влияет только на производительность системы, при этом система продолжает корректно работать и предоставлять сервис конечным пользователям.

Линейная масштабируемость

Решение позволяет наращивать производительность просто за счет добавления новых узлов кластера. При этом производительность кластера возрастает линейно.

Работа с неструктурированными данными

Технология позволяет осуществлять сложную обработку любых файлов, в том числе неструктурированных, благодаря чему такие данные могут быть эффективно обработаны и использованы.