Хотите извлекать пользу из Apache Hadoop? Грузите в него подготовленные данные
О том, почему нужно готовить данные для загрузки в Apache Hadoop и как это сделать, рассказывает Мёрти Матипракасам. Мёрти – главный менеджер по маркетингу продуктов Big Data. Эксперт обладает более 15 годами опыта работы в области ИТ, включая такие компании как Mercury Interactive, Google, eBay, VMware и Oracle.
Хранилище останется, в дополнение к нему – Apache Hadoop
Традиционная система хранилища и реляционные базы данных по-прежнему широко используются. Компании не спешат отказываться от них. Особенно когда речь идёт о формировании отчётности и применении Business Intelligence. В этой области сейчас ничто не предвещает перемен.
При этом экосистема Apache Hadoop активно развивается. Вычислительные ресурсы работают всё быстрее. Хранение данных становится дешевле. Появляются новые методы поиска, обработки и анализа данных. Все эти инновации организации активно применяют, чтобы стать эффективнее, более конкурентоспособными и быстрее реагировать на нужды клиентов. Такое развитие мотивирует всё новые компании внедрять у себя Apache Hadoop.
Анализ важнее экономии
По моему мнению, у Apache Hadoop есть два основных преимущества. Он даёт возможность снизить затраты. Хранение и обработка данных в нём дешевле, чем в хранилище. Хотите знать почему? Читайте статью «Как окупаются инвестиции в Apache Hadoop». Кроме того, он позволяет обрабатывать совершенно новые источники данных. В том числе те, которые собираются с сенсоров IoT. Для этого организуются озёра данных на Apache Hadoop – вспомогательная для хранилища данных среда.
Давайте честно посмотрим на вещи. Представим, стоит выбор между экономией на хранении и обработке и возможностью начать анализировать новые источники данных. Несомненно, второе звучит заманчивее. Именно вторая возможность и мотивировала появление новых ролей, таких как data scientists и новых инструментов визуализации для самообслуживания. В мире вездесущей аналитики главное преимущество Apache Hadoop в том, что он – дешёвая временная песочница для data scientists. Они выгружают в него исторические данные из различных систем-источников и проводят их исследовательский анализ. По мере сбора новые данные могут постоянно подгружаться в Apache Hadoop. Он не проверяет их схему, структуру при загрузке (Apache Hadoop – платформа «schema-on-read»). При необходимости SQL-технологии в среде Apache Hadoop, такие как Cloudera Impala, Hortonworks Stinger, Apache Drill и Pivotal HAWQ обеспечивают гибкий и повторяющиеся SQL-подобные запросы дата-сетов. А Tableu визуализирует данные и позволяет с ними самостоятельно работать.
Apache Hadoop не проверяет схему при загрузке, но не освобождает от подготовки данных
Революционные возможности Apache Hadoop безусловно выглядят воодушевляющими. Тем не менее такая среда данных нуждается в модернизации.
Организации не могут полагаться на методологию многократного неконтролируемого сброса данных в озеро. Это превращает озёра в болота. Неуправляемые «болота» данных не имеют практического значения для бизнеса. Чтобы обрабатывать данные как на конвейере и обеспечивать работу аналитических систем, среда Apache Hadoop должна быть чистой, целостной и гибкой. Загрузка корпоративных данных в Apache Hadoop вместо традиционного хранилища не освобождает от подготовки данных.
Все готовят данные для загрузки в Apache Hadoop
Открою секрет: почти каждая компания, которая использует Apache Hadoop, имеет процессы, стандарты, инструменты и сотрудников для профайлинга данных, их очищения, обогащения и валидации. В мире корпоративных Big Data схемы данных и метаданные всё ещё имеют большое значение. Поделюсь несколькими примерами. На конференции Strata+HadoopWorld выступал сотрудник большой компании, которая занимается программным обеспечением. Его команда отвечает за подготовку данных. Он описал, как его организация собирает данные из различных источников с использованием стандартной схемы для всех данных, которые поступают в озеро Apache Hadoop. Когда данные собраны, его команда профилирует, очищает, обогащает и валидирует их. Это нужно, чтобы у аналитиков был доступ к данным высокого качества.
Ещё один специалист описал, как внутренние команды по работе с данными должны были конвертировать данные в формат Avro перед загрузкой в озеро данных. Формат Avro – новый формат данных, который используется наряду с ORC, Parquet и JSON). Один из data engineer (инженер по данным) из крупной компании рассказал о создании специального комитета по управлению изменениями в схемах и структурах данных. Ещё один участник конференции – корпоративный архитектор одного из крупнейших операторов связи. Он объяснил, что схема данных имеет большое значение для соответствия требованиям конфиденциальности. Поэтому данные маскируются перед тем, как поступают аналитикам. Отмечу, что эти компании не просто переносят CRM и ERP в Apache Hadoop. Они собирают данные с сенсоров, которые носят пациенты, файлы логов, данные типа «событие», сведения о посещениях. И для каждого из этих типов информации подготовка данных – главная задача.
Много маленьких озёр данных впадают в озеро информации
Недавно я общался с представителем клиента Informatica – крупного финансового сервиса. Он недавно предложил внутри компании уникальную архитектуру использования Apache Hadoop. Несколько бизнесов компании построили для себя отдельные озёра в качестве песочниц на Apache Hadoop. В них могут работать небольшие команды data scientists. После этого, когда данные профилированы, очищены, обогащены и валидированы, они загружаются в более крупную структуру Apache Hadoop – корпоративное озеро информации. А в отличие от озёр данных озёра информации чистые, целостные и гибкие. Data Stewards (стюарды знаний, сотрудники, ответственные за данные на местах) озёр информации могут управлять метаданными и обеспечивать мониторинг линеджа данных из источника до песочницы, озера данных, финальной системы.
Озёра информации обладают таким же высоким качеством данных, как хранилище. Но в отличие от него, они обладают экономической эффективностью и масштабируемостью Apache Hadoop. Построить корпоративные озёра информации из озёр данных можно легко и быстро. Для этого нужны инструменты, которые перенесут маппинги данных из традиционной системы в Apache Hadoop. У них должны быть визуальные интерфейсы для разработки и нативные механизмы работы в Apache Hadoop. Лучше всего возможности корпоративного озера информации были описаны на конференции Strata+Hadoop World сотрудник крупной медицинской компании. «Большие данные кажутся привлекательными, но не менее привлекательны полные данные. Сейчас у нас много данных и мало информации». Схемы, структуры данных и метаданные сейчас играют большее значение, чем когда-либо. А с помощью инструментов по интеграции, подготовки данных и озёр информации компании могут открыть для себя путь к информационным богатствам.
Обновлено: 21.03.2023
Опубликовано: 21.11.2018