Все готовят данные для загрузки в Apache Hadoop
Открою секрет: почти каждая компания, которая использует Apache Hadoop, имеет процессы, стандарты, инструменты и сотрудников для профайлинга данных, их очищения, обогащения и валидации. В мире корпоративных Big Data схемы данных и метаданные всё ещё имеют большое значение. Поделюсь несколькими примерами. На конференции Strata+HadoopWorld выступал сотрудник большой компании, которая занимается программным обеспечением. Его команда отвечает за подготовку данных. Он описал, как его организация собирает данные из различных источников с использованием стандартной схемы для всех данных, которые поступают в озеро Apache Hadoop. Когда данные собраны, его команда профилирует, очищает, обогащает и валидирует их. Это нужно, чтобы у аналитиков был доступ к данным высокого качества.
Ещё один специалист описал, как внутренние команды по работе с данными должны были конвертировать данные в формат Avro перед загрузкой в озеро данных. Формат Avro – новый формат данных, который используется наряду с ORC, Parquet и JSON). Один из data engineer (инженер по данным) из крупной компании рассказал о создании специального комитета по управлению изменениями в схемах и структурах данных. Ещё один участник конференции – корпоративный архитектор одного из крупнейших операторов связи. Он объяснил, что схема данных имеет большое значение для соответствия требованиям конфиденциальности. Поэтому данные маскируются перед тем, как поступают аналитикам. Отмечу, что эти компании не просто переносят CRM и ERP в Apache Hadoop. Они собирают данные с сенсоров, которые носят пациенты, файлы логов, данные типа «событие», сведения о посещениях. И для каждого из этих типов информации подготовка данных – главная задача.