Дистрибуция и внедрение инновационных продуктов и решений для корпоративного сектора от лидеров мирового ИТ-рынка

Big Data Edition

Компания Informatica существенно расширила возможности интеграционной платформы PowerCenter, включив в нее пакет инструментов по работе с распределено-вычислительными  системами под управлением технологии Hadoop.

Пакет PowerCenter Big Data Edition включает в себя необходимый набор инструментов по работе с кластером Hadoop и обеспечивает расширенные возможности обработки данных на кластере, что позволяет легко интегрировать Hadoop в существующую инфраструктуру компании и существенно сократить сроки и затраты на его внедрение.

К наиболее интересным функциональным возможностям PowerCenter Big Data Edition относятся:

  • чтение и запись данных на кластер Hadoop;
  • обработка данных на кластере без ручного кодирования;
  • профилирование данных на кластере;
  • обеспечение качества данных на кластере;
  • централизованный мониторинг заданий на кластере;
  • обработка неструктурированных данных;
  • поддержка основных дистрибутивов Hadoop.

Чтение и запись данных на кластер

PowerCenter Big Data Edition включает в себя коннектор Informatica к Hadoop, который позволяет осуществлять как чтение, так и запись данных на кластер Hadoop, обеспечивая таким образом интеграцию Hadoop и текущей инфраструктуры.

При этом коннектор обеспечивает работу со следующими типами источников и приемников данных на стороне Hadoop:

  • файлы HDFS (Hadoop Distributed File System);
  • таблицы Hive.

Важной особенностью является то, что коннектор позволяет работать со сжатыми данными, находящимися на кластере Hadoop, что в ряде случаев позволяет организовать хранение обработку данных более эффективно.

Обработка данных на кластере

PowerCenter Big Data Edition позволяет обрабатывать данные на кластере без ручного написания программ MapReduce. Для обработки данных ваши разработчики не должны знать Java и хорошо понимать принципы парадигмы или разбираться в тонкостях и ограничениях языка HiveQL.

Разработка  процессов выполняется в хорошо знакомой визуальной среде Informatica PowerCenter, а запуск процессов может осуществляться как в среде Informatica, так и на кластере Hadoop.

При запуске процесса на кластере Hadoop разработанные маппинги автоматически преобразовываются в запросы Hive и выполняются в Hive-среде. Таким образом, обработка данных в Hadoop может производиться без какого-либо кодирования руками.

Профилирование данных на кластере

В Big Data Edition включены полнофункциональные возможности по профилированию данных в Hadoop, что позволяет быстро оценить качество данных, загруженных на кластер.

Профилирование данных, находящихся на кластере (HDFS или Hive), настраивается с помощью привычного интерфейса всего за несколько минут и выполняется в Hive-среде. Генерация всех необходимых запросов Hive при этом осуществляется автоматически. Результатом профилирования является набор стандартных отчетов DataQuality.

Обеспечение качества данных на кластере

Для обеспечения качества данных, загружаемых или обрабатываемых на кластере, в Big Data Edition включена поддержка трансформаций DataQuality, которые могут быть использованы в процессе обработки данных.

Качество данных может обеспечиваться как перед загрузкой данных в Hadoop, так и при непосредственной обработке данных на самом кластере. В этом случае процесс отрабатывает в Hive-среде, а генерация соответствующих запросов Hive также выполняется автоматически.

Централизованный мониторинг заданий

Big Data Edition позволяет осуществлять централизованный мониторинг заданий Informatica на кластере Hadoop. С помощью данного интерфейса удобно отслеживать состояние заданий, получать дополнительную информацию или, например, просматривать выполняющиеся Hive-запросы.

Обработка неструктурированных данных

Для обработки неструктурированных или полу-структурированных данных в Big Data Edition включена возможность использования специализированного инструмента Informatica Data Transformation.

Данный инструмент позволяет в визуальной среде создавать различные проекты по обработке данных, направленные на их преобразование к структурированному виду. Созданные трансформации могут быть автоматически преобразованы в MapReduce и выполнены на кластере без написания кода вручную.

Поддержка основных дистрибутивов Hadoop

Коннектор Informatica поддерживает наиболее стабильные сборки Hadoop от таких поставщиков как Cloudera и Apache:

  • Cloudera CDH3U3;
  • Cloudera CDH3U4;
  • Cloudera CDH3U5;
  • Apache Hadoop 0.20.205;
    • Apache Hadoop 1.0.3.

Основные преимущества  Big Data Edition

Платформа Informatica PowerCenter является признанным лидером в области интеграции данных. Новые возможности Big Data Edition позволяют легко и эффективно интегрировать решение, основанное на технологии Hadoop, в любую инфраструктуру.

Использование программного пакета Big Data Edition и технологии Hadoop позволяет получить следующие преимущества:

  • снизить инфраструктурные затраты на хранение и обработку больших объемов данных;
  • существенно снизить время и затраты на внедрение Hadoop и его интеграцию с текущими информационными системами;
  • существенно сократить время и затраты на разработку необходимых процессов по обработке данных на кластере;
  • обеспечить доступность и качество данных, хранящихся на кластере;
  • снизить затраты на сопровождение и поддержку решения.