Top.Mail.Ru

5 критериев для Apache Hadoop при построении Data Hub

О том, каким должен быть ваш Apache Hadoop для построения на нём корпоративного Data Hub, рассказывает Дейл Ким, директор по индустриальным решениям в MapR Technologies. MapR Technologies – партнёр Informatica. Компания предлагает целый ряд решений для работы с Big Data, доработок Apache Hadoop и другое.

Сейчас Apache Hadoop всё чаще используется для построения корпоративного Data Hub (EDH). Data Hub отличается и от хранилищ данных, и от озёр. EDH расширяет и оптимизирует модель традиционного хранилища, добавляя в неё технологии Big Data. Он позволяет сфокусироваться на самых ценных данных в компании. А те данные, которые используются реже всего, перемещает на отдельную платформу. Data Hub также агрегирует данные из источников, которые ранее не использовались. А это в свою очередь создаёт более полную картину собранной в компании информации.

Внедряете Data Hub? Но готов ли к этому ваш Apache Hadoop?

Итак, вы всё подготовили для внедрения корпоративного Data Hub: существующие хранилища, аналитические инструменты. Но готов ли ваш Apache Hadoop? Вот список критериев для проверки такой готовности:

  • Требования корпоративной среды
  • Совместимость
  • Коллективное использование
  • Безопасность
  • Операционные требования

Давайте разберём каждый критерий в отдельности.

Корпоративная среда

Корпоративная среда подразумевает, что любая система должна быть отказоустойчивой, способным к восстановлению после аварий, обеспечивать защиту данных. Отказоустойчивость позволяет системе работать даже тогда, когда происходит сбой в её компонентах (отдельные компьютеры, роутеры, блоки питания). По отношению к Apache Hadoop этот значит, что не должно быть никаких простоев и потерь данных. Если в узле кластера происходит сбой, вы же всё равно хотите, чтобы все процессы были доведены до конца. Сохранить данные при аварийной ситуации можно с помощью удалённой репликации (зеркального отражения данных). Для продуктивной среды работы с данными она эффективнее, чем резервное копирование (backup). Чтобы восстановление информации прошло успешно, удалённая репликация должна быть всеобъемлющей.

Кроме того, восстановить данные после повреждений позволяют снэпшоты (моментальные снимки). Особенно если повреждения вызваны пользователями и или ошибкой в работе приложения. Так же, как и удалённая репликация, создание снэпшотов должно быть целостными и полно отображать данные до сбоя. К сожалению, не все дистрибутивы Apache Hadoop позволяют реализовать все указанные возможности. Поэтому перед построением Data Hub, проверьте, есть ли они в вашем кластере.

Совместимость

Очевидно, что экосистема Apache Hadoop должна быть совместима со другими приложениями, которые работают с данными. Файловая система с доступом к NFS, которая соответствует POSIX, позволяет использовать установленные ранее приложения, основанные на файловой системе, для данных Apache Hadoop. Поддержка существующих инструментов позволит разработчикам легко включиться в работу. А интеграция с REST API обеспечивает лёгкое соединение с другими системами.

Коллективное использование

У вас должна быть возможность логически разделить кластеры для разных кейсов, типов работ, групп пользователей и администраторов, если это нужно. Чтобы не созвать сложную конструкцию из нескольких кластеров, выбирайте дистрибутив Apache Hadoop c возможностью коллективного использования. Это упростит архитектуру, уменьшит риск ошибок, дублирования данных и усилий.

Безопасность

Защита конфиденциальных данных от утечек должна быть главным приоритетом. Перед построением EDH ужно оценить, как у вас обстоят дела с аутентификацией (например, используется ли Kerberos?), авторизацией (хорошо ли контролируется доступ к разным данным?), шифрованием и аудитом. Некоторые из этих функций можно выполнить с помощью нативных инструментов дистрибутивов Apache Hadoop, другие – с помощью решений сторонних вендоров.

Читайте подробнее об инструментах обеспечения безопасности в экосистеме Apache Hadoop.

Операционные требования

Любое крупномасштабное внедрение требует возможности быстро читать, записывать данные и обновлять функциональные возможности. Apache Hadoop может поддерживать операционные требования EDH с помощью интегрированных баз данных Apache HBase™, Accumulo™ или MapR-DB (MapR NoSQL база данных). Такие модели в целом помогают упростить архитектуру будущего Data Hub.

Эффективный Apache Hadoop – эффективный EDH

Использование Apache Hadoop для создания Data Hub – это прекрасная возможность для бизнеса. А правильный выбор дистрибутива кластера – ключ к эффективному EDH. Хотите, чтобы экосистема Apache Hadoop соответствовала высоким ожиданиям, которые предъявляются к корпоративной системе? Позаботьтесь, чтобы кластер соответствовал и требованиям к ней.

Ещё размышляете, нужно ли вам внедрять экосистему Apache Hadoop? Читайте о том, как окупаются инвестиции в него.



Поделиться
{{ responsive_img( url='/../../static/upload/news/detail-image.jpg',lazy=true, img_attrs={ class: "img-fluid lazy" }, formats=['webp'] ) }}

Рассылка новостей

    Продолжая пользоваться сайтом, вы даёте Согласие на автоматический сбор и анализ ваших данных, необходимых для работы сайта и его улучшения, использование файлов cookie.