Top.Mail.Ru

6 категорий решений для защиты Big Data в Apache Hadoop

Как защитить конфиденциальную и чувствительную информацию в Apache Hadoop, рассказывает Клаудия Чандра, вице-президент по продуктовому менеджменту корпорации Informatica.

Если вы не знаете, что такое Apache Hadoop, читайте статью Что такое Big Data? Азбука больших данных от А до Я. Часть 1 . Если вы сомневаетесь, нужно ли защищать данные, читайте статью Защита данных по GDPR: пугаться или радоваться? Часть 1

В последние годы был сделан значительный шаг вперёд в области безопасности Big Data в среде Apache Hadoop. Свои решения предлагают и дистрибутивы (Hortonworks и Clouderra), и независимые вендоры (например, Informatica). Сейчас на рынке доступны инструменты для Apache Нadoop в следующих категориях:

  • Выявление чувствительных данных и их классификация;
  • Анализ распространения и перемещения чувствительных данных;
  • Аутентификация;
  • Авторизация;
  • Продвинутая защита данных;
  • Аудит;
  • Аналитика чувствительных данных и их классификация;

Давайте подробнее остановимся на каждой категории.

Выявление чувствительных данных и их классификация для Apache Hadoop

Informatica Secure@Source автоматизирует выявление и классификацию чувствительной информации в Hive. Также решение позволяет определить уровень защищённости такой информации.

Анализ распространения и перемещения чувствительных данных для Apache Hadoop

Чем шире распространяются чувствительные данные, тем они уязвимее и выше риск их утечки. Informatica Secure@Source анализирует распространение и перемещение чувствительной информации через Informatica Big Data Integration и Big Data Management в и из Hive. В будущем решение также сможет интегрировать такую информацию из Cloudera Navigator.

Аутентификация для Apache Hadoop

За аутентификацию в Hadoop обычно отвечает Kerberos. Кроме того, Apache Knox обеспечивает централизованную аутентификацию для всех сервисов Apache Hadoop. Он интегрируется с LDAP, Active Directory и Identity Management / Cloud Single-Sign On. Apache Knox покрывает Hive, Hbase, HDFS, Oozie и Hcat.

Авторизация для Apache Hadoop

В Apache Hadoop доступно множество уровней авторизации. Авторизацию на уровне сервиса обеспечивает Apache Knox. Apache Sentry – контроль доступа на уровнях сервера, базы данных, таблицы и типа доступа (возможность просматривать, выбирать, трансформировать) в соответствии с ролью пользователей. Решение работает с Hive и Impala.

Cloudera выводит на рынок RecordService для усиления более точного (на уровне столбца и строчки) унифицированного контроля доступа для всех платформ по хранению Big Data (включая HDFS, HBase) и вычислительных – Spark, MapReduce, Hive и Impala.  RecordService усиляет безопасность на тракте считывания и уточняет разрешения, которые дал Apache Sentry.

Apache Ranger обеспечивает центральное управление политиками для контроля доступа к файлам, папкам, базам данных, таблицам, столбцам на HDFS, Hive и Hbase, Knox, Solr, Kafka, и YARN. Ranger поддерживает многие методы авторизации, включая доступ на основе ролей и – на основе атрибутов.

Продвинутая защита для Apache Hadoop

Cloudera предлагает шифрование на основе файлов как часть Navigator для защиты HDFS-файлов, записей HBase, метаданных Hive и аудита логов. Система управления ключами к шифрованию доступна как часть Cloudera Security.

Hortonworks предлагает шифрование данных HDFS и систему управления ключами в Apache Ranger.

Informatica Big Data Management посредством Informatica Persistent Data Masking маскирует чувствительную информацию Hive и текстовые файлы, при этом сохраняя их первоначальные характеристики для тестирования и аналитики. Данные могут быть замаскированы во время миграции в Apache Hadoop или уже на кластере, когда они уже туда загружены.

Аудит в Apache Hadoop

Дистрибутив Cloudera обеспечивает аудит доступа к данным на HDFS, Impala, Hive, HBase и Sentry с помощью своего решения Navigator.

Hortonworks поддерживает аудит изменений политик и доступа к Big Data в HDFS, HBase, Hive с помощью Knox, Kafka, Yarn, Solr, Storm через Ranger.

Аналитика чувствительных данных и их классификация в Apache Hadoop

Informatica Secure@Source обеспечивает информацию о наличии чувствительных данных, их объёме, статусе защиты, уровне распространения, числу сотрудников, которые имеют к ним доступ, сотрудников, которые действительно используют их и стоимость риска утечки. Это помогает подсчитать уровень риска для отдельного хранилища, региона, департамента.

Также Secure@Source определяет массивы данных и группы пользователей с самым большим риском, чтобы установить приоритет усилий для защиты Big Data. Решение также обнаруживает условия повышенного риска. Например, когда чувствительные данные перемещаются из страны, где их безопасность строго регулируется, или когда доступ к данным получает пользователь не из той страны, где они хранятся. С Secure@Source организации получают полную картину того, как обстоят дела с чувствительными Big Data в масштабах всей компании.

Защита данных становится ключевым элементом среды Apache Hadoop. Новые инструменты уже сейчас позволяют решать многие задачи. При этом они продолжают развиваться и в будущем планируется внедрить новые функциональные возможности. Самостоятельно разобраться с экосистемой Apache Hadoop и оптимальными для неё инструментами пока не получается? Обращайтесь за помощью к специалистам DIS Group, которые одними из первых в России начали работать с этой экосистемой.



Поделиться
{{ responsive_img( url='/../../static/upload/news/detail-image.jpg',lazy=true, img_attrs={ class: "img-fluid lazy" }, formats=['webp'] ) }}

Рассылка новостей

    Продолжая пользоваться сайтом, вы даёте Согласие на автоматический сбор и анализ ваших данных, необходимых для работы сайта и его улучшения, использование файлов cookie.