6 категорий решений для защиты Big Data в Apache Hadoop

Как защитить конфиденциальную и чувствительную информацию в Apache Hadoop, рассказывает Клаудия Чандра, вице-президент по продуктовому менеджменту корпорации Informatica.

12 октября 2018
Если вы не знаете, что такое Apache Hadoop, читайте статью Что такое Big Data? Азбука больших данных от А до Я. Часть 1 . Если вы сомневаетесь, нужно ли защищать данные, читайте статью Защита данных по GDPR: пугаться или радоваться? Часть 1 В последние годы был сделан значительный шаг вперёд в области безопасности Big Data в среде Apache Hadoop. Свои решения предлагают и дистрибутивы (Hortonworks и Clouderra), и независимые вендоры (например, Informatica). Сейчас на рынке доступны инструменты для Apache Нadoop в следующих категориях:
  • Выявление чувствительных данных и их классификация;
  • Анализ распространения и перемещения чувствительных данных;
  • Аутентификация;
  • Авторизация;
  • Продвинутая защита данных;
  • Аудит;
  • Аналитика чувствительных данных и их классификация;
Давайте подробнее остановимся на каждой категории.

Выявление чувствительных данных и их классификация для Apache Hadoop

Informatica Secure@Source автоматизирует выявление и классификацию чувствительной информации в Hive. Также решение позволяет определить уровень защищённости такой информации.

Анализ распространения и перемещения чувствительных данных для Apache Hadoop

Чем шире распространяются чувствительные данные, тем они уязвимее и выше риск их утечки. Informatica Secure@Source анализирует распространение и перемещение чувствительной информации через Informatica Big Data Integration и Big Data Management в и из Hive. В будущем решение также сможет интегрировать такую информацию из Cloudera Navigator.

Аутентификация для Apache Hadoop

За аутентификацию в Hadoop обычно отвечает Kerberos. Кроме того, Apache Knox обеспечивает централизованную аутентификацию для всех сервисов Apache Hadoop. Он интегрируется с LDAP, Active Directory и Identity Management / Cloud Single-Sign On. Apache Knox покрывает Hive, Hbase, HDFS, Oozie и Hcat.

Авторизация для Apache Hadoop

В Apache Hadoop доступно множество уровней авторизации. Авторизацию на уровне сервиса обеспечивает Apache Knox. Apache Sentry – контроль доступа на уровнях сервера, базы данных, таблицы и типа доступа (возможность просматривать, выбирать, трансформировать) в соответствии с ролью пользователей. Решение работает с Hive и Impala. Cloudera выводит на рынок RecordService для усиления более точного (на уровне столбца и строчки) унифицированного контроля доступа для всех платформ по хранению Big Data (включая HDFS, HBase) и вычислительных – Spark, MapReduce, Hive и Impala. RecordService усиляет безопасность на тракте считывания и уточняет разрешения, которые дал Apache Sentry. Apache Ranger обеспечивает центральное управление политиками для контроля доступа к файлам, папкам, базам данных, таблицам, столбцам на HDFS, Hive и Hbase, Knox, Solr, Kafka, и YARN. Ranger поддерживает многие методы авторизации, включая доступ на основе ролей и – на основе атрибутов.

Продвинутая защита для Apache Hadoop

Cloudera предлагает шифрование на основе файлов как часть Navigator для защиты HDFS-файлов, записей HBase, метаданных Hive и аудита логов. Система управления ключами к шифрованию доступна как часть Cloudera Security. Hortonworks предлагает шифрование данных HDFS и систему управления ключами в Apache Ranger. Informatica Big Data Management посредством Informatica Persistent Data Masking маскирует чувствительную информацию Hive и текстовые файлы, при этом сохраняя их первоначальные характеристики для тестирования и аналитики. Данные могут быть замаскированы во время миграции в Apache Hadoop или уже на кластере, когда они уже туда загружены.

Аудит в Apache Hadoop

Дистрибутив Cloudera обеспечивает аудит доступа к данным на HDFS, Impala, Hive, HBase и Sentry с помощью своего решения Navigator. Hortonworks поддерживает аудит изменений политик и доступа к Big Data в HDFS, HBase, Hive с помощью Knox, Kafka, Yarn, Solr, Storm через Ranger.

Аналитика чувствительных данных и их классификация в Apache Hadoop

Informatica Secure@Source обеспечивает информацию о наличии чувствительных данных, их объёме, статусе защиты, уровне распространения, числу сотрудников, которые имеют к ним доступ, сотрудников, которые действительно используют их и стоимость риска утечки. Это помогает подсчитать уровень риска для отдельного хранилища, региона, департамента. Также Secure@Source определяет массивы данных и группы пользователей с самым большим риском, чтобы установить приоритет усилий для защиты Big Data. Решение также обнаруживает условия повышенного риска. Например, когда чувствительные данные перемещаются из страны, где их безопасность строго регулируется, или когда доступ к данным получает пользователь не из той страны, где они хранятся. С Secure@Source организации получают полную картину того, как обстоят дела с чувствительными Big Data в масштабах всей компании. Защита данных становится ключевым элементом среды Apache Hadoop. Новые инструменты уже сейчас позволяют решать многие задачи. При этом они продолжают развиваться и в будущем планируется внедрить новые функциональные возможности. Самостоятельно разобраться с экосистемой Apache Hadoop и оптимальными для неё инструментами пока не получается? Обращайтесь за помощью к специалистам DIS Group, которые одними из первых в России начали работать с этой экосистемой.

Рекомендуем также

Защита данных по GDPR: пугаться или радоваться? Часть 2

Эксперты DIS Group и корпорации Informatica объясняют, имеет ли GDPR отношение к вашей компании, чем он отличается от 152-ФЗ, как эффективно защищать персональные данные, какие новые возможности открывают для бизнеса законы и регламенты по защите данных.

26 июля 2018
Начало статьи читайте по ссылке

Найти и обезвредить

Михаил Комаров (директор направления Informatica, DIS Group): «Качественная стратегия по защите данных одновременно поможет избежать утечек и соответствовать и GDPR, и ФЗ-152. Такая стратегия требует единого контроля и управления данными во всей организации». Эксперты Informatica называют свой подход к защите данных – «выявление и защита». Он помогает понять, где находятся чувствительные и персональные данные, куда они перемещаются, определить риски, которые с ними связаны. По мнению специалистов Informatica, чтобы избежать проблем с утечками, организация должна:
  • Определить политики работы с данными. Это касается и ИТ-политик, и бизнес-политик, и политики для неясных данных и конфликтов политик;
  • Aвтоматизировать обнаружение данных. Сначала проводится первичный поиск чувствительных или персональных данных. После этого осуществляется непрерывный мониторинг, классификация данных и интеграция с вспомогательными системами. Необходимо посмотреть на данные в контексте, понять их соответствие с умными политиками. Такие политики определяют, могут ли конкретные элементы данных (имя, адрес электронной почты, паспортный номер) быть совмещены вместе в каком-либо хранилище так, чтобы идентифицировать персональные данные граждан ЕС;
  • Анализировать распространение данных. Данные могут перемещаться. Важно понимать, где находится информация теперь и какие новые источники данных появляются;
  • Оценивать риски. Во внимание принимаются все факторы, которые были названы ранее. В том числе: перемещение данных, их распространение, объём, значимость и приоритезация. Оценка рисков должна включать в себя этапы планирования, историю, мониторинг оценки за всё время. Мониторинг призван показывать избыточный доступ для пользователей, их аномальное поведение, транграничные трансферы данных.
  • Защищать данные. Необходимо понять, где нужны ограничения доступа к данным, какая информация должна быть переведена в анонимную форму, где нужно применить шифрование, что можно удалить. Также важно управлять просмотром данных в зависимости от времени, географического положения и роли того, кто это делает.
Для наиболее полной реализации подхода Informatica к защите персональных данных эксперты компании рекомендуют установку Secure@Source. «Компаниям приходится сталкиваться с фундаментальными вопросами, на которые сейчас сложно ответить. Мы разрабатываем свои решения так, чтобы их использование могло ответить на эти вопросы», – объясняет подход компании CEO Informatica Анил Хакраварти. Для защиты данных из-за несанкционированного доступа Informatica предлагает динамическое и постоянное маскирование. Маскирование анонимизирует персональные данные клиентов. При запросе в базу данных, оно заблокирует или скроет ту часть информации, к которой у сотрудников нет доступа. В России динамическое маскирование уже защищает данные абонентов «Билайн», а постоянное – клиентов Сбербанка и других финансовых организаций.

Защищай и властвуй

GDPR и 152-ФЗ открывают новые возможности перед теми компаниями, которые смогут им соответствовать. Максим Семиренко (руководитель по продажам подразделения продаж Informatica DIS Group) объясняет: «С первого взгляда может показаться, что законы по защите данных ставят палки в колёса вашему бизнесу. Они могут снизить продуктивность труда. Они тянут за собой дополнительные расходы на перестройку ИТ-архитектуры. Однако защита данных повышает доверие и лояльность клиентов. К тому же, если качественная защита информации становится конкурентным преимуществом на рынке». Исследования подтверждают слова эксперта DIS Group. Harwarwad Buisness Review в августе 2017 спросила ведущие компании, как по их мнению, их клиенты относятся к безопасности своих данных. 90% респондентов рассказали, что для их клиентов всё большое значение имеет качество защиты персональных данных. 81% опрошенных заявили, что их клиенты хотят знать, были ли их данных переданы или проданы третьим лицам. Потребители также всё больше хотят иметь доступ к своим данным так и тогда, когда им это удобно (81%). Кроме того, им важно знать, будут ли удалены их данные, когда в их хранении не будет необходимости (66%). 78% опрошенных заявило, что сильная стратегия по защите данных помогает усилить бренд, а также выделить его на фоне конкурентов.

Предупреждён, значит вооружён

Глубже разобраться подробнее в хитросплетениях GDPR помогут следующие источники на английском языке:
  • EUGDPR.org – общая информация о регламенте
  • Data-Centric Approach to GDPR Compliance – практические советы по тому, как компаниям соответствовать GDPR
  • Recommendations on How to Tackle the “D” in GDP – GDPR в вопросах и ответах.
Также эксперты DIS Group готовы помочь вам разобраться в тонкостях европейских регламентов по обработке данных и технологических решениях по управлению данными, которые позволят облегчить их выполнение.

Рекомендуем также

Защита данных по GDPR: пугаться или радоваться? Часть 1

Эксперты DIS Group и корпорации Informatica объясняют, имеет ли GDPR отношение к вашей компании, чем он отличается от 152-ФЗ, как может быть организована защита данных клиентов наиболее эффективно, какие новые возможности открывают для бизнеса законы и регламенты по защите данных.

26 июля 2018

Шпрехен зи доич? Придётся соответствовать GDPR

Прошло больше двух месяцев с тех пор, как в Европе вступил в силу GDPR. В регламенте описана необходимая защита данных граждан ЕС. С первого взгляда может показаться, что к российскому бизнесу он не имеет отношения. Это заблуждение. И оно может стоить вам 20 миллионов евро. Если ваша организация работает с гражданами Евросоюза, имеет юридическое лицо на его территории, GDPR соблюдать вам придётся. А вычислять тех, кто работает с европейцами будут и по косвенным признакам. Например, под действие регламента попадают компании, которые принимает оплату в евро, имеют сайт на одном из языков ЕС или европейский домен для сайта. «Получается, что многие российские организации попадают под действие GDPR. Но волноваться по этому поводу не стоит. GDPR по своей сути очень похож на российский закон по защите данных – 152-ФЗ. Всё, что потребуется от российского бизнеса – понять различия и подстроиться только под них», объясняет Павел Лихницкий, генеральный директор DIS Group.

Два молодца одинаковых с лица или чем защита данных по GDPR отличается от требований 152-ФЗ

Требования GDPR во многом повторяют требования российского 152-ФЗ. Но европейский собрат менее детально описывает, как именно должна обеспечиваться защита данных клиентов, в том числе персональных данных. В связи с нашумевшей блокировкой мессенджера Telegram, даже простые обыватели знают, что данные российских граждан должны храниться внутри нашей страны. GDPR не требует этого для данных европейцев. Но он обязывает сообщать регулятору и владельцу персональной информации об утечках. В России организация самостоятельно может справиться с инцидентом и никому о нём не рассказывать. Кроме того, европейский бизнес будет должен минимизировать объем собираемых данных и сроки их обработки. А также – еще на этапе планирования процедур обработки данных думать об их защите. GDPR более детально описывает, что относится к персональным данным. Кроме тех, которые у всех у нас на слуху (ФИО, адрес, телефон), это и cookies, и IP-адреса. Многие российские компании напугало положение о забвении: по требованию клиента они должны удалить все данные о нём. Но всё не так страшно, как кажется на первый взгляд. Удалить данные будет нужно только в том случае, если вы не сможете объяснить, для какой бизнес-задачи они используются. Похожая ситуация и с получением согласия клиента на обработку данных. Его придётся получить только в тех ситуациях, когда нет других правовых оснований для сбора данных. Полный перечень таких оснований можно найти в тексте самого регламента. Ещё одно значимое различие – величина штрафов. За нарушение 152-ФЗ придётся заплатить всего 75 тысяч рублей. Несоблюдение GDPR может повлечь за собой штраф до 20 миллионов евро или 4% от дохода компании.

Утечки создали «идеальный шторм»

Эксперты отмечают, что бояться стоит не строгих законов, а утечек данных. Законы и регламенты, наоборот, служат улучшению защиты данных. Роберт Шилдс, руководитель маркетинга решений для защиты данных, Informatica, объясняет: «Бизнес сегодня столкнутся с «идеальным штормом» конфиденциальности данных и их защиты. Шторм этот вызван непрекращающимися потоками утечек данных, введением в силу законов и ростом осознания клиентов своих прав контролировать персональную информацию». Даже высокотехнологические крупные игроки рынка не всегда способны эффективно защитить свои данные. В марте 2018 Facebook допустил утечку данных 50 миллионов пользователей. Уже через неделю акции компании упали на 6,8%, а Марк Цукерберг, основной владелец социальной сети, потерял несколько миллиардов долларов. В 2017 году из-за утечки в Equifax (американское бюро кредитной истории) были обнародованы номера социальной страховки 143 миллионов американцев, информации по их кредитным картам, персональным данным. В 2015 году был взломан сайт британского телекома Talk Talk. Утечка данных коснулась почти 157 тысяч клиентов компании. В результате, Talk Talk получил рекордный штраф в 400 тысяч фунтов, стоимость её упала вдвое, 101 тысяча абонентов отказалось от услуг телекома, прибыль сократилась на 60 миллионов фунтов, а генеральному директору пришлось покинуть свой пост. Эти случаи подтверждают, что защита данных своих клиентов стала важной частью любой компании, работающей на европейском рынке. О том, как правильно защищать данные и какие выгоды вам это принесёт читайте во второй части статьи по ссылке

Рекомендуем также