Озеро данных (Data Lake)

18 мая 2022

Data Lake, Smart Data Lake, озеро данных – что это и в чём его польза для бизнеса? Можно ли называть его Big Data Lake? Чем отличается озеро данных от базы данных? В своей новой статье технический директор DIS Group Олег Гиацинтов объясняет сложные вещи простыми словами.

Что такое Data Lake?

Озеро данных – это средство организации данных для их хранения и использования. В настоящее время применение озера данных ограничивается несколькими направлениями:

в качестве песочницы дата-саентистов для исследования данных, результаты которых будут использованы для развития продуктов и бизнеса в целом. Это первое направление встречается чаще всего;
для хранения различных неструктурированных и сложных в использовании данных, включая различную медиаинформацию, которая уже используется или будет использоваться в будущем, но которую невозможно сохранить в каком-то удобном виде в единой зоне, будь то реляционная структура, такая как хранилище данных, или файловая структура.

Таким образом, Data Lake – удобный инструмент для хранения там данных. Однако следует понимать, что хранение любых данных, которые есть в организации, влечёт за собой определённые затраты на инфраструктуру и на системное программное обеспечение. Поэтому основной частью озера данных является именно песочница, то есть тот слой, в котором проводятся аналитические исследования (analytics).

Как устроено озеро данных?

В структуре озера данных можно выделить следующие ключевые элементы:

Первоначальные (сырые) данные
Возможно, какие-то зоны консолидации этих данных и связывания их между собой
Огромная зона песочницы.

Озеро данных как единая среда для работы строится следующим образом. Обычно сначала строят слой первоначальных необработанных данных, которые загружаются из доступных источников. Чаще всего идёт разделение на данные из источников, которые не могут быть обработаны (например, всё, что касается интернета вещей, медиаресурсов и т.д.), и структурированные данные из систем-источников, которые используются для аналитики. Они уже не проходят слой первоначальных данных, за исключением случаев, когда требуется связать между собой данные из разных источников. Здесь есть некое сходство с хранилищем данных: внутри озера тоже промежуточные стейджинги (зоны хранения), но озеро покрывает их все, потому что все зоны хранения реализованы на одной и той же платформе. Это может быть Hadoop или различный набор нереляционных баз данных. Однако у озера данных есть одна очень важная функция, отличающая его от хранилища: это наличие у бизнес-пользователя возможности создавать новые структуры данных самостоятельно, без обращения к IT-разработчикам. Когда бизнес-пользователь что-то исследует, он перемещает данные из одних структур в другие и создаёт при этом новые структуры, в которые перекладываются результаты исследования. Именно поэтому песочница, как я уже говорил, является самым крупным блоком озера данных. Озеро данных в первую очередь моделируется с определённой структурой для тех целей, с которыми они будут использованы. Из-за особенностей индексации озеро данных редко используют для построения отчётности, хотя строгого запрета на это нет.

Озера данных и базы данных

Озеро данных не следует путать с базами данных или корпоративными хранилищами данных (DWH). Озеро данных и база данных – понятия совершенно разного типа.

Озеро данных предназначено для хранения данных и для аналитических исследований с возможностью обработки данных.
База данных – это средство для хранения и использования данных в рамках какой-либо системы.

Таким образом, озеро предназначено в первую очередь для работы со сложными данными и с любыми вариациями аналитических построений, база данных – для их хранения, структурирования и обработки. Это абсолютно разные цели. Если базы используются чаще всего как основное средство для хранения данных в хранилище данных, то озеро – это механизм, в котором данные используют предложенную среду для хранения и для обработки. С точки зрения инфраструктурной части озеро может оказаться дешевле за счёт того, что затраты на аппаратную составляющую из расчёта на единицу информации будут ниже, чем в базе данных, поскольку кластер можно выстроить на довольно простых серверах.

Кому будут полезны Data Lake?

Бизнес-пользователь может даже не подозревать о существовании озера данных, но при этом пользоваться результатами работы на нём, а именно – результатами обработки данных и исследований. Data Scientist – человек, который проводит исследование таких гипотез. Из числа всех гипотез, которые он сделал, совместно с бизнес-пользователем будет выбран именно тот набор гипотез, который даёт наилучший результат для того, чтобы создать новый продукт, поменять что-то существующее, изменить ценообразование, уменьшить объёмы оттока, увеличить приток новых клиентов или снизить свои затраты. Соответственно, пользователями являются, если говорить в самом широком смысле, всё руководство и все люди, принимающие решение о том, как будет развиваться бизнес, какие продукты надо использовать и каким образом. Другое дело, что для того, чтобы прийти к такому решению, есть Data Scientists, которые эти данные используют. Их работа, которая ведётся на озере данных, имеет для бизнеса важное значение, но люди, принимающие решение, могут об ней не знать и не задумываться. В этом заключаются основные преимущества озёр данных для всего бизнеса компании, в том числе для затратных подразделений, которые используют это для оптимизации своей работы.

Недостатки озер данных

Что касается недостатков, здесь есть как технические вопросы, так и вопросы, связанные с организационным использованием.

Во-первых, неконтролируемое использование озёр данных большим количеством бизнес-пользователей чаще всего приводит к «замусориванию» озёр, то есть появлению большого количества структур данных, где они хранятся после различных вычислений. Это приводит к тому, что эти структуры появляются, но бизнес-пользователь или Data Scientist, приняв решение «а надо попробовать ещё и вот так», не удаляет предыдущую структуру, а просто создаёт всё новые и новые. Происходит бесконтрольное увеличение числа структур данных, и если подразделение архитектуры не отслеживает используемость этих данных и, соответственно, не подчищает эти структуры, это приводит к тому, что затраты на инфраструктуру растут очень серьёзно, а реальная используемость данных не увеличивается. Поэтому первая и основная вещь – надо следить именно за изменением используемости тех структур данных, которые создаются в озере.
Второе – это не очень хороший набор знаний у специалистов, которые есть сейчас на рынке. Всё дело в том, что все озёра строятся, скажем так, не на самых привычных технологиях, которые есть на рынке. В связи с этим очень часто встречается применение озёр в качестве своего рода «решений для всего, на всякий случай на будущее». Например, там могут храниться биометрические данные, образцы голосов, которые компания ещё только планирует использовать, не располагая пока что нужными для этого технологиями. Другой вариант – складирование данных с нескольких тысяч промышленных датчиков «на будущее», в расчёте на то, что в дальнейшем в штате появятся аналитики, которые будут с этими данными работать. Таким образом, очень важно правильное архитектурное использование решения, то есть понимание, какую информацию в озеро складывают и для чего. Не менее важно понимать, кто эти данные запрашивает и нужны ли они для хранения дальше. Наконец, нужно понимать особенности программного обеспечения, лежащего под озером, чтобы принять правильное решение об использовании. Например, я уже говорил, что на озёрах данных редко стоят отчётность. Это можно сделать, но зачастую особенности программного обеспечения, которое обеспечивает кластер под озером, приводят к тому, что извлечение отчётности будет занимать очень много времени. Другой пример: очень редко данные из озера, особенно в больших объёмах, передают в какие-то реляционные базы данных.
Третья большая проблема – это отсутствие каких-либо описаний того, что именно из данных используется. На самом деле появление и усиление направления Data Governance было связано с серьёзным, взрывным ростом направления Big Data. Появилось огромное количество типов новых данных, с которыми стало необходимо работать, но их описание сильно запаздывало. Бесконтрольное увеличение объёмов информации привело к тому, что значительная часть времени тратилась на то, чтобы понять: что же это за данные? Как мы их используем? Чего нам не хватает? Фактически бизнес-пользователь нередко не знает тех возможностей, какими располагает, поэтому возможно многократное дублирование информации, использование одних и тех же источников. И чтобы ваше озеро данных не превратилось в болото, необходимо внедрение механизмов Data Governance с учётом той информации, которая в озеро попадает и которая постоянно меняется. Это в первую очередь применение каталогов данных на техническом уровне, которые позволяют понять зависимость данных между собой и увидеть их реальную используемость.

Олег Гиацинтов – технический директор DIS Group с опытом руководства IT-проектами более 16 лет. Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов. Один из авторов «Учебника 4CIO» – самого современного пособия по управлению IT-структурой предприятий и организаций. Области экспертизы:

Стратегическое управление данными
Интеграция данных
Качество данных
Управление мастер-данными
Управление знаниями
Защита данных и антифрод
Big Data.

Что такое Data Warehouse (DWH) и как помогает бизнесу?

27 апреля 2022

Олег Гиацинтов

Технический директор DIS Group

Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов.

Что такое DWH?

Хранилище данных – единая зона хранения данных, в которой в детальном или агрегированном виде сохраняются данные как единая версия правды для последующей отчётности или ad-hoc аналитики. Отчётность, которая строится на данных из хранилища, бывает управленческая, финансовая, регуляторная или аналитическая. Корпоративное хранилище данных специально строится в т.н. оффлайн-режиме (то есть опаздывает на один день по отношению к сформированным данным), чтобы иметь возможность делать агрегаты и предоставлять показатели, которые демонстрируют, каким образом изменяются параметры бизнеса, на основании каких продуктов бизнес получает прибыль или несёт убытки, каким образом формируются затраты и т.д. Всё это делается специально для того, чтобы можно было получить дневной срез или более серьёзный исторический взгляд на данные, не обращаясь напрямую к источникам данных. Основная задача хранилищ изначально и состояла в том, чтобы:

отделить источники данных и не нагружать их дополнительной аналитикой и отчётностью;
структурировать информацию таким образом, чтобы бизнес-пользователь мог быстро и легко пользоваться своими отчётами;
объединить разноформатные данные из различных систем в единую структуру для удобства работы и возможности аналитики с использованием данных из разных систем.

Чем отличается DWH от обычной базы данных?

Классическое применение баз данных обычно раскладывается на базы, которые находятся в рамках каких-либо OLTP-систем, т.е. систем, которые используются в качестве репозиториев, или для хранилищ данных. То есть хранилища всегда используют базы данных для своей работы, однако эти данные структурированы таким образом, чтобы их можно было максимально быстро предоставить в качестве отчётности или для построения агрегатов. Такая часть хранилища называется витриной данных. Она позволяет получить отчёт в течение 2-3 секунд, даже если дневной объём данных содержит в себе миллионы или миллиарды записей. Поэтому хранилище – это структурированная база данных, и структурирование – это отдельная часть проекта по внедрению хранилища, поскольку оно должно быть построено так, чтобы работа была быстрой, но при этом была учтена вся историчность изменений данных. Сама применимость базы данных под хранилище отличается от применимости любой другой базы данных.

Как бизнес использует DWH?

Хранилище данных – единая версия правды, которая может быть использована и другими системами, и бизнес-пользователями, и аналитиками. Наличие лишний записей в хранилище или отсутствие нужной информации может привести к тому, что хранилище фактически потеряет свою функцию именно по той причине, что оно не валидно. Основными бизнес-пользователями хранилища выступают:

различные финансовые структуры. Они используют хранилище для обработки управленческой отчётности, на основании которой принимают свои решения о дальнейшем развитии бизнеса;
все виды подразделений, которые работают с продажами, маркетингом и производством;
все подразделения, деятельность которых связана с регуляторной отчётностью.

Вторым видом использования является ad-hoc аналитика. Она представляет собой возможность использования ранее рассчитанных показателей для аналитических исследований. Однако сейчас всё больше эта функция перекладывается на уровень озёр данных именно за счёт того, что озёра более эффективны для бизнес-пользователей за счёт возможности подтягивать дополнительную информацию. В хранилище же сложно подтянуть себе для дальнейших исследований дополнительную информацию, которой ещё нет в системных источниках. Т.е. в хранилище бизнес-пользователь ограничен тем набором данных, который в хранилище уже загружен, а озеро снимает эту проблему. Таким образом, применение хранилища для ad-hoc аналитики характерно скорее для среднего бизнеса, либо крупного бизнеса, который пока не готов к использованию озёр.

DWH и бизнес-аналитика

Хранилище данных предназначено в первую очередь для анализа оттока и для предиктивной аналитики. Для этого было создано много аналитических решений, в том числе весьма мощных, использующих модели на основе данных, чаще всего – детальных данных. Однако сейчас в бизнес-аналитике фокус постепенно смещается в сторону использования озёр данных.

Структура DWH

О структуре хранилища данных можно рассуждать с классической точки зрения, а можно взглянуть более широко. Если мы говорим о классической схеме, то хранилище обычно содержит в себе детальный слой информации и слой витрин данных. Есть отдельное направление развития хранилищ данных, при котором витрины заменяются на OLAP-кубы. В этом случае средства, которые работают с кубами, также пользуются детальной информацией, но витрины, заполняемые данными в жёстком режиме, при этом не строятся. Однако для наполнения хранилища данных чаще всего вводятся дополнительные зоны хранения данных при их перемещении для того, чтобы данные приобрели свою ценность и единую версию:

ODS (Operational Data Store) – зона реплики системы-источника. Это зона данных, в которой в первую очередь перегружаются копии системы-источника, той части, которая нужна для формирования хранилища, чтобы быстро отпустить систему-источник и не влиять на неё своими запросами. Как правило, эта зона наполняется раз в сутки, после полуночи. Иногда это происходит чаще: например, в том случае, если на данных из этой зоны формируется оперативная отчётность, допустим, отчёт о продажах за последний час. Эта зона обычно обладает неконсолидированным набором данных, фактически копирующим структуру системы-источника.
Набор стейджингов, или дополнительных зон хранения данных, которые используются, во-первых, для приведения данных в состояние требуемого качества, а также для консолидации данных разного формата. Подобные перемещения данных между зонами обычно решаются с помощью средств класса ETL (Extract, Transform, Load). Чтобы использовать данные хранилища, обычно применяются решения класса BI (Business Intelligence), средства построения отчётности и ad-hoc аналитики, средства дата-майнинга, т.е. предиктивной аналитики, или любые системы компании, которые уже должны пользоваться чистыми данными, собранными в компании.

Корпоративное хранилище данных

Корпоративным хранилищем данных (enterprise data warehouse, EDW) называют хранилище данных, включающее все данные организации из всех источников в масштабах всего бизнеса. Источниками данных в EDW могут быть операционные и транзакционные учетные контуры предприятия (ERP, CRM, бухгалтерские и складские платформы, базы данных Интернета вещей (IoT). Отличия EDW от DWH в охвате данных. Например, DWH в рамках корпоративного хранилища данных может охватывать только данные отдельного бизнес-юнита или направления (в этом случае можно говорить о витрине данных). Таким образом, EDW — единый репозиторий всех данных организации, которые хранятся в DWH уровня бизнес-юнита или направления. Данные для EDW, как было указано выше, перед включением в корпоративное хранилище данных подготавливают особым образом, чтобы они всегда находились в структурированном и готовом для использования формате, в том числе для дальнейшей обработки и анализа.

Облачное хранилище данных

Облачное хранилище данных (Cloud Data Warehouse, CDW) — разновидность DWH, данные в котором хранятся в публичном или корпоративном облаке. Они оптимизированы для быстрого масштабирования, бизнес-аналитики и адаптации для различных пользовательских сценариев. Облачное DWH в максимальной степени соответствует взрывному росту генерируемых в бизнесе данных, наблюдаемому в последние годы. Вторая особенность облачного DWH – быстрая адаптация под постоянно меняющиеся потребности как бизнеса в целом, так и различных групп конечных бизнес-пользователей. Поскольку потребители данных облачного DWH не привязаны к физическому центру обработки данных, объем такого DWH динамически меняется для почти мгновенной подстройки под быстро меняющиеся бюджеты и запросы бизнеса. Как и традиционное корпоративное DWH, облачное хранилище данных может работать с различными разрозненными источниками данных (бухгалтерская отчетность, ERP, CRM, IoT и т.д.). К ключевым особенностям облачного хранилища можно отнести массово-параллельную архитектуру (Massive Parallel Processing, MPP) для высокопроизводительной обработки множества запросов к большим объемам данных. Архитектуру MPP отличает множество серверов, работающих параллельно, что позволяет гибко распределять нагрузку как с точки зрения обработки, так и ввода-вывода (I/O) данных.

Архитектура хранилища данных

В подавляющем большинстве случаев архитектура DWH описывается трех- или двухуровневой моделями. Трехуровневая архитектура включает нижний уровень, основа которого – сервер базы данных (database server). По сути, на этом уровне речь идет о Data Warehouse, состоящем из озёр данных, реляционных баз данных (в них данные представлены в виде связанных таблиц) или облачных DWH. На среднем уровне реализуются средства аналитики, а также средства преобразования данных для последующей обработки. Верхний уровень позволяет пользователям загружать и извлекать необходимые данные, генерировать отчеты. Эти функции реализованы посредством клиентского интерфейса, присутствующем в любом хранилище данных. Двухуровневая архитектура по сравнению с трехуровневой несколько проще, поскольку в таком Data Warehouse сервер базы данных интегрирован с блоком аналитики и обработки данных.

Data Warehouse и анализ данных

Бизнес в современных условиях не может существовать без анализа данных. Это аксиома. Но важно понимать, что никакая сколько-нибудь работоспособная корпоративная система анализа данных невозможна без Data Warehouse. Поэтому архитектура хранилища данных в бизнесе должна быть нацелена на его центральную функцию: быть единым репозиторием, который структурирует и хранит все данные для последующей бизнес-аналитики. Для целей анализа данных архитектура Data Warehouse должна включать инструменты извлечения, преобразования и загрузки необходимых данных (extract, transform, and load, ETL), базы данных Data Warehouse, инструментов доступа к ней и средств генерации отчетности. Комбинация перечисленных инструментов позволяет автоматизировать процесс анализа данных, уменьшив или сведя к нулю задачи написания кода для конвейерной обработки данных. ETL предназначены для извлечения данных из исходных систем, преобразования их в нужный формат и загрузки подготовленных данных в Data Warehouse. Собственно база данных хранит структурированные данные, включаемые в отчетность. Инструменты доступа дают возможность аналитикам взаимодействовать с данными в Data Warehouse. Средства генерации отчетности по сути представляют собой интерфейс бизнес-аналитики, в котором помимо непосредственно аналитических инструментов должен быть блок визуализации данных, представленных в хранилище.

Интернет вещей — что это такое и как он устроен?

7 апреля 2022

Олег Гиацинтов

Технический директор DIS Group

Что такое «интернет вещей»?

«Интернет вещей» (англ. internet of things, IoT) – это набор информации, которую передают электронные источники данных о состоянии какого-либо устройства или внешней среды. Это могут быть датчики погоды, теплорегуляторов, насосов и прочих устройств (IoT devices). Они передают малое количество типов данных в больших объемах, которые могут быть указаны в отчетности наравне с показателями, полученными из других широко распространенных систем (CRM, например). Одна из быстроразвивающихся сфер, в которой широко используется IoT – умные дома. По данным International Data Corporation, в 2020 году мировой рынок устройств для умных домов вырос на 4,5%. А в России объем продаж устройств за прошлый год оценили в $1,2 млрд. Больше всего потребители покупали управляющие устройства, охранные системы (датчики движения, программируемые замки), бытовую технику (умный холодильник, пылесос и другое), развлекательные системы, средства автоматического освещения и регулирования энергопотребления. В работе всех перечисленных устройств задействован «интернет вещей». Он помогает отслеживать состояние приборов и систем.

Из чего состоит IoT Архитектура

Простыми словами «интернет вещей» состоит из устройства, которое передает данные с определенной периодичностью, и нечто, считывающее эти данные. Это может быть другой датчик или стриминговое программное обеспечение на платформе (IoT platform). Доставка информации осуществляется в озеро данных – систему хранения и обработки сведений, которая позволяют работать со сложно структурированной или с неструктурированной информацией в больших объемах для последующего использования. В быту связь с датчиками осуществляется через приложения для гаджетов и с помощью других подобных компьютерных технологий и решений (IoT solutions).

Плюсы и минусы IoT

Преимуществ у «интернета вещей» много. Одно из главных – использование информации для получения коммерческой выгоды. К примеру, в сфере розничной торговли при изменении погоды меняется спрос и средний чек. Магазин может увеличить продажи тех или иных товаров, если будет учитывать полученные с датчика данные о погоде в районе. Во время дождя в магазине можно помещать на видное место зонты, а в жаркую погоду – мороженое и напитки. По данным аналитиков компании «Магнит», в 2019 году в Москве был аномально теплый май, что привело к росту продаж мороженого и прохладительных напитков на 25%. В том же году компания начала использовать технологии искусственного интеллекта для анализа спроса на продукты, в том числе учитывались погодные данные. В IoT аналитики используют информацию датчиков для более точных маркетинговых и финансовых прогнозов. Это помогает оптимизировать работу компании и принимать эффективные бизнес-решения. Экономически выгодно использовать «интернет вещей» и при эксплуатации оборудования. Датчики позволяют отслеживать состояние устройства и передавать данные о нем. Это делает возможным предотвращение поломки техники. Вовремя проведенное профилактическое обслуживание почти всегда стоит дешевле ремонта и позволяет избежать временных задержек в работе. При использовании «интернета вещей» есть один нюанс. Поступающие данные с датчиков актуальны в конкретный момент времени. Поэтому важно настроить их моментальную обработку, чтобы достичь желаемого результата. В противном случае можно получить огромный объем сохраненных быстро устаревающих данных. Особенно это актуально, если используется несколько датчиков для сбора информации. Сложность при использовании IoT – работа с многообразием форматов данных, разной периодичностью их поступления и дублированной информацией. Например, когда датчик шлет сведения о состоянии устройства, он должен получить отклик, что сигнал принят. При обрыве связи или отсутствии отклика датчик отправляет информацию повторно. И во время обработки данных может возникнуть путаница, новый ли это сигнал о состоянии устройства или дубликат предыдущего. Кроме того числовые значения, которые отправляются, могут не соответствовать действительности. Бывает так, что они должны быть в границах от нуля до одного, а они из них «выпадают». Тогда придется искать причины такого сбоя (неисправность датчика или принимающего устройства, ошибка сети и др.).

Где используют «интернет вещей»?

Чаще всего IoT применяют при эксплуатации приборов и оценки их работы. Это позволяет отслеживать состояние устройств, вовремя проводить их профилактическое обслуживание. К тому же это способствует повышению эффективности работы приборов благодаря своевременному реагированию на изменившиеся данные. «Интернет вещей» используют и в бизнесе для увеличения прибыли (анализ изменения внешней среды, работы оборудования), при антикризисном управлении (для прогнозов и составления отчетности, чтобы получить дополнительную информацию) или для получения финансовых выгод при сделках на бирже. Например, условия сделки и цены бумаг актуальны в конкретный момент времени. IoT дает возможность молниеносно отслеживать эти данные и использовать их во время торгов. Широко используется «интернет вещей» и в других сферах:

при эксплуатации транспортных средств, особенно в сфере грузоперевозок (повышает безопасность и снижает расходы на обслуживание автомобилей);
в ритейле (помогает понять потребности клиентов в реальном времени, глубже исследовать их поведение и предоставлять выгодные решения для покупателей, улучшать работу соответствующих сервисов);
на производстве (помогает отслеживать оценку качества товаров потребителем, а также повышать производительность оборудования);
в здравоохранении (позволяет быстро реагировать на изменившиеся данные о здоровье пациентов);
в работе государственных организаций (для отслеживания пробок и аварий на дорогах, при взаимодействии граждан с городскими службами, для поддержания безопасности в городе);
в работе умных домов;
в банковской сфере и в области страхования (помогает получить больше информации для управления рисками, контроля расходов, предотвращать случаи мошенничества и персонализировать общение с клиентами);
в сельском хозяйстве (улучшает эффективность работы сельскохозяйственного оборудования, позволяет отслеживать здоровье скота и качество выращиваемых культур, а также влияние действий на экологию);
в сфере образования (помогает отслеживать успеваемость учащихся, повышать качество научных исследований и способствует эффективной коммуникации студентов и будущих работодателей);
в спортивной индустрии (позволяет оптимизировать ценообразование билетов на стадионах, персонализировать маркетинговые кампании для зрителей и болельщиков, находить новые возможности для спонсоров, совершенствовать тренировки спортсменов с учетом их успехов и показателей здоровья);
в медиа сфере (позволяет лучше управлять рекламными кампаниями, повышать их эффективность, проводить более глубокий анализ аудитории и ее потребностей, получать обратную связь от потребителей).

Перспективы развития

С развитием технологий датчики стали делать минимальных размеров, чтобы их можно было использовать на большем количестве вещей (даже на одежде). Соответственно, количество сфер жизни, в которых применяется IoT, будет только расти. Помимо этого «Интернет вещей» продолжает свое развитие параллельно с искусственным интеллектом. В будущем IoT и искусственный интеллект позволят еще больше автоматизировать процессы и дадут возможность приборам и системам самостоятельно регулировать свою работу.

Безопасность

Данные IoT передаются по защищенным сетевым протоколам и чаще всего не нуждаются в дополнительной защите, кроме случаев передачи биржевых и других финансовых сведений. Также может понадобиться конфиденциальность при хранении и передаче сводной и аналитической информации, полученной на основе анализа данных искусственным интеллектом. Существует несколько видов угроз для «интернета вещей»:

изменение состояния и работы устройств злоумышленником;
перехват сигнала вещания;
отправка ложных данных;
замена программного обеспечения;
повышение прав устройства для выполнения других действий и проч.

Уже сейчас есть дополнительные решения для безопасности программных компонентов и датчиков, безопасности операционной системы (защита от вредоносного ПО и хакерских атак), специализированная защита встраиваемых систем при использовании низкопроизводительного оборудования с ограниченным объемом памяти. Усилить защиту можно с помощью проверки подлинности пользователей и присвоения им прав владения информацией, разграничения доступа и контроля подключений, использования сложных паролей доступа и их изменения на новых устройствах, сквозного шифрования данных и своевременного обновления устройств и программного обеспечения. Чтобы обезопасить «интернет вещей» от взлома, кражи данных и кибернетических атак используются также блокчейн-технологии. Они позволяют сохранять протоколы обмена и результаты взаимодействия устройств. К тому же если некоторые устройства будут взломаны, это не повлияет на работу системы в целом. Такая технология чаще всего используется в банковском секторе и государственных структурах. В автомобильной отрасли применяется дополнительна система безопасности с центральным безопасным шлюзом и набором сервисов оценки защищенности подключенных машин. Развитие «интернета вещей» и безопасности его использования продолжается ежедневно, поэтому мы будем и дальше отслеживать все нововведения в этой сфере.

Что такое комплаенс и для чего он нужен?

30 марта 2022

Что такое комплаенс-менеджмент?

Термин «комплаенс» происходит от английского «compliance» – «соответствие». Речь идёт о соответствии самым разнообразным требованиям различных государственных и общественных регуляторов, которые регламентируют рынки в части продуктов, услуг, взаимоотношений компании с потребителями и государством. Тем самым они побуждают компании строить свою финансово-хозяйственную деятельность с учётом этих требований и правил. При всей видимой либеральности глобальной экономики и достаточном объёме свобод, при ближайшем рассмотрении видно, что рынки достаточно жёстко регламентируются. Это могут быть требования к качеству продукции, её срокам годности, контролю за оборотом, защите окружающей среды, нормам труда, технике безопасности и так далее. Комплаенс – это соответствие требованиям, в первую очередь, тем, которые выдвигают различные регуляторы, а также контроль за тем, чтобы это соответствие было полным. С этой целью выделяют отдельную функцию compliance control. В России комплаенс зачастую ассоциируется исключительно с финансовым сектором, хотя это неправильно. Причина такого стереотипа кроется в том, что именно Центральный банк стал первым из регуляторов, выступивших с набором обязательных требований к деятельности организаций. На самом же деле понятие комплаенса гораздо шире. Свои требования к деятельности компаний могут предъявлять не только государственные структуры, но и общественные организации – например, профсоюзы или экологические организации. В свою очередь, комплаенс-менеджмент (compliance management) – это инструментарий и набор процессов, применяемых в компании для соответствия выдвигаемым требованиям.

Зачем комплаенс нужен бизнесу?

На сегодняшний день ни одна компания не может функционировать без комплаенса, к какой бы сфере ни относилась её деятельность. Нравится это нам или нет, в мире идёт ужесточение требований абсолютно для всех отраслей и индустрий. Эта тенденция прослеживается как в отдельных странах, так и на межгосударственном уровне, в рамках международной кооперации. Что это означает для предпринимателей? Новые регламенты появляются быстро и зачастую неожиданно, а расплата за их неисполнение может быть весьма суровой. К примеру, фармацевтические компании обязаны детально отчитываться об обороте рецептурных препаратов и используемых для их изготовления активных субстанций. Любой производитель пищевых продуктов знает, к чему может привести несоответствие требованиям СанПин или ГОСТа. Международная торговля – ещё одна отрасль со строгой регламентацией. Среди юристов даже появилась отдельная категория специалистов по международному торговому комплаенсу (international trade compliance lawers). Но, пожалуй, ярчайшим примером, иллюстрирующим необходимость комплаенса, является действующий в Европейском Союзе закон о защите персональных данных – the General Data Protection Regulation (GDPR). Этот закон стал прямым следствием наступления эпохи Big Data и тотальной цифровизации жизни гражданина, что принесло взрывной рост объёмов различных данных, в том числе персональных и биометрических. Европейские власти быстро осознали, что «цифровой след», оставляемый каждый человеком, легко может быть использован в противоправных целях, и поставили задачу бороться с этим. GDPR вступил в силу только в 2018 году, и за короткое время успел снискать репутацию одного из самых жёстких законов во всём мире. Введённый с целью защиты конфиденциальности персональной информации, он предусматривает жёсткие санкции, если компании допускают утечку подобной информации или обрабатывают её без согласия человека. За нарушение требований GDPR на компанию может быть наложен чудовищный штраф. Его сумма может достигать 20 миллионов евро или 4% от общего оборота компании за весь предыдущий финансовый год (в зависимости от того, какая сумма больше). Речь идёт о суммах, сопоставимых с IT-бюджетом средней компании! Известно, что при формировании бюджета европейские компании заранее закладывают в них в качестве статьи расходов выплату штрафов за несоответствия его требованиям. Цель комплаенса как раз и заключается в предотвращении подобных ситуаций и, в конечном счёте, экономии денег компании. Принцип «сэкономленные деньги – заработанные деньги» в данном случае работает как нельзя лучше. Именно поэтому компании во всём мире разрабатывают собственные комплаенс-стратегии (compliance policy) и тщательно контролируют их соблюдение, формируют в рамках корпоративной структуры отдельные комплаенс-подразделения и активно инвестируют в ИТ-решения, помогающие в выполнении требований регуляторов. Как именно это выглядит на практике, будет рассказано ниже.

Классификация

Какой-то единой, общепринятой классификации комплаенса на сегодняшний день не существует. Мы бы предложили условное разделение на регуляторный и нерегуляторный. Первый связан с выполнением требований различных регуляторов – центральных банков, правительственных организаций, государственный агентств. Второй же – это соответствие общественному мнению, неким стандартам общества. Например, в последнее время всё больше людей активно интересуются вопросами экологии и стараются выбирать «зелёные» продукты и технологии. Со стороны бизнеса будет логичным услышать свою целевую аудиторию и перестроить свою деятельность так, чтобы она соответствовала современным стандартам защиты окружающей среды: сократить количество отходов и вредных выбросов, отказаться от испытания продукции на животных, отказаться от импортного сырья с целью сократить углеродный след. Это тоже своего рода комплаенс: можно называть его нерегуляторным или общественным, причём важность именно такого комплаенса с каждым годом только возрастает.

Функции комплаенс-контроля

Комплаенс-контроль (compliance control) и комплаенс-менеджмент (compliance management) входят в число ключевых корпоративных задач. Здесь очень важно понять, чем директор по комплаенсу отличается от комплаенс-офицера (compliance officer) или комплаенс-менеджера (compliance manager). Офицер или менеджер являются, по сути, обычными контролёрами, и их задача ограничивается тем, чтобы следить, как выполняется тот или иной перечень требований. Поле деятельности директора по комплаенсу гораздо шире. Как правило, он входит в состав совета директоров или является членом правления, и его задача – не просто сделать за выполнением требований, а инициировать и разрабатывать проекты по соответствию. Директор по комплаенсу работает над тем, чтобы требованиям соответствовали все процессы и процедуры компании, а не только конечный продукт. Это подразумевает и менеджмент качества, и процессное управление, ведь зачастую с выходом нового требования или закона компания оказывается перед необходимостью перестроить половину всех бизнес-процессов и полностью перекроить IT-ландшафт. Перестройка компании для соответствия её новым требованиям – одна из наиболее частых задач директора по комплаенсу, и зачастую для её решения создаётся специальный отдел, управление или департамент (compliance department). Правда, такая картина пока что более характерна для западных компаний, но и в России такая тенденция активно набирает обороты.

Комплаенс-риски

Основным риском в части комплаенса (compliance risk) является несоответствие требованиям, которое влечёт за собой целый спектр неблагоприятных последствий – от денежных штрафов, о которых я говорил выше, до лишения лицензии. Последнее фактически означает полный крах бизнеса. Не менее важны и репутационные риски, особенно сейчас, когда развитие социальных сетей достигло своего апогея, а информация, в особенности негативная, распространяется с головокружительной скоростью. Запятнать репутацию очень просто, а на отработку негатива могут уйти годы. Никто не хочет прослыть недобросовестным работодателем, или недостаточно клиентоориентированным продавцом, или губителем естественной среды обитания редких животных. Это грозит потерей лояльности со стороны целевой аудитории, а то и полным бойкотом. Свести подобные риски к минимуму позволит только тщательно выверенная комплаенс-стратегия, а также компетентная команда, готовая её реализовывать.

Регулирование

Законы и подзаконные акты, регулирующие вопросы комплаенса, существуют на уровне как отдельных стран, так и в рамках международных организаций. В России в качестве примера можно привести Федеральный закон № 135-ФЗ «О защите конкуренции», который чаще называют законом об антимонопольном комплаенсе. Согласно ему, каждая компания обязана разработать систему антимонопольного комплаенса в рамках своей деятельности, а также разместить акт (либо акты), регулирующие антимонопольный комплаенс, на своём корпоративном сайте на русском языке. Компания самостоятельно определяет формирование и детальное регулирование антимонопольного комплаенса, однако некоторые элементы являются обязательными. К ним относятся:

порядок проведения оценки рисков нарушения антимонопольного законодательства
меры, направленные на снижение этих рисков
меры по контролю за функционированием системы антимонопольного комплаенса
порядок ознакомления работников с внутренними актами
информация о сотруднике, отвечающем за функционирование антимонопольного комплаенса.

Внедрение

Полноценное внедрение функции комплаенса невозможно без управления данными (Data Governance) и, в частности, технологии Data Quality. Именно директора по комплаенсу являются одними из основных заказчиков подобных решений во всём мире. Почему это так? Дело в том, что перестройка процессов компании и выстраивание их в доскональном соответствии с требованиями регуляторов невозможны без чёткого знания своих данных, на которых и основана вся работа. К примеру, чтобы сократить выбросы углекислого газа в атмосферу, промышленному предприятию необходимо точно знать, каковы объёмы этих выбросов, какие цеха производят их больше всего. На основании этого можно строить аналитическую модель, которая покажет, что нужно поменять в производственной цепочке, чтобы объём вредных выбросов стал меньше и соответствовал нормам экологического законодательства. То же касается требований в области охраны труда: чтобы свести к минимуму число возможных несчастных случаев, необходимо понимать, в каких ситуациях и при каком стечении обстоятельств они происходят чаще всего, и на основании этих данных уже принимать решения. Но лучшим примером снова является применение на практике закона GDPR. Если в адрес компании от бывшего сотрудника или клиента поступило требование удалить все связанные с ним данные, организация должна быть готова к тому, что в ходе проверки её попросят предоставить доказательства того, что данные действительно были удалены. Это можно сделать, только если в компании построен корпоративный каталог данных: данные собраны в иерархизированную систему, для них определены владельцы, компания точно знает все места, где хранятся персональные данные, и может наглядно показать, что данных об этом конкретном человеке в хранилище нет. Более того, такой каталог даёт уверенность в том, что нигде не осталось случайных дубликатов этих данных. Таким образом, Data Governance становится технологической основой внедрения комплаенса в компании. Автор: Александр Тарасов, управляющий партнер DIS Group

Что такое обезличивание персональных данных?

25 марта 2022

Зачем нужно обезличивание персональных данных

Говоря простыми словами, понятие обезличивания персональных данных означает действия, в результате которых невозможно без дополнительной информации определить принадлежность информации конкретному субъекту персональных данных. В большинстве случаев обезличивание применяют для следующих целей:

при необходимости предоставления данных внешним участникам процесса внедрения новых систем;
для ограничения доступа к продуктивным данным, не положенным пользователю по правам.

Методы и обезличивания данных

Персональные данные часто бывают высокой сложности. В качестве примера можно привести адресную информацию, внутренние документы, такие как постановление, приказ, акт. Их не так просто привести в обезличенный вид, не говоря уже о последующей чистке и стандартизации. Статическое обезличивание, что это значит? На основе специальных правил создаётся копия базы данных, которые заменят исходную информацию на похожую, но не соответствующую действительности. Статистическое обезличивание наиболее часто применяется банками, чтобы понять, что происходит: где персональные данные и системы связаны между собой. Благодаря этому виду маскирования, каждая внешняя компания, которой будут доступны конфиденциальные данные, не сможет использовать их в своей работе вне контракта. Это обеспечивает и защиту данных, и возможность пользоваться этими данными при разработке. Обычно маскирование таких данных производится на основе интеграционных инструментов, позволяющих выделять домены: типы и категории данных, которые необходимо обезличить. Помимо этого для персональных данных сразу будет установлен один или несколько методов обезличивания:

размывание — самый простой метод, при котором данные обобщаются на основе общих признаков или характеристик; применяется в основном для дат или сумм;
перемешивание — перестановка отдельных записей или целых групп данных; таким образом обезличиваются фамилии, слова, регионы;
перестановки — перемешивания данных внутри записи, например, цифр номера телефона;
использование случайных механизмов: этот метод используют для каких-то сумм или дат в определенных пределах;
шифрование;
любые другие алгоритмы.

Важная задача при маскировании подобного набора данных — ведение единой модели обезличивания. То есть, если системы разного характера между собой связаны каким-то дополнительным интеграционным механизмом, который использует данные сразу из обеих систем, то при создании тестовых систем необходимо, чтобы значения, которые будут в полях одной системы, соответствовали полям другой. Обычно в подобных решениях используется еще и профилирование, то есть изучение качества данных. Оно дает нам возможность понять, что содержится в этих данных, какого они качества, каким образом распределяется их наполнение и есть ли где-то экстремальные виды значений, на основании которых мы можем предположить, что в тестовую среду нужно заложить дополнительную выборку. Если говорить о динамическом обезличивании данных, то его механизмы совсем другие. Основная задача здесь — не предоставить лишнюю информацию многочисленным пользователям. Для этого инструмент динамического обезличивания перехватывает запросы, поступающие в базу данных или другие системы, а затем оценивает необходимость предоставления запрашиваемых данных конкретному получателю. В случае, если у пользователя отсутствуют права доступа, запрос просто заменяется на другой, содержащий набор данных, который положен именно этому специалисту согласно предоставленным ему правам доступа. Также существует отдельный вид решений, который выполняет категоризацию критичных данных. Оно помогает понять, где во всех системах лежат данные, попадающие под категорию персональных, коммерческой тайны или любого другого типа ограничений и обратить внимание, каким образом эти данные защищены, а также предложить дополнительные варианты по усилению их безопасности. Кроме того, категоризация критичных данных обычно работает в связке с системами класса SIEM. Это системы, которые определяют какой пользователь к каким данным обращался, при том, выявляя аномалии, когда специалист не той категории получил доступ к критичным данным, которые ему не положены по правам. Таким образом, учитывая увеличение числа кибератак, а также растущий объем информации в корпоративных базах данных, компаниям необходимы современные решения, обеспечивающие сохранность конфиденциальной информации, задавая стандарт безопасности для всей корпоративной информации. Обезличивание персональных данных ограничивает использование критических данных внешними поставщиками, позволяя при этом организациям разрабатывать системы с информацией, максимально приближенной к реальным записям. Автор: Олег Гиацинтов, технический директор DIS Group

Фабрика данных (Data Fabric)

22 марта 2022

Что такое фабрика данных?

Фабрика данных – это архитектура для работы с данными, включающая в себя процессы по управлению данными и технологии для их осуществления. Это своего рода высокоскоростной конвейер для создания цифрового продукта. Цифровые продукты, основывающиеся на корпоративных данных, нацелены на монетизацию, дополнительный заработок и сокращение затрат. Это не только отчётность, но и результаты анализа предиктивных моделей, интеграционные сценарии с партнёрами, внешними сервисами (в том числе государственными) и многое другое. Но разработка цифровых продуктов невозможна в традиционной парадигме хранилища данных, поскольку она подразумевает только сбор этих данных, обработку и хранение. Вопросы же качества данных, привязки ответственности за данные к бизнес-функциям и организационной структуре, унификации данных, извлечения из них информации оказываются не на первом плане, а зачастую вообще не ставятся. Хранилище подходит для создания управленческой и других видов отчётности. Она, безусловно, важна, ведь именно на её основе компании принимают решения о развитии бизнеса, но такая модель эффективна для предприятия, которое работает в «традиционной», оффлайновой среде. Однако последние 10 лет открыли иные перспективы и помогли превратить данные в главный бизнес-актив. Для работы с ним нужен более современный подход, каким и стала фабрика данных.

Кому нужна Data Fabric?

Всем компаниям, работающим с Big Data, то есть с большими данными. Лидируют здесь финансовая сфера и ритейл.

Ни один банк не может работать без управления данными, ведь на их основе в режиме онлайн принимается большое количество решений. Это продажи (например, одобрить или не одобрить выдачу кредита), проверка операций на законность, борьба с мошенничеством, обеспечение безопасности счетов.
Ещё раньше банков свои данные стал монетизировать ритейл. Механизмы фабрик данных используются для прогнозирования спроса, чтобы на его основании назначить оптимальную цену и повысить оборачиваемость.
Промышленные, в том числе нефтегазовые компании также активно используют технологии Data Fabric – в основном для оптимизации внутренних процессов и сокращения издержек.
Телекоммуникационные компании реализуют у себя проекты фабрик данных для повышения внутренней эффективности и прозрачности процессов, а также для лучшей коммуникации с целевой аудиторией.
Не отстают и государственные структуры: к примеру, механизмы фабрик данных активно применяются для работы порталов госуслуг.

Особенности и преимущества фабрик данных

Главное преимущество фабрики данных – возможность не только создавать цифровые продукты, но и делать это быстро. Это очень важно, ведь в условиях цифровой трансформации важнейшим ресурсом для бизнеса становится время, которое тратится на создание нового цифрового продукта и вывод его на трек монетизации. Если продолжать сравнения, то хранилище – это склад. Искать нужные данные в нём приходится долго, и никто не гарантирует, что они окажутся нужного качества. Фабрика данных же – это высокоскоростной, супертехнологичный конвейер создания цифрового продукта. Кроме того, фабрика данных позволяет пользоваться отчётностью, выполнять аналитику в оффлайн- и онлайн-режимах, а также ускорять процессы поиска и предоставления данных для этих задач. Автор: Александр Тарасов, управляющий партнер DIS Group

Руководитель цифровой трансформации CDTO — кто это?

14 марта 2022

Кто такой CDTO?

CDTO – это Chief Digital Transformation Officer, он же Chief Transformation Officer, а в русском переводе – директор по цифровой трансформации. Иногда его также называют директором по цифровизации, а в некоторых компаниях позиция CDTO соответствует должности заместителя директора. Цифровая трансформация представляет собой превращение компании в data driven, когда основным инструментом получения прибыли становится монетизация данных. Что это означает на практике? Процесс цифровой трансформации не привязан к какой-то конкретной отрасли и может происходить в любой компании, в любой сфере. Банки монетизируют данные о клиентах и их операциях, формируя персонализированное предложение и улучшая коммуникацию. Промышленная компания может сделать упор на оптимизацию внутренних процессов: к примеру, на основе данных об износе оборудования рассчитать оптимальный межремонтный период и тем самым сократить издержки. Такая монетизация цифровых активов и есть суть цифровой трансформации, и именно за неё отвечает CDTO. В чём же заключается его специфическая роль?

Чем занимается CDTO?

Поскольку такая позиция появилась совсем недавно, какой-то стандартной должностной инструкции для неё нет. В целом можно выделить 4 основных типа CDTO в зависимости от основного фокуса деятельности: управление данными, аналитика, оптимизация операционных процессов и инновации. CDTO первого типа сосредоточен на вопросах мониторинга корпоративных данных и управления ими. Он консультирует других сотрудников по этим вопросам, решает проблемы с защитой данных и обеспечивает их конфиденциальность, отвечает за поиск и исправление ошибок в информации. В работе такой CDTO использует различные методики, политики и системы отчётности. Второй тип CDTO сфокусирован на аналитике. Его задача – повысить эффективность компании через унификацию бизнес-процессов, обеспечение прозрачности работы с корпоративной информацией и повышение качество данных, на основании которых строятся прогнозы. Третий тип отвечает за операционные процессы и их автоматизацию. Его задача – обеспечить доступность данных и их эффективное использование. Чтобы улучшить работу с данными, этот CDTO внедряет новые инструменты, технологии, процессы и системы. Наконец, CDTO, сфокусированный на инновациях, решает в первую очередь проблемы в области автоматизации, совершенствует корпоративную культуру, обучает сотрудников, внедряя различные инновации (в том числе – системы управления знаниями). Основная цель его деятельности – повысить прибыль организации и снизить её издержки, внедряя инновационные ИТ-решения. Часто в реальности в ответственность CDTO входят все 4 направления деятельности.

Что должен уметь CDTO?

Идеальным кандидатом на должность CDTO будет своего рода универсальный солдат, способный охватить все этапы проведения трансформации в компании. Эксперты рекомендуют включить в план цифровой трансформации следующие основные задачи:

Исследование рынка
Составление стратегии цифровой трансформации
Расчёт ожидаемого возврата на инвестиции (ROI)
Выбор показателей успешности проекта
Определение того, как будет реализован проект
Составление ИТ-бюджета
Составление требований к ресурсам и технологиям
Расчёт операционных затрат
Определение ожидаемых результатов работы
Определение того, как проект в целом повлияет на организацию.

Не менее важны на этой должности и навыки работы с людьми. Цифровая трансформация затрагивает все подразделения компании, поэтому CDTO придётся привлекать к своим проектам и сотрудников ИТ-служб, и представителей бизнес-подразделений. Причём «привлечь» означает не «один раз собрать на совещании для галочки», а самым непосредственным образом задействовать их и в планировании проекта, и в его реализации. CDTO должен уметь ставить задачи и оценивать эффективность, обладать организаторскими способностями и уметь «продавать» свои идеи разным людям – от рядовых сотрудников до высшего руководства.

Как стать CDTO?

Специальных университетских программ, готовящих руководителей цифровой трансформации, пока нет. Существующие курсы либо входят в виде модулей в программы делового администрирования, либо больше напоминают программы повышения квалификации. Гораздо более реалистичным выглядит сценарий, когда CDTO вырастает внутри самой компании, хорошо понимая сам бизнес и его специфику. Ведь чтобы направить компанию по пути цифровой трансформации, необходимо действительно хорошо знать свою сферу и разбираться в бизнес-процессах. Нередко хорошими CDTO становятся операционные директора или директора по финансам. Причина проста: именно эти люди чаще всего видят компанию через призму данных, которые к ним стекаются, и именно они раньше других понимают, каким образом можно монетизировать этот ценный актив. Вполне возможен вариант, когда на CDTO переходят с позиции CIO или ИТ-директора. Автор: Александр Тарасов, управляющий партнер DIS Group

Hadoop — что это такое и для чего используется

3 декабря 2021

Олег Гиацинтов

Технический директор DIS Group

Что такое Hadoop?

Hadoop (Хадуп) — это программная платформа для сбора, хранения и обработки очень больших объемов данных. Проще говоря, это база данных (database), предназначенная для работы с большими данными (Big Data). Hadoop стал очень популярным инструментом больших данных в силу ряда особенностей:

Бесплатное ПО: любой желающий его может скачать и установить на серверы стандартной архитектуры. Дальнейшие расходы в основном зависят от специфики конкретного проекта и уровня квалификации его команды.
Распределенное хранение: данные располагаются на множестве узлов (Hadoop Nodes) – серверов, совокупность которых образует кластер (Hadoop Cluster). Hadoop позволяет создавать базы данных практически любых размеров, обеспечивая их масштабирование их по мере необходимости.
Хранение и анализ любых форматов данных независимо от их природы: таблицы, тексты, видео, аудио, данные телеметрии, Интернета вещей, социальных сетей и пр. В одном кластере Hadoop могут храниться данные самых разных форматов из разных источников, что в сочетании с высокой надежностью делает платформу универсальной – она используется в очень широком спектре прикладных областей.
Hadoop сегодня – это не просто стек, а огромная экосистема технологий для самых разных применений. На основе Hadoop работает великое множество программных продуктов, библиотек ПО и утилит, как бесплатных продуктов с открытым кодом, так и коммерческих.

Из чего состоит Hadoop?

В архитектуре Hadoop обычно выделяют четыре базовых технологических компонента: Hadoop Common, HDFS, YARN и MapReduce.

Hadoop Common представляет собой набор библиотек программных модулей, скриптов (сценариев выполнения задач) и утилит (вспомогательных программ), которые предназначены для создания программной инфраструктуры, лежащей в основе работы всех других компонентов и продукты.
Распределенная файловая система HDFS (Hadoop Distributed File System) обеспечивает хранение данных на узлах кластера Hadoop в виде файлов. Благодаря репликации (дублированию) информации в HDFS достигается высокая надежность хранения даже очень больших файлов: в случае недоступности или выхода из строя одного узла кластера Hadoop данные будут извлекаться из блоков на других узлах.
Система планирования заданий и управления кластером YARN (Yet Another Resource Negotiator) позволяет управлять вычислениями на кластере, в том числе предоставлением его ресурсов отдельным распределенным приложениям. Что важно, эти вычисления могут выполняться одновременно (параллельно) на множестве узлов, благодаря чему достигается высокая скорость вычислений. YARN выполняет функцию программной прослойки между физическими ресурсами кластера и приложениями, которые с ним работают.
Hadoop MapReduce – это фреймворк на базе YARN, реализующий известный подход к организации распределенных вычислений MapReduce («отображение-свертка»): данные сначала распределяются на множество узлов кластера («отображение»), где параллельно запускается их предварительная обработка, после чего полученные результаты передаются на центральный узел кластера («свертка»), который обеспечивает получение итоговых результатов.

Как появился Hadoop?

Автором самых первых строк кода платформы Hadoop, написанной на языке программирования Java, стал Дуг Каттинг (Doug Cutting), решивший в начале 2005 года разработать программную инфраструктуру для эффективных распределенных вычислений на базе подхода MapReduce. Символом проекта стала любимая игрушка, принадлежавшая дочери Каттинга, она же дала ему имя. Новым большим этапом в развитии Hadoop стал состоявшийся в начале 2006 года переход Каттинга в компанию Yahoo, где он продолжил развитие системы. В 2008 году компания ввела в строй первую масштабную инсталляцию Hadoop с 10 тысячами процессорных ядер. Начиная с 2008 года, развитие проекта продолжилось в рамках некоммерческой организации Apache Software Foundation (ASF), под эгидой которой на базе Hadoop было реализовано более десятка проектов, расширяющих возможности платформы. Наиболее известные из них – распределенная СУБД для работы с огромными таблицами данных HBase, программная инфраструктура для создания хранилищ данных Hive, высокоуровневая среда управления потоками данных Pig, высокопроизводительный сервис координации работы распределенных приложений Zookeeper и др. В 2013 году в составе Hadoop появился модуль YARN, существенно расширивший возможности платформы за рамки подхода MapReduce.

Где и зачем используется Hadoop?

Ключевая область применения Hadoop – хранение и анализ огромных объемов данных. Благодаря высокой экономической эффективности и достаточно высокой производительности Hadoop получил широкое распространение как в крупнейших ИТ-компаниях (Facebook, Amazon, eBay и др.), так и в высокотехнологичных стартапах. Сегодня Hadoop можно встретить в самых разных отраслях – от производства до госсектора. Имеются реализации Hadoop для локального (on-premice) развертывания, а также облачные и гибридные варианты использования платформы. Один из самых распространенных сценариев применения Hadoop – создание озер данных, в которые стекаются все данные, доступные организации-пользователю. Анализ данных может производиться средствами Hadoop, но гораздо чаще для этого применяются различные инструменты сторонних производителей и разработчиков.

Аналитика: новые тренды в бизнесе

23 июня 2021

Благодаря сложным системам, которые подключаются к разрозненным наборам данных и анализируют их, люди получают не только более чёткое представление об окружающем мире, но и и шанс заглянуть в будущее. К сожалению, многие компании по инерции используют устаревшую аналитику. Её статичные, исторические отчеты описывают только то, что уже произошло, и бесполезны при планировании будущего. Невозможно строить сценарии со 100% точностью, но, имея даже приблизительный прогноз на следующий квартал или год, можно развивать бизнес и преобразовывать отрасль более эффективно. Подобные прогнозы, или предиктивная аналитика, опираются на глубокое понимание прошлого и настоящего, выраженное в данных. Не знаете, что такое предиктивная аналитика? Давайте рассмотрим, что представляет из себя эта развивающаяся сфера, в теории и на практике.

Предиктивная аналитика: определение

Предиктивная аналитика намечает контур будущих событий с помощью данных. Передовые, сложные системы используют исторические данные для определения закономерностей, а затем, с помощью этих закономерностей, дают людям представление о том, что может произойти. Специалисты в области управления данными разработали множество моделей предиктивной аналитики для разных целей:

Модели прогнозирования используют множество вводных для оценки будущих результатов: как долго прослужит компонент двигателя, сколько покупателей ожидается в день, сколько единиц товара должно быть в запасе и т. д.
Классификационные модели используют данные для сортировки информации и особенно полезны при ответе на вопросы «да/нет», например, при прогнозировании рисков потерять тех или иных клиентов или сотрудников с большей долей вероятности и т. д.
Модели статистических выбросов предупреждают пользователей о появлении данных, которые не соотносятся с прогнозами и могут стать поводом для беспокойства. Это могут быть такие аномалии, как необъяснимое падение продаж в магазине или внезапный всплеск почтового трафика. Они могут указывать на что-то, требующее внимания — например, на использование служебного положения, низкую производительность или мошеннические действия.
Модели временных рядов учитывают регулярно меняющиеся условия. Например, такие праздники, как, Новый год, Рождество, производители украшений учитывают в своих расчётах. Для предприятий другого типа будут иметь значение другие предсказуемые циклы, например, предвыборные кампании, Олимпийские игры, астрономические и погодные явления.
Кластерные модели сортируют данные на подгруппы, чтобы пользователи могли обращаться к ним целенаправленно. Отправка различных сообщений клиентам на различных этапах воронки продаж — хорошее применение кластеризации.

Для чего нужна предиктивная аналитика?

Предиктивная аналитика — это не хрустальный шар для предсказаний, но ее преимущества несут революционное значение для любой отрасли. Чем отчётливее картина будущего, тем выгоднее положение бизнеса по сравнению с предприятиями, которые строят планы с учётом данных только за последний квартал или год. Теперь компании могут принимать решения, основываясь на множестве подробных данных, а не на расплывчатых догадках, вытекающих из устаревшей информации. Передовая предиктивная аналитика встраивается непосредственно в потоки бизнес-задач, направляя пользователей к нужным действиям в нужное время с помощью автоматизации и помогая им построить желаемое будущее. Используя предиктивную аналитику, руководители могут регулировать более широкий спектр решений и направлений для развития бизнеса.

Как заложить основу для успешного применения предиктивной аналитики?

Для успешного внедрения предиктивной аналитики требуется несколько ключевых элементов:

Правильные источники данных: есть ли у вас необходимые данные? Если нет, как их найти?
Соответствующие запросу, очищенные данные: постройте модель, включающую данные по рассматриваемой проблеме, очищенные от неточностей, дублирующих записей, некорректного форматирования или других недочётов.
Автоматизация и машинное обучение: большие, сложные наборы данных быстро превосходят человеческие возможности по обработке и требуют огромных вычислительных мощностей для изучения.
Связь с бизнес-целями: предиктивная аналитика не существует сама по себе. Она должна служить более широким бизнес-целям.

Кому нужна предиктивная аналитика?

Одним из наиболее важных свойств предиктивной аналитики является то, что при правильном применении она может приносить выгоду самым разным типам пользователей. Те, кто не являются техническими специалистами, получат глубокое понимание возможных будущих обстоятельств, не прибегая к помощи специалистов по данным или специалистов ИТ-отдела. По всей вертикали, от руководства до сотрудников первой линии, решения и потоки задач, подкрепленные предиктивной аналитикой, становятся более эффективными и результативными для бизнеса.

Где можно использовать предиктивную аналитику?

Предиктивная аналитика показала свои возможности во множестве отраслей и направлений бизнеса. Приведем несколько примеров:

Розничная торговля и маркетинг: правильные инструменты анализа данных, внедряемые в потоки задач бизнес-пользователей от делопроизводства до работы с клиентами, способствуют принятию решений об изменении целей в продажах, регулированию маркетинговых кампаний, оптимизации складов.
Производство, цепи поставок и логистика: предиктивная аналитика может помочь производителям. С ее помощью есть возможность определить, какое количество каких единиц товара производить, когда менять поставщиков или материалы, какие транспортные линии или провайдеры лучше подходят для дальнейшей работы. Можно также использовать исторические тренды и актуальные отзывы клиентов для улучшения разработки и планирования.
Работа с кадрами: компании много работают над привлечением лучших специалистов, создавая для них пакеты льгот. Чтобы не действовать наугад, предиктивная аналитика может помочь HR-командам поддерживать удовлетворенность сотрудников по мере роста требований к бизнес-показателям компаний всех видов. Предиктивная аналитика также может предупредить HR-специалистов, если кто-то из сотрудников собирается уходить, и дать возможность провести с ним работу по информированию о политиках и преимуществах, которые могли бы задержать его в компании.
Здравоохранение: пандемия COVID-19 подтвердила ценность предиктивной аналитики, включая анализ распространения заболевания. Примеры использования предиктивной аналитики в менее экстремальных условиях могут включать в себя прогнозирование в вопросах использования медицинских учреждений, модифицирования фармацевтических формул или составления плана страхования.

Как увидеть и построить будущее с помощью предиктивной аналитики

Предиктивная аналитика не является чем-то недостижимым в сфере бизнес-аналитики. Уже сейчас организации могут пользоваться её преимуществами. Некоторые компании будут собирать и обобщать данные, но сохранят ориентацию на прошлое. Другие же сделают шаг вперед, используя данные для расчётов на дни, месяцы и даже годы вперёд. Если вы готовы заглянуть в будущее, задайте себе несколько вопросов: какие данные для работы системы предиктивной аналитики у вас есть сейчас? А какие требуются дополнительно? И самое главное: что вам мешает начать уже сейчас?

Беспрепятственный обмен данными для эффективного взаимодействия с клиентами

15 июня 2021

Организации любого размера всех отраслей понимают, как важно упростить получения клиентами информации по любым каналам — от мобильных устройств до традиционных контактных-центров. Это позволяет привлекать и удерживать больше клиентов, а также повышать их удовлетворенность. 61% респондентов опроса, проведенного IDC среди директоров по данным, утверждают, что клиентский опыт входит в тройку приоритетов бизнеса, а 54% организаций в следующие два года планируют уделять особое внимание процессам, ориентированным на клиента. Одна из самых сложных задач при этом — оркестрация обмена данными между традиционными локальными системами и новыми облачными приложениями, которые используются в бизнес-процессах, при работе с клиентами. Чтобы предоставлять данные в нужной точке взаимодействия с клиентами, сначала необходимо наладить связь между различными источниками информации. Недавно я на своем опыте испытал, как выглядит для клиента отсутствие такой связи. У нас на кухне завелись насекомые, а за шкафами странно пахло. Я зашел на сайт компании, которая предоставляет услуги по дезинфекции, вызвал специалиста, подробно описал проблему и получил подтверждение, что специалист придет через два дня с 14 до 16 часов. В назначенный день я позвонил в местный офис компании, чтобы уточнить время прихода дезинфектора. Представитель службы поддержки сказал, что корпоративный сайт не подключен к системе планирования в местном офисе. У специалиста на этот день уже все расписано, и он не приедет. Оператор, конечно, принес самые искренние извинения, но мне это ничем не помогло. После подключения к разным платформам требуются инструменты оркестрации потока данных между разными процессами, приложениями, каналами и точками взаимодействия, чтобы максимально упростить общение клиентов с компанией. Оркестрация процесса обмена данными может охватывать различные архитектурные модели, форматы данных и протоколы передачи данных. Informatica поддерживает оркестрацию потока данных на основе сообщений, API и событий.

Не существует универсального метода обмена данными — у каждого из них есть свои преимущества и недостатки. Все зависит от конкретной ситуации — сложности и размера данных, частоты их обновления, потока данных, масштаба распространения и схемы приложений, потребляющих эти данные. Чтобы оптимизировать и упростить обмен данными внутри компании, можно, например, реализовать централизованный хаб мастер-данных, который гарантирует их согласованность во всех системах и приложениях. Такой метод подходит даже для очень сложных данных и большого разнообразия схем. Informatica интегрировала решения 360 для управления мастер-данными в свою платформу iPaaS, одну из лучших на рынке. Поэтому мы предлагаем комплексное облачное решение с высокоэффективными модульными компонентами, которые легко разворачивать, использовать и адаптировать.

Компания Telus — один из лидеров в сфере коммуникаций и ИТ, которая обслуживает более 15 млн клиентских соединений, включая беспроводные сети, сети передачи данных, IP-телефонию, голосовую связь, телевидение, развлекательный контент, видео и безопасность. Приоритетом компании всегда была забота о заказчиках.

Озеро данных (Data Lake)

Что такое Data Lake?

Как устроено озеро данных?

Озера данных и базы данных

Кому будут полезны Data Lake?

Недостатки озер данных

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Что такое Data Warehouse (DWH) и как помогает бизнесу?

Олег Гиацинтов

Что такое DWH?

Чем отличается DWH от обычной базы данных?

Как бизнес использует DWH?

DWH и бизнес-аналитика

Структура DWH

Корпоративное хранилище данных

Облачное хранилище данных

Архитектура хранилища данных

Data Warehouse и анализ данных

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Интернет вещей — что это такое и как он устроен?

Олег Гиацинтов

Что такое «интернет вещей»?

Из чего состоит IoT Архитектура

Плюсы и минусы IoT

Где используют «интернет вещей»?

Перспективы развития

Безопасность

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Что такое комплаенс и для чего он нужен?

Что такое комплаенс-менеджмент?

Зачем комплаенс нужен бизнесу?

Классификация

Функции комплаенс-контроля

Комплаенс-риски

Регулирование

Внедрение

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Что такое обезличивание персональных данных?

Зачем нужно обезличивание персональных данных

Методы и обезличивания данных

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Фабрика данных (Data Fabric)

Что такое фабрика данных?

Кому нужна Data Fabric?

Особенности и преимущества фабрик данных

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Руководитель цифровой трансформации CDTO — кто это?

Кто такой CDTO?

Чем занимается CDTO?

Что должен уметь CDTO?

Как стать CDTO?

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Hadoop — что это такое и для чего используется

Олег Гиацинтов

Что такое Hadoop?

Из чего состоит Hadoop?

Как появился Hadoop?

Где и зачем используется Hadoop?

Рекомендуем также