Top.Mail.Ru

Экосистема управления большими данными в АСНА, подробности проекта

В мае 2019 года Ассоциация независимых аптек (АСНА) рассказала о создании экосистемы управления большими данными с использованием кластера Hadoop. Система оказалась уникальной для российского рынка. Благодаря ей более 25 тысяч пользователей получают оперативный доступ к большим данным. Среди пользователей – партнеры ассоциации: собственники, заведующие аптек, первостольники, а также сотрудники АСНА – менеджеры и аналитики компании.

О том, как проходила реализация проекта и какую роль в нём сыграло решение Informatica Big Data Management, на сайте DIS Group рассказала Ольга Руднева, руководитель департамента ИТ, АСНА. Кейс вызвал большой резонанс на рынке: многим было интересно узнать подробности его реализации. Ниже Ольга Руднева и Максим Семиренко (куратор проекта со стороны компании DIS Group, которая осуществляла вендорский контроль проекта) делятся этими подробностями.

Какие возможности были у АСНА до разработки экосистемы

До внедрения экосистемы управления большими данными слабым местом АСНА были недостаточная полнота и доступность корпоративных данных. Ежедневная загрузка и обработка данных 6,5 тысяч аптек длилась около 18 часов. Процессы интеграции аптечной сети и валидации данных также занимали много времени. Процедура закрытия периода, сверки данных была сложной, постоянно возникали проблемы с загрузкой.

В 2018 компании удалось настроить обработку данных с помощью Hadoop и инструментов его экосистемы, а также Informatica Big Data Management (BDM), данные были структурированы, очищены. Была разработана единая подсистема НСИ и мастер-данных в условиях постоянных изменений. Появилась валидация данных, добавлены новые источники, организован собственный ЦОД компании.

На 2019 год в АСНА применяются методики машинного обучения для задач консолидации НСИ. Проект продолжает развиваться, сейчас проводится изменение структуры хранения данных под новые требования бизнеса, организовывается архивное хранение, разрабатываются API. Озеро данных также по-прежнему совершенствуется.

Почему было выбрано решение Informatica Big Data Management

Какие задачи выполняет Informatica Big Data Management в экосистеме управления большими данными АСНА? Решение осуществляет парсинг файлов данных (о парсинге данных в Informatica читайте в другой статье блога), проверку формата данных на соответствие, удаление дубликатов строк, преобразование данных в единую структуру, обогащение данных внутренней подсистемой НСИ, архивирование данных. Кроме того, BDM осуществляет процесс pushdown (подробнее о pushdown-оптимизации читайте в статье Как перемещать, выгружать и интегрировать очень большие данные дёшево и быстро? Что такое pushdown-оптимизация?).

«Informatica Big Data Management обладает удобным интерфейсом без необходимости писать тысячи строк кода. Было важно не использовать программирование в чистом виде, а иметь возможность управлять обработкой данных из единого центра. Платформа работает с множеством источников информации, разными форматами файлов и экосистемой Hadoop», – отмечает Ольга Руднева.

Максим Семиренко, директор по продажам консалтинга, DIS Group, подробнее объясняет преимущества Informatica Big Data Management:

«Благодаря Informatica Big Data Management вы сегодня можете создать маппинг для формирования adhoc-отчёта на кластере с использованием последней версии Apache Spark, а завтра поставить этот маппинг на периодическую загрузку в аналитическое хранилище на Greenplum. При этом вам не нужно будет менять для этого команду разработчиков или покупать новые инструменты для работы с системами – вся разработка ведется в Informatica, а среду исполнения выбирает разработчик».

После выхода Informatica Big Data Management 10.2.2 АСНА перешла на новую версию решения. В версии BDM 10.2.2:

  • Была улучшена стабильность работы решения. Сервис интеграции данных теперь может обрабатывать в 6 раз больше запросов. Также сервис интеграции данных теперь может автоматически переподчинять задачи для выполнения их на кластере Hadoop даже после сбоя в своей работе. Кроме того, теперь доступны REST-запросы, которые отображают статус задачи и другую информацию для мониторинга выполняемых маппингов и другое.
  • Была повышена продуктивность разработки. Стала доступна инкрементальная загрузка при массовой загрузке и инкрементальное внедрение. Были улучшены динамические маппинги, теперь они доступны для более широкого перечня типов данных и экосистем, в частности, для AWS и Azure.
  • Был сделан больший фокус на промышленный характер решения. Введена поддержка Azul OpenJDK, возможность использования для DevOps и другое.

Максим Семиренко объясняет: «Informatica постоянно развивает свою платформу управления большими данными, выпуская релизы ежеквартально с новыми функциональными возможностями. Например, версия 10.2.2 Informatica BDM поддерживает последние обновления стэка Hadoop и NoSQL, интегрируется в парадигму DevOPS и позволяет использовать Docker для контейнеризации.

Постоянное развитие и обновление продукта вендором позволяет получить максимальную отдачу от инвестиций в Big Data, вне зависимости от того какая технология будет выбрана в Open Source стэке. Особенно это актуально для таких сложных проектов таких, как реализованная в АСНА экосистема управления большими данными.

Что дальше?

«Сегодня можно с уверенностью сказать, что мы готовы масштабироваться и принимая в ассоциацию неограниченное количество партнеров, менять отрасль, создавая дополнительную ценность для конечного потребителя фармацевтического ритейла», – отмечает Ольга Руднева.

Если у вас остались вопросы по проекту, присылайте их на почту info@dis-group.ru

Кроме того, уровень стабильности и масштабирования систем был неудовлетворительным. Добавление новых аптек в систему АСНА приводило к значительному увеличению времени её работы. В случае сбоя одного из процессов обработки данных, приходилось стабилизировать работу системы в течение недели.

Решение этих проблем было критично для бизнеса АСНА. «Данные – это одна из ключевых ценностей бизнеса», – отмечает Ольга Руднева.

Как эволюционировала архитектура проекта по ходу

В 2016, когда проект экосистемы ещё был в проработке, данные располагались в двух хранилищах данных, они были «грязными», мастер-данных и единой подсистемы НСИ (нормативно-справочная информация) не было. Функционировал набор разнородных приложений, в том числе активно использовался Access.

В 2017, когда проект стартовал, было создано единое хранилище, данные были структурированы. Положено начало для разработки единой подсистемы НСИ, мастер-данных. Для того, чтобы справиться с большими объёмами данных, сотрудники вынуждены постоянно «тушить пожары». Параллельно с тушением пожаров команда старалась построить озеро данных.

Изначально планировалось реализовать весь проект на стороне Hadoop с использованием Informatica BDM. Но АСНА пришлось столкнуться с целым рядом сложностей.

После проектирования ИТ-архитектуры экосистемы управления данными в нее были внесены значительные корректировки. В ходе реализации проекта команда АСНА пришла к выводу, что данные, которые постоянно подвергаются изменениям (удаление, обновление, вставка в параллельно выполняемые транзакции) лучше было оставить в реляционной СУБД. Также целесообразнее было оставить в реляционной СУБД срез данных для операционных расчетов – «горячие» данные для оперативной аналитики.

Кроме того, на собственном опыте команда АСНА убедилась, что NoSQL действительно хорошо справляется с обработкой неструктурированных данных. Но полностью заменить технологию OLAP для выполнения всех задач работы с данными он не может. Также, несмотря на доступность выборки данных в HDFS, скорость выборки не позволяла отдавать её конечному потребителю данных.


Поделиться
{{ responsive_img( url='/../../static/upload/news/detail-image.jpg',lazy=true, img_attrs={ class: "img-fluid lazy" }, formats=['webp'] ) }}

Рассылка новостей

    Продолжая пользоваться сайтом, вы даёте Согласие на автоматический сбор и анализ ваших данных, необходимых для работы сайта и его улучшения, использование файлов cookie.