Как эволюционировала архитектура проекта по ходу
В 2016, когда проект экосистемы ещё был в проработке, данные располагались в двух хранилищах данных, они были «грязными», мастер-данных и единой подсистемы НСИ (нормативно-справочная информация) не было. Функционировал набор разнородных приложений, в том числе активно использовался Access.
В 2017, когда проект стартовал, было создано единое хранилище, данные были структурированы. Положено начало для разработки единой подсистемы НСИ, мастер-данных. Для того, чтобы справиться с большими объёмами данных, сотрудники вынуждены постоянно «тушить пожары». Параллельно с тушением пожаров команда старалась построить озеро данных.
Изначально планировалось реализовать весь проект на стороне Hadoop с использованием Informatica BDM. Но АСНА пришлось столкнуться с целым рядом сложностей.
После проектирования ИТ-архитектуры экосистемы управления данными в нее были внесены значительные корректировки. В ходе реализации проекта команда АСНА пришла к выводу, что данные, которые постоянно подвергаются изменениям (удаление, обновление, вставка в параллельно выполняемые транзакции) лучше было оставить в реляционной СУБД. Также целесообразнее было оставить в реляционной СУБД срез данных для операционных расчетов – «горячие» данные для оперативной аналитики.
Кроме того, на собственном опыте команда АСНА убедилась, что NoSQL действительно хорошо справляется с обработкой неструктурированных данных. Но полностью заменить технологию OLAP для выполнения всех задач работы с данными он не может. Также, несмотря на доступность выборки данных в HDFS, скорость выборки не позволяла отдавать её конечному потребителю данных.