12.03.2018

ETL стал сложнее и значительнее

Было много разговоров о необходимости ETL в сегодняшней архитектуре управления данными и следует ли от него отказаться в пользу современных технологий. Оказывается, эта часть управления данными, включающая сбор данных внешнего происхождения, их очистку и преобразование под бизнес-цели и загрузку в хранилище, продолжает играть очень важную роль в генерации данных. Она стала тяжелее и востребованнее в мире разрозненных источников данных, сложных слияний данных и решений, основанных на данных.

Источники данных могут быть беспорядочными и неструктурированными или структурированными и хорошо описанными, генерировать данные с определенной частотой или непрерывно через потоки данных, поддерживать “pull” и “push” механизмы вместе или асинхронно. Это означает, что Извлечение (Extract) должно быть чрезвычайно гибким, эластичным и податливым, чтобы справиться с разнообразием ресурсов, вариативностью процедур и протоколов. Трансформация (Transform), заключающаяся в считывании данных в необработанной форме и приведении их в готовность употребляться в многочисленных сценариях, создающая преобразованные через несколько бизнес-логик наборы данных для результативного управления данными, стала более устойчивой и эффективной. Загрузка (Load) претерпела существенные изменения в подходах, особенно, с появлением хранилищ, предназначенных для конкретных разделов управления данными. Теперь система способна одновременно передавать и загружать данные в несколько технологических стеков разных типов без ущерба стабильности и качеству.