Top.Mail.Ru

Что такое Data Warehouse (DWH) и как помогает бизнесу?

  1. Что такое DWH?
  2. Чем отличается DWH от обычной базы данных?
  3. Как бизнес использует DWH
  4. DWH и бизнес-аналитика
  5. Структура DWH
  6. Корпоративное хранилище данных
  7. Облачное хранилище данных
  8. Архитектура хранилища данных
  9. Data Warehouse и анализ данных

Что такое DWH?

Хранилище данных – единая зона хранения данных, в которой в детальном или агрегированном виде сохраняются данные как единая версия правды для последующей отчётности или ad-hoc аналитики. Отчётность, которая строится на данных из хранилища, бывает управленческая, финансовая, регуляторная или аналитическая. Корпоративное хранилище данных специально строится в т.н. оффлайн-режиме (то есть опаздывает на один день по отношению к сформированным данным), чтобы иметь возможность делать агрегаты и предоставлять показатели, которые демонстрируют, каким образом изменяются параметры бизнеса, на основании каких продуктов бизнес получает прибыль или несёт убытки, каким образом формируются затраты и т.д. Всё это делается специально для того, чтобы можно было получить дневной срез или более серьёзный исторический взгляд на данные, не обращаясь напрямую к источникам данных. Основная задача хранилищ изначально и состояла в том, чтобы:

  • отделить источники данных и не нагружать их дополнительной аналитикой и отчётностью;
  • структурировать информацию таким образом, чтобы бизнес-пользователь мог быстро и легко пользоваться своими отчётами;
  • объединить разноформатные данные из различных систем в единую структуру для удобства работы и возможности аналитики с использованием данных из разных систем.

Чем отличается DWH от обычной базы данных?

Классическое применение баз данных обычно раскладывается на базы, которые находятся в рамках каких-либо OLTP-систем, т.е. систем, которые используются в качестве репозиториев, или для хранилищ данных. То есть хранилища всегда используют базы данных для своей работы, однако эти данные структурированы таким образом, чтобы их можно было максимально быстро предоставить в качестве отчётности или для построения агрегатов. Такая часть хранилища называется витриной данных. Она позволяет получить отчёт в течение 2-3 секунд, даже если дневной объём данных содержит в себе миллионы или миллиарды записей. Поэтому хранилище – это структурированная база данных, и структурирование – это отдельная часть проекта по внедрению хранилища, поскольку оно должно быть построено так, чтобы работа была быстрой, но при этом была учтена вся историчность изменений данных. Сама применимость базы данных под хранилище отличается от применимости любой другой базы данных.

Как бизнес использует DWH?

Хранилище данных – единая версия правды, которая может быть использована и другими системами, и бизнес-пользователями, и аналитиками. Наличие лишний записей в хранилище или отсутствие нужной информации может привести к тому, что хранилище фактически потеряет свою функцию именно по той причине, что оно не валидно. Основными бизнес-пользователями хранилища выступают:

  • различные финансовые структуры. Они используют хранилище для обработки управленческой отчётности, на основании которой принимают свои решения о дальнейшем развитии бизнеса;
  • все виды подразделений, которые работают с продажами, маркетингом и производством;
  • все подразделения, деятельность которых связана с регуляторной отчётностью.

Вторым видом использования является ad-hoc аналитика. Она представляет собой возможность использования ранее рассчитанных показателей для аналитических исследований. Однако сейчас всё больше эта функция перекладывается на уровень озёр данных именно за счёт того, что озёра более эффективны для бизнес-пользователей за счёт возможности подтягивать дополнительную информацию. В хранилище же сложно подтянуть себе для дальнейших исследований дополнительную информацию, которой ещё нет в системных источниках. Т.е. в хранилище бизнес-пользователь ограничен тем набором данных, который в хранилище уже загружен, а озеро снимает эту проблему. Таким образом, применение хранилища для ad-hoc аналитики характерно скорее для среднего бизнеса, либо крупного бизнеса, который пока не готов к использованию озёр.

DWH и бизнес-аналитика

Хранилище данных предназначено в первую очередь для анализа оттока и для предиктивной аналитики. Для этого было создано много аналитических решений, в том числе весьма мощных, использующих модели на основе данных, чаще всего – детальных данных. Однако сейчас в бизнес-аналитике фокус постепенно смещается в сторону использования озёр данных.

Структура DWH

О структуре хранилища данных можно рассуждать с классической точки зрения, а можно взглянуть более широко. Если мы говорим о классической схеме, то хранилище обычно содержит в себе детальный слой информации и слой витрин данных. Есть отдельное направление развития хранилищ данных, при котором витрины заменяются на OLAP-кубы. В этом случае средства, которые работают с кубами, также пользуются детальной информацией, но витрины, заполняемые данными в жёстком режиме, при этом не строятся.

Однако для наполнения хранилища данных чаще всего вводятся дополнительные зоны хранения данных при их перемещении для того, чтобы данные приобрели свою ценность и единую версию:

  • ODS (Operational Data Store) – зона реплики системы-источника. Это зона данных, в которой в первую очередь перегружаются копии системы-источника, той части, которая нужна для формирования хранилища, чтобы быстро отпустить систему-источник и не влиять на неё своими запросами. Как правило, эта зона наполняется раз в сутки, после полуночи. Иногда это происходит чаще: например, в том случае, если на данных из этой зоны формируется оперативная отчётность, допустим, отчёт о продажах за последний час. Эта зона обычно обладает неконсолидированным набором данных, фактически копирующим структуру системы-источника.
  • Набор стейджингов, или дополнительных зон хранения данных, которые используются, во-первых, для приведения данных в состояние требуемого качества, а также для консолидации данных разного формата. Подобные перемещения данных между зонами обычно решаются с помощью средств класса ETL (Extract, Transform, Load). Чтобы использовать данные хранилища, обычно применяются решения класса BI (Business Intelligence), средства построения отчётности и ad-hoc аналитики, средства дата-майнинга, т.е. предиктивной аналитики, или любые системы компании, которые уже должны пользоваться чистыми данными, собранными в компании.

Корпоративное хранилище данных

Корпоративным хранилищем данных (enterprise data warehouse, EDW) называют хранилище данных, включающее все данные организации из всех источников в масштабах всего бизнеса. Источниками данных в EDW могут быть операционные и транзакционные учетные контуры предприятия (ERP, CRM, бухгалтерские и складские платформы, базы данных Интернета вещей (IoT). Отличия EDW от DWH в  охвате данных. Например, DWH в рамках корпоративного хранилища данных может охватывать только данные отдельного бизнес-юнита или направления (в этом случае можно говорить о витрине данных). Таким образом, EDW — единый репозиторий всех данных организации, которые хранятся в DWH уровня бизнес-юнита или направления.

Данные для EDW, как было указано выше, перед включением в корпоративное хранилище данных подготавливают особым образом, чтобы они всегда находились в структурированном и готовом для использования формате, в том числе для дальнейшей обработки и анализа.

Облачное хранилище данных

Облачное хранилище данных (Cloud Data Warehouse, CDW) — разновидность DWH, данные в котором хранятся в публичном или корпоративном облаке. Они оптимизированы для быстрого масштабирования, бизнес-аналитики и адаптации для различных пользовательских сценариев. Облачное DWH в максимальной степени соответствует взрывному росту генерируемых в бизнесе данных, наблюдаемому в последние годы. Вторая особенность облачного DWH –   быстрая адаптация под постоянно меняющиеся потребности как бизнеса в целом, так и различных групп конечных бизнес-пользователей.

Поскольку потребители данных облачного DWH не привязаны к физическому центру обработки данных, объем такого DWH динамически меняется для почти мгновенной подстройки под быстро меняющиеся бюджеты и запросы бизнеса. Как и традиционное корпоративное DWH, облачное хранилище данных может работать с различными разрозненными источниками данных (бухгалтерская отчетность, ERP, CRM, IoT и т.д.).

К ключевым особенностям облачного хранилища можно отнести массово-параллельную архитектуру (Massive Parallel Processing, MPP) для высокопроизводительной обработки множества запросов к большим объемам данных. Архитектуру MPP отличает множество серверов, работающих параллельно, что позволяет гибко распределять нагрузку как с точки зрения обработки, так и ввода-вывода (I/O) данных.    

Архитектура хранилища данных

В подавляющем большинстве случаев архитектура DWH описывается трех- или двухуровневой моделями. Трехуровневая архитектура включает нижний уровень, основа которого – сервер базы данных (database server). По сути, на этом уровне речь идет о Data Warehouse, состоящем из озёр данных, реляционных баз данных (в них данные представлены в виде связанных таблиц) или облачных DWH.

На среднем уровне реализуются средства аналитики, а также средства преобразования данных для последующей обработки. Верхний уровень позволяет пользователям загружать и извлекать необходимые данные, генерировать отчеты. Эти функции реализованы посредством             клиентского интерфейса, присутствующем в любом хранилище данных.

Двухуровневая архитектура по сравнению с трехуровневой несколько проще, поскольку в таком Data Warehouse сервер базы данных интегрирован с блоком аналитики и обработки данных.

Data Warehouse и анализ данных

Бизнес в современных условиях не может существовать без анализа данных. Это аксиома. Но важно понимать, что никакая сколько-нибудь работоспособная корпоративная система анализа данных невозможна без Data Warehouse. Поэтому архитектура хранилища данных в бизнесе должна быть нацелена на его центральную функцию: быть единым репозиторием, который структурирует и хранит все данные для последующей бизнес-аналитики.

Для целей анализа данных архитектура Data Warehouse должна включать инструменты извлечения, преобразования и загрузки необходимых данных (extract, transform, and load, ETL), базы данных Data Warehouse, инструментов доступа к ней и средств генерации отчетности. Комбинация перечисленных инструментов позволяет автоматизировать процесс анализа данных, уменьшив или сведя к нулю задачи написания кода для конвейерной обработки данных.

ETL предназначены для извлечения данных из исходных систем, преобразования их в нужный формат и загрузки подготовленных данных в Data Warehouse. Собственно база данных хранит структурированные данные, включаемые в отчетность. Инструменты доступа дают возможность аналитикам взаимодействовать с данными в  Data Warehouse. Средства генерации отчетности по сути представляют собой интерфейс бизнес-аналитики, в котором помимо непосредственно аналитических инструментов должен быть блок визуализации данных, представленных в хранилище.



Автор
Олег Гиацинтов
Технический директор DIS Group
Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов.

Поделиться
{{ responsive_img( url='/../../static/upload/news/detail-image.jpg',lazy=true, img_attrs={ class: "img-fluid lazy" }, formats=['webp'] ) }}

Рассылка новостей

    Продолжая пользоваться сайтом, вы даёте Согласие на автоматический сбор и анализ ваших данных, необходимых для работы сайта и его улучшения, использование файлов cookie.