Что такое Data Warehouse (DWH) и как помогает бизнесу?
1. Что такое DWH?
2. Чем отличается DWH от обычной базы данных?
3. Как бизнес использует DWH?
4. DWH и бизнес-аналитика
5. Структура DWH
Что такое DWH?
Хранилище данных – единая зона хранения данных, в которой в детальном или агрегированном виде сохраняются данные как единая версия правды для последующей отчётности или ad-hoc аналитики. Отчётность, которая строится на данных из хранилища, бывает управленческая, финансовая, регуляторная или аналитическая. Корпоративное хранилище данных специально строится в т.н. оффлайн-режиме (то есть опаздывает на один день по отношению к сформированным данным), чтобы иметь возможность делать агрегаты и предоставлять показатели, которые демонстрируют, каким образом изменяются параметры бизнеса, на основании каких продуктов бизнес получает прибыль или несёт убытки, каким образом формируются затраты и т.д. Всё это делается специально для того, чтобы можно было получить дневной срез или более серьёзный исторический взгляд на данные, не обращаясь напрямую к источникам данных. Основная задача хранилищ изначально и состояла в том, чтобы:
- отделить источники данных и не нагружать их дополнительной аналитикой и отчётностью;
- структурировать информацию таким образом, чтобы бизнес-пользователь мог быстро и легко пользоваться своими отчётами;
- объединить разноформатные данные из различных систем в единую структуру для удобства работы и возможности аналитики с использованием данных из разных систем.
Чем отличается DWH от обычной базы данных?
Классическое применение баз данных обычно раскладывается на базы, которые находятся в рамках каких-либо OLTP-систем, т.е. систем, которые используются в качестве репозиториев, или для хранилищ данных. То есть хранилища всегда используют базы данных для своей работы, однако эти данные структурированы таким образом, чтобы их можно было максимально быстро предоставить в качестве отчётности или для построения агрегатов. Такая часть хранилища называется витриной данных. Она позволяет получить отчёт в течение 2-3 секунд, даже если дневной объём данных содержит в себе миллионы или миллиарды записей. Поэтому хранилище – это структурированная база данных, и структурирование – это отдельная часть проекта по внедрению хранилища, поскольку оно должно быть построено так, чтобы работа была быстрой, но при этом была учтена вся историчность изменений данных. Сама применимость базы данных под хранилище отличается от применимости любой другой базы данных.
Как бизнес использует DWH?
Хранилище данных – единая версия правды, которая может быть использована и другими системами, и бизнес-пользователями, и аналитиками. Наличие лишний записей в хранилище или отсутствие нужной информации может привести к тому, что хранилище фактически потеряет свою функцию именно по той причине, что оно не валидно. Основными бизнес-пользователями хранилища выступают:
- различные финансовые структуры. Они используют хранилище для обработки управленческой отчётности, на основании которой принимают свои решения о дальнейшем развитии бизнеса;
- все виды подразделений, которые работают с продажами, маркетингом и производством;
- все подразделения, деятельность которых связана с регуляторной отчётностью.
Вторым видом использования является ad-hoc аналитика. Она представляет собой возможность использования ранее рассчитанных показателей для аналитических исследований. Однако сейчас всё больше эта функция перекладывается на уровень озёр данных именно за счёт того, что озёра более эффективны для бизнес-пользователей за счёт возможности подтягивать дополнительную информацию. В хранилище же сложно подтянуть себе для дальнейших исследований дополнительную информацию, которой ещё нет в системных источниках. Т.е. в хранилище бизнес-пользователь ограничен тем набором данных, который в хранилище уже загружен, а озеро снимает эту проблему. Таким образом, применение хранилища для ad-hoc аналитики характерно скорее для среднего бизнеса, либо крупного бизнеса, который пока не готов к использованию озёр.
DWH и бизнес-аналитика
Хранилище данных предназначено в первую очередь для анализа оттока и для предиктивной аналитики. Для этого было создано много аналитических решений, в том числе весьма мощных, использующих модели на основе данных, чаще всего – детальных данных. Однако сейчас в бизнес-аналитике фокус постепенно смещается в сторону использования озёр данных.
Структура DWH
О структуре хранилища данных можно рассуждать с классической точки зрения, а можно взглянуть более широко. Если мы говорим о классической схеме, то хранилище обычно содержит в себе детальный слой информации и слой витрин данных. Есть отдельное направление развития хранилищ данных, при котором витрины заменяются на OLAP-кубы. В этом случае средства, которые работают с кубами, также пользуются детальной информацией, но витрины, заполняемые данными в жёстком режиме, при этом не строятся.
Однако для наполнения хранилища данных чаще всего вводятся дополнительные зоны хранения данных при их перемещении для того, чтобы данные приобрели свою ценность и единую версию:
- ODS (Operational Data Store) – зона реплики системы-источника. Это зона данных, в которой в первую очередь перегружаются копии системы-источника, той части, которая нужна для формирования хранилища, чтобы быстро отпустить систему-источник и не влиять на неё своими запросами. Как правило, эта зона наполняется раз в сутки, после полуночи. Иногда это происходит чаще: например, в том случае, если на данных из этой зоны формируется оперативная отчётность, допустим, отчёт о продажах за последний час. Эта зона обычно обладает неконсолидированным набором данных, фактически копирующим структуру системы-источника.
- Набор стейджингов, или дополнительных зон хранения данных, которые используются, во-первых, для приведения данных в состояние требуемого качества, а также для консолидации данных разного формата. Подобные перемещения данных между зонами обычно решаются с помощью средств класса ETL (Extract, Transform, Load). Чтобы использовать данные хранилища, обычно применяются решения класса BI (Business Intelligence), средства построения отчётности и ad-hoc аналитики, средства дата-майнинга, т.е. предиктивной аналитики, или любые системы компании, которые уже должны пользоваться чистыми данными, собранными в компании.
Автор: Олег Гиацинтов, технический директор DIS Group
Обновлено: 23.01.2024
Опубликовано: 27.04.2022