Новая платформа хранения данных: опыт Национальной Платежной Корпорации

26 марта приглашаем вас на вебинар, посвященный Селене – инновационной платформе хранения данных, созданной на архитектуре Data Lakehouse. Национальная Платёжная Корпорация Казахстана уже внедрила это решение и готова поделиться практическим опытом использования. На вебинаре мы подробно разберем, какие возможности открывает новая технология и какие задачи она помогает решать. Участники узнают:
  • Как оптимизировать хранение и обработку больших объемов данных
  • Какие преимущества дает Data Lakehouse по сравнению с традиционными хранилищами
  • Как интегрировать платформу в существующую IT-инфраструктуру
  • Как Искусственный интеллект и аналитические механизмы улучшают работу с данными
Программа вебинара:
  • Введение и обзор ключевых возможностей Селены
  • Живая демонстрация работы платформы
  • Реальный кейс: опыт внедрения Национальной Платёжной Корпорацией Казахстана
  • Сессия вопросов и ответов
Этот вебинар — отличная возможность познакомиться с платформой до ее официального представления на конференции – Дата Саммит 2025. Регистрируйтесь и присоединяйтесь к обсуждению будущего хранения данных.

Рекомендуем также

Уплотнение данных в StarRocks в архитектуре с общим доступом к данным

24 февраля 2025
Уплотнение данных повышает эффективность и производительность хранилища, в том числе при использовании StarRocks. Уплотнение не ограничивается объединением небольших файлов в крупные, освобождением пространства и оптимизацией структуры данных для быстрого чтения и записи. Чтобы получить больше преимуществ, узнайте, как работает уплотнение и как оно влияет на StarRocks. В этой статье вы рассмотрим, как уплотнение в архитектурах с общим доступом к данным помогает оптимизировать работу со StarRocks, и дадим простые советы по реализации уплотнения данных в вашей среде.

Что дает уплотнение данных

Рассмотрим пример, демонстрирующий пользу уплотнения данных. Если вы уже эксперт в этой области, перейдите к следующему разделу: На схеме ниже после уплотнения файлов версий 1 и 2 удаляются устаревшие данные из версии 1 (id = 2, value = 11, id = 5, value = 30), что приводит к созданию нового файла данных версии 3.
Рис. 1. Пример уплотнения Уплотнение дает несколько преимуществ:
  • Повышение производительности запросов. При записи в базу данных или озеро данных со временем данные фрагментируются, разделяясь по множеству файлов или сегментов. Путем уплотнения эти фрагменты объединяются в более крупные и цельные блоки, что позволяет сократить количество операций ввода-вывода при чтении данных и тем самым ускорить выполнение запросов. Кроме того, уплотнение влияет на выполнение операции order by. После уплотнения все данные объединяются в заданном порядке, поэтому их не приходится сортировать при поиске.
  • Освобождение пространства. StarRocks использует LSM-деревья, и при частых операциях записи в разных сегментах накапливаются удаленные и устаревшие данные. Уплотнение удаляет ненужные данные, освобождая место.
  • Предотвращение роста числа файлов. При постоянной записи данных быстро растет число мелких файлов. При уплотнении они объединяются в более крупные, что упрощает работу с метаданными и экономит память.
Функция уплотнения встроена в StarRocks. В архитектуре без разделения ресурсов (Shared-Nothing) она реализовано как набор потоков на бэкенде, которые выполняются периодически согласно политике уплотнения. В архитектуре с общим доступом к данным StarRocks оптимизирует работу: фронтенд управляет планированием задач, а бэкенд отвечает за их исполнение. Благодаря такому гибкому разделению можно поручить уплотнение группе вычислительных узлов, чтобы оно выполнялось независимо от пользовательских рабочих нагрузок и не препятствовало им.

Как работает уплотнение в StarRocks

Рассмотрев принципы уплотнения в общих чертах, давайте узнаем, как оно работает в StarRocks.

Управление версиями

Процесс уплотнения похож на операцию импорта, при которой каждый раз на стороне фронтенда создается новая версия, маркируемая в партиции. После завершения импорта последовательно увеличивается номер видимой версии данных в партиции. Партиция может содержать несколько бакетов, или tablet (см. раздел о распределении данных) с единым номером версии данных. Даже если операция импорта затрагивает только часть бакетов, после подтверждения транзакции версия синхронно обновляется во всех бакетах в партиции.
Рис 2. Управление версиями при уплотнении Например, на схеме выше партиция X содержит бакеты от 1 до N, а текущая видимая версия имеет номер 12. После подтверждения новой транзакции импорта номер видимой версии в партиции X обновляется до 13.

Архитектура

В архитектуре с общим доступом к данным за уплотнение отвечают два процесса: планировщик и исполнитель. Планировщик запускает задания уплотнения через удаленный вызов процедуры, а исполнитель выполняет их. В качестве планировщика выступает фронтенд-узел, а бэкенд-узлы и вычислительные узлы выполняют уплотнение. У каждого исполнителя есть пул потоков для заданий уплотнения.
Рис. 3. Фронтенд-узел и вычислительные узлы для уплотнения в StarRocks

Планирование уплотнения

На фронтенде периодически запускается поток планировщика уплотнения, отвечающий за планирование всех соответствующих задач. В качестве базовой единицы для планирования используется партиция. Для каждой партиции фронтенд хранит информацию о коэффициенте уплотнения, по которому определяется приоритет уплотнения для всех бакетов внутри партиции: чем выше коэффициент, тем больше необходимость в консолидации данных в партиции. При каждом запуске своего потока планировщик уплотнения выбирает партиции с наибольшим коэффициентом и планирует задачи по уплотнению. Планировщик также контролирует максимальное количество задач, выполняемых за один цикл. Логика планирования задач проста: планировщик получает информацию обо всех бакетах в партиции и планирует задачу уплотнения для каждого вычислительного узла. Задача содержит список бакетов, для которых конкретный вычислительный узел должен выполнить уплотнение. Схематичное описание процесса:
Рис. 4. Процесс планирования уплотнения На схеме выше необходимо выполнить уплотнение в двух партициях: X и Y. Партиция X содержит 4 бакета (1–4), а партиция Y — 3 (5–7). Планировщик составляет следующий план:
  • Для партиции X: бакет 2 и бакет 4 находятся на вычислительном узле 1, а бакет 1 и бакет 3 — на вычислительном узле 2. Соответственно, для партиции X создается две задачи уплотнения: задача 1 включает бакеты 2 и 4, а задача 2 — бакеты 1 и 3.
  • Для партиции Y: бакет 5 и бакет 7 находятся на вычислительном узле 1, а бакет 6 — на вычислительном узле 2. Соответственно, для партиции Y создается две задачи уплотнения: задача 3 включает бакеты 5 и 7, а задача 4 — бакет 6.
Каждая задача затем отправляется на свой вычислительный узел.

MVCC и переработка данных

В StarRocks для хранения и вычислений используется модель MVCC. Структура хранения приводится на схеме:
Рис. 5. Пример структуры хранения Выполняется три транзакции импорта данных:
  • Загрузка 1 создает файлы 1 и 2, в результате чего возникают метаданные бакета V1 со списком {файл 1, файл 2}.
  • Загрузка 2 создает файлы 3 и 4, в результате чего возникают метаданные бакета V2 со списком { файл 1, файл 2, файл 3, файл 4}.
  • Загрузка 3 создает файл 5, в результате чего возникают метаданные бакета V3 со списком { файл 1, файл 2, файл 3, файл 4, файл 5}.
Фоновые задачи уплотнения также создают новые версии данных, объединяя мелкие файлы в более крупные, чтобы сократить количество операций произвольного чтения и записи и устранить дублирующиеся данные. Каждая операция уплотнения создает новую версию. Например, если транзакция 4 объединяет файлы 1–4 в файл 6, то в метаданных бакета V4 будет содержаться список {файл 5, файл 6}. Без уплотнения файлы данных нельзя удалить. Например, метаданные бакета V3 ссылаются на файлы 1–4, но после уплотнения файлы 1–4 можно удалить, когда к версиям V1, V2 и V3 не будут обращаться, потому что все их содержимое перенесено в файл 6. Текущие версия данных приводится ниже:
Рис. 6. Пример ссылок на бакет Очевидно, что исходные файлы данных можно удалить только после завершения уплотнения (хотя очистка метаданных бакетов зависит от других правил). Таким образом, самый простой способ определить, можно ли удалить файл, — проверить, что никакие метаданные бакетов больше не ссылаются на него.

Настройка уплотнения в StarRocks: практическое руководство

Мы разобрались с принципами работы уплотнения в StarRocks, а теперь рассмотрим его оптимизацию.

Проверка коэффициента уплотнения

Примечание. Следующие команды выполняются только на ведущем фронтенд-узле. Для каждой партиции StarRocks рассчитывает коэффициент уплотнения, который отражает текущее состояние объединения файлов данных: чем выше значение, тем ниже степень объединения файлов. StarRocks предоставляет команды для просмотра текущего коэффициента уплотнения партиции. На основе этого значения фронтенд запускает задачи уплотнения, а пользователи определяют, не накопилось ли в партиции слишком много версий:
Метод 1.
MySQL [(none)]> show proc ‘/DBS/load_benchmark/store_sales/partitions’; +————-+—————+—————-+—————-+————-+——–+————–+——-+——————————+———+———-+———–+———-+————+——-+——-+——-+ | PartitionId | PartitionName | CompactVersion | VisibleVersion | NextVersion | State | PartitionKey | Range | DistributionKey | Buckets | DataSize | RowCount | CacheTTL | AsyncWrite | AvgCS | P50CS | MaxCS | +————-+—————+—————-+—————-+————-+——–+————–+——-+——————————+———+———-+———–+———-+————+——-+——-+——-+ | 38028 | store_sales | 913 | 921 | 923 | NORMAL | | | ss_item_sk, ss_ticket_number | 64 | 15.6GB | 273857126 | 2592000 | false | 10.00 | 10.00 | 10.00 | +————-+—————+—————-+—————-+————-+——–+————–+——-+——————————+———+———-+———–+———-+————+——-+——-+——-+ 1 row in set (0.20 sec)
Метод 2.
В версиях 3.1.9 и 3.2.4 мы добавили системную таблицу partitions_meta, чтобы пользователи могли легко просматривать информацию обо всех партициях с помощью сложных SQL-запросов: mysql> select * from information_schema.partitions_meta order by Max_CS; +————–+—————————-+—————————-+————–+—————–+—————–+———————-+————–+—————+—————–+—————————————–+———+—————–+—————-+———————+—————————–+————–+———+———–+————+——————+———-+——–+——–+——————————————————————————————————–+ | DB_NAME | TABLE_NAME | PARTITION_NAME | PARTITION_ID | COMPACT_VERSION | VISIBLE_VERSION | VISIBLE_VERSION_TIME | NEXT_VERSION | PARTITION_KEY | PARTITION_VALUE | DISTRIBUTION_KEY | BUCKETS | REPLICATION_NUM | STORAGE_MEDIUM | COOLDOWN_TIME | LAST_CONSISTENCY_CHECK_TIME | IS_IN_MEMORY | IS_TEMP | DATA_SIZE | ROW_COUNT | ENABLE_DATACACHE | AVG_CS | P50_CS | MAX_CS | STORAGE_PATH | +————–+—————————-+—————————-+————–+—————–+—————–+———————-+————–+—————+—————–+—————————————–+———+—————–+—————-+———————+—————————–+————–+———+———–+————+——————+———-+——–+——–+——————————————————————————————————–+ | tpcds_1t | call_center | call_center | 11905 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | cc_call_center_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 12.3KB | 42 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11906/11905 | | tpcds_1t | web_returns | web_returns | 12030 | 3 | 3 | 2024-03-17 08:40:48 | 4 | | | wr_item_sk, wr_order_number | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 3.5GB | 71997522 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/12031/12030 | | tpcds_1t | warehouse | warehouse | 11847 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | w_warehouse_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 4.2KB | 20 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11848/11847 | | tpcds_1t | ship_mode | ship_mode | 11851 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | sm_ship_mode_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 1.7KB | 20 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11852/11851 | | tpcds_1t | customer_address | customer_address | 11790 | 0 | 2 | 2024-03-17 08:32:19 | 3 | | | ca_address_sk | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 120.9MB | 6000000 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11791/11790 | | tpcds_1t | time_dim | time_dim | 11855 | 0 | 2 | 2024-03-17 08:30:48 | 3 | | | t_time_sk | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 864.7KB | 86400 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11856/11855 | | tpcds_1t | web_sales | web_sales | 12049 | 3 | 3 | 2024-03-17 10:14:20 | 4 | | | ws_item_sk, ws_order_number | 128 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 47.7GB | 720000376 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/12050/12049 | | tpcds_1t | store | store | 11901 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | s_store_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 95.6KB | 1002 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11902/11901 | | tpcds_1t | web_site | web_site | 11928 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | web_site_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 13.4KB | 54 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11929/11928 | | tpcds_1t | household_demographics | household_demographics | 11932 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | hd_demo_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 2.1KB | 7200 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11933/11932 | | tpcds_1t | web_page | web_page | 11936 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | wp_web_page_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 43.5KB | 3000 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11937/11936 | | tpcds_1t | customer_demographics | customer_demographics | 11809 | 0 | 2 | 2024-03-17 08:30:49 | 3 | | | cd_demo_sk | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 2.7MB | 1920800 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11810/11809 | | tpcds_1t | reason | reason | 11874 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | r_reason_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 1.9KB | 65 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11875/11874 | | tpcds_1t | promotion | promotion | 11940 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | p_promo_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 69.6KB | 1500 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11941/11940 | | tpcds_1t | income_band | income_band | 11878 | 0 | 2 | 2024-03-17 08:30:48 | 3 | | | ib_income_band_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 727B | 20 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11879/11878 | | tpcds_1t | catalog_page | catalog_page | 11944 | 0 | 2 | 2024-03-17 08:30:52 | 3 | | | cp_catalog_page_sk | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 1.8MB | 30000 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11945/11944 | | tpcds_1t | item | item | 11882 | 0 | 2 | 2024-03-17 08:30:51 | 3 | | | i_item_sk | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 37.1MB | 300000 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11883/11882 | | tpcds_1t | store_returns | store_returns | 11755 | 3 | 3 | 2024-03-17 09:02:48 | 4 | | | sr_item_sk, sr_ticket_number | 32 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 11.3GB | 287999764 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11756/11755 | | tpcds_1t | date_dim | date_dim | 11828 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | d_date_sk | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 1.5MB | 73049 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11829/11828 | | tpcds_1t | catalog_sales | catalog_sales | 12215 | 3 | 3 | 2024-03-17 11:44:37 | 4 | | | cs_item_sk, cs_order_number | 256 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 94.7GB | 1439982416 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/12216/12215 | | tpcds_1t | store_sales | store_sales | 12474 | 3 | 3 | 2024-03-17 13:33:04 | 4 | | | ss_item_sk, ss_ticket_number | 256 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 133.4GB | 2879987999 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/12475/12474 | | _statistics_ | histogram_statistics | histogram_statistics | 11729 | 0 | 1 | 2024-03-17 08:29:45 | 2 | | | table_id, column_name | 10 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 0B | 0 | 1 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10004/11730/11729 | | _statistics_ | external_column_statistics | external_column_statistics | 11742 | 0 | 1 | 2024-03-17 08:29:45 | 2 | | | table_uuid, partition_name, column_name | 10 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 0B | 0 | 1 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10004/11743/11742 | | tpcds_1t | catalog_returns | catalog_returns | 12180 | 3 | 3 | 2024-03-17 08:51:32 | 4 | | | cr_item_sk, cr_order_number | 32 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 7.4GB | 143996756 | 0 | 0 | 0 | 0 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/12181/12180 | | _statistics_ | table_statistic_v1 | table_statistic_v1 | 11703 | 0 | 4 | 2024-03-17 10:24:32 | 5 | | | table_id, column_name, db_id | 10 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 55KB | 77 | 1 | 2.8 | 3 | 3 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10004/11704/11703 | | tpcds_1t | inventory | inventory | 11963 | 3 | 3 | 2024-03-17 08:52:40 | 4 | | | inv_item_sk | 64 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 1.4GB | 783000000 | 0 | 1.046875 | 0 | 4 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11964/11963 | | tpcds_1t | customer | customer | 11909 | 0 | 2 | 2024-03-17 08:33:36 | 3 | | | c_customer_sk | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 640.6MB | 12000000 | 0 | 3.0625 | 3 | 5 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10328/11910/11909 | | _statistics_ | column_statistics | column_statistics | 11716 | 14 | 23 | 2024-03-17 10:19:27 | 24 | | | table_id, partition_id, column_name | 10 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 1.4MB | 348 | 1 | 7.7 | 8 | 9 | s3://starrocks-cloud-data/dingkai/536a3c77-52c3-485a-8217-781734a970b1/db10004/11717/11716 | +————–+—————————-+—————————-+————–+—————–+—————–+———————-+————–+—————+—————–+—————————————–+———+—————–+—————-+———————+—————————–+————–+———+———–+————+——————+———-+——–+——–+——————————————————————————————————–+ 28 rows in set (0.04 sec) Обратите внимание на следующие параметры:
  • AvgCS: средний коэффициент уплотнения всех бакетов в текущей партиции.
  • MaxCS: максимальный коэффициент уплотнения всех бакетов в текущей партиции.

Просмотр задач уплотнения

При импорте данных система непрерывно планирует задачи уплотнения и отправляет их на вычислительный узел для выполнения. Мы можем просмотреть текущий статус задач уплотнения.

Команды для задач уплотнения

Следующая команда позволяет просмотреть общий статус всех задач уплотнения в системе: MySQL [(none)]> show proc ‘/compactions’; +—————————————————-+——–+———————+————+———————+———————————————————————————+ | Partition | TxnID | StartTime | CommitTime | FinishTime | Error | +—————————————————-+——–+———————+————+———————+———————————————————————————+ | load_benchmark.store_sales.store_sales | 197562 | 2023-05-24 15:50:33 | 2023-05-24 15:51:00 | 2023-05-24 15:51:02 | NULL | +—————————————————-+——–+———————+————+———————+———————————————————————————+ 13 rows in set (0.21 sec) Как видите, сейчас выполняется одна задача уплотнения:
  • Partition: партиция, в которой выполняется задача.
  • TxnID: идентификатор транзакции, назначенный текущей задаче фронтендом.
  • StartTime: время начала задачи.
  • CommitTime: время подтверждения задачи.
  • FinishTime: время завершения задачи.
  • Error: сведения об ошибках или NULL, если ошибок нет.
Эта команда также показывает общий статус задач уплотнения для каждой партиции. Каждая задача уплотнения делится на несколько подзадач на уровне бакета. Следующая команда отображает ход выполнения каждой подзадачи: MySQL [(none)]> select * from information_schema.be_cloud_native_compactions where TXN_ID = 197562; +——-+——–+———–+———+———+——+———————+———————+———-+——–+ | BE_ID | TXN_ID | TABLET_ID | VERSION | SKIPPED | RUNS | START_TIME | FINISH_TIME | PROGRESS | STATUS | +——-+——–+———–+———+———+——+———————+———————+———-+——–+ | 36027 | 197562 | 38033 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:38 | 100 | OK | | 36027 | 197562 | 38038 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:38 | 100 | OK | | 36027 | 197562 | 38039 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:39 | 100 | OK | | 36027 | 197562 | 38040 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:39 | 100 | OK | | 36027 | 197562 | 38044 | 365 | 0 | 1 | 2023-05-24 15:50:38 | 2023-05-24 15:50:42 | 100 | OK | | 36027 | 197562 | 38047 | 365 | 0 | 1 | 2023-05-24 15:50:38 | 2023-05-24 15:50:43 | 100 | OK | | 36027 | 197562 | 38055 | 365 | 0 | 1 | 2023-05-24 15:50:39 | 2023-05-24 15:50:43 | 100 | OK | | 36027 | 197562 | 38056 | 365 | 0 | 1 | 2023-05-24 15:50:39 | 2023-05-24 15:50:43 | 100 | OK | | 36027 | 197562 | 38058 | 365 | 0 | 1 | 2023-05-24 15:50:42 | 2023-05-24 15:50:47 | 100 | OK | | 36027 | 197562 | 38060 | 365 | 0 | 1 | 2023-05-24 15:50:43 | 2023-05-24 15:50:47 | 100 | OK | | 36027 | 197562 | 38063 | 365 | 0 | 1 | 2023-05-24 15:50:43 | 2023-05-24 15:50:48 | 100 | OK | | 36027 | 197562 | 38066 | 365 | 0 | 1 | 2023-05-24 15:50:43 | 2023-05-24 15:50:48 | 100 | OK | | 36027 | 197562 | 38070 | 365 | 0 | 1 | 2023-05-24 15:50:47 | NULL | 85 | OK | | 36027 | 197562 | 38071 | 365 | 0 | 1 | 2023-05-24 15:50:47 | NULL | 61 | OK | | 36027 | 197562 | 38080 | 365 | 0 | 1 | 2023-05-24 15:50:48 | NULL | 33 | OK | | 36027 | 197562 | 38083 | 365 | 0 | 1 | 2023-05-24 15:50:48 | NULL | 29 | OK | | 36027 | 197562 | 38085 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 36027 | 197562 | 38086 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 36027 | 197562 | 38090 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 36027 | 197562 | 38091 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 36027 | 197562 | 38094 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 36026 | 197562 | 38031 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:39 | 100 | OK | | 36026 | 197562 | 38037 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:38 | 100 | OK | | 36026 | 197562 | 38042 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:38 | 100 | OK | | 36026 | 197562 | 38043 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:38 | 100 | OK | | 36026 | 197562 | 38045 | 365 | 0 | 1 | 2023-05-24 15:50:38 | 2023-05-24 15:50:42 | 100 | OK | | 36026 | 197562 | 38048 | 365 | 0 | 1 | 2023-05-24 15:50:38 | 2023-05-24 15:50:43 | 100 | OK | | 36026 | 197562 | 38049 | 365 | 0 | 1 | 2023-05-24 15:50:38 | 2023-05-24 15:50:43 | 100 | OK | | 36026 | 197562 | 38051 | 365 | 0 | 1 | 2023-05-24 15:50:39 | 2023-05-24 15:50:43 | 100 | OK | | 36026 | 197562 | 38054 | 365 | 0 | 1 | 2023-05-24 15:50:42 | 2023-05-24 15:50:46 | 100 | OK | | 36026 | 197562 | 38057 | 365 | 0 | 1 | 2023-05-24 15:50:43 | 2023-05-24 15:50:47 | 100 | OK | | 36026 | 197562 | 38062 | 365 | 0 | 1 | 2023-05-24 15:50:43 | 2023-05-24 15:50:47 | 100 | OK | | 36026 | 197562 | 38069 | 365 | 0 | 1 | 2023-05-24 15:50:43 | 2023-05-24 15:50:48 | 100 | OK | | 36026 | 197562 | 38073 | 365 | 0 | 1 | 2023-05-24 15:50:46 | NULL | 98 | OK | | 36026 | 197562 | 38074 | 365 | 0 | 1 | 2023-05-24 15:50:47 | NULL | 77 | OK | | 36026 | 197562 | 38075 | 365 | 0 | 1 | 2023-05-24 15:50:47 | NULL | 51 | OK | | 36026 | 197562 | 38077 | 365 | 0 | 1 | 2023-05-24 15:50:48 | NULL | 33 | OK | | 36026 | 197562 | 38078 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 36026 | 197562 | 38079 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 36026 | 197562 | 38081 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 36026 | 197562 | 38082 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 36026 | 197562 | 38084 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 36026 | 197562 | 38089 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 10004 | 197562 | 38032 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:38 | 100 | OK | | 10004 | 197562 | 38034 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:38 | 100 | OK | | 10004 | 197562 | 38035 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:38 | 100 | OK | | 10004 | 197562 | 38036 | 365 | 0 | 1 | 2023-05-24 15:50:34 | 2023-05-24 15:50:38 | 100 | OK | | 10004 | 197562 | 38041 | 365 | 0 | 1 | 2023-05-24 15:50:38 | 2023-05-24 15:50:42 | 100 | OK | | 10004 | 197562 | 38046 | 365 | 0 | 1 | 2023-05-24 15:50:38 | 2023-05-24 15:50:42 | 100 | OK | | 10004 | 197562 | 38050 | 365 | 0 | 1 | 2023-05-24 15:50:38 | 2023-05-24 15:50:42 | 100 | OK | | 10004 | 197562 | 38052 | 365 | 0 | 1 | 2023-05-24 15:50:38 | 2023-05-24 15:50:42 | 100 | OK | | 10004 | 197562 | 38053 | 365 | 0 | 1 | 2023-05-24 15:50:42 | 2023-05-24 15:50:46 | 100 | OK | | 10004 | 197562 | 38059 | 365 | 0 | 1 | 2023-05-24 15:50:42 | 2023-05-24 15:50:47 | 100 | OK | | 10004 | 197562 | 38061 | 365 | 0 | 1 | 2023-05-24 15:50:42 | 2023-05-24 15:50:46 | 100 | OK | | 10004 | 197562 | 38064 | 365 | 0 | 1 | 2023-05-24 15:50:42 | 2023-05-24 15:50:47 | 100 | OK | | 10004 | 197562 | 38065 | 365 | 0 | 1 | 2023-05-24 15:50:46 | NULL | 99 | OK | | 10004 | 197562 | 38067 | 365 | 0 | 1 | 2023-05-24 15:50:46 | NULL | 92 | OK | | 10004 | 197562 | 38068 | 365 | 0 | 1 | 2023-05-24 15:50:47 | NULL | 87 | OK | | 10004 | 197562 | 38072 | 365 | 0 | 1 | 2023-05-24 15:50:47 | NULL | 89 | OK | | 10004 | 197562 | 38076 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 10004 | 197562 | 38087 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 10004 | 197562 | 38088 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 10004 | 197562 | 38092 | 365 | 0 | 0 | NULL | NULL | 0 | OK | | 10004 | 197562 | 38093 | 365 | 0 | 0 | NULL | NULL | 0 | OK | +——-+——–+———–+———+———+——+———————+———————+———-+——–+ 64 rows in set (0.22 sec) Обратите внимание на два поля:
  • PROGRESS: текущий прогресс уплотнения бакета в процентах.
  • STATUS: статус задачи; при возникновении ошибки — подробная информация об ошибке.

Отмена задач уплотнения

Пользователи могут отменять определенные задачи уплотнения следующей командой. Команда выполняется только на ведущем фронтенд-узле: CANCEL COMPACTION WHERE TXN_ID = 123;

Настройка параметров

В StarRocks можно настроить следующие параметры уплотнения в архитектурах с общим доступом к данным.

Параметры фронтенда

# Минимальный коэффициент сжатия; пока значение в партиции ниже этого порога, задачи уплотнения не будут запускаться lake_compaction_score_selector_min_score = 10.0;   # Сколько задач уплотнения можно одновременно запустить на фронтенде # Значение по умолчанию -1, то есть фронтенд автоматически рассчитывает значение на основе числа бэкенд-узлов # Если 0, фронтенд не будет запускать задачи уплотнения lake_compaction_max_tasks = -1;   # Задает число результатов, отображаемых командой show proc ‘/compactions’, по умолчанию 12 lake_compaction_history_size = 12; lake_compaction_fail_history_size = 12; Все эти параметры уплотнения на фронтенде можно задавать динамически с помощью SQL-команд: admin set frontend config (“lake_compaction_max_tasks” = “0”);

Параметры бэкенда/вычислительных узлов

# Задает число потоков, выполняющих задачи уплотнения на бэкенде/вычислительных узлах, по умолчанию 4 # То есть бэкенд сможет выполнять уплотнение одновременно в нескольких бакетах compact_threads = 4   # Размер очереди задач уплотнения на бэкенде, задает максимальное число задач уплотнения, полученных от фронтенда # По умолчанию 100 compact_thread_pool_queue_size = 100   # Максимальное число файлов данных в одной задаче уплотнения, по умолчанию 1000 # На практике рекомендуется установить 100, чтобы задачи выполнялись быстрее и требовали меньше ресурсов max_cumulative_compaction_num_singleton_deltas=100 В последней версии все эти параметры уплотнения на бэкенде можно задавать динамически следующим образом: mysql> update information_schema.be_configs set value = 8 where name = “compact_threads”; Query OK, 0 rows affected (0.01 sec)

Дополнительные рекомендации

Поскольку уплотнение значительно влияет на производительность запросов, рекомендуется отслеживать статус фонового объединения данных в таблицах и партициях. Советы по поддержанию оптимальной производительности:
  1. Отслеживайте коэффициент уплотнения. Задайте оповещения для этой метрики, чтобы следить за срочностью выполнения задач по уплотнению. Шаблон мониторинга StarRocks Grafana включает эту метрику.
  2. Отслеживайте потребление ресурсов. Обращайте особое внимание на потребление памяти при уплотнении. Эта метрика также входит в шаблон мониторинга StarRocks Grafana.
  3. Оптимизируйте параллельное выполнение задач. Увеличьте число параллельных потоков уплотнения на вычислительных узлах в период простоя, чтобы ускорить выполнение задач по уплотнению.

Рекомендуем также

Обоснование, выбор и быстрый старт проекта по внедрению MDM-системы. Реальный опыт: «Сколково Фонд»

Пожалуй, в мире стремительно развивающего искусственного интеллекта и больших данных уже не стоит вопрос о необходимости использования MDM-системы. Но, насколько сложно и ресурснозатратно обосновать и выбрать правильную систему, которая будет отвечать запросам современного бизнеса и стремительно усложняющимся информационным ландшафтам, такой вопрос ещё стоит перед многими компаниями. ​ Приглашаем вас к участию в вебинаре, цель которого, дать несколько полезных советов, применимых на практике, по обоснованию, выбору и грамотному старту проекта по внедрению современной MDM-системы. Основные темы вебинара:
  • Обоснование внедрения MDM-системы для бизнеса;
  • Типы решений и их возможности: разбираемся, как выбрать ​MDM-систему, подходящую для решения задач вашего бизнеса;
  • Анализ MDM-систем исходя и задач заказчика: функционал, общие характеристики;
  • Старт проекта: как избежать наиболее распространённых ошибок;
  • Реальный опыт компании, внедрившей MDM-систему​.
Вебинар будет интересен специалистам CDO, руководителям направлений по работе с данными, директорам по развитию и цифровой трансформации, ИТ-директорам и директорам по данным. Регистрация обязательна. Зарегистрироваться можно на всю серию или отдельные вебинары. Зарегистрированным пользователям вебинары будут доступны в записи после их проведения.

Спикеры

  • Скоробогачев Константин, Технический менеджер DIS Group
  • Чиграй Андрей, Руководитель группы архитектурных решений, Юниверс Дата
  • Андрей Веневцев, Сколково Фонд, Департамент информационных систем и сервисов, директор (направление НСИ)
  • Александр Азарочкин, Главный архитектор, компания ОТР

Получите доступ к полной записи вебинара и дополнительным материалам

Получить запись

Этот вебинар входит в серию «Простыми словами»

Серия вебинаров «Простыми словами» включает в себя 6 практических вебинаров о современных инструментах для эффективного управления данными. Все вебинары серии объединены одной целью – рассказать простыми словами о сложных решениях для цифровизации бизнеса. Мы стартуем с обзорного вебинара по построению референсной архитектуры и далее каждый последующий вебинар расскажет о подходах и решениях, составляющих экосистему управления данными. Регистрируйтесь также на следующие вебинары серии:

Рекомендуем также

    СУБД: что такое системы управления базами данных, виды, где используются, для чего нужны

    4 июля 2024

    Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов.

    Что такое системы управления базами данных (СУБД)?

    В современном мире данные – это ценный ресурс, который играет ключевую роль в успехе любого бизнеса и организации. Чтобы эффективно управлять данными, необходимо использовать специальные инструменты, которые обеспечивают их хранение, организацию, доступность и безопасность. Одним из таких инструментов являются системы управления базами данных (СУБД). Систе́ма управле́ния ба́зами да́нных (СУБД; англ. Database Management System), комплекс программ, которая позволяет создать базу данных (БД) и управлять данными (вставлять, обновлять, удалять и выбирать). Обеспечивает безопасность, надёжность хранения и целостность данных, а также предоставляет средства для администрирования БД. Она позволяет упростить и автоматизировать процессы управления информацией, обеспечить ее безопасность и доступность в нужный момент. СУБД позволяют пользователям создавать базы данных, определять структуру данных, взаимодействовать с данными через запросы и обеспечивать защиту информации. Они обеспечивают множество функций, таких как поддержка транзакций, согласованность данных, управление соединениями, оптимизация запросов и многое другое. СУБД классифицируются по различным критериям, например, по модели данных (реляционные, иерархические, объектно-ориентированные и т.д.), по способу хранения данных (реляционные, NoSQL, in-memory и т.д.), по доступным функциям (OLAP, OLTP, data mining и т.д.). Существует множество преимуществ использования СУБД, таких как повышение производительности, улучшение безопасности данных, обеспечение целостности данных, увеличение масштабируемости и гибкости. Однако, для эффективного использования СУБД необходимо иметь хорошие знания и опыт работы с ними. Иными словами СУБД – это своеобразный “организатор” для данных. Она предоставляет инструменты для создания “папок” (таблиц) с “файлами” (записями), каждый из которых содержит “информацию” (данные). СУБД следит за тем, чтобы данные были правильно сохранены, чтобы к ним можно было легко обратиться, и чтобы они не были потеряны или изменены без разрешения. Системы управления данными используются практически во всех сферах, где работают с базами данных. От веб-приложений до научных исследований:
    1. Веб-приложения: социальные сети, онлайн-магазины, интернет-банкинг – все они хранят информацию о пользователях, товарах, транзакциях в базах данных, которые управляются специальными системами.
    2. Мобильные приложения: от простых записных книжек до сложных приложений для отслеживания привычек, используют системы управления данными для хранения и обработки информации на вашем смартфоне.
    3. Бизнес-приложения: системы управления взаимоотношениями с клиентами (CRM), системы планирования ресурсов предприятия (ERP), такие как SAP, “1С” и “Битрикс24”, основаны на системах управления данными для управления бизнес-процессами.
    4. Аналитика: системы сбора и анализа данных, как, например, Mpstats.io для маркетплейсов, используют базы данных для выявления трендов и принятия решений.
    5. Управление проектами: платформы для управления проектами, такие как Trello, позволяют организовать работу и хранить информацию о задачах, используя базы данных.
    6. Управление контентом: системы управления контентом (CMS), которые используются для создания и управления веб-сайтами, также используют системы управления данными для хранения и управления контентом.
    7. Наука, медицина и государственный сектор: порталы “Госуслуги”, медицинские учреждения, научные лаборатории – все они используют базы данных для хранения и обработки информации. Специалисты, работающие с системами управления данными.
    8. Разработчики: отвечают за создание и поддержку систем управления данными, в том числе для веб-сайтов, мобильных приложений, корпоративных систем.
    9. Администраторы БД: управляют базами данных, обеспечивая их стабильную работу и безопасность.
    10. IT-сотрудники: решают технические задачи, связанные с системами управления данными, анализируют информацию, устраняют нештатные ситуации. Даже небольшие компании и индивидуальные предприниматели используют системы управления данными: “1С” для бухгалтерии, таблицы Excel и Google Sheets для учета, планировщики задач и таск-менеджеры для организации работы.

    Для чего нужны системы управления базами данных?

    Системы управления данными позволяют упорядочить информацию, сделать ее доступной, избежать потерь и ошибок, а также использовать ее для принятия более эффективных решений. Они необходимы для множества сфер деятельности, где требуется хранение и управление информацией, поскольку позволяют организациям эффективно работать с данными, обеспечивая:
    1. Централизованное хранение данных: СУБД позволяют хранить большие объемы данных в структурированной форме, обеспечивая доступ к ним из различных приложений и множества пользователей.
    2. Безопасность данных: СУБД предоставляют механизмы для защиты данных от несанкционированного доступа, обеспечивая конфиденциальность и целостность информации.
    3. Удобство работы с данными: СУБД предоставляют возможность выполнения различных операций с данными, таких как добавление, получение, обновление и удаление информации, с помощью простых SQL запросов.
    4. Отказоустойчивость: СУБД обеспечивают механизмы резервного копирования данных, что помогает предотвращать потерю информации в случае сбоев или аварий.
    5. Масштабируемость: СУБД позволяют легко масштабировать базы данных, добавляя новые серверы или увеличивая ресурсы существующих серверов для обработки больших объемов данных.
    6. Эффективность работы: СУБД позволяют оптимизировать выполнение запросов к базам данных, что ускоряет процессы обработки информации и улучшает производительность всей системы.
    7. Совместимость: СУБД обеспечивают возможность работы с различными типами данных и форматами, что позволяет эффективно обрабатывать разнообразную информацию.
    8. Ресурсоэффективность: Использование СУБД позволяет оптимально использовать ресурсы серверов и снижать нагрузку на аппаратное обеспечение, что способствует экономии времени и денег. Общими словами, системы управления базами данных необходимы для обеспечения эффективного, безопасного и удобного хранения и обработки данных в современном информационном мире.

    Из чего состоят СУБД?

    СУБД состоят из нескольких основных компонентов, каждый из которых выполняет определенные функции:
    1. Ядро СУБД: это основной модуль, который управляет всеми операциями с данными, включая их хранение, доступ и обновление.
    2. Язык запросов (SQL): СУБД используют структурированный запросовый язык (SQL) для выполнения операций с данными, таких как выборка, обновление, вставка и удаление информации.
    3. Менеджер транзакций: этот компонент отвечает за обработку транзакций, что позволяет гарантировать целостность данных при параллельных операциях.
    4. Оптимизатор запросов: этот компонент анализирует SQL запросы и оптимизирует их выполнение, чтобы обеспечить быстрый доступ к данным.
    5. Диспетчер управления данными: отвечает за управление данными в базе данных, включая их хранение, индексацию и оптимизацию.
    6. Система контроля целостности данных: гарантирует целостность данных путем обеспечения их правильности и непротиворечивости.
    7. Репликация данных: позволяет создавать копии данных в различных местах для обеспечения их доступности и безопасности.
    8. Бэкап/восстановление данных: обеспечивает возможность создания резервных копий данных и их восстановления в случае потери или повреждения.
    9. Мониторинг и управление базой данных: предоставляет функционал для мониторинга и управления работой базы данных, включая производительность, использование ресурсов и прочее.

    Виды СУБД

    Существует несколько различных видов СУБД (систем управления базами данных), каждый из которых может быть использован в зависимости от конкретных требований и задач. Вот несколько причин, по которым могут использоваться разные виды СУБД:
    1. Реляционные СУБД, такие как MySQL, Oracle, PostgreSQL и др., обычно используются для хранения структурированных данных в виде таблицы с реляционными связями. Они обеспечивают эффективное хранение, поиск и обновление данных.
    2. Нереляционные СУБД, такие как MongoDB, Cassandra, Redis и др., предназначены для хранения и обработки неструктурированных данных, таких как документы, графы, ключ-значение и другие. Они обычно быстрее и масштабируемее, чем реляционные СУБД.
    3. Временные СУБД используются для хранения и обработки временных данных, таких как журналы событий, временные серии данных и другие временные данные.
    4. Распределенные СУБД обеспечивают возможность хранить данные на нескольких физических серверах и выполнять параллельную обработку запросов. Это позволяет повысить производительность и масштабируемость системы.
    5. Встраиваемые СУБД, такие как SQLite или Berkley DB, используются для встроенного хранения данных в приложениях, не требуя установки дополнительного программного обеспечения или сервера базы данных. В целом, выбор определенного вида СУБД зависит от требований к производительности, масштабируемости, доступности данных, структуры данных и других факторов.
    6. Объектно-ориентированные СУБД: поддерживают хранение и обработку объектов, включая методы и атрибуты.
    7. Многомерные СУБД: используются для анализа данных с разных точек зрения.
    8. Графовые СУБД: основаны на графах, где данные представлены в виде узлов и связей между ними.

    Примеры использования СУБД

    СУБД широко применяются в различных областях, включая:
    1. Бизнес и финансы: СУБД используются для хранения информации о клиентах, продуктах, заказах, финансовых транзакциях и других данных, которые необходимы для управления бизнесом.
    2. Медицина и здравоохранение: В здравоохранении СУБД используются для хранения медицинских записей пациентов, расписаний приема, лабораторных результатов и другой важной информации.
    3. Наука и исследования: В сфере науки и исследований СУБД применяются для хранения результатов экспериментов, анализа данных, научных публикаций и другой научной информации.
    4. Образование: В образовании СУБД используются для учета студентов, оценок, учебных планов, расписания занятий и другой образовательной информации.
    5. Телекоммуникации: СУБД используются для хранения информации о подключениях, трафике, абонентах и других данных, необходимых для предоставления услуг связи.
    6. Интернет и социальные сети: СУБД играют важную роль в работе различных веб-сайтов, социальных сетей, онлайн-магазинов и других онлайн-платформ, где необходимо хранить и обрабатывать огромные объемы информации.
    7. Логистика и транспорт: В данной области СУБД используются для отслеживания грузов, управления складами, планирования маршрутов и других задач, связанных с логистикой и транспортом.
    8. Государственное управление: СУБД применяются в государственных учреждениях для хранения информации о гражданах, налогоплательщиках, бюджете и других важных данных, которые необходимы для управления страной.
    9. Розничная торговля: В розничной торговле СУБД используются для учета товаров, продаж, складских запасов, программ лояльности клиентов и другой информации, необходимой для эффективного ведения бизнеса.
    10. Индустрия развлечений: СУБД применяются в различных сферах индустрии развлечений, таких как кино, музыка, игровая индустрия, для хранения и управления информацией о фильмах, музыке, играх, покупках, пользователях и других данных.

    Ключевые функции СУБД

    1. Организация данных: СУБД структурируют информацию в базе данных, упорядочивая ее и делая доступной для поиска и анализа.
    2. Управление доступом: СУБД обеспечивают контроль доступа к данным, определяя, кто может просматривать, редактировать или удалять информацию.
    3. Защита данных: СУБД включают в себя механизмы безопасности для защиты данных от несанкционированного доступа и повреждений.

    Выбор СУБД

    Итак, выбор системы управления базами данных (СУБД) – это ответственное решение, которое напрямую влияет на успех проекта. Чтобы сделать правильный выбор, необходимо учесть ряд факторов:
    1. Тип проекта: существует два основных типа проекта. — Персональный проект: для небольших, некоммерческих проектов, где производительность не является критичным фактором, можно использовать встраиваемые СУБД или бесплатные решения. —Коммерческий проект: требует надежной, безопасной и масштабируемой СУБД, способной выдерживать большие объемы данных и нагрузки.
    2. Хранение данных: учитывайте, какой тип данных будет храниться в базе: текст, изображения, видео, и т.д. Некоторые СУБД лучше оптимизированы для работы с определенными типами данных.
    3. Объем данных: проверьте документацию СУБД на ограничения по объему файлов, таблиц и т.д.
    4. Принцип работы (Серверная или файловая): выберите СУБД, которая соответствует вашим требованиям к доступу к базе: по сети или локально.
    5. Нагрузка: оцените количество пользователей, которые будут обращаться к базе данных одновременно.
    6. Масштабируемость: учитывайте возможность расширения системы при увеличении нагрузки в будущем.
    7. Безопасность: проверьте наличие механизмов безопасности, таких как шифрование, сертификация и т.д.
    8. Отказоустойчивость: учитывайте степень критичности данных в случае сбоя системы.
    9. Поддержка разработчиков: выбирайте СУБД, которая активно развивается и получает регулярные обновления.
    В заключение отметим, что системы управления базами данных играют ключевую роль в современном мире, обеспечивая эффективное хранение, доступ и управление данными. Различные виды СУБД предназначены для удовлетворения различных потребностей и требований в различных областях деятельности. Они помогают организациям улучшить эффективность работы, защитить информацию и принимать обоснованные решения на основе данных Системы управления базами данных (СУБД) — это мощные инструменты для хранения, обработки и управления информацией. Они служат как мост между пользователем и базой данных, позволяя легко создавать, редактировать, связывать и находить нужные данные. От того. Насколько верно вы выберете СУБД, во многом будет зависеть успех вашей деятельности. При выборе СУБД важно учитывать все перечисленные критерии и выбирать систему, которая лучше всего соответствует потребностям конкретного проекта.

    Рекомендуем также

    Что такое data catalog и для чего он нужен?

    17 января 2024

    Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов.

    Что такое Data Catalog?

    Невозможно представить развитие бизнеса без работы с данными и ведения каталога данных. Он включает в себя описание физического и логического уровней метаданных и показывает, где находятся данные, как они перемещаются и трансформируются. Работа с каталогом данных эффективна при создании отчетности, построении озер данных и для последующей аналитики. Каталог данных дает представление пользователю, как данные используются в реальности, и предоставляет возможности по детализации каждого действия, которое с ними осуществляется.

    Функции Data Catalog

    К основным функциям каталога данных относятся следующие:
    • Сканирование метаданных при извлечении их из систем хранения и систем перемещения данных и их визуализации. Основными источниками данных в таком случае являются базы данных, производственные системы, системы отчетности и аналитики, системы ETL, хранилища, озера данных и другие средства по перемещению и трансформации данных.
    • Профилирование данных. Оно позволяет оценить качество данных, осуществить сбор статистики и информации об этих данных. Это дает дополнительные возможности определить пригодность данных для решений задач бизнеса.
    • Выявление доменов данных, которое помогает определить, соответствует ли название реально хранимым данным. Например, в проектах Data Governance зачастую тратится много времени на проведение связи между определенным полем, которое было выявлено в ходе сканирования, и его реальным описанием. В хранилище данных могут быть тысячи таких полей, и детальный разбор каждого поля (если это делать вручную) занимает много времени. Сэкономить это время помогает выявление доменов данных. В рамках этой функции сегодня все чаще применяется искусственный интеллект.
    • Сертификация данных. Дает возможность бизнес-пользователю быстрее находить данные, если они хранятся в разных местах.
    • Поиск похожих данных для быстрого проведения связей между ними.
    • Классификация данных. Каталог данных позволяет классифицировать данные по разным критериям: тип данных, тематика, формат и другие.

    Как использовать Data Catalog?

    Основное применение каталога данных лежит в области решений класса Data Governance, при которых каталог содержит всю информацию о текущем состоянии данных, их перемещении, хранении и дает возможность сравнить бизнес-логику формирования показателей с технической реализацией. Обычно Data Catalog используется вместе с бизнес-глоссарием, который обеспечивает согласованность использования данных. Это дает возможность ускорить предоставление достоверных данных бизнес-пользователю. Таким образом, каталог данных позволяет повысить эффективность работы с данными, облегчая их поиск, анализ, улучшая их качество за счет сканирования и профилирования данных и делая сотрудничество бизнес-пользователей с техническими специалистами продуктивнее. Это повышает качество аналитики данных и принимаемых на их основе решений в компании, оптимизирует бизнес-процессы.

    Узнать подробности про решение класса Data Governance

    Запросить демо

    Рекомендуем также

      Что такое MDM-системы и мастер-данные?

      4 декабря 2023

      Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов.

      Что такое мастер-данные?

      Мастер-данные («основные данные» или «нормативно-справочная информация») — это данные, представляющие справочную информацию, то есть значения или описывающие какие-либо сущности или позволяющие указать, к чему какие данные относятся. Самый простой пример мастер-данных – разного рода справочники или классификаторы. MDM-системы, или системы управления мастер-данными — это решения, которые позволяют этими данными управлять. Их главная цель — обеспечить единство представления массивов справочных данных во всех информационных системах. Кроме того, такой тип решений позволяет решить проблемы несоответствия, дублирования и несопоставимости данных. Для того, чтобы разобраться в том, как MDM-система должна функционировать, важно понять, какие бывают мастер-данные. Их можно поделить на несколько видов: 1. Референсные данные (Reference Data), очень часто называемые нормативно-справочной информацией, — это простые линейные справочники, практически не меняемые во времени, в которых как правило не требуется какая-либо сложная логика, например, справочники стран или валют. К референсным данным относятся все общероссийские классификаторы. Это самый многочисленный набор справочных данных, с которыми приходится работать. Референсные данные, – это те данные, которые в основном ведутся централизованно, очень часто на основе внешнего для компании источника. 2. Основные данные (Master Data) — это данные линейных или иерархических структур, где каждая запись по своему составу и атрибутам похожа на другую, как и для референсных данных, но при этом данные меняются практически постоянно и очень часто имеют более сложную, комплексную структуру. Пример таких справочников: клиенты, контрагенты, абоненты, сотрудники, активы. Такие данные чаще всего подвергаются обязательной функции дедубликации (выявление дубликатов данных и формирование золотых записей), поскольку работа с дублирующимися справочными данными может приводить к несоответствию отчетности, неверным решениям в части работы с клиентами и т.д. Для части справочников, например банковских счетов, недвижимости, характерно централизованное ведение, для других, например справочников физических или юридических лиц, используют схемы работы, которые называются консолидацией или гармонизацией мастер-данных. Процесс консолидации начинается с появления данных во фронтальных системах, системах, с которыми работают пользователи или даже сами клиенты, например, на интернет-порталах, после чего происходит их трансформация и перемещение в систему управления нормативно-справочной информацией для поиска дубликатов, далее начинается формирование единой записи на основе всех тех дублей, которые были найдены ранее. Затем сформированные золотые записи направляются в хранилища, озера данных и другие системы как единая версия правды. 3. Сложные иерархические справочники, описывающие сущности разного рода и характера. Самый частый пример — продукты, товары, материалы. Такие справочники как правило ведутся централизованно. Их отличительной чертой является отличие атрибутного состава для разных уровней иерархии. Например, разные товары описываются разным набором характеристик, часть из которых может быть общей. Телевизор, с одной стороны описывается весовыми характеристиками и размером, с другой стороны возможностями подключения интернета и устройств. А рюкзак помимо веса и размеров описывается типом ткани, количеством лямок и количеством разделов. Исходя из потребностей работы с мастер-данными, промышленные системы MDM в своем составе имеют возможности:
      • гибкого моделирования справочников, структура справочников не должна быть жестко зафиксированной вендором, должна быть возможность ее изменить, расширить атрибутный состав для любого справочника или скорректировать те атрибуты, которые уже есть; параметрическая классификация данных, обеспечивающая гибкий атрибутный состав записей мастер-данных в тех справочниках, где это требуется;
      • обеспечения интеграционных процессов по наполнению справочников и последующему предоставлению мастер-данных во внешние системы;
      • обеспечения качества данных, позволяя как контролировать соответствие атрибутов записи определенным правилам в зависимости от источника исходных данных, так и обогащать справочники дополнительной информацией;
      • поиска дубликатов по правилам и слияния записей, которые были найдены как потенциальные дубликаты, или их разделения, если автоматически слитые записи на самом деле дубликатами не являются. Поскольку система может принять неверное решение, признав дубликатами абсолютно идентичные записи, специалист должен иметь возможность вручную разделить записи и указать, что они уникальны. Как пример, тут можно привести близнецов, у которых и ФИО и дата рождения одинаковы;
      • установки вертикальных и горизонтальных связей между используемыми данными в справочниках. Так, если справочники иерархические, — например, справочник холдингов, — специалистам необходимо управлять как всем холдингом, так и его частями, например, дочерними организациями, и соотносить туда работающих сотрудников. При этом между справочниками должны быть и горизонтальные связи. Например, есть клиент, у которого есть продукт, который он приобрел в конкретной торговой точке. Горизонтальные связи здесь формируется между этими тремя объектами;
      • проведения согласования изменений в записях или создания новых записей, добавляемых в справочники. Как правило, любое изменение в справочнике, — это результат того, что пользователю в какой-либо внешней системе чего-то не хватило, нет клиента или поставщика, отсутствует код классификации. И в этом случае пользователь стремится или скорректировать запись, если он ее нашел, но считает, что какие-то атрибуты записи некорректны, или создать новую запись мастер-данных, если запись по мнению пользователя не нашлась. Очень часто такие изменения могут приводить к ухудшению качества мастер-данных или появлению дублей. Чтобы этого не происходило такие изменения должны согласовываться с ответственными сотрудниками. Для этого используется механизм бизнес-процессов;
      • бывает так, что в записи произошли изменения, но не всегда очевидно кто и почему их внес в мастер-данные. В этом случае на помощь приходит журнал аудита, где фиксируются как все события, произошедшие в системе, включая доступ к мастер-данным, так и все изменения в записях, без ограничения времени хранения таких событий;
      • обеспечение ролевого доступа к данным, так как очевидно, что не все сотрудники в организации должны иметь доступ к чувствительным данным по клиентам или даже к отдельным атрибутам этих данных.

      Инструменты MDM

      Обычно для того, чтобы устранить разрозненность данных, создать единый источник достоверной информации, а также значительно улучшить управление данными, компании используют специализированные инструменты. Кроме того, такие инструменты подходят для обработки не только структурированной информации, но и неструктурированных, а также операционных и аналитических данных. Благодаря этому правильное решение позволяет предприятиям создавать получать точную и качественную информацию, которая способствует более эффективному менеджменту. Обычно инструменты для управления мастер-данными разделяются на три основных направления.
      • Системы Reference Data Management (RDM): ведение линейных справочников как правило с возможностью у пользователей создавать свои собственные справочники без привлечения администраторов;
      • Системы класса мультидоменного Master Data Management: они используются для клиентской информации, данных по контрагентам или поставщикам, организационных структур, сотрудников и так далее;
      • Среди систем MDM очень часто выделяют системы Customer Data Integration (CDI) – подкласс MDM-систем, предназначенный исключительно для ведения справочника клиентов и вспомогательных для него;
      • Инструменты Product Information Management (PIM) для ведения классификаторов: в первую очередь, это продукты, товары, другие товарно-материальные ценности.
      При выборе MDM-решения компаниям следует определить, как это решение планируется развернуть — в локальном центре обработки данных, в общедоступном, частном или гибридном облаке, поскольку некоторые MDM-системы могут быть развернуты только конкретным способом.

      Big Data и машинное обучение для MDM

      Для того чтобы увеличить производительность процессов управления данными, многие предприятия в 2021 году начали активно использовать MDM-процессы в сочетании с машинным обучением и Big Data. Так, технология MDM улучшает качество данных, используемых для машинного обучения, автоматизируя процесс подготовки данных и повышая точность модели. И наоборот, машинное обучение позволяет MDM автоматизировать процесс дедубликации и выявления взаимосвязей между записями, что помогает компании более эффективно управлять ресурсами. Более того, внедрение Big Data и машинного обучения значительно сокращают нагрузку на сотрудников. Так, согласно исследованию, бизнес-аналитики и другие специалисты по анализу данных тратят 80% своего времени на поиск, очистку и реорганизацию соответствующих наборов данных. В этом случае машинное обучение можно использовать для автоматизации исправлений, внесенных ранее вручную, которые платформа в дальнейшем запомнит и будет применять самостоятельно. Чем быстрее и эффективнее управление данными, тем больше новых данных можно внести в справочники и тем лучше общие данные, доступные для управления бизнес-аналитикой, операциями и прогнозной аналитикой на основе машинного обучения.

      Актуальность внедрения MDM-систем

      Сегодня справочные данные играют ключевую роль в работе любого бизнеса, поскольку они влияют практически на все существующие транзакционные данные. Любая информация о перемещении денежных средств, о поведении клиентов сопровождается справкой о том, что из себя представляет этот объект, как он называется, какой у него тип. Для того, чтобы грамотно и эффективно управлять всей этой информацией, компании необходима MDM-система, построенная на современной архитектура. При этом стоит помнить, что подходы по организации управлением нормативно-справочной информацией крайне тяжелы с точки зрения компании. В первую очередь, любому заказчику нужно найти бизнес-спонсора. Так как практически все подразделения задействованы тем или иным образом в работе со справочниками, то найти поэтому найти единственного заинтересованного бизнес-драйвера для такого проекта бывает очень сложно. Вторая трудность связана с аналитическими вопросами, а именно: каким образом искать дубликаты, как объединять данные, а также кто должен брать на себя ответственность за то, что это может оказаться неверная или неактуальная информация. Однако, преодолев все эти трудности и внедрив MDM систему, организация получит видимый эффект от такого внедрения, решение позволит компании не только наладить процессы управления данными, но и увеличить производительность труда сотрудников и улучшить качество используемых данных, а также сократить количество ручного труда.
      Выбор MDM-решений
      У решений по управлению мастер-данными должно быть четыре главных характеристики: комплексный подход, управление данными, поддержка поэтапной реализации и современная архитектура. Если решения использовать по модели SaaS, то это позволяет ускорить ввод в эксплуатацию систем благодаря автоматической подготовке инфраструктуры MDM, снять с ИТ-специалистов задачи по обслуживанию сложных MDM-систем, сразу использовать все функции и обновления, сократить затраты на покупку и обслуживание оборудования с помощью экономичной инфраструктуры, сократить капитальные и операционные расходы с помощью подписки, получить решение, масштабирующееся вместе с бизнесом. В то же время, решения, устанавливаемые на инфраструктуру заказчика более гибкие с точки зрения возможных кастомизаций и доработок функционала При выборе важно обращать внимание на комплексные интегрированные решения, которые представляют собой единый инструмент с простым управлением. Это позволяет сотрудникам сосредоточиться на более важных задачах, например, на улучшении показателей эффективности с помощью MDM-системы. Такие решения должны включать несколько инструментов:
      • каталог данных. Компания располагает большим объемом данных, разбросанных по разным отделам, приложениям и хранилищам в локальных и облачных средах, MDM-система должна иметь доступ к этим данным. Решение должно использовать искусственный интеллект и машинное обучение, чтобы находить и каталогизировать все мастер-данные;
      • интеграция данных. Она необходима для объединения всех разрозненных источников. Решение должно обеспечить высокую производительность и доступность работы с большими объемами критически важных данных;
      • качество данных. В разных источниках данные хранятся в разных форматах. Инструменты по контролю качества данных стандартизируют данные, обеспечивают их полноту и согласованность. По возможности система должна проверять данные на наличие неполных или недопустимых записей, разрешать конфликты и добавлять недостающую информацию из сторонних источников;
      • управление бизнес-процессами. Когда решение имеет настраиваемые рабочие процессы, функции голосования, оценки и чаты, массовое управление данными и машинное обучение на основе рекомендованных пользователем потенциальных действий, тогда это повышает продуктивность сотрудников всех департаментов организации;
      • управление справочными данными. Компаниям сложно запустит проект по реализации MDM потому, что зачастую специалисты не могут договориться об определенных и стандартных значениях для дат, стран, отраслевых кодов и т.п. Встроенные возможности управления справочными данными помогают ИТ-специалистам и бизнес-пользователям оптимизировать управление данными.
      Многие MDM-системы на рынке предназначены для отдельных департаментов в компании и не отвечают требованиям всей организации. Они хорошо подходят для конкретных задач, но не масштабируются. Поэтому компании важно ответственно подойти к выбору решения, чтобы оно удовлетворяло всем требованиям бизнеса. Гибкое решение MDM должно обладать следующими характеристиками: переносимость (должна быть возможность перенести решение от одного провайдера SaaS к другому или с одной платформы на другую), масштабируемость (MDM-системы должны поддерживать масштабирование, чтобы можно было расширять их при необходимости), модульность. Как пример таких решений – Юниверс MDM. Это комплексное решение, которое упрощает и автоматизирует сложное управление мастер-данными, их контроль и передачу согласованной информации между разными областями, включая клиентов, продукты, поставщиков и многое другое. Использование этого решения позволяет повысить операционную эффективность компании: на 39,6% ускоряется процесс закупок, в 2,5 раза сокращается число ошибок в снабжении производства, на 27% возрастают вторичные продажи, в 5 раз быстрее формируется и выдается отчетность. Ключевые возможности решения: управление основными справочниками информации (номенклатура, контрагенты, клиенты, продукция – всё в единой системе), единые и чёткие регламенты управления данными, управление качеством данных, поиск дубликатов и консолидация, централизация управления данными и визуализация связанных с этим процессов, обеспечение безопасности данных.
      Внедрение MDM-систем
      Компании редко реализуют систему управления данными для всех областей и вариантов применения сразу. Чтобы внедрение MDM-системы было максимально эффективно, следует применять поэтапный подход, начиная с простых случаев использования и двигаясь к более сложным, влияющим на каждое подразделение компании. Современное решение по управлению мастер-данными должно поддерживать поэтапный подход, позволяя без задержек переходить от этапа к этапу по мере изменений требований и роста бизнеса. Существует несколько подходов к поэтапной реализации MDM-системы:
      1. По предметным областям: начиная с одной предметной области и по очереди добавляя следующие.
      2. По источникам: объединяя данные сперва из двух-трех источников, а со временем добавляя новые.
      3. По записям: начиная с ограниченного количества записей и затем увеличивая это число.
      4. По задачам: сначала удовлетворяя насущные потребности, а затем расширяя охват.
      5. По функциям: начиная с базовых возможностей объединения и добавляя контекстуальные соответствия, связи, управление иерархией и т.д.
      6. По отделам: начиная с задач одного отдела, а затем включая потребности других подразделений.
      Гибкое решение по управлению мастер-данными будет развиваться вместе с вашим бизнесом и помогать в создании комплексного представления всех доменов данных. Оно поддерживает модульный подход, позволяя начать с любого домена, а затем переходить к другим типам данных в удобном темпе, менять масштаб в зависимости от объема данных, пробовать разные варианты применения: электронная коммерция, управление финансовыми данными и другое. Для успешной реализации MDM-системы:
      • разделите проект на небольшие этапы;
      • определите измеримые результаты для каждого этапа;
      • продумайте варианты применения, которые позволят адаптироваться к изменениям потребностей бизнеса и не потеряют актуальности;
      • запишите цели на ближайшие 3-5 лет, чтобы двигаться в контексте общей стратегии.

      Управление мастер-данными

      Стратегия управления мастер-данными определяет, как организация преодолевает сложности по работе с данными и достигает конкретных бизнес-целей через управление и целенаправленное использование мастер-данных. Поэтому стратегия управления занимает место между общей стратегией бизнеса и подходом к управлению данными. Она определяет, как бизнес будет извлекать максимальную ценность из своих данных. В современной конкурентной среде сотрудникам необходима возможность применять политики и процедуры для таких процессов, как сбор, контроль качества, защита, использование и хранение данных. Ключевые области управления данными, поддерживаемые MDM-системой:
      • аудит и отчетность. Система позволяет отслеживать историю изменений с указанием содержимого и авторов изменений, использованных правил сопоставления и сохранения, а также утверждающего лица;
      • мониторинг и анализ. Система осуществляет мониторинг на уровне политик, правил, метрик, объектов мастер-данных;
      • встроенные функции контроля. Система проводит проверки допустимости значений при вводе, обеспечивает динамическое маскирование данных при доступе и удалении по истечении заданного периода хранения;
      • конфиденциальность и защита данных. Система обеспечивает контроль доступа, шифрование данных, управление согласием пользователей и т.д.
      Вопрос управления мастер-данными актуален для многих сфер. Например, перед девелоперской компанией стояли задачи по снижению издержек при формировании строительных смет (за счет создания централизованного справочника ТМЦ), формированию единого реестра поставщиков с автоматизированным бизнес-процессом по проверке достоверности сведений, управлению ценовыми предложениями от разных поставщиков, выстраиванию бизнес-процессов по согласованию изменений в двух основных реестрах и использованию правил качества и правил очистки данных. По результатам анализа проблемы с дублированием и расхождением данных в различных системах в компании создали единое пространство для НСИ, с последующей интеграцией мастер-данных во все системы холдинга. Это позволило собирать различные данные в строительные сметы, совершенствовать процесс анализа информации по клиентам. Провести такую работу помогло решение Юниверс MDM. Как результат, были созданы эталонные записи о контрагентах и ТМЦ, проведена очистка записей, определены ошибки и настроены правила для поиска дублирующихся записей. Управление мастер-данными также используется в государственном секторе. Например, ДИТ Москвы благодаря использованию Юниверс MDM решил следующие бизнес-задачи: обеспечил устойчивый рост качества жизни горожан и благоприятных условий ведения предпринимательской деятельности за счет использования цифровых технологий​, обеспечил централизованное, сквозное и прозрачное управление городом на основе больших данных с использованием искусственного интеллекта​, повысил эффективность государственных расходов, за счет внедрения государственно-частного партнерства в сфере информационных и цифровых технологий и связи. В результате была решена задача импортозамещения и интегрированы свыше 40 систем источников/получателей. Другой пример работы с мастер-данными – ПАО «РусГидро», крупнейший российский электроэнергетический холдинг. Перед компанией стояли следующие задачи: необходимость типизации учета основных средств по группе «РусГидро», снижение налоговых рисков по судебным практикам, устранение дублирования записей, снижение затрат на обработку информации по номенклатуре и другие. Для решения поставленных задач был введен классификатор основных фондов с интеграцией в системы-приемники ПАО «РусГидро», актуализированы связи этого классификатора со стандартным общероссийским классификатором ОКОФ2 на регулярной основе, что позволило снизить налоговые риски, создан единый реестр номенклатуры и нормализованы записи контрагентов. Работа с мастер-данными проводится и в сфере транспорта: в РЖД запускался большой проект, для которого требовался компонент, обеспечивающий работу с мастер-данными. Юниверс MDM решил ряд задач, стоявших перед компанией: создание и ведение различных справочников, необходимых для решения задачи передачи данных о предупреждениях на борт локомотива, единовременная работа с большим объемом данных, интеграция с подсистемой управления доступом и внешними системами, создание средств автоматизации операций. Таким образом, управление мастер-данными позволяет развивать единую систему управления ключевыми данными и повышать тем самым операционную эффективность компании и её ключевых бизнес-процессов.

      Узнать подробности про решение и запросить демо

      Юниверс MDM

      Рекомендуем также

        Что такое управление данными (Data Management)?

        25 декабря 2023

        Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов.

        Развитие рынка больших данных в ближайшие два года может привести в российскую экономику 1,6 трлн руб. Одновременно растет и потребность в решениях по управлению данными: 45% крупных компаний планируют в первую очередь импортозаместить решения именно этого класса. Сегодня, чтобы сохранять конкурентоспособность, компания должна обеспечить своим сотрудникам доступ к почти любым данным о бизнесе в режиме реального времени. То есть рабочие процессы необходимо выстроить таким образом, чтобы менеджер в любой момент мог получить ответ на вопрос, касающийся его компетенций: где находится партия продукции/ кто заказчик/ что он заказывал раньше/ сколько такой продукции в целом поставляет компания/ что есть у конкурентов и так далее. Создание такого решения требует существенных инвестиций в системы сбора и управления данными, решения по визуализации, разграничению правд доступа, облачные сервисы.

        Определение понятия «Управление данными»

        Управление данными (Data Management) – это процесс организации и использования данных внутри компании, контроль за тем, чтобы они были доступны, актуальны, безопасны и полезны для организации. В настоящее время, когда объемы данных растут в геометрической прогрессии, эффективное управление данными становится все более важной задачей для предприятий.

        Системы управления данными

        Системы управления данными (Data Management Systems) – это инструменты и платформы, которые обеспечивают сбор, хранение, интеграцию, анализ и использование данных. Существуют различные системы управления данными, которые помогают организации эффективно работать с информацией. Одна из основных – это базы данных. Базы данных представляют собой организованные данные, которые хранятся и обрабатываются с использованием специальных программных средств. Они используются в различных областях, например, в банковской сфере, бизнесе, науке, здравоохранении и так далее, чтобы эффективно управлять данными и повысить продуктивность и результативность работы.

        Управление большими данными

        Управление большими данными, также известное как Big Data, является процессом сбора, хранения, обработки и анализа больших объемов данных для получения полезной информации и поиска ценных паттернов и трендов. Этот процесс требует использования специализированных инструментов и технологий для обработки данных, которые не могут быть обработаны с использованием обычных методов и программного обеспечения. Основные задачи управления большими данными включают в себя, во-первых, сбор данных: это процесс сбора данных из различных источников, включая социальные сети, сенсоры, устройства Интернета вещей и т.д. При этом важно учитывать надежность и качество данных. Во-вторых, хранение данных: большие объемы данных требуют специальных систем для их хранения, таких как гигантские базы данных и хранилища данных. Эти системы предоставляют масштабируемость и отказоустойчивость для обработки больших объемов данных. В-третьих, обработку данных: это процесс преобразования необработанных данных в структурированный формат для дальнейшего анализа и использования. Здесь используются различные методы, включая агрегацию, фильтрацию, трансформацию и сопоставление данных. В-четвертых, визуализацию данных: важно представление данных в понятной и удобной для восприятия форме. Визуализация данных помогает в понимании паттернов и трендов в данных, а также в принятии решений на основе полученной информации. В-пятых, анализ данных: это процесс извлечения полезной информации и знаний из больших объемов данных. Здесь применяются различные методы, такие как статистический анализ, машинное обучение и аналитика данных. Таким образом, технология больших данных позволяет хранить, анализировать и управлять огромными объемами данных. Она также используется в самых разных областях, начиная с банковского сектора и заканчивая сельским хозяйством. Внедрение решений по управлению большими данными помогает компаниям совершенствовать операционную деятельность, улучшать процесс обслуживания клиентов, разрабатывать персонализированные маркетинговые кампании и в конечном итоге способствуют значительному увеличению доходов. Однако несмотря на то, что управление большими данными имеет огромный потенциал для бизнеса и науки, оно также представляет вызовы в области безопасности данных, конфиденциальности и этики, которые также должны быть учтены при работе с большими объемами данных.

        Трудности с управлением данными

        В современном мире данные являются как одним из наиболее ценных активов компании, так и значимым источником потенциальных рисков для бизнеса в случае их неправильного хранения. В процессе цифровой трансформации компания аккумулирует огромное количество информации, описывающей все наиболее важнее бизнес-процессы: от управления цепочками поставок и взаимоотношениями с клиентами до разного рода внутренних регламентов, товарных остатков и имеющихся материальных и нематериальных активов. Одной из трудностей в вопросе управления данными также является их разнообразие. Данные могут быть представлены в разных форматах и структурах, что создает сложности при их сведении вместе и анализе. Кроме того, данные могут быть распределены по разным источникам, что затрудняет работу с ними.

        Принципы управления данными

        В реалиях цифровой экономики бизнесу необходимо комплексное решение, обеспечивающее хранение данных, интеграцию их в единую платформу, обеспечивающую сотрудникам доступ к любой необходимой информации в режиме реального времени. Такое решение должно включать инструменты автономного сбора и обработки данных, визуализации потоков происхождения информации, мониторинг и поддержку целевого уровня их качества, а также построение моделей и аналитики любой сложности. Основой для такого рода систем является озеро данных – хранилище, в котором аккумулированы большие объемы необработанных данных в их собственном формате до тех пор, пока они не понадобятся аналитическим приложениям. Для управления озерами данных используются службы облачного хранения, решения на базе искусственного интеллекта и ПО автоматизации. Главные принципы управления данными:
        • Идентификация и классификация данных: определение типов данных, их значения и связей для эффективной организации;
        • Согласованность и целостность данных: создание и поддержка стандартов и правил, которые гарантируют актуальность и целостность информации;
        • Контроль доступа и защита данных: обеспечение безопасности и конфиденциальности информации для предотвращения несанкционированного доступа или утечки данных;
        • Резервное копирование и восстановление данных: регулярное создание копий и готовность к быстрому восстановлению в случае потери информации;
        • Эффективное использование данных: обеспечение легкого доступа и использования информации для принятия обоснованных решений и оптимизации бизнес-процессов.

        Рекомендации по управлению данными

        Использование инструментов и технологий управления данными, таких как программа управления базами данных или системы для интеграции данных. Эти инструменты могут помочь автоматизировать процессы сбора, обработки и анализа информации. Чтобы облегчить управление данными, следует придерживаться нескольких правил:
        • Определение целей и стратегии управления данными в соответствии с бизнес-потребностями организации;
        • Создание политик и процедур, которые определяют стандарты для захвата, хранения и обработки данных;
        • Внедрение систем управления данными, которые обеспечивают автоматизацию процессов и эффективное использование информации;
        • Обучение сотрудников и осведомление о политиках и процедурах управления данными для обеспечения их соблюдения;
        • Мониторинг и контроль выполнения политик и процедур управления данными для обнаружения и предотвращения нарушений;
        • Совершенствование и постоянное обновление систем и процессов управления данными в соответствии с изменяющимися потребностями и технологиями.

        Продукты, связанные с управлением данными

        Продукты, связанные с управлением данными, включают в себя различные программные решения, которые помогают в сборе, хранении, организации и анализе данных. Это могут быть базы данных, ERP-системы, BI-платформы, системы управления контентом (CMS) и другие. Соблюдение принципов и рекомендаций по управлению данными позволяет минимизировать трудности и риски, связанные с обработкой и использованием информации, а также повышает продуктивность и конкурентоспособность организации. Кроме того, качественная работа с данными позволяет их монетизировать, В портфеле DIS Group есть весь необходимый стек российских продуктов для работы с данными, позволяющий повысить операционную эффективность компании и её ключевых бизнес-процессов. DIS Group занимается внедрением полностью российских разработок для комплексного управления данными; предлагает ряд решений по работе с данными и знаниями, предназначенными для автоматизации государственных и коммерческих организаций от разработчика «Data Инновации»; а также продукт российской кампании «Датафлот» по работе с репликацией данных. Выбор конкретных продуктов зависит от целей, потребностей и возможностей организации. Например, Юниверс DG позволяет компании выстроить полный цикл управления данными в организации предоставляет возможности для сбора, хранения, обработки, анализа и визуализации данных. Система позволяет собирать данные из различных источников, в том числе из разных отделов и подразделений организации. Это позволяет получить полное представление о состоянии бизнеса и принимать обоснованные решения. Юниверс DG имеет удобный интерфейс, который позволяет пользователям легко настраивать процессы сбора и обработки данных. Благодаря гибким настройкам, систему можно адаптировать под индивидуальные потребности каждой организации. Платформа обеспечивает безопасность данных и защиту конфиденциальности. Пользователи имеют доступ только к тем данным, которые им необходимы для работы. Юниверс DG предоставляет широкие возможности для анализа данных. Платформа также позволяет визуализировать данные в удобном для пользователя виде. Графики, диаграммы и отчеты помогают анализировать информацию и принимать обоснованные решения. Также Юниверс DG позволяет автоматизировать процессы работы с данными. Это позволяет сократить время и усилия, затрачиваемые на обработку информации, и повысить эффективность работы с данными. Юниверс DG предоставляет комплексное решение для эффективного управления данными, с помощью которого компания сможет создать и реализовать собственную практику управления данными и обеспечить организации всю необходимую функциональность для построения успешного бизнеса. Если же в компании необходимо наладить целостную стратегию управления корпоративными данными, то можно обратить внимание на решение Data Governance. C помощью методологии продукта вы сможете извлечь максимальную бизнес-ценность из ваших данных, а организация станет более гибкой. Вы соберете в единый каталог технические метаданные компании (например, о том, в каких ИТ-системах хранится информация). Каталогизировав корпоративные данные, для каждого бизнес-термина вы зафиксируете в бизнес-глоссарии единое для всей компании определение. Внедрите правила для обеспечения качества данных и проведите соответствующие организационные изменения. Всё это позволит точнее и быстрее анализировать данные, формировать отчётность и принимать правильные бизнес-решения. Управление данными сегодня является важным аспектом цифровой экономики. Организации должны разрабатывать стратегии и процессы управления данными, использовать современные инструменты и технологии, чтобы эффективно управлять и использовать данные для достижения бизнес-целей. Важно помнить, что управление данными – это непрерывный процесс, который требует постоянного обновления и оптимизации.

        Рекомендуем также

        Исследование ЦСР «Рынок систем управления и обработки данных России»

        DIS Group в числе лидеров отечественного ПО в категориях «Средства управления данными» и «Средства загрузки данных» по результатам исследования Центра стратегических разработок. Системы управления данными и инструменты обработки данных – этот тип программных продуктов относится к важнейшему классу ПО, без которого невозможна работа современной ИТ-инфраструктуры в ключевых отраслях экономики и ее развитие в соответствии с общемировыми трендами информатизации общества. Во всем мире этот рынок характеризуется высокими темпами развития. По прогнозу Gartner, к 2026 году объем неструктурированных данных в хранилищах on-premise и в периферийных и публичных облачных хранилищах крупных предприятий увеличится в три раза по сравнению с 2023 годом. Хотя точной российской статистики такого рода нет, можно уверенно говорить, что Россия находится в русле этой тенденции. Эксперты Центра стратегических разработок представили исследование «Рынок систем управления и обработки данных России», в котором проанализировали состояние и тенденции развития отрасли после введенных санкций и ухода зарубежных компаний.

        Заполните форму ниже, чтобы получить этот файл по электронной почте

        Получить файл

        Рекомендуем также

          Данные в энергетике: MDM как инструмент для ведения активов (кейс РусГидро)

          Мы рады пригласить вас посмотреть запись вебинара, который будет посвящен управлению данными на предприятии энергетического сектора. В рамках этого мероприятия мы совместно с ведущими экспертами из компании РусГидро обсудим практические аспекты и важность цифровой трансформации в энергетическом комплексе в современный период времени. На вебинаре вы узнаете подробности о внедрении решения по управлению данными в Группе РусГидро, в частности:
          • как оптимизировать типизацию учета основных средств по Группе РусГидро;
          • Как избежать дублирование записей;
          • Как оптимизировать затраты на обработку информации по номенклатуре и процесс;
          • формирования ЛОТов по централизованной закупке однотипной продукции;
          • Практический опыт компании РусГидро в сфере цифровизации и управления данными.
          На эти и другие вопросы мы ответим на нашем вебинаре. Вебинар будет полезен представителям топливно-энергетических компаний, а также директорам по развитию и цифровой трансформации, ИТ-директорам и директорам по данным из ритейла и других отраслей.

          Спикеры

          • Мария Сюткина, Заместитель директора по развитию общекорпоративных сервисов и автоматизированных систем управления технологическим процессом РусГидро
          • Константин Скоробогачев, Технический менеджер DIS Group

          Получите доступ к полной записи вебинара и дополнительным материалам

          Получить запись

          Этот вебинар входит в серию "Управляйте данными эффективно"

          Рекомендуем также

            Комплексное руководство по управлению информацией о продуктах

            Вы поймете, что можно ожидать от решения PIM, выясните критерии успешной реализации PIM в своей организации и поймете, что для этого необходимо. Рекомендации в этом руководстве основаны на сотнях реальных внедрений PIM.

            Для успешной реализации проекта по PIM нужно понимать связь между тремя аспектами:
            • PIM как технология
            • PIM как дисциплина и процесс
            • бизнес-цели, связанные с PIM.
            Бесполезно вкладываться в дорогостоящие технологии, если не учитывать работы по изменению процессов, которые технология автоматизирует. Одна лишь технология сама по себе не приведет к желаемым изменениям. Это руководство не заменит профессиональную консультацию по PIM и семинары по реализации с вашей командой. Но оно может стать практическим руководством по необходимым изменениям во взглядах и бизнес-подходах для успешной реализации PIM в организации. Вы поймете, что можно ожидать от решения PIM, выясните критерии успешной реализации PIM в своей организации и поймете, что для этого необходимо. Рекомендации в этом руководстве основаны на сотнях реальных внедрений PIM. Некоторые советы покажутся очевидными, но, по нашему опыту, правильное понимание основных принципов — это лучший путь к быстрым реальным результатам.

            Заполните форму ниже, чтобы получить этот файл по электронной почте

            Получить файл

            Рекомендуем также