Датафлот Репликация включает в себя задачи по полной синхронизации данных между базами с учетом изменений – на основе захвата информации из журналов транзакций СУБД (технология CDC, Change Data Capture).
Датафлот Репликация предлагает большое количество режимов и специфики репликационного процесса, позволяя в том числе:
- Создавать копии данных в кластерах система класса MPP (например, Greenplum)
- Работать с минимальной нагрузкой на СУБД
- Использовать режимы аудита и «мягкого» удаления данных в БД получателя
- Решать специализированные задачи хранения данных
Решаемые бизнес-задачи
Сценарии использования
- Разовая миграция данных между базами данных в различных СУБД
- Миграция или репликация данных в облачные структуры хранения
- Оперативная и своевременная доставка изменений данных из систем-источников в системы-приемники
- Обеспечение синхронного состояния данных в источнике и приемнике с использованием подхода CDC – захвата изменений в журналах транзакций баз данных источников
Преимущества решения
- Прямое взаимодействие с источниками данных на уровне журналов – все основные типы СУБД, включая Greenplum, PostgreSQL, Oracle, MS SQL Server
- Встроенное решение по прямой передаче и доставке данных без необходимости использования дополнительных внешних инструментов доставки, таких как Kafka
- Поддержка загрузки данных без потери времени в Data Lakehouse, озера данных Hadoop и S3, облачные структуры
- Высокие скорости работы – до 6 раз быстрее, чем у ближайших конкурентов
- Различные виды репликации, автоматический переход от начальной синхронизации к онлайн-репликации путем обеспечения миграции данных при работающей продуктивной базе данных и минимальным временем отставания
- Поддержка ограничений ресурсов – перенос нагрузки из операционных СУБД на реплицируемые сервера при невозможности или высокой стоимости масштабирования основного сервера
- Простота развертывания, настройки и мониторинга через визуальный интерфейс
- Поддержка решения 24/7
Результаты
Кому подходит продукт
CDO
- Обеспечение онлайн-аналитики в озерах данных и Data Lakehouse
- Своевременное наполнение реплик данных в различных режимах (стандартный, аудит)
- Резервное копирование хранилищ данных в кластерах Greenplum и его форках
CIO
- Резервное копирование баз данных
- Миграция баз данных между различными СУБД
- Разгрузка нагруженных серверов баз данных
- Аудит изменений в базах данных
- Георезервирование систем
Из чего состоит продукт
Датафлот Репликация включает несколько компонентов, которые могут размещаться на одном или разных серверах:
- Панель управления – графический пользовательский интерфейс для настройки и администрирования процессов репликации данных
- Служба управления – сервис настройки, управления и мониторинга заданиями репликации
- Сервис первоначальной синхронизации – выполняет первичную загрузку исходных данных в целевые таблицы
- Парсер – сервис отслеживания изменений и разбора журналов транзакций источника
- Загрузчик – сервис применения изменений в целевых таблицы
Варианты развертывания
Система может развертываться в различных вариантах:
- На источнике данных. Используется для оптимизации операций чтения и извлечения данных
- На источнике и приемнике. Для доставки изменений применяется http-протокол с внутренней структурой данных. Используется для оптимизации операций чтения и записи данных
- На выделенном сервере. Используется в случае ограничений размещения систем на серверах баз данных
Основная функциональность решения
Системы-источники и приемники данных
Датафлот Репликация поддерживает многие источники данных
- PostgreSQL (все виды и форки, включая Postgres Pro, Astra Tantor, Sber Pangolin)
- Arenadata DB (GreenGage, GreenPlum)
- Различные российские форки Greenplum (например, RT.Warehouse)
- Oracle
- IBM DB2
- Microsoft SQL Server
- MySQL
- Sybase ASE
Приемники данных
- Arenadata DB (GreenGage, GreenPlum)
- Различные российские форки Greenplum (например, RT.Warehouse)
- Oracle
- PostgreSQL (всеnbsp;виды иnbsp;форки, включая Postgresnbsp;Pro, Astranbsp;Tantor, Sber)
- Microsoft SQL Server
- IBM DB2
- Sybase ASE
- Teradata
- Vertica
- IBM Netezza
- MemSQL
- MySQL
- ClickHouse
- Различные сборки Hadoop (например, Arenadatanbsp;Hadoop, RT.DataLake, Cloudera, HortonWorks)
- Apache Kafka
- HDFS (Apache Parquet)
- S3 (Apache Parquet)
- Плоские файлы