Top.Mail.Ru

Репликация данных: какие особенности, примеры существуют

  1. Репликация данных – что это?
  2. Особенности репликации данных
  3. Примеры репликации данных

Современные предприятия располагают огромными объёмами данных самых разных типов. Из-за этого при работе система, в которой хранятся данные, может испытывать высокую нагрузку, что приводит к снижению ее производительности. В таком случае можно прибегнуть к репликации данных.

Репликация данных – что это?

Репликация данных – это процесс перемещения или копирования данных в резервное место хранения в реальном времени. С помощью репликации можно создавать копии данных высоконагруженных систем. Далеко не всегда можно обратиться напрямую к какой-либо системе, чтобы в неограниченном количестве запросов использовать ее данные. Это не только может замедлять ее работу, но и приводить к остановке бизнес-процессов в случае сбоя в работе системы. Чтобы этого избежать, с помощью репликации создается одна или несколько резервных копий данных системы, в том числе хранилища данных.

Когда чаще всего используется репликация:

  1. Для снижения нагрузки на информационную систему: данные реплицируются из высоконагруженной базы данных в режиме близком к реальному времени в другую систему;
  2. Для оперативной отчетности при предоставлении данных из транзакционных систем в хранилище данных;
  3. Для аудита систем, чтобы понимать кто и как менял данные в базе данных;
  4. Для миграции данных из одной базы данных в другую с минимальным временем простоя.

Особенности репликации данных

Репликация данных бывает разных видов:

  • Однонаправленная (задачи: организация онлайн-копий, миграция данных, обновление версий, распределение нагрузки чтения данных);
  • Двунаправленная (задачи: построение отказоустойчивых систем, поэтапная миграция данных, синхронизация данных OLTP системами);
  • Каскадная (задачи: организация нескольких копий данных без нагрузки источника, снижение нагрузки на хранилище данных, построение хранилищ и озер данных).

При проведении репликации данных бизнес должен учитывать несколько ключевых аспектов, чтобы обеспечить эффективность и безопасность процесса:

  1. Выбор подходящего вида репликации в зависимости от потребностей в доступности, производительности и безопасности данных в компании;
  2. Настройка параметров репликации: необходимо правильно настроить параметры репликации, такие как частота обновлений, метод синхронизации, обработка конфликтов и т.д. Это поможет избежать проблем с целостностью данных и обеспечить эффективную работу системы;
  3. Мониторинг и управление репликацией. Это поможет предотвратить потерю данных и снизить риск простоев системы;
  4. Безопасность данных: при репликации данных необходимо обеспечить их защиту от несанкционированного доступа и утечек информации;
  5. Резервное копирование и восстановление данных: важно иметь планы резервного копирования данных и процедуры восстановления в случае сбоев в процессе репликации. Это поможет минимизировать потенциальные потери и обеспечить быстрое восстановление работоспособности системы.

Учитывая эти аспекты, бизнес сможет успешно провести репликацию данных и обеспечить надежную работу своих информационных систем.

Примеры репликации данных

Репликация данных включает в себя несколько шагов: определение системы-источника и системы-приемника, выбор данных, которые нужно будет копировать, сроков (как часто необходимо делать обновление), определение метода репликации данных (полный, частичный), выбор ПО для осуществления репликации.

Исходя из бизнес-задач, которые стоят перед компанией, она выбирает то или иное решение для репликации. Например, Датафлот Репликация поддерживает широкий спектр источников, целей и платформ, упрощает операции чтения и записи, использует все доступные вычислительные мощности для создания реплики, обеспечивает готовность и доступность соответствующих данных в тот момент, когда они необходимы, обеспечивает доступ к данным в режиме реального времени, позволяет развивать передовую аналитику, машинное обучение и искусственный интеллект.

Датафлот Репликация – это промышленное решение, использующее журналы базы данных той системы, с которой работает, чтобы отслеживать все изменения, происходящие в данных в любой момент времени. Затем решение формирует блок данных, передавая его на сторону приемника данных (системы, в которой будут храниться копии). Системы-приемники могут быть разных типов в одном процессе репликации.
Решение позволяет обогащать реплику данных такими значениями, как дата изменения, тип операции, выполняемой на стороне источнике, значения бизнес полей до их изменения, и выполнять небольшие трансформации данных: преобразование типов, расчет значений атрибутов, обработка строк и т.п. Датафлот Репликация может отслеживать изменение структуры данных источника: если структура данных источника будет меняться, то изменится и среда той копии, которая создается.

Решение поддерживает и возможность аудита. Аудит представляет собой загрузку данных в приемник как лог DML изменений данных, производимых в источнике. Он нужен для разбора внештатных ситуаций, отслеживания последовательности и полноты DML операций, передаваемых с источника, аудита действий пользователей в системе-источнике (отслеживания кто, когда и что изменил в данных).

Важные особенности Датафлот Репликации:

  • возможность работы с большим количеством реляционных источников и большим количеством приемников данных, включая нереляционные базы данных (данные можно перенести в любую on-premise или облачную базу данных, озеро или хранилище);
  • визуальная разработка (пользователь указывает, какие данные необходимо выбрать для работы и в каком виде они будут находиться в системе-приемнике);
  • поддержка транзакционной целостности и согласованности данных;
  • автоматическое восстановление при сбоях;
  • минимальное воздействие на системы-источники;
  • многопоточность загрузки данных;
  • возможность трансформации данных;
  • высокая производительность;
  • репликация больших объемов изменений;
  • наличие механизмов первичной синхронизации данных;
  • мониторинг производительности и процесса (в решении заложена возможность аудита, чтобы всегда можно было отследить сбой на любом этапе и чтобы впоследствии система правильно работала без потери записей данных);
  • данные можно копировать в обновленном виде и синхронизировать с любым их источником;
  • клонирование схем источников в приемники.

Таким образом, при использовании решения все данные, которые были в источнике, с минимальной задержкой окажутся в копии, и пользователь сможет работать с этими данными, не оказывая давление на систему-источник. От выбора компанией ПО зависит, насколько быстро и эффективно будет осуществляться процесс репликации данных.



Автор
Олег Гиацинтов
Технический директор DIS Group
Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов.

Поделиться
{{ responsive_img( url='/../../static/upload/news/detail-image.jpg',lazy=true, img_attrs={ class: "img-fluid lazy" }, formats=['webp'] ) }}

Рассылка новостей

    Продолжая пользоваться сайтом, вы даёте Согласие на автоматический сбор и анализ ваших данных, необходимых для работы сайта и его улучшения, использование файлов cookie.