Хранилище данных никуда не уйдёт, оно улетит в облако
Компании сейчас становятся дата-центричными и начинают активно пользоваться облачными сервисами. Хранилище данных (ХД) также, несомненно, требует модернизации. Как и зачем его модернизировать, рассуждает Джо Маккендрик, независимый аналитик и внештатный автор целого ряда зарубежных IT-изданий.
Традиционное хранилище данных живо
Традиционное хранилище данных по-прежнему имеет большое значение во многих крупных организациях со сложной корпоративной структурой. Традиционные ХД позволяют решать проблемы отчетности и аналитики. Они обеспечивают сотрудников хорошо-интегрированными, систематически очищающимися, доступными релятивными данными. А при внедрении озёр данных и инструментов по управлению мастер-данными, ХД можно адаптировать под новые архитектуры. Давид Лошин и Аби Рейфер, эксперты исследовательской компании Eckerson Group, объясняют в своей недавней статье: «Традиционное хранилище данных стягивает нужные данные в отдельную среду. Оно организует их в формат, который удобен для их обобщения, агрегирования, других типов запросов. Благодаря этому аналитики могут делать свою работу, в реальном времени, не мешая работе приложения, из которого поступили данные».
Другие модели сбора и хранения данных для анализа могут казаться более эффективными, чем обычное ХД. Но нужно дважды подумать, прежде чем заменять чем-то уже существующее в компании хранилище данных. «Действительно ли MapReduce обрабатывает запросы быстрее, чем SQL? Иногда это так, иногда нет. Всё зависит от конфигурации данных, их структуры и частоты изменения этой структуры», – замечают специалисты Eckerson Group. Новые платформы, которые приходят на смену традиционным ХД, обещают лучшую гибкость. Но часто оказывается, что они «собирают данные о транзакциях в отдельные среды. Они трансформируют данные таким образом, чтобы они были организованы для лучшей доступности и более быстрой обработки. Но не в этом ли основной принцип, по которому работает традиционное хранилище данных?», – задаются вопросом Давид Лошин и Аби Рейфер. «Да, продуктивность у новых платформ лучше. Они позволяют работать с большими объёмами данных и более широким кругом источников. Но мы всё равно должны внимательно подумать о том, насколько они удобнее для обеспечения данными их конечного пользователя: аналитика, data scientists и других».
Но чувствует себя традиционное хранилище данных плохо
«Традиционное хранилище данных, конечно, живо. Но всё-таки оно недостаточно хорошо себя чувствует», – указывает в своей статье другой эксперт Eckerson Group, Дейв Уэллс. «Частота использования ХД постоянно растёт. Список источников данных и их типов постоянно расширяется. Объёмы, в которых информация собирается, увеличиваются. В таких условиях традиционное хранилище данных сталкивается с всё большими проблемами. Оно несомненно живо, но требует обязательной модернизации – перехода в облако», – объясняет он.
Облака обеспечивают высокий уровень масштабирования. «Гибкость облаков лечит главную боль – управление загрузкой данных», – объясняет Уэллс. К тому же «облака обладают преимуществами управляемой инфраструктуры и сокращает затраты». Кроме того, «RDBMS (система управления реляционной базой данных) в облаке упрощает управление, не требуя при этом перестройки и использования NoSQL-подхода».
Как лечить хранилище данных
Однако переместить хранилище данных в облако – это не в парке прогуляться. Тем, кто решился на это, Веллс даёт следующие рекомендации:
- Обеспечьте ясность. «Начните планирование с составления списка причин, почему вам нужно переместить хранилище данных в облако, — советует Уэллс. — Определите свою стартовую позицию, свою конечную цель, разработайте маршрут движения к ней от начала до конца. На протяжении всего проекта придерживайтесь выбранного курса».
- Оцените текущую архитектуру, которую имеет хранилище данных. «Текущая архитектура может иметь недостатки и с трудом соответствовать требованиям команды аналитики. В этом случае запланируйте её перестройку, когда будете перемещать данные в облако».
- Определите стратегию миграции. Избегайте подхода “lift-and-shift” (копирование в облако без изменения архитектуры). «Изменения обычно нужны для того, чтобы адаптировать структуры данных, улучшить обработку, гарантировать совместимость с выбранной облачной платформой. Такая поступательная миграция распространена шире и обычно более успешна».
- Выберете технологию. «Определите облачную платформу, на которую вы хотите перейти. После этого можно выбирать инструмент для миграции».
- Перемещайте данные и вводите ХД в эксплуатацию. «Составьте план по тому, как вы будете тестировать успешность миграции. После этого начинайте перемещать структуру, данные и обработку. Протестируйте успешность их перемещения. Если тестирование пройдёт успешно, вводите облачное хранилище данных в эксплуатацию и перемещайте пользователей и приложения».
Обновлено: 22.03.2023
Опубликовано: 21.08.2018