Озеро данных (data lake) в облаке: 4 причины роста популярности
О том, что такое современное озеро данных и почему оно может потеснить другие решения для хранения и обработки данных, рассказывает Джош Бенамрам, продуктовый менеджер в Sisense.
Озеро данных в облаке набирает популярность
Решение Sisense помогает анализировать большие данные из разных источников и для различных сценариев использования. Наша команда работает с клиентами по всему миру. Это даёт нам уникальную возможность следить за трендами на рынке управления данными, выделять тренды на основе запросов заказчиков и сценариев использование нашего решения. Самый яркий тренд, который сейчас можно заметить на рынке, – значительный рост популярности озера данных в облаках, в частности популярности Amazon S3, Snowflake и Google BigQuery.
Только за последние несколько кварталов количество запросов клиентов на подключение Sisense к облачному озеру данных выросло вдвое. Для сравнения запросов на подключение к самой популярной базе данных для аналитики Amazon Redshift в последнее время стало больше только на 20%.
Что такое озеро данных?
Озеро данных – это среда, где можно аккумулировать очень большие объёмы данных, чаще всего в полуструктурированном виде. Современные озёра данных также:
- Позволяют разделять хранение и обработку данных с точки зрения инфраструктуры и затрат;
- Подходят для хранения информации любого типа;
- Обеспечивают возможность бесконечного масштабирования.
Что же приводит к росту популярности озера данных в облаке? Давайте рассмотрим четыре причины для этого.
Большие данные стали демократичнее
Из-за перехода в облака растут объёмы данных, которые собирают компании. Совсем недавно только у самых крупных компаний было достаточно информации, чтобы наполнить озеро данных. Но эти крупные компании легко могли себе позволить тратить значительные средства на персонал по обслуживанию озёр и на инфраструктуру. А технологии больших данных, в частности Hadoop требуют действительно значительных затрат. Тогда появилось множество ИТ-компаний, которые предлагают услуги по управлению озером данных. В целом это удешевило проекты в озере данных. Но нехватка высококвалифицированных специалистов и необходимость значительных инвестиций на старте всё равно оставались значительными сдерживающими факторами для многих организаций на пути к Big Data.
Сейчас даже небольшие компании генерируют петабайты информации. Чаще всего это данные интернет-траффика, данные о клиентах и пользователях в облаках. В день в небольшой организации могут генерироваться десятки миллионов записей. Бизнес в целом стал лучше понимать ценность данных. Возникла потребность в доступных способах сбора, хранения и обработки информации. Это привело к развитию спроса на удобные ИТ-инструменты с выгодным и гибким ценообразованием.
Облака упростили управление озером данных
Озеро данных чаще всего создаётся на основе кластера Hadoop. Сам Hadoop – это open-source решение. Но, чтобы его эффективно внедрить, может потребоваться несколько миллионов долларов. Это будут траты на инфраструктуру, разработчиков, консультантов, а также инвестиции времени и денег непосредственно в установку решения и его эксплуатацию.
В последние несколько лет на рынке появились предложения использовать Hadoop в облаке. Эта схема освобождает компанию-заказчика от нагрузки по поддержанию инфраструктуры. Так, в качестве аналитического озера данных можно использовать Amazon S3. Изначально S3 разрабатывался для различных сценариев и форматов хранения данных, но оказалось, что для озера данных решение Amazon особенно хорошо подходит благодаря своей простоте в управлении и новым SQL-интерфейсам. Сейчас компания может хранить в S3 любую информацию, а об автоматическом масштабировании, шифровании и многом другом позаботится AWS.
Озеро данных теперь помогает экономить
Если вы внедряете озеро данных в облаке, затраты на него будут очень небольшими. На рынке есть схемы ценообразования, по которым вы платите только за запросы к данным. Такие схемы не требуют значительной первоначальной инвестиции. Например, есть вам нужно осущетвить запрос к данным в S3, сделать это можно с помощью Athena или Spectrum, стоимость запроса будет от 5$. То есть, начать можно совсем с небольших инвестиций! Кроме того, модель раздельной оплаты хранения данных и их обработки позволяет бизнесу быть гибче в работе с Big Data. Если само по себе хранение информации не требует значительных затрат, а платить в основном приходится за запросы, в озеро данных можно собрать все сведения, которые потенциально могли бы принести пользу. И только потом уже по ходу работы можно будет решить, какая информация действительно нужна компании, а какая нет.
Этот подход может оказать более эффективным, чем подход, когда приходится заранее определять, какие данные собирать, а какие – нет. Аналитик может сделать запрос к уже собранным данным за несколько часов или даже минут. А вот на то, чтобы настроить новый поток сбора данных может уйти очень много времени. Кроме того, может оказаться, что для такого потока нужны дополнительные ИТ-решения или человеческие ресурсы, которых нет в наличии. При этом, если текущие запросы к информации в озере данных перерастут в более постоянные задачи (например, построение отчётности), возможно, будет необходимо пересмотреть модель оплаты.
Появились новые инструменты для озера данных в облаке
Сам процесс запросов к сведениям в озере данных также изменился. Появились новые методы на основе SQL-инструментов, которые прекрасно сочетаются с решениями для аналитики. Среди них:
- Athena и Spectrum компании AWS;
- open-source решения такие, как Apache Drill, Presto и Hive;
- интегрированные решения такие, как Snowflake и BigQuery.
Появление этих новых SQL-инструментов значительно расширил выбор пользователей. Теперь они могут самостоятельно решить, что важнее всего именно для них: простота управления, продуктивность, масштабируемость или цена. А на основе этого – выбирать наиболее подходящий инструмент.
Озеро данных в облаке потеснит реляционные базы данных
В целом облачные решения для работы с данными становятся всё более востребованными. При этом озеро данных имеет все шансы отвоевать долю рынка реляционных баз данных.
Вам также может быть интересна статья Озеро данных: как с помощью искусственного интеллекта извлекать максимальную пользу?
Обновлено: 22.03.2023
Опубликовано: 19.06.2020