Top.Mail.Ru

Озеро данных (data lake) в облаке: 4 причины роста популярности

О том, что такое современное озеро данных и почему оно может потеснить другие решения для хранения и обработки данных, рассказывает Джош Бенамрам, продуктовый менеджер в Sisense.

Озеро данных в облаке набирает популярность

Решение Sisense помогает анализировать большие данные из разных источников и для различных сценариев использования.  Наша команда работает с клиентами по всему миру. Это даёт нам уникальную возможность следить за трендами на рынке управления данными, выделять тренды на основе запросов заказчиков и сценариев использование нашего решения. Самый яркий тренд, который сейчас можно заметить на рынке, – значительный рост популярности озера данных в облаках, в частности популярности Amazon S3, Snowflake и Google BigQuery.

Только за последние несколько кварталов количество запросов клиентов на подключение Sisense к облачному озеру данных выросло вдвое.  Для сравнения запросов на подключение к самой популярной базе данных для аналитики Amazon Redshift в последнее время стало больше только на 20%.

Что такое озеро данных?

Озеро данных – это среда, где можно аккумулировать очень большие объёмы данных, чаще всего в полуструктурированном виде. Современные озёра данных также:

  • Позволяют разделять хранение и обработку данных с точки зрения инфраструктуры и затрат;
  • Подходят для хранения информации любого типа;
  • Обеспечивают возможность бесконечного масштабирования.

Что же приводит к росту популярности озера данных в облаке? Давайте рассмотрим четыре причины для этого.

Большие данные стали демократичнее

Из-за перехода в облака растут объёмы данных, которые собирают компании. Совсем недавно только у самых крупных компаний было достаточно информации, чтобы наполнить озеро данных. Но эти крупные компании легко могли себе позволить тратить значительные средства на персонал по обслуживанию озёр и на инфраструктуру. А технологии больших данных, в частности Hadoop требуют действительно значительных затрат. Тогда появилось множество ИТ-компаний, которые предлагают услуги по управлению озером данных. В целом это удешевило проекты в озере данных. Но нехватка высококвалифицированных специалистов и необходимость значительных инвестиций на старте всё равно оставались значительными сдерживающими факторами для многих организаций на пути к Big Data.

Сейчас даже небольшие компании генерируют петабайты информации. Чаще всего это данные интернет-траффика, данные о клиентах и пользователях в облаках. В день в небольшой организации могут генерироваться десятки миллионов записей. Бизнес в целом стал лучше понимать ценность данных. Возникла потребность в доступных способах сбора, хранения и обработки информации. Это привело к развитию спроса на удобные ИТ-инструменты с выгодным и гибким ценообразованием.

Облака упростили управление озером данных

Озеро данных чаще всего создаётся на основе кластера Hadoop. Сам Hadoop – это open-source решение. Но, чтобы его эффективно внедрить, может потребоваться несколько миллионов долларов. Это будут траты на инфраструктуру, разработчиков, консультантов, а также инвестиции времени и денег непосредственно в установку решения и его эксплуатацию.

В последние несколько лет на рынке появились предложения использовать Hadoop в облаке. Эта схема освобождает компанию-заказчика от нагрузки по поддержанию инфраструктуры. Так, в качестве аналитического озера данных можно использовать Amazon S3. Изначально S3 разрабатывался для различных сценариев и форматов хранения данных, но оказалось, что для озера данных решение Amazon особенно хорошо подходит благодаря своей простоте в управлении и новым SQL-интерфейсам. Сейчас компания может хранить в S3 любую информацию, а об автоматическом масштабировании, шифровании и многом другом позаботится AWS.

Озеро данных теперь помогает экономить

Если вы внедряете озеро данных в облаке, затраты на него будут очень небольшими. На рынке есть схемы ценообразования, по которым вы платите только за запросы к данным. Такие схемы не требуют значительной первоначальной инвестиции. Например, есть вам нужно осущетвить запрос к данным в S3, сделать это можно с помощью Athena или Spectrum, стоимость запроса будет от 5$. То есть, начать можно совсем с небольших инвестиций! Кроме того, модель раздельной оплаты хранения данных и их обработки позволяет бизнесу быть гибче в работе с Big Data. Если само по себе хранение информации не требует значительных затрат, а платить в основном приходится за запросы, в озеро данных можно собрать все сведения, которые потенциально могли бы принести пользу. И только потом уже по ходу работы можно будет решить, какая информация действительно нужна компании, а какая нет.

Этот подход может оказать более эффективным, чем подход, когда приходится заранее определять, какие данные собирать, а какие – нет. Аналитик может сделать запрос к уже собранным данным за несколько часов или даже минут. А вот на то, чтобы настроить новый поток сбора данных может уйти очень много времени. Кроме того, может оказаться, что для такого потока нужны дополнительные ИТ-решения или человеческие ресурсы, которых нет в наличии. При этом, если текущие запросы к информации в озере данных перерастут в более постоянные задачи (например, построение отчётности), возможно, будет необходимо пересмотреть модель оплаты.

Появились новые инструменты для озера данных в облаке

Сам процесс запросов к сведениям в озере данных также изменился. Появились новые методы на основе SQL-инструментов, которые прекрасно сочетаются с решениями для аналитики. Среди них:

  • Athena и Spectrum компании AWS;
  • open-source решения такие, как Apache Drill, Presto и Hive;
  • интегрированные решения такие, как Snowflake и BigQuery.

Появление этих новых SQL-инструментов значительно расширил выбор пользователей. Теперь они могут самостоятельно решить, что важнее всего именно для них: простота управления, продуктивность, масштабируемость или цена. А на основе этого – выбирать наиболее подходящий инструмент.

Озеро данных в облаке потеснит реляционные базы данных

В целом облачные решения для работы с данными становятся всё более востребованными. При этом озеро данных имеет все шансы отвоевать долю рынка реляционных баз данных.

Вам также может быть интересна статья Озеро данных: как с помощью искусственного интеллекта извлекать максимальную пользу? 


Поделиться
{{ responsive_img( url='/../../static/upload/news/detail-image.jpg',lazy=true, img_attrs={ class: "img-fluid lazy" }, formats=['webp'] ) }}

Рассылка новостей

    Продолжая пользоваться сайтом, вы даёте Согласие на автоматический сбор и анализ ваших данных, необходимых для работы сайта и его улучшения, использование файлов cookie.