Почему озеро данных не приносит пользы и что с этим делать?
О самых распространённых ошибка в построении корпоративного озера данных и о том, как их исправить, рассуждает Вамши Шриперумбудур. В Informatica Вамши Шриперумбудур занимается маркетингом решений в области Big Data и аналитики.
Эксперты начали сомневаться в пользе озера данных
Многие эксперты сейчас сходятся во мнении, что озеро данных уже давно должно было доказать свою эффективность для бизнеса. По мнению многих специалистов, пришло время, когда необходимо чётко показать выгоду от озера данных или заменить его на более перспективную технологию.
К сожалению, в целом я вынужден согласиться: из озера данных многим так и не удалось извлечь никакой выгоды. Большинство компаний продолжают использовать его только в тестовом режиме, для экспериментов. Бизнес-пользователи (data scientists и аналитики) ценят озеро данных за то, что оно обеспечивает быстрый доступ к информации для оперативной проверки тех или иных бизнес-гипотез, позволяет экспериментировать на основе этой информации. Но перехода от экспериментов к переносу значимых процессов в озера чаще всего так и не происходит. Давайте рассмотрим, что этому мешает.
Озеро данных стало болотом
Озеро данных может стать болотом, в котором собраны совершенно разные данные совершенно разного качества. Этим данным вы не можете доверять, а значит, не можете доверять результатам их анализа.
Именно поэтому необходимо перестроить озеро данных таким образом, чтобы ко всей информации, которая туда поступает применялись правила по поддержанию качества данных, их очистке и обогащения.
В озере данных нет качественной карты, которая могла бы помочь найти нужные сведения
Мы все используем навигаторы. Они не только позволяют выстроить самый эффективный маршрут из пункта А в пункт Б, но и по дороге показывают заправки, магазины, кафе и прочее. При работе с корпоративными данными также нужны такие навигаторы – каталоги данных. Каталоги данных сканируют метаданные в различных системах компании (базы данных, приложения, инструменты), собирают их в одно место, автоматически составляют и семы метаданных и их связей друг с другом. Это позволяет находить метаданные, которые могут быть нужны для того или иного приложения, той или иной интеграции.
Кроме того, во многих каталогах находить и классифицировать данные пользователям помогают встроенные алгоритмы искусственного интеллекта и машинного обучения. Благодаря этому поиск по корпоративным данным становится интуитивным, как поиск в Google. Больше о каталогах данных читайте в статье Каталог данных: что такое, зачем он нужен, как его выбрать.
Нет возможности качественно обрабатывать информацию в озере данных
Из-за того, что всё большее число бизнес-пользователей начинает самостоятельно работать с корпоративной информацией, приходится менять традиционный подход к управлению данными. Эффективные инструменты для подготовки данных к анализу позволяют data scientists и аналитикам самостоятельно находить и обрабатывать сведения, которые нужны им для аналитики. Важно, чтобы такие инструменты предоставляли возможность интегрировать данные, трансформировать и очищать. Без этого доверять результатам анализа данных нельзя.
Кроме того, должна быть возможность перенести уже обработанные сеты данных в отдельную среду для того, чтобы другие сотрудники компании могли также ими воспользоваться. К тому же у бизнес-пользователей должна быть возможность объединяться для совместной подготовки тех или иных дата-сетов к анализу. Это значительно ускорит и упростит многие процессы.
Озеру данных ещё предстоит доказать свою пользу для бизнеса
Озеро данных – сравнительно молодая технология. Бизнесу ещё только предстоит научиться извлекать из неё пользу. Правильный подход к построению озера данных поможет вам извлечь выгоду из этой технологии быстрее. О российском опыте использования озера данных читайте в статье «Газпром нефть» первой в России запустила «умное озеро данных» на базе решений Informatica.
Обновлено: 22.03.2023
Опубликовано: 13.05.2020