Озеро данных может иметь скрытые течения
Озеро данных – удобный инструмент работы с Big Data. Но с ним могут возникнуть проблемы. О том, как избежать этих проблем и не дать скрытому течению озера утопить ваши проекты, рассказывает Джо Маккендрик, независимый аналитик и внештатный автор целого ряда зарубежных IT-изданий.
Не ныряйте в озеро данных сразу
Организации должны аккуратно опускать свои руки в озёра данных. Предосторожности нужны не потому, что у компаний нет возможности технически поддерживать свои водоёмы информации. Дело скорее в том, что к работе с этим решением не готовы сотрудники, а бизнес-процессы к ней не приспособлены.
На форуме Data Summit, который проходил в Нью-Йорке, обсуждались сложности озёр данных и возможности, которые открывает эта технология. Среди участников – Энн Бафф, менеджер по бизнес-решениям для передового опыта в Институте SAS; Абхик Рой, инженер базы данных Experian и Тассос Сарбейнс, математик и data scientist в области инвестиционно-банковского дела Credit Suisse.
Сотрудники должны понимать, куда они плывут
В том, что касается технологий, большинство организаций легко могли бы применять озёра данных, считают участники дискуссии. «Мы движемся в верном направлении, – считает Сарбейнс. – Для эффективной работы достаточно интеграции сервисов, процессов и наборов инструментов, которые есть у компаний. Кроме того, мы каждый день слышим от сообщества open source о новых инструментах, которые раздвинут границы возможного ещё шире. Ограничений никаких нет. Сообщество open source постоянно создаёт всё новые и новые решения».
Бафф давно выступает против самой концепции озера данных. Но она согласна с тем, что проблема не в технологии, а в людях, которые используют её. «Для меня данные – это как банка с шурупами, болтами и гвоздями. Такие многие держат у себя в гаражах. Шурупы, болты, гвозди и данные хранятся на случай, если они когда-нибудь понадобятся, на всякий случай. Но доступ к такой банке должны иметь только те, кто понимает, когда именно что можно применить».
Бафф утверждает, что новые технологии, такие как озеро данных, могут появляться и исчезать. Важно, чтобы организация выращивала или нанимала сотрудников, которые смогут развиваться вместе с новыми требованиями бизнеса. Она считает, что не стоит искать специалистов с определённым набором навыков и умений. При найме нужно задавать соискателям один вопрос – «какая ваша главная задача в компании». Сотрудников нужно нанимать с условием, что они действительно понимают, чего пытаются достичь для компании. Также важно, чтобы работник был готов меняться вместе с технологией, когда она изменится».
Скрытые течения есть, но они не разрушат озёра
Озёра данных – «это только точка на радаре» развития технологий, считает Бафф. Также она перечисляет новые решения, которые сейчас разрабатываются. Например, будут такие, которые смогут применять структуру ДНК для хранения данных. Модель ДНК потребует небольшую часть того места, которое занимают данные сейчас. Большие хранилища в таких условиях будут не нужны.
Вопрос в том, будет ли озеро данных иметь такую же ценность для бизнеса через несколько лет? Особенно, когда активнее будет использоваться интернет и семантическая паутина для хранения данных онлайн, а также новые аналитические ресурсы. Скорее всего, да. Потому что некоторые данные, например, информация с сенсоров, настолько быстро меняется, что нужен специальный инструмент, который сможет поймать её и удержать.
Сарбейнс считает, что озеро данных будет необходимо всегда, потому что «организациям нужно своё собственное место, где они могут в безопасности хранить свои данные», – говорит Сарбейнс. «Сейчас на рынке нет места банкам или финансовым организациям, которые бы хранили данные в интернете. Им пришлось бы уйти с рынка на следующий день после того, как они начали это делать».
Бафф признаёт, что архитектуры с озёрами данных довольно эффективны. «Тревогу вызывают только организации, которые просто перемещают данные из разных источников в озеро и всё. Но идея, что связанные данные обязательно являются интегрированными, в корне неверная», – объясняет Бафф. Она добавляет, что озеро данных приносить пользу, если в нём работают «хорошо знающие данные и хорошо обученные люди». Однако «это не значит, что, если у вас есть озеро данных, доступ к нему можно давать всем. Специалисты без достаточной квалификации могут стать причиной нарушения работы всего решения».
Рой считает, что нужно в первую очередь принимать во внимание бизнес-процессы, а не технические аспекты работы с данными.
«Сначала нам нужно спросить себя, какую ценность озеро данных представляет для организации. Нашли ответ на этот вопрос? Вас подстерегает следующая проблема. Вам может быть сложно переместить слабо моделированные данные в среду озера. Нужно будет решить, как это сделать или научиться недорого создавать модели данных для каждого кейса».
Вместе с настроенными процессами работы с данными и экспертизой сотрудников большую роль играет наличие онтологии (состоит из структуры данных, содержащей все релевантные классы объектов, их связи и правила и так далее). Она является ключевым требованием при работе в среде озера данных, считает Сарбейнс. «Онтология будет играть ведущую роль в вашем озере или озёрах. Сотрудник, который заходит в озеро данных, чтобы найти что-то и выполнить необходимый анализ, должен будет посмотреть в «словарь данных».
Хотите узнать, какие ошибки чаще всего компании допускают при использовании озёр данных? Читайте об этом в другой статье в нашем блоге – Только начинаете работать с Big Data? Избегайте этих 5 ошибок!
Выжми из данных все!
Обновлено: 22.03.2023
Опубликовано: 29.08.2018