Всем выйти из сумрака: анализ и обработка данных, которые считаются «тёмными»
Не важно, как хорошо ведутся анализ и обработка данных в вашей организации. Скорее всего, они не охватывают всю информацию, которую могли бы охватить. А именно эта информация может оказаться самой ценной для бизнеса. О том, как вывести все данные из сумрака и начать их использовать c пользой, рассказывает Джо Маккендрик, независимый аналитик и внештатный автор целого ряда зарубежных IT-изданий.
Найди меня, если сможешь
В последнее время много обсуждаются «тёмные данные» и «тёмная аналитика». Эти термины относятся к информации, которая хранится там, где анализ и обработка данных недоступны – в тени. Среди таких мест – электронные таблицы на компьютерах сотрудников. Также данные могут оставаться «в тени», потому что сформированы как результат анализа или оценки существующих источников данных. Например, видеосъёмка выражения лица клиента, когда он смотрит на товары в вашем магазине, – это «тёмные данные». Вопрос только в том, можно ли их как-то идентифицировать и зафиксировать?
По мере развития искусственного интеллекта и машинного обучения всё больше данных выходит «из тени». «Ценные инсайты получают из «тёмных данных» посредством решения проблем статистического анализа в больших масштабах», – считает Абхишек Будхолия, Future Market Insights, который недавно опубликовал анализ рынка «тёмной аналитики». «Тёмная аналитика», – продолжает эксперт, – помогает лучше понять нереализованные возможности. В большей степени эти возможности – в области продаж и маркетинга». Тренды в области продаж, производства и дистрибуции – также потенциальные кандидаты для применения аналитики такого рода.
Некоторые аналитики причисляют к «тёмным данным» и те, которые можно собрать в даркнете (закрытый сегмент интернета, куда можно попасть только с помощью специального ПО). Однако большая часть возможностей скрывается в хорошо известных и ничем не примечательных источниках. Например, в сырых текстовых данных, «которые могут включать в себя текстовые сообщения, документы, адреса электронной почты, видео и аудиофайлы, изображения», – указано в отчёте, подготовленном Трейси Кэмбис, Нитин Миттал, Сандип Кумар Шарма (консалтинговая компания Deloitte). Большая часть этого может быть скрыта в «глубинной Сети» (страницы сайтов, которые не индексируются поисковыми системами).
Хорошие новости в том, что во многих организациях данные легко вывести из тени: они уже находятся под рукой. «Во многих компаниях большие объёмы структурированных и неструктурированных данных лежат без дела», – указывает Кэмбис и её соавторы. «Обычно сложно создать эффективно работающие связи между разрозненными дата-сетами. Например, большая страховая компания соотнесла схему домашних адресов сотрудников и распределения парковочных мест и уровень их удовлетворённости рабочим местом и уровнем удержания работников в организации. На основе этого они смогли понять, влияет ли путь от дома до работы на текучку кадров».
«Данные, которые находятся в тени, могут включать в себя «ценную информацию о расчёте цен, клиентском поведении и конкурентах. При этом она может быть погребена в традиционных неструктурированных данных, – добавляют сотрудники Deloitte. – Неиспользуемые данные включают в себя адреса электронной почты, заметки, сообщения, документы, логи и уведомления, полученные с устройств интернета вещей и даже данные на иностранных языках, которые были собраны на зарубежных рынках и не были переведены. Причина того, что эту информацию не используют, может быть в том, что её не помещают в реляционные базы данных. Кроме того, для того, чтобы начать её эффективно применять до недавнего времени не существовало необходимых инструментов и техник».
Анализ и обработка данных станут доступнее
Технологии уже открыли многие источники данных, которые не использовались раньше. «Стратегические и операционные инсайты, а также инсайты о клиентах, погребены в больших объёмах сырых данных, которые генерируют транзакционные системы, социальные сети, поисковые системы и другие источники», – замечает Будхолия.
Среди технологий, которые делают анализ и обработку данных доступнее – «распределённая архитектура, обработка данных in-memory, машинное обучение, визуализация, когнитивная аналитика. Они помогают подтвердить или прояснить предположения, определить ценные наборы данных и инсайты, информировать тех, кто принимает решения, помочь наметить новые стратегии».
Вывести данные из тени поможет и искусственный интеллект и машинное обучение. «Используя компьютерное зрение (способность идентифицировать объекты, сцены и активности в изображениях), продвинутое распознавание образов, анализ видео и аудио, компании теперь могут заниматься обработкой данных и их анализом, даже если они нетрадиционных форматов. А это поможет бизнесу лучше понять клиентов, сотрудников, операционную деятельность и рынок».
4 совета для анализа и обработки данных, которые находятся в тени
Камбис и её коллеги дают следующие рекомендации по тому, как максимально использовать «тёмные данные», когда они в конце концов станут доступными.
Задавайте вопросы
Это прежде всего должны делать бизнес-специалисты, но ИТ-специалисты должны направлять и поддерживать их. «Работайте с бизнес-командами, чтобы выявить отдельные вопросы, ответы на которые могли бы помочь найти тёмные данные. А также – определить потенциальные источники для аналитики и нереализованные возможности». Такими источниками могут быть – видео или общественное мнение в социальных сетях, ценность которых ещё не была отмечена в компании.
Используйте внешние источники
«Расширяйте свои данные с помощью демографической информации, информации о местоположении, статистики, чтобы создавать более полные и детализированные отчёты и находить полезные инсайты».
Развивайте таланты сотрудников
Data scientists – важный ресурс. Но кроме них вам будут нужны будут специалисты с умениями в области визуализации, графического дизайна, традиционных умений в области обработки данных, управления мастер-данными и архитектурами данных.
Изучите продвинутые инструменты визуализации
«Информацию проще понимать, когда она представлена в форме инфографики, дашборда или любом другом визуальном формате».
Обновлено: 21.03.2023
Опубликовано: 27.11.2018