Как применить data science и не потерпеть неудачу
Учиться нужно не только на историях успеха, но и на историях провалов. Читайте ниже о том, как сильная команда data science не смогла эффективно проанализировать данные с помощью искусственного интеллекта (ИИ) из-за некачественных данных. Кейс рассказывает Ронен Шварц, старший вице-президент Infomatica.Также читайте статью Ронена на российском портале GlobalCIO Ронен Шварц, спикер форума «Цифровая организация»: системный подход на пути к Данным 3.0.
Также по этой теме читайте статью Павла Лихницкого, генерального директора DIS Group Как сделать data science эффективнее?
Урок для всех, кто применяет data science
Мне часто приходится ездить в командировки и встречаться с клиентами по всему миру. Их истории позволяют мне глубже понять, что происходит с управлением данными и их анализом, в том числе с помощью методов data science.
Недавно я встречался с Джо, руководителем практики data science одного из стратегических клиентов Informatica. Он рассказал мне историю, которая станет прекрасным уроком для всех команд data science по всему миру.
Очень амбициозный проект в области data science
Джо объяснил мне: «Наша ключевая задача – помочь клиентам компании использовать алгоритмы машинного обучения (ML) и ИИ для того, чтобы сфокусировать инвестиции на тех областях, которые принесут больше всего пользы». Он продолжил: «Однажды мы проводили стратегический пилотный проект для одного из наших клиентов. Мы планировали проанализировать его бизнес-данные с помощью ИИ и на основе этого составить операционный план. В этот план должны были входить рекомендации по тому, когда клиенту стоило вывести на рынок новую услугу и сколько торговых представителей было необходимо нанять для её успешного продвижения».
У Джо очень сильная и дорогая команда по data science (о том, как набрать такую команду читайте в другой статье блога). В ней пять экспертов в области ИИ и ML и 10 инженеров по данным. Клиент, о котором рассказывал Джо, был для него стратегическим, поэтому на его проект он бросил своих лучших специалистов. На каждый географический регион (Америка, Европа, Ближний Восток и Африка, АТР) был выделен отдельный инженер по данным. Каждый из них собрал максимальное количество информации (по несколько сотен таблиц с клиентскими данными, данными о заказах и рынке). Два специалиста по машинному обучению потратили несколько дней на поиск и применение лучших моделей и составление рекомендаций. ML явно показывал, что нужно инвестировать в регион Европы, Ближнего Востока и Африки. А это значительно выбивалось из практики инвестиций компании-клиента за последние несколько лет. Когда члены команды Джо ехали на встречу с клиентом, они были убеждены, что сделали всё наилучшим образом. Но, когда они закончили свою презентацию, представители клиента отреагировали на неё негативно. Команде по data science сказали, что они далеки от истины и их рекомендации не имеют смысла.
Что не так с данными для data science
После встречи сотрудники Джо были вынуждены переделать всю работу заново. Они пытались понять, где свернули не туда. В итоге – выяснили, что после слияния 150 источников данных по региону Европы, Ближнего Востока и Африки около 30% записей в ключевой области оказались дубликатами. Запись об одной и той же сделке могла появиться с указанием разной стоимости из-за разных валют и разного описания на разных языках. Такие дубликаты в значительной степени повлияли на конечные результаты. Команде Джо пришлось улучшить данные, удалить из них дубликаты и заново обучить на них модель. После этого они были уверены, что теперь рекомендации будут правильными: увеличить инвестиции в Америке и сфокусироваться на компаниях среднего размера. Вторая презентация команды data science снова была встречена неодобрительными покачиваниями головы. Предложение сфокусироваться на средних компаниях казалось правильным. При этом было много и показателей, которые говорили о том, что компании стоило сфокусироваться на двух тысячах самых крупных организаций.
Сотрудники Джо попросили разрешения подтвердить свои рекомендации. Они внимательно изучили ключевые параметры модели, которые и привели к финальному решению. Было сложно увидеть, как модели обучаются и какие образом приходят к рекомендации. Но в конце концов специалисты по data science поняли, что ключевым параметром в подсчётах модели был параметр продления. Члены команды Джо были очень удивлены, когда поняли, что в большинстве записей информации о продлении не было вообще. Где-то в рамках конвейера данных «отсутствие значения» в поле «продление» превратилось в «ноль». Это значительно повлияло на обучение модели.
И снова специалисты по data science поправили модель и снова пришли на встречу с клиентом, чтобы рассказать о своих результатах. Сработало ли всё в этот раз? К сожалению, нет. Мой собеседник признался, что в среднем его команде приходится всё переделывать от трёх до пять раз, чтобы получить верный результат. Мне Джо рассказал это, потому что хотел поделиться важным выводом, к которому пришёл: процессы обеспечения качества данных и управление данными – важные составляющие работы искусственного интеллекта.
Чтобы не потерпеть неудачу с data science, поддерживайте качество данных
Informatica ежегодно проводит масштабную конференцию для специалистов в области управления данными Informatica World (читайте также отзыв о поездке главного инженера департамента управления данными ПАО Сбербанк). В этом году главной темой конференции стала связь данных и искусственного интеллекта. На сессии по перспективам рынка выступали аналитики, клиенты и партнёры. Они рассказывали о том, как искусственный интеллект и машинное обучение меняют бизнес. Особенно много говорилось о том, что для их эффективной работы большое значение имеют зрелые технологии, такие как обеспечение качества данных.
Искусственный интеллект и машинное обучение не могут работать без данных. Данных нужно много для того, чтобы модели эффективно обучались и находили полезные инсайты. При этом именно качество информации и её подготовка приобретает всё большое значение по мере того, как эволюционирует ИИ и ML. Как сказал один из моих друзей: «Искусственный интеллект – самый умный способ получить глупый ответ».
Али Годси, CEO Databricks на Informatica World озвучил похожее выражение. «Самая сложная часть ИИ не ИИ, а данные для него».
Вам также может быть интересна статья DevOps – новая философия data science.
Обновлено: 21.03.2023
Опубликовано: 20.09.2019