Как применить data science и не потерпеть неудачу

20 сентября 2019
Учиться нужно не только на историях успеха, но и на историях провалов. Читайте ниже о том, как сильная команда data science не смогла эффективно проанализировать данные с помощью искусственного интеллекта (ИИ) из-за некачественных данных. Кейс рассказывает Ронен Шварц, старший вице-президент Infomatica.Также читайте статью Ронена на российском портале GlobalCIO Ронен Шварц, спикер форума «Цифровая организация»: системный подход на пути к Данным 3.0. Также по этой теме читайте статью Павла Лихницкого, генерального директора DIS Group Как сделать data science эффективнее?

Урок для всех, кто применяет data science

Мне часто приходится ездить в командировки и встречаться с клиентами по всему миру. Их истории позволяют мне глубже понять, что происходит с управлением данными и их анализом, в том числе с помощью методов data science. Недавно я встречался с Джо, руководителем практики data science одного из стратегических клиентов Informatica. Он рассказал мне историю, которая станет прекрасным уроком для всех команд data science по всему миру.

Очень амбициозный проект в области data science

Джо объяснил мне: «Наша ключевая задача – помочь клиентам компании использовать алгоритмы машинного обучения (ML) и ИИ для того, чтобы сфокусировать инвестиции на тех областях, которые принесут больше всего пользы». Он продолжил: «Однажды мы проводили стратегический пилотный проект для одного из наших клиентов. Мы планировали проанализировать его бизнес-данные с помощью ИИ и на основе этого составить операционный план. В этот план должны были входить рекомендации по тому, когда клиенту стоило вывести на рынок новую услугу и сколько торговых представителей было необходимо нанять для её успешного продвижения». У Джо очень сильная и дорогая команда по data science (о том, как набрать такую команду читайте в другой статье блога). В ней пять экспертов в области ИИ и ML и 10 инженеров по данным. Клиент, о котором рассказывал Джо, был для него стратегическим, поэтому на его проект он бросил своих лучших специалистов. На каждый географический регион (Америка, Европа, Ближний Восток и Африка, АТР) был выделен отдельный инженер по данным. Каждый из них собрал максимальное количество информации (по несколько сотен таблиц с клиентскими данными, данными о заказах и рынке). Два специалиста по машинному обучению потратили несколько дней на поиск и применение лучших моделей и составление рекомендаций. ML явно показывал, что нужно инвестировать в регион Европы, Ближнего Востока и Африки. А это значительно выбивалось из практики инвестиций компании-клиента за последние несколько лет. Когда члены команды Джо ехали на встречу с клиентом, они были убеждены, что сделали всё наилучшим образом. Но, когда они закончили свою презентацию, представители клиента отреагировали на неё негативно. Команде по data science сказали, что они далеки от истины и их рекомендации не имеют смысла.

Что не так с данными для data science

После встречи сотрудники Джо были вынуждены переделать всю работу заново. Они пытались понять, где свернули не туда. В итоге – выяснили, что после слияния 150 источников данных по региону Европы, Ближнего Востока и Африки около 30% записей в ключевой области оказались дубликатами. Запись об одной и той же сделке могла появиться с указанием разной стоимости из-за разных валют и разного описания на разных языках. Такие дубликаты в значительной степени повлияли на конечные результаты. Команде Джо пришлось улучшить данные, удалить из них дубликаты и заново обучить на них модель. После этого они были уверены, что теперь рекомендации будут правильными: увеличить инвестиции в Америке и сфокусироваться на компаниях среднего размера. Вторая презентация команды data science снова была встречена неодобрительными покачиваниями головы. Предложение сфокусироваться на средних компаниях казалось правильным. При этом было много и показателей, которые говорили о том, что компании стоило сфокусироваться на двух тысячах самых крупных организаций. Сотрудники Джо попросили разрешения подтвердить свои рекомендации. Они внимательно изучили ключевые параметры модели, которые и привели к финальному решению. Было сложно увидеть, как модели обучаются и какие образом приходят к рекомендации. Но в конце концов специалисты по data science поняли, что ключевым параметром в подсчётах модели был параметр продления. Члены команды Джо были очень удивлены, когда поняли, что в большинстве записей информации о продлении не было вообще. Где-то в рамках конвейера данных «отсутствие значения» в поле «продление» превратилось в «ноль». Это значительно повлияло на обучение модели. И снова специалисты по data science поправили модель и снова пришли на встречу с клиентом, чтобы рассказать о своих результатах. Сработало ли всё в этот раз? К сожалению, нет. Мой собеседник признался, что в среднем его команде приходится всё переделывать от трёх до пять раз, чтобы получить верный результат. Мне Джо рассказал это, потому что хотел поделиться важным выводом, к которому пришёл: процессы обеспечения качества данных и управление данными – важные составляющие работы искусственного интеллекта.

Чтобы не потерпеть неудачу с data science, поддерживайте качество данных

Informatica ежегодно проводит масштабную конференцию для специалистов в области управления данными Informatica World (читайте также отзыв о поездке главного инженера департамента управления данными ПАО Сбербанк). В этом году главной темой конференции стала связь данных и искусственного интеллекта. На сессии по перспективам рынка выступали аналитики, клиенты и партнёры. Они рассказывали о том, как искусственный интеллект и машинное обучение меняют бизнес. Особенно много говорилось о том, что для их эффективной работы большое значение имеют зрелые технологии, такие как обеспечение качества данных. Искусственный интеллект и машинное обучение не могут работать без данных. Данных нужно много для того, чтобы модели эффективно обучались и находили полезные инсайты. При этом именно качество информации и её подготовка приобретает всё большое значение по мере того, как эволюционирует ИИ и ML. Как сказал один из моих друзей: «Искусственный интеллект – самый умный способ получить глупый ответ». Али Годси, CEO Databricks на Informatica World озвучил похожее выражение. «Самая сложная часть ИИ не ИИ, а данные для него». Вам также может быть интересна статья DevOps – новая философия data science.

Рекомендуем также

Big Data изменила машинное обучение. Почему теперь не обойтись без Apache Spark?

О том, с какими проблемами можно сейчас столкнуться при использовании машинного обучения (ML) и как Apache Spark помогает их решить – в статье с участием Лу Карвальхейра (менеджер по продвинутой аналитике Customer Intelligence) и Райан Михалюк (старший data scientist в Allstate).

28 февраля 2019

Технологии Big Data развиваются и заставляют пересмотреть подходы к ML

Машинное обучение поддерживает развитие аналитики уже давно. Оно получило такое широкое распространение, что его эффективность не вызывает вопросов. Например, в страховой индустрии давно применяются статистические методы машинного обучения для работы с обычными страховыми таблицами. ML в этом случае предсказывает конечный результат таблицы. Однако этот процесс значительно ограничен из-за объёмов данных, сложности моделей и числа итераций, которые необходимы для успешной тренировки моделей. Широкое распространение платформ параллельной обработки всё больше меняет мир данных. Система хранения Hadoop Система хранения Hadoop позволяет использовать беспрецедентные объёмы данных для обучения моделей. Это даёт возможность получать более качественные предсказания и инсайты (полезные для бизнеса закономерности). На их основе можно улучшить процесс принятия решений для ценообразования, противодействия , оценке платёжеспособности и маркетинга. А для обработки данных Hadoop позволяет не один компьютер, а значительные вычислительные мощности. Такие изменения заставляют пересмотреть использование машинного обучения. Без этого будет сложно раскрыть возможности, которые скрыты в Big Data.

Проблемы ML: сложные алгоритмы, много моделей и данных

На конференции для data scientists Strata+Hadoop World много говорилось о том, что предиктивные алгоритмы ML становятся всё сложнее, а на данных одной организации одновременно обучается всё больше моделей. Специалисты обеспокоены тем, что эти два фактора могут сузить сферу применение машинного обучения в бизнесе. Ещё один важный фактор, который влияет на применение ML, – рост объёмов данных. С одной стороны, как говорилось раннее, этот фактор имеет положительное значение. Он позволяет лучше тренировать модели. С другой стороны, из-за больших объёмов время тренировки растёт экспоненциально. В таких условиях в первую очередь страдают итерационные алгоритмы: они становятся узким местом аналитики. А в машинном обучении большинство алгоритмов итерационные. Из-за этого специалисты вынуждены возвращаться к тренировке моделей на пробных наборах данных, на не полных или почти полных дата-сетах. А это снова снижает их предсказательную способность, а точность оказывается недостаточной.

Время – деньги

Четвёртый фактор, который играет определяющую роль для машинного обучения в том, что сейчас необходимо быстро действовать на основе анализа Big Data. Например, для розничного сектора важно быстро определять характеристики своего покупателя, чтобы успеть под него построиться. В цикле продаж должно быть заложено время на передачу результатов аналитики в отделы маркетинга и продаж. Они в свою очередь должны успеть создать упаковку для продукта, которая понравится покупателю. Умение точно оценивать вероятность того, кто купит продукт или услугу и сколько он на него может потратить, принесёт выгоду любой компании. Но для этого потребуется обучить много предиктивных моделей в ограниченное количество времени. А это может стать настоящей проблемой.

Apache Spark спешит на помощь

В таких условиях важно правильно выбрать алгоритмы ML. Всё большее значение приобретают алгоритмы библиотеки Apache Spark – MLib. Главное преимущество Apache Spark – в том, что он ускоряет вычисления в случае итеративных алгоритмов за счёт кэширования в оперативной памяти. Пока не знаете, что такое Apache Spark? Начните своё знакомство с продуктом со статьи 6 фактов об Apache Spark, которые нужно знать каждому. Ещё больше о продукте – в статье Apache Spark для текстового поиска: найти всё, что скрыто В библиотеке Apache Spark можно найти общие алгоритмы, включая классификации, регрессию, кластеризацию, совместную фильтрацию, снижение размерности. А также – утилиты для поддержки потока операций машинного обучения, утилиты для применения статистики и другое. Библиотеку Apache Spark можно легко использовать. Её алгоритмы в 100 раз быстрее MapReduce и они работают, где угодно (например, на Hadoop, Mesos, Kubernetes). Библиотека Apache Spark уже широко применяется в рекомендательных системах на сайтах. Можно смело говорить, что за ней будущее.

Рекомендуем также

Интеллектуальная обработка данных или магия искусственного интеллекта

О том, как обработка данных с помощью искусственного интеллекта (ИИ) CLAIRE преобразует строки кода в понятный для бизнес-пользователя формат, как искусственный интеллект справляется с «дрейфом данных» и какие математические алгоритмы помогают ему в этом, рассказывает Эйнат Хафтель, вице-президент по управлению продуктом.

12 июля 2018
В компании Informatica Эйнат курирует развитие машинного обучения и искусственного интеллекта. «Каждый фокус состоит из трёх частей или действий. Первая часть называется «наживка». Фокусник показывает вам самый обычный предмет — колоду карт, птицу, или человека. Он демонстрирует предмет, возможно даже просит проверить, убедиться, что он реальный, не эфемерный, самый обычный, но, разумеется, это скорее всего не так. Второе действие называется «превращение». Фокусник берёт этот самый обычный предмет и делает с ним что-то необычное. В этот момент вы начинаете искать разгадку, но не находите, потому что не особенно стараетесь. Вы не хотите её знать. Вы хотите быть обманутым. Но вы не торопитесь хлопать, потому что заставить предмет исчезнуть — это еще не всё, его следует вернуть. Вот зачем нужна третья часть номера, самая сложная, часть, которую мы называем «престиж». С этих слов начинается «Престиж» – один из наиболее известных фильмов режиссера Кристофера Нолана. Эта цитата прекрасно подходит к описанию принципов работы искусственного интеллекта. Она просто, но точно описывает наши чувства в тот момент, когда мы видим что-то, что кажется нам магическим, чего мы не можем понять.

Наживка

Наш фокусник – искусственный интеллект – берёт самый обычный предмет. Например, типичные электронные данные блога, которые генерируется браузером и включают в себя информацию об активностях пользователя на определённом сайте. Эти данные обычно формируются в документ, который сложно понять обычному пользователю. Необходимо иметь навыки разработчика для того, чтобы вручную перенести его в тот вид, который будет приносить реальную пользу бизнесу.

Превращение

Искусственный интеллект позволяет бизнес-пользователю или аналитику обработать и трансформировать этот непонятный набор данных в знакомый и простой вид таблицы.

Престиж

Но мы все знаем, что обычно приходится иметь дело не с одним набором данных. И не всегда все данные имеют одинаковые форматы. Методология Data Governance называет это «дрейфом данных». Дрейф данных – изменение их формата, содержания и скорости поступления. Множество переменных влияет на содержание данных: устройство, с которого они поступили, версия его операционной системы, дата, географическое положение, браузер и многое другое. Эти переменные представляют серьёзную проблему для организаций, которые пытаются собрать, обработать и проанализировать новые данные. Опрос 2016 года показал, что 26% респондентов перестали применять собираемые данные для аналитики из-за того, что не смогли привести их к единому формату. CLAIRE от Informatica может динамически и автоматически переносить данные из разных файлов в привычный вид таблицы.

Обработка данных не магия

В отличие от фокусников в фильме «Престиж» CLAIRE использует математические алгоритмы для обработки данных, а не магию. Чтобы преобразовать данные в удобный формат, сначала нужно понять структуру первоначального файла, в котором они были собраны. Сперва CLAIRE делает несколько предположений о структуре данных, опираясь на базовый парсинг, основанный на знаках-разграничителях. Теперь нужно понять, какая из предполагаемых структур верная. Для этого CLAIRE применяет математическую методологию – «генетическое программирование». Алгоритмы этой методологии достигают цели с помощью концепции эволюции, естественного отбора. CLAIRE обрабатывает и оценивает предполагаемые структуры файла по нескольким параметрам, например, по извлечённым доменам. Так она определяет их «приспособленность». Следом идёт фаза «мутации». Алгоритм пытается немного изменить выбранные варианты структуры данных. Например, он «скрещивает» их между собой и наблюдает, не будет ли «приспособленность» у полученных таким образом новых структур выше. Это эволюционная фаза. Она завершает процесс, когда ей удаётся окончательно определить структуру первоначального массива данных, а значит, форму, в которой будет оптимально показать данные бизнес-пользователю. Такой механизм не требует участия человека. К тому же он не ограничен популярными форматами. Обработка данных и определение их структуры не единственная функция CLAIRE. Но нельзя не отметить, что с этой задачей ИИ Informatica справляется блестяще. Он легко приспосабливается к «дрейфу данных», успешно работает с файлами системных журналов и иными данными, полученными с неисправных устройств.

Рекомендуем также