Big Data изменила машинное обучение. Почему теперь не обойтись без Apache Spark?
О том, с какими проблемами можно сейчас столкнуться при использовании машинного обучения (ML) и как Apache Spark помогает их решить – в статье с участием Лу Карвальхейра (менеджер по продвинутой аналитике Customer Intelligence) и Райан Михалюк (старший data scientist в Allstate).
Технологии Big Data развиваются и заставляют пересмотреть подходы к ML
Машинное обучение поддерживает развитие аналитики уже давно. Оно получило такое широкое распространение, что его эффективность не вызывает вопросов. Например, в страховой индустрии давно применяются статистические методы машинного обучения для работы с обычными страховыми таблицами. ML в этом случае предсказывает конечный результат таблицы. Однако этот процесс значительно ограничен из-за объёмов данных, сложности моделей и числа итераций, которые необходимы для успешной тренировки моделей.
Широкое распространение платформ параллельной обработки всё больше меняет мир данных. Система хранения Hadoop Система хранения Hadoop позволяет использовать беспрецедентные объёмы данных для обучения моделей. Это даёт возможность получать более качественные предсказания и инсайты (полезные для бизнеса закономерности). На их основе можно улучшить процесс принятия решений для ценообразования, противодействия , оценке платёжеспособности и маркетинга. А для обработки данных Hadoop позволяет не один компьютер, а значительные вычислительные мощности. Такие изменения заставляют пересмотреть использование машинного обучения. Без этого будет сложно раскрыть возможности, которые скрыты в Big Data.
Проблемы ML: сложные алгоритмы, много моделей и данных
На конференции для data scientists Strata+Hadoop World много говорилось о том, что предиктивные алгоритмы ML становятся всё сложнее, а на данных одной организации одновременно обучается всё больше моделей. Специалисты обеспокоены тем, что эти два фактора могут сузить сферу применение машинного обучения в бизнесе.
Ещё один важный фактор, который влияет на применение ML, – рост объёмов данных. С одной стороны, как говорилось раннее, этот фактор имеет положительное значение. Он позволяет лучше тренировать модели. С другой стороны, из-за больших объёмов время тренировки растёт экспоненциально. В таких условиях в первую очередь страдают итерационные алгоритмы: они становятся узким местом аналитики. А в машинном обучении большинство алгоритмов итерационные.
Из-за этого специалисты вынуждены возвращаться к тренировке моделей на пробных наборах данных, на не полных или почти полных дата-сетах. А это снова снижает их предсказательную способность, а точность оказывается недостаточной.
Время – деньги
Четвёртый фактор, который играет определяющую роль для машинного обучения в том, что сейчас необходимо быстро действовать на основе анализа Big Data. Например, для розничного сектора важно быстро определять характеристики своего покупателя, чтобы успеть под него построиться. В цикле продаж должно быть заложено время на передачу результатов аналитики в отделы маркетинга и продаж. Они в свою очередь должны успеть создать упаковку для продукта, которая понравится покупателю.
Умение точно оценивать вероятность того, кто купит продукт или услугу и сколько он на него может потратить, принесёт выгоду любой компании. Но для этого потребуется обучить много предиктивных моделей в ограниченное количество времени. А это может стать настоящей проблемой.
Apache Spark спешит на помощь
В таких условиях важно правильно выбрать алгоритмы ML. Всё большее значение приобретают алгоритмы библиотеки Apache Spark – MLib. Главное преимущество Apache Spark – в том, что он ускоряет вычисления в случае итеративных алгоритмов за счёт кэширования в оперативной памяти. Пока не знаете, что такое Apache Spark? Начните своё знакомство с продуктом со статьи 6 фактов об Apache Spark, которые нужно знать каждому. Ещё больше о продукте – в статье Apache Spark для текстового поиска: найти всё, что скрыто
В библиотеке Apache Spark можно найти общие алгоритмы, включая классификации, регрессию, кластеризацию, совместную фильтрацию, снижение размерности. А также – утилиты для поддержки потока операций машинного обучения, утилиты для применения статистики и другое. Библиотеку Apache Spark можно легко использовать. Её алгоритмы в 100 раз быстрее MapReduce и они работают, где угодно (например, на Hadoop, Mesos, Kubernetes). Библиотека Apache Spark уже широко применяется в рекомендательных системах на сайтах. Можно смело говорить, что за ней будущее.
Обновлено: 21.03.2023
Опубликовано: 28.02.2019