DevOps – новая философия data science
О том, что такое DevOps и почему эту методологию должна начать использовать ваша команда по data science, рассказывает Джо Маккендрик, независимый аналитик и внештатный автор целого ряда зарубежных IT-изданий.
Что такое DevOps
DevOps – методология совместной работы разработчиков (development) и специалистов по ИТ-обслуживанию (operation). Весь проект разбивается на несколько задач. Разработчики выполняют одну из них. ИТ-специалисты проверяют, как функционирует эта отдельная часть кода в ИТ-системе их компании. При необходимости в проект добавляются новые требования. Процедура повторяется до тех пор, пока не будет реализован весь проект.
Команда data science должна находить инсайты регулярно
Сейчас DevOps принимает форму своеобразной религии во многих компаниях. Благодаря этой методологии проект воплощается в жизнь последовательно и согласно плану, а не в непредсказуемых объёмах и в непредсказуемое время. Разработчики славятся своей любовью работать в нестандартное время по нестандартному расписанию. Поэтому их стараются заставить тесно сотрудничать с сотрудниками ИТ-департаментов компаний. Последние, напротив, славятся своей дисциплиной и приверженностью жёсткому плану. В какой-то степени специалисты в области data science тоже склонны работать по нестандартному расписанию. Это приводит к тому, что бизнес не получает на регулярной основе инсайты – полезные для бизнеса закономерности, которые позволяет вычленить data science и анализ больших данных.
Сейчас многие эксперты советуют внедрить DevOps в работу команды data science. Специалисты в «науке о данных» должны больше сотрудничать со специалистами по ИТ-обслуживанию. Это поможет им чётко выполнять план по снабжению бизнеса инсайтами. «DevOps ориентирована на более тесное взаимодействие разработчиков с реальными ИТ-процессами в компании. А ведь специалисты data science также сталкиваются с проблемами в этой области, – объясняет Лиза Морган, автор ИТ-издания InformationWeek. – Скорость развития бизнеса продолжает увеличиваться. Команды data science будут вынуждены работать быстрее и качественнее. А DevOps уже доказал свою эффективность для ускорения разработки и повышения качества программного обеспечения».
Команда data science должна на практике проверять, как ведут себя их модели
Виктор Гюго Серчуче, бизнес-тренер по методологии agile, предлагает отказаться от изживших себя и неэффективных подходов к управлению данными. Он считает, что нужно перевести работу в более быстрый и продуктивный режим. «Создаётся впечатление, что всё, что нужно для больших данных, – построить хранилище. Но это не так», – объясняет он. Тем, кто анализирует данные, «часто не хватает «кросс-функционального сотрудничества и поддержки, которые им нужны. Без этого они не смогут выполнять свои задачи вовремя и приносить реальную пользу бизнесу», – объясняет Лиза Морган. «В продуктовой среде алгоритмы и математические модели data science не всегда ведут себя так, как предполагалось. Происходит это из-за того, что условия или данные там отличаются от тех, с которыми алгоритмы имели дело ранее», – добавляет она.
Она цитирует Майкла Фаузетта из G2 Crowd, который обращает внимание на необходимость срочно внедрять DevOps практики в работу с данными. «Результаты деятельности команды data scienсe в разработке, тестировании и оптимизации алгоритмов по-настоящему проверяются только на практике, – объясняет он. – От ленты новостей на Facebook до обвалов на бирже, мы видит, что происходит, когда алгоритмы работают плохо. Лучшие результаты дают те модели, которые постоянно тестируются и улучшаются». Сама Морган считает, что DevOps помогает команде data science достичь лучшей предсказуемости работы моделей. «Как и прикладное программное обеспечение, модели искусственного интеллекта могут прекрасно работать в лабораторных условиях. Но всё может измениться, когда они будут запущены в продуктовую среду, – говорит она. – Например, модель может не заработать из-за переобучения, которое происходит тогда, когда модель настолько сложная, что начинает искать закономерности в шуме».
Команда data science должна получить доступ к сервису данных
Виктор Гюго Серчуче называет сегодняшний процесс хранения данных «одной из оставшихся силосных ям, которые нужно встряхнуть с помощью методики agile». Он предлагает ввести «сервисную систему данных». Основной её принцип – бесперебойная поставка данных, когда это необходимо и куда это необходимо.
В конце концов, единственное, что имеет значение – это вовремя обеспечивать данными сотрудников компании для выполнения бизнес-задач. Такие методики, как Agile и DevOps помогут делать это быстро и качественно.
Команда data science должна быть вовлечена в весь процесс работы с данными
«DevOps даёт разработчикам и ИТ-специалистам возможность следить за тем, что делает другая команда. Это нужно для того, чтобы видеть весь цикл работы с данными. И отойти от традиционного процесса сдачи проекта. Этот процесс вызывает противоречия, переведение стрелок друг на друга и переделки», – объясняет Морган. «Команда data science может быть вовлечена в весь жизненный цикл решения проблемы от создания гипотезы до её тестирования, сбора данных, анализа, получения инсайтов. Но при этом им может не хватать совместной работы и поддержки сотрудников других отделов организации», – заключает она.
Вы уже пробовали внедрять DevOps и другие методики для эффективной работы команды data science? Но потока полезных инсайтов так и не получили? На это может быть много разных причин. Подробнее о них читайте в статье Почему анализ данных не приносит пользы вашей компании
Обновлено: 22.03.2023
Опубликовано: 13.08.2018