Кто нужен вашей компании: инженер данных или data scientist? Часть 2.
О том, кто такой инженер данных, чем он отличается от data scientist, и о том, кто из них нужен вашей компании рассказывает Адам Мюррей, менеджер по контентному маркетингу компании Sisense.
Также читайте статью Что нужно, чтобы стать data scientist?
Какие инструменты нужны инженеру данных
Если просмотреть сайты по поиску работы, можно увидеть, что инженеры данных используют множество инструментов для поиска структуры в больших данных, управления ими, их хранения, перемещения. Среди этих инструментов – Hadoop, Spark, Kafka, MySQL, Redis, Riak, PostgreSQL, MongoDB, neo4j, Hive, and Sqoop. Кроме того, для инженеров данных будут полезны инструменты для управления конвейерами данных и потоками задач по обработке данных. Среди этих инструментов – Azkaban, Luigi, и Airflow и другие.
При этом большинство хранилищ сейчас активно движется в облака. Поэтому инженеры данных всё больше работают с облачными сервисами AWS, EC2, EMR, RDS и Redshift, облачными хранилищами, например, Snowflake и Google BiqQuery, вычислительными облачными сервисами, например, Microsoft Azure, решениями для оркестрирования систем, например, Kubernetes. Более того, все большее значение приобретает машинное обучение и искусственный интеллект, нейронные сети. А подготовить конвейеры данных для нейронных сетей – также задача инженера данных. Что касается языков программирования, то инженеры по данным используют Python, R, Java, C++, и Scala.
Какие инструменты нужны data scientist
Data scientist тоже должен владеть Python, R, Scala, Java, and C++. Однако Scala всё-таки более популярна среди инженеров данных. Им она особенно нужна, так как со Spark сложно создавать крупные ETL-потоки. Bнженеры данных чаще используют и Java, хотя для data scientist этот язык в последнее время также приобретает всё большее значение. Кроме того, для data scientist могут быть нужны SPSS, SAS, Stata, и Julia для построения моделей, а также Matlab и F#. Когда data scientist использует Python, полезными будут библиотеки машинного обучения Scikit-learn, библиотеки NumPy, SciPy, Matplotlib, пакет для изучения статистических данных Statsmodels и другие.
Безусловно, data scientist, как и инженеру данных не обойтись без хорошего знания решений для распределённого хранения и обработки больших данных Hadoop, Hive, Storm, Gurobi, MySQL, Spark, а также облачных сервисов AWS. Также data scientist должен прекрасно владеть широким перечнем инструментов для анализа данных, их визуализации, BI-инструментами. Так, для визуализации данных важно досконально изучить D3 (библиотека JavaScript). При работе с R для визуализации данных можно использовать ggplot2, с Python – библиотеку Pandas.
Не только знания, но и опыт у data scientist и инженера данных
Знание инструментов, которые я перечисляю выше – необходимое условие для успешной работы data scientist и инженера данных. Кроме того, если вы нанимаете того или другого специалиста, важно обратить внимание на практический опыт кандидатов. Очевидно, что и data scientist, и инженер данных должны разбираться в области ИТ, но на разном уровне. Обычно технические компетенции инженера данных более глубокие, он лучше знаком в различными ИТ-системами. Безусловно, определяющим тут является опыт работы с большими данными, различными базами данных, облачными решениями, опыт обработки больших объёмов разрозненных наборов данных и поиск в них полезной информации. Инженер данных должен понимать код и скрипты, иметь опыт мониторинга работы систем, создания дашбордов, настройки оповещений. Мы уже отмечали, что data scientist больше ориентирован на бизнес. Поэтому у него может быть экономическое, математическое образование и прочее. Также data scientist может прийти в профессию из вэб-разработки, администрирования баз данных и из других смежных специальностей.
У data scientists обычно более богатый опыт в использовании прикладных математических моделей, статистики, разработки моделей данных и машинного обучения. Кроме того, как мы ранее отмечали, у него должен быть опыт визуализации данных и презентации инсайтов для бизнеса на основе данных. Другими словами, они должны хорошо уметь рассказать технических вещах людям из бизнеса.
Оптимальный тандем – data scientist и инженер данных
Выбирать межу data scientist и инженером данных нужно после того, как вы проанализировали те задачи, которые есть в вашей компании. Было бы оптимально нанять обоих. Такой тандем позволит вам извлекать максимальную пользу из данных, получать инсайты, которые будут двигать ваш бизнес вперед.
Обновлено: 21.03.2023
Опубликовано: 10.01.2020