Какие инструменты нужны инженеру данных
Если просмотреть сайты по поиску работы, можно увидеть, что инженеры данных используют множество инструментов для поиска структуры в больших данных, управления ими, их хранения, перемещения. Среди этих инструментов – Hadoop, Spark, Kafka, MySQL, Redis, Riak, PostgreSQL, MongoDB, neo4j, Hive, and Sqoop. Кроме того, для инженеров данных будут полезны инструменты для управления конвейерами данных и потоками задач по обработке данных. Среди этих инструментов – Azkaban, Luigi, и Airflow и другие.
При этом большинство хранилищ сейчас активно движется в облака. Поэтому инженеры данных всё больше работают с облачными сервисами AWS, EC2, EMR, RDS и Redshift, облачными хранилищами, например, Snowflake и Google BiqQuery, вычислительными облачными сервисами, например, Microsoft Azure, решениями для оркестрирования систем, например, Kubernetes. Более того, все большее значение приобретает машинное обучение и искусственный интеллект, нейронные сети. А подготовить конвейеры данных для нейронных сетей – также задача инженера данных. Что касается языков программирования, то инженеры по данным используют Python, R, Java, C++, и Scala.