Top.Mail.Ru

Только начинаете работать с Big Data? Избегайте этих 5 ошибок!

Компании активно собирают и анализируют Big Data. Инструменты, которые для этого используются, отличаются от тех, которые раньше применялись для работы с данными. Решили заменить свою СУБД на Hadoop, а SQL на NoSQL? Постарайтесь не допустить ошибки, которые допускают все остальные.

О самых частых ошибках при работе с Big Data рассказывает Амар Надиг, старший архитектор в компании Informatica. Амар занимается большими данными уже 15 лет. Ошибки, о которых он рассказывает в статье, он совершил когда-то сам или помогал исправлять.

Использование MongoDB как платформы для Big Data

Собираетесь внедрить эту платформу для Big Data? Спросите себя, почему. Эту NoSQL базу, сейчас ругают многие специалисты.  Механизм агрегирования MongoDB похож на MapReduce или даже на коннектор Hadoop с очень плохой документацией.  MongoDB хорошо работает как операционная база данных, для анализа она неудобна.

Big Data в маленьких файлах

Вы вывалили данные из таблицы реляционной СУБД в файл и в таком виде храните его в Hadoop. Но ваш файл может быть совсем небольшого размера – всего несколько килобайт. Между разными узлами кластера небольшие файлы распределяться хуже, чем большие. А значит MapReduce не сможет работать достаточно быстро и эффективно. Например, когда решите использовать Hive, вам придётся очень долго ждать, пока он обработает ваши Big Data.

Hadoop лучше всего работает с большими файлами сравнительно неструктурированных данных. Поэтому постарайтесь сгруппировать свои данные в более крупные файлы (например, данные, собранные с IoT-сенсора не за день, а за месяц).

Пруд Big Data вместо озера

Вместо того, чтобы создать единое озеро для Big Data, вы делаете несколько прудов или болот. Отдельные рабочие группы создают свои мини-репозитории и процессы анализа данных. Сначала может показаться, что это не очень плохо. Но когда данные каждый раз заново извлекаются и постоянно расчленяются и тасуются, это чревато разными версиями правды на основе одних и тех же данных. На один и тот же вопрос у вас будет много разных ответов.

Упущенные возможности использования озера

Озёра данных эффективны. Но нужно понимать, для чего вы собираетесь их использовать. Конечно, вы можете это сделать и после установки озера. Но будет лучше, если вы сначала продумаете сценарии использования.

SQL для Big Data вместо поросёнка на стероидах

Конечно, вы уже привыкли к SQL. Но языки и техники постоянно развиваются. Если подсадить PL/SQL на стероиды, то получится Apache Pig (язык Pig Latin). Apache Pig отличается способностью быстро работать с Big Data. Если вам нужно больше аналитики, вам может понадобиться более широкий набор инструментов: MapReduce, R и другие.

Вы не из тех, кто допускает такие ошибки? Но Big Data всё равно не приносит пользу вашей компании? Возможно, дело не в технических решениях, а в неправильно налаженных бизнес-процессах. В этом нет ничего удивительного, многие компании сталкиваются с такими же проблемами. Подробнее об этом читайте в статье «Почему анализ данных не приносит пользы вашей компании».



Поделиться
{{ responsive_img( url='/../../static/upload/news/detail-image.jpg',lazy=true, img_attrs={ class: "img-fluid lazy" }, formats=['webp'] ) }}

Рассылка новостей

    Продолжая пользоваться сайтом, вы даёте Согласие на автоматический сбор и анализ ваших данных, необходимых для работы сайта и его улучшения, использование файлов cookie.