Решаем 5 главных проблем Big Data и среды Apache Hadoop. Часть 1.

Apache Hadoop и его экосистема приобретают всё большую популярность. Компании собирают и обрабатывают всё больше данных. Но большие данные приносят не только новые возможности, но и новые проблемы. О том, как их решить, рассказывает Джон Хаддад, старший директор по продуктовому маркетингу Big Data в Informatica.
Большие данные в Apache Hadoop – большие проблемы
- Сложно подобрать и удержать квалифицированных специалистов, которые умеют работать с экосистемой Apache Hadoop.
- Требуется много времени на реализацию проекта от пилотной версии до продуктовой среды.
- Технологии Big Data эволюционируют очень быстро, что затрудняет их внедрение.
- Проекты не приносят той пользы, которую от них ожидают.
- Сложно добиться того, чтобы данные в Apache Hadoop подходили для выполнения поставленных целей, были доступными и надёжными, хранились в безопасности.
Как найти хороших специалистов
Самая большая проблема в работе с Big Data сейчас – найти хороших специалистов. Их требуется всё больше. Один из крупнейших международных банков начал свой проект по большим данным с командой из 5 Java-разработчиков. Но инициатива быстро развилась и в этом году им понадобилось нанять ещё 25 специалистов. Масштабировать свою инфраструктуру, чтобы хранить и обрабатывать большие объёмы данных, банк смог быстро. А увеличить число квалифицированных кадров – нет. Но, если детально разобраться с функциями специалистов по работе с большими данными, то окажется, что они выполняют много монотонных задач, которые могут быть автоматизированы. Согласно консалтинговой фирме Booz Allen Hamilton, «в некоторых организациях, аналитики тратят до 80% своего времени на подготовку данных. На проведение самого анализа у них остаётся всего 20%».
Автоматизировать выполнение задач по подготовке данных к аналитике (их интеграцию, каталогизацию, обеспечение их качества, обезличивание и так далее) помогают промышленные инструменты. В частности, решения компании Informatica, которые эффективно работают в среде Apache Hadoop. Для платформы Informatica вы легко найдёте специалиста на рынке. И он заменит армию программистов, которые вручную пишут код на Java и других языках программирования, которые подходят для Apache Hadoop. Проведённые тесты показали, что специалисты Informatica в среднем в 5 раз продуктивнее работают с данными на Apache Hadoop, чем программисты, которые работают вручную. И это при том, что первым не нужно осваивать написание кода на многочисленных языках программирования. Сейчас ситуация на рынке такая, что только каждой из топ-100 компаний мира необходимо нанять по 40 data scientists. Хотите ли вы тратить время таких востребованных специалистов на подготовку данных к анализу, а не на сам анализ? Или автоматизируете 80% их задач?
Как быстрее выводить проекты в продуктовые среды
Один из клиентов Informatica из области медиа и развлечений перед покупкой Informatica Big Data Management рассказал мне, что его предыдущий проект в области больших данных уже потерпел неудачу. Он так объяснил мне причину этой неудачи: «Мы наняли опытных Java-разработчиков. Они придумали идею решения и даже доказали её жизнеспособность в песочнице. Но потом пришло время выводить это решение в продуктовую среду. И тогда им пришлось переработать большую часть кода, чтобы оно заработало, легко масштабировалось, было доступно 24х7 и интегрировалось с остальной продуктовой инфраструктурой. Кроме того, созданное решение было сложно поддерживать, когда что-то менялось. Всё вместе привело к задержкам в реализации всего проекта и перерасходу средств».
Сложно представить себе, что такая ситуация произойдёт с промышленной платформой. Благодаря ей всё, что вы разрабатываете в песочнице, может быть мгновенно и автоматически использоваться для продуктовой среды. Производительность, масштабируемость и надёжность платформы обеспечиваются благодаря параметрам конфигурации. При этом нет необходимости перестраивать или перерабатывать разработки, как это приходится делать при работе с решениями, которые вы напишите сами. Также промышленная платформа упрощает повторное использование существующих разработок и поддержку проектов Big Data даже тогда, когда что-то меняется. Informatica BDM включает в себя технологию Vibe, которая обеспечивает универсальную совместимость систем и ускоряет загрузку новых типов данных в любых объёмах и на любой скорости.
Как подстраиваться под быстро меняющиеся технологии
Технологии Big Data появляются и развиваются очень быстро. Многие организации не успевают внедрить предыдущую разработку до того, как появится новая. Что, если вы сделаете ставку не на ту технологию, и узнаете, что она вышла из употребления ещё до того, как вы начали её использовать?
Apache Hadoop сейчас широко внедряется. Но он постоянно меняется и развивается вместе с другими решениями в области. Сейчас в сфере больших данных буквально сотни open-source и коммерческих решений. Informatica смогла эффективно решить проблему взрывного развития технологий. В платформу Big Data Management (BDM) встроена технология Vibe, которая позволяет использовать виртуальную машину. Благодаря этому практически любой процесс, который работает на традиционном оборудовании, может быть запущен без каких-либо дополнительных усилий на кластере Apache Hadoop.
Другими словами, инфраструктура, которую вы выстроили для корпоративных данных среднего размера, может использоваться и для Big Data. Текущие клиенты Informatica могут взять маппинги PowerCenter, которые они создали много лет назад, импортировать их в BDM и использовать в Apache Hadoop. В большинстве случаев это можно сделать без дополнительных усилий и не внося никаких изменений. Сегодня существуют платформы Apache Hadoop с пятью различными приправами. Завтра будет Apache Hadoop и пять совершенно других технологических платформ. Решения Informatica уже готовы к такой ситуации и смогут эффективно работать и с ними. Как решить оставшиеся две проблемы Big Data и среды Apache Hadoop, читайте во второй части статьи по ссылке Решаем 5 главных проблем Big Data и среды Apache Hadoop. Часть 2.