Top.Mail.Ru

E-executive: Как сделать data science эффективнее?

E-executive, 14.02.2019

Как управлять Big Data, чтобы не хранить некачественные, неполные, избыточные или незащищенные данные? Каких специалистов искать для этого бизнес-процесса?

Вы решили, что вашему бизнесу нужен data science, наняли сильных специалистов и поставили перед ними реальные задачи. Они подготовили прогнозы, и нашли инсайты (полезные для бизнеса закономерности в больших данных). Вы начинаете применять эти прогнозы и инсайты. Но оказывается, что они далеки от реальности и не приносят пользы. В чем дело? Возможно, дело в данных, которые были для них использованы. Повторяющиеся, неполные или избыточные, некачественные, незащищенные и ненадежные данные негативно влияют на результаты data science. Кроме того, такие данные создают дополнительную нагрузку на data scientists. Согласно исследованию Forester, более 40% своего рабочего времени эксперты тратят на то, чтобы подготовить данные для аналитики. Что делать, чтобы избежать этого?

Не полагайтесь только на статистику

Много говорят о статистической природе больших данных. Считается, что если результаты data science подразумевают погрешность, значит, и погрешность из-за качества данных мало повлияет на конечный результат. Это неверный подход.

Во-первых, чем выше погрешность прогноза или инсайта, тем меньше ему можно доверять и тем меньше в нем толку. Кроме того, те данные, которые вы сегодня используете для статистических моделей, завтра могут понадобиться для других целей (найти адрес банкомата, в котором клиент снял деньги несколько лет назад), где точность имеет большее значение.

Организуйте эффективную среду хранения и обработки

Совсем недавно корпоративные данные хранились только в реляционных системах (хранилища, базы) – в виде взаимосвязанных таблиц. В такие таблицы необходимо было распределять все данные, которые собирала компания. Для этого – вычленять в данных структуру.

В эпоху Big Data данные поступают на большой скорости, отличаются разнообразием и большими объемами. Хранить и обрабатывать их стало сложно и дорого. Возникла и набрала популярность распределенная система хранения и обработки данных – кластер Hadoop. Данные там одновременно обрабатываются на нескольких узлах кластера, а значит, быстрее. Также в отличие от обычной базы или хранилища Hadoop определяет структуру данных при считывании, а не при записи. А значит, он подходит и для неструктурированных данных.

Одной из форм хранения данных может быть так называемое озеро данных. Содержать озера данных сравнительно недорого, а масштабировать их можно до очень большого размера. Для data scientists озеро данных – полигон для экспериментов. В такое озеро можно выгружать большие данные из различных источников, чтобы наглядно посмотреть – есть ли какие-то закономерности в них. У вас есть предположение, что погода влияет на работу оборудования? В озере данных вы можете искать зависимости, используя данные с датчиков на этом оборудовании, сколько бы их не было. И это будет сравнительно дешево.

Озеро данных становится опасным для data science тогда, когда оно превращается в болото. Болото – это озеро, в которое загружались данные низкого качества, одни и те же данные дублировались. Найти нужную информацию в болоте очень сложно. Что делать? Отдать предпочтение промышленной технологии корпоративного озера, которая поможет автоматически очищать данные и управлять ими.

Продолжение на сайте по ссылке https://www.e-xecutive.ru/management/practices/1990048-kak-sdelat-data-science-effektivnee

 



Поделиться
{{ responsive_img( url='/../../static/upload/news/detail-image.jpg',lazy=true, img_attrs={ class: "img-fluid lazy" }, formats=['webp'] ) }}

Рассылка новостей

    Продолжая пользоваться сайтом, вы даёте Согласие на автоматический сбор и анализ ваших данных, необходимых для работы сайта и его улучшения, использование файлов cookie.