Интеграция данных: избегайте этих трех ошибок!

О том, какие ошибки компании чаще всего допускают при интеграции данных и как их избежать, рассказывает Дэвид Линтикум – старший партнёр в Cloud Technology Partners, международный эксперт и автор книг по ИТ.

22 марта 2019

Компании допускают похожие ошибки при интеграции данных

Синхронизация данных между системами хранения и приложениями используется в течение многих лет. Большинство компаний давно научились это делать успешно. Но много и тех, кто продолжает допускать серьёзные ошибки при интеграции данных. Я выделил три основные ошибки в этой области. Именно их я чаще всего вижу у клиентов.

Первая ошибка интеграции данных: вопросы безопасности не принимаются во внимание

При работе с данными обеспечение безопасности должно быть систематичным во всём, что вы делаете. При интеграции данных их защита начинается в начале проекта, когда вы определяете откуда и куда будете данные перемещать. Далее роль безопасности сохраняется и при определении того, как информация будет преобразовываться, трансформироваться, тестироваться. На всех этапах проекта по интеграции данных защита информации должна быть продуманным процессом, а не пристраиваться постфактум, как это часто происходит. Многие из тех, кто занимается интеграцией данных, шифруют их «на лету» при поступлении в систему или уже во время хранения в ней. И то, и другое мало кто применяет. Это приводит к тому, что данные оказываются незащищёнными или при перемещении, или во время хранения. За этим нужно следить. Также не забывайте об управлении идентификацией пользователей, управлении ключами защиты, о записях логов. Этому нужно уделять внимание и при разработке решения для интеграции данных, и при его тестировании, и при использовании.

Вторая ошибка интеграции данных: проблемы метаданных заранее не определены

Интеграция данных будет намного проще, если вы будете понимать, какие данные вы интегрируете. Лучше понять данные могут помочь их метаданные. Именно поэтому так важно их контролировать. Вам понадобятся не только самые очевидные метаданные (формат данных, их владелец, целостность и другое). Нужны ещё и метаданные о соответствии требованиям регуляторов, Data Governance, безопасности и более сложных концептах, с которыми приходится сейчас иметь дело. Контроль всех метаданных повысит шансы того, что проект по интеграции данных будет успешным. По сути, благодаря метаданным вы избежите неправильной интеграции данных и сможете обеспечить необходимый уровень безопасности информации.

Третья ошибка интеграции данных: неправильный выбор технологий

Не нужно ориентироваться на моду при выборе технологии для интеграции данных. Это очень распространённая ошибка. Руководители проектов очень склонны выбирать для себя технологии на основе своего понимания того, что сейчас популярно. В итоге в компании внедряется одновременно несколько разнородных инструментов интеграции данных. В такой ситуации всё очень усложнится, затраты и риски возрастут. Кроме того, вам придётся содержать широкий штат сотрудников с разными компетенциями для работы с этими разнородными технологиями. Недостатки такого сценария очевидны. Ошибки возникают почти во всех проектах по интеграции данных. Многих из них очень сложно избежать. Но тех, которые я перечисляю, избежать можно сравнительно легко.

Почему для успешной стратегии IoT нужна интеграция данных?

О значении интеграции данных для интернета вещей (IoT), размышляет Дэвид Линтикум – старший партнёр в Cloud Technology Partners, международный эксперт и автор книг по информационным технологиям.

5 марта 2019

У интернета вещей большое будущее

Интерес к IoT растёт по мере того, как с устройств собирается всё больше данных. Для меня поворотным пунктом стало исследование Всемирного института McKinsey. В нём указывается, что «к 2025 году влияние интернета вещей на международную экономику может достигнуть 6,2 триллиона долларов».

Компании не знают, как применять данные

Чтобы привлечь внимание, этой оценки достаточно. Но, чтобы прогноз реализовался, нужно будет ещё многое сделать. В отчёте указывается: «В то же самое время опрошенные руководители компаний признают, что им не хватает точного видения конкретных бизнес-возможностей IoT. И это при том, что у приложений, которые сейчас разрабатываются, широкие возможности, потенциальное влияние на рынки (потребительский, индустриальный сегменты и здравоохранение) может быть очень большое, а тренд использования технологии только зарождается». То, что мы можем собирать огромные объёмы данные с тысяч устройств, само по себе поразительно. Однако многим компаниям сейчас сложно понять, что с этой информацией делать. При этом у данных IoT может быть очень широкая сфера применения. Например, на их основе можно в реальном времени следить за работой оборудования, автоматически планировать ремонт и техобслуживание, искать лучшие маршруты для грузового транспорта и многое другое. Правильное применение таких данных может сэкономить миллионы долларов в год.

Интеграция данных – часть IoT-стратегии

Но, чтобы начать данные применять, нужно наладить их правильную обработку. Недостаточно выбрасывать информацию в больших объёмах во внутренние системы компании. Нужна полноценная интеграция данных. Данные нужно собрать и переместить в некую систему хранения или в приложение. Там они оцениваются в контексте бизнес-процесса или контексте использования для принятия решений. По сути, интеграция данных – это то, что по-настоящему позволяет интернету вещей приносить пользу. Но те, кто использует IoT, знают о ней очень мало. Несомненно, планирование внедрения интернета вещей нужно начинать с бизнес-задач, но двигаться стоит в сторону данных. В процессе планирования нужно установить, какие основные данные нужно собрать и как их эффективно использовать. Очень часто оказывается, что способность перемещать и обрабатывать данные – главная проблема, которую нужно решить. Интеграция данных – это основа и центр большинства стратегий интернета вещей, которые мне приходилось разрабатывать. Мой совет – сфокусироваться на интеграции данных как основной части стратегии использования интернета вещей в компании. Не важно, с каких устройств вы собрали эти данные: с носимых устройств или с сенсоров на турбинах самолётов. Качество данных также имеет большое значение для IoT. Подробнее об этом читайте в другой статье блога. Об интеграции данных в контексте технологий Big Data читайте в статье ETL-процессы VS анархия. Что выбрать? Истории успеха в области интеграции данных: ФГК, ФК «Уралсиб», «Ренессанс Кредит».

Big Data изменила машинное обучение. Почему теперь не обойтись без Apache Spark?

О том, с какими проблемами можно сейчас столкнуться при использовании машинного обучения (ML) и как Apache Spark помогает их решить – в статье с участием Лу Карвальхейра (менеджер по продвинутой аналитике Customer Intelligence) и Райан Михалюк (старший data scientist в Allstate).

28 февраля 2019

Технологии Big Data развиваются и заставляют пересмотреть подходы к ML

Машинное обучение поддерживает развитие аналитики уже давно. Оно получило такое широкое распространение, что его эффективность не вызывает вопросов. Например, в страховой индустрии давно применяются статистические методы машинного обучения для работы с обычными страховыми таблицами. ML в этом случае предсказывает конечный результат таблицы. Однако этот процесс значительно ограничен из-за объёмов данных, сложности моделей и числа итераций, которые необходимы для успешной тренировки моделей. Широкое распространение платформ параллельной обработки всё больше меняет мир данных. Система хранения Hadoop Система хранения Hadoop позволяет использовать беспрецедентные объёмы данных для обучения моделей. Это даёт возможность получать более качественные предсказания и инсайты (полезные для бизнеса закономерности). На их основе можно улучшить процесс принятия решений для ценообразования, противодействия , оценке платёжеспособности и маркетинга. А для обработки данных Hadoop позволяет не один компьютер, а значительные вычислительные мощности. Такие изменения заставляют пересмотреть использование машинного обучения. Без этого будет сложно раскрыть возможности, которые скрыты в Big Data.

Проблемы ML: сложные алгоритмы, много моделей и данных

На конференции для data scientists Strata+Hadoop World много говорилось о том, что предиктивные алгоритмы ML становятся всё сложнее, а на данных одной организации одновременно обучается всё больше моделей. Специалисты обеспокоены тем, что эти два фактора могут сузить сферу применение машинного обучения в бизнесе. Ещё один важный фактор, который влияет на применение ML, – рост объёмов данных. С одной стороны, как говорилось раннее, этот фактор имеет положительное значение. Он позволяет лучше тренировать модели. С другой стороны, из-за больших объёмов время тренировки растёт экспоненциально. В таких условиях в первую очередь страдают итерационные алгоритмы: они становятся узким местом аналитики. А в машинном обучении большинство алгоритмов итерационные. Из-за этого специалисты вынуждены возвращаться к тренировке моделей на пробных наборах данных, на не полных или почти полных дата-сетах. А это снова снижает их предсказательную способность, а точность оказывается недостаточной.

Время – деньги

Четвёртый фактор, который играет определяющую роль для машинного обучения в том, что сейчас необходимо быстро действовать на основе анализа Big Data. Например, для розничного сектора важно быстро определять характеристики своего покупателя, чтобы успеть под него построиться. В цикле продаж должно быть заложено время на передачу результатов аналитики в отделы маркетинга и продаж. Они в свою очередь должны успеть создать упаковку для продукта, которая понравится покупателю. Умение точно оценивать вероятность того, кто купит продукт или услугу и сколько он на него может потратить, принесёт выгоду любой компании. Но для этого потребуется обучить много предиктивных моделей в ограниченное количество времени. А это может стать настоящей проблемой.

Apache Spark спешит на помощь

В таких условиях важно правильно выбрать алгоритмы ML. Всё большее значение приобретают алгоритмы библиотеки Apache Spark – MLib. Главное преимущество Apache Spark – в том, что он ускоряет вычисления в случае итеративных алгоритмов за счёт кэширования в оперативной памяти. Пока не знаете, что такое Apache Spark? Начните своё знакомство с продуктом со статьи 6 фактов об Apache Spark, которые нужно знать каждому. Ещё больше о продукте – в статье Apache Spark для текстового поиска: найти всё, что скрыто В библиотеке Apache Spark можно найти общие алгоритмы, включая классификации, регрессию, кластеризацию, совместную фильтрацию, снижение размерности. А также – утилиты для поддержки потока операций машинного обучения, утилиты для применения статистики и другое. Библиотеку Apache Spark можно легко использовать. Её алгоритмы в 100 раз быстрее MapReduce и они работают, где угодно (например, на Hadoop, Mesos, Kubernetes). Библиотека Apache Spark уже широко применяется в рекомендательных системах на сайтах. Можно смело говорить, что за ней будущее.

Управление данными в нефтегазовом секторе с помощью MDM-систем

19 февраля 2019

Управление данными в нефтегазовом секторе имеет свои особенности. О том, как это делать с помощью MDM-систем размышляет Праш Чандрамохан. Праш работает маркетологом в Informatica и отвечает за Informatica Master Data Management.

Сложности индустрии

Нефтегазовая индустрия – основа многих экономик мира. Но именно она чаще всего страдает от бурь постоянно меняющихся экономических трендов, требований регуляторов и технологических инноваций. Нефтяная и газовая промышленность зависит и от ценовой волатильности. Последняя основана на микроэкономической структуре спроса и предложения, на которую в свою очередь значительно влияют и геополитические изменения, и экономические кризисы, и даже публичные заявления. Подливает масла в огонь ожесточённая конкуренция среди поставщиков. Кто-то готов на низкую маржу. У кого-то добыча сырья оказывается дешевле, чем у других игроков рынка. Достигать значительных и предсказуемых бизнес-результатов в таких условиях непросто. Кроме того, у предприятий в этой индустрии традиционно сложные и интенсивные процессы обработки данных. А эффективно управлять обработкой данных особенно важно, чтобы успешно работать в условиях постоянно меняющихся трендов, политик и инструкций.

PwC: Цифровые технологии важны для нефтегаза

PwC недавно опросил генеральных директоров в нефтегазовой индустрии, которые единогласно заключили: «Генеральные директора ТЭК не могут контролировать факторы рынка, такие как состояние мировой экономики или предложение нефти на рынке. Но они могут изменить свою реакцию на них, например, извлекать максимальную пользу из инвестиций в технологии, эффективнее использовать партнёрства и стратегии диверсификации.” Также почти 80% респондентов согласны, что цифровые технологии приносят большую пользу. Относится это прежде всего к анализу данных и повышению операционной эффективности.

Домены мастер-данных нефтегаза и управление данными

Нефтегазовая отрасль разделена на три сектора. Некоторые компании работают только в одном из них, наиболее крупные предприятия – во всех трёх. Первый сектор – геологоразведка и добыча. Второй – хранение и транспортировка углеводородов. Третий – переработка и продажа. Чтобы организовать эффективное управление данными, прежде всего важно в каждом секторе вычленить несколько доменов мастер-данных. Мастер-данные – ключевая для организации информация. Домен мастер-данных «разведка и добыча» включает в себя информацию об активах: скважинах, материалах, гео-локационную информацию, а также о том, что с ними связано, например об инженерах и технических специалистах. Домен «хранение и транспортировка» включает в себя сведения о торговых партнёрах и дистрибуторах. Домен «переработки и продажи» – сведения о коммерческих и бытовых потребителях. Классическая схема продажи включает и мастер-данные об адресах отгрузок, крупных клиентах (например, авиакомпании и другие логистические компании, которые закупают миллионы галлонов топлива и смазочного материала), розничных клиентах заправочных станций. Кроме того, вся индустрия использует справочные данные и план счетов для подведения итогов затрат и прибыли. Ключевая проблема, с которой приходится сталкиваться, – мастер-данные рассредоточены в разных системах. Из-за этого организации становится сложно вовремя принимать решения, обеспечивать эффективность процессов и наращивать активы. Чтобы таких проблем избежать, нужно в разрозненных системах мастер-данные найти. А потом организовать управление данными с помощью MDM-системы.

Главный актив – скважина

Самый главный актив нефтегазового предприятия – скважина. Она проходит через разные циклы жизни, её характеристики могут меняться. Среди них – расположение, ID, название, физические характеристики, глубина, перечень сотрудников, которые на ней работают и принадлежность компании. Данные об этих характеристиках – мастер-данные для скважины. Если мы организуем эффективное управление данными, мастер-данные можно будет можно связать с транзакционной информацией и информацией с датчиков IoT. На основе этого предприятие сможет принимать инвестиционные решения, распределять траты и прибыль, которые касаются:

распределения рабочей силой;
платежа роялти;
экологической инспекции и проверки безопасности;
планирования ремонтных работ и в целом производственных работ.

При этом MDM-система должна:

быть гибкой единой мультидоменной платформой, которая позволяет легко управлять различными активами;
уметь создавать единый, сквозной для предприятия образец «цифрового двойника» скважины;
уметь определить отношения между скважиной, оборудованием, её расположением и сотрудниками, а также управлять этими отношениями;
уметь наладить сквозное руководство активами, помещениями, оборудованием и месторождениями на протяжении всего их жизненного типа.

Скважинами владеют предприятия сектора геологоразведки и добычи. Поэтому они оказываются в уникальном положении. Они могут извлекать пользу из очень больших объёмов данных. Тысячи сенсоров на скважинах, миллионы частей в цепочках поставок, международные капитальные проекты и высококвалифицированные сотрудники создают богатую с точки зрения данных среду. Всё, что нужно, – научиться эффективно этой средой управлять. Управление данными с помощью MDM-системы способно создать прочный фундамент для этого. MDM-системы также успешно применяются для управления данными, собранными с помощью интернета вещей. Об этом читайте в другой статье блога. Примеры измеряемых результатов управления данными с помощью MDM-систем ищите здесь.

Машинное обучение и анализ данных требуют качественных данных

О том, почему качество данных имеет большое значение для машинного обучения и анализа данных, размышляет Джо Маккендрик, независимый аналитик и внештатный автор целого ряда зарубежных IT-изданий. Также автор объясняет, зачем автоматизировать поиск структур в данных и как это сделать.

15 февраля 2019

Машинное обучение и анализ данных достигли признания

Бизнес сейчас очень активно инвестирует в машинное обучение и анализ данных, обработку естественного языка и глубинное обучение. Особенно приятно видеть, что концепция искусственного интеллекта, наконец-то получила необходимую поддержку. До этого интерес к ней возникал и исчезал с переменным успехом на протяжении трёх десятилетий. Каждая волна интереса разбивалась о разочарование по мере того, как компании понимали, что им сложно применить технологию для своих проблем и возможностей. Возможно, в этот раз всё будет по-другому, и мы увидим, как ИИ выйдет на совершенно новый уровень. Искусственному интеллекту дует сейчас попутный ветер. У него наконец-то появилась возможность помочь системам и приложениям служить бизнесу и его клиентам с минимумом человеческой крови, пота и слёз.

Бизнес может сорваться в пропасть

Но нельзя забывать, что необходимая составляющая машинного обучения и анализа данных, обработки естественного языка и глубинного обучения – качественные данные. Данные должны быть не просто актуальными и надёжными. Они должны быть безупречными. Только тогда они помогут обновить и освежить алгоритмы ИИ, а аналитика будет эффективной. В противном случае мы увидим, как бизнес сорвётся в пропасть из-за своей автоматизации. Я не могу в полной мере выразить важность доверия к данным, когда от них зависят инсайты, на которых строится бизнес.

Для эффективного машинного обучения и анализа данных – автоматизация определения структуры данных

Важность качества данных подчёркивают и эксперты технологического стартапа GumGum в своём последнем посте на TechCrunch. Они замечают, что «несмотря на то, что наш мир буквально затоплен данными (сейчас ежедневно собирается около 2,5 квинтиллиона битов в день). Их большая часть никак не маркирована и не структурирована. Это приводит к тому, что для большинства данных существующие форматы неконтролируемого обучения алгоритмов ИИ нельзя применить». Из-за того, что целый пласт данных исключается из обучения ИИ, алгоритмы последнего обучаются хуже. Особенно заметно это для глубинного обучения. Оно «зависит от постоянного потока качественной, структурированной и маркированной информации», – замечают эксперты GumGum.

Для автоматизации – обучить ИИ самостоятельно вычленять структуру

Проблема в том, что «процесс поступления данных для машинного обучения и анализа данных похож на набивание колбасок: для обучения используются только контролируемые методы. А данные заранее скрупулёзно маркируются». Сотрудники GumGum замечают, что нужно больше автоматизировать процессы маркирования и индексации неструктурированных данных. Сейчас эти процессы громоздкие, а для изображений, графики и документов их вообще нельзя применить. Танз и Картер озвучивают необходимость применять неконтролируемое обучение алгоритмов, чтобы те сами научились осознавать различия в неструктурированных данных. Это очень похоже на то, как новорождённые и дети развивают свои способности распознавать разные вещи и свои познавательные способности. «Давайте исключим ситуацию, что компании нанимают людей для маркирования данных (что, действительно существует и дорого стоит). А также – что все организации мира неожиданно откроют все свои данные и раздадут их data scientists. Тогда решение проблемы недостатка данных для обучения ИИ одно – перестать полагаться на результаты работы искусственного интеллекта совсем. Или же вместо того, чтобы стараться собрать как можно больше данных, глубокое обучения может начать двигаться в сторону развития самих неконтролируемых методов обучения». В ближайшие годы нужно будет сделать много, чтобы развить этот подход. Но это необходимая стадия полноценного развития ИИ и успешной реализации дата-центричных инициатив. Если эту стадию мы не пройдём, ИИ и его компоненты так и останутся ограничены структурированными данными (данными из реляционных баз). А это чревато однобоким пониманием клиентов компании и её бизнес-процессов. Искусственный интеллект Informatica Clair уже умеет искать в некоторых данных структуру. Хотите знать, как? Читайте другую статью блога.

Монетизация данных. 9 сценариев для страховых компаний

7 февраля 2019

Не знаете, с чего начать монетизацию данных? Читайте основные рекомендации в статье Ценность Big Data: висит груша, нельзя скушать. А вы научились монетизировать? Данные сейчас собираются с самых разнообразных устройств. Многие из этих устройств – уже давно часть нашей повседневной жизни. Среди них – фитнес-браслет. О том, как страховые компании могут организовать монетизацию данных с фитнес-браслета, научиться извлекать из них пользу, рассказывает Эндрю Джосс. Энрю возглавляет консалтинг Informatica в регионе Европы, Ближнего Востока и Африки. В данный момент Эндрю фокусируется на банковском секторе и страховых компаниях.

Мы генерируем большие данные

Я ношу фитнес-браслет и понимаю, что сам ежедневно генерирую большие объёмы данных. Ничего специального для этого я не делаю, просто живу своей жизнью. Всё время, пока я ношу браслет, он автоматически записывает информацию о том, что я делаю. Эту информацию он потом загрузит в онлайн-систему. Мой браслет считает количество шагов, которое я прошёл. Он мониторит мой пульс и фиксирует физическую активность. Всё это и создаёт огромный объём данных, который, по сути, никем эффективно не используется. Онлайн-платформа, на которую мой фитнес-браслет загружает данные, показывает мне общую статистику моих активностей. А также – детальные показатели моего физического состояния. Эта информация помогает мне оценить, как эффективно я забочусь о своём здоровье. Но потенциально она может быть полезна не только мне. Например, она может представлять большую ценность для страховых компаний. И для тех, которые занимаются медицинским страхованием, и для тех, которые занимаются страхованием жизни. Им также выгодно наше хорошее здоровье, как нам самим. Причины на это у них, конечно, другие. Чем лучше мы себя чувствуем, тем ниже риски того, что мы обратимся за выплатой по страховке. Большие объёмы данных с фитнес-браслета дадут страховым компаниям возможность лучше следить за актуальными рисками для здоровья клиента и реагировать на них. А также – собрать полезную для своего бизнеса статистику, вычленить тренды и закономерности. Монетизировать данные можно и на уровне пользователя, и на уровне группы (рабочий коллектив, семья), и на уровне сегмента. Потенциал монетизации данных ограничен только воображением и законодательством. Что нужно, чтобы начать монетизацию данных? Убедить своих клиентов регулярно делиться своей информацией, создать экосистему партнёров и начать расширить функционал онлайн-платформы, на которую поступают данные с фитнес-браслетов.

Экосистема данных с фитнес-браслета

Для монетизации данных с фитнес-браслета, потребуется создать целую экосистему из нескольких участников. Каждый участник будет отвечать за отдельную часть экосистемы. Структура экосистемы для страхования не нова. Они применяется, например, при взаимодействии с агентами и различными финансовыми организациями. Экосистема для монетизации данных может включать таких участников:

Производители фитнес-браслетов, которые также могут предоставлять и онлайн-платформу для сбора данных пользователей. На ней же можно реализовать дополнительные функции по общению с клиентом (сообщения о предложениях, скидках и рекомендациях).
Производители программного и аппаратного обеспечения для подключения таких функций, как подсчёт калорий или очень точного определения пульса;
Партнёры в области розничной торговли спортивным инвентарём и товарами для здорового образа жизни;
Агрегаторы данных, которые сопоставляют разные источники данных и создают более полную картину о здоровье клиентов;
Сами страховые компании, которые используют данные и поддерживают программу поощрений во всей экосистеме.

Основная задача экосистемы – объединить усилия страховой и компаний-партнёров, чтобы создать единую систему поощрения пользователей за поддержание собственного здоровья.

Сценарии монетизации данных

Страховые компании всегда умели понимать своих клиентов и оценивать риски при заключении договора. При этом в основном они работают по модели low touch point, которая подразумевает минимум общения с клиентом. Кроме обращения за выплатой клиент общается со страховой только во время открытия или закрытия страховки. Я подобрал несколько сценариев того, как страховая может плотнее общаться с клиентом и лучше его узнать с помощью онлайн-платформы, куда поступают данные с фитнес-браслета.

Монетизация данных: поощрять клиента быть здоровым

Страховая может мониторить мой режим тренировок. За поддержание уровня заранее оговорённой нагрузки – поощрять меня материально. Мне должно быть финансово выгодно поддерживать этот уровень нагрузки как можно дольше.
Мониторинг моего пульса поможет установить, когда я тренируюсь эффективно, а когда нет. Во втором случае меня можно мотивировать. За успешную тренировку можно поощрять меня скидками на продукты правильного питания или другие товары, которые помогут мне улучшить своё здоровье.
Можно выявлять тех, кому не хватает физической активности и стимулировать тренироваться больше. Здесь опять же поможет поощрение (в том числе, материальное) и помощь в постановке целей. Система мотивации должна предусматривать, что пользователь может быть болен и пропускать занятия из-за этого. К нему в этом случае не должны применяться штрафные санкции.
Для амбициозных людей можно устроить соревнование. Вознаграждение при этом можно выдавать и за достижение персональных целей, и за результаты, которые лучше, чем у других пользователей.
Можно поощрять пользователей подключить браслет к Wi-Fi-весам, чтобы те делились информацией о своём весе. У тучного человека снизился вес – он получает поощрение. Тем, у кого Wi-Fi-весов нет, можно предложить на них скидку за достижение фитнес-целей. Стоит стимулировать пользователей делиться и другими данными о здоровье: их уровне холестерина, весе и росте. Это поможет получить более полную картину.

Монетизация данных: персональный рекомендательный сервис

Если я делюсь своими геолокационными данными (например GPS-координатами маршрута пробежки), на их основе мне можно предлагать товары и услуги партнёрских компаний. Например, я регулярно бегаю вдоль трасс. Значит, мне можно порекомендовать кроссовки с хорошей амортизацией. Такие рекомендации можно делать довольно часто. Кроссовки мне придётся менять постоянно из-за жёсткой поверхности, по которой я бегаю.
Персонализированные предложения от партнёрских компаний на платформе не только будут меня мотивировать делать покупки, но и повысит мою лояльность к ней.
Если я бегаю на улице и в любую погоду, скорее всего у меня есть спортивная одежда для разных сезонов и температур. Платформа должна давать мне ссылки на партнёрские магазины спортивных товаров, где я легко и быстро найду подходящую спортивную форму.
В платформе можно создать виртуальные клубы и приглашать туда членов на основе профиля тренировок. Тем, кто много бегает, подойдёт клуб бегунов. Для тех, кто любит бегать, кататься на велосипеде и плавать, – триатлон-клуб. Тем, кто просто много ходит, можно предлагать новые маршруты: с большей дистанцией или по холмистой местности. Сообщество единомышленников будет мотивировать активно тренироваться. В нём пользователи смогут делиться своими проблемами и общаться.
Рекомендовать можно и упражнения на группы мышц, которым пользователь не уделяет внимания. Например, любителям велосипеда будет полезна растяжка. Поэтому им можно порекомендовать занятия по растяжке в фитнес-клубе поблизости. За новые занятия и упражнения пользователя также можно поощрять.

Технические решения для монетизации данных

Для того, чтобы всё это осуществить, нужна чёткая координация данных во всей экосистеме. Без этого нельзя обеспечить качественный опыт и лояльность пользователей. Ключевую роль в этом играют способности собрать данные, проанализировать их, получить на их основе инсайты. Также важно обеспечивать качество данных и эффективно управлять ими. Единый инструмент, который сможет выполнять все эти функции, поможет извлечь пользу из доступных данных. Примером такого инструмента может быть платформа Informatica.

Не только монетизация данных, но и улучшение имиджа

Один сотрудник страховой компании недавно заявил мне, что страхование теперь немодно. Инициативы, которые я предлагаю выше, способны изменить восприятие страхового бизнеса. Мы все по-другому будем воспринимать его, когда поймём, что он помогает нам заботиться о своём здоровье. Конечно, страховая компания не может заставить нас поддерживать своё здоровье и быть в хорошей форме. Но она может мотивировать нас двигаться в правильном направлении.

Apache Spark для текстового поиска: найти все, что скрыто

4 февраля 2019

Никогда не сталкивались с Apache Spark? Читайте статью «6 фактов об Apache Spark, которые нужно знать каждому». О том, почему приложения для работы с Big Data не могут обойтись без текстового поиска с использованием Apache Spark, рассказывает Пракаш Дас. Пракаш работает архитектором в Informatica.

Текстовый поиск для логов

Приложения могут использовать текстовый поиск для работы с большими объёмами лог-файлов. Лог-файлы или логи – файлы с хронологическим описанием работы устройства или программы. Логи можно использовать не только, чтобы искать и устранять неполадки. Они помогут понять, как программа или устройство работает в нормальных условиях, определить параметры этой работы и другое. Например, приложение может использовать текстовый поиск для логов, которые генерируются демонами sshd. Это позволит проанализировать причины неудачных попыток входа в систему, выяснить, кто из пользователей и с какого IP пытался осуществить вход. А также – мониторить неудачные попытки почти в реальном времени с регулярными интервалами, чтобы отличить нетипичное поведение от типичного.

Текстовый поиск в озёрах

Приложения могут использовать текстовый поиск и для работы с озером данных в системе Hadoop (в HDFS). Например, аналитики выгрузили базу продуктов с браком в озеро. Они ищут в этих данных инсайты или составляют на их основе прогнозы. Им понадобилось выгрузить перечень всех дефектов? Эти данные можно найти на основе нескольких ключевых слов, таких как сообщение об ошибке или ошибке в коде. Эта информация в текстовом формате обычно хранится в реляционной базе приложения.

Чем ещё искать текстовую информацию, кроме Apache Spark

Кроме Apache Spark, для логов и данных, сгенерированных с помощью программного обеспечения, можно использовать коммерческие инструменты Splunk, Sumo Logic, и другие. В open source можно найти библиотеку для высокопроизводительного полнотекстового поиска – Lucene. Она позволяет хранить и индексировать данные только на локальной системе файлов. Для инфраструктуры распределённого текстового поиска, приложение должно использовать Elasticsearch или Solr. Оба поисковых инструмента основаны на Lucene и используют её для индексации и поиска в каждом отдельном ноде (узле кластера). После этого они агрегируют поисковые результаты в одной ноде, в той, которая получила первоначальный запрос из приложения. В ней результаты обобщаются отправляются в приложение, которое делало запрос. Для анализа логов особенно популярен такой инструмент из мира open source, как ELK (Elasticsearch и Kibana). В этой связке Kibana через браузер обеспечивает графический интерфейс для Elasticsearch. Elasticsearch переводит данные в собственную базу в формате JSON. В ней он осуществляет поиск. Через Elasticsearch можно осуществлять и аналитические запросы, которые требуют агрегирования информации.

Недостатки Elasticsearch

Для загрузки в свой свою базу Elasticsearch сжимает данные. В них остаётся максимум смысла при минимуме знаков. Прямой доступ к этим данным оказывается затруднённым для других видов анализа. Например, для машинного обучения. Такая схема исключает использование готовых алгоритмов машинного обучения, которые понимают данные в открытом, чётко определённом формате.
SQL-операции соединения (используются для сопоставления строк в реляционных базах) в Elasticsearch плохо масштабируются для больших объёмов данных. А такое масштабирование необходимо для некоторых типов аналитических запросов.
Elasticsearch – это не универсальная платформа для распределённой обработки данных. Набор его возможностей ограничен. Поэтому при работе с ним часто приходится использовать дополнительные инструменты, например, тот же Apache Spark. Проблема может возникнуть, если ваше приложение Big Data захочет получить единый взгляд на данные из базы Elasticsearch и данные из реляционной базы. Это потребует привлечения дополнительных инструментов.

Apache Spark: и поиск, и аналитика

Что же делать в такой ситуации? Последний озвученный недостаток сам предлагает решение проблемы. Для текстового поиска приложений Big Data нужно использовать универсальную вычислительную платформу. Apache Spark – прекрасный пример платформы такого типа в open source. Эта платформа уже достигла популярности и продолжает набирать её: с каждой новой версией Apache Spark расширяет свою функциональность. Apache Spark работает с данными напрямую в HDFS. Решение обеспечивает возможности работы с SQL с помощью Apache Spark SQL и с библиотекой алгоритмов машинного обучения анализа больших данных. Однако сам по себе Apache Spark в своём стандартном виде нельзя использовать как основу текстового поиска для приложений Big Data. Решение придётся доработать. Как? Это уже предмет другой статьи.

Кто такой CDO? «Chief Data Officer» или «Chief Digital Officer»?

О том, кто такой CDO, чем отличается директор по данным (Chief Data Officer) от директора по цифровым технологиям (Chief Digital Officer) размышляет Джо Маккендрик, независимый аналитик и внештатный автор целого ряда зарубежных IT-изданий.

24 января 2019

CDO – это не только Chief Data Officer

Недавно я принимал участие в «Саммите CDO», который проводил клуб CDO и Capgemini Consulting. В этом клубе «CDO» – это директор по цифровым технологиям. Но я заметил, что у многих спикеров саммита в названиях должностей встречалось и слово «данные». А это намекает на то, что обязанности этих спикеров тесно связаны с обязанностями Chief Data Officer. Сама программа конференции была переполнена дискуссиями и презентациями на тему того, как анализ данных меняет положение дел во многих организациях. Не так давно я спросил нескольких экспертов, в чём разница между Chief Data Officer и Chief Digital Officer. Как правило, ожидается, что первый будет подчиняться второму. Это обусловлено тем, что данные – это всё-таки компонент более широкой инициативы – цифровизации организации. Подразумевается, что роль Chief Digital Officer включает в себя различные аспекты развития контента, продаж и маркетинга, операционной деятельности, производства, финансов и развития продукта. Но ведь и Chief Data Officer погружён во все эти области бизнеса. Пересечения в обязанностях и сходство определений обоих CDO возникают из-за того, что происходит сейчас во многих компаниях. Цифровые каналы и интеллектуальные функции товаров и услуг открывают перед бизнесом новые возможности. Это понимают все. Но также понятно и то, что достигнуть эффективного внедрения цифровых технологий нельзя без эффективного сбора, анализа и монетизации данных. Это и приводит к сближению обязанностей, требований к компетенции и возможностей для целого ряда сотрудников, а не только для двух разных CDO.

Каждый CDO смотрит со своей колокольни

Однако каждый CDO будет смотреть на многие вещи по-своему. Бэкграунд у Chief Digital Officer и Chief Data Officer обычно разный. Первый скорее всего пришёл из маркетинга или ИТ. Второй – занимался статистическим анализом и сделал карьеру как scientist. Больше вероятности, что Chief Data Officer будет больше заботиться о данных, о том, как они создаются, обрабатываются, хорошо ли они защищены. А директор по цифровым технологиям будет фокусироваться на общей картине цифровизации в компании.

Обязанности Chief Data Officer

Доктор Энн Мари Смит, главный консультант в Alabama Yankee Systems, LLC, в отчёте Cutter Consortium очерчивает следующий набор обязанностей директора по цифровым технологиям:

чётко сформулировать концепцию развития корпоративных данных;
быть «лидером масштабного управления данными, Data Governance, обеспечения качества данных и отношений с вендорами инструментов для этого во всей организации»;
работать с «руководством компании, владельцами данных, стюардами (кураторы данных), чтобы достичь точности данных и других целей, связанных с процессами в организации, как для внутренних, так и для внешних клиентов».
контролировать мониторинг активностей для обеспечения качества данных во всей организации;
управлять образованием сотрудников в организации «в области управления данными, оптимального использования данных, корпоративного управления мастер-данными и обеспечения качества данных, корпоративной поддержки принятия решений, возможностей инструментов различных вендоров, создания правил доступа к данным и в других областях, связанных с данными».

Обязанности директора по цифровым технологиям

Обязанности этого CDO не сильно отличаются от обязанностей Chief Data Office. По сути, они также подразумевают лидерство в том, что касается данных. Об обязанностях директора по цифровой трансформации рассказывает Сэм Рамжи, вице-президент по стратегии в компании Apigee. Вот перечень этих обязанностей:

чётко сформулировать цифровую стратегию предприятия; определить, как цифровая трансформация поможет организации «соответствовать вызовам мира, где главные роли будут играть мобильные сервисы, цифровые партнёрства и новые формы конкуренции», а также «построить целостный клиентский опыт во всех линиях бизнеса, который как сеть покроет всю организацию».
убедить сотрудников во всей компании взять на себя обязательства по цифровой стратегии. При этом придётся выступать «как посредник в корпоративной культуре, который определяет концепцию развития организации. Эта концепция должна объединять бизнес и технологии. Также Chief Data Office должен быть лидером, который вовлекает всех остальных в воплощение этой концепции».
экспериментировать на основе данных: развивать способность компании постоянно экспериментировать в цифровой сфере. При этом важно понимание, что неудача – это самая важная часть инновации.
стремиться к наглядным результатам, которые можно измерить.
поддерживать связь с экспертами внутри компании и внешними экспертами в индустрии. разговаривать на разных бизнес-языках: языке информационных технологий, языке маркетинга, языке стратегии и языке финансов.

Управление мастер-данными IoT с помощью MDM-систем. Часть 2

17 января 2019

Мастер-данные – это ключевые для бизнеса данные. Чаще всего это – данные о клиентах или продуктах компании. Для управления ими используются специализированные решения – MDM-системы (Master Data Management). Такие системы собирают данные в единые «золотые записи» для каждой бизнес-сущности (отдельный поставщик или клиент), показывают взаимосвязи между такими записями. Кроме того, они стандартизируют данные, повышают их качество, распространяют среди заинтересованных сотрудников. Можно ли использовать MDM-системы не только для мастер-данных, но и для управления данными, собранными с помощью интернета вещей (IoT)? Читайте размышления об этом Праша Чандрамохана. Праш работает маркетологом в Informatica и отвечает за Informatica Master Data Management. Про сценарии использования мастер-данных в телеком-компаниях читайте в другой статье блога. Больше реальных результатов управления данными с помощью MDM-систем ищите здесь. О том, как управление данными IoT с помощью MDM-систем осуществляется в автомобильном бизнесе и авиации, читайте в первой части статьи.

Управление данными в нефтегазовой отрасли

Master Data Managment помогает создать внутри организации единую систему самой важной информации о скважинах. Такая система позволяет фиксировать отношения между скважинами, их оборудованием, сотрудниками и местоположением. Скважины – самый ценный актив нефтегазовых компаний. Поэтому именно на них в первую очередь устанавливаются датчики интернета вещей. Потоковые данные с них MDM-система сопоставляет с основной информацией о скважинах и их местоположении (чаще всего они разбросаны на большой территории). Соединяя потоковые данные и мастер-данные, нефтегазовые компании могут в реальном времени мониторить безопасность на производстве. А также – управлять производственными процессами в реальном времени, на планировать ремонт и производство, принимать точные инвестиционные решения.

Управление данными в ЖКХ

Для служб ЖКХ важно как можно аккуратнее и как можно чаще измерять потребление. Выполнять эту задачу помогают умные счётчики. Управление данными с помощью MDM-систем позволяет связать данные о клиентах, данные о счётчиках, которые они установили, с данными, которые были получены с этих счётчиков. Это позволяет лучше понять закономерности в потреблении электроэнергии, воды, тепла и так далее. Кроме того, коммунальные службы могут использовать Master Data Management, чтобы делиться собранной информацией с клиентами. Это нужно для того, чтобы поднять их осведомлённость о проблемах окружающей среды. А также – рассказать о новых методах сбережения энергии, которые кроме прочего позволяют меньше платить за услуги ЖКХ. При оповещении клиентов с использованием MDM-системы требуется минимальное вмешательство сотрудников. Это позволяет коммунальным службам снизить затраты за счёт сокращения операций, которые выполняются вручную.

Управление данными в логистике

Как добиться успеха в логистике? Поток операций должен идти без помех, а неиспользованных активов должно оставаться как можно меньше. Это и позволит получить максимальную прибыль. Кроме того, большое значение имеет качество клиентского обслуживания. Поэтому логистические компании стараются обеспечить прозрачность и надёжность своего сервиса. Интернет вещей в этой индустрии помогает эффективно отслеживать перемещение груза, гарантировать своевременную доставку, минимизировать потери из-за воровства и избежать повреждений. Данные имеют большое значение для разработки более удобных маршрутов, которые позволят быстрее, надёжнее и дешевле доставить груз к порогу заказчика. Для этого логистические компании мониторят закономерности в траффике и погодных условиях. Эти данные они комбинируют в MDM-системе с данными датчиков местоположения, а также данными о поставщике и того, что нужно доставить.

Управление данными в области недвижимости

В этой области главную роль играют данные о местоположении объекта, текущих условиях на рынке, стоимости недвижимости в целом. Работа ведётся с данными из автоматизированных систем управления зданиями, с сенсоров интернета вещей, из открытых источников и других источников. Из этих данных можно получать масштабные инсайты, которые можно будет использовать для всего процесса принятия решений, в том числе:

при выборе местоположения объекта;
для мониторинга систем отопления, вентиляции, кондиционирования, который помогает понять, когда ремонтировать систему, а когда её нужно заменить;
для мониторинга освещения и потребление энергии;
для обеспечения безопасности и улучшения рабочего места;
для определения поэтажного плана здания и количества переговорных комнат (например, на основе рассадки сотрудников в бизнес-центре и частоты использования переговорных комнат).

Кроме того, принятие решений на основе данных и дата-центричные процессы помогают компаниям в сфере недвижимости эффективно управлять своими активами удалённо. А это в свою очередь помогает им снижать затраты. Среди тех, кто ведёт успешное управление данными IoT с помощью Master Data Management, – JLL. Эта компания – мировой лидер на рынке профессиональных услуг в сфере недвижимости и управления инвестициями.

Управление мастер-данными IoT с помощью MDM-систем. Часть 1

17 января 2019

Трудности создаёт не сбор, а управление данными

Исследовательская компания HIS предсказывает, что в 2020 году количество датчиков интернета вещей вырастет до 30,7 миллиардов устройств. В 2025 году – до 75,4 миллиардов. Интернет вещей будет применяться во всех индустриях. Не будет значения, в какой области вы работаете. Сбор информации с сенсоров, управление данными и извлечение из них пользы будут для вас актуальны. Компаниям уже сейчас приходится иметь дело с невероятным потоком данных, собранных с помощью интернета вещей. Может показаться, что в таких условиях главной проблемой должен стать именно процесс сбора. Однако оказывается, что организовать управление данными, найти им применение и извлечь их них пользу намного сложнее, чем получить их. Ещё сложнее научиться действовать на основе инсайтов (важные для бизнеса закономерности в данных), прогнозов, полученных из данных. Помочь бизнесу в этом могут MDM-системы.

Что именно делают системы управления мастер-данными?

Мастер-данные обеспечивают информацию, собранную с помощью интернета вещей, контекстом. Правильный контекст позволяет лучше понять данные и сделать инсайты и прогнозы более точными, осмысленными. На такие инсайты можно полагаться, можно действовать, опираясь на них. Собрали данные об изменениях в работе оборудования? Свяжите их с «золотой записью» об этом оборудовании, чтобы увидеть, какие из его характеристик могли повлиять на такие изменения. Пересечение MDM и интернета вещей создаёт интересные кейсы в разных компаниях из разных индустрий. Ниже – примеры, где это комбо уже применяется.

Управление данными в авиации

В том, что касается управления данными IoT с помощью MDM-систем, авиация – один из лидеров. В блоге уже упоминался кейс GE Aviation. Компания производит авиационные двигатели. Собирает она данные с датчиков на планере и на двигателе самолётов. Потоковые данные интернета вещей поступают в MDM-систему Informatica – Informatica Master Data Management. В ней же хранятся мастер-данные: информация о владельце самолётов, о самих самолётах и их двигателях и так далее. Informatica MDM, как клей, связывает данные IoT и корпоративные мастер-данные (их профиль, историю), информацию авиаперевозчиков, которая нужна для составления полной картины. Помещение данных IoT в контекст помогает прогнозировать, как двигатель будет работать в дальнейшем. Полученные на основе таких данных инсайты помогают предотвратить незапланированный простой транспортных средств и поломки, а также оптимизировать ремонтные работы. Всё это позволяет значительно экономить средства и повышать продуктивность перевозок. А главное – предотвращать возможные аварии и несчастные случаи с самолётами, на которых установлены комплектующие GE Aviation.

Управление данными в автомобильном бизнесе

Автомобильные компании также давно активно применяют управление данными IoT с помощью MDM-систем. Хорошим примером служит компания Renault. Это даёт им возможность централизовать информацию о клиентах и транспортных средствах. Это позволяет им мониторить полный жизненный цикл транспортного средства. А это в свою очередь помогает:

определять аномалии в работе автомобилей, которыми пользуются их клиенты;
в реальном времени определять детали автомобиля, которые требуют замены;
отправлять актуальные уведомления владельца машин.

Качество инсайтов и прогнозов благодаря такому комбо также растёт. На их основе можно точнее предсказывать клиентские потребности и время возможной поломки транспортного средства. И для компании, и для её клиентов такая ситуация оказывается выгодной. О том, как управление данными IoT с помощью MDM-систем осуществляется в нефтегазовом секторе, ЖКХ, недвижимости и логистике, читайте во второй части статьи.

Интеграция данных: избегайте этих трех ошибок!

Компании допускают похожие ошибки при интеграции данных

Первая ошибка интеграции данных: вопросы безопасности не принимаются во внимание

Вторая ошибка интеграции данных: проблемы метаданных заранее не определены

Третья ошибка интеграции данных: неправильный выбор технологий

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Почему для успешной стратегии IoT нужна интеграция данных?

У интернета вещей большое будущее

Компании не знают, как применять данные

Интеграция данных – часть IoT-стратегии

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Big Data изменила машинное обучение. Почему теперь не обойтись без Apache Spark?

Технологии Big Data развиваются и заставляют пересмотреть подходы к ML

Проблемы ML: сложные алгоритмы, много моделей и данных

Время – деньги

Apache Spark спешит на помощь

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Управление данными в нефтегазовом секторе с помощью MDM-систем

Сложности индустрии

PwC: Цифровые технологии важны для нефтегаза

Домены мастер-данных нефтегаза и управление данными

Главный актив – скважина

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Машинное обучение и анализ данных требуют качественных данных

Машинное обучение и анализ данных достигли признания

Бизнес может сорваться в пропасть

Для эффективного машинного обучения и анализа данных – автоматизация определения структуры данных

Для автоматизации – обучить ИИ самостоятельно вычленять структуру

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Монетизация данных. 9 сценариев для страховых компаний

Мы генерируем большие данные

Экосистема данных с фитнес-браслета

Сценарии монетизации данных

Монетизация данных: поощрять клиента быть здоровым

Монетизация данных: персональный рекомендательный сервис

Технические решения для монетизации данных

Не только монетизация данных, но и улучшение имиджа

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Apache Spark для текстового поиска: найти все, что скрыто

Текстовый поиск для логов

Текстовый поиск в озёрах

Чем ещё искать текстовую информацию, кроме Apache Spark

Недостатки Elasticsearch

Apache Spark: и поиск, и аналитика

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Кто такой CDO? «Chief Data Officer» или «Chief Digital Officer»?

CDO – это не только Chief Data Officer

Каждый CDO смотрит со своей колокольни

Обязанности Chief Data Officer

Обязанности директора по цифровым технологиям

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Управление мастер-данными IoT с помощью MDM-систем. Часть 2

Управление данными в нефтегазовой отрасли

Управление данными в ЖКХ

Управление данными в логистике

Управление данными в области недвижимости