Смотреть видео: История успеха. Внедрение системы управления знаниями в ВТБ

16 января 2019

«Бизнес-Википедия» на основе системы управления знаниями KMS Lighthouse помогает банку ВТБ быстрее и качественнее обслуживать клиентов. Подробнее читать о проекте.

Смотреть видео: поздравление с Новым годом Павла Лихницкого, генерального директора DIS Group

24 декабря 2018

Смотреть видео: История успеха. Применение PowerCenter в «Ренессанс Кредит»

21 декабря 2018

«Ренессанс Кредит» повышает операционную эффективность и решает амбициозные задачи потребительского кредитования с помощью Informatica PowerCenter. Историю успеха также можно прочитать по ссылке.

Защита данных в эру Big Data. Часть 2

20 декабря 2018

Сбор больших объёмов информации кардинально изменил область защиты данных. О том, как это произошло, размышляет Эрик Букобза. Эрик – старший директор по развитию группы Data Security Informaticа. Он отвечает за технологию динамического маскирования. В первой части статьи Эрик рассказывает, что такое Big Data, почему полиморфизм и метаморфизм играет для них большое значение, как образуются умные слои данных. А также – как на сбор больших данных отреагировали регуляторные органы. Во второй части – что произошло с информационной безопасностью (ИБ) и почему произошло слияние этой области с управлением данными.

Традиционная информационная безопасность

Есть три хорошо известных требования к ИБ: конфиденциальность, целостность и доступность. Для того, чтобы выполнить эти требования, традиционно применяются два сосуществующих подхода: сетевая безопасность и безопасности на уровне приложения. Сетевая – регулирует доступ через внешние границы. Внешними границами может быть компьютер, источник данных или приложение. Во многом это подход «всё или ничего». Ты или можешь получить доступ или нет. Инструменты сетевой безопасности не могут эффективно следить за хитросплетениями моделей информации. Считается, что что более детальное управление доступом можно обеспечить с помощью приложения, с которого осуществляется доступ. На этой идее построен второй подход – обеспечения безопасности на уровне отдельного приложения. Предполагается, что это приложение хорошо знает структуру данных. Но это предположение может оказаться неверным сейчас, когда полиморфизм, разнообразие данных, – ключевой фактор успеха. Такая модель также не может справиться с новыми вызовами, которые возникают из-за быстро развивающейся регуляторной экосистемы.

Дата-центричная парадигма ИБ и защиты данных

Возникает новая парадигма. Но не для того, чтобы заменить старую, а для того, чтобы расширить её. Дата-центричная безопасность требует управления ИБ независимо от структуры данных или их использования. Защиту данных нужно обеспечить, где бы они не хранились, в состоянии покоя или в движении, на внутренних серверах или в облаке, внутри периметра или снаружи. Например, чувствительные данные, такие как персональная информация, по которой можно идентифицировать человека (имя клиента) может храниться как поле в базе данных или как файл, или в облачной CRM-системе или даже в электронном письме на мобильном телефоне сотрудника. В любом случае может потребоваться создать специальные правила, чтобы обеспечить конфиденциальность и защиту данных. Новая парадигма требует того, чтобы эксперт по ИБ стал data scientist, разобрался в процессах управления данными, Data Governance. А скоро она потребует и того, чтобы data scientists также стали экспертами по ИБ. Чтобы обеспечить защиту данных на определённом уровне (например, на уровне столбца таблицы или отдельного поля), специалист должен понимать сами данные, а то, куда данные переходят – менее релевантно. Это само по себе переворачивает практику ИБ с ног на голову. Возникнут новые требования к ИБ и защите данных, которые станут дата-центричными. Однако сейчас мы находимся на заре дата-центричной безопасности, эти требования полностью пока не определены. Gartner недавно разработал категорию DCAP (Data-Centric Audit and Protection – дата-центричный аудит и защита данных), которая охватывает некоторые аспекты этих требований, но не все. В больше степени это связано с тем, что несмотря на попытки обобщить понятие доступа во все разрозненные данные, мы всё равно застряли в ориентированный на периметр подход.

Управление данными и ИБ станут единым целым

Но, чтобы справиться с быстро меняющимися требованиями регуляторов и полиморфизмом данных, необходимо, чтобы защита данных и доступ к ним управлялись на самом мелком из возможных уровней – уровне элемента данных. Для реализации ИБ приходится всё чаще использовать экспертизу в интеграции данных. Расширение требований регуляторов к конфиденциальности данных на уровне отдельной семантики, ещё больше подталкивает процессы Data Governance и ИБ к слиянию. К тому же «умные» слои данных, о которых говорилось в первой части статьи, будут всё больше вычленяться в информации. Они будут включать в себя данные разных форматов, на различных носителях. Дата-центричная безопасность потребует защиты данных во всех этих форматах и на всех носителях. Развитие слоёв данных приведёт к тому, что ИБ скорее всего станет частью того, как данные и их обработка определяются, включит в себя весь жизненный цикл данных. Мы можем ожидать, что области интеграция данных, качество данных, дата-центричная безопасность и Data Governance сольются и станут разными гранями одной и той же экспертизы. Боитесь за свои Big Data? Проверьте, установлены ли у вас все необходимые решения для защиты данных в Apache Hadoop. Если вы до сих пор не разобрались, чем маскирование отличается от шифрования данных, читайте статью Защита данных: маскирование и шифрование не одно и то же!

Защита данных в эру Big Data. Часть 1

19 декабря 2018

Информационная безопасность и защита данных стали другими

Без сомнения, XXI век – эра данных. А если быть точнее, эра больших данных. Данные везде, и все пытаются извлечь пользу из них. Эффективно реализовать их огромный потенциал пытаются и коммерческие организации, и правительство, и частные лица. Но те возможности Big Data, которые сейчас можно реализовать, – это только вершина айсберга их потенциала. Поэтому сейчас понимание данных постоянно трансформируется. Постепенно возникает новое осознание того, что такое данные и как происходит их сбор. А это в свою очередь меняет области информационной безопасности и защиты данных.

Что такое Big Data? Не три V, а пять

Три главных характеристики больших данных – 3V (Volume – объём, Velocity – скорость поступления, Variety – разнообразие). В последнее время показатели в этих категориях значительно выросли. Данные стали более сложными для обработки. Кроме того, владельцам данных теперь приходится тщательнее работать над их надёжностью – их достоверностью (четвёртое V – Veracity). Кроме того, важно обращать внимание на максимальное использование потенциальной ценности данных – пятое V – Value (ценность).

Объём

Когда мы говорим о больших объёмах данных, мы имеем ввиду не хранение. Прежде всего, важно, что возрастают объёмы обработки информации. Такая обработка даже требует применения новых моделей, которые ранее компании не использовали. К счастью, уже есть множество наборов алгоритмов, которые подходят для параллельной, распределённой и рассеянной обработки. К несчастью, большинство этих новых технологий неизвестны многим специалистам.

Разнообразие: полиморфизм и метаморфизм данных

Разнообразие обычно ассоциируется с широким набором типов данных (изображения, видео и т.д) или данными геолокации. Но этим категория не ограничивается. Разнообразие сущностей, с которыми имеют дело организации, постоянно растёт. Растёт и разнообразие источников информации. Это приводит к тому, что данные могут быть самых различных форматов. Эта характерная черта для Big Data называется полиморфизмом данных. Она уже стала неотъемлемой для них. С другой стороны, увеличивается разнообразие потребителей данных или точнее разнообразие их требований. Для каждого потребителя нужны данные своего формата. Поэтому при извлечении их приходится трансформировать. Это приводит к метаморфизму (изменчивости) данных. Сами по себе понятия метаморфизма и полиморфизма не новы. Новизна в том, что эти характеристики данных стали неотъемлемыми. Новы и разрушительные последствия, которые метаморфизм и полиморфизм имели для структурированного подхода к нашему восприятию данных.

Скорость

Здесь имеется в виду не только скорость сбора данных. Это и скорость, с которой они эволюционируют. Самая очевидная эволюция данных – эволюция с точки зрения объёмов. Не менее актуальна и скорость, с которой растёт разнообразие данных. Высокая скорость, с которой данные эволюционируют, – главная причина того, почему разработчики приложений и инструментов аналитики больше не хотят ориентироваться на модель «застывших» данных. Разработчики всё больше ориентируются на инструменты внутреннего потребления данных и их интеграции, которые привносят динамику в модели данных, чтобы справиться с высокой скоростью нарастания полиморфизма.

Слои данных

Все эти характеристики Big Data приводят к появлению умных сбалансированных слоёв данных. Эти слои позволяют управлять данными во всех форматах независимо от приложений и/или потребителей, позволяя одинаково справляться со скоростью возрастания полиморфизма и трансформировать данные, чего требует метаморфизм.

Как реагируют регуляторы на изменения в области данных

Законодательство не остаётся равнодушным к революции, которая происходит в мире данных. Данные оказываются вовлечены во множество аспектов нашей жизни. А законы адаптируются под новые реалии. Использование данных регулируется всё больше, чтобы предотвратить злоупотребления, но при этом не мешать использованию информации. Требования регуляторов охватывает множество аспектов владения данными (от конфиденциальности данных до антитеррористической безопасности и даже требований, связанных с налогами). По мере того, как требований регуляторов становится всё больше, владельцы данных сталкиваются с беспрецедентными вызовами. Один из самых очевидных вызовов – это необходимость постоянно следить за обновлениями законодательства. Особенно за теми, которые обязательны к выполнению. Способность быстро отреагировать на них становится важнейшим фактором. Это также значит, что, если будут сомнения, организация скорее предпочтёт «перестараться», чем «недостараться».

Раскрытие или защита данных?

А это уже создаёт совершенно новые проблемы. Требования к конфиденциальности обычно нацелены на защиту данных. А другие – например FATCA (американский закон о налоговой отчётности по зарубежным счетам) или CRS (общий европейский стандарт обмена финансовой информацией) – на раскрытие данных – предоставление регулятору отчётности. Что происходит, когда компания отдаёт большее предпочтение тем или иным требованиям? Например, если перестараться с выполнением FATCA, рискуете ли вы нарушить требования к конфиденциальности, например по GDPR? Быстро эволюционирующая регуляторная экосистема в среднесрочной перспективе изменит то, как мы подстраиваемся под требования регуляторов. Оградительный подход придётся оставить и заменить его более точным подходом. О том, как изменения в данных и новые меняют информационную безопасность и почему она всё больше сливается с управлением данных читайте во второй части статьи Защита данных в эру Big Data. Часть 2. Боитесь за свои Big Data? Проверьте, установлены ли у вас все необходимые решения для защиты данных в Apache Hadoop. Если вы до сих пор не разобрались, чем маскирование отличается от шифрования данных, читайте статью Защита данных: маскирование и шифрование не одно и то же!

Анализ данных: новые методы анализа данных и технологии создали Аналитику 3.0

Методы анализа данных и новые технологии постоянно развиваются. О том, как это развитие привело к возникновению аналитики третьего поколения и чем она отличается от аналитики предыдущих поколений, читайте в статье рассказывает Джо Маккендрик. Джо – независимый аналитик и внештатный автор целого ряда зарубежных IT-изданий.

12 декабря 2018

Не только Google, Yahoo и eBay

Большие онлайн-компании, такие как Google, Yahoo и eBay, уже давно доказали, что можно эффективно выстроить бизнес на основе аналитики данных. В этих организациях преобладает аналитическая корпоративная культура, в основе которой – данные, измерения и хорошо измеримые результаты. Именно эта культура и направляет и обуславливает корпоративные решения и активности. Недавно два именитых исследователя в области аналитики данных – Томас Давенпорт и Джилл Дичет – подготовили отчёт для Международного института аналитики. В нём они утверждают, что мы приближаемся к той точке, когда уже нетехнические компании и компании, основной бизнес которых не онлайн, постепенно начинают ориентироваться на аналитику данных, становятся частью появляющейся дата-центричной экономики. В нём же они обнародовали результаты своего исследования: они опросили специалистов из 20 крупных компаний. Исследование показало, что аналитика больших данных уже довольно хорошо интегрирована в цикл принятия управленческих решений. «Самые крупные организации в различных отраслях присоединяются к экономике данных», – замечают авторы отчёта. «Компании не разделяют традиционную аналитику и Big Data, они комбинируют их, синтезируют их». Давенпорт и Диче называют это «Аналитикой 3.0». Она уже не ограничивается управлением данных и ИТ-департаментами. Она встроена во все ключевые организационные процессы. А это значит, что она может оказывать трансформирующий эффект на организацию. «Мало сомнений в том, что аналитика может трансформировать организации. А компании, которые станут лидерами Аналитики 3.0 получат самую большую выгоду», – продолжают они. Давенпорт и Диче уточняют, что Аналитика 3.0 – этап развития аналитики данных для принятия бизнес-решений. Первые два этапа – Аналитика 1.0 и Аналитика 2.0.

Маленькие объёмы и статистические методы анализа данных

Аналитика 1.0 была распространена в 1954-2009 гг. Для неё использовались сравнительно небольшие объёмы структурированных данных из внутренних корпоративных ресурсов. В то время в бизнесе использовались статистические методы анализа данных, описательная аналитика и простой поиск.

Большие объёмы и интеллектуальные методы анализа данных

Аналитика 2.0 – это 2005-2012 годы. Это период развития больших онлайн-компаний: Google, Yahoo и eBay. Они использовали хранилища данных и предписательную аналитику для того, чтобы таргетировать своё предложение на клиентов и подстроить его под их потребности. Этот период определялся возрастающей конкуренцией среди организаций в области аналитике. В ходе этой конкуренции данные начали применяться для стратегического принятия бизнес-решений. «Однако крупные компании часто ограничивались тем, что анализировали базовые домены информации (клиентской и продуктовой), данные были хорошо структурированы и редко интегрированы между собой», – уточняют авторы.

Все методы анализа данных, данные управляют бизнесом

В эпоху Аналитика 3.0. традиционные методы анализа данных уже интегрированы с новыми и с технологиями в масштабах всей организации. Эта новая эпоха сочетала в себе «лучшее из предыдущих этапов развития: Big Data и традиционную аналитику, чтобы получать инсайты и рекомендации на больших скоростях и с большим значением для бизнеса», – объясняют Давенпорт и Диче. Ключевая характеристика Аналитики 3.0 в том, что «не только онлайн-компании, но и любые другие организации из всех индустрий, могут принимать участие в дата-центричной экономике. Банки, промышленные предприятия, предприятия здравоохранения, ритейлеры, которые хотят использовать подобны возможности, могут это делать. Они могут разработать на основе данных рекомендательные системы для клиентов или применить Big Data для принятия управленческих решений». Для того, чтобы проиллюстрировать применение Аналитики 3.0 в разных индустриях, Давенпорт и Диче рассказывают кейс одной из ведущих логистических компаний. Она смогла внедрить недорогие датчики для своих грузовиков, прицепов и контейнеров. «Эти датчики мониторят местонахождение, водительское поведение, уровень топлива, загрузку прицепа или контейнера. Данные анализируются и на их основе принимаются решения (например, по распределению заказов среди перевозчиков). Качество таких решений постоянно растёт. А использование предписывающей аналитики (используется для выбора оптимальной тактики) помогла изменить должностные роли и отношения». «Войти в эпоху Аналитики 3.0 предприятию помогают новые технологии и методы анализа данных, включая разнообразные архитектуры программного и аппаратного обеспечения, кластеры для параллельной обработки (Hadoop, MapReduce), in-memory аналитика и обработка данных в базах данных, – добавляют авторы. – Все эти технологии значительно быстрее, чем предыдущие поколения технологий для управления данными и аналитики. То, на что раньше могли уйти часы и дни, теперь можно осуществить за секунды». Ключевая черта предприятия, которое основывается в своей работе на аналитику больших данных, – способность быстро доводить до конца активности, которые обречены на провал. Это помогает им с большой частотой получать промежуточные результаты. С развитием новых «гибких» методов анализа данных и техник машинного обучения, теперь организации могут получать «инсайты на гораздо больших скоростях» и справляются с «постоянной срочностью задач». Возможно, важнее всего то, что Big Data и аналитика интегрированы друг с другом и встроены в корпоративные процессы всей компании. «Модели в Аналитике 3.0 часто встроены в операционные процесс и процессы принятия решений, а это значительно увеличивает скорость их работы и их эффективность, – продолжают Давенпорт и Диче. – Некоторые встроены в полностью автоматизированные системы на основе скоринговых алгоритмов или правил на основе аналитики. Некоторые – в продукты и функции, ориентированные на потребителя. В любом случае встраивание аналитики в системы и процессы не только ускоряют получение результатов. Оно ещё не позволяет тем, кто в итоге принимает решения, уклоняться от использования аналитики. А обычно это очень хорошо для бизнеса». Используете Аналитику 3.0, самые инновационные методы анализа данных и передовые технологии, а положительного результата нет? Читайте другую статью блога.

Как доказать руководству важность качества данных и управления ими

Ваше руководство не понимает значения качества данных, а любые ваши инициативы в этой области не находят поддержки? Читайте статью Моники МакДонелл о том, как эту ситуацию изменить. Моника – ключевой член европейской команды консалтинга в Informatica.

10 декабря 2018

Действительно ли бизнес хочет трансформироваться?

В последние несколько лет все конференции, на которых мне довелось побывать, имеют одно общее. Основной фокус каждой из них – цифровая трансформация. Аналитики, лидеры мнений и эксперты индустрии транслируют одно и тоже ключевое сообщение. Они говорят о том, что сейчас мы находимся в середине самой большой в корпоративной истории трансформации. Трансформация эта цифровая по своей натуре и в основе её лежат данные. По роду своей деятельности я глубоко погружена в мир дата-центричной цифровой трансформации. Но недавно у меня состоялся разговор с клиентом, который буквально вернул меня на 10 лет назад. Меня попросили объяснить одной из производственных компаний ценность управления мастер-данными о клиентах. При этом меня попросили не рассказывать о таких преимуществах, как повышение дополнительных продаж и кросс-продаж, потому что эта компания «и так достаточно зарабатывает». Этот уровень самодовольства руководства совершенно не совпадает с ситуацией на рынке «адаптируйся или умри», которую большинство экспертов активно проповедуют. Компания, о которой идёт речь, по большей мере продаёт нишевые продукты. Сейчас у неё мало конкурентов. Оказалось, что руководство организации полностью удовлетворено текущим положением дел. Они не видят необходимости управлять данными и обеспечивать качество данных для того, чтобы не отстать от всеобщей цифровой трансформации и даже для того, чтобы поддержать статус кво на рынке. Но само то, что кто-то в организации интересуется этими вопросами, уже говорит о необходимости этого для бизнеса. К тому же, история показывает, что компании, которые самодовольно вели себя перед лицом перемен, в итоге проигрывали. По моему мнению, сегодня такое самодовольство по отношению к цифровой трансформации чаще всего можно встретить на промышленном предприятии. Они создают реальные, физические товары, у которых есть свои преимущества. В это сфере важность качества данных и управление ими может быть сложнее продать, чем в сфере обслуживания, где связь данных и цифровых возможностей компании более явная. Работаете в компании, где высшее руководство пока не понимает того, что данные – это основа цифровой трансформации? Нужно продемонстрировать им ценность данных. Основываясь на своём опыте в управлении данными, я подготовил для вас несколько советов.

5 шагов, чтобы показать ценность качества данных руководству компании

Шаг 1. Определите, как неэффективное управление и низкое качество данных влияет на бизнес компании. Выявите основные проблемы, которые требую решения. Среди нихможет быть недостаток гибкости, неэффективный процесс принятия решений или упущенные возможности. Также – к неспособность быстро адаптироваться в высокотехнологичном мире.
Шаг 2. Разработайте чёткий план поиска первопричин таких проблем. Зачастую в том, то вы упускаете выгоду от данных, виновато низкое качество данных и их низкая доступность
Шаг 3. Старайтесь, чтобы ваши инициативы были нацелены на решение этих проблем и приносили реальную пользу бизнесу. Для этого выбирайте для реализации такие инициативы, которые помогут устранить первопричины проблем.
Шаг 4. Расскажите всем о своих инициативах. Внутренние коммуникации – это ключевой фактор для того, чтобы привлечь к своему проекту людей.
Шаг 5. Повторяйте все предыдущие шаги. Используйте уже достигнутый успех, увеличивайте количество проектов и их сложность.

Предложенная мной стратегия рассчитана на долгое время. Но реальность такова, что обеспечить высокое качество данных и эффективное управление ими в организации нельзя быстро. А без первых успехов доказать руководству полезность ваших инициатив будет непросто. Но первый же успех поможет вызвать больший интерес, который рано или поздно приведёт к более крупным проектам. Скорее всего у вас есть коллеги, которые работают над проектами, которые призваны использовать ценность от данных или цифровой трансформации. Эти коллеги естественно станут вашими союзниками на пути улучшения качества данных, их доступности во всей организации. Координация с другими командами в области ключевых сообщений и технологий может ускорить получение реальной пользы и улучшить возможности управлять данными. А это в свою поможет вам скорее получить поддержку от руководства. Естественно, никогда нельзя гарантировать всё на 100%. Даже если вы успешно демонстрируете ценность качества данных, у вас может не получиться убедить высшее руководство в необходимости перемен. Плюс в том, что, если вы выполните хотя бы первые четыре шага, ваш опыт в будущем оценит любая другая из сотен компаний, которые уже поняли преимущества дата-центричной цифровой трансформации и активно её у себя внедряют.

4 совета маркетологу для эффективного Data Governance

4 декабря 2018

По мере того как Big Data всё шире используются в маркетинге, всё актуальнее для этого подразделения становится Data Governance. О том, зачем маркетингу стратегическое управление данными, рассказывает Роб Карел, вице-президент по продуктовой стратегии в Informatica. Также он даёт три практических совета маркетологам.

По эту сторону баррикад Data Governance

У меня был интересный карьерный путь. В течение 20 лет я работал в области управления данными и Data Governance. А последние 5-6 лет я занимаюсь маркетингом. Со стороны может показаться, что это – кардинальная смена рода деятельности. Но сам я считаю, что это – логичный шаг в моём карьерном развитии. Больше всего в работе с данными мне всегда нравилось то, что моя деятельность направлена на поддержку реальных задач в области маркетинга или продаж. Для меня всегда было важно, чтобы правильные данные были переданы людям, которым они действительно нужны, чтобы обеспечить конечного потребителя лучшим клиентским опытом.

По ту сторону баррикад Data Governance

Теперь я нахожусь по другую сторону баррикад. Я – маркетолог и могу наблюдать, как организуется работа с данными в отделах маркетинга. Базовая работа по подготовке данных к использованию в маркетинге часто передаётся отделу ИТ или командам по управлению данными. После подготовки данные должны стать доступными, чистыми, достоверными, управляемыми, защищёнными. Иногда отдел маркетинга отдаёт некоторые активности по очистке, хранению и распределению данных, сокрытию конфиденциальной информации, на аутсорсинг агентствам или использует сервисы по валидации и обогащению. Но обычно такие активности носят тактический характер. Они ориентированы на отдельные маркетинговые кампании, не являются сквозными для отдела, и уже тем более для компании. Но тактическое управление не будет конкурентным преимуществом в сегодняшнем мире, где все организации проводят дата-центричные цифровые трансформации и соревнуются в уровне клиентского опыта. Данными в таком мире нужно управлять во всех корпоративных функциях, связанных с клиентом (продажи, клиентская поддержка, маркетинг, финансы). Они не должны хранится в разрозненных источниках разных отделов. Что же нужно делать в такой ситуации маркетологу? Возможно, вы уже хорошо разбираетесь в данных своего отдела и поддерживаете инициативу Data Governance. Вряд ли, конечно, активное участие в этой инициативе в списке ваших карьерных приоритетов. Но этого и не требуется. Большинство организаций уже ввели у себя позицию Chief Data Officer (CDO, директор по данным) или другую позицию с похожим набором функций. Задача таких специалистов – эффективно применять практики Data Governance во всей организации. Но большинство из них испытывает сложности с выбором приоритетные требования для данных. К тому же им сложно найти поддержку и вовлечь в инициативы сотрудников и руководителей компании. А вы можете помочь им решить эти проблемы. Как это сделать? Принимать участие в приведение маркетинговых данных в порядок, не жертвуя при этом другими инициативами.

Советы для эффективного Data Governance

В вашей компании скорее всего есть эксперты по управлению данными. Найдите их и постарайтесь помочь им, насколько сможете. Они должны стать вашими лучшими друзьями. Поможете им достигнуть успеха в их инициативах, и данные, от которых вы зависите, станут лучше.
Если в компании нет CDO или другого руководителя проекта Data Governance, продвигайте идею о необходимости нанять его. Используете кейсы для того, чтобы объяснить руководству, зачем нужна в компании подобная позиция.
Если CDO есть или есть руководитель проекта Data Governance, свяжитесь с ним и предложите свою активное участие и поддержку инициатив управления данными. Я сам был свидетелем того, как программы Data Governance, у которых была поддержка внутри компании, за 6-12 месяцев начинали приносить большую пользу бизнесу. Хотя на начальных этапах охватывали всего 10-15% из тех сотрудников, которых могли бы.
Пока пытаетесь сдвинуть инициативу Data Governance с места, следите за распределением своего времени. Не нужно тратить всё время на данные из новых, интересных для вас проектов. Любые надёжные данные приоритетны для отдела маркетинга. Без этого вы не получите полной картины.

Всем выйти из сумрака: анализ и обработка данных, которые считаются «темными»

Не важно, как хорошо ведутся анализ и обработка данных в вашей организации. Скорее всего, они не охватывают всю информацию, которую могли бы охватить. А именно эта информация может оказаться самой ценной для бизнеса. О том, как вывести все данные из сумрака и начать их использовать c пользой, рассказывает Джо Маккендрик, независимый аналитик и внештатный автор целого ряда зарубежных IT-изданий.

27 ноября 2018

Найди меня, если сможешь

В последнее время много обсуждаются «тёмные данные» и «тёмная аналитика». Эти термины относятся к информации, которая хранится там, где анализ и обработка данных недоступны – в тени. Среди таких мест – электронные таблицы на компьютерах сотрудников. Также данные могут оставаться «в тени», потому что сформированы как результат анализа или оценки существующих источников данных. Например, видеосъёмка выражения лица клиента, когда он смотрит на товары в вашем магазине, – это «тёмные данные». Вопрос только в том, можно ли их как-то идентифицировать и зафиксировать? По мере развития искусственного интеллекта и машинного обучения всё больше данных выходит «из тени». «Ценные инсайты получают из «тёмных данных» посредством решения проблем статистического анализа в больших масштабах», – считает Абхишек Будхолия, Future Market Insights, который недавно опубликовал анализ рынка «тёмной аналитики». «Тёмная аналитика», – продолжает эксперт, – помогает лучше понять нереализованные возможности. В большей степени эти возможности – в области продаж и маркетинга». Тренды в области продаж, производства и дистрибуции – также потенциальные кандидаты для применения аналитики такого рода. Некоторые аналитики причисляют к «тёмным данным» и те, которые можно собрать в даркнете (закрытый сегмент интернета, куда можно попасть только с помощью специального ПО). Однако большая часть возможностей скрывается в хорошо известных и ничем не примечательных источниках. Например, в сырых текстовых данных, «которые могут включать в себя текстовые сообщения, документы, адреса электронной почты, видео и аудиофайлы, изображения», – указано в отчёте, подготовленном Трейси Кэмбис, Нитин Миттал, Сандип Кумар Шарма (консалтинговая компания Deloitte). Большая часть этого может быть скрыта в «глубинной Сети» (страницы сайтов, которые не индексируются поисковыми системами). Хорошие новости в том, что во многих организациях данные легко вывести из тени: они уже находятся под рукой. «Во многих компаниях большие объёмы структурированных и неструктурированных данных лежат без дела», – указывает Кэмбис и её соавторы. «Обычно сложно создать эффективно работающие связи между разрозненными дата-сетами. Например, большая страховая компания соотнесла схему домашних адресов сотрудников и распределения парковочных мест и уровень их удовлетворённости рабочим местом и уровнем удержания работников в организации. На основе этого они смогли понять, влияет ли путь от дома до работы на текучку кадров». «Данные, которые находятся в тени, могут включать в себя «ценную информацию о расчёте цен, клиентском поведении и конкурентах. При этом она может быть погребена в традиционных неструктурированных данных, – добавляют сотрудники Deloitte. – Неиспользуемые данные включают в себя адреса электронной почты, заметки, сообщения, документы, логи и уведомления, полученные с устройств интернета вещей и даже данные на иностранных языках, которые были собраны на зарубежных рынках и не были переведены. Причина того, что эту информацию не используют, может быть в том, что её не помещают в реляционные базы данных. Кроме того, для того, чтобы начать её эффективно применять до недавнего времени не существовало необходимых инструментов и техник».

Анализ и обработка данных станут доступнее

Технологии уже открыли многие источники данных, которые не использовались раньше. «Стратегические и операционные инсайты, а также инсайты о клиентах, погребены в больших объёмах сырых данных, которые генерируют транзакционные системы, социальные сети, поисковые системы и другие источники», – замечает Будхолия. Среди технологий, которые делают анализ и обработку данных доступнее – «распределённая архитектура, обработка данных in-memory, машинное обучение, визуализация, когнитивная аналитика. Они помогают подтвердить или прояснить предположения, определить ценные наборы данных и инсайты, информировать тех, кто принимает решения, помочь наметить новые стратегии». Вывести данные из тени поможет и искусственный интеллект и машинное обучение. «Используя компьютерное зрение (способность идентифицировать объекты, сцены и активности в изображениях), продвинутое распознавание образов, анализ видео и аудио, компании теперь могут заниматься обработкой данных и их анализом, даже если они нетрадиционных форматов. А это поможет бизнесу лучше понять клиентов, сотрудников, операционную деятельность и рынок».

4 совета для анализа и обработки данных, которые находятся в тени

Камбис и её коллеги дают следующие рекомендации по тому, как максимально использовать «тёмные данные», когда они в конце концов станут доступными.

Задавайте вопросы

Это прежде всего должны делать бизнес-специалисты, но ИТ-специалисты должны направлять и поддерживать их. «Работайте с бизнес-командами, чтобы выявить отдельные вопросы, ответы на которые могли бы помочь найти тёмные данные. А также – определить потенциальные источники для аналитики и нереализованные возможности». Такими источниками могут быть – видео или общественное мнение в социальных сетях, ценность которых ещё не была отмечена в компании.

Используйте внешние источники

«Расширяйте свои данные с помощью демографической информации, информации о местоположении, статистики, чтобы создавать более полные и детализированные отчёты и находить полезные инсайты».

Развивайте таланты сотрудников

Data scientists – важный ресурс. Но кроме них вам будут нужны будут специалисты с умениями в области визуализации, графического дизайна, традиционных умений в области обработки данных, управления мастер-данными и архитектурами данных.

Изучите продвинутые инструменты визуализации

«Информацию проще понимать, когда она представлена в форме инфографики, дашборда или любом другом визуальном формате».

Хотите извлекать пользу из Apache Hadoop? Грузите в него подготовленные данные

О том, почему нужно готовить данные для загрузки в Apache Hadoop и как это сделать, рассказывает Мёрти Матипракасам. Мёрти – главный менеджер по маркетингу продуктов Big Data. Эксперт обладает более 15 годами опыта работы в области ИТ, включая такие компании как Mercury Interactive, Google, eBay, VMware и Oracle.

21 ноября 2018

Хранилище останется, в дополнение к нему – Apache Hadoop

Традиционная система хранилища и реляционные базы данных по-прежнему широко используются. Компании не спешат отказываться от них. Особенно когда речь идёт о формировании отчётности и применении Business Intelligence. В этой области сейчас ничто не предвещает перемен. При этом экосистема Apache Hadoop активно развивается. Вычислительные ресурсы работают всё быстрее. Хранение данных становится дешевле. Появляются новые методы поиска, обработки и анализа данных. Все эти инновации организации активно применяют, чтобы стать эффективнее, более конкурентоспособными и быстрее реагировать на нужды клиентов. Такое развитие мотивирует всё новые компании внедрять у себя Apache Hadoop.

Анализ важнее экономии

По моему мнению, у Apache Hadoop есть два основных преимущества. Он даёт возможность снизить затраты. Хранение и обработка данных в нём дешевле, чем в хранилище. Хотите знать почему? Читайте статью «Как окупаются инвестиции в Apache Hadoop». Кроме того, он позволяет обрабатывать совершенно новые источники данных. В том числе те, которые собираются с сенсоров IoT. Для этого организуются озёра данных на Apache Hadoop – вспомогательная для хранилища данных среда. Давайте честно посмотрим на вещи. Представим, стоит выбор между экономией на хранении и обработке и возможностью начать анализировать новые источники данных. Несомненно, второе звучит заманчивее. Именно вторая возможность и мотивировала появление новых ролей, таких как data scientists и новых инструментов визуализации для самообслуживания. В мире вездесущей аналитики главное преимущество Apache Hadoop в том, что он – дешёвая временная песочница для data scientists. Они выгружают в него исторические данные из различных систем-источников и проводят их исследовательский анализ. По мере сбора новые данные могут постоянно подгружаться в Apache Hadoop. Он не проверяет их схему, структуру при загрузке (Apache Hadoop – платформа «schema-on-read»). При необходимости SQL-технологии в среде Apache Hadoop, такие как Cloudera Impala, Hortonworks Stinger, Apache Drill и Pivotal HAWQ обеспечивают гибкий и повторяющиеся SQL-подобные запросы дата-сетов. А Tableu визуализирует данные и позволяет с ними самостоятельно работать.

Apache Hadoop не проверяет схему при загрузке, но не освобождает от подготовки данных

Революционные возможности Apache Hadoop безусловно выглядят воодушевляющими. Тем не менее такая среда данных нуждается в модернизации. Организации не могут полагаться на методологию многократного неконтролируемого сброса данных в озеро. Это превращает озёра в болота. Неуправляемые «болота» данных не имеют практического значения для бизнеса. Чтобы обрабатывать данные как на конвейере и обеспечивать работу аналитических систем, среда Apache Hadoop должна быть чистой, целостной и гибкой. Загрузка корпоративных данных в Apache Hadoop вместо традиционного хранилища не освобождает от подготовки данных.

Все готовят данные для загрузки в Apache Hadoop

Открою секрет: почти каждая компания, которая использует Apache Hadoop, имеет процессы, стандарты, инструменты и сотрудников для профайлинга данных, их очищения, обогащения и валидации. В мире корпоративных Big Data схемы данных и метаданные всё ещё имеют большое значение. Поделюсь несколькими примерами. На конференции Strata+HadoopWorld выступал сотрудник большой компании, которая занимается программным обеспечением. Его команда отвечает за подготовку данных. Он описал, как его организация собирает данные из различных источников с использованием стандартной схемы для всех данных, которые поступают в озеро Apache Hadoop. Когда данные собраны, его команда профилирует, очищает, обогащает и валидирует их. Это нужно, чтобы у аналитиков был доступ к данным высокого качества. Ещё один специалист описал, как внутренние команды по работе с данными должны были конвертировать данные в формат Avro перед загрузкой в озеро данных. Формат Avro – новый формат данных, который используется наряду с ORC, Parquet и JSON). Один из data engineer (инженер по данным) из крупной компании рассказал о создании специального комитета по управлению изменениями в схемах и структурах данных. Ещё один участник конференции – корпоративный архитектор одного из крупнейших операторов связи. Он объяснил, что схема данных имеет большое значение для соответствия требованиям конфиденциальности. Поэтому данные маскируются перед тем, как поступают аналитикам. Отмечу, что эти компании не просто переносят CRM и ERP в Apache Hadoop. Они собирают данные с сенсоров, которые носят пациенты, файлы логов, данные типа «событие», сведения о посещениях. И для каждого из этих типов информации подготовка данных – главная задача.

Много маленьких озёр данных впадают в озеро информации

Недавно я общался с представителем клиента Informatica – крупного финансового сервиса. Он недавно предложил внутри компании уникальную архитектуру использования Apache Hadoop. Несколько бизнесов компании построили для себя отдельные озёра в качестве песочниц на Apache Hadoop. В них могут работать небольшие команды data scientists. После этого, когда данные профилированы, очищены, обогащены и валидированы, они загружаются в более крупную структуру Apache Hadoop – корпоративное озеро информации. А в отличие от озёр данных озёра информации чистые, целостные и гибкие. Data Stewards (стюарды знаний, сотрудники, ответственные за данные на местах) озёр информации могут управлять метаданными и обеспечивать мониторинг линеджа данных из источника до песочницы, озера данных, финальной системы. Озёра информации обладают таким же высоким качеством данных, как хранилище. Но в отличие от него, они обладают экономической эффективностью и масштабируемостью Apache Hadoop. Построить корпоративные озёра информации из озёр данных можно легко и быстро. Для этого нужны инструменты, которые перенесут маппинги данных из традиционной системы в Apache Hadoop. У них должны быть визуальные интерфейсы для разработки и нативные механизмы работы в Apache Hadoop. Лучше всего возможности корпоративного озера информации были описаны на конференции Strata+Hadoop World сотрудник крупной медицинской компании. «Большие данные кажутся привлекательными, но не менее привлекательны полные данные. Сейчас у нас много данных и мало информации». Схемы, структуры данных и метаданные сейчас играют большее значение, чем когда-либо. А с помощью инструментов по интеграции, подготовки данных и озёр информации компании могут открыть для себя путь к информационным богатствам.

Смотреть видео: История успеха. Внедрение системы управления знаниями в ВТБ

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Смотреть видео: поздравление с Новым годом Павла Лихницкого, генерального директора DIS Group

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Смотреть видео: История успеха. Применение PowerCenter в «Ренессанс Кредит»

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Защита данных в эру Big Data. Часть 2

Традиционная информационная безопасность

Дата-центричная парадигма ИБ и защиты данных

Управление данными и ИБ станут единым целым

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Защита данных в эру Big Data. Часть 1

Информационная безопасность и защита данных стали другими

Что такое Big Data? Не три V, а пять

Объём

Разнообразие: полиморфизм и метаморфизм данных

Скорость

Слои данных

Как реагируют регуляторы на изменения в области данных

Раскрытие или защита данных?

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Анализ данных: новые методы анализа данных и технологии создали Аналитику 3.0

Не только Google, Yahoo и eBay

Маленькие объёмы и статистические методы анализа данных

Большие объёмы и интеллектуальные методы анализа данных

Все методы анализа данных, данные управляют бизнесом

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Как доказать руководству важность качества данных и управления ими

Действительно ли бизнес хочет трансформироваться?

5 шагов, чтобы показать ценность качества данных руководству компании

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

4 совета маркетологу для эффективного Data Governance

По эту сторону баррикад Data Governance

По ту сторону баррикад Data Governance

Советы для эффективного Data Governance

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Всем выйти из сумрака: анализ и обработка данных, которые считаются «темными»

Найди меня, если сможешь

Анализ и обработка данных станут доступнее

4 совета для анализа и обработки данных, которые находятся в тени

Задавайте вопросы

Используйте внешние источники

Развивайте таланты сотрудников

Изучите продвинутые инструменты визуализации

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Хотите извлекать пользу из Apache Hadoop? Грузите в него подготовленные данные

Хранилище останется, в дополнение к нему – Apache Hadoop

Анализ важнее экономии

Apache Hadoop не проверяет схему при загрузке, но не освобождает от подготовки данных

Все готовят данные для загрузки в Apache Hadoop

Много маленьких озёр данных впадают в озеро информации

Рекомендуем также

[Вебинар] НОВЫЙ ПРОДУКТ! Селена Моделирование — проектирование реляционных структур данных