Что такое интеграция данных?

19 октября 2023

По итогам первой половины 2023 года расходы бизнеса и государственного сектора на импортозамещение в области ПО достигли 53% от общих инвестиций в сфере ИТ. Растущий интерес к российскому ПО привел к наращиванию продуктовой линейки, в том числе в области интеграции данных. На сегодняшний день инструменты по интеграции данных (особенно российские) все активнее используются компаниями.

Определение интеграции данных

Интеграция данных – это процесс перемещения и трансформации данных из источников в приемники. Цели интеграции могут быть разными: необходимость построения отчетности, проведение аналитической работы, синхронизация информационных систем между собой, соответствие требованиям регуляторов и так далее. Как правило для реализации любой из перечисленный целей необходимо воспользоваться данными из нескольких систем, связать данные между собой, обработать – это и называется интеграцией данных. Чаще всего к интеграции прибегают, чтобы унифицировать процессы, которые по-разному ведутся во многих организациях. Поэтому она становится одной из основных задач для компании, которая вынуждена работать с большим количеством разных данных во многих системах. По этой причине стали появляться промышленные инструменты ETL, в основе работы которых обращение к источникам и приемникам данных, а также трансформация данных. Это необходимо для обеспечения единого подхода в решении любых интеграционных задач, связанных с перемещением и обработкой больших объемов данных.

Методы интеграции данных

Есть три основных вида интеграции данных.

Первый вид связан с интеграцией приложений: это решения, которые включают в себя разные очереди сообщений (MQ), необходимые для онлайн-синхронизации приложений с гарантией доставки данных. Они работают на транзакционном уровне.
Второй вид – интеграция данных с помощью ETL-технологий, которые работают офлайн без гарантии доставки, но с возможностью обрабатывать большие объемы данных любой сложности из разных источников.
Третий вид – федерация данных (интеграция информации). Это одна из возможных форм организации данных, предусматривающая единообразный доступ к ним. В основном этот вид интеграции используется в BI-инструментах, чтобы сделать представление данных визуальным.

Эти три технологии частично пересекаются по функционалу друг с другом, но не являются конкурирующими, так как решают разные задачи, поэтому эффективная интеграция данных предполагает использование в правильном сочетании всех трех технологий, а не одной, что является частой ошибкой многих компаний. Для интеграции данных широко используются средства ETL и ELT. Их отличие в том, что данные могут двигаться по схеме ETL (Extract, Transform, Load; извлечение → преобразование → загрузка) или по схеме ELT (Extract, Load, Transform; извлечение → загрузка → преобразование). В случае с ETL происходит извлечение данных из одного или нескольких источников, преобразование этих данных, в том числе их обобщение (агрегирование) и очистка, и загрузка данных в приемник. При работе с большими объемами быстро поступающих данных и при ELT этот набор операций может быть дополнен группировкой или разгруппировкой данных, нормализацией или квантованием данных и другими операциями.

Преимущества

Из-за того, что запросы в работе могут быть сложными, не оптимальными с точки зрения нагрузки на источники и приемники или могут требовать промежуточного хранения данных для консолидации, компании используют ETL-решения. Они дают возможность визуально указать желаемую логику перемещения данных и их трансформацию, процессы, которые в компании необходимо осуществить, и провести онлайн-мониторинг. Также инструменты по интеграции данных эффективны в решении задач репликации данных и создания копий, синхронизации данных, реконсиляции данных (сверка). Таким образом, решения по интеграции данных:

Повышают эффективность принятых решений. Интеграция данных позволяет компаниям получать более полную и точную информацию о своей деятельности, что помогает принимать обоснованные и эффективные управленческие решения;
Увеличивают производительность. Интеграция данных позволяет автоматизировать многие процессы, уменьшая время, затрачиваемое на ручной ввод и обработку данных;
Снижают риски ошибок при обработке данных и сокращают вероятность потери данных;
Улучшают качество данных. Решения позволяют объединять данные из разных источников, тем самым повышая их качество и уменьшая вероятность ошибок;
Увеличивают конкурентоспособность бизнеса. Интеграция данных позволяет компаниям быстрее и эффективнее реагировать на изменения в рыночной ситуации;
Увеличивают эффективность бизнес-процессов. Интеграция данных позволяет улучшить координацию и синхронизацию бизнес-процессов, что увеличивает эффективность работы компании в целом;
Улучшают клиентский опыт. Благодаря интеграции данных стало возможно получать более полную информацию о клиентах, что позволяет улучшить качество обслуживания и уровень удовлетворенности клиентов;
Сокращают время на подготовку отчетности. Интеграция позволяет автоматизировать процесс сбора и анализа информации и сократить время на подготовку отчетности.

Средства интеграции данных

Средства интеграции данных создают и автоматизируют процессы обработки данных. Одним из примеров таких ETL-решений является «Плюс7 ФормИТ». «Плюс7 ФормИТ» – это зарегистрированное российское решение в реестре Минцифры Российской Федерации, которое поддерживает работу с российскими операционными системами и российскими СУБД. «Плюс7 ФормИТ» дает возможность строить хранилища данных, озера данных, фабрики данных, позволяет создавать единые информационные зоны, с помощью которых строится последующая аналитическая работа, формируется отчетность и принимаются управленческие решения. ETL-инструменты включают в себя средства для извлечения данных из систем-источников, их преобразования и доставки до приемников. Поэтому практически нет ограничений в типах проектов, в которых можно использовать «Плюс7 ФормИТ». Оно дает возможность получить доступ к любому из видов источников данных: это могут быть самые обычные системы на основе реляционных и нереляционных баз данных, файлы, сервисы, сложные объектные системы (в том числе российские). Данное ETL-решение имеет средства визуальной разработки, то есть фактически можно нарисовать логику от источников до приемников данных с тем набором трансформаций, которые необходимо сделать. И эта визуальность дает возможность быстро понять: если была совершена ошибка, то где именно, а также в короткий срок передать работу по интеграции данных другому сотруднику при необходимости. Еще одна важная особенность решения – онлайн-мониторинг всех важных процессов. Иногда могут возникать задачи, связанные с онлайн-обработкой. Для этих целей есть пакет для работы в режиме реального времени. Он позволяет использовать работу с веб-сервисами, работать с шинами данных и получать данные из реляционных баз. Всё вышеперечисленное дает решению следующие преимущества:

Высокая производительность;
Мощный механизм интеграции данных;
Выгрузка данных из любых источников;
Обработка любых типов данных;
Высокая скорость разработки интеграционных процессов;
Низкая стоимость технической поддержки;
Формирование документов по требованию.

Примеры использования

Инструменты ETL широко используются компаниями в сфере крупной промышленности, финансовой, телекоммуникационной и в других областях бизнеса. Пример использования решений по интеграции данных в сфере транспорта – АО «ФГК». Являясь одним из крупнейших грузовых железнодорожных операторов в России, компания оказывает полный спектр услуг по перевозкам грузов железнодорожным транспортом. Организации потребовалось увеличить прибыль от перевозок с помощью системы управления вагонами в режиме реального времени. В итоге для логистики вагонопотока использовали специальное решение: вычислительное ядро, реализующее разные математические модели для формирования оптимального набора перевозок. Как результат, операционная эффективность многих отделов повысилась, была сформирована логистика в режиме реального времени. Это позволило организации оперативно управлять своими активами и извлекать больше прибыли. В банковской сфере также широко используется интеграция данных. Московский кредитный банк прибегнул к интеграции, чтобы получать актуальные данные по активам, пассивам и нормативам для бизнеса, а также чтобы в процессе импортозамещения показатели SLA и качества не снизились. Для этого банк использовал ETL-решение «Плюс7 ФормИТ», которое обеспечило оптимальное наполнение корпоративного хранилища данных. Это сделало возможным быстрое и точное построение аналитической и управленческой отчетности для различных подразделений компании, позволило заместить иностранное ETL-решение отечественным аналогом без потери эффективности и нарушения бизнес-процессов, создало бесперебойную поставку качественных, актуальных и достоверных данных для принятия управленческих решений. В результате SLA по поставке данных выполняется в срок, перевод загрузки критичных данных осуществляется один раз в час. За короткий срок была подготовлена и начата миграция на отечественную ETL-платформу без потери операционной эффективности. Решения по интеграции данных позволяют максимально автоматизировать работу разработчика и дать ему возможность быстро и эффективно, независимо от того, что за источники и приемники используются, делать логическую настройку перемещения данных из одной системы в другую и определять, как они будут преобразовываться и как будет происходить мониторинг. Таким образом, интеграция данных позволяет компании избавить себя от многих проблем.

ETL: что такое и зачем нужно?

1 ноября 2022

Олег Гиацинтов

Технический директор DIS Group

Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов.

Что такое ETL и для чего нужно

Система ETL (англ. Extract, Transform, Load — «извлечение, преобразование, загрузка») позволяет выполнять интеграционные задачи, среди которых наполнение хранилищ данных, миграция данных, межсистемная интеграция. Система позволяет извлекать данные из внешних источников, преобразовывать их и загружать в другую систему. На сегодняшний день технологии ETL являются одними из ключевых решений для построения отчетности и формирования бизнес-аналитики. Система ETL способствует решению разных бизнес-задач, главная из которых – получение достоверной информации для аналитики. Компании внедряют решения ETL при построении хранилищ и озер данных, разного рода миграций данных, когда одна система прекращает свою работу и необходимо наполнить информацией другую. Это актуально, когда нужно унифицировать данные из разных баз. ETL приводит данные к единой системе значений, обеспечивает их детализацию, качество и достоверность. Когда используется ETL:

при интеграции данных во время наполнения озер и хранилищ данных, облачных решений;
при перемещении информации в хранилище;
при отправке данных для последующего машинного обучения;
во время объединения и структуризации данных о спросе, покупках и т.п.;
при интеграции информации “интернета вещей” в одну систему;
во время репликации данных и отправки их в облако;
при подготовке информации для анализа работы бизнеса.

Как устроена ETL-система

Для успешной работы системы необходимо выполнять настройку логики перемещения данных или мэппинг. Это визуальная разработка правил интеграции данных, их трансформации и процессов последовательности загрузки. Задействуются формулы и скрипты. В работе ETL можно выделить несколько этапов:

1. Загрузка данных из источника

Источники бывают разных типов: сайты, мобильные приложения, базы данных SQL- или NoSQL, инструменты передачи данных с датчиков IoT и многое другое. Наиболее часто источниками данных являются OLTP–системы (Online Transaction Processing) для обработки непрерывного потока транзакций: приложения для банков, биржи, ERP-, MES-системы и т.п. Данные, собранные из многих источников, могут иметь разные форматы. Поэтому важно не только определиться с целевыми данными, но и составить логическую карту, которая определяет взаимосвязь этих данных с источником. На этом этапе проверяют, соответствует ли извлеченная информация исходной, есть ли нежелательные данные, соответствует ли информация требованиям целевого хранилища. При загрузке информации важно сравнить количество и состав данных, загруженных из источника: если они не совпадают, то во время загрузки могла произойти ошибка, и данные не будут являться валидными. Также необходимо учитывать:

требования по времени, отведенному для загрузки данных;
особенности загрузки: информация иногда загружается волнами с регулярным обновлением, к примеру, раз в сутки, в таком случае полезно иметь справочник о периоде загрузки, в котором будет храниться история всех изменений;
многократную перезагрузку данных, в таком случае удобно иметь справочник версий для контроля потоков загрузки;
загрузку данных с ошибками, а чтобы не загружать повторно весь пакет файлов, если в одном из них обнаружили ошибку, можно разделить пакет на файлы по исполнителям, работающим с ними.

2. Трансформация данных

Цель этого этапа – подготовить данные к загрузке: происходит преобразование структуры данных, их агрегирование, перевод значений и т.п.

3. Загрузка данных в целевую систему

Существуют разные варианты загрузки:

Первичный – данные загружаются в систему-приемник впервые;
Инкрементальный – данные загружаются или обновляются периодически (система сравнивает поступающие данные с существующими и создает записи только для новых данных);
Полное обновление – все содержимое удаляется из системы-приемника, и загружаются последние данные.

Этапы ETL

В работе ETL можно выделить несколько этапов:

1. Загрузка данных из источника

требования по времени, отведенному для загрузки данных;
особенности загрузки: информация иногда загружается волнами с регулярным обновлением, к примеру, раз в сутки, в таком случае полезно иметь справочник о периоде загрузки, в котором будет храниться история всех изменений;
многократную перезагрузку данных, в таком случае удобно иметь справочник версий для контроля потоков загрузки;
загрузку данных с ошибками, а чтобы не загружать повторно весь пакет файлов, если в одном из них обнаружили ошибку, можно разделить пакет на файлы по исполнителям, работающим с ними.

2. Трансформация данных

3. Загрузка данных в целевую систему

Существуют разные варианты загрузки:

Первичный – данные загружаются в систему-приемник впервые;
Инкрементальный – данные загружаются или обновляются периодически (система сравнивает поступающие данные с существующими и создает записи только для новых данных);
Полное обновление – все содержимое удаляется из системы-приемника, и загружаются последние данные.

Как реализовать ETL-процесс

Реализация ETL-процесса включает в себя несколько шагов:

Анализ данных (какие данные надо извлечь, откуда, как будут использоваться в дальнейшем), определение требований к ним, исходя из целей их использования;
Извлечение данных: определение источников данных, инструментов для извлечения данных, реализация процесса извлечения;
Преобразование: очистка данных, преобразование форматов, объединение данных;
Загрузка данных в целевую систему, определение метода загрузки и мониторинг процесса загрузки для отслеживания ошибок;
Тестирование и проверка извлеченных и преобразованных данных;
Документирование процессов и поддержка документации в актуальном состоянии при изменениях в процессе;
Автоматизация процессов;
Мониторинг производительности и оптимизация процессов.

С какими задачами поможет ETL

ETL помогает решать задачи, связанные с обработкой и анализом данных. Вот некоторые из них:

Интеграция данных, их слияние из разных источников для создания единого представления информации;
Очистка данных, удаление дубликатов, заполнение пропусков, приведение к единому формату;
Преобразование данных: агрегация и трансформация данных;
Загрузка данных в необходимую систему;
Поддержка бизнес-аналитики: создание отчетов и анализ производительности на основе интегрированных данных;
Соответствие нормативным требованиям законодательства;
Оптимизация рабочих процессов за счет автоматизации процесса ETL.

Хранилище, озеро и витрина данных

ETL участвует в передаче информации в корпоративное хранилище данных (КХД или DWH – Data Warehouse). Оно не решает аналитических задач, а лишь предоставляет доступ к данным, поддерживая их хронологию и целостность. КХД представляет собой базу данных, используемую для создания отчетов и бизнес-аналитики. Основа хранилища – реляционные базы данных с жесткой структурой показателей. Существует несколько принципов организации КХД, которые определяют, как работать с ним:

проблемно-предметная ориентация – данные объединены в категории и хранятся согласно областям, которые они описывают;
интеграция – данные объединяются по принципу удовлетворения требований компании в целом, а не определенной функции бизнеса;
некорректируемость – информация загружается из внешних источников, не корректируется и не удаляется;
временная зависимость – данные в хранилище считаются корректными, когда они привязаны к определенному промежутку времени.

В архитектуре хранилища существует несколько уровней. На верхнем уровне – интерфейс с использованием инструментов создания отчетов, поиска и анализа данных. На среднем – аналитический механизм для доступа к данным и их анализу. Нижний уровень – сервер базы данных, который отвечает за их загрузку и хранение. Информация из КХД широко используется в data mining, при работе с искусственным интеллектом, в машинном обучении. В государственных и городских службах в хранилищах данных собрана информация об электронных транзакциях, получаемая от департаментов (информация о штрафах за превышение скорости, уплате акцизов). Срез КХД, представляющий узкоспециализированную или тематическую информацию, ориентированную на определенный департамент или сотрудников, называется “витрина данных”. Она позволяет работать с агрегированными данными в определенном тематическом и временном разрезе. Информацию можно сформировать в список и распечатать. Например, витрина данных может использоваться отделом маркетинга в компании для разработки маркетинговой стратегии и анализа аудитории. Производственные отделы могут использовать витрину данных при анализе производительности и для улучшения процесса производства. Существует три вида витрин данных:

Зависимая – состоит из частей КХД. В ней содержатся первичные данные хранилища;
Независимая – является отдельной системой и относится к определенной части компании;
Гибридная – включает в себя информацию из хранилища и независимых источников.

Также компании используют озера данных. Хранилище данных отличается от озера тем, что оно нуждается в доработке при добавлении новых показателей. В озере данных хранится разрозненная информация для аналитики. Её используют при аналитике в «песочнице». Когда нужно найти зависимости в данных, например, для понимания поведения клиентов. Для этого необходимо проанализировать большое количество разных видов данных. При необходимости ненужную аналитикам информацию можно легко удалить. Чаще всего хранилище данных и озеро используются вместе и дополняют друг друга. Хранилище эффективно при составлении строгой отчетности (финансовой, управленческой и др.), а озеро данных – при исследованиях. При внедрении решений ETL в компании необходимо учитывать особенности корпоративного управления хранилищами, озёрами и витринами данных. Например, когда с некоторыми данными аналитики работают чаще всего, и они считаются важными, тогда в регламент переноса информации вносятся соответствующие приоритеты. Это позволяет значительно ускорить работу сотрудников.

Преимущества и проблемы ETL-систем

Системы ETL имеют ряд преимуществ:

Высокая скорость разработки;
Высокая производительность и масштабируемость решения;
Возможность извлечения и трансформации данных из любых баз, систем, XML- и плоских файлов, а также доставки данных в большинство из существующих информационных систем;
Возможности для командной разработки;
Возможности сетевой многосерверной обработки данных с автоматическим управлением и восстановлением работоспособности в случае сбоя одного из серверов;
Визуальная среда разработки интеграционных проектов;
Быстрое обучение работе с продуктом;
Простота поддержки, сопровождения и внесения изменений в разработанные процессы.

Одно из важных преимуществ системы: она может работать в режиме реального времени (при этом не является шиной данных). В чем их отличие? ETL перемещает и трансформирует большой объем данных в максимально сжатые сроки (обычно по расписанию или по запросу). А шина данных не предназначена для перемещения больших объемов информации. Она перемещает её транзакционно (по событию) с гарантией доставки, в отличие от систем ETL. Эти решения эффективно работают вместе и не взаимозаменяемы. По опыту компаний, внедривших решения ETL, они способны значительно увеличить прибыль бизнеса и повысить рентабельность инвестиций. Основные проблемы эксплуатации систем ETL связаны с их внедрением. Зачастую компании работают с десятками источников данных разных форматов. И данные могут быть полностью или только частично структурированы. Для их преобразования потребуются разные режимы конвертации. Поэтому очень важно определить, какое именно техническое решение подойдет бизнесу, и учитывать, чтобы оно масштабировалось: со временем локальной базы данных и пакетной загрузки может быть недостаточно. Компаниям рекомендуется подумать об этом заранее и рассмотреть возможности облачного хранилища. Некоторые задачи не решаются автоматически, поэтому при внедрении ETL понадобится помощь сотрудников:

при выборе источников данных. Необходимо определить, как и где содержится информация, которая должна попасть в хранилище. Аналитик оценивает значимость данных, сложность их получения, целостность и достоверность, и принимает решение, насколько выгодно работать с этой информации и нужно ли ее загружать.
при разрозненности конечных данных. Когда сотрудники создают собственные хранилища данных, не интегрированные с основным КХД. Таким образом, данные могут не совпадать у разных сотрудников. Все локальные хранилища информации придется определить вручную.
при появлении новых источников и форматов данных. Этот пункт актуален при работе с неструктурированной информацией. Тогда внутри компании используют технологии больших данных, а это влечет за собой дополнительные временные, финансовые и трудовые затраты.

Кто и как использует ETL

Инструменты ETL используются разными категориями пользователей, среди которых:

бизнес-аналитики и BI-аналитики для подготовки и анализа данных, создания отчетов и визуализаций;
разработчики и инженеры данных для интеграции данных из разных источников в целевую систему и обеспечения их доступности для других подразделений;
маркетологи для анализа поведения клиентов и оценки эффективности рекламных кампаний;
финансовые аналитики для подготовки финансовых отчетов и анализа данных о транзакциях;
специалисты по качеству данных для проверок и обеспечения качества данных на всех этапах ETL-процесса.

Инструменты ETL используются в разных бизнес-процессах:

При создании финансовой отчетности: для сбора данных о транзакциях из различных банковских систем при создании отчетности;
Во время анализа продаж: ведется работа с интегрированными данными о продажах из CRM-систем и систем управления запасами;
Во время маркетинговой аналитики: объединенные данные о клиентских взаимодействиях из разных каналов используются для оценки эффективности маркетинговых кампаний;
Для управления запасами товаров: в компании объединяют данные о запасах из разных источников, чтобы улучшить управление цепочками поставок;
Для анализа клиентского опыта: ETL помогает собрать данные о взаимодействии клиентов с продуктами и услугами (отзывы, обращения в службу поддержки) для улучшения качества обслуживания;
Для управления рисками: финансовые учреждения задействуют ETL для анализа данных о транзакциях и поведении клиентов, чтобы выявить мошеннические действия;
При создании медицинской аналитики: в здравоохранении ETL используется для интеграции данных из различных систем (электронные медицинские записи, лабораторные результаты и другое) для анализа эффективности лечения пациентов.

Примеры использования ETL

ETL-системы широко используются в самых разных сферах, особенно среди банков, телекоммуникационных корпораций, на предприятиях. Дирекция Региональных Продаж Нефть» построила озеро данных с помощью систем ETL. Такое озеро имеет два ландшафта (тестовый и продуктивный) и три зоны («Сырой слой» для хранения копий данных из источников, «Продуктивная фабрика данных» с фокусом на оптимизацию, производительность и управление, «Исследовательская лаборатория» для задач прототипирования аналитических моделей) с разным уровнем управления данными. В каталоге данных производится паспортизация источников данных, таблиц и витрин, разметка данных по доменам с помощью настроенных шаблонов, профилирование данных. Как результат, более 50% аналитических проектов и инициатив реализуются в контуре озера данных, затраты на интеграцию данных и аналитические проекты снизились за счет централизованных инфраструктуры и сервисов, возросла и доступность данных, что положительно повлияло на эффективность работы аналитиков. Изначально задачи озера данных включали в себя обработку транзакций сети АЗС компании, расчет сегментов для клиентской аналитики и анализ обратной связи от клиентов. Позднее в озеро были интегрированы данные из других источников: Санкт-Петербургской товарно-сырьевой биржи, географических и метеорологических ресурсов, метрики и отзывы Google, «Яндекс» и др. В банковской сфере ETL широко применяется для интеграции данных о партнерах и клиентах. Промсвязьбанк использует возможности ETL-системы для унификации информации о партнёрах банка и чёрных списков клиентов. Эти данные используются, чтобы оптимизировать операционную деятельность при взаимодействии с партнёрами. Информация о них консолидирована и интегрирована из разных источников в единое хранилище. Это ускорило получение информации о партнерах и позволило избежать ошибок из-за неточных данных. Унификация «черных списков» клиентов понадобилась, чтобы снизить риски банка в области мошенничества клиентов и оптимизировать работу с проблемными клиентами и неплательщиками. При формировании «чёрных списков» данные интегрировались из систем («Экстремисты», «Недействительные паспорта», K4Loans) и передавались в банковские системы PSB-Retail и др. Банк ВТБ использовал ETL-систему для создания целевого единого хранилища, чтобы эффективно управлять информационными активами банка. ETL применяется компанией для интеграции и синхронизации данных в проекте и для миграции данных в новые приложения, обмена информацией с контрагентами. В итоге была создана единая аналитическая экосистема и платформа для управления информационными активами банка. Она представляет собой сервис, адаптированный под работу с регламентами и требованиями по доступности данных в рамках большого MPP-кластера, способного масштабироваться в любой момент времени. В телекоммуникационном бизнесе использование ETL также широко распространено. «ВымпелКом» использовал ETL, чтобы быстрее вывести новый продукт на рынок. Интеграция данных понадобилась, когда «ВымпелКом» завершил сделку по приобретению 100% пакета акций компании «Голден Телеком». На основе ее продуктов был создан бренд «Билайн бизнес» для обслуживания корпоративных пользователей. Процесс интеграции компании «Голден Телеком» в информационную среду «ВымпелКом» потребовал интеграции системы 1С и финансовой системы «ВымпелКом» Oracle E-Business Suite. Решения ETL справились с этой задачей, поэтому поглощение «Голден Телеком» компанией «ВымпелКом» прошло легче, а новый сервис удалось быстрее вывести на рынок. С помощью ETL оператор мобильной связи Tele2 повысил качество клиентского опыта. В проекте провели миграцию данных для кампаний целевого маркетинга и аналитических запросов пользователей. Теперь эта информация регулярно обновляется, в результате компания стала эффективнее привлекать новых клиентов и удерживать текущих. Также была скорректирована стратегия развития бизнеса: стала возможна детализация стратегических показателей и автоматизированное формирование отчетов. В индустрии сельского хозяйства решения ETL не менее эффективны. Группа компаний «АгроТерра» использовала их для интеграции данных из ERP, ГИС, CRM и других систем (они не были синхронизированы между собой и не предполагали автоматический обмен информацией). Также ETL обеспечивает обмен мастер-данными по всей группе компаний. Мастер-данные – ключевая информация по основным бизнес-объектам компании, которая регулярно совместно используется большим количеством бизнес-процессов. Благодаря ETL качество отчетов увеличилось и принимать управленческие решения стало проще. Решения ETL используются и в сфере культуры. Один из лидеров российского рынка онлайн-кинотеатров Ivi.ru обладает большим каталогом фильмов, мультфильмов и сериалов. Компании необходимо было создать аналитическую платформу для оптимизации развития бизнеса, сократить количество финансовых и временных издержек, связанных с получением отчетов, обеспечить корректное и быстрое перемещение информации для ее использования в критически важных процессах подготовки отчётности. Система ETL помогла быстро осуществить миграцию данных из СУБД, NoSQL в целевые хранилища Vertica и Yandex Clickhouse. В результате работы унифицированы процессы загрузки и преобразования данных, создана единая система мониторинга процесса загрузки данных в хранилища, что повысило прозрачность получения данных. Это позволило бизнесу своевременно получать необходимые данные для подготовки финансовой отчетности, а также снизить затраты на техподдержку. Чем дольше работает компания, тем большее количество данных образуется, и их необходимо отслеживать и анализировать. Когда рабочих рук для этого не хватает, помогают ETL-решения. И это их главное преимущество. Они автоматически передают информацию в хранилище из разных источников, структурируют ее и повышают качество данных для аналитики.

Hadoop — что это такое и для чего используется

3 декабря 2021

Олег Гиацинтов

Технический директор DIS Group

Что такое Hadoop?

Hadoop (Хадуп) — это программная платформа для сбора, хранения и обработки очень больших объемов данных. Проще говоря, это база данных (database), предназначенная для работы с большими данными (Big Data). Hadoop стал очень популярным инструментом больших данных в силу ряда особенностей:

Бесплатное ПО: любой желающий его может скачать и установить на серверы стандартной архитектуры. Дальнейшие расходы в основном зависят от специфики конкретного проекта и уровня квалификации его команды.
Распределенное хранение: данные располагаются на множестве узлов (Hadoop Nodes) – серверов, совокупность которых образует кластер (Hadoop Cluster). Hadoop позволяет создавать базы данных практически любых размеров, обеспечивая их масштабирование их по мере необходимости.
Хранение и анализ любых форматов данных независимо от их природы: таблицы, тексты, видео, аудио, данные телеметрии, Интернета вещей, социальных сетей и пр. В одном кластере Hadoop могут храниться данные самых разных форматов из разных источников, что в сочетании с высокой надежностью делает платформу универсальной – она используется в очень широком спектре прикладных областей.
Hadoop сегодня – это не просто стек, а огромная экосистема технологий для самых разных применений. На основе Hadoop работает великое множество программных продуктов, библиотек ПО и утилит, как бесплатных продуктов с открытым кодом, так и коммерческих.

Из чего состоит Hadoop?

В архитектуре Hadoop обычно выделяют четыре базовых технологических компонента: Hadoop Common, HDFS, YARN и MapReduce.

Hadoop Common представляет собой набор библиотек программных модулей, скриптов (сценариев выполнения задач) и утилит (вспомогательных программ), которые предназначены для создания программной инфраструктуры, лежащей в основе работы всех других компонентов и продукты.
Распределенная файловая система HDFS (Hadoop Distributed File System) обеспечивает хранение данных на узлах кластера Hadoop в виде файлов. Благодаря репликации (дублированию) информации в HDFS достигается высокая надежность хранения даже очень больших файлов: в случае недоступности или выхода из строя одного узла кластера Hadoop данные будут извлекаться из блоков на других узлах.
Система планирования заданий и управления кластером YARN (Yet Another Resource Negotiator) позволяет управлять вычислениями на кластере, в том числе предоставлением его ресурсов отдельным распределенным приложениям. Что важно, эти вычисления могут выполняться одновременно (параллельно) на множестве узлов, благодаря чему достигается высокая скорость вычислений. YARN выполняет функцию программной прослойки между физическими ресурсами кластера и приложениями, которые с ним работают.
Hadoop MapReduce – это фреймворк на базе YARN, реализующий известный подход к организации распределенных вычислений MapReduce («отображение-свертка»): данные сначала распределяются на множество узлов кластера («отображение»), где параллельно запускается их предварительная обработка, после чего полученные результаты передаются на центральный узел кластера («свертка»), который обеспечивает получение итоговых результатов.

Как появился Hadoop?

Автором самых первых строк кода платформы Hadoop, написанной на языке программирования Java, стал Дуг Каттинг (Doug Cutting), решивший в начале 2005 года разработать программную инфраструктуру для эффективных распределенных вычислений на базе подхода MapReduce. Символом проекта стала любимая игрушка, принадлежавшая дочери Каттинга, она же дала ему имя. Новым большим этапом в развитии Hadoop стал состоявшийся в начале 2006 года переход Каттинга в компанию Yahoo, где он продолжил развитие системы. В 2008 году компания ввела в строй первую масштабную инсталляцию Hadoop с 10 тысячами процессорных ядер. Начиная с 2008 года, развитие проекта продолжилось в рамках некоммерческой организации Apache Software Foundation (ASF), под эгидой которой на базе Hadoop было реализовано более десятка проектов, расширяющих возможности платформы. Наиболее известные из них – распределенная СУБД для работы с огромными таблицами данных HBase, программная инфраструктура для создания хранилищ данных Hive, высокоуровневая среда управления потоками данных Pig, высокопроизводительный сервис координации работы распределенных приложений Zookeeper и др. В 2013 году в составе Hadoop появился модуль YARN, существенно расширивший возможности платформы за рамки подхода MapReduce.

Где и зачем используется Hadoop?

Ключевая область применения Hadoop – хранение и анализ огромных объемов данных. Благодаря высокой экономической эффективности и достаточно высокой производительности Hadoop получил широкое распространение как в крупнейших ИТ-компаниях (Facebook, Amazon, eBay и др.), так и в высокотехнологичных стартапах. Сегодня Hadoop можно встретить в самых разных отраслях – от производства до госсектора. Имеются реализации Hadoop для локального (on-premice) развертывания, а также облачные и гибридные варианты использования платформы. Один из самых распространенных сценариев применения Hadoop – создание озер данных, в которые стекаются все данные, доступные организации-пользователю. Анализ данных может производиться средствами Hadoop, но гораздо чаще для этого применяются различные инструменты сторонних производителей и разработчиков.

Беспрепятственный обмен данными для эффективного взаимодействия с клиентами

15 июня 2021

Организации любого размера всех отраслей понимают, как важно упростить получения клиентами информации по любым каналам — от мобильных устройств до традиционных контактных-центров. Это позволяет привлекать и удерживать больше клиентов, а также повышать их удовлетворенность. 61% респондентов опроса, проведенного IDC среди директоров по данным, утверждают, что клиентский опыт входит в тройку приоритетов бизнеса, а 54% организаций в следующие два года планируют уделять особое внимание процессам, ориентированным на клиента. Одна из самых сложных задач при этом — оркестрация обмена данными между традиционными локальными системами и новыми облачными приложениями, которые используются в бизнес-процессах, при работе с клиентами. Чтобы предоставлять данные в нужной точке взаимодействия с клиентами, сначала необходимо наладить связь между различными источниками информации. Недавно я на своем опыте испытал, как выглядит для клиента отсутствие такой связи. У нас на кухне завелись насекомые, а за шкафами странно пахло. Я зашел на сайт компании, которая предоставляет услуги по дезинфекции, вызвал специалиста, подробно описал проблему и получил подтверждение, что специалист придет через два дня с 14 до 16 часов. В назначенный день я позвонил в местный офис компании, чтобы уточнить время прихода дезинфектора. Представитель службы поддержки сказал, что корпоративный сайт не подключен к системе планирования в местном офисе. У специалиста на этот день уже все расписано, и он не приедет. Оператор, конечно, принес самые искренние извинения, но мне это ничем не помогло. После подключения к разным платформам требуются инструменты оркестрации потока данных между разными процессами, приложениями, каналами и точками взаимодействия, чтобы максимально упростить общение клиентов с компанией. Оркестрация процесса обмена данными может охватывать различные архитектурные модели, форматы данных и протоколы передачи данных. Informatica поддерживает оркестрацию потока данных на основе сообщений, API и событий.

Не существует универсального метода обмена данными — у каждого из них есть свои преимущества и недостатки. Все зависит от конкретной ситуации — сложности и размера данных, частоты их обновления, потока данных, масштаба распространения и схемы приложений, потребляющих эти данные. Чтобы оптимизировать и упростить обмен данными внутри компании, можно, например, реализовать централизованный хаб мастер-данных, который гарантирует их согласованность во всех системах и приложениях. Такой метод подходит даже для очень сложных данных и большого разнообразия схем. Informatica интегрировала решения 360 для управления мастер-данными в свою платформу iPaaS, одну из лучших на рынке. Поэтому мы предлагаем комплексное облачное решение с высокоэффективными модульными компонентами, которые легко разворачивать, использовать и адаптировать.

Компания Telus — один из лидеров в сфере коммуникаций и ИТ, которая обслуживает более 15 млн клиентских соединений, включая беспроводные сети, сети передачи данных, IP-телефонию, голосовую связь, телевидение, развлекательный контент, видео и безопасность. Приоритетом компании всегда была забота о заказчиках.

История успеха в Тинькофф банк

8 мая 2020

Первый в России полностью онлайн-банк зарабатывает на огромных объёмах данных. Также читайте подробнее об этом кейсе.

На что обратить внимание CDO (Chief Data Officer) при переходе компании в облако

О том, как переход в облако касается CDO и на что ему нужно обратить внимание в первую очередь, рассуждает Кевин Флит вице-президент Informatica по консалтингу.

21 ноября 2019

Кто такой Chief Data Officer?

Несомненно, при переходе в облако основную роль играют ИТ и информационная архитектура компании, а также сотрудники, которые за них отвечают. Но по мере того, как использование облачных решений становится всё более массовым, оно начинает влиять на всё большее число сотрудников организации. Среди них – Chief Data Officer. CDO – относительно новая роль в корпоративной структуре. Ещё не во всех организациях чётко определена область ответственности Chief Data Officer, иногда она пересекается с областью ответственности CIO – директора по ИТ. Важное отличие CDO от CIO: последний отвечает за ИТ-инфраструктуру организации. Chief Data Officer в свою очередь фокусируется применении данных для пользы бизнеса. Также читайте больше по теме в статье Кто такой CDO? статье Директора по данным Банка ВТБ, «Ростелекома», «МегаФона», Газпромбанка, X5 Retail Group: роль CDO изменилась, статье Позиция CDO – новые возможности для женщин в области ИТ и работы с данными. Сейчас на позицию CDO чаще приходят не ИТ-специалисты, а люди из других направлений бизнеса. Скорее всего этот тренд будет продолжать развиваться: Chief Data Officer должен хорошо знать бизнес, чтобы извлекать из данных компании максимум пользы. Нельзя сказать, что ИТ-специалист не может начать выполнять эту роль. Самые известные и успешные директора по ИТ хорошо разбираются в бизнесе, в котором работают. И это становится для них важным конкурентным преимуществом на рынке. В целом всё больше ИТ-специалистов сейчас осознают важность хорошего знания бизнеса. Это не случайно. На форуме Informatica World в прошлом мае на одной из сессий мы обсуждали роль CDO в организации. Я попросил поднять руки CDO, и из аудитории в 100 человек (большинство – ИТ-специалисты) подняли руки только двое. Когда я немного перефразировал вопрос и спросил: «Кто стремиться к тому, чтобы Chief Data Officer?», руки подняли 75% аудитории. Это говорит о том, что большая часть будущих CDO придёт на эту позицию из ИТ. Но для этого важно, чтобы они смогли доказать, что у них для этого есть хорошее знание бизнеса.

Облако: здесь CDO вплотную встречается с ИТ

Для успешной работы CDO важно понять цели своей компании в области ИТ-архитектуры. Нет необходимости вникать в малейшие подробности работы систем и инфраструктуры. Скорее важно, чтобы Chief Data Officer внимательно разобрался со следующими основными моментами:

Во-первых, Chief Da Officer должен понять, к какой конечной ИТ-архитектуре стремятся ИТ-специалисты компании.
Во-вторых, какую выгоду бизнесу принесёт такая архитектура (включая потери, которые возникнут, если эту архитектуру придётся принести в жертву сиюминутной выгоде).

Прежде всего CDO должен спросить CIO: «Как выглядит план развития ИТ-архитектуры компании и почему он такой?». CIO же со своей стороны должен спросить CDO, какие проблемы сейчас тот решает, чего ему не хватает для этого? Chief Data Officer должен проработать этот вопрос. Возможно, его ограничивают технологии, которые есть в компании. Или ему не хватает специалистов (например, аналитиков или data scientists). Или всё-таки проблема с данными, которые хранятся разрозненно или противоречат друг другу? Зачастую проблемы оказываются систематическими, помочь их решить может помочь CIO. Важно совместить планы работы CDO и CIO так, чтобы оба могли извлекать максимум выгоды. CDO при этом должен помочь ИТ по-новому посмотреть на свои системы, и те, которые размещены на собственных северах организации, и в облаке. Переход компании к облачным технологиям при этом открывает новые перспективы, потому что подразумевает изменение заведённого порядка, позволяет что-то улучшить.

Ключ к успеху – сотрудничество

Наступление эпохи CDO придало новый толчок трансформации ИТ в компаниях. Это настоящая трансформация, она предполагает не просто применение той или другой новой системы или введение новых функций. Она полностью меняет бизнес-модели в организации. Важно, чтобы CDO объединил свои усилия с ИТ-командой. Понимание бизнеса, данных и аналитики первого должны сочетаться с пониманием технологий последних. Без этого невозможно эффективно настроить получение полезных для компании инсайтов. Пока роль CDO новая, сотрудничество между ним и директором по ИТ ещё не налажено в полной мере. Но я считаю (и ИТ-директор Informatica меня в этом поддерживает), что без такого сотрудничества невозможно добиться высоких результатов ни в бизнесе, ни в ИТ. Также читайте статью Кто такой директор по данным и почему эта позиция всё важнее?

6 преимуществ хаба для интеграции данных

4 августа 2019

Интеграция данных имеет большое значение для бизнеса, подробнее об этом вы можете прочитать в другой статье блога. О том, какие актуальные проблемы управления данными позволяет решить хаб для интеграции данных (Data Integration Hub) рассказывает Коби Гол. Коби отвечает в Informatica за Data Integration Hub (хаб для интеграции данных, который работает по принципу публикации-подписки и занимается оркестрированием гибридной интеграцией данных).

Интеграция данных – это не только ETL-процессы

Всего несколько лет назад архитектура интеграции данных была простой. Если вы хотели переместить данные из одной системы в другую, нужно было просто вручную настроить ETL-процессы для этого. Сейчас большинство компаний проводит цифровую трансформацию. Для того, чтобы извлечь пользу из данных, организации стремятся провести интеграцию данных из сотен систем-источников и систем-приёмников (на собственных серверах и в облаке). Данные эти поступают с разной частотой, с разной структурой и разных типов. Эти особенности увеличивают существующие проблемы интеграции данных и создают новые. Чаще всего компании сталкиваются с такими проблемами:

Включение новых приложений в уже действующую архитектуру может требовать много времени и денег;
Оркестровка и управление интеграцией данных оказывается сложной и нецентрализованной;
Уже используемые процессы интеграции данных во многих компаниях запутанные, как комок волос;
Данные хранятся в разрозненных системах;
Интеграция данных всё ещё требует специальных навыков, недоступна бизнес пользователям.

Какие из перечисленных проблем актуальны для вас? Напишите об этом на почту info@dis-group.ru

Новая парадигма интеграции данных

Чтобы все эти проблемы решить, компаниям стоит начать применять современную парадигму интеграции данных. Эта парадигма должна включать в себя:

Новую модель интеграции данных, которая уменьшает сложность интеграции данных и приложений и оптимизирует её;
Новую архитектуру, которая позволит ИТ-администраторам и разработчикам управлять потоками данных и синхронизировать эти потоки, а также позволят системам реагировать на события с любой частотой (от обработки потоковых данных в реальном времени до заранее запланированной пакетной обработки).
Простой и удобный в использовании механизм интеграции данных, который поможет развить демократизацию данных и позволит неразработчикам самостоятельно пользоваться данными внутри организации.

Что вам даст хаб для интеграции данных

В частности, можно использовать отдельное решение – хаб для интеграции данных. Данные из различных систем будут поступать в централизованный хаб, а оттуда распределяться по системам-приёмникам. Хаб для интеграции обеспечивает:

Эффективную интеграцию данных в облаке и на собственных серверах компании;
Согласованную синхронизацию данных в приложениях;
Стандартизацию данных в разрозненных системах;
Управление новыми точками интеграции данных;
Управление интеграцией данных в совершенно разных системах;
Доступ к данным для бизнес-пользователей.

О примере такого хаба – Informatica Integration Hub – можно прочитать здесь. Читайте также статью о самых распространённых ошибках при интеграции данных и о драйверах развития интеграции данных. Когда речь заходит о Big Data, интеграция данных требует особенных подходов и инструментов. Читайте об этом в другой статье блога.

Связка «MDM — система — Customer Intelligence» для максимальной клиентоориентированности

О том, что такое Customer Intelligence, почему решения этого класса должны применяться совместно с MDM-системой, рассказывает Дженнифер Вэйланд, ведущий руководитель целого ряда решений в Informatica.

20 июня 2019

Если вы не очень хорошо знакомы с концепцией мастер-данных, начните знакомство с ними с другой статьи блога. Подробнее о том, как настроить формирование единых золотых записей с помощью MDM-системы, читайте здесь.

MDM-системы для оптимального управления мастер-данными

MDM-системы помогают достигать реальных бизнес-результатов и позволяют компаниям максимально использовать прорывной потенциал корпоративных данных. Благодаря MDM-системам бизнес-пользователи могут доверять данным. MDM-системы можно применять для информации разных доменов (в том числе данных о клиентах, поставщиках, продуктах, активах и так далее). Мастер-данные обычно включают в себя структурированные атрибуты, которые определяют объект. Для домена данных «клиент» это – имя, адрес, дата рождения, информация о контракте, регистрационные данные и другие атрибуты, специфичные для каждой индустрии. Данные, которые хранятся в различных системах, могут иметь разный набор таких атрибутов. Например, в одной системе у клиента может быть указаны только имя и фамилия, в другой – имя, фамилия и отчество. Или в одной системе – номер телефона, в другой – адрес электронной почты.

Все атрибуты сливаются в золотые записи в MDM-системах

MDM-системы решают эту проблему за счёт создания единой «золотой записи» для каждого отдельного клиента. Чтобы создать такую запись, сопоставляются атрибуты клиентских данных в разных источниках, несколько записей сливаются в одну или во всех записях обновляются отдельные атрибуты. За счёт этого становится возможным обновлять данные в источниках и создавать надёжное и непротиворечивое видение клиента. Единое видение транслируется во все приложения организации, попадает во всю аналитику. Ни один подход к сопоставлению нескольких записей не может предусмотреть все возможные варианты данных. Поэтому сопоставлением занимаются специализированный алгоритм в MDM-системе и отдельно выделенный для этого эксперт. Алгоритм в MDM-системы для сопоставления может быть детерминистическим, эвристическим, стохастическим. Он может сочетаться с другими техниками сопоставления, оценки, поиска. Возможность искать единые записи клиентов, оценивать источники и создавать из нескольких записей одну – золотую – приносит значительную пользу. Это касается и планирования спроса, и регистрации новых клиентов, и распределения территорий, и соответствия требований регуляторов. Также единое понимание клиента будет полезным для маркетинговых активностей, персонализации предложения, кросс-продаж, допродаж, управления компаниями по улучшению клиентского опыта.

В дополнение к MDM-системе Customer Intelligence

Сегодня все большей популярностью пользуются технологии Big Data, всё больше компании работают с источниками неструктурированных данных. В таких условиях появляются новые решения, ориентированные на клиентскую аналитику – Customer Intelligence. Цель таких платформ – выявлять связь различных объектов с клиентами. Такие решения помогают бизнес-пользователям понять контекст поведения клиентов, их цели и предпочтения на основе данных. Платформы Customer Intelligence созданы для того, чтобы обогащать клиентские записи инсайтами, полученными на основе мастер-данных и других данных (в том числе неструктурированных). Решения Customer Intelligence позволяет сопоставить и синтезировать данные о взаимодействии компании с клиентом с инсайтами о его поведении и предпочтениях, а также его цифровым профилем, который хранится в копании. При этом учитывается надёжность источника, из которого получены данные. Решения Customer Intelligence могут использоваться и в операционной работе, и для составления аналитики. Такие решения вносят свой вклад в проведение маркетинговых активностей, в цифровую трансформацию, персонализацию предложения, создание омниканальной коммуникации с клиентом, глубокую аналитику, рекомендательные сервисы, снижение оттока клиентов и другое. MDM-системы и решения Customer Intelligence дополняют друг друга. Эта связка незаменима для эффективной цифровой трансформации и для повышения клинтоориентированности компании. Также читайте статьи о том, как управлять данными с помощью MDM-систем в нефтегазовом секторе и как управлять данными интернета вещей с помощью MDM-систем. Хотите больше узнать о том, связке «MDM-системы-Customer Intelligence»? Присылайте свои вопросы на почту info@dis-group.ru

5 драйверов развития интеграции данных

12 июня 2019

Несмотря на то, что технологии интеграции данных используются уже давно, сейчас они переживают настоящий бум. О причинах этого размышляет Дэвид Линтикум – старший партнёр в Cloud Technology Partners, международный эксперт и автор книг по ИТ.

Первый драйвер развития интеграции данных: интернет вещей

О том, почему для успешной стратегии IoT нужна интеграция данных, читайте в другой статье блога. Если коротко, интеграция данных играет большое значение при перемещении информации с датчиков IoT в специальные приложения или базы данных. При этом данные интернета вещей поступают в потоке, часто требуют обработки в реальном времени. Как результат, возникает необходимость в новых высокопроизводительных подходах и к интеграции данных. Сейчас такие подходы активно появляются, они значительно меняют область интеграции данных как таковую.

Второй драйвер развития интеграции данных: технологии в области здравоохранения

Индустрия здравоохранения активно меняется. С одной стороны, меняются технологии, кторые используются в этой области. С другой, возникают всё новые требования регуляторов по защите данных пациентов. Что касается технологий, индустрия движется от дорогостоящих массивных диагностических аппаратов (таких, как МРТ) к портативным устройствам, которые мы носим для мониторинга показателей здоровья. Несомненно, первые остаются по-прежнему очень важными. Но вторые могут поведать о нашем здоровье не меньше, а иногда и больше. Обработка данных с этих портативных устройств также приобретает всё большую важность. Данные эти собираются с приборов, помещаются в большие хранилища данных, где их можно анализировать в реальном времени, в том числе с помощью предиктивной аналитики. Здесь, как и в случае с интернетом вещей, необходимость эффективного сбора активно влияет на развитие интеграции данных.

Третий драйвер развития интеграции данных: ужесточение в области защиты данных пациентов

Законодательство в области защиты данных пациентов в будущем будет становиться только строже. Касается это и контроля конфиденциальности данных, и контроля их использования по назначению. Будет регулироваться и возможность делиться данными и использовать их в интересах пациента. Интеграция данных в этой области будет играть ключевую роль для соблюдений требований регуляторов, в частности, для составления различной отчётности.

Четвёртый драйвер развития интеграции данных: Big Data

Без Big Data и тут не обошлось. Масштабные хранилища данных призваны хранить масштабные объёмы данных, которые поступают в реальном времени, а также исторические данные. Эти данные могут быть структурированными и неструктурированными, бинарными и традиционными. Но вне зависимости от этого вам постоянно придётся почти постоянно перебирать их, чтобы найти необходимые ответы на свои вопросы. Технологии Big Data и интеграция данных идут рука об руку. Первые не принесут много пользы без возможности обеспечить их миграцию с устройства, от пользователя, из хранилища данных в системы технологий Big Data. Несомненно, у инструмента для интеграции данных должны быть соответствующие возможности в том, что касается производительности и объёмов данных, с которыми они работают. К счастью, инструменты интеграции данных значительно продвинулись в выполнении этих задач.

Пятый драйвер развития интеграции данных: новые технологии

Появление других новых технологий также способствует популярности интеграции данных. Среди них – мобильные технологии, технология Connected Car («подключенные» автомобили, оснащенные различными системами коммуникации и связи) и так далее.

Партнеры присылают много документов в разных форматах? Поможет парсинг данных от Informatica

10 июня 2019

О том, как эффективно применять парсинг данных и зачем это нужно, рассказывает Елизавета Сидорина. Елизавета – технический менеджер по продуктам Informatica в DIS Group. Только за последние полгода она разработала целый ряд проектов по парсингу данных с использованием Informatica Data Transformation для крупных российских компаний. Парсинг данных – это процесс разбора неструктурированного или сложноструктурированного документа (файла, текста, сообщения т.д.). Парсинг данных включает в себя извлечение данных, их структурирование и загрузку в формате, удобном для дальнейшего использования, обработки, анализа (например, в реляционном формате).

Эффективный парсинг данных в документообороте – скачок в операционной эффективности

Сведения от партнёров и клиентов могут поступать в самых разнообразных форматах (Excel, PDF, документах Microsoft Word, презентациях). Если из них необходимо извлечь определённую информацию, сотрудники чаще всего делают это вручную. Из-за человеческого фактора могут возникать ошибки и неточности. Когда бизнес начинает развиваться, документооборот растёт, приходится нанимать всё больше сотрудников. Операционные затраты растут, а эффективность падает. Автоматизировать этот процесс может помочь парсинг данных с помощью Informatica Data Transformation. Инструмент эффективно работает даже со сложными иерархичными документами в разнообразных форматах.

Проект №1 по парсингу данных – торгово-производственная компания

В DIS Group обратилась одна из крупных российских торгово-производственных компаний. Чтобы заказать товары b2b-клиенты этой компании оформляют технические задания (ТЗ). В каждой компании-заказчике принят свой формат формирования ТЗ. Структура технических заданий также у всех разная: по-разному указаны наименование продукта, его характеристики, количество. В одном техническом задании может быть таблица, поля которой будут иметь соответствующее название. В другом – в текстовом документе указано: «ручка, ш., 54» или «ручка должна быть красной», или «ручка, толщина шарика от 0,5 миллиметров». После получения ТЗ сотрудники торгово-производственной компании вручную ищут каждый товар в каталоге товаров для составления коммерческого предложения. Процесс это трудоёмкий и требует много человеко-часов. Его нужно было автоматизировать – настроить парсинг данных из ТЗ с помощью Informatica Data Transformation. Informatica Data Transformation легко справился с этой задачей, смог эффективно вычленять наименования товаров и их характеристики из технических заданий. Понять, какая именно характеристика указана (зелёный – это цвет или размер?), помогает Informatica Data Quality. На основе полученных данных Data Quality ищет в продуктовом каталоге товары, которые максимально полно соответствуют тому, что указано в ТЗ. Сложные и сомнительные случаи отправляются на проверку и разбор вручную людям. Результаты этой проверки возвращаются в Informatica, на основе этого система продолжает дообучаться. В вопросах оптимизации можно пойти ещё дальше: автоматически формировать коммерческое предложение. Informatica Data Transformation справится и с этим. Он поставит на поток подготовку таких коммерческих предложений, с которыми привыкли работать ваши клиенты, подрядчики и партнёры.

Проект №2 по парсингу данных – страховая компания

Второй проект был разработан для крупной страховой компании. Нужно было из договоров перестрахования автоматически извлекать определённые показатели и загружать эти сведения в систему. Форматы документов здесь оказались ещё более разнообразными. Но Informatica Data Transformation успешно справился и с ними. Эффективный парсинг данных откроет перед страховой компанией большие возможности оптимизации операционной деятельности и затрат на это. А для бизнеса с таким масштабным документооборотом подобная оптимизация безусловно станет значительным конкурентным преимуществом. Остались вопросы по кейсам? Хотите узнать больше о парсинге данных с помощью Informatica Data Transformation. Пишите на почту info@dis-group.ru

Что такое интеграция данных?

Определение интеграции данных

Методы интеграции данных

Преимущества

Средства интеграции данных

Примеры использования

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

ETL: что такое и зачем нужно?

Олег Гиацинтов

Что такое ETL и для чего нужно

Как устроена ETL-система

1. Загрузка данных из источника

2. Трансформация данных

3. Загрузка данных в целевую систему

Этапы ETL

1. Загрузка данных из источника

2. Трансформация данных

3. Загрузка данных в целевую систему

Как реализовать ETL-процесс

С какими задачами поможет ETL

Хранилище, озеро и витрина данных

Преимущества и проблемы ETL-систем

Кто и как использует ETL

Примеры использования ETL

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Hadoop — что это такое и для чего используется

Олег Гиацинтов

Что такое Hadoop?

Из чего состоит Hadoop?

Как появился Hadoop?

Где и зачем используется Hadoop?

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Беспрепятственный обмен данными для эффективного взаимодействия с клиентами

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

История успеха в Тинькофф банк

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

На что обратить внимание CDO (Chief Data Officer) при переходе компании в облако

Кто такой Chief Data Officer?

Облако: здесь CDO вплотную встречается с ИТ

Ключ к успеху – сотрудничество

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

6 преимуществ хаба для интеграции данных

Интеграция данных – это не только ETL-процессы

Новая парадигма интеграции данных

Что вам даст хаб для интеграции данных

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Связка «MDM — система — Customer Intelligence» для максимальной клиентоориентированности

MDM-системы для оптимального управления мастер-данными

Все атрибуты сливаются в золотые записи в MDM-системах

В дополнение к MDM-системе Customer Intelligence

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

5 драйверов развития интеграции данных

Первый драйвер развития интеграции данных: интернет вещей

Второй драйвер развития интеграции данных: технологии в области здравоохранения

Третий драйвер развития интеграции данных: ужесточение в области защиты данных пациентов

Четвёртый драйвер развития интеграции данных: Big Data