Миграция данных — что это и как сделать правильно?

17 января 2024

Олег Гиацинтов

Технический директор DIS Group

Один из ведущих экспертов России во многих областях, связанных с Big Data и стратегическим управлением данными, включая интеграцию данных, обеспечение их качества, управления знаниями и построение датацентричных бизнес-процессов.

Под любой миграцией понимают перемещение чего-то или кого-то из одного места в другое. По этому же принципу работает миграция баз данных (БД). Миграция данных – процесс, все этапы которого необходимо тщательно спланировать. Это позволит сохранить целостность и безопасность ваших данных при их переносе. Сначала необходимо изучить исходную базу данных и определить, какие данные нужно перенести, какие будут удалены или объединены. Кроме того, важно определить, какой формат данных будет использоваться в целевой системе. Одним из наиболее важных этапов миграции данных является тестирование. Оно позволяет убедиться, что все данные были правильно перенесены и работают в новом окружении. Это также помогает выявить и устранить возможные проблемы или ошибки до того, как они окажутся в живой среде. Важно также уделить внимание безопасности данных. При миграции данных нужно обеспечить защиту конфиденциальной информации и избежать утечек данных или несанкционированного доступа к ним. Если у вас нет необходимых навыков и опыта для проведения миграции данных, рекомендуется обратиться к профессионалам. Специалисты в области ИТ смогут помочь вам спланировать и выполнить процесс миграции данных таким образом, чтобы вы избежали потери информации или проблем с функционированием системы.

Зачем нужна миграция данных?

Миграция данных может потребоваться при обновлении программного обеспечения, переходе на новую платформу, объединении баз данных или при переезде в облако, а также при импортозамещении систем управления данными. Независимо от причины, миграция данных — критически важный этап, который требует тщательного планирования и исполнения.

Виды миграции данных

Существует несколько видов миграции данных, и каждый из них имеет свои особенности и предназначен для определенных целей.

Миграция баз данных. Этот тип миграции включает перенос данных из одной базы данных в другую. Он может быть выполнен для обновления базы данных до новой версии, смены поставщика системы управления базами данных (СУБД) или объединения нескольких баз данных в одну.
Миграция приложений. Этот вид миграции включает перенос данных, связанных с конкретным приложением, из одной среды выполнения в другую. Например, при переносе приложения из локальной сети в облако или на другой сервер.
Миграция облачных данных. Этот тип миграции включает перенос данных из одного облачного провайдера в другой или из облака в локальное хранилище. Он может быть выполнен из-за изменения условий предоставления облачных услуг или для сохранения резервной копии данных.
Миграция центра обработки данных (ЦОД). Этот вид миграции включает перенос данных из одного ЦОД в другой. Он может быть выполнен для улучшения инфраструктуры, смены поставщика услуг ЦОД или из-за роста бизнеса.
Миграция операционных систем. Этот тип миграции включает перенос данных при смене операционной системы. Например, при переносе с Windows на Linux или наоборот. Каждый из этих видов миграции данных требует особого подхода и набора инструментов для успешного выполнения. Кроме того, необходимо учитывать возможные риски и потери данных при миграции, поэтому важно провести тщательное планирование и тестирование перед началом процесса.

Первый этап миграции данных

Подготовка данных к переносу. Здесь необходимо провести инвентаризацию данных, то есть определить, какие данные будут переноситься, какие из них будут нужны в новой системе, какие нужно очистить, преобразовать или, может быть, удалить. Важно не только оценить качество данных, но и проверить требования к качеству данных в новой системе, а также создать резервную копию данных, чтобы защитить их от потери.

Второй этап миграции данных

Это фактический процесс переноса данных из одной системы в другую. Перенос данных может быть выполнен с помощью специальных программных инструментов или вручную. Здесь необходимо убедиться, что данные переносятся без ошибок и потерь, что они сохраняют свою структуру и целостность, и что они корректно загружаются в новую систему. Также целесообразно провести тестирование новой системы перед началом процесса миграции, а также после ее завершения, чтобы убедиться, что все данные перенесены правильно, и что система полноценно функционирует. Одной из важных задач на этом этапе является обеспечение безопасности и конфиденциальности данных в процессе их переноса. Для этого необходимо использовать шифрование и другие методы защиты данных, чтобы предотвратить их утрату или несанкционированный доступ. Также важно иметь план восстановления данных в случае возникновения проблем во время миграции, чтобы быстро и эффективно восстановить данные и минимизировать потенциальные потери. По завершении миграции базы данных необходимо провести анализ результатов и оценить успешность процесса. Это позволит выявить проблемы и ошибки, которые возникли в процессе миграции, и учесть их при подготовке к следующим переносам данных.

Третий этап миграции данных

Проверка и тестирование данных после их переноса. На этом этапе необходимо убедиться, что данные были успешно перенесены и сохранены в новой системе, что они соответствуют заявленным требованиям и ожиданиям, и что они доступны и корректно работают для пользователей. Итак, важные моменты при миграции данных:

Планирование: необходимо тщательно спланировать процесс миграции, чтобы минимизировать риск потери данных или негативного воздействия на бизнес-процессы.
Бэкап: перед началом миграции необходимо создать резервную копию всех данных, чтобы в случае неудачи можно было быстро восстановить информацию.
Тестер: важно провести тестирование миграции на тестовой версии системы, чтобы исключить возможные проблемы при переносе данных.
Безопасность: обеспечение безопасности данных во время миграции – один из ключевых моментов. Необходимо убедиться, что данные защищены в процессе их передачи и хранения.

Ошибки, которых следует избегать при миграции данных:

Неправильный выбор технологии миграции, которая не удовлетворяет требованиям системы.
Непонимание структуры данных и их зависимостей, что может привести к потере части информации.
Недостаточное тестирование и проверка работоспособности новой системы после миграции и неучтенные риски

Таким образом, миграция данных является сложным и ответственным процессом, который требует тщательной подготовки, выполнения и контроля каждого этапа. Правильная и эффективная миграция базы данных позволит минимизировать риски и проблемы, связанные с переносом данных, и обеспечит успешное внедрение новой системы.

Что такое data catalog и для чего он нужен?

17 января 2024

Олег Гиацинтов

Технический директор DIS Group

Что такое Data Catalog?

Невозможно представить развитие бизнеса без работы с данными и ведения каталога данных. Он включает в себя описание физического и логического уровней метаданных и показывает, где находятся данные, как они перемещаются и трансформируются. Работа с каталогом данных эффективна при создании отчетности, построении озер данных и для последующей аналитики. Каталог данных дает представление пользователю, как данные используются в реальности, и предоставляет возможности по детализации каждого действия, которое с ними осуществляется.

Функции Data Catalog

К основным функциям каталога данных относятся следующие:

Сканирование метаданных при извлечении их из систем хранения и систем перемещения данных и их визуализации. Основными источниками данных в таком случае являются базы данных, производственные системы, системы отчетности и аналитики, системы ETL, хранилища, озера данных и другие средства по перемещению и трансформации данных.
Профилирование данных. Оно позволяет оценить качество данных, осуществить сбор статистики и информации об этих данных. Это дает дополнительные возможности определить пригодность данных для решений задач бизнеса.
Выявление доменов данных, которое помогает определить, соответствует ли название реально хранимым данным. Например, в проектах Data Governance зачастую тратится много времени на проведение связи между определенным полем, которое было выявлено в ходе сканирования, и его реальным описанием. В хранилище данных могут быть тысячи таких полей, и детальный разбор каждого поля (если это делать вручную) занимает много времени. Сэкономить это время помогает выявление доменов данных. В рамках этой функции сегодня все чаще применяется искусственный интеллект.
Сертификация данных. Дает возможность бизнес-пользователю быстрее находить данные, если они хранятся в разных местах.
Поиск похожих данных для быстрого проведения связей между ними.
Классификация данных. Каталог данных позволяет классифицировать данные по разным критериям: тип данных, тематика, формат и другие.

Как использовать Data Catalog?

Основное применение каталога данных лежит в области решений класса Data Governance, при которых каталог содержит всю информацию о текущем состоянии данных, их перемещении, хранении и дает возможность сравнить бизнес-логику формирования показателей с технической реализацией. Обычно Data Catalog используется вместе с бизнес-глоссарием, который обеспечивает согласованность использования данных. Это дает возможность ускорить предоставление достоверных данных бизнес-пользователю. Таким образом, каталог данных позволяет повысить эффективность работы с данными, облегчая их поиск, анализ, улучшая их качество за счет сканирования и профилирования данных и делая сотрудничество бизнес-пользователей с техническими специалистами продуктивнее. Это повышает качество аналитики данных и принимаемых на их основе решений в компании, оптимизирует бизнес-процессы.

Узнать подробности про решение класса Data Governance

Запросить демо

Что такое MDM-системы и мастер-данные?

4 декабря 2023

Олег Гиацинтов

Технический директор DIS Group

Что такое мастер-данные?

Мастер-данные («основные данные» или «нормативно-справочная информация») — это данные, представляющие справочную информацию, то есть значения или описывающие какие-либо сущности или позволяющие указать, к чему какие данные относятся. Самый простой пример мастер-данных – разного рода справочники или классификаторы. MDM-системы, или системы управления мастер-данными — это решения, которые позволяют этими данными управлять. Их главная цель — обеспечить единство представления массивов справочных данных во всех информационных системах. Кроме того, такой тип решений позволяет решить проблемы несоответствия, дублирования и несопоставимости данных. Для того, чтобы разобраться в том, как MDM-система должна функционировать, важно понять, какие бывают мастер-данные. Их можно поделить на несколько видов: 1. Референсные данные (Reference Data), очень часто называемые нормативно-справочной информацией, — это простые линейные справочники, практически не меняемые во времени, в которых как правило не требуется какая-либо сложная логика, например, справочники стран или валют. К референсным данным относятся все общероссийские классификаторы. Это самый многочисленный набор справочных данных, с которыми приходится работать. Референсные данные, – это те данные, которые в основном ведутся централизованно, очень часто на основе внешнего для компании источника. 2. Основные данные (Master Data) — это данные линейных или иерархических структур, где каждая запись по своему составу и атрибутам похожа на другую, как и для референсных данных, но при этом данные меняются практически постоянно и очень часто имеют более сложную, комплексную структуру. Пример таких справочников: клиенты, контрагенты, абоненты, сотрудники, активы. Такие данные чаще всего подвергаются обязательной функции дедубликации (выявление дубликатов данных и формирование золотых записей), поскольку работа с дублирующимися справочными данными может приводить к несоответствию отчетности, неверным решениям в части работы с клиентами и т.д. Для части справочников, например банковских счетов, недвижимости, характерно централизованное ведение, для других, например справочников физических или юридических лиц, используют схемы работы, которые называются консолидацией или гармонизацией мастер-данных. Процесс консолидации начинается с появления данных во фронтальных системах, системах, с которыми работают пользователи или даже сами клиенты, например, на интернет-порталах, после чего происходит их трансформация и перемещение в систему управления нормативно-справочной информацией для поиска дубликатов, далее начинается формирование единой записи на основе всех тех дублей, которые были найдены ранее. Затем сформированные золотые записи направляются в хранилища, озера данных и другие системы как единая версия правды. 3. Сложные иерархические справочники, описывающие сущности разного рода и характера. Самый частый пример — продукты, товары, материалы. Такие справочники как правило ведутся централизованно. Их отличительной чертой является отличие атрибутного состава для разных уровней иерархии. Например, разные товары описываются разным набором характеристик, часть из которых может быть общей. Телевизор, с одной стороны описывается весовыми характеристиками и размером, с другой стороны возможностями подключения интернета и устройств. А рюкзак помимо веса и размеров описывается типом ткани, количеством лямок и количеством разделов. Исходя из потребностей работы с мастер-данными, промышленные системы MDM в своем составе имеют возможности:

гибкого моделирования справочников, структура справочников не должна быть жестко зафиксированной вендором, должна быть возможность ее изменить, расширить атрибутный состав для любого справочника или скорректировать те атрибуты, которые уже есть; параметрическая классификация данных, обеспечивающая гибкий атрибутный состав записей мастер-данных в тех справочниках, где это требуется;
обеспечения интеграционных процессов по наполнению справочников и последующему предоставлению мастер-данных во внешние системы;
обеспечения качества данных, позволяя как контролировать соответствие атрибутов записи определенным правилам в зависимости от источника исходных данных, так и обогащать справочники дополнительной информацией;
поиска дубликатов по правилам и слияния записей, которые были найдены как потенциальные дубликаты, или их разделения, если автоматически слитые записи на самом деле дубликатами не являются. Поскольку система может принять неверное решение, признав дубликатами абсолютно идентичные записи, специалист должен иметь возможность вручную разделить записи и указать, что они уникальны. Как пример, тут можно привести близнецов, у которых и ФИО и дата рождения одинаковы;
установки вертикальных и горизонтальных связей между используемыми данными в справочниках. Так, если справочники иерархические, — например, справочник холдингов, — специалистам необходимо управлять как всем холдингом, так и его частями, например, дочерними организациями, и соотносить туда работающих сотрудников. При этом между справочниками должны быть и горизонтальные связи. Например, есть клиент, у которого есть продукт, который он приобрел в конкретной торговой точке. Горизонтальные связи здесь формируется между этими тремя объектами;
проведения согласования изменений в записях или создания новых записей, добавляемых в справочники. Как правило, любое изменение в справочнике, — это результат того, что пользователю в какой-либо внешней системе чего-то не хватило, нет клиента или поставщика, отсутствует код классификации. И в этом случае пользователь стремится или скорректировать запись, если он ее нашел, но считает, что какие-то атрибуты записи некорректны, или создать новую запись мастер-данных, если запись по мнению пользователя не нашлась. Очень часто такие изменения могут приводить к ухудшению качества мастер-данных или появлению дублей. Чтобы этого не происходило такие изменения должны согласовываться с ответственными сотрудниками. Для этого используется механизм бизнес-процессов;
бывает так, что в записи произошли изменения, но не всегда очевидно кто и почему их внес в мастер-данные. В этом случае на помощь приходит журнал аудита, где фиксируются как все события, произошедшие в системе, включая доступ к мастер-данным, так и все изменения в записях, без ограничения времени хранения таких событий;
обеспечение ролевого доступа к данным, так как очевидно, что не все сотрудники в организации должны иметь доступ к чувствительным данным по клиентам или даже к отдельным атрибутам этих данных.

Инструменты MDM

Обычно для того, чтобы устранить разрозненность данных, создать единый источник достоверной информации, а также значительно улучшить управление данными, компании используют специализированные инструменты. Кроме того, такие инструменты подходят для обработки не только структурированной информации, но и неструктурированных, а также операционных и аналитических данных. Благодаря этому правильное решение позволяет предприятиям создавать получать точную и качественную информацию, которая способствует более эффективному менеджменту. Обычно инструменты для управления мастер-данными разделяются на три основных направления.

Системы Reference Data Management (RDM): ведение линейных справочников как правило с возможностью у пользователей создавать свои собственные справочники без привлечения администраторов;
Системы класса мультидоменного Master Data Management: они используются для клиентской информации, данных по контрагентам или поставщикам, организационных структур, сотрудников и так далее;
Среди систем MDM очень часто выделяют системы Customer Data Integration (CDI) – подкласс MDM-систем, предназначенный исключительно для ведения справочника клиентов и вспомогательных для него;
Инструменты Product Information Management (PIM) для ведения классификаторов: в первую очередь, это продукты, товары, другие товарно-материальные ценности.

При выборе MDM-решения компаниям следует определить, как это решение планируется развернуть — в локальном центре обработки данных, в общедоступном, частном или гибридном облаке, поскольку некоторые MDM-системы могут быть развернуты только конкретным способом.

Big Data и машинное обучение для MDM

Для того чтобы увеличить производительность процессов управления данными, многие предприятия в 2021 году начали активно использовать MDM-процессы в сочетании с машинным обучением и Big Data. Так, технология MDM улучшает качество данных, используемых для машинного обучения, автоматизируя процесс подготовки данных и повышая точность модели. И наоборот, машинное обучение позволяет MDM автоматизировать процесс дедубликации и выявления взаимосвязей между записями, что помогает компании более эффективно управлять ресурсами. Более того, внедрение Big Data и машинного обучения значительно сокращают нагрузку на сотрудников. Так, согласно исследованию, бизнес-аналитики и другие специалисты по анализу данных тратят 80% своего времени на поиск, очистку и реорганизацию соответствующих наборов данных. В этом случае машинное обучение можно использовать для автоматизации исправлений, внесенных ранее вручную, которые платформа в дальнейшем запомнит и будет применять самостоятельно. Чем быстрее и эффективнее управление данными, тем больше новых данных можно внести в справочники и тем лучше общие данные, доступные для управления бизнес-аналитикой, операциями и прогнозной аналитикой на основе машинного обучения.

Актуальность внедрения MDM-систем

Сегодня справочные данные играют ключевую роль в работе любого бизнеса, поскольку они влияют практически на все существующие транзакционные данные. Любая информация о перемещении денежных средств, о поведении клиентов сопровождается справкой о том, что из себя представляет этот объект, как он называется, какой у него тип. Для того, чтобы грамотно и эффективно управлять всей этой информацией, компании необходима MDM-система, построенная на современной архитектура. При этом стоит помнить, что подходы по организации управлением нормативно-справочной информацией крайне тяжелы с точки зрения компании. В первую очередь, любому заказчику нужно найти бизнес-спонсора. Так как практически все подразделения задействованы тем или иным образом в работе со справочниками, то найти поэтому найти единственного заинтересованного бизнес-драйвера для такого проекта бывает очень сложно. Вторая трудность связана с аналитическими вопросами, а именно: каким образом искать дубликаты, как объединять данные, а также кто должен брать на себя ответственность за то, что это может оказаться неверная или неактуальная информация. Однако, преодолев все эти трудности и внедрив MDM систему, организация получит видимый эффект от такого внедрения, решение позволит компании не только наладить процессы управления данными, но и увеличить производительность труда сотрудников и улучшить качество используемых данных, а также сократить количество ручного труда.

Выбор MDM-решений

У решений по управлению мастер-данными должно быть четыре главных характеристики: комплексный подход, управление данными, поддержка поэтапной реализации и современная архитектура. Если решения использовать по модели SaaS, то это позволяет ускорить ввод в эксплуатацию систем благодаря автоматической подготовке инфраструктуры MDM, снять с ИТ-специалистов задачи по обслуживанию сложных MDM-систем, сразу использовать все функции и обновления, сократить затраты на покупку и обслуживание оборудования с помощью экономичной инфраструктуры, сократить капитальные и операционные расходы с помощью подписки, получить решение, масштабирующееся вместе с бизнесом. В то же время, решения, устанавливаемые на инфраструктуру заказчика более гибкие с точки зрения возможных кастомизаций и доработок функционала При выборе важно обращать внимание на комплексные интегрированные решения, которые представляют собой единый инструмент с простым управлением. Это позволяет сотрудникам сосредоточиться на более важных задачах, например, на улучшении показателей эффективности с помощью MDM-системы. Такие решения должны включать несколько инструментов:

каталог данных. Компания располагает большим объемом данных, разбросанных по разным отделам, приложениям и хранилищам в локальных и облачных средах, MDM-система должна иметь доступ к этим данным. Решение должно использовать искусственный интеллект и машинное обучение, чтобы находить и каталогизировать все мастер-данные;
интеграция данных. Она необходима для объединения всех разрозненных источников. Решение должно обеспечить высокую производительность и доступность работы с большими объемами критически важных данных;
качество данных. В разных источниках данные хранятся в разных форматах. Инструменты по контролю качества данных стандартизируют данные, обеспечивают их полноту и согласованность. По возможности система должна проверять данные на наличие неполных или недопустимых записей, разрешать конфликты и добавлять недостающую информацию из сторонних источников;
управление бизнес-процессами. Когда решение имеет настраиваемые рабочие процессы, функции голосования, оценки и чаты, массовое управление данными и машинное обучение на основе рекомендованных пользователем потенциальных действий, тогда это повышает продуктивность сотрудников всех департаментов организации;
управление справочными данными. Компаниям сложно запустит проект по реализации MDM потому, что зачастую специалисты не могут договориться об определенных и стандартных значениях для дат, стран, отраслевых кодов и т.п. Встроенные возможности управления справочными данными помогают ИТ-специалистам и бизнес-пользователям оптимизировать управление данными.

Многие MDM-системы на рынке предназначены для отдельных департаментов в компании и не отвечают требованиям всей организации. Они хорошо подходят для конкретных задач, но не масштабируются. Поэтому компании важно ответственно подойти к выбору решения, чтобы оно удовлетворяло всем требованиям бизнеса. Гибкое решение MDM должно обладать следующими характеристиками: переносимость (должна быть возможность перенести решение от одного провайдера SaaS к другому или с одной платформы на другую), масштабируемость (MDM-системы должны поддерживать масштабирование, чтобы можно было расширять их при необходимости), модульность. Как пример таких решений – Юниверс MDM. Это комплексное решение, которое упрощает и автоматизирует сложное управление мастер-данными, их контроль и передачу согласованной информации между разными областями, включая клиентов, продукты, поставщиков и многое другое. Использование этого решения позволяет повысить операционную эффективность компании: на 39,6% ускоряется процесс закупок, в 2,5 раза сокращается число ошибок в снабжении производства, на 27% возрастают вторичные продажи, в 5 раз быстрее формируется и выдается отчетность. Ключевые возможности решения: управление основными справочниками информации (номенклатура, контрагенты, клиенты, продукция – всё в единой системе), единые и чёткие регламенты управления данными, управление качеством данных, поиск дубликатов и консолидация, централизация управления данными и визуализация связанных с этим процессов, обеспечение безопасности данных.

Внедрение MDM-систем

Компании редко реализуют систему управления данными для всех областей и вариантов применения сразу. Чтобы внедрение MDM-системы было максимально эффективно, следует применять поэтапный подход, начиная с простых случаев использования и двигаясь к более сложным, влияющим на каждое подразделение компании. Современное решение по управлению мастер-данными должно поддерживать поэтапный подход, позволяя без задержек переходить от этапа к этапу по мере изменений требований и роста бизнеса. Существует несколько подходов к поэтапной реализации MDM-системы:

По предметным областям: начиная с одной предметной области и по очереди добавляя следующие.
По источникам: объединяя данные сперва из двух-трех источников, а со временем добавляя новые.
По записям: начиная с ограниченного количества записей и затем увеличивая это число.
По задачам: сначала удовлетворяя насущные потребности, а затем расширяя охват.
По функциям: начиная с базовых возможностей объединения и добавляя контекстуальные соответствия, связи, управление иерархией и т.д.
По отделам: начиная с задач одного отдела, а затем включая потребности других подразделений.

Гибкое решение по управлению мастер-данными будет развиваться вместе с вашим бизнесом и помогать в создании комплексного представления всех доменов данных. Оно поддерживает модульный подход, позволяя начать с любого домена, а затем переходить к другим типам данных в удобном темпе, менять масштаб в зависимости от объема данных, пробовать разные варианты применения: электронная коммерция, управление финансовыми данными и другое. Для успешной реализации MDM-системы:

разделите проект на небольшие этапы;
определите измеримые результаты для каждого этапа;
продумайте варианты применения, которые позволят адаптироваться к изменениям потребностей бизнеса и не потеряют актуальности;
запишите цели на ближайшие 3-5 лет, чтобы двигаться в контексте общей стратегии.

Управление мастер-данными

Стратегия управления мастер-данными определяет, как организация преодолевает сложности по работе с данными и достигает конкретных бизнес-целей через управление и целенаправленное использование мастер-данных. Поэтому стратегия управления занимает место между общей стратегией бизнеса и подходом к управлению данными. Она определяет, как бизнес будет извлекать максимальную ценность из своих данных. В современной конкурентной среде сотрудникам необходима возможность применять политики и процедуры для таких процессов, как сбор, контроль качества, защита, использование и хранение данных. Ключевые области управления данными, поддерживаемые MDM-системой:

аудит и отчетность. Система позволяет отслеживать историю изменений с указанием содержимого и авторов изменений, использованных правил сопоставления и сохранения, а также утверждающего лица;
мониторинг и анализ. Система осуществляет мониторинг на уровне политик, правил, метрик, объектов мастер-данных;
встроенные функции контроля. Система проводит проверки допустимости значений при вводе, обеспечивает динамическое маскирование данных при доступе и удалении по истечении заданного периода хранения;
конфиденциальность и защита данных. Система обеспечивает контроль доступа, шифрование данных, управление согласием пользователей и т.д.

Вопрос управления мастер-данными актуален для многих сфер. Например, перед девелоперской компанией стояли задачи по снижению издержек при формировании строительных смет (за счет создания централизованного справочника ТМЦ), формированию единого реестра поставщиков с автоматизированным бизнес-процессом по проверке достоверности сведений, управлению ценовыми предложениями от разных поставщиков, выстраиванию бизнес-процессов по согласованию изменений в двух основных реестрах и использованию правил качества и правил очистки данных. По результатам анализа проблемы с дублированием и расхождением данных в различных системах в компании создали единое пространство для НСИ, с последующей интеграцией мастер-данных во все системы холдинга. Это позволило собирать различные данные в строительные сметы, совершенствовать процесс анализа информации по клиентам. Провести такую работу помогло решение Юниверс MDM. Как результат, были созданы эталонные записи о контрагентах и ТМЦ, проведена очистка записей, определены ошибки и настроены правила для поиска дублирующихся записей. Управление мастер-данными также используется в государственном секторе. Например, ДИТ Москвы благодаря использованию Юниверс MDM решил следующие бизнес-задачи: обеспечил устойчивый рост качества жизни горожан и благоприятных условий ведения предпринимательской деятельности за счет использования цифровых технологий, обеспечил централизованное, сквозное и прозрачное управление городом на основе больших данных с использованием искусственного интеллекта, повысил эффективность государственных расходов, за счет внедрения государственно-частного партнерства в сфере информационных и цифровых технологий и связи. В результате была решена задача импортозамещения и интегрированы свыше 40 систем источников/получателей. Другой пример работы с мастер-данными – ПАО «РусГидро», крупнейший российский электроэнергетический холдинг. Перед компанией стояли следующие задачи: необходимость типизации учета основных средств по группе «РусГидро», снижение налоговых рисков по судебным практикам, устранение дублирования записей, снижение затрат на обработку информации по номенклатуре и другие. Для решения поставленных задач был введен классификатор основных фондов с интеграцией в системы-приемники ПАО «РусГидро», актуализированы связи этого классификатора со стандартным общероссийским классификатором ОКОФ2 на регулярной основе, что позволило снизить налоговые риски, создан единый реестр номенклатуры и нормализованы записи контрагентов. Работа с мастер-данными проводится и в сфере транспорта: в РЖД запускался большой проект, для которого требовался компонент, обеспечивающий работу с мастер-данными. Юниверс MDM решил ряд задач, стоявших перед компанией: создание и ведение различных справочников, необходимых для решения задачи передачи данных о предупреждениях на борт локомотива, единовременная работа с большим объемом данных, интеграция с подсистемой управления доступом и внешними системами, создание средств автоматизации операций. Таким образом, управление мастер-данными позволяет развивать единую систему управления ключевыми данными и повышать тем самым операционную эффективность компании и её ключевых бизнес-процессов.

Узнать подробности про решение и запросить демо

Юниверс MDM

Что такое управление данными (Data Management)?

25 декабря 2023

Олег Гиацинтов

Технический директор DIS Group

Развитие рынка больших данных в ближайшие два года может привести в российскую экономику 1,6 трлн руб. Одновременно растет и потребность в решениях по управлению данными: 45% крупных компаний планируют в первую очередь импортозаместить решения именно этого класса. Сегодня, чтобы сохранять конкурентоспособность, компания должна обеспечить своим сотрудникам доступ к почти любым данным о бизнесе в режиме реального времени. То есть рабочие процессы необходимо выстроить таким образом, чтобы менеджер в любой момент мог получить ответ на вопрос, касающийся его компетенций: где находится партия продукции/ кто заказчик/ что он заказывал раньше/ сколько такой продукции в целом поставляет компания/ что есть у конкурентов и так далее. Создание такого решения требует существенных инвестиций в системы сбора и управления данными, решения по визуализации, разграничению правд доступа, облачные сервисы.

Определение понятия «Управление данными»

Управление данными (Data Management) – это процесс организации и использования данных внутри компании, контроль за тем, чтобы они были доступны, актуальны, безопасны и полезны для организации. В настоящее время, когда объемы данных растут в геометрической прогрессии, эффективное управление данными становится все более важной задачей для предприятий.

Системы управления данными

Системы управления данными (Data Management Systems) – это инструменты и платформы, которые обеспечивают сбор, хранение, интеграцию, анализ и использование данных. Существуют различные системы управления данными, которые помогают организации эффективно работать с информацией. Одна из основных – это базы данных. Базы данных представляют собой организованные данные, которые хранятся и обрабатываются с использованием специальных программных средств. Они используются в различных областях, например, в банковской сфере, бизнесе, науке, здравоохранении и так далее, чтобы эффективно управлять данными и повысить продуктивность и результативность работы.

Управление большими данными

Управление большими данными, также известное как Big Data, является процессом сбора, хранения, обработки и анализа больших объемов данных для получения полезной информации и поиска ценных паттернов и трендов. Этот процесс требует использования специализированных инструментов и технологий для обработки данных, которые не могут быть обработаны с использованием обычных методов и программного обеспечения. Основные задачи управления большими данными включают в себя, во-первых, сбор данных: это процесс сбора данных из различных источников, включая социальные сети, сенсоры, устройства Интернета вещей и т.д. При этом важно учитывать надежность и качество данных. Во-вторых, хранение данных: большие объемы данных требуют специальных систем для их хранения, таких как гигантские базы данных и хранилища данных. Эти системы предоставляют масштабируемость и отказоустойчивость для обработки больших объемов данных. В-третьих, обработку данных: это процесс преобразования необработанных данных в структурированный формат для дальнейшего анализа и использования. Здесь используются различные методы, включая агрегацию, фильтрацию, трансформацию и сопоставление данных. В-четвертых, визуализацию данных: важно представление данных в понятной и удобной для восприятия форме. Визуализация данных помогает в понимании паттернов и трендов в данных, а также в принятии решений на основе полученной информации. В-пятых, анализ данных: это процесс извлечения полезной информации и знаний из больших объемов данных. Здесь применяются различные методы, такие как статистический анализ, машинное обучение и аналитика данных. Таким образом, технология больших данных позволяет хранить, анализировать и управлять огромными объемами данных. Она также используется в самых разных областях, начиная с банковского сектора и заканчивая сельским хозяйством. Внедрение решений по управлению большими данными помогает компаниям совершенствовать операционную деятельность, улучшать процесс обслуживания клиентов, разрабатывать персонализированные маркетинговые кампании и в конечном итоге способствуют значительному увеличению доходов. Однако несмотря на то, что управление большими данными имеет огромный потенциал для бизнеса и науки, оно также представляет вызовы в области безопасности данных, конфиденциальности и этики, которые также должны быть учтены при работе с большими объемами данных.

Трудности с управлением данными

В современном мире данные являются как одним из наиболее ценных активов компании, так и значимым источником потенциальных рисков для бизнеса в случае их неправильного хранения. В процессе цифровой трансформации компания аккумулирует огромное количество информации, описывающей все наиболее важнее бизнес-процессы: от управления цепочками поставок и взаимоотношениями с клиентами до разного рода внутренних регламентов, товарных остатков и имеющихся материальных и нематериальных активов. Одной из трудностей в вопросе управления данными также является их разнообразие. Данные могут быть представлены в разных форматах и структурах, что создает сложности при их сведении вместе и анализе. Кроме того, данные могут быть распределены по разным источникам, что затрудняет работу с ними.

Принципы управления данными

В реалиях цифровой экономики бизнесу необходимо комплексное решение, обеспечивающее хранение данных, интеграцию их в единую платформу, обеспечивающую сотрудникам доступ к любой необходимой информации в режиме реального времени. Такое решение должно включать инструменты автономного сбора и обработки данных, визуализации потоков происхождения информации, мониторинг и поддержку целевого уровня их качества, а также построение моделей и аналитики любой сложности. Основой для такого рода систем является озеро данных – хранилище, в котором аккумулированы большие объемы необработанных данных в их собственном формате до тех пор, пока они не понадобятся аналитическим приложениям. Для управления озерами данных используются службы облачного хранения, решения на базе искусственного интеллекта и ПО автоматизации. Главные принципы управления данными:

Идентификация и классификация данных: определение типов данных, их значения и связей для эффективной организации;
Согласованность и целостность данных: создание и поддержка стандартов и правил, которые гарантируют актуальность и целостность информации;
Контроль доступа и защита данных: обеспечение безопасности и конфиденциальности информации для предотвращения несанкционированного доступа или утечки данных;
Резервное копирование и восстановление данных: регулярное создание копий и готовность к быстрому восстановлению в случае потери информации;
Эффективное использование данных: обеспечение легкого доступа и использования информации для принятия обоснованных решений и оптимизации бизнес-процессов.

Продукты, связанные с управлением данными

Продукты, связанные с управлением данными, включают в себя различные программные решения, которые помогают в сборе, хранении, организации и анализе данных. Это могут быть базы данных, ERP-системы, BI-платформы, системы управления контентом (CMS) и другие. Соблюдение принципов и рекомендаций по управлению данными позволяет минимизировать трудности и риски, связанные с обработкой и использованием информации, а также повышает продуктивность и конкурентоспособность организации. Кроме того, качественная работа с данными позволяет их монетизировать, В портфеле DIS Group есть весь необходимый стек российских продуктов для работы с данными, позволяющий повысить операционную эффективность компании и её ключевых бизнес-процессов. DIS Group занимается внедрением полностью российских разработок для комплексного управления данными; предлагает ряд решений по работе с данными и знаниями, предназначенными для автоматизации государственных и коммерческих организаций от разработчика «Data Инновации»; а также продукт российской кампании «Датафлот» по работе с репликацией данных. Выбор конкретных продуктов зависит от целей, потребностей и возможностей организации. Например, Юниверс DG позволяет компании выстроить полный цикл управления данными в организации предоставляет возможности для сбора, хранения, обработки, анализа и визуализации данных. Система позволяет собирать данные из различных источников, в том числе из разных отделов и подразделений организации. Это позволяет получить полное представление о состоянии бизнеса и принимать обоснованные решения. Юниверс DG имеет удобный интерфейс, который позволяет пользователям легко настраивать процессы сбора и обработки данных. Благодаря гибким настройкам, систему можно адаптировать под индивидуальные потребности каждой организации. Платформа обеспечивает безопасность данных и защиту конфиденциальности. Пользователи имеют доступ только к тем данным, которые им необходимы для работы. Юниверс DG предоставляет широкие возможности для анализа данных. Платформа также позволяет визуализировать данные в удобном для пользователя виде. Графики, диаграммы и отчеты помогают анализировать информацию и принимать обоснованные решения. Также Юниверс DG позволяет автоматизировать процессы работы с данными. Это позволяет сократить время и усилия, затрачиваемые на обработку информации, и повысить эффективность работы с данными. Юниверс DG предоставляет комплексное решение для эффективного управления данными, с помощью которого компания сможет создать и реализовать собственную практику управления данными и обеспечить организации всю необходимую функциональность для построения успешного бизнеса. Если же в компании необходимо наладить целостную стратегию управления корпоративными данными, то можно обратить внимание на решение Data Governance. C помощью методологии продукта вы сможете извлечь максимальную бизнес-ценность из ваших данных, а организация станет более гибкой. Вы соберете в единый каталог технические метаданные компании (например, о том, в каких ИТ-системах хранится информация). Каталогизировав корпоративные данные, для каждого бизнес-термина вы зафиксируете в бизнес-глоссарии единое для всей компании определение. Внедрите правила для обеспечения качества данных и проведите соответствующие организационные изменения. Всё это позволит точнее и быстрее анализировать данные, формировать отчётность и принимать правильные бизнес-решения. Управление данными сегодня является важным аспектом цифровой экономики. Организации должны разрабатывать стратегии и процессы управления данными, использовать современные инструменты и технологии, чтобы эффективно управлять и использовать данные для достижения бизнес-целей. Важно помнить, что управление данными – это непрерывный процесс, который требует постоянного обновления и оптимизации.

Вопросы и ответы по решению «Датафлот Репликация», часть 2

29 ноября 2023

Первая часть вопросов и ответов можно прочитать здесь. 1. Как реализована многопользовательская работа над одним и тем же проектом? В данный момент многопользовательская работа внутри одного проекта не поддерживается. 2. Таблица может храниться в облаке? Да, если возможно организовать соответствующее подключение (указав имя хоста, порт, имя БД и т.п.) 3. Возможна ли динамическая репликация? Если под динамической репликацией понимается автоматическое добавление в репликацию новых таблиц, то такая репликация возможна при использовании DDL репликации. При этом в зависимости от типа источника могут быть свои особенности. Например, для Oracle при создании таблицы нужно будет добавлять ее в supplemental log либо включить опцию автодобавления на уровне БД. Для Postgres такие действия не потребуются. 4. Если добавить колонку в таблицу, то она подхватится автоматически при выборе опции захвата данной операции? Да, если включить репликацию DDL. 5. Возможно ли игнорирование захвата определенных данных? Да, поддерживаются возможности фильтрации на уровне источника по значениям колонок (парсер будет добавлять соответствующие условия WHERE), а также при записи в приемник с использованием выражений SQL или скриптов TCL. 6. Будет ли создана новая колонка в таблице источнике или её необходимо будет добавить руками? Да, будет создана и в источнике, и в приемнике. Для этого в проекте необходимо включить дополнительно репликацию DDL. 7. Возможна ли двунаправленная (мультимастер) репликация? Да, двунаправленная репликация возможна. Также есть возможность управления разрешением конфликтов. 8. Чем вариант репликации История отличается от Хранилища? В режиме “История” на приемнике создается таблица аудита. В таблицу журнала аудита записывается строка для каждой SQL-операции обновления, вставки или удаления в исходной таблице. В каждой строке таблицы аудита хранятся метаданные об операции SQL, а также снимки before- и after- данных для каждого столбца замаппированной таблицы. В режиме “Хранилище” каждая таблица-источник имеет соответствующую таблицу-приемник и соответствующую таблицу журнала аудита в приемнике. Перед запуском репликации в режиме Хранилище необходимо выполнить первоначальную синхронизацию, синхронизирующую данных источника и приемника. При репликации изменений Загрузчик аккумулирует изменения для цикла загрузки в таблицах журнала аудита, объединяет изменения в меньшее количество операторов SQL, а затем применяет изменения к таблицам-приемникам. Таблицы журнала аудита очищаются в начале каждого цикла Загрузки. Т.е., другими словами, загрузка в таблицы-копии осуществляется мини-пакетами на основе данных таблиц аудита. Вы можете использовать режим Хранилище для репликации данных в приемники Greenplum, Netezza, Oracle, Teradata и Vertica. 9. Что будет если архивные логи “протухли” В случае, если данные архивных логов потеряны по каким-либо причинам до того, как парсер Датафлот успел их обработать, необходимо либо заново выполнять полную синхронизацию как при начале работы решения средствами Датафлот, либо каким-то образом синхронизировать данные источников и приемников сторонними средствами с последующим указанием парсеру с какого SCN/LSN он должен продолжить чтение логов. 10. Зависимости в расписании могут быть? Да, можно настроить зависимости одних задач от других. 11. Канал оповещения (рассылки уведомлений) только почта? На данный момент поддерживаются рассылки уведомлений по email и SNMP протоколу. 12. Какие минимальные/оптимальные аппаратные требования к серверной части? Под управлением какой ОС работает серверная часть? Решение работает на ОС Linux (проверены в т.ч. российские варианты Astra и Alt) и windows (актуально для источников с MS SQL). Рекомендуемая начальная конфигурация сервера для проведения пилотов при использовании выделенного сервера для Датафлот Репликации: Linux сервер, от 4 ядер CPU, от 16 GB RAM, диск от 500 GB. Если объемы изменений большие, то дисковое пространство нужно планировать в соответствии с планируемым объемом обрабатываемых изменений. Как минимум объем диска должен иметь возможность хранить в буфере ежедневные объемы журналов изменений за несколько дней. 13. Есть ли данные по времени отставания от источника? Это очень индивидуальная история, зависящая от многих факторов – нагрузка и интенсивность изменений на источнике, дисковая подсистема хранения журналов, частота процессора парсера, способность приемника своевременно принимать соответствующий объем изменений и т.п. Если “узких” мест нет, то сколько-нибудь заметного отставания практически не будет. Пожалуйста, свяжитесь с представителями DIS Group, если вы заинтересованы в пилотировании решения Датафлот в вашем окружении. 14. Создаются ли временные объекты? Если да, то где хранятся? Парсер читает журналы БД и записывает данные в файловый буфер. Загрузчик читает данные из файлового буфера и применяет изменения на приемнике. Может использоваться один буфер(например, на одном выделенном сервере Датафлот) или “цепочка” буферов на разных серверах, если это вызвано особенностями архитекторы организации. 15. Как реализован аудит действий пользователей? Есть выгрузка лога аудита для ИБ? Действия сохраняются в системном журнале. Какой-то специальной выгрузки для ИБ на данный момент нет, но этот вопрос находится в проработке. 16. Как технически выполняется инициализирующая выгрузка? В одну JDBC-сессию? Для выгрузки и загрузки в зависимости от типа источника и приемника используются ODBC, нативные клиенты БД (например OCI) и нативные утилиты bulk загрузки и библиотеки приемников (например, libpq). JDBC не используется. Выгрузка и загрузка происходят в рамках одного процесса. 17. В enterprise, обычно, на продуктовом контуре, делать руками ничего нельзя. Как релизован процесс передачи конфигурации с тестового контура на препрод/прод? Можно ли переносить конфигурации Датафлот между средами (дев/тест/прод)? Да, есть механизмы экспорта/импорта проектов. 18. Можно ли сохранять конфигурации в Git? Какой-то специальной интеграции с Git нет. Конфигурация представляет собой бинарный файл, необходимость интеграции с Git не очевидна. 19. Есть ли ограничения для той или иной СУБД источника/приемника? По каждому типу источника и приемника могут быть свои особенности. Все они подробно описаны в документации. 20. Захват транзакционный, если да то, как обстоят дела с долгими транзакциями (несколько часов)? Используется “оптимистичная” стратегия – парсер читает и передает в буфер все данные, относящиеся к нужным таблицам, подразумевая, что транзакция закомитится с более высокой вероятностью чем откатится. В случае если произойдет роллбэк, то Загрузчик просто не будет применять соответствующие изменения на приемнике. 21. Может ли одна таблица быть приемником из нескольких источников? Да, технически это возможно. Потребуется создать несколько проектов. Кроме того, необходимо будет решить организационные вопросы с первоначальной синхронизацией и потенциальными конфликтами (например, при дублировании primary key). 22. Как происходит репликация DDL-операций при гетерогенной репликации, например Oracle>PostgreSQL, в частности как перекодируются типы? Решение поставляется с преднастроенными правилами преобразования типов для всех комбинаций источников и приемников. Кроме того, при необходимости, вы можете изменять существующие правила преобразования типов или добавлять свои. 23. Есть ли тесты производительности по сравнению с Debezium Да, проведен ряд сравнительных тестов. По результатам тестирования решение Датафлот Репликация показало выигрыш в скорости первоначальной синхронизации от 282 до 343 раз, выигрыш в скорости репликации изменений от 11 до 26 раз. Также, например, работа с использованием собственного парсера Датафлот при работе с источником Postgres значительно быстрее работы через API Postgres которое использует Debezium (парсер Датафлот быстрее в 7–11 раз по результатам тестов). Кроме того, парсер Датафлот значительно меньше (в 8–10 раз по результатам тестов) нагружает сервер источник Postgres. 24. Есть ли интеграция пользователей с AD, kerberos, openId и т.п.? На данный момент нет. Есть планы по интеграции с LDAP. 25. Поддерживается ли транзакционность при распараллеливании загрузки, например данные в мастер таблицу и детальную таблицу попадают в одной транзакции? Транзакционность в смысле обработки только закоммиченных в рамках одной транзакции данных поддерживается. Однако при использовании многопоточной загрузки в приемник соблюдение порядка, например для появления primary и foreign keys в разных таблицах в общем случае не гарантируется. Для некоторых БД (например, Oracle) существует возможность решить проблему зависимостей при появлении primary и foreign keys при многопоточной загрузке в приемник с использованием deferred constraints и применением глобального коммита по всем потокам. 26. Порядок применения транзакций на приемнике соответствует порядку источника? Загрузчик будет считывать данные о транзакции из буфера в порядке их применения. В случае однопоточной загрузки в приемник порядок будет соответствовать. Однако при использовании многопоточной загрузки в приемник соблюдение порядка, например для появления primary и foreign keys в общем случае не гарантируется. Для некоторых БД (например, Oracle) существует возможность решить проблему зависимостей при появлении primary и foreign keys при многопоточной загрузке в приемник с использованием deferred constraints и применением глобального коммита по всем потокам.

Вопросы и ответы по решению «Датафлот Репликация», часть 1

29 ноября 2023

Данные вопросы были озвучены участниками вебинара “Импортозамещение и репликация: эффективные альтернативы для российского рынка”. Запись вебинара можно получить здесь (бесплатно). 1. Какие СУБД поддерживаются в качестве источников? Реляционные источники и приемники решения Датафлот Репликация (на ноябрь 2023):

DB2
Microsoft SQL Server
MySQL
Oracle
PostgreSQL
Sybase ASE

Не реляционные приемники:

Arenadata DB
Arenadata Hadoop
Cloudera
Hortonworks
Greenplum
Kafka
Netezza
Teradata
Vertica
Файловая система (плоские файлы)

2. Используются ли при работе архивные логи БД или применяется какое-то другое решение? Да, решение Датафлот Репликация использует архивные и онлайн логи БД для захвата данных об изменениях. 3. Как лицензируется решение? Датафлот Репликация это коммерческое (не open source решение). Лицензирование решения осуществляется:

По количеству ядер CPU на реляционных источниках и приемниках данных, с которыми работает решение (см. перечень ниже);
По количеству инстансов (кластеров) не реляционных приемников (MPP, колоночные СУБД, кластеры Hadoop и т.п., см. перечень ниже)
Какие минимальные гранты для пользователя, под которым работает репликация, нужны для PosgtreSQL? (Debezium работает на уровне superuser).

При работе решения Датафлот Репликация с источником Postgres может использоваться работа через API Postgres (такой подход использует также open source решение Debezium), а также работа с использованием парсера журналов Датафлот собственной разработки. Работа с использованием собственного парсера значительно быстрее работы через API Postgres (в 7-11 раз по результатам тестов), и значительно меньше (в 8–10 по результатам тестов) нагружает сервер источник. Работа через парсер Датафлот не требует прав суперюзера. Необходимо обеспечение доступа к месту хранения архивных журналов Postgres. Набор прав на источнике Postgres (пример): create user dfr_user with encrypted password ‘dfr_user’; grant select ON all tables in schema <schema_name> to dfr_user; alter user dfr_user with replication; grant create on database <database> to dfr_user; GRANT EXECUTE ON FUNCTION pg_switch_wal() TO dfr_user; 4. За счет чего обеспечивается отказоустойчивость/гарантированная доставка? Отказоустойчивость и восстановление при сбоях обеспечивается с использованием собственного механизма контрольных точек (checkpoints), которые фиксируют, какую информацию обработал Парсер журналов БД и успешно передал в буфер, а также какую информацию Загрузчик передал в приемник и получил подтверждение о коммите. Кроме того, в БД на сервере-приемнике создается дополнительная таблица для хранения контрольной информации для восстановления. 5. Как реализован забор данных от Oracle-кластера, где есть master/slave/standby узлы? При работе с кластером Oracle решение Датафлот Репликация может взаимодействовать с любым активным узлом. При работе со standby поддерживается работа с физическим standby (read-only) и логическим standby. 6. Можно ли настроить в системе информирование об ошибках при репликации? Да, есть механизм уведомлений. Можно настроить его для рассылки уведомлений об ошибках с приложением соответствующих журналов. 7. Вы в своем роде единственный игрок или есть альтернативы? если есть альтернативы, то, чем вы отличается от других? какие ваши особенности? На рынке представлены как коммерческие, так и open source решения для репликации данных, использующие в основе технологии CDC. Одним из наиболее популярных на рынке коммерческих решений CDC долгое время являлось решение Oracle GoldenGate. Среди open source проектов известен проект Debezium. Однако, в настоящее время необходимость решения задач импортозамещения выводит на первый план российские разработки. 8. Основные отличия Датафлот Репликации:

Российская разработка, реестровая запись No 18777 от 22.08.2023
Техническая поддержка 24×7 на русском языке
Пользовательский̆ интерфейс на русском языке для полной̆ настройки процесса от захвата изменений до доставки в приемники и ведения мониторинга
Не требует развертывания, сопровождения и мониторинга дополнительных внешних компонент
Простота и легкость настройки
Доставка данных в приемник настраивается через визуальный интерфейс, не требует программирования и/или настройки дополнительных внешних коннекторов
Оптимальные способы работы с журналами БД: специализированные парсеры журналов, обеспечивающие высокую скорость обработки и минимальную нагрузку на источник. Например, в сравнении с Debezium при работе с Postgres обеспечивается выигрыш по скорости парсинга в 7-11 раз и при этом нагрузка на источнике ниже в 8-10 раз.
Встроенные возможности первичной̆ синхронизации данных в т.ч. для больших и очень больших объемов данных с обеспечением многопоточности.
Возможность использования опции Датафлот Экспресс для еще более высокоскоростной̆ первичной̆ выгрузки (миграции) данных из Oracle (до 20 раз быстрее native инструментов)
Целостность и отсутствие потерь данных обеспечивается в рамках решения
Стабильная работа даже в условиях больших DML операций (десятки миллионов строк и выше в одной транзакции)
Возможность работы с источниками Oracle Standby (уже поддерживается) и Postgres (roadmap).
Не допускается появление дублей̆ в приемнике при восстановлении при сбоях
Быстрое обучение команды администрирования и сопровождения.

9. В чем конкурентное отличие парсера Датафлот от OpenSource Debezium? Работа с использованием собственного парсера Датафлот значительно быстрее работы через API Postgres которое использует Debezium (парсер Датафлот быстрее в 7–11 раз по результатам тестов). Кроме того, парсер Датафлот значительно меньше (в 8–10 раз по результатам тестов) нагружает сервер источник Postgres. Работа через парсер Датафлот не требует прав суперюзера. 10. Датафлот Репликация – аналог какой зарубежной системы? Схожим по функционалу и архитектурным принципам является решение Oracle GoldenGate. 11. Через какой клиент (пользовательский интерфейс) осуществляется настройка? В данный момент панель управления решения — это “толстый” клиент разработанный на JAVA. Интерфейс на русском языке. В первом квартале 2024 года планируется разработка “тонкого” веб-клиента. 12. Входит ли система в список ФСТЭК? Датафлот Репликация входит в реестр российского ПО, реестровая запись No 18777 от 22.08.2023. Компания DIS Group (распространяет в т.ч. решения Датафлот) имеет опыт получения лицензий ФСТЭК СЗКИ и сертификации ряда продуктов. Для решения Датафлот Репликация необходимость такой сертификации на данный момент изучается. Пожалуйста, свяжитесь с представителями DIS Group, если вы заинтересованы в использовании решения Датафлот Репликация и, при этом, особенности деятельности вашей организации требуют обязательной сертификации ФСТЭК. 13. Как обеспечивается скорость при репликации очень больших объемов данных? Используется ли для репликации JDBC? Решение Датафлот Репликация предоставляет высокоскоростные парсеры собственной разработки для парсинга журналов БД, а также поддерживает возможности многопоточной загрузки в системы приемники. Драйверы JDBC используется для работы панели управления. Непосредственно для репликации используются парсеры журналов, драйверы ODBC и нативные клиенты БД. Каждый приемник имеет свои особенности. Например, для приемника Greenplum:

Для создания проекта через панель управления используется JDBC;
При репликации используется режим Хранилище, при работе которого применяются: libpq для заливки в таблицу аудита и ODBC для выполнения мержа по таблицам аудита;
При начальной синхронизации используется libpq

14. Требуется ли при работе парсера Датафлот установка дополнительных компонент на сам сервер, где расположена СУБД-источник? Если нет, то чем именно ваш парсер отличается от вызова методов СУБД-источника? Компоненты парсера Датафлот могут быть установлены как непосредственно на сервер-источник, так и на выделенный сервер или даже на сервер-приемник. Необходимым условием при установке не на сервер-источник является обеспечение на сервере парсера доступа к журналам БД источника. Использование парсера Датафлот имеет значительные преимущества по сравнению с работой с захватом изменений через API БД. Так, например, работа с использованием собственного парсера Датафлот при работе с источником Postgres значительно быстрее работы через API Postgres которое использует Debezium (парсер Датафлот быстрее в 7–11 раз по результатам тестов). Кроме того, парсер Датафлот значительно меньше (в 8–10 раз по результатам тестов) нагружает сервер источник Postgres. Работа через парсер Датафлот не требует прав суперюзера. 15. Каким образом обеспечивается отсутствие дублей при репликации? Отсутствие дублей в случае незапланированных отказов и последующего восстановления обеспечивается с использованием механизма контрольных точек (checkpoints), которые фиксируют, какую информацию обработал Парсер журналов БД и успешно передал в буфер, а также какую информацию Загрузчик передал в приемник и получил подтверждение о коммите. Кроме того, в БД на сервере-приемнике создается дополнительная таблица для хранения контрольной информации для восстановления. 16. Есть ли какие-то планы по работе с облаками? Для развертывания решения в облаке на виртуальном сервере и использования его точно также как on-premise решения на данный момент препятствий нет. Относительно необходимости разработки дополнительного специализированного функционала для работы в облаке вопрос изучается. Пожалуйста, свяжитесь с представителями DIS Group, если вы заинтересованы в использовании решения Датафлот Репликация и, при этом, особенности деятельности вашей организации требуют специализированного функционала для работы в облаке. 17. Каков механизм обеспечения целостности данных? Есть ли оценка влияния сложности этого механизма на скорость репликации? Решение передает в приемник только закоммиченные транзакции. Целостность данных при незапланированных отказов и последующем восстановления обеспечивается с использованием механизма контрольных точек (checkpoints), которые фиксируют, какую информацию обработал Парсер журналов БД и успешно передал в буфер, а также какую информацию Загрузчик передал в приемник и получил подтверждение о коммите. Кроме того, в БД на сервере-приемнике создается дополнительная таблица для хранения контрольной информации для восстановления. 18. Что означает Q4.2023 Q2.2024 в roadmap решения — это дата? Да, так был обозначен номер квартала (Q4.2023 – четвертый квартал 2023 года). Расстановка приоритетов в roadmap может быть предметом обсуждения. Пожалуйста, свяжитесь с представителями DIS Group, если вы заинтересованы в использовании решения Датафлот Репликация и, при этом, особенности деятельности вашей организации требуют повышение приоритета для какой-то позиции из roadmap или вы заинтересованы в добавлении новых возможностей не указанных в roadmap. 19. Есть ли возможность получать события было-стало? Да возможность получения данных “до” и “после” изменения, возможность использования этой информации в трансформациях при обработке данных, а также ведение соответствующих таблиц аудита поддерживается. 20. Тонкий/толстый клиент отличия и возможности? “Толстый” клиент реализован на Java. “Тонкий” клиент находится в стадии реализации, будет представлять собой web-приложение и использовать REST API службы управления Датафлот. Планируется постепенный перевод основных функций “толстого” клиента в новый “тонкий”. 21. Есть ли возможность захвата на standby базах? Есть ли возможность переключения репликации с мастера на standby в случае failover? Да, есть возможность работы с Oracle standby (read only или логическим). Планируется реализация работы со standby Postgres. Возможность переключения с мастера на standby в случае failover есть, соответствующие настройки приводятся в документации. 22. Применение изменений идет в один поток или параллельно? Поддерживается многопоточная загрузка изменений в приемник, соответствующие настройки выполняются в панели управления решения. 23. Есть ли возможность захвата с read only standbay. Да, есть возможность работы с Oracle standby (read only или логическим). Планируется реализация работы со standby Postgres. При работе c read-only standby необходимые добавления в supplemental log производиться на primary. 24. Есть ли тесты производительности по сравнению с Oracle GG? Тесты в процессе, ожидаем первых результатов в ближайшее время. 25. Кем был разработан интерфейс? Интерфейс разработан разработчиками компании Датафлот. 26. Есть ли возможность реплицировать одни и те же данные в разные приемники? Да, такая возможность есть. В данный момент внутри одного проекта в разные приемники одного типа (если нужно в приемники разных типов, то нужно будет создать несколько проектов). В roadmap уже запланированы доработки по использованию в одном проекте приемников разных типов. 27. Возможна ли фильтрация/обогащение данных как в Oracle GG? Да, фильтрация и возможности трансформаций поддерживаются.

Качество данных: требования центрального банка

10 ноября 2023

Вопрос качества данных чрезвычайно важен для банков и финансовых организаций, поэтому им озаботились на государственном уровне. Данные служат основой для принятия управленческих решений, следовательно, важна их точность, доступность, достоверность, актуальность, целостность. Совокупность оценок перечисленных и других показателей демонстрирует качество данных и их соответствие обязательным и специальным требованиям, которые определяет государство.

Требования к качеству данных

Банк России обозначил требования к качеству данных в рамках Положения Банка России от 06.08.2015 г. №483-П «О порядке расчета величины кредитного риска на основе внутренних рейтингов» и Положения Банка России от 08.04.2020 г. №716-П «О требованиях к системе управления операционным риском в кредитной организации и банковской группе». В Положении №716-П перечислены требования к управлению модельным риском, обеспечению качества данных (КД) в информационных системах (ИС), методике и порядку обеспечения качества данных. В приложении 3 Положения Банка России №483-П перечислены требования к качеству данных, используемых банками для создания и применения моделей количественной оценки кредитного риска для расчета нормативов достаточности капитала. Согласно документу, ключевые характеристики качества данных:

точность и достоверность данных – отсутствие синтаксических и семантических ошибок в данных, их соответствие реальным и статистически наиболее вероятным значениям свойств, характеристик и параметров, зафиксированных в данных;
полнота данных – достаточность объема данных (количества хранящихся в ИС записей), глубины данных (периода данных, необходимого для создания и применения моделей оценки риска) и широты данных (охвата данными всех разрезов, свойств и характеристик объектов, к которым применяются модели оценки риска);
актуальность данных – обязательность фиксирования и использования для создания и применения моделей оценки риска данных на дату, требуемую для указанных моделей;
согласованность данных – взаимная непротиворечивость данных, хранящихся во всех внутренних ИС банка, в том числе обеспечивающих бухгалтерский учет, и во всех доступных банку внешних ИС и иных источниках, а также целостность соответствующих идентификационных ссылок в структурах баз данных;
доступность данных (для обработки) – возможность использования данных в существующей форме представления в моделях оценки риска;
контролируемость данных – возможность осуществления контроля качества и происхождения данных, в том числе посредством отражения в ИС источников данных, истории создания, изменения, преобразования, удаления, хранения и передачи данных;
восстанавливаемость данных – возможность сохранять установленный уровень функциональности и качества данных после их утраты, повреждения или изменения в результате сбоев или иных нарушений работы ИС, ошибок или иных непредусмотренных действий персонала.

Также в документе перечислены элементы методики обеспечения качества данных, которые включают:

классификатор возможных источников и причин образования некачественных данных в ИС; показатели (индикаторы) для оценки характеристик, разрабатываемые банком для различных функциональных областей бизнеса;
показатели (индикаторы) эффективности инструментов (методов, алгоритмов, средств) обеспечения КД, под которой понимается способность инструмента своевременно выявлять и/или устранять в данных ошибки, неточности и иные нарушения, негативно влияющие на результаты;
методы и алгоритмы расчета, правила измерения показателей, в т.ч. с использованием контрольных выборок данных;
критерии оценки КД и эффективности;
предельно допустимые значения показателей.

Согласно документу, порядок обеспечения качества данных предполагает проведение следующих процедур:

процедуры измерения показателей;
процедуры обоснования, утверждения и корректировки предельно допустимых значений показателей;
процедуры реагирования на нарушения установленных банком предельно допустимых значений показателей, установленных критериев оценки КД и эффективности;
процедуры, правила и периодичность контроля и формирования отчетов о КД и эффективности, соблюдении мер контроля;
процедуры исправления ошибок в данных и документирования внесенных изменений;
порядок взаимодействия по вопросам обеспечения КД (полномочия, ответственность, подотчетность и обеспечение ресурсами, в т.ч. определение должностных лиц, несущих персональную ответственность за обеспечение КД);
порядок и периодичность сверки данных с данными бухгалтерского учета;
порядок и периодичность проведения аудита КД и эффективности мер контроля КД.

Управление качеством данных в компании

Управление качеством данных в компании необходимо начинать с разработки методик и порядков обеспечения качества данных. Структура такой документации должна включать документы, содержащие положения корпоративной политики, положения частных политик, требования к процедурам, свидетельства выполненной деятельности (отчеты). Оценку существующего уровня качества данных и выстраивание процессов управления качеством следует начать с аудиторской проверки документации на соответствие требованиям, утверждения перечня лиц, ответственных за качество данных на административном и техническом уровнях и определения перечня существующих правил качества данных. Управление качеством данных состоит не только из разработки методик, порядков и составления документации, но и из внедрения программных решений, которые помогут обеспечить качество данных. Например, решения Data Governance включают в себя ведение единого реестра правил качества, наличие владельцев (ответственных лиц) правил качества, использование data lineage для соответствия требованиям по контролируемости, создание правил проверки и обеспечения качества данных по всем ранее приведенным характеристикам. Также важно провести учет существующих правил качества и поиск избыточности среди них и реализовать шаблоны правил для многократного использования без доработки (в том числе с применением бизнес-глоссария).

Решения по управлению качеством данных

Из-за геополитических событий, начавшихся в 2022 году, и ухода многих зарубежных компаний на российском ИТ-рынке сейчас не так много промышленных решений по управлению качеством данных. Часть этого ПО специализируется на определенных видах данных. Также все еще активно бизнес использует установленное зарубежное ПО, либо организации переходят к инструментам на основе решений класса ETL и к собственным разработкам для конкретных нужд компаний. Тем не менее в 2023 году расходы на импортозамещение ПО достигли 53% от общих инвестиций в ИТ, что способствует появлению и развитию отечественных продуктов, в том числе в сфере управления качеством данных. Соблюсти требования к качеству данных помогают продукты DIS Group. Плюс7 ФормИТ DQ обеспечивает соответствие требованиям регулятора к точности, достоверности, полноте, актуальности, доступности данных. Решение эффективно работает при наличии задач по обеспечению качества данных, мониторингу полноты и качества данных, выявлению дубликатов и обеспечению чистоты данных, стандартизации и консолидации данных. В результате использования Плюс7 ФормИТ DQ возрастает доверие к данным, предоставляемым бизнес-подразделениями, осуществляется проактивный мониторинг качества данных с оповещением владельцев данных в случае изменения уровня качества, а также проводится сквозной мониторинг качества данных в каждой точке их преобразования. Юниверс DG (Data Governance) позволяет соответствовать требованиям регулятора к согласованности данных, к процедурам согласования изменений требований к качеству, к определению ответственных лиц и к контролируемости данных. Решение помогает выстроить полный цикл управления данными в организации, в том числе: осуществлять ведение общей бизнес-терминологии, визуализацию потоков происхождения данных, мониторинг и поддержку целевого уровня качества данных, построение моделей и аналитики любой сложности, анализ отчетности и поиск ошибок. В проектах с Data Governance эффективно себя показал Юниверс DQ – программный компонент, трансформирующий входные данные в выходные. Он предоставляет возможность разработать и подключить сторонние функции, а также настраивать новые функции как композиции существующих функций. Решение помогает хранить и классифицировать найденные ошибки, фильтровать записи с ошибками в пользовательском интерфейсе, экспортировать обнаруженные ошибки с данными. Качество данных обеспечивается за счет нескольких фаз: фильтрация данных, их валидация, очистка и проверка согласованности, а также обогащение внутренними и внешними источниками.

Важность управления данными и их качеством

Управление данными является стратегической задачей органов власти и государственных организаций. Она напрямую связана с ускорением реализации социально значимых проектов, улучшением качества сервисов для населения, увеличением доли цифровых услуг и оценкой эффективности государственной деятельности. Работа с качеством данных важна в проектах при построении хранилищ и озер данных. Чтобы данные, которые попадают в эти структуры, в последующие отчетности и аналитику были качественными, приемлемого уровня согласно требованиям, которые выдвигает заказчик и госрегулятор. Второй вид проектов, где есть работа с качеством данных: управление нормативно-справочной информацией, ведение справочников, выявление дубликатов данных, приведение данных к необходимому виду для дальнейшего использования. Третий вид проектов – управление данными Data Governance, содержащие информацию о проверках качества, об уровне и показателях качества данных по тем метрикам, которые заказчик выбрал, чтобы понять, насколько можно и нужно использовать данные, получаемые пользователем при выгрузке информации или в отчетах. Сегодня вопрос управления данными и их качеством особо актуален потому, что усложнился слой систем (он содержит сотни новых программ, которые используются в различных направлениях деятельности органов власти и госорганизаций), более сложным стал слой данных и слой инфраструктуры (облачные технологии и интернет вещей кардинально изменили ИТ-архитектуру), при этом обеспечивать конфиденциальность и защищенность данных стало сложнее. Поэтому решения в сфере оценки и управления качеством данных так эффективны в работе бизнеса.

Как структурировать работу внутри компании, укрепить доверие клиентов, сэкономить бюджет

30 ноября 2023

Фундаментальным элементом для эффективного функционирования компании является управление мастер-данными. Оно помогает принимать более обоснованные решения, улучшать взаимодействие с клиентами и реализовывать инновационные проекты. Сегодня перед многими крупными компаниями стоит задача сформировать единое пространство для нормативно-справочной информации, чтобы улучшить процесс анализа информации по клиентам и решить проблему с дублированием и расхождением данных в различных системах. От решения этого вопроса также во многом зависит возможность контролировать исполнение задач, уровень обеспечения своевременного доступа к актуальным данным и их интеграция с другими системами. Такая задача встала и перед ГК «ПИК». И компания первой в строительной отрасли совместно с DIS Group начала внедрение решения по управлению мастер-данными. Как отметил директор дирекции по данным ГК «ПИК» Иван Ухин, строительство дома – достаточно сложная работа. Сначала нужно спроектировать объект. В результате получается цифровая 3D-модель дома. После этого в дело вступают сотрудники, которые занимаются определением количества материалов, прогнозированием затрат, выделением средств, финансовой аналитикой. Для наиболее корректной и быстрой работы необходимо, чтобы эти люди работали в едином пространстве. «Нам был необходим новый инструмент, который позволит вести учет нашей продукции с подробной детализацией, с разнообразными параметрами, характеристиками и потребностями для любого бизнеса. Мы долго выбирали, анализировали рынок, общались с консультантами, искали “best practices”. Собственно, “best practices” никаких не было. В итоге, поговорив с командой DIS Group, приняли решение попробовать реализовать проект по управлению мастер-данными», – поделился он. Одним из главных критериев при выборе решения для ГК «ПИК» был высокий уровень технологичности. «Совместно со специалистами DIS Group мы разработали уникальные шаблоны. В справочнике множество классификаций, детализаций: где-то 3 атрибута, где-то – 15, где-то – 50. Все они обусловлены логикой выбора того или иного продукта, который мы будем использовать или закупать для строительства. Условно, чтобы резиновые тапочки не лежали в классе для товаров из бетона. Порядка 170 000 позиций мы ввели методом ручного набора. К слову, эта работа еще ведется», – подчеркнул Иван Ухин. Чтобы в дальнейшем не проводить повторной нормализации, в ГК «ПИК» закрепили за кураторами ответственность по контролю за состоянием их направлений: на каждом маршруте присутствует сотрудник бизнеса, который точно знает, что лежит у него в классе, как и для чего это используется. По словам Ивана Ухина, внедрение решения по управлению данными также позволяет экономить бюджет. Если ранее из-за большой разнородности позиций могли возникать сложности с закупками, то теперь сотрудники имеют доступ к полному каталогу материалов, выбирают и закупают наиболее релевантные позиции. Так, при закупке ламината играет роль разница даже в 10-20 рублей, поскольку объем продукта может быть рассчитан на 10 000 квадратных метров. «В результате, автоматизируя все процессы, мы выведем нашу работу на новый уровень», – уверен Иван Ухин. Для выстраивания системы управления мастер-данными в ГК «ПИК» DIS Group помог внедрить решение от российского разработчика ПО «Юниверс Дата». Продукт Юниверс MDM позволяет сформировать и развивать единую систему управления ключевыми данными компании. Решение зарегистрировано в реестре отечественного ПО Минцифры РФ, совместимо с отечественными операционными системами и уже успешно внедрено в Департаменте информационных технологий города Москвы и таких компаниях, как РЖД и «Русгидро». Продукт также применяется в странах ближнего и дальнего зарубежья. «Качественное управление мастер-данными гарантирует единые и чёткие регламенты управления данными, их грамотное версионирование, централизацию и визуализацию связанных с этим процессов, управление качеством данных, поиск дубликатов и консолидацию информации, обеспечение безопасности данных. Качественное управление мастер-данными – это всегда чистота и порядок в документах. Когда есть порядок в отчетах и расчетах, тогда есть понимание того, как ты ведешь бизнес. Это важно не только для бизнеса, но и для конечного покупателя», – резюмировал генеральный директор DIS Group Павел Лихницкий. От того, насколько эффективно выстроена работа с данными, во многом зависит качество принимаемых на их основе дальнейших решений. ГК «ПИК» стала первой в России компанией, внедрившей совместно с DIS Group решение по управлению данными. По словам представителей компании, делать глобальные выводы можно будет спустя год. Однако уже видны первые результаты. «Сейчас процесс поиска или создания и публикации новой записи стал моментальным, ранее на это требовались сутки», – сказал Иван Ухин. Также включилась нормализация данных, процесс создания заявок адаптирован таким образом, чтобы было удобно загружать большие массивы данных в систему. Внедрение решения по управлению данными решает ключевые задачи, которые сегодня стоят перед компаниями в строительной отрасли: формирует единую стандартизацию представления данных, обеспечивает их сохранность и прозрачность.

Что такое интеграция данных?

19 октября 2023

По итогам первой половины 2023 года расходы бизнеса и государственного сектора на импортозамещение в области ПО достигли 53% от общих инвестиций в сфере ИТ. Растущий интерес к российскому ПО привел к наращиванию продуктовой линейки, в том числе в области интеграции данных. На сегодняшний день инструменты по интеграции данных (особенно российские) все активнее используются компаниями.

Определение интеграции данных

Интеграция данных – это процесс перемещения и трансформации данных из источников в приемники. Цели интеграции могут быть разными: необходимость построения отчетности, проведение аналитической работы, синхронизация информационных систем между собой, соответствие требованиям регуляторов и так далее. Как правило для реализации любой из перечисленный целей необходимо воспользоваться данными из нескольких систем, связать данные между собой, обработать – это и называется интеграцией данных. Чаще всего к интеграции прибегают, чтобы унифицировать процессы, которые по-разному ведутся во многих организациях. Поэтому она становится одной из основных задач для компании, которая вынуждена работать с большим количеством разных данных во многих системах. По этой причине стали появляться промышленные инструменты ETL, в основе работы которых обращение к источникам и приемникам данных, а также трансформация данных. Это необходимо для обеспечения единого подхода в решении любых интеграционных задач, связанных с перемещением и обработкой больших объемов данных.

Методы интеграции данных

Есть три основных вида интеграции данных.

Первый вид связан с интеграцией приложений: это решения, которые включают в себя разные очереди сообщений (MQ), необходимые для онлайн-синхронизации приложений с гарантией доставки данных. Они работают на транзакционном уровне.
Второй вид – интеграция данных с помощью ETL-технологий, которые работают офлайн без гарантии доставки, но с возможностью обрабатывать большие объемы данных любой сложности из разных источников.
Третий вид – федерация данных (интеграция информации). Это одна из возможных форм организации данных, предусматривающая единообразный доступ к ним. В основном этот вид интеграции используется в BI-инструментах, чтобы сделать представление данных визуальным.

Эти три технологии частично пересекаются по функционалу друг с другом, но не являются конкурирующими, так как решают разные задачи, поэтому эффективная интеграция данных предполагает использование в правильном сочетании всех трех технологий, а не одной, что является частой ошибкой многих компаний. Для интеграции данных широко используются средства ETL и ELT. Их отличие в том, что данные могут двигаться по схеме ETL (Extract, Transform, Load; извлечение → преобразование → загрузка) или по схеме ELT (Extract, Load, Transform; извлечение → загрузка → преобразование). В случае с ETL происходит извлечение данных из одного или нескольких источников, преобразование этих данных, в том числе их обобщение (агрегирование) и очистка, и загрузка данных в приемник. При работе с большими объемами быстро поступающих данных и при ELT этот набор операций может быть дополнен группировкой или разгруппировкой данных, нормализацией или квантованием данных и другими операциями.

Преимущества

Из-за того, что запросы в работе могут быть сложными, не оптимальными с точки зрения нагрузки на источники и приемники или могут требовать промежуточного хранения данных для консолидации, компании используют ETL-решения. Они дают возможность визуально указать желаемую логику перемещения данных и их трансформацию, процессы, которые в компании необходимо осуществить, и провести онлайн-мониторинг. Также инструменты по интеграции данных эффективны в решении задач репликации данных и создания копий, синхронизации данных, реконсиляции данных (сверка). Таким образом, решения по интеграции данных:

Повышают эффективность принятых решений. Интеграция данных позволяет компаниям получать более полную и точную информацию о своей деятельности, что помогает принимать обоснованные и эффективные управленческие решения;
Увеличивают производительность. Интеграция данных позволяет автоматизировать многие процессы, уменьшая время, затрачиваемое на ручной ввод и обработку данных;
Снижают риски ошибок при обработке данных и сокращают вероятность потери данных;
Улучшают качество данных. Решения позволяют объединять данные из разных источников, тем самым повышая их качество и уменьшая вероятность ошибок;
Увеличивают конкурентоспособность бизнеса. Интеграция данных позволяет компаниям быстрее и эффективнее реагировать на изменения в рыночной ситуации;
Увеличивают эффективность бизнес-процессов. Интеграция данных позволяет улучшить координацию и синхронизацию бизнес-процессов, что увеличивает эффективность работы компании в целом;
Улучшают клиентский опыт. Благодаря интеграции данных стало возможно получать более полную информацию о клиентах, что позволяет улучшить качество обслуживания и уровень удовлетворенности клиентов;
Сокращают время на подготовку отчетности. Интеграция позволяет автоматизировать процесс сбора и анализа информации и сократить время на подготовку отчетности.

Средства интеграции данных

Средства интеграции данных создают и автоматизируют процессы обработки данных. Одним из примеров таких ETL-решений является «Плюс7 ФормИТ». «Плюс7 ФормИТ» – это зарегистрированное российское решение в реестре Минцифры Российской Федерации, которое поддерживает работу с российскими операционными системами и российскими СУБД. «Плюс7 ФормИТ» дает возможность строить хранилища данных, озера данных, фабрики данных, позволяет создавать единые информационные зоны, с помощью которых строится последующая аналитическая работа, формируется отчетность и принимаются управленческие решения. ETL-инструменты включают в себя средства для извлечения данных из систем-источников, их преобразования и доставки до приемников. Поэтому практически нет ограничений в типах проектов, в которых можно использовать «Плюс7 ФормИТ». Оно дает возможность получить доступ к любому из видов источников данных: это могут быть самые обычные системы на основе реляционных и нереляционных баз данных, файлы, сервисы, сложные объектные системы (в том числе российские). Данное ETL-решение имеет средства визуальной разработки, то есть фактически можно нарисовать логику от источников до приемников данных с тем набором трансформаций, которые необходимо сделать. И эта визуальность дает возможность быстро понять: если была совершена ошибка, то где именно, а также в короткий срок передать работу по интеграции данных другому сотруднику при необходимости. Еще одна важная особенность решения – онлайн-мониторинг всех важных процессов. Иногда могут возникать задачи, связанные с онлайн-обработкой. Для этих целей есть пакет для работы в режиме реального времени. Он позволяет использовать работу с веб-сервисами, работать с шинами данных и получать данные из реляционных баз. Всё вышеперечисленное дает решению следующие преимущества:

Высокая производительность;
Мощный механизм интеграции данных;
Выгрузка данных из любых источников;
Обработка любых типов данных;
Высокая скорость разработки интеграционных процессов;
Низкая стоимость технической поддержки;
Формирование документов по требованию.

Примеры использования

Инструменты ETL широко используются компаниями в сфере крупной промышленности, финансовой, телекоммуникационной и в других областях бизнеса. Пример использования решений по интеграции данных в сфере транспорта – АО «ФГК». Являясь одним из крупнейших грузовых железнодорожных операторов в России, компания оказывает полный спектр услуг по перевозкам грузов железнодорожным транспортом. Организации потребовалось увеличить прибыль от перевозок с помощью системы управления вагонами в режиме реального времени. В итоге для логистики вагонопотока использовали специальное решение: вычислительное ядро, реализующее разные математические модели для формирования оптимального набора перевозок. Как результат, операционная эффективность многих отделов повысилась, была сформирована логистика в режиме реального времени. Это позволило организации оперативно управлять своими активами и извлекать больше прибыли. В банковской сфере также широко используется интеграция данных. Московский кредитный банк прибегнул к интеграции, чтобы получать актуальные данные по активам, пассивам и нормативам для бизнеса, а также чтобы в процессе импортозамещения показатели SLA и качества не снизились. Для этого банк использовал ETL-решение «Плюс7 ФормИТ», которое обеспечило оптимальное наполнение корпоративного хранилища данных. Это сделало возможным быстрое и точное построение аналитической и управленческой отчетности для различных подразделений компании, позволило заместить иностранное ETL-решение отечественным аналогом без потери эффективности и нарушения бизнес-процессов, создало бесперебойную поставку качественных, актуальных и достоверных данных для принятия управленческих решений. В результате SLA по поставке данных выполняется в срок, перевод загрузки критичных данных осуществляется один раз в час. За короткий срок была подготовлена и начата миграция на отечественную ETL-платформу без потери операционной эффективности. Решения по интеграции данных позволяют максимально автоматизировать работу разработчика и дать ему возможность быстро и эффективно, независимо от того, что за источники и приемники используются, делать логическую настройку перемещения данных из одной системы в другую и определять, как они будут преобразовываться и как будет происходить мониторинг. Таким образом, интеграция данных позволяет компании избавить себя от многих проблем.

Управление знаниями: преимущества и инструменты

26 сентября 2023

Олег Гиацинтов

Технический директор DIS Group

Что такое управление знаниями?

Управление знаниями в компании предполагает не только хранение информации, но и возможность разрабатывать единую структуру для статей с похожим наполнением, быстро вносить изменения в ранее созданную структуру, настраивать быстрые ответы на конкретные вопросы клиентов, анализировать все действия, совершаемые конечными пользователями в системе, в том числе, действия над контентом: какие запросы вводят пользователи, какие из них находят отклик, какие отзывы пишут работники к статьям, – и на основе этого принимать управленческие решения или решения по улучшению качества контента.

Типы знаний

Корпоративные знания включают в себя информацию о бизнес-процессах компании (акты, инструкции, регламенты, справочники, задачи, знания сотрудников), о корпоративной культуре (знания стандартов поведения с клиентами и персоналом), о внешней среде (сведения о рынке, потребителях, конкурентах). Также знания можно разделить на формализованные (когда информация зафиксирована в документах) и неформализованные (когда сведениями владеют конкретные сотрудники и они никак не зафиксированы документально). Типы корпоративной информации разделяются в зависимости от источника данных. Существуют внутренние источники (информация, которая хранится на серверах компании) и внешние (данные от сторонних экспертов, консалтинговых фирм, из информационно-правовых систем). При внедрении стратегии по управлению знаниями все корпоративные знания и их источники анализируются:

какие источники знаний есть в организации и можно ли им доверять; кто является пользователем знаний и владельцем знаний, кто отвечает за передачу знаний пользователям;
какие знания есть в организации, как они классифицируются, все ли знания формализованы или могут быть формализованы;
каким образом сейчас создаются знания в организации, как они транслируются пользователям; на сколько имеющиеся знания качественные и актуальные;
какие тематики знаний есть, достаточно ли имеющихся знаний, какие знания наиболее ценные; в каком виде знания доносятся конечным пользователям и т.д.

Этапы внедрения стратегии управления знаниями предполагают описание по тем же характеристикам, но с поправкой на будущее, то есть «какими знания должны быть», чтобы появилась возможность реализовать все поставленные перед организацией цели и задачи. Затем происходит сравнительный анализ характеристик, описывающих текущее состояние знаний, и характеристик, описывающих, какими они должны быть. Выявленные несоответствия ложатся в основу будущего плана по организации управления корпоративными знаниями.

Зачем нужно управление знаниями в компании

В том или ином виде функция управления знаниями присутствует в каждой организации. Практически любому сотруднику нужен быстрый и удобный доступ к корпоративным знаниям, чтобы качественно выполнять свои обязанности. Нужны могут быть совершенно разные сведения: информация о маркетинговых акциях, описания товаров и технологии, услуг компании, корпоративные новости, тарифные сетки и многое другое. И если раньше такие сведения в первую очередь играли большую роль для тех работников, кто занимается клиентским сервисом (например, операторов колл-центров, сотрудников технической поддержки), сейчас ситуация изменилась. Актуальные и точные знания важны и для работника производства (чтобы узнать оптимальный способ починки оборудования), и для ИТ-специалиста (чтобы переиспользовать опыт коллег), и для менеджера по продажам, и для маркетолога, и для любого другого специалиста. К тому же не всегда знания сотрудников формализованы, хотя и они имеют особую ценность для компании. Если не консолидировать их с самого начала, восстановление в будущем отнимет много сил и времени, при этом есть риски не восстановить знания в полном объеме и в хорошем качестве. Поэтому важно как можно раньше определить одним из направлений развития бизнеса – выделение в отдельное направление корпоративной функции по управлению знаниями

Система управления знаниями в организации

Если маленькая компания использует платформу, которая позволяет накапливать знания, но не дает возможности управлять ими, то такая платформа считается базой знаний. На определенном этапе развития компании работы с такой базой знаний становится недостаточно, и бизнес обращается к более сложным платформам с большим набором функций – системе управления знаниями (СУЗ). Это происходит, когда:

в большой компании несколько баз знаний, их администрируют разные работники внутри подразделений, а базы знаний не интегрированы между собой;
для разных каналов обслуживания клиентов используются различные источники знаний, что приводит к ошибкам и предоставлению некорректной информации клиентам;
количество статей в текущей базе знаний более 500 шт., также наблюдается наличие дублирующейся информации;
появилась потребность в масштабировании знаний на новые подразделения;
время на подготовку и обучение нового работника превышает целевое значение в 2 и более раз; не выполняются ключевые KPI подразделений;
в предложенных материалах много ошибок, неактуальной информации, есть противоречивые данные, знания изложены сложным языком;
появилась потребность в функциях, которых нет в текущей базе знаний, и т. д.

Если контент не структурирован, компании сложно следить за его актуальностью, стандартизацией внешнего вида и наполнением статей, не просто искать информацию. Более того, такой контент невозможно использовать при интеграции с чат-ботом или при внедрении на сайте портала самообслуживания, который берет информацию для ответов на вопросы клиентов из той же СУЗ, что и любой другой сотрудник вашей компании. Для решения этого вопроса без эффективно работающей системы управления знаниями приходится использовать дополнительные ресурсы: технические, человеческие, временные и т.д. Чтобы решить вышеописанные проблемы и иметь возможность легко управлять ролевой моделью и доступами, интегрировать СУЗ с другими системами, быстро искать информацию, сравнивать статьи с похожим контентом между собой, система должна обладать широким набором функций по структурированию и шаблонированию информации.

Преимущества системы управления знаниями

Эффективное использование системы управления знаниями способно повысить эффективность работы операторов, сократить количество неверных ответов и число печатных инструкций на 30%, сократить время ожидания клиентов на 15%, уменьшить время обучения новых специалистов на 25%, увеличить продажи новых услуг и сократить отток клиентской базы на 10%, повысить индекс лояльности клиентов на 20%. Интеграция СУЗ с другими системами позволяет автоматизировать обновление знаний и поддерживать их непротиворечивость в разных каналах, что также повышает эффективность работы специалистов. Например, многим организациям будет полезна интеграция СУЗ с CRM-системой. Такие системы сейчас широко применяются при выстраивании отношений с клиентами. Например, когда вы звоните в колл-центр, оператор может открыть CRM и увидеть всю историю ваших отношений с компанией, ваши покупки, заказы, ваши персональные данные и другие сведения. При интеграции СУЗ и CRM-системы становится возможным встроить строку поиска СУЗ или сформировать ссылки на конкретные статьи в СУЗ напрямую в CRM-системе. Это позволит сотрудникам, обслуживающим клиентов, искать нужные знания (например, о новых тарифах), не выходя из CRM. Это значительно упрощает и ускоряет процесс консультации и в колл-центрах, и в физических точках продаж. Продвинутые СУЗ умеют фильтровать контент при поиске на основании информации из CRM. Например, можно настроить фильтрацию по регионам. Если в колл-центр позвонил клиент из Москвы или Московской области, то чтобы его проконсультировать, оператор открывает его аккаунт в CRM. Клиент уточняет актуальные тарифы. Оператор вводит в поисковой строке СУЗ, которая интегрирована в CRM, «тарифы» и видит тарифы для Москвы. Когда в колл-центр звонит житель Санкт-Петербурга, тогда сотрудник открывает его аккаунт в CRM и в поиске легко находит тарифы именно для северной столицы. Не менее полезной может оказаться и интеграция системы управления знаниями с продуктовым каталогом компании. Она позволяет автоматически изменять информацию в СУЗ тогда, когда эта информация меняется в продуктовом каталоге. В целом можно провести интеграцию СУЗ с любой системой, где хранятся и постоянно обновляются полезные для сотрудников сведения. Кроме того, можно провести интеграцию СУЗ с чат-ботами и сайтом компании. Это поможет поддержать омниканальность коммуникации с клиентами и сократить время на обновление информации на разных ресурсах.

Основные инструменты корпоративной системы управления знаниями

Многие компании используют для управления знаниями ИТ-инструменты, которые совершенно для этого не подходят. Например, большой популярностью пользуются ИТ-решения, которые изначально предназначены для того, чтобы хранить информацию в одном месте. Среди них – Confluence, SharePoint, Bitrix, Wiki-системы. Каждое из этих решений изначально задумывалось как какой-то общий ресурс, в котором всю накопленную информацию из разных областей хранить будет удобнее, чем в простом файловом хранилище. Со временем у этих решений появились дополнительные функции. В частности, появилась возможность частично разграничивать доступ к информации для разных сотрудников. Один и тот же файл одновременно смогли редактировать несколько людей. Стал доступен и минимальный поиск по элементам контента, который хранится в системе. Все остальные функции, без которых сложно представить эффективное управление знаниями, приходится дописывать вручную или пользоваться схемой подключения с помощью дополнительных плагинов и интеграций. Такие системы для хранения информации можно использовать, если речь идет о знаниях небольшой организации или отдельного бизнес-подразделения, которое не связано с обслуживанием клиентов. Однако быстро искать нужную информацию в ней, конечно, не получится. Да и на большие объёмы сведений она тоже не рассчитана. Ещё один значительный минус такого инструмента в том, что у него может не быть возможности определить владельца данных, которым может выступать конкретный работник компании или подразделение. А это важно, учитывая, что именно владелец определяет структуру и формат хранения знаний. Ситуация ухудшается, когда речь идёт о масштабировании проекта управления знаниями. Вас будут ждать очень неприятные сюрпризы с решением, которое рассчитано на то, чтобы хранить информацию. Особенно критичными эти неприятные сюрпризы будут для обслуживания клиентов. Одним из самых эффективных систем инструментов управлением знаниями считаются СУЗ. Например, российская система управления знаниями Плюс7 МаяК. Она нацелена на повышение эффективности внешних и внутрикорпоративных коммуникаций. В основе системы – постоянно обновляемая база информации и развитые интерфейсы интеграции с внешними системами, в том числе с CRM-системой, телефонией, корпоративным веб-сайтом, чат-ботом и другими системами. Решение позволяет оптимизировать работу контакт-центра, создать Бизнес-Википедию, чтобы повысить внутреннюю эффективность или собрать Google-like справочник для работников продаж. Плюс7 МаяК создает быстрый омниканальный доступ к релевантной информации, обеспечивая тем самым повышение эффективности внешних коммуникаций, сокращает время на поиск информации, оптимизирует внутренние процессы в компании, улучшает клиентский опыт, повышая лояльность аудитории. Такая простая и понятная в использовании система ускоряет обучение новых сотрудников.

Решение Плюс7 МаяК

Узнать подробности и запросить демо

Примеры

За рубежом СУЗ уже давно широко распространены. В России бум популярности таких решений только начинается. Среди лидеров-первопроходцев – ВТБ, Tele2, «Ростелеком», «Газпром нефть» и другие. Во многих организациях СУЗ уже позволила добиться значительных успехов. Банк ВТБ внедрил систему управления знаниями «Бизнес-Википедия» для всех розничных отделений и контакт-центров банка. Она включает в себя корпоративную информацию из существующих баз знаний для быстрого поиска и навигации. Знания были интегрированы из базы знаний для ТП, СИС ДКО (Департамент клиентского обслуживания), справочник бэк-офиса. Такая СУЗ была интегрирована с внешними системами для дополнительного функционала. Например, интеграция с сервисом «Яндекс.Карты» позволила сотрудникам банка видеть местоположение любого отделения. Интеграция с системой управления очередью – текущую загруженность отделений. С Mail Exchange Server и SMS-шлюзом – делать рассылку сообщений. В ходе проекта в банке также ввели ролевую модель работы с системой управления знаниями. Теперь доступ к той или иной информации сотрудники получают исходя из своей роли. Виды ролей: пользователи, редакторы содержимого, контент-менеджеры и прикладные администраторы. Как результат, СУЗ дала возможность структурировать актуальные данные и обеспечить единый подход к управлению информацией. Теперь сотрудникам необходимо менее 2-3 секунд для поиска информации по продуктам, акциям, картам, кредитам, вкладам и другое. Это привело к сокращению времени консультации в офисах и колл-центрах, что отразилось на показателях лояльности клиентов. Сейчас «Бизнес-Википедией» пользуется 2 тысячи операторов колл-центра и 30 тысяч сотрудников розничного бизнеса. Правильно структурированные знания, информация и данные в СУЗ, позволяют получить контент, в котором легко ориентироваться, который легко обрабатывать, в который можно массово вносить изменения, и поиск в котором будет осуществляться не только по заголовку статьи, а по всем ее элементам. Все это ускоряет работу сотрудников компании, улучшает клиентский опыт и увеличивает продажи.

Миграция данных — что это и как сделать правильно?

Олег Гиацинтов

Зачем нужна миграция данных?

Виды миграции данных

Популярные технологии для миграции данных

Подробнее про Плюс7 ФормИТ

Первый этап миграции данных

Второй этап миграции данных

Третий этап миграции данных

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Что такое data catalog и для чего он нужен?

Олег Гиацинтов

Что такое Data Catalog?

Функции Data Catalog

Как использовать Data Catalog?

Узнать подробности про решение класса Data Governance

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Что такое MDM-системы и мастер-данные?

Олег Гиацинтов

Что такое мастер-данные?

Инструменты MDM

Big Data и машинное обучение для MDM

Актуальность внедрения MDM-систем

Выбор MDM-решений

Внедрение MDM-систем

Управление мастер-данными

Узнать подробности про решение и запросить демо

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Что такое управление данными (Data Management)?

Олег Гиацинтов

Определение понятия «Управление данными»

Системы управления данными

Управление большими данными

Трудности с управлением данными

Принципы управления данными

Рекомендации по управлению данными

Продукты, связанные с управлением данными

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Вопросы и ответы по решению «Датафлот Репликация», часть 2

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Вопросы и ответы по решению «Датафлот Репликация», часть 1

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Качество данных: требования центрального банка

Требования к качеству данных

Управление качеством данных в компании

Решения по управлению качеством данных

Важность управления данными и их качеством

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Как структурировать работу внутри компании, укрепить доверие клиентов, сэкономить бюджет

Рекомендуем также

Юниверс DG версия 2.15

Проект РСХБ по внедрению CDC-решения стал лучшим на конкурсе «Проект года» от Global CIO

Проекты внедрения решений DIS Group в ВТБ и РСХБ стали победителями конкурса «Проект года» Global CIO!

Что такое интеграция данных?

Определение интеграции данных

Методы интеграции данных

Преимущества

Средства интеграции данных

Примеры использования