Управление качеством данных
Качество данных тесно связано с продуктами, которые обеспечивают проверку и приведение качества в необходимый вид, согласно выдвигаемым требованиям со стороны владельцев данных. Поэтому инструменты, направленные на работу с качеством данных, должны содержать в себе набор характеристик и функций, которые не зависят от типа данных (важна возможность работы с данными любого формата) и имеют широкие возможности.
В первую очередь функции должны включать возможность разного рода проверок качества данных. Унифицированный формат стандартных проверок с техническими метриками – профилирование (первоначальная оценка данных, чтобы понять их текущее состояние). Оно включает в себя построение профиля данных, которое позволяет определить, что представляют данные с точки зрения технического заполнения, какого они формата, их максимальные и минимальные значения, полноту данных, соответствие требованиям по актуальности, распределение по основным профилям.
Вторая функция – проверка качества данных, согласно требованиям, выдвигаемым бизнесом. Например, попадают ли данные в нужный набор условий согласно бизнес-процессам. Так, для нефтегазовой отрасли актуален показатель условий погружения насоса в слой нефти и т.п.
Третья функция связана с возможностью восстановления качества данных и механизмами обогащения данных, их доставки из других систем и источников, стандартизации данных, то есть их приведение к нужному виду по тому, как данные стоят внутри поля (например, адрес, номер телефона, e-mail).
Четвертая функция – наличие системы отчетности, которая показывает текущий уровень качества данных, изменение уровня качества и те наборы данных, которые не соответствуют нужным параметрам с уведомлением, что качество изменилось с указанием сути проблемы.
Широкий функционал по управлению качеством данных есть у решения ФормИТ DQ. Оно решает следующие задачи: обеспечение качества данных, мониторинг полноты и качества данных, выявление дубликатов и обеспечение чистоты данных, стандартизация и консолидация данных. Решение обеспечивает качество данных путем создания проверок силами бизнес-пользователей, проверок и обеспечения качества данных на основе технических требований, единого реестра проверок качества данных, валидации данных при их передаче, выявления дубликатов и построения мастер-записей для всех видов данных, а также мониторинга проверок качества и профилирования данных на всех этапах. Как результат, растет доверие к данным, предоставляемым бизнес-подразделениями, осуществляется проактивный мониторинг качества данных с оповещением владельцев данных в случае изменения уровня качества, сквозной мониторинг качества данных в каждой точке их преобразования.
В управлении качеством может помочь и решение Юниверс DQ в проектах с Data Governance. Оно имеет программный компонент, трансформирующий входные данные в выходные, набор стандартных функций по очистке данных, возможность разработать и подключить сторонние функции, построить новые функции как композиции существующих функций. Решение помогает хранить и классифицировать найденные ошибки, фильтровать записи с ошибками в пользовательском интерфейсе, экспортировать обнаруженные ошибки с данными. Качество данных обеспечивается за счет нескольких фаз: фильтрация данных, их валидация, очистка и проверка согласованности, а также обогащение внутренними и внешними источниками.