Top.Mail.Ru

Качество данных: критерии оценки

1. Что такое Data Quality

2. Управление качеством данных

3. Показатели качества данных

4. Данные с ошибками

Что такое Data Quality?

При работе с корпоративными данными важна их точность, непротиворечивость, доступность, достоверность, актуальность, целостность, измеримость, управляемость, релевантность. Совокупность оценок перечисленных показателей демонстрирует качество данных (Data Quality). Эта характеристика обозначает пригодность данных к обработке и анализу, их соответствие обязательным и специальным требованиям. На пригодность данных для работы влияет сфера бизнеса или отдела, который с ними работает, а также критерии оценки. Одни и те же данные для финансового отдела могут быть пригодны для работы, а для аналитиков – нет.

Анализ качества данных и работа с ним важна в проектах при построении хранилищ и озер данных. Чтобы данные, которые попадают в эти структуры, в последующие отчетности и аналитику данных были качественными, приемлемого уровня согласно требованиям, которые выдвигает заказчик. Это первая и наиболее частая задача при построении интеграционных и миграционных проектов. Также при перемещении систем важно восстановление качества данных до уровня требуемого другой системой. 

Второй вид проектов, где есть работа с качеством данных: управление нормативно-справочной информацией, ведение справочников, выявление дубликатов данных, приведение данных к необходимому виду для дальнейшего использования. Например, приведение адресов в стандартизированный вид для сегментации данных. 

Третий вид проектов – управление данными Data Governance, содержащее информацию о проверках качества, об уровне и показателях качества данных по тем метрикам, которые заказчик выбрал, чтобы понять, насколько можно и нужно использовать данные, получаемые пользователем при выгрузке информации или в отчетах. В таких проектах вопросы восстановления решаются отдельно в зависимости от того, что необходимо пользователю.

Вопросы качества важны и в процессах защиты данных. Например, при обезличивании тестовых сред.

Управление качеством данных

Качество данных тесно связано с продуктами, которые обеспечивают проверку и приведение качества в необходимый вид, согласно выдвигаемым требованиям со стороны владельцев данных. Поэтому инструменты, направленные на работу с качеством данных, должны содержать в себе набор характеристик и функций, которые не зависят от типа данных (важна возможность работы с данными любого формата) и имеют широкие возможности. 

В первую очередь функции должны включать возможность разного рода проверок качества данных. Унифицированный формат стандартных проверок с техническими метриками – профилирование (первоначальная оценка данных, чтобы понять их текущее состояние). Оно включает в себя построение профиля данных, которое позволяет определить, что представляют данные с точки зрения технического заполнения, какого они формата, их максимальные и минимальные значения, полноту данных, соответствие требованиям по актуальности, распределение по основным профилям.

Вторая функция – проверка качества данных, согласно требованиям, выдвигаемым бизнесом. Например, попадают ли данные в нужный набор условий согласно бизнес-процессам. Так, для нефтегазовой отрасли актуален показатель условий погружения насоса в слой нефти и т.п.

Третья функция связана с возможностью восстановления качества данных и механизмами обогащения данных, их доставки из других систем и источников, стандартизации данных, то есть их приведение к нужному виду по тому, как данные стоят внутри поля (например, адрес, номер телефона, e-mail).

Четвертая функция – наличие системы отчетности, которая показывает текущий уровень качества данных, изменение уровня качества и те наборы данных, которые не соответствуют нужным параметрам с уведомлением, что качество изменилось с указанием сути проблемы.  

Широкий функционал по управлению качеством данных есть у решения ФормИТ DQ. Оно решает следующие задачи: обеспечение качества данных, мониторинг полноты и качества данных, выявление дубликатов и обеспечение чистоты данных, стандартизация и консолидация данных. Решение обеспечивает качество данных путем создания проверок силами бизнес-пользователей, проверок и обеспечения качества данных на основе технических требований, единого реестра проверок качества данных, валидации данных при их передаче, выявления дубликатов и построения мастер-записей для всех видов данных, а также мониторинга проверок качества и профилирования данных на всех этапах. Как результат, растет доверие к данным, предоставляемым бизнес-подразделениями, осуществляется проактивный мониторинг качества данных с оповещением владельцев данных в случае изменения уровня качества, сквозной мониторинг качества данных в каждой точке их преобразования.

В управлении качеством может помочь и решение Юниверс DQ в проектах с Data Governance. Оно имеет программный компонент, трансформирующий входные данные в выходные, набор стандартных функций по очистке данных, возможность разработать и подключить сторонние функции, построить новые функции как композиции существующих функций. Решение помогает хранить и классифицировать найденные ошибки, фильтровать записи с ошибками в пользовательском интерфейсе, экспортировать обнаруженные ошибки с данными. Качество данных обеспечивается за счет нескольких фаз: фильтрация данных, их валидация, очистка и проверка согласованности, а также обогащение внутренними и внешними источниками.

Показатели качества данных

Метрики качества данных могут быть разнообразны. Есть методика оценки качества данных и метрики, которые определяются регулятором. К ним относятся:

  • полнота – содержат ли данные информацию, необходимую для конкретного бизнес-процесса;
  • точность – полностью ли соответствуют данные необходимым требованиям по значениям и заполнению;
  • актуальность данных, своевременность  – описываются ли данные события в требуемом временном интервале;
  • согласованность – не противоречат ли данные друг другу 
  • доступность – время и усилия, которые требуются для получения данных в определенном формате и др. 

Есть более детализированные метрики, которые могут понадобиться бизнес-пользователю. Например, валидность данных, когда при их перемещении они соответствуют данным источников, или возможность использования данных в том или ином диапазоне. Инструменты, которые отвечают за качество данных, должны уметь работать с проверками и требованиями по восстановлению данных. Не все можно восстановить и проверить с точки зрения качества данных, поэтому инструменты, которые есть на рынке, занимаются чаще всего строчными данными, числовыми, но не работают на уровне бинарных данных или не поддерживают возможность работы с большими объемами или бизнес-логикой.

Если важна метрика контролируемости данных (указание на то, что данные приходят из нужного источника), согласованность данных, соответствие хранимых данных в системе наименованиям, которые им присвоены, то используется Data Governance – платформа для управления корпоративными данными. Она позволяет быстро находить любые данные, выстраивать единую понятийную основу, обеспечивать быстрый поиск терминов, анализировать связи. Решение обеспечивает консолидацию знаний о данных, структурирует совместную работу с ними и облегчает понимание, как данные влияют на бизнес.

Данные с ошибками

Среди ошибок чаще всего встречается неполнота данных. В некоторых случаях в  зависимости от выдвигаемых заказчиком требований и матрицы критериев такие данные могут считаться качественными и использоваться в определенных сферах. Например, в банке при создании единого клиентского справочника заказчик поставил задачу, что данные должны содержать ФИО, дату и место рождения клиента. В ходе работы выяснилось, что место рождения указано только у 2% клиентов. Такие данные можно использовать только в ограниченном сегменте, а для составления справочника их недостаточно.

Среди ошибок не редко возникает недостоверность данных. Например, когда имеет место неверный тип данных (значения в определенном столбце должны иметь определенный тип данных), диапазон (временной, числовой и др.), неверный набор значений.

Иногда встречается несоответствие данных. Оно возникает, когда два значения в наборе данных противоречат друг другу.

При выявлении ошибок их можно исправить вручную, автоматически при помощи инструментов обеспечения качества данных, при обработке данных с помощью скриптов. Исправление данных включает в себя анализ причин ошибок (определяется источник ошибочных данных, причины возникновения ошибок, изолируются факторы, влияющие на эту проблему), парсинг и стандартизацию (сопоставление записей в базах данных с заданными паттернами, грамматикой и репрезентациями для выявления неверных значений), сопоставление данных (выявление одинаковых данных и их объединение), добавление новых данных и их мониторинг. Все это осуществляют разные решения и платформы после оценки качества данных и выявления ошибок. 

Низкокачественные данные препятствуют принятию эффективных бизнес-решений, проведению точных аналитических исследований, прогнозированию будущих процессов в бизнесе. Поэтому решения в сфере оценки и управления качеством данных так эффективны в работе бизнеса.

Автор: Олег Гиацинтов, технический директор DIS Group



Поделиться
{{ responsive_img( url='/../../static/upload/news/detail-image.jpg',lazy=true, img_attrs={ class: "img-fluid lazy" }, formats=['webp'] ) }}

Рассылка новостей

    Продолжая пользоваться сайтом, вы даёте Согласие на автоматический сбор и анализ ваших данных, необходимых для работы сайта и его улучшения, использование файлов cookie.