Проверка оценки качества данных ресурсов данных
После создания правил качества данных и выполнения проверки качества данных ресурсы данных получают оценку качества данных на основе результатов ваших правил. В этой статье описывается, как вычисляются оценки, чтобы получить более глубокое представление о результатах качества данных, а также разработать элементы действий для повышения целостности данных.
Общие сведения о оценках качества данных
Цель правил качества данных — предоставить описание состояния данных. В частности, он показывает, насколько далеко данные от идеального состояния, описанного правилами. Каждое правило при выполнении создает оценку, которая описывает, насколько близко данные к нужному состоянию. Большинство правил очень прямолинейно; они делят общее количество строк, прошедших оценку, на общее количество строк для получения оценки.
Формула, используемая для вычисления оценки качества данных для правила с данными в столбце:
[(total number of passed records)/(passed records + failed records + miscast records + empty records + ignored records)]
- Numerator = количество переданных записей
- Знаменатель = общее количество записей (число переданных записей + количество неудачных записей + количество записей неправильной рассылки + число пустых + количество пропущенных записей)
- Передано — количество записей, которые передали примененное правило.
- Неоценимые — столбцы, необходимые для оценки этого правила, не являются бесценными
- Сбой — количество записей, в которых не удалось применить правило.
- Неправильное перечисление — тип данных ресурса и тип, который клиент перечислил его как несогласованный. Его нельзя преобразовать в выраженный тип.
- Пустой — пустые или пустые записи
- Игнорируется — строки не участвовали в оценке правила. Клиенты могут выражать строки, которые следует игнорировать. Например, игнорировать все строки с адресом электронной почты = "n/a" или игнорировать все строки, где departmentCode = "test" или "internal"
Качество данных Microsoft Purview затем дает представление о состоянии каждого столбца путем создания оценки столбца. Эта оценка представляет собой среднее значение всех оценок правил в этом столбце.
После вычисления оценок столбцов для расчета средней процентной оценки качества данных для продуктов данных и доменов управления используется следующая формула:
[(Percentage 1 + Percentage 2) / (Sample size 1 + Sample size 2)] x 100
(Оценка умножается на 100, чтобы сделать оценки более удобочитаемыми.)
Пример вычисления
Предположим, что в столбце нет правила "Пустые и пустые поля". Это означает, что для этого столбца допустимы значения NULL. Поэтому некоторые правила, например правило уникальных значений, в этом случае отфильтруют значения NULL.
Например, если ресурс содержит 10 000 строк в таблице, но 3000 имеют значение NULL, а 500 не уникальны, то оценка будет следующей: ((10000 - 3000 - 500)/(10000 - 3000) )* 100 = 93
Пустые строки игнорируются при оценке данных и определении оценки.
Оценки конкретных правил
Для пользовательских правил существует аналогичная возможность, аналогичная для правила уникальных значений, но в этом случае фильтр используется не по значениям NULL, а скорее к выражению фильтра.
Некоторые правила, такие как правило актуальности, либо проходят, либо завершаются ошибкой. Таким образом, их оценки будут либо 0, либо 100. Правило актуальности применяется на уровне ресурса данных, а не на уровне столбцов.
Сведения о правилах и журнал
Вы можете просмотреть сведения и журнал оценок правил, выбрав правило. Выбрав определенное имя правила и перейдя на вкладку журнал правил, вы увидите тенденцию различных запусков сканирования для конкретного правила.
Сведения о правиле содержат сведения о количестве переданных, неудачных и пропущенных строк для различных запусков для конкретного правила. В правилах, которые находятся в состоянии черновика (состояние OFF), оценка не будет влиять на глобальную оценку. Правила в состоянии черновика не будут выполняться вообще во время проверки качества и поэтому не будут иметь оценки.
Столбцы и правила имеют отношение "многие ко многим", одно и то же правило может применяться ко многим столбцам, а много правил — к одному и тому же столбцу. Вы можете просмотреть шаблон тренда для каждого правила, просмотрев строку Тренд в области Схема .
Тенденции оценки качества данных на уровне активов доступны для последних 50 запусков. Эта тенденция оценки качества помогает специалистам по качеству данных отслеживать тенденцию и колебания качества данных из месяца в месяц. Качество данных также может активировать оповещения для каждой проверки качества данных, если оценка качества не соответствует пороговой или бизнес-ожиданиям.
Глобальная оценка — это среднее значение для всех производственных правил, определенных для ресурса. Глобальная оценка на уровне активов также свертывается до уровня продукта данных и уровня домена управления. Глобальная оценка должна быть официальным определением состояния ресурса данных, продукта данных и области управления в контексте качества данных.
Для измерения качества данных создается сводный отчет. Этот отчет содержит оценку качества данных для каждого измерения качества данных. Глобальная оценка для домена управления также опубликована в этом отчете. Вы можете просмотреть оценку качества для каждого домена управления, продукта данных и ресурса данных из этого отчета Power BI.
Примечание.
- Измерения качества данных — это распознаваемые термины, используемые специалистами по обработке данных для описания признаков данных, которые могут быть измерены или оценены по определенным стандартам для количественной оценки уровня качества данных, используемых для ведения бизнеса.
- Оценка качества данных для ресурса — это среднее арифметическое значение оценок правил, применяемых к его столбцам.
- Оценка качества данных для продукта данных — это среднее арифметическое значение оценки качества данных ресурсов данных, связанных с этим продуктом данных.
- Оценка качества данных для домена управления — это среднее арифметическое значение оценки качества данных продуктов данных, связанных с этим доменом.