Настройка и запуск проверки качества данных
Проверки качества данных проверяют ресурсы данных на основе применяемых правил качества данных и дают оценку. Эти оценки могут использоваться для оценки работоспособности данных и решения любых проблем, которые могут снизить качество данных.
Предварительные условия
- Чтобы выполнять и планировать проверки качества данных, пользователи должны быть в роли администратора качества данных.
- В настоящее время учетную запись Microsoft Purview можно настроить так, чтобы разрешить открытый доступ или управляемый доступ к виртуальной сети, чтобы можно было выполнять проверку качества данных.
Жизненный цикл качества данных
Проверка качества данных — это седьмой этап жизненного цикла качества данных для ресурса данных. Предыдущие шаги:
- Назначьте пользователям разрешения на управление качеством данных в Единый каталог для использования всех функций качества данных.
- Зарегистрируйте и проверьте источник данных в Схема данных Microsoft Purview.
- Добавление ресурса данных в продукт данных
- Настройте подключение к источнику данных, чтобы подготовить источник к оценке качества данных.
-
Настройте и запустите профилирование данных для ресурса в источнике данных.
- После завершения профилирования просмотрите результаты для каждого столбца в ресурсе данных, чтобы понять текущую структуру и состояние данных.
- Настройте правила качества данных на основе результатов профилирования и примените их к ресурсу данных.
Поддерживаемые многооблачные источники данных
- Azure Data Lake Storage (ADLS 2-го поколения)
- Типы файлов: Delta Parquet и Parquet
- База данных SQL Azure
- Пространство данных Fabric в OneLake включает в себя ярлыки и зеркальное отображение. Проверка качества данных поддерживается только для разностных таблиц Lakehouse и файлов Parquet.
- Зеркальное отображение пространства данных: CosmosDB, Snowflake, Azure SQL
- Краткое пространство данных: AWS S3, GCS, AdlsG2 и dataverse
- Azure Synapse бессерверное хранилище и хранилище данных
- Каталог Unity Azure Databricks
- Снежинка
- Google Big Query (частная предварительная версия)
Важно!
Качество данных для файла Parquet предназначено для поддержки:
- Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
Убедитесь, что у нас нет шаблонов {n} в структуре каталогов или вложенных каталогов. Вместо этого должно быть прямое полное доменное имя, приводящее к {SparkPartitions}. - Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet.
Ограничение: Он не предназначен для или не поддерживает N произвольных иерархий каталогов с файлами Parquet.
Мы советуем клиенту представить данные в (1) или (2) построенной структуре.
Поддерживаемые методы проверки подлинности
В настоящее время Microsoft Purview может выполнять только проверки качества данных, используя управляемое удостоверение в качестве параметра проверки подлинности. Службы data Quality работают в Apache Spark 3.4 и Delta Lake 2.4. Дополнительные сведения о поддерживаемых регионах см. в статье Общие сведения о качестве данных.
Важно!
Если схема обновляется в источнике данных, перед выполнением проверки качества данных необходимо повторно запустить проверку карты данных.
Запуск проверки качества данных
В Единый каталог Microsoft Purview выберите меню Управление работоспособностью и подменю Качество данных.
Выберите домен управления в списке.
Выберите продукт данных для оценки качества данных ресурсов данных , связанных с этим продуктом.
При выборе продукта данных вы перейдете на страницу Обзор качества данных. Вы можете просмотреть существующие правила качества данных и добавить новые правила, выбрав меню Правила на этой странице. Чтобы просмотреть схему ресурса данных, выберите меню Схема на этой странице.
Просмотрите правила, которые уже добавлены при проверке выбранных ресурсов, и включите или отключите их в столбце Состояние .
Запустите проверку качества, нажав кнопку Запустить проверку качества на странице обзора.
Пока выполняется проверка, вы можете отслеживать ход ее выполнения на странице мониторинга качества данных в домене управления.
Планирование проверок качества данных
Хотя проверку качества данных можно выполнять на нерегламентированной основе, нажав кнопку Запустить проверку качества , в рабочих сценариях, скорее всего, исходные данные постоянно обновляются, поэтому мы хотим убедиться, что мы регулярно отслеживаем качество данных, чтобы обнаружить любые проблемы. Чтобы мы могли управлять регулярно обновляющимися проверками качества, мы можем автоматизировать процесс сканирования.
В Единый каталог Microsoft Purview выберите меню Управление работоспособностью и подменю Качество данных.
Выберите домен управления в списке.
Нажмите кнопку Управление в правой части страницы и выберите Запланированные проверки.
Заполните форму на странице Создание запланированной проверки . Добавьте имя и описание источника, настроив расписание.
Нажмите Продолжить.
На вкладке Область выберите отдельный продукт и ресурсы данных или все продукты данных и ресурсы данных для всего домена управления.
Нажмите Продолжить.
Задайте расписание в соответствии с вашими предпочтениями и нажмите кнопку Продолжить.
На вкладке Рецензирование выберите Сохранить (или Сохранить и запустить для немедленного тестирования), чтобы завершить планирование проверки качества данных.
Запланированные проверки можно отслеживать на странице мониторинга задания качества данных на вкладке Сканирование .
Удаление предыдущих проверок качества данных
- В Единый каталог Microsoft Purview выберите меню Управление работоспособностью и подменю Качество данных.
- Выберите домен управления в списке.
- Нажмите кнопку с многоточием ('...') в верхней части страницы.
- Выберите Удалить данные о качестве данных , чтобы удалить журнал запусков качества данных.
Примечание.
Мы рекомендуем использовать это удаление только для тестовых запусков, ошибок качества данных или в случае удаления ресурса данных из продукта данных.
Если вы хотите удалить ресурс данных из продукта данных, если этот ресурс данных имеет оценку качества данных, сначала необходимо удалить оценку качества данных, а затем удалить ресурс данных из продукта данных.
Важно!
Разностный формат в основном автоматически определяется, если формат является стандартным и правильным в исходных системах. Чтобы проверить формат файла Parquet или айсберга для оценки качества данных, необходимо изменить тип ресурса данных на Parquet или айсберг. Как показано на снимке экрана ниже, измените тип ресурса данных по умолчанию *Parquet или другой поддерживаемый формат, если формат файла ресурса данных не является разностным. Это изменение необходимо внести перед настройкой задания проверки качества данных.
Связанное содержимое
- Качество данных для хранилища данных Fabric
- Качество данных для зеркальных источников данных Fabric
- Качество данных для быстрых источников данных Fabric
- Качество данных для Azure Synapse бессерверных хранилищ и хранилищ данных
- Качество данных для каталога Unity Azure Databricks
- Качество данных для источников данных Snowflake
- Качество данных для Google Big Query
Дальнейшие действия
- Мониторинг проверки качества данных
- Просмотрите результаты сканирования , чтобы оценить текущее качество данных продукта данных.
- Настройка оповещений для результатов проверки качества данных