Управление качеством данных для критически важных элементов данных (предварительная версия)
Критически важные элементы данных (CDE) представляют собой логическую группировку важных столбцов между таблицами в источниках данных, что позволяет стратегически сосредоточить усилия по управлению там, где вы будете иметь наибольший эффект.
Качество данных Microsoft Purview предлагает интегрированное решение для измерения качества критически важных элементов данных (CDEs), позволяющее организациям обеспечить соответствие этих ключевых элементов данных требуемым стандартам точности, полноты, согласованности и целостности.
Организации могут устанавливать определенные пороговые значения качества, которым cdes должны соответствовать для поддержания их качества. Эти пороговые значения применяются на уровне логического CDE, но просачиваться ко всем отдельным столбцам, составляющим CDE. Эти правила могут охватывать различные аспекты качества данных, включая проверку, очистку, стандартизацию и обогащение. Например, правила качества данных могут указывать, что адреса клиентов должны быть стандартизированы в определенном формате или что идентификаторы сотрудников должны соответствовать определенной схеме.
После применения правил качества данных к CDEs Качество данных Microsoft Purview систематически оценивает базовые физические элементы данных, чтобы оценить их соответствие этим правилам. Используя интегрированный подход Purview Data Quality, организации могут заблаговременно отслеживать качество критически важных элементов данных и управлять ими, гарантируя, что они остаются надежными, точными и подходящими для целей. Это не только улучшает процессы принятия решений, но и помогает снизить риски, связанные с ошибками или несоответствиями данных, что в конечном итоге приводит к улучшению бизнес-результатов.
Поддерживаемые типы ресурсов
- Azure Data Lake Storage (ADLS 2-го поколения)
- Типы файлов: Delta и Parquet
- База данных SQL Azure
- Пространство данных Fabric в OneLake включает в себя ярлыки и зеркальное отображение. Проверка качества данных поддерживается только для разностных таблиц Lakehouse и файлов Parquet.
- Зеркальное отображение пространства данных: CosmosDB, Snowflake, Azure SQL
- Краткое пространство данных: AWS S3, GCS, AdlsG2 и dataverse
- Azure Synapse бессерверное хранилище и хранилище данных
- Каталог Unity Azure Databricks
- Снежинка
- Google Big Query (частная предварительная версия)
Доступные правила качества данных для CDEs
Качество данных Microsoft Purview позволяет настроить приведенные ниже правила для CDEs. При выборе правила вы сможете ознакомиться с общими правилами качества данных для получения дополнительных сведений.
Правило | Определение |
---|---|
Уникальные значения | Подтверждает, что значения в столбце уникальны. |
Соответствие типов данных | Подтверждает, что значения в столбце соответствуют требованиям к типу данных. |
Пустые и пустые поля | Поиск пустых и пустых полей в столбце, где должны быть значения. |
Настройка качества данных для CDEs
Если вы еще этого не сделали, создайте критически важный элемент данных (CDE) и добавьте столбцы.
Откройте CDE, выполнив:
- Откройте Единый каталог Microsoft Purview и выберите раскрывающийся список Управление данными и подменю Домены управления.
- Выберите домен управления в списке.
- Выберите плитку Критически важные элементы данных .
- Выберите критически важный элемент данных из списка.
Перейдите на вкладку Качество данных в элементе критически важных данных.
Добавьте новое правило в элемент критических данных, выбрав Новое правило.
Выберите тип правила качества данных , который вы хотите использовать, и нажмите кнопку Далее.
Укажите сведения, необходимые для типа правила.
Укажите, нужно ли включить или включитьправило.
Нажмите Создать.
Выполнение правил качества данных для CDEs
При выполнении проверки качества данных для доступного ресурса данных, имеющего столбец, связанный с CDE, правила качества данных, настроенные для этого CDE, будут давать оценку.
Запланируйте или запустите проверку качества данных для ресурсов данных, связанных с CDE.
Отслеживайте ход выполнения задания проверки качества данных, гарантируя, что оно будет выполнено без ошибок или прерываний. Проверьте успешное применение правил качества данных из журнала snapshot.
Просмотрите результаты задания сканирования , чтобы оценить качество ресурса данных CDE на основе примененных правил.
Анализируйте результаты задания проверки качества данных, чтобы выявить проблемы, аномалии или области улучшения, связанные с ресурсом данных CDE. Это может включать очистку, стандартизацию или обогащение данных для улучшения их качества.