Качество данных с помощью Единый каталог Microsoft Purview
Качество данных в Единый каталог Microsoft Purview позволяет домену управления и владельцам данных оценивать и контролировать качество своей экосистемы данных, облегчая целенаправленные действия по улучшению. В современном ландшафте на основе ИИ надежность данных напрямую влияет на точность аналитических сведений и рекомендаций на основе ИИ. Без надежных данных существует риск подорвать доверие к системам ИИ и препятствовать их внедрению.
Низкое качество данных или несовместимые структуры данных могут препятствовать бизнес-процессам и возможностям принятия решений. Качество данных решает эти проблемы, предлагая пользователям возможность оценивать качество данных с помощью правил без кода или низкого уровня кода, включая встроенные правила (OOB) и правила, созданные ИИ. Эти правила применяются на уровне столбцов и агрегируются для предоставления оценок на уровнях ресурсов данных, продуктов данных и доменов управления, обеспечивая сквозную видимость качества данных в каждом домене.
Качество данных также включает возможности профилирования данных на основе ИИ, рекомендуя столбцы для профилирования и позволяя человеческому вмешательству уточнить эти рекомендации. Этот итеративный процесс не только повышает точность профилирования данных, но и способствует постоянному улучшению базовых моделей ИИ.
Применяя качество данных, организации могут эффективно измерять, отслеживать и повышать качество своих ресурсов данных, повышая надежность аналитических сведений на основе ИИ и повышая доверие к процессам принятия решений на основе ИИ.
Жизненный цикл качества данных
- Назначьте пользователям разрешения на управление качеством данных в Единый каталог для использования всех функций качества данных.
- Зарегистрируйте и проверьте источник данных в Схема данных Microsoft Purview.
- Добавление ресурса данных в продукт данных
- Настройте подключение к источнику данных, чтобы подготовить источник к оценке качества данных.
-
Настройте и запустите профилирование данных для ресурса в источнике данных.
- После завершения профилирования просмотрите результаты для каждого столбца в ресурсе данных, чтобы понять текущую структуру и состояние данных.
- Настройте правила качества данных на основе результатов профилирования и примените их к ресурсу данных.
- Настройте и запустите проверку качества данных в продукте данных, чтобы оценить качество всех поддерживаемых ресурсов в продукте данных.
- Просмотрите результаты сканирования , чтобы оценить текущее качество данных продукта данных.
- Периодически повторяйте шаги 5–8 в течение жизненного цикла ресурса данных, чтобы обеспечить его качество.
- Постоянный мониторинг качества данных
- Просмотрите действия по обеспечению качества данных для выявления и устранения проблем.
- Настройте уведомления о качестве данных , чтобы оповещать вас о проблемах с качеством.
Поддерживаемые регионы качества данных
Качество данных в настоящее время поддерживается в следующих регионах
Поддерживаемые многооблачные источники данных
- Azure Data Lake Storage (ADLS 2-го поколения)
- Типы файлов: Delta Parquet и Parquet
- База данных SQL Azure
- Пространство данных Fabric в OneLake, включая ярлыки и зеркальное отображение. Проверка качества данных поддерживается только для разностных таблиц Lakehouse и файлов Parquet.
- Зеркальное отображение пространства данных: Cosmos DB, Snowflake, Azure SQL
- Краткое пространство данных: AWS S3, GCS, AdlsG2 и dataverse
- Azure Synapse бессерверное хранилище и хранилище данных
- Каталог Unity Azure Databricks
- Снежинка
- Google Big Query (частная предварительная версия)
- Данные Iceberg в ADLS 2-го поколения, Microsoft Fabric Lakehouse, AWS S3 и GCP GCS
Важно!
Качество данных для файла Parquet предназначено для поддержки:
- Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
Убедитесь, что у нас нет шаблонов {n} в структуре каталогов или подкаталогов. Это должно быть прямое полное доменное имя, приводящее к {SparkPartitions}. - Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. Например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet. Ограничение: Он не предназначен для или не поддерживает N произвольных иерархий каталогов с файлами Parquet. Рекомендуется представить данные в (1) или (2) сконструированной структуре.
В настоящее время Microsoft Purview может выполнять только проверки качества данных, используя управляемое удостоверение в качестве параметра проверки подлинности. Службы качества данных работают в Apache Spark 3.4 и Delta Lake 2.4.
Функции качества данных
-
Конфигурация подключения к источнику данных
- Настройте подключение, чтобы разрешить приложению SaaS Purview DQ доступ на чтение данных для проверки качества и профилирования.
- MS Purview использует управляемое удостоверение в качестве варианта проверки подлинности
-
Профилирование данных
- Опыт профилирования данных с поддержкой ИИ
- Отраслевые стандартные статистические snapshot (распределение, минимум, максимум, стандартное отклонение, уникальность, полнота, дубликат, ...)
- Детализация мер профилирования на уровне столбцов.
-
Правила качества данных
- Готовые правила для измерения шести отраслевых стандартов Измерения качества данных (полнота, согласованность, соответствие, точность, свежесть и уникальность)
- Пользовательские функции создания правил включают количество нестандартных функций и значений выражений.
- Автоматически созданные правила с интегрированным интерфейсом ИИ
-
Проверка качества данных
- Выберите и назначьте правила столбцам для проверки качества данных.
- Применяйте правило актуальности данных на уровне сущности или таблицы, чтобы измерить соглашение об уровне обслуживания о свежести данных.
- Планирование задания проверки качества данных на период времени (ежечасно, ежедневно, еженедельно, ежемесячно и т. д.)
-
Мониторинг заданий качества данных
- Включение состояния задания качества данных мониторинга (активное, завершенное, неудачное и т. д.)
- Включите просмотр журнала проверки DQ.
-
Оценка качества данных
- Оценка качества данных на уровне правила (что такое оценка качества для правила, применяемого к столбцу)
- Оценка качества данных для ресурсов данных, продуктов данных и доменов управления (в одном домене управления может быть много продуктов данных, в одном продукте данных может быть много ресурсов данных, в одном ресурсе данных может быть много столбцов данных).
-
Качество данных для критически важных элементов данных (CDEs)
- Это одна из ключевых особенностей качества данных, возможность применять правила качества данных к логической конструкции CDE, которые затем распространяются на физические элементы данных, которые их составляют. Определяя правила качества данных на уровне CDEs, организации могут устанавливать конкретные критерии и пороговые значения, которым cdes должны соответствовать для поддержания их качества.
-
Оповещения о качестве данных
- Настройте оповещения, чтобы уведомлять владельцев данных, а также владельцев данных, если пороговое значение качества данных пропущено.
- настройте псевдоним электронной почты или группу рассылки для отправки уведомлений о проблемах с качеством данных.
-
Действия по обеспечению качества данных
- Центр действий для DQ с действиями по устранению состояний аномалий DQ, включая диагностические запросы для DQ steward до нуля в конкретных данных, которые необходимо исправить для каждого состояния аномалии.
-
Управляемая виртуальная сеть качества данных
- Виртуальная сеть, управляемая качеством данных, которая подключается с частными конечными точками к источникам данных Azure.
Ограничение
- Виртуальная сеть не поддерживается для google Big Query, Snowflake и каталога Unity Azure Databricks.
Связанное содержимое
- Качество данных для хранилища данных Fabric
- Качество данных для источников зеркальных данных Fabric
- Качество данных для источников данных сочетания клавиш Fabric
- Качество данных для Azure Synapse бессерверных хранилищ и хранилищ данных
- Качество данных для каталога Azure Databricks Unity
- Качество данных для источников данных Snowflake
- Качество данных для Google Big Query
- Встроенная поддержка качества данных для данных айсберга
Дальнейшие действия
- Назначьте пользователям разрешения на управление качеством данных в Единый каталог для использования всех функций качества данных.
- Настройте подключение к источнику данных, чтобы подготовить источник к оценке качества данных.
- Настройте и запустите профилирование данных для ресурса в источнике данных.