Настройка и запуск профилирования данных для ресурса данных

Статья
02/25/2025

Профилирование данных — это процесс проверки данных, доступных в разных источниках данных, а также сбора статистики и информации об этих данных. Профилирование данных помогает оценить уровень качества данных в соответствии с определенным набором целей. Если данные низкого качества или управляются в структурах, которые не могут быть интегрированы в соответствии с потребностями предприятия, страдают бизнес-процессы и принятие решений. Профилирование данных позволяет понять надежность и качество данных, что является необходимым условием для принятия решений на основе данных, которые повышают доход и способствуют росту.

Предварительные условия

Чтобы выполнять и планировать проверки качества данных, пользователи должны быть в роли администратора качества данных.
В настоящее время учетную запись Microsoft Purview можно настроить так, чтобы разрешить открытый доступ или управляемый доступ к виртуальной сети, чтобы можно было выполнять проверку качества данных.

Жизненный цикл качества данных

Профилирование данных — это пятый этап жизненного цикла качества данных для ресурса данных. Предыдущие шаги:

Назначьте пользователям разрешения на управление качеством данных в Единый каталог для использования всех функций качества данных.
Зарегистрируйте и проверьте источник данных в Схема данных Microsoft Purview.
Добавление ресурса данных в продукт данных
Настройте подключение к источнику данных, чтобы подготовить источник к оценке качества данных.

Поддерживаемые многооблачные источники данных

Azure Data Lake Storage (ADLS 2-го поколения)
- Типы файлов: Delta Parquet и Parquet
База данных SQL Azure
Пространство данных Fabric в OneLake включает в себя ярлыки и зеркальное отображение. Профилирование данных поддерживается только для разностных таблиц Lakehouse и файлов Parquet.
- Зеркальное отображение пространства данных: Cosmos DB, Snowflake, Azure SQL
- Краткое пространство данных: AWS S3, GCS, AdlsG2 и Dataverse
Azure Synapse бессерверное хранилище и хранилище данных
Каталог Unity Azure Databricks
Снежинка
Google Big Query (предварительная версия)
Данные Iceberg в ADLS 2-го поколения, Microsoft Fabric Lakehouse, AWS S3 и GCP GCS

Важно!

Качество данных для файла Parquet предназначено для поддержки:

Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions} Убедитесь, что в структуре каталога или подкаталога нет шаблонов {n}; это должно быть прямое полное доменное имя, ведущее к {SparkPartitions}.
Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. Например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet. Ограничение: Он не предназначен для или не поддерживает произвольные иерархии N каталогов с файлами Parquet. Рекомендуется представить данные в (1) или (2) сконструированной структуре.

Поддерживаемые методы проверки подлинности

В настоящее время Microsoft Purview может выполнять только проверки качества данных, используя управляемое удостоверение в качестве параметра проверки подлинности. Службы качества данных работают в Apache Spark 3.4 и Delta Lake 2.4. Дополнительные сведения о поддерживаемых регионах см. в статье Общие сведения о качестве данных.

Важно!

Если схема обновлена в источнике данных, перед выполнением профилирования данных необходимо повторно запустить сканирование карты данных. Вы можете импортировать схему со страницы обзора качества данных с помощью функции импорта схемы. Если источник данных работает в управляемой виртуальной сети или в частной конечной точке, функция импорта схемы не поддерживается.
Виртуальная сеть не поддерживается для Azure Databricks, Google BigQuery и Snowflake.
В текущей версии можно профилирование 50 столбцов на пакет. Если ресурс данных содержит более 50 столбцов, можно профилирование дополнительных столбцов в нескольких пакетах.
Если столбец содержит отдельное значение, рекомендуется не профилирование этого столбца. Столбец с различными значениями не может создать нормальное распределение.

Действия по настройке задания профилирования данных

Настройте подключение к источнику данных к ресурсам, которые вы проверяете на качество данных , если вы этого не сделали.
В Единый каталог Microsoft Purview выберите Управление работоспособностью, а затем — Качество данных.
Выберите домен управления в списке.
Выберите продукт данных для профилирования ресурса данных , связанного с этим продуктом.
Выберите ресурс данных, чтобы перейти на страницу обзора качества данных для профилирования.
Нажмите кнопку Профиль , чтобы запустить задание профилирования для выбранного ресурса данных.
Подсистема рекомендаций ИИ предлагает потенциально важные столбцы для профилирования данных. Можно отменить выбор рекомендуемых столбцов и (или) выбрать дополнительные столбцы для профилирования.
Выбрав соответствующие столбцы, выберите Запустить профиль.
Пока задание выполняется, его ход выполнения можно отслеживать на странице мониторинга качества данных в домене управления.
По завершении задания выберите вкладку Профиль в меню слева на странице качества данных ресурса, чтобы просмотреть результат профилирования и статистические snapshot. В зависимости от количества столбцов ресурсов данных может быть несколько страниц результатов профиля.
Просмотрите результаты профилирования и статистические меры для каждого столбца.

Дальнейшие действия

Настройте правила качества данных на основе результатов профилирования и примените их к ресурсу данных.
Настройте и запустите проверку качества данных в продукте данных, чтобы оценить качество всех поддерживаемых ресурсов в продукте данных.
Просмотрите результаты сканирования , чтобы оценить текущее качество данных продукта данных.

Поделиться через

Настройка и запуск профилирования данных для ресурса данных

Предварительные условия

Жизненный цикл качества данных

Поддерживаемые многооблачные источники данных

Поддерживаемые методы проверки подлинности

Действия по настройке задания профилирования данных

Дальнейшие действия

Обратная связь

Дополнительные ресурсы

Поделиться через

Настройка и запуск профилирования данных для ресурса данных

Предварительные условия

Жизненный цикл качества данных

Поддерживаемые многооблачные источники данных

Поддерживаемые методы проверки подлинности

Действия по настройке задания профилирования данных

Связанные материалы

Дальнейшие действия

Обратная связь

Дополнительные ресурсы