Настройка и запуск профилирования данных для ресурса данных
Профилирование данных — это процесс проверки данных, доступных в разных источниках данных, а также сбора статистики и информации об этих данных. Профилирование данных помогает оценить уровень качества данных в соответствии с определенным набором целей. Если данные низкого качества или управляются в структурах, которые не могут быть интегрированы в соответствии с потребностями предприятия, страдают бизнес-процессы и принятие решений. Профилирование данных позволяет понять надежность и качество данных, что является необходимым условием для принятия решений на основе данных, которые повышают доход и способствуют росту.
Предварительные условия
- Чтобы выполнять и планировать проверки качества данных, пользователи должны быть в роли администратора качества данных.
- В настоящее время учетную запись Microsoft Purview можно настроить так, чтобы разрешить открытый доступ или управляемый доступ к виртуальной сети, чтобы можно было выполнять проверку качества данных.
Жизненный цикл качества данных
Профилирование данных — это пятый этап жизненного цикла качества данных для ресурса данных. Предыдущие шаги:
- Назначьте пользователям разрешения на управление качеством данных в Единый каталог для использования всех функций качества данных.
- Зарегистрируйте и проверьте источник данных в Схема данных Microsoft Purview.
- Добавление ресурса данных в продукт данных
- Настройте подключение к источнику данных, чтобы подготовить источник к оценке качества данных.
Поддерживаемые многооблачные источники данных
- Azure Data Lake Storage (ADLS 2-го поколения)
- Типы файлов: Delta Parquet и Parquet
- База данных SQL Azure
- Пространство данных Fabric в OneLake включает в себя ярлыки и зеркальное отображение. Профилирование данных поддерживается только для разностных таблиц Lakehouse и файлов Parquet.
- Зеркальное отображение пространства данных: Cosmos DB, Snowflake, Azure SQL
- Краткое пространство данных: AWS S3, GCS, AdlsG2 и Dataverse
- Azure Synapse бессерверное хранилище и хранилище данных
- Каталог Unity Azure Databricks
- Снежинка
- Google Big Query (предварительная версия)
- Данные Iceberg в ADLS 2-го поколения, Microsoft Fabric Lakehouse, AWS S3 и GCP GCS
Важно!
Качество данных для файла Parquet предназначено для поддержки:
- Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
Убедитесь, что в структуре каталога или подкаталога нет шаблонов {n}; это должно быть прямое полное доменное имя, ведущее к {SparkPartitions}. - Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. Например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet. Ограничение: Он не предназначен для или не поддерживает произвольные иерархии N каталогов с файлами Parquet. Рекомендуется представить данные в (1) или (2) сконструированной структуре.
Поддерживаемые методы проверки подлинности
В настоящее время Microsoft Purview может выполнять только проверки качества данных, используя управляемое удостоверение в качестве параметра проверки подлинности. Службы качества данных работают в Apache Spark 3.4 и Delta Lake 2.4. Дополнительные сведения о поддерживаемых регионах см. в статье Общие сведения о качестве данных.
Важно!
- Если схема обновлена в источнике данных, перед выполнением профилирования данных необходимо повторно запустить сканирование карты данных. Вы можете импортировать схему со страницы обзора качества данных с помощью функции импорта схемы. Если источник данных работает в управляемой виртуальной сети или в частной конечной точке, функция импорта схемы не поддерживается.
- Виртуальная сеть не поддерживается для Azure Databricks, Google BigQuery и Snowflake.
- В текущей версии можно профилирование 50 столбцов на пакет. Если ресурс данных содержит более 50 столбцов, можно профилирование дополнительных столбцов в нескольких пакетах.
- Если столбец содержит отдельное значение, рекомендуется не профилирование этого столбца. Столбец с различными значениями не может создать нормальное распределение.
Действия по настройке задания профилирования данных
Настройте подключение к источнику данных к ресурсам, которые вы проверяете на качество данных , если вы этого не сделали.
В Единый каталог Microsoft Purview выберите Управление работоспособностью, а затем — Качество данных.
Выберите домен управления в списке.
Выберите продукт данных для профилирования ресурса данных , связанного с этим продуктом.
Выберите ресурс данных, чтобы перейти на страницу обзора качества данных для профилирования.
Нажмите кнопку Профиль , чтобы запустить задание профилирования для выбранного ресурса данных.
Подсистема рекомендаций ИИ предлагает потенциально важные столбцы для профилирования данных. Можно отменить выбор рекомендуемых столбцов и (или) выбрать дополнительные столбцы для профилирования.
Выбрав соответствующие столбцы, выберите Запустить профиль.
Пока задание выполняется, его ход выполнения можно отслеживать на странице мониторинга качества данных в домене управления.
По завершении задания выберите вкладку Профиль в меню слева на странице качества данных ресурса, чтобы просмотреть результат профилирования и статистические snapshot. В зависимости от количества столбцов ресурсов данных может быть несколько страниц результатов профиля.
Просмотрите результаты профилирования и статистические меры для каждого столбца.
Связанные материалы
- Качество данных для базы данных Fabric
- Качество данных для источников зеркальных данных Fabric
- Качество данных для источников данных сочетания клавиш Fabric
- Качество данных для Azure Synapse бессерверных хранилищ и хранилищ данных
- Качество данных для каталога Azure Databricks Unity
- Качество данных для источников данных Snowflake
- Качество данных для Google Big Query
Дальнейшие действия
- Настройте правила качества данных на основе результатов профилирования и примените их к ресурсу данных.
- Настройте и запустите проверку качества данных в продукте данных, чтобы оценить качество всех поддерживаемых ресурсов в продукте данных.
- Просмотрите результаты сканирования , чтобы оценить текущее качество данных продукта данных.