Поделиться через


Настройка и запуск профилирования данных для ресурса данных

Профилирование данных — это процесс проверки данных, доступных в разных источниках данных, а также сбора статистики и информации об этих данных. Профилирование данных помогает оценить уровень качества данных в соответствии с определенным набором целей. Если данные низкого качества или управляются в структурах, которые не могут быть интегрированы в соответствии с потребностями предприятия, страдают бизнес-процессы и принятие решений. Профилирование данных позволяет понять надежность и качество данных, что является необходимым условием для принятия решений на основе данных, которые повышают доход и способствуют росту.

Предварительные условия

  • Чтобы выполнять и планировать проверки качества данных, пользователи должны быть в роли администратора качества данных.
  • В настоящее время учетную запись Microsoft Purview можно настроить так, чтобы разрешить открытый доступ или управляемый доступ к виртуальной сети, чтобы можно было выполнять проверку качества данных.

Жизненный цикл качества данных

Профилирование данных — это пятый этап жизненного цикла качества данных для ресурса данных. Предыдущие шаги:

  1. Назначьте пользователям разрешения на управление качеством данных в Единый каталог для использования всех функций качества данных.
  2. Зарегистрируйте и проверьте источник данных в Схема данных Microsoft Purview.
  3. Добавление ресурса данных в продукт данных
  4. Настройте подключение к источнику данных, чтобы подготовить источник к оценке качества данных.

Поддерживаемые многооблачные источники данных

  • Azure Data Lake Storage (ADLS 2-го поколения)
    • Типы файлов: Delta Parquet и Parquet
  • База данных SQL Azure
  • Пространство данных Fabric в OneLake включает в себя ярлыки и зеркальное отображение. Профилирование данных поддерживается только для разностных таблиц Lakehouse и файлов Parquet.
    • Зеркальное отображение пространства данных: Cosmos DB, Snowflake, Azure SQL
    • Краткое пространство данных: AWS S3, GCS, AdlsG2 и Dataverse
  • Azure Synapse бессерверное хранилище и хранилище данных
  • Каталог Unity Azure Databricks
  • Снежинка
  • Google Big Query (предварительная версия)
  • Данные Iceberg в ADLS 2-го поколения, Microsoft Fabric Lakehouse, AWS S3 и GCP GCS

Важно!

Качество данных для файла Parquet предназначено для поддержки:

  1. Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions} Убедитесь, что в структуре каталога или подкаталога нет шаблонов {n}; это должно быть прямое полное доменное имя, ведущее к {SparkPartitions}.
  2. Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. Например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet. Ограничение: Он не предназначен для или не поддерживает произвольные иерархии N каталогов с файлами Parquet. Рекомендуется представить данные в (1) или (2) сконструированной структуре.

Поддерживаемые методы проверки подлинности

В настоящее время Microsoft Purview может выполнять только проверки качества данных, используя управляемое удостоверение в качестве параметра проверки подлинности. Службы качества данных работают в Apache Spark 3.4 и Delta Lake 2.4. Дополнительные сведения о поддерживаемых регионах см. в статье Общие сведения о качестве данных.

Важно!

  • Если схема обновлена в источнике данных, перед выполнением профилирования данных необходимо повторно запустить сканирование карты данных. Вы можете импортировать схему со страницы обзора качества данных с помощью функции импорта схемы. Если источник данных работает в управляемой виртуальной сети или в частной конечной точке, функция импорта схемы не поддерживается.
  • Виртуальная сеть не поддерживается для Azure Databricks, Google BigQuery и Snowflake.
  • В текущей версии можно профилирование 50 столбцов на пакет. Если ресурс данных содержит более 50 столбцов, можно профилирование дополнительных столбцов в нескольких пакетах.
  • Если столбец содержит отдельное значение, рекомендуется не профилирование этого столбца. Столбец с различными значениями не может создать нормальное распределение.

Действия по настройке задания профилирования данных

  1. Настройте подключение к источнику данных к ресурсам, которые вы проверяете на качество данных , если вы этого не сделали.

  2. В Единый каталог Microsoft Purview выберите Управление работоспособностью, а затем — Качество данных.

  3. Выберите домен управления в списке.

  4. Выберите продукт данных для профилирования ресурса данных , связанного с этим продуктом.

  5. Выберите ресурс данных, чтобы перейти на страницу обзора качества данных для профилирования.

  6. Нажмите кнопку Профиль , чтобы запустить задание профилирования для выбранного ресурса данных.

  7. Подсистема рекомендаций ИИ предлагает потенциально важные столбцы для профилирования данных. Можно отменить выбор рекомендуемых столбцов и (или) выбрать дополнительные столбцы для профилирования.

  8. Выбрав соответствующие столбцы, выберите Запустить профиль.

  9. Пока задание выполняется, его ход выполнения можно отслеживать на странице мониторинга качества данных в домене управления.

  10. По завершении задания выберите вкладку Профиль в меню слева на странице качества данных ресурса, чтобы просмотреть результат профилирования и статистические snapshot. В зависимости от количества столбцов ресурсов данных может быть несколько страниц результатов профиля.

  11. Просмотрите результаты профилирования и статистические меры для каждого столбца.

Дальнейшие действия

  1. Настройте правила качества данных на основе результатов профилирования и примените их к ресурсу данных.
  2. Настройте и запустите проверку качества данных в продукте данных, чтобы оценить качество всех поддерживаемых ресурсов в продукте данных.
  3. Просмотрите результаты сканирования , чтобы оценить текущее качество данных продукта данных.