Поделиться через


Настройка и запуск профилирования данных для ресурса данных

Профилирование данных — это процесс проверки данных, доступных в разных источниках данных, а также сбора статистики и информации об этих данных. Профилирование данных помогает оценить уровень качества данных в соответствии с определенным набором целей. Если данные низкого качества или управляются в структурах, которые не могут быть интегрированы в соответствии с потребностями предприятия, страдают бизнес-процессы и принятие решений. Профилирование данных позволяет понять надежность и качество данных, что является необходимым условием для принятия решений на основе данных, которые повышают доход и способствуют росту.

Предварительные условия

  • Чтобы выполнять и планировать проверки качества данных, пользователи должны быть в роли администратора качества данных.
  • В настоящее время учетную запись Microsoft Purview можно настроить так, чтобы разрешить открытый доступ или управляемый доступ к виртуальной сети, чтобы можно было выполнять проверку качества данных.

Жизненный цикл качества данных

Профилирование данных — это пятый этап жизненного цикла качества данных для ресурса данных. Предыдущие шаги:

  1. Назначьте пользователям разрешения на управление качеством данных в Единый каталог для использования всех функций качества данных.
  2. Зарегистрируйте и проверьте источник данных в Схема данных Microsoft Purview.
  3. Добавление ресурса данных в продукт данных
  4. Настройте подключение к источнику данных, чтобы подготовить источник к оценке качества данных.

Поддерживаемые многооблачные источники данных

  • Azure Data Lake Storage (ADLS 2-го поколения)
    • Типы файлов: Delta Parquet и Parquet
  • База данных SQL Azure
  • Пространство данных Fabric в OneLake включает в себя ярлыки и зеркальное отображение. Профилирование данных поддерживается только для разностных таблиц Lakehouse и файлов Parquet.
    • Зеркальное отображение пространства данных: Cosmos DB, Snowflake, Azure SQL
    • Краткое пространство данных: AWS S3, GCS, AdlsG2 и Dataverse
  • Azure Synapse бессерверное хранилище и хранилище данных
  • Каталог Unity Azure Databricks
  • Снежинка
  • Google Big Query (закрытая предварительная версия)

Важно!

Качество данных для файла Parquet предназначено для поддержки:

  1. Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions} Убедитесь, что у нас нет шаблонов {n} в структуре каталогов или вложенных каталогов. Вместо этого должно быть прямое полное доменное имя, приводящее к {SparkPartitions}.
  2. Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. Например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet.
Ограничение: Он не предназначен для или не поддерживает N произвольных иерархий каталогов с файлами Parquet. Мы советуем клиенту представить данные в (1) или (2) построенной структуре.

Поддерживаемые методы проверки подлинности

В настоящее время Microsoft Purview может выполнять только проверки качества данных, используя управляемое удостоверение в качестве параметра проверки подлинности. Службы data Quality работают в Apache Spark 3.4 и Delta Lake 2.4. Дополнительные сведения о поддерживаемых регионах см. в статье Общие сведения о качестве данных.

Важно!

Если схема обновлена в источнике данных, необходимо повторно запустить сканирование карты данных перед выполнением профилирования данных.

Действия по настройке задания профилирования данных

  1. Настройте подключение к источнику данных к ресурсу, если он еще не создан.

  2. В Единый каталог Microsoft Purview выберите меню Управление работоспособностью и подменю Качество данных.

  3. В подменю качества данных выберите домен Управления для профилирования данных.

  4. Выберите продукт данных для профилирования ресурса данных , связанного с этим продуктом.

    Снимок экрана: меню качества данных, в котором показано, как выбрать продукт данных.

  5. Выберите ресурс данных, чтобы перейти на страницу обзора качества данных для профилирования.

  6. Нажмите кнопку Профиль , чтобы запустить задание профилирования для выбранного ресурса данных.

    Снимок экрана: вкладка

  7. Подсистема рекомендаций ИИ предлагает потенциально важные столбцы для профилирования данных. Можно отменить выбор рекомендуемых столбцов и (или) выбрать дополнительные столбцы для профилирования.

    Снимок экрана: предложения столбцов профилирования.

  8. Выбрав соответствующие столбцы, выберите Запустить профиль.

  9. Пока задание выполняется, его ход выполнения можно отслеживать на странице мониторинга качества данных в домене управления.

  10. По завершении задания выберите вкладку Профиль в меню слева на странице качества данных ресурса, чтобы просмотреть результат профилирования и статистические snapshot. В зависимости от количества столбцов ресурсов данных может быть несколько страниц результатов профиля.

    Снимок экрана: страница профилирования с выделенным столбцом.

  11. Просмотрите результаты профилирования и статистические меры для каждого столбца.

    Снимок экрана: статистические snapshot для одного столбца.

Важно!

Разностный формат в основном автоматически определяется, если формат является стандартным и правильным в исходных системах. Чтобы профилировать формат файла Parquet или айсберга, необходимо изменить тип ресурса данных на Parquet или айсберг. Как показано на снимке экрана ниже, измените тип ресурса данных по умолчанию Parquet или другой поддерживаемый формат, если формат файла ресурса данных не является разностным. Это изменение необходимо сделать перед настройкой задания профилирования.

Снимок экрана: выбор типа ресурса.

Дальнейшие действия

  1. Настройте правила качества данных на основе результатов профилирования и примените их к ресурсу данных.
  2. Настройте и запустите проверку качества данных в продукте данных, чтобы оценить качество всех поддерживаемых ресурсов в продукте данных.
  3. Просмотрите результаты сканирования , чтобы оценить текущее качество данных продукта данных.