Поделиться через


Настройка подключения к источнику данных для подключения источников данных для оценки качества данных

Подключения к источнику данных настраивают проверку подлинности, необходимую для профилирования данных для статистических snapshot, или сканируют данные на наличие аномалий качества данных и оценки.

Настройка подключений к источнику данных — это четвертый шаг жизненного цикла качества данных для ресурса данных. Предыдущие шаги:

  1. Назначьте пользователям разрешения на управление качеством данных в Единый каталог для использования всех функций качества данных.
  2. Зарегистрируйте и проверьте источник данных в Схема данных Microsoft Purview.
  3. Добавление ресурса данных в продукт данных

Предварительные условия

  1. Для создания подключений к ресурсам данных пользователи должны быть в роли администратора качества данных.
  2. Вам нужен по крайней мере доступ на чтение к источнику данных, для которого настраивается подключение.

Поддерживаемые многооблачные источники данных

  • Azure Data Lake Storage 2-го поколения
    • Типы файлов: Delta Parquet и Parquet
  • База данных SQL Azure
  • Пространство данных Fabric в OneLake, включая ярлыки и зеркальное отображение. Проверка качества данных поддерживается только для разностных таблиц Lakehouse и файлов Parquet.
    • Зеркальное отображение пространства данных: Cosmos DB, Snowflake, Azure SQL
    • Краткое пространство данных: AWS S3, GCS, AdlsG2
  • Azure Synapse бессерверное хранилище и хранилище данных
  • Каталог Unity Azure Databricks
  • Снежинка
  • Google Big Query (частная предварительная версия)

В настоящее время Microsoft Purview может выполнять только проверки качества данных, используя управляемое удостоверение в качестве параметра проверки подлинности. Службы data Quality работают в Apache Spark 3.4 и Delta Lake 2.4.

Важно!

Чтобы получить доступ к этим источникам, необходимо задать для источников службы хранилища Azure открытый брандмауэр, разрешить доверенные службы Azure или использовать частные конечные точки, следуя рекомендациям, приведенным в руководстве по настройке виртуальной сети с управлением качеством данных.

Настройка подключения к источнику данных

  1. В Единый каталог выберите Управление работоспособностью, а затем — Качество данных.

  2. Выберите домен управления в списке.

  3. В раскрывающемся списке Управление выберите Connections, чтобы открыть страницу подключения.

    Снимок экрана: страница подключений в Качество данных Microsoft Purview.

  4. Выберите Создать , чтобы создать подключение для продуктов данных и ресурсов данных домена управления.

    Снимок экрана: страница настройки подключения в Качество данных Microsoft Purview.

  5. На правой панели введите следующие сведения:

    • Отображаемое имя
    • Описание
  6. Выберите Тип источника и один из источников данных.

  7. В зависимости от источника данных введите сведения о доступе.

  8. Если тестовое подключение прошло успешно , отправьте конфигурацию подключения, чтобы завершить настройку подключения.

Совет

Вы также можете создать подключение к ресурсам с помощью частных конечных точек и Качество данных Microsoft Purview управляемой виртуальной сети. Дополнительные сведения см. в статье об управляемой виртуальной сети.

Действия по настройке подключения зависят от собственных соединителей. Ознакомьтесь с инструкциями по настройке подключения в документах по собственным соединителям, чтобы настроить подключение для соединителей Azure Databricsks, Snowflake, GoogBigQuery и synapse.

Предоставление разрешений Microsoft Purview на источник

Теперь, когда подключение создано, чтобы иметь возможность проверять источники данных, управляемому удостоверению Microsoft Purview потребуются разрешения на источники данных:

Дальнейшие действия

  1. Настройте и запустите профилирование данных для ресурса в источнике данных.
  2. Настройте правила качества данных на основе результатов профилирования и примените их к ресурсу данных.
  3. Настройте и запустите проверку качества данных в продукте данных, чтобы оценить качество всех поддерживаемых ресурсов в продукте данных.
  4. Просмотрите результаты сканирования , чтобы оценить текущее качество данных продукта данных.