Настройка подключения к источнику данных для подключения источников данных для оценки качества данных
Подключения к источнику данных настраивают проверку подлинности, необходимую для профилирования данных для статистических snapshot, или сканируют данные на наличие аномалий качества данных и оценки.
Настройка подключений к источнику данных — это четвертый шаг жизненного цикла качества данных для ресурса данных. Предыдущие шаги:
- Назначьте пользователям разрешения на управление качеством данных в Единый каталог для использования всех функций качества данных.
- Зарегистрируйте и проверьте источник данных в Схема данных Microsoft Purview.
- Добавление ресурса данных в продукт данных
Предварительные условия
- Для создания подключений к ресурсам данных пользователи должны быть в роли администратора качества данных.
- Вам нужен по крайней мере доступ на чтение к источнику данных, для которого настраивается подключение.
Поддерживаемые многооблачные источники данных
- Azure Data Lake Storage 2-го поколения
- Типы файлов: Delta Parquet и Parquet
- База данных SQL Azure
- Пространство данных Fabric в OneLake, включая ярлыки и зеркальное отображение. Проверка качества данных поддерживается только для разностных таблиц Lakehouse и файлов Parquet.
- Зеркальное отображение пространства данных: Cosmos DB, Snowflake, Azure SQL
- Краткое пространство данных: AWS S3, GCS, AdlsG2
- Azure Synapse бессерверное хранилище и хранилище данных
- Каталог Unity Azure Databricks
- Снежинка
- Google Big Query (частная предварительная версия)
В настоящее время Microsoft Purview может выполнять только проверки качества данных, используя управляемое удостоверение в качестве параметра проверки подлинности. Службы data Quality работают в Apache Spark 3.4 и Delta Lake 2.4.
Важно!
Чтобы получить доступ к этим источникам, необходимо задать для источников службы хранилища Azure открытый брандмауэр, разрешить доверенные службы Azure или использовать частные конечные точки, следуя рекомендациям, приведенным в руководстве по настройке виртуальной сети с управлением качеством данных.
Настройка подключения к источнику данных
В Единый каталог выберите Управление работоспособностью, а затем — Качество данных.
Выберите домен управления в списке.
В раскрывающемся списке Управление выберите Connections, чтобы открыть страницу подключения.
Выберите Создать , чтобы создать подключение для продуктов данных и ресурсов данных домена управления.
На правой панели введите следующие сведения:
- Отображаемое имя
- Описание
Выберите Тип источника и один из источников данных.
В зависимости от источника данных введите сведения о доступе.
Если тестовое подключение прошло успешно , отправьте конфигурацию подключения, чтобы завершить настройку подключения.
Совет
Вы также можете создать подключение к ресурсам с помощью частных конечных точек и Качество данных Microsoft Purview управляемой виртуальной сети. Дополнительные сведения см. в статье об управляемой виртуальной сети.
Действия по настройке подключения зависят от собственных соединителей. Ознакомьтесь с инструкциями по настройке подключения в документах по собственным соединителям, чтобы настроить подключение для соединителей Azure Databricsks, Snowflake, GoogBigQuery и synapse.
Предоставление разрешений Microsoft Purview на источник
Теперь, когда подключение создано, чтобы иметь возможность проверять источники данных, управляемому удостоверению Microsoft Purview потребуются разрешения на источники данных:
Чтобы проверить Azure Data Lake Storage 2-го поколения, роль читателя данных BLOB-объектов хранилища должна быть назначена Управляемому удостоверению Microsoft Purview. Чтобы назначить разрешения управляемому удостоверению, выполните действия на исходной странице.
Чтобы проверить базу данных Azure SQL, назначьте db_datareader роль управляемому удостоверению Microsoft Purview. Чтобы назначить разрешения управляемому удостоверению, выполните действия на исходной странице.
Связанное содержимое
- Качество данных для хранилища данных Fabric
- Качество данных для зеркальных источников данных Fabric
- Качество данных для быстрых источников данных Fabric
- Качество данных для Azure Synapse бессерверных хранилищ и хранилищ данных
- Качество данных для каталога Unity Azure Databricks
- Качество данных для источников данных Snowflake
- Качество данных для Google Big Query
Дальнейшие действия
- Настройте и запустите профилирование данных для ресурса в источнике данных.
- Настройте правила качества данных на основе результатов профилирования и примените их к ресурсу данных.
- Настройте и запустите проверку качества данных в продукте данных, чтобы оценить качество всех поддерживаемых ресурсов в продукте данных.
- Просмотрите результаты сканирования , чтобы оценить текущее качество данных продукта данных.