Качество данных для баз данных каталога Unity databricks
Чтобы использовать каталог Unity, в рабочей области Azure Databricks должен быть включен каталог Unity. Это означает, что рабочая область подключена к хранилищу метаданных каталога Unity. Все новые рабочие области автоматически включаются для каталога Unity при создании, но для более старых рабочих областей может потребоваться, чтобы администратор учетной записи вручную включил каталог Unity. Независимо от того, включена ли рабочая область для каталога Unity автоматически, для начала работы с каталогом Unity также необходимо выполнить следующие действия:
- Создание каталогов и схем для хранения объектов базы данных, таких как таблицы и тома.
- Создайте расположения управляемого хранилища для хранения управляемых таблиц и томов в этих каталогах и схемах.
- Предоставление пользователю доступа к каталогам, схемам и объектам базы данных.
Рабочие области, автоматически включенные для каталога Unity, подготавливают каталог рабочих областей с широкими привилегиями, предоставляемыми всем пользователям рабочей области. Этот каталог является удобной отправной точкой для пробного использования каталога Unity.
Подробные инструкции по настройке см. в разделе Настройка каталога Unity и управление ими.
При сканировании каталога Azure Databricks Unity Microsoft Purview поддерживает:
- Хранилище метаданных
- Каталоги
- Схемы
- Таблицы, включая столбцы
- Представления, включая столбцы
При настройке проверки можно выбрать сканирование всего каталога Unity или область сканирование в подмножество каталогов.
Настройка сканирования карты данных для каталога Databricks Unity Catalog в Microsoft Purview
- Регистрация рабочей области Azure Databricks в Microsoft Purview
- Сканирование зарегистрированной рабочей области Azure Databricks
- Введите имя сканирования.
- Выберите каталог unity в качестве метода извлечения
- Подключитесь с помощью среды выполнения интеграции (среда выполнения интеграции Azure, среда IR управляемой виртуальной сети или созданная вами локальная среда выполнения интеграции Kubernetes)
- Выберите Проверка подлинности маркера доступа при создании учетных данных. Дополнительные сведения см. в разделе Учетные данные для проверки подлинности источника в Microsoft Purview.
- Укажите HTTP-путь Хранилища SQL Databricks, к которому будет подключаться Microsoft Purview, и выполнять сканирование.
- На странице Область сканирования выберите каталоги, которые нужно проверить.
- Выберите набор правил сканирования для классификации. Вы можете выбрать системный набор правил по умолчанию, существующие настраиваемые наборы правил или создать новый встроенный набор правил. Дополнительные сведения см. в статье Классификация.
- В поле Триггер сканирования укажите, следует ли настроить расписание или запустить проверку один раз.
- Просмотрите проверку и выберите Сохранить и запустить.
- Просмотрите свои проверки и выполните сканирование, чтобы завершить каталогизацию данных.
После сканирования ресурс данных в каталоге Unity (UC) будет доступен в Единый каталог Microsoft Purview поиска. Дополнительные сведения о подключении каталога Unity Azure Databricks и управлении ими в Microsoft Purview см. в этом документе.
Важно!
- Выберите Проверка подлинности маркера доступа при создании учетных данных.
- Разместите маркер доступа на размещенном Key Vault Azure и подключите хранилище ключей к диспетчеру подключений.
- Обязательно предоставьте доступ на чтение (секрет) MSI продукта (службы) к Key Vault.
Настройка подключения к databricks UC для проверки качества данных
На этом этапе у нас есть отсканированный ресурс, готовый к каталогизации и управлению. Свяжите отсканированный ресурс с продуктом данных в системе домена управления. На вкладке Качество данных добавьте новый Azure SQL подключение к базе данных: Получите имя базы данных, введенное вручную.
Выберите вкладку Управление доменом управления качеством >> данных, чтобы создать подключение.
Настройка подключения на странице подключения.
- Добавление имени и описания подключения
- выбор типа источника Azure Databricks
- Выбор URL-адреса рабочей области
- Выберите каталог Unity в качестве метода извлечения.
- Выберите HTTP-путь
- выбор имени каталога unity
- выбор имени схемы
- выбор имени таблицы
- Выбор метода проверки подлинности — маркер доступа
- Добавление подписки Azure
- Подключение к хранилищу ключей
- имя секрета
- Версия секрета
Проверка подключения
Важно!
- Диспетчерам качества данных требуется доступ только на чтение к каталогу Unity Databrics Azure для настройки подключения к качеству данных.
- Виртуальная сеть пока не поддерживается.
Профилирование и проверка качества данных в базах данных Azure Databricks Unity Catalog.
После успешной настройки подключения можно профилировать, создавать и применять правила, а также выполнять проверку DQ данных в базах данных Unity Catalog Azure Databricks. Следуйте пошаговому руководству, описанному в следующих документах: