Подключение к каталогу Unity Azure Databricks и управление ими в Microsoft Purview
В этой статье описано, как зарегистрировать Azure Databricks, а также как выполнять проверку подлинности и взаимодействовать с каталогом Unity Azure Databricks в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.
Поддерживаемые возможности
Извлечение метаданных | Полная проверка | Добавочное сканирование | Сканирование с заданной областью | Классификация | Присвоение подписей | Политика доступа | Lineage | Общий доступ к данным | Интерактивное представление |
---|---|---|---|---|---|---|---|---|---|
Да | Да | Да | Да | Да | Нет | Нет | Да | Нет | Нет |
При сканировании каталога Azure Databricks Unity Microsoft Purview поддерживает:
- Извлечение технических метаданных, включая:
- Хранилище метаданных
- Каталоги
- Схемы
- Таблицы, включая столбцы
- Представления, включая столбцы
- Получение происхождения данных о связях ресурсов между таблицами, представлениями и столбцами во время выполнения записных книжек.
При настройке проверки можно выбрать сканирование всего каталога Unity или область сканирование в подмножество каталогов.
Примечание.
Этот соединитель приносит метаданные из каталога Unity Azure Databricks. Чтобы проверить метаданные области рабочей области Azure Databricks, обратитесь к соединителю хранилища метаданных Hive Для Azure Databricks.
Известные ограничения
- При удалении объекта из источника данных в настоящее время при последующей проверке соответствующий ресурс в Microsoft Purview автоматически не удаляется.
- Дополнительные сведения о других ограничениях, связанных с собственным происхождением Azure Databricks, см. в документации по Azure Databricks.
Предварительные условия
У вас должна быть учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно.
У вас должна быть активная учетная запись Microsoft Purview.
Вам потребуется Key Vault Azure, чтобы предоставить разрешения Microsoft Purview на доступ к секретам.
Для регистрации источника данных и управления им на портале управления Microsoft Purview требуются разрешения администратора источника и читателя данных. Дополнительные сведения о разрешениях см. в статье Управление доступом в Microsoft Purview.
Чтобы проверить каталог Azure Databricks Unity, Microsoft Purview подключается к хранилищу SQL в рабочей области и использует личный маркер доступа для проверки подлинности. Вам потребуется рабочая область Azure Databricks, которая включена в каталог Unity и подключена к хранилищу метаданных, которое вы хотите проверить. В рабочей области Azure Databricks:
Создайте хранилище SQL. Вы также можете использовать автоматическое создание начального хранилища, если применимо.
Запишите HTTP-путь. Его можно найти в рабочей области Azure Databricks —> хранилища SQL — хранилище —>> сведения о подключении —> путь HTTP.
Убедитесь, что пользователь имеет разрешение Can Use (Можно использовать ), чтобы подключиться к хранилищу SQL Azure Databricks. Дополнительные сведения см. в статье Управление доступом к хранилищу SQL.
Чтобы получить происхождение данных из Azure Databricks с помощью Microsoft Purview, необходимо выполнить следующие предварительные требования:
Включение схемы системы. Системная схема system.access должна быть включена в каталоге Unity. Это необходимо, так как сведения о происхождении хранятся в системных таблицах, и включение этой схемы позволяет получить доступ к этим таблицам. Дополнительные сведения о мониторинге использования системных таблиц.
Привилегии пользователя. Учетная запись пользователя, используемая для сканирования, должна иметь права SELECT в следующих системных таблицах:
system.access.table_lineage
system.access.column_lineage
Эти разрешения необходимы, так как данные происхождения считываются непосредственно из системных таблиц и без необходимого доступа Microsoft Purview не может получить сведения о происхождении.
Если ваша рабочая область Azure Databricks не разрешает доступ из общедоступной сети или учетная запись Microsoft Purview не разрешает доступ из всех сетей, для сканирования можно использовать управляемый виртуальная сеть Integration Runtime или локальную среду выполнения интеграции, поддерживаемую Kubernetes. При необходимости можно настроить управляемую частную конечную точку для Azure Databricks, чтобы установить частное подключение.
Проверка подлинности для сканирования
Для сканирования каталога Unity Azure Databricks можно использовать личные маркеры доступа, управляемые удостоверения или методы проверки подлинности субъекта-службы.
- Управляемое удостоверение, назначаемое системой или пользователем
- Личный маркер доступа
- Субъект-служба
При использовании управляемого удостоверения, назначаемого системой или пользователем
- Выберите управляемое удостоверение, назначаемое системой или пользователем, в разделе Учетные данные.
Для использования управляемого удостоверения, назначаемого пользователем, необходимо настроить проверку подлинности управляемых удостоверений Azure для Azure Databricks.
Для всех объектов, которые требуется перенести в Microsoft Purview, пользователь или субъект-служба должен иметь по крайней мере привилегии SELECT для таблиц и представлений, USE CATALOG в каталоге объекта и USE SCHEMA в схеме объекта.
Чтобы проверить все объекты в хранилище метаданных каталога Unity, используйте пользователя или субъекта-службы с ролью администратора хранилища метаданных. Дополнительные сведения см. в статье Управление привилегиями в каталоге Unity и привилегиях каталога Unity и защищаемых объектах.
Для классификации пользователю также необходимо иметь права SELECT в таблицах и представлениях для получения примеров данных.
Регистрация
В этом разделе описывается, как зарегистрировать рабочую область Azure Databricks в Microsoft Purview с помощью портала управления Microsoft Purview.
Перейдите к учетной записи Microsoft Purview.
Выберите Карта данных в левой области.
Нажмите Зарегистрировать.
В окне Регистрация источников выберите Azure Databricks Unity CatalogContinue (Продолжить).>
На экране Регистрация источников (каталог Azure Databricks Unity) выполните следующие действия.
В поле Имя введите имя, которое Microsoft Purview будет отображать в качестве источника данных.
В поле Идентификатор хранилища метаданных укажите идентификатор хранилища метаданных для хранилища метаданных Azure Databricks Unity Catalog, которое требуется проверить.
Выберите коллекцию из списка.
- Нажмите Готово.
Проверка
Совет
Чтобы устранить неполадки со сканированием, выполните указанные ниже действия.
- Убедитесь, что выполнены все предварительные требования.
- Ознакомьтесь с нашей документацией по устранению неполадок сканирования.
Выполните следующие действия, чтобы проверить Azure Databricks для автоматической идентификации ресурсов. Дополнительные сведения о сканировании в целом см. в статье Сканирование и прием данных в Microsoft Purview.
Перейдите в раздел Источники.
Выберите зарегистрированный объект Azure Databricks.
Выберите + Создать сканирование.
Укажите следующие сведения.
Имя. Введите имя проверки.
Подключение через среду выполнения интеграции. Выберите среду выполнения интеграции Azure по умолчанию, управляемую виртуальную сеть IR или созданную вами локальную среду выполнения интеграции с поддержкой Kubernetes.
Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:
- Выберите Маркер доступа, Управляемое удостоверение или Субъект-служба.
- При регистрации проверки можно создать новый маркер доступа или учетные данные субъекта-службы. Дополнительные сведения см. в разделе Учетные данные для проверки подлинности источника в Microsoft Purview.
URL-адрес рабочей области: Укажите URL-адрес рабочей области, которую требуется проверить.
Путь HTTP: Укажите HTTP-путь Databricks SQL Warehouse, к которому будет подключаться Microsoft Purview, и выполните проверку, например
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
. Его можно найти в рабочей области Azure Databricks —> хранилища SQL — хранилище —>> сведения о подключении —> путь HTTP.Извлечение происхождения: Переключите извлечение происхождения в значение Вкл. , чтобы получить происхождение отсканированных ресурсов.
Выберите Проверить подключение , чтобы проверить параметры.
Нажмите Продолжить.
В поле Триггер сканирования укажите, следует ли настроить расписание или запустить проверку один раз.
Просмотрите проверку и выберите Сохранить и запустить.
После успешного завершения сканирования узнайте, как просматривать и искать ресурсы.
Просмотр проверок и запусков сканирования
Чтобы просмотреть существующие проверки, выполните приведенные далее действия.
- Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.
- Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
- Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
- Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.
Управление проверками
Чтобы изменить, отменить или удалить сканирование:
Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.
Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
Выберите проверку, которой вы хотите управлять. Далее вы можете:
- Измените сканирование, выбрав Изменить проверку.
- Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
- Удалите сканирование, выбрав Удалить сканирование.
Примечание.
- При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
Обзор и поиск ресурсов
После сканирования Azure Databricks вы можете просматривать Единый каталог или искать Единый каталог, чтобы просмотреть сведения об активе и происхождении.
При просмотре по типам источников вы увидите две записи для каталога Unity Azure Databricks и Azure Databricks соответственно. Первый содержит артефакты каталога Unity, включая хранилище метаданных и его каталоги,схемы/таблицы/представления, а второй содержит артефакты рабочей области.
В ресурсе рабочей области Azure Databricks на вкладке Свойства можно найти связанный каталог Unity.
Lineage
При просмотре определенного ресурса Azure Databricks можно просмотреть записные книжки, в которых были записаны данные о происхождении.
Перейдите на вкладку asset — lineage (Ресурс —> происхождение данных), и вы можете просмотреть данные о происхождении в ресурсе Записной книжки Azure Databricks или ресурсе таблицы или представления, если это применимо.
См. раздел поддерживаемых возможностей , посвященный поддерживаемым сценариям происхождения данных каталога Databricks Unity. Дополнительные сведения о происхождении данных в целом см. в руководстве пользователя по происхождению данных и происхождению данных.
Вопросы и ответы
Записывает ли microsoft Purview происхождение на уровне столбцов из каталога Unity?
Microsoft Purview может записывать данные происхождения как на уровне таблицы или представления каталога Unity, так и на уровне столбца.
Я не вижу происхождения на уровне столбцов, что происходит?
Происхождение на уровне столбцов создается, когда записная книжка запускается из кластера, а не создается через хранилище SQL.
Я получаю ошибку времени ожидания, что мне делать?
Если в рабочей области есть большой объем ресурсов, проверка может завершиться неудачно. В этом случае можно область сканирование в несколько каталогов за раз, что уменьшит объем ресурсов на сканирование и позволит завершить сканирование.
Я только что запустил свою записную книжку, но Microsoft Purview не извлекла происхождение. Что происходит?
После выполнения записной книжки Databricks может отложить несколько минут, чтобы обновить сведения о происхождении в системных таблицах. Microsoft Purview сможет получить данные о происхождении после обновления системных таблиц.
Дальнейшие действия
Теперь, когда источник зарегистрирован, используйте следующие руководства, чтобы узнать больше о Microsoft Purview и ваших данных: