Предоставление общего доступа к данным с помощью протокола Delta Share Databricks to Databricks (для поставщиков)
В этой статье представлен обзор использования Databricks to Databricks Delta Share для безопасного совместного использования данных с любым пользователем Databricks независимо от учетной записи или облачного узла, если у этого пользователя есть доступ к рабочей области, включенной для каталога Unity.
Примечание.
Если вы являетесь получателем данных (пользователем или группой пользователей, которым предоставляется общий доступ к данным Databricks), см. статью "Доступ к данным" с помощью разностного общего доступа (для получателей).
Кто должен использовать Databricks to Databricks Delta Sharing?
Существует три способа совместного использования данных с помощью разностного общего доступа.
Протокол общего доступа Databricks to Databricks, описанный в этой статье, позволяет совместно использовать данные из рабочей области с поддержкой каталога Unity пользователям, которые также имеют доступ к рабочей области Databricks с поддержкой каталога Unity.
Этот подход использует сервер Delta Sharing, встроенный в Azure Databricks, и обеспечивает поддержку совместного использования записных книжек, управления данными каталога Unity, аудита и отслеживания использования для поставщиков и получателей. Интеграция с каталогом Unity упрощает настройку и управление для поставщиков и получателей и повышает производительность.
Открытый протокол общего доступа Databricks позволяет совместно использовать данные, управляемые в рабочей области с поддержкой каталога Unity Databricks с пользователями на любой вычислительной платформе.
См. раздел "Общий доступ к данным" с помощью протокола открытого общего доступа (для поставщиков).
Управляемая клиентом реализация сервера с открытым исходным кодом Delta Sharing позволяет предоставлять общий доступ от любой платформы к любой платформе, независимо от того, используется ли Databricks или нет.
Общие сведения о разностном совместном использовании и дополнительные сведения об этих трех подходах см. в разделе "Что такое разностный общий доступ?".
Рабочий процесс databricks to Databricks Delta Sharing
В этом разделе представлен общий обзор рабочего процесса обмена Databricks to Databricks с ссылками на подробную документацию по каждому шагу.
В модели databricks to-Databricks Delta Sharing:
Получатель данных предоставляет поставщику данных уникальный идентификатор общего доступа для хранилища метаданных каталога Databricks Unity, присоединенного к рабочей области Databricks, которую получатель (представляющий пользователя или группу пользователей) будет использовать для доступа к данным, которым поставщик данных предоставляет общий доступ.
Дополнительные сведения см . в шаге 1. Запрос идентификатора общего доступа получателя.
Поставщик данных создает общую папку в хранилище метаданных каталога Unity поставщика. Этот именованный объект содержит коллекцию таблиц, представлений, томов и записных книжек, зарегистрированных в хранилище метаданных.
Дополнительные сведения см. в статье Создание общих папок и управление ими для delta Sharing.
Поставщик данных создает объект получателя в хранилище метаданных каталога Unity поставщика. Этот именованный объект представляет пользователя или группу пользователей, которые получат доступ к данным, включенным в общую папку, а также идентификатор хранилища метаданных каталога Unity, присоединенного к рабочей области, которую пользователь или группа пользователей будут использовать для доступа к общей папке. Идентификатор общего доступа — это идентификатор ключа, который обеспечивает безопасное подключение.
Дополнительные сведения см. в шаге 2. Создание получателя.
Поставщик данных предоставляет получателю доступ к общей папке.
Дополнительные сведения см. в статье Управление доступом к общим папкам данных Delta Sharing (для поставщиков).
Общая папка становится доступной в рабочей области Databricks получателя, и пользователи могут получить к ней доступ с помощью обозревателя каталогов, интерфейса командной строки Databricks или команд SQL в записной книжке Azure Databricks или редакторе sql-запросов Databricks.
Чтобы получить доступ к таблицам, представлениям, томам и записным книжкам в общей папке, администратор хранилища метаданных или привилегированный пользователь должен создать каталог из общей папки. Затем этот пользователь или другой пользователь, которому предоставлена соответствующая привилегия, может предоставить другим пользователям доступ к каталогу и объектам в каталоге. Предоставление разрешений на общие каталоги и ресурсы данных работает так же, как и с любыми другими ресурсами, зарегистрированными в каталоге Unity, при этом важно, чтобы пользователям было предоставлен доступ только для чтения для объектов в каталогах, созданных из общих папок Delta Share.
Общие записные книжки живут на уровне каталога, и любой пользователь с
USE CATALOG
привилегиями в каталоге может получить к ним доступ.Дополнительные сведения см. в разделе "Чтение данных" с помощью Databricks to Databricks Delta Sharing (для получателей).
Улучшите скорость чтения таблиц с помощью совместного использования истории
Важный
Эта функция доступна в общедоступной предварительной версии.
Общие ресурсы таблиц Databricks-to-Databricks могут повысить производительность, позволяя делиться историческими данными. История совместного доступа улучшает производительность за счёт использования временных учётных данных безопасности из вашего облачного хранилища, ограниченных корневым каталогом общей Delta-таблицы поставщика, что обеспечивает производительность, сопоставимую с прямым доступом к исходным таблицам.
- Для новых общих папок таблицы укажите
WITH HISTORY
при создании общей папки таблицы. См. раздел Добавление таблиц в общую папку. При совместном использовании таблицы с помощью вычислений в Databricks Runtime 16.2 и более поздних версийWITH HISTORY
используется по умолчанию. - Для существующих долей таблиц необходимо изменить долю, чтобы сохранить историю таблиц. См. обновление акций . При совместном использовании таблицы с помощью вычислений в Databricks Runtime 16.2 и более поздних версий
WITH HISTORY
используется по умолчанию.
При предоставлении доступа ко всей схеме, все таблицы в схеме по умолчанию делятся вместе с историей.
Примечание.
Таблицы с включенным секционированием не получают преимущества от разделения истории. См. раздел Указание разделов таблиц для совместного использования
Конфиденциальность данных при обмене историей
Поставщики должны учитывать, что Databricks-to-Databricks history sharing предоставляет получателям Delta Sharing временный доступ на чтение как к файлам данных, так и к журналу Delta. Журнал Delta содержит историю фиксаций для каждой версии таблицы, сведения об авторе фиксации (аналогично истории коммитов на GitHub), и удаленные данные, которые не были вакуумированы.