Создание и работа с таблицами результатов в Databricks Clean Rooms
В этой статье рассматриваются выходные таблицы, которые являются временными таблицами с правом только для чтения, создаваемыми в результате выполнения записной книжки и передаваемыми в метахранилище Unity Catalog исполнителя записной книжки. В этой статье описывается, как использовать записную книжку для создания выходных таблиц и способа чтения этих выходных таблиц в хранилище метаданных каталога Unity.
Обзор выходных таблиц
Выходные таблицы позволяют временно сохранять результаты выполнения ноутбуков, запущенных в изолированной среде, в каталоге вывода вашего хранилища метаданных Unity Catalog, где вы можете предоставить доступ к данным членам вашей команды, у которых нет возможности запускать ноутбуки самостоятельно. Можно также использовать задания Azure Databricks для запуска записных книжек и выполнения задач в выходных таблицах. В сочетании с типом задачи "Записная книжка чистой комнаты" и поддержкой значений задач выходные таблицы позволяют создавать сложные рабочие процессы, зависящие от записных книжек "Чистая комната".
Выходные таблицы доступны только для чтения.
Только конкретный субъект (пользователь, группа или сервисный субъект), который запускает записную книжку, имеет доступ для чтения по умолчанию к выходной таблице. Нет доступа на запись. Администратор хранилища метаданных может предоставить доступ на чтение другим субъектам в учетной записи Azure Databricks с помощью стандартных привилегий каталога Unity.
Выходные таблицы хранятся в течение 30 дней в расположении хранилища по умолчанию центрального чистого помещения и передаются в метахранилище участника совместной работы с помощью Delta Sharing. Если вы хотите сохранить выходную таблицу в течение более 30 дней, необходимо скопировать ее в локальное хранилище.
Каждый запуск записной книжки создает новую схему в выходном каталоге. Новые запуски не могут добавить существующую выходную таблицу.
Внимание
Выходные таблицы поддерживаются только в том случае, если центральная чистая комната размещена в AWS или Azure. Однако участники совместной работы в Databricks во всех трех облаках — AWS, Azure и Google Cloud — могут совместно использовать записные книжки, которые создают выходные таблицы и могут читать выходные таблицы, созданные при запуске общих записных книжек. Участники совместной работы Google Cloud должны быть участниками частной предварительной версии "Чистые комнаты".
Создание выходной таблицы
Чтобы создать выходную таблицу, используйте параметры cr_output_catalog
и cr_output_schema
в пространстве имен таблицы из трех частей. Каждый запуск записной книжки создает новую схему.
В следующем примере ячейка записной книжки создает выходную таблицу с именем overlapping_users
в каталоге выходных данных collborator, в которой перечислены пользователи, адрес электронной почты которых отображается как в collaborator.advertiser.profiles
, так и в таблицах creator.publisher.profiles
.
CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email
Прочитай выходную таблицу
Выходные таблицы отображаются в общем каталоге в хранилище метаданных runner записной книжки. В панели обозревателя каталога они отображаются в списке общих каталогов.
Чтение выходной таблицы похоже на чтение любой другой таблицы в каталоге Unity. Необходимо иметь SELECT
в таблице, USE CATALOG
в общем каталоге выходных данных и USE SCHEMA
в автоматически созданной схеме. Пользователь, который запустил записную книжку, которая создала таблицу, имеет эти разрешения по умолчанию.
Перед началом работы
В этом разделе описаны требования к облаку, конфигурации и вычислению для чтения выходных таблиц.
Требования к облаку
Хотя центральная чистая комната должна находиться в AWS для поддержки выходных таблиц, рабочие области совместной работы могут находиться в любом из трех облаков: AWS, Azure или Google Cloud. Участники совместной работы Google Cloud должны быть участниками частной предварительной версии "Чистые комнаты".
Требование к общему каталогу выходных данных
Прежде чем считывать выходные таблицы, пользователь должен создать каталог, содержащий их. Это нужно сделать только один раз на чистую комнату. Владелец чистой комнаты имеет разрешение на чтение и управление каталогом выходных данных по умолчанию.
Необходимые разрешения: EXECUTE_CLEAN_ROOM_TASK
- В рабочей области Azure Databricks щелкните значок каталога .
- На странице быстрого доступа нажмите кнопку "Чистые комнаты>".
- Выберите чистую комнату из списка.
- В правой панели, в разделе 'Выходные данные', щелкните создать каталог.
- Введите имя каталога выходных данных либо примите значение по умолчанию,
<clean-room-name>_output
.
Выходной каталог отображается в списке общих каталогов в Проводнике каталога на панели каталога. Каждая чистая комната, в которой вы участвуете, может иметь один общий каталог выходных данных в хранилище метаданных.
Требования к вычислениям
Запросы к выходным таблицам требуют бессерверных вычислений. См. раздел "Подключение к бессерверным вычислениям".
Разрешения, необходимые для чтения выходной таблицы
Пользователь, который запустил записную книжку, которая создала выходную таблицу, и владелец чистой комнаты имеют разрешение на чтение и управление выходной таблицей по умолчанию. У всех остальных пользователей должны быть предоставлены следующие разрешения:
-
SELECT
на столе -
USE CATALOG
в выходном каталоге -
USE SCHEMA
в выходной схеме
Запустите записную книжку
Чтобы создать общие выходные таблицы в каталоге выходных данных, пользователь с доступом к чистой комнате должен запустить записную книжку. См. статью "Запуск записных книжек" в чистых комнатах. Каждый запуск записной книжки создает новую выходную схему и таблицу.
Совет
Задания Azure Databricks можно использовать для запуска записных книжек и выполнения задач в выходных таблицах, что позволяет выполнять сложные рабочие процессы. См. статью "Использование рабочих процессов Azure Databricks" для запуска записных книжек чистых помещений.
Поиск и просмотр выходной таблицы
Пользователь, который запускает записную книжку для создания выходной таблицы, может найти ссылку на эту таблицу в истории выполнения записных книжек и на страницах сведений о запуске в пользовательском интерфейсе чистых комнат. В обоих случаях ссылка находится в поле Схема вывода. См. статью "Мониторинг запусков записной книжки для чистых помещений".
Журнал выполнения:
ссылка на схему
Сведения о выполнении:
Вы также можете найти выходной каталог в списке общих каталогов в панели обозревателя каталога.
Ограничения
Помимо требований, перечисленных в Обзор выходных таблиц и перед началом, выходные таблицы имеют следующие ограничения:
- Выходные таблицы поддерживаются только в том случае, если центральная чистая комната размещена в AWS или Azure и когда чистая комната была создана после введения функции выходной таблицы.
- Поддерживаются только таблицы. Тома и представлениями, например, не являются таковыми.
- Вы можете создавать до 100 выходных таблиц в рабочей тетради.