在 Databricks Clean Rooms 中建立和使用輸出數據表
重要
這項功能處於公開預覽狀態。
本文介紹輸出數據表,這是筆記本執行所產生的暫時只讀數據表,並共用至筆記本執行器的 Unity 目錄中繼存放區。 本文說明如何使用筆記本來建立輸出數據表,以及共同作業者如何在其 Unity 目錄中繼存放區中讀取這些輸出數據表。
輸出數據表概觀
輸出數據表可讓您暫時將執行於全新會議室的筆記本輸出儲存到 Unity 目錄中繼存放區中的輸出目錄,讓無法自行執行筆記本的小組成員可以使用數據。 您也可以使用 Azure Databricks 作業來執行筆記本,並在輸出數據表上執行工作。 輸出數據表結合「清理室」筆記本工作類型和工作值的支援,可讓您建立相依於「清理室」筆記本的複雜工作流程。
輸出數據表是唯讀的。
只有執行筆記本的特定主體(使用者、群組或服務主體)具有輸出數據表的預設讀取許可權。 沒有寫入許可權。 中繼存放區管理員可以使用標準 Unity 目錄許可權,將讀取許可權授與其 Azure Databricks 帳戶中的其他主體。
輸出數據表會儲存在中央清理室的預設儲存位置 30 天,並使用 Delta Sharing 共用至共同作業者的中繼存放區。 如果您想要將輸出資料表保留超過 30 天,您必須將它複製到本機記憶體。
每個筆記本執行都會在輸出目錄中建立新的架構。 新的執行無法附加現有的輸出數據表。
重要
只有在 AWS 上裝載中央清理室時,才支援輸出數據表。 不過,在 AWS、Azure 和 Google Cloud 這三個雲端的 Databricks 共同作業者可以共用建立輸出數據表的筆記本,並可讀取執行共用筆記本時所產生的輸出數據表。 Google Cloud 共同作業者必須是 Clean Rooms 私人預覽版的參與者。
建立輸出數據表
若要建立輸出資料表,請使用參數 cr_output_catalog
,並在 cr_output_schema
三部分資料表命名空間中使用 。 筆記本的每個執行都會產生新的架構。
在下列範例中,Notebook 數據格會在 collborator 的輸出目錄中建立名為 overlapping_users
的輸出數據表,其中會列出電子郵件地址同時顯示在 和 creator.publisher.profiles
數據表中的collaborator.advertiser.profiles
使用者。
CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email
讀取輸出數據表
輸出數據表會出現在筆記本執行器中繼存放區的共享目錄中。 在 [目錄總 管目錄 ] 窗格中,它們會出現在 [共享 目錄] 列表中。
讀取輸出數據表就像讀取 Unity 目錄中的任何其他資料表一樣。 您必須在資料表、USE CATALOG
共享輸出目錄與USE SCHEMA
自動產生的架構上擁有 SELECT
。 執行建立數據表之筆記本的用戶預設具有這些許可權。
開始之前
本節說明讀取輸出數據表的雲端、組態和計算需求。
雲端需求
雖然中央清理室必須位於 AWS 上,才能支援輸出數據表,但共同作業者工作區可以位於三個雲端中的任何一個:AWS、Azure 或 Google Cloud。 Google Cloud 共同作業者必須是 Clean Rooms 私人預覽版的參與者。
共用輸出目錄需求
您必須先建立保存它們的目錄,才能讀取輸出資料表。 每個乾淨的房間只需要執行此動作一次。
需要的權限: EXECUTE_CLEAN_ROOM_TASK
- 在 Azure Databricks 工作區中,按一下 [目錄]。
- 在 [ 快速存取] 頁面上,按兩下 [ 清理會議室 > ] 按鈕。
- 從清單中選取無塵室。
- 在右窗格中的 [輸出] 底下,按兩下 [建立目錄]。
- 輸入輸出目錄名稱或接受預設值,也就是
<clean-room-name>_output
。
輸出目錄會出現在 [目錄總管目錄] 窗格中的 [共享目錄] 列表中。 您參與的每個清理室都可以在中繼存放區中擁有一個共享輸出目錄。
計算需求
輸出數據表上的查詢需要無伺服器計算。 請參閱連線至無伺服器計算。
讀取輸出數據表所需的許可權
執行建立輸出數據表之筆記本的用戶預設有權從輸出數據表讀取。 所有其他用戶都必須有下列許可權授與他們:
SELECT
數據表上的USE CATALOG
輸出目錄上的USE SCHEMA
輸出架構上的
執行該筆記本
若要在輸出目錄中產生共用輸出數據表,具有清理室存取權的用戶必須執行筆記本。 請參閱 在乾淨的會議室中執行筆記本。 每個筆記本執行都會建立新的輸出架構和數據表。
提示
您可以使用 Azure Databricks 作業來執行筆記本,並在輸出數據表上執行工作,以啟用複雜的工作流程。 請參閱 使用 Azure Databricks 工作流程來執行乾淨的會議室筆記本。
尋找和檢視輸出數據表
執行建立輸出數據表之筆記本的使用者可以在筆記本執行歷程記錄上找到輸出數據表的連結,並在 [清理會議室] UI 中執行詳細數據頁面。 在這兩種情況下,連結都在 [ 輸出架構 ] 欄位中。 請參閱 監視乾淨的會議室筆記本執行。
執行歷程記錄:
執行詳細資料:
您也可以在 [目錄總管目錄] 窗格中的 [共享目錄] 清單中找到輸出目錄。
限制
除了輸出數據表概觀和開始之前所列的需求之外,輸出數據表還有下列限制:
- 只有在 AWS 上裝載中央清理室,以及在輸出數據表功能發行之後建立清理室時,才支援輸出數據表。
- 僅支持數據表。 例如,磁碟區和檢視不是。
- 每個筆記本最多可以建立100個輸出數據表。