创建数据清洁房间
重要
此功能目前以公共预览版提供。
本文介绍如何创建一个数据清洁房间、一个安全私密的环境,各方可以在其中协同处理企业的敏感数据,而不会直接访问彼此的数据。
开始之前
使用数据清洁房间所需的特权因任务而异:
若要创建数据清洁房间,必须具有
CREATE CLEAN ROOM
特权或成为元存储管理员。系统自动将创建者指定为其 Unity Catalog 元存储中数据清洁房间的所有者。若要开始加入与你共享的数据清洁房间,你必须是元存储管理员。
共享数据清洁房间时,协作者组织的元存储管理员会自动获配数据清洁房间的所有权。 元存储管理员可以将所有权重新分配给非元存储管理员。作为数据管理的最佳实践,Databricks 建议将所有权分配给一个组。
如果工作区尚未分配元存储管理员,则必须分配角色。 请参阅分配元存储管理员和管理 Unity Catalog 对象所有权。
要在数据清洁房间中添加和删除数据资产和笔记本,你必须是数据清洁房间的所有者,或者对数据清洁房间具有
MODIFY CLEAN ROOM
权限。 此外,你和数据清洁房间的所有者(如果你不是所有者)必须具有对你添加的表具有SELECT
权限,并对你添加的卷具有READ VOLUME
权限。
若要了解更新数据清洁房间和运行任务(笔记本)的权限要求,请参阅管理数据清洁房间和在数据清洁房间中运行笔记本。
每个元存储最多可以创建五个数据清洁房间。
步骤 1. 请求协作者的共享标识符
在创建清理室之前,必须具有要与之协作的组织的清理室共享标识符。 共享标识符是一个字符串,由组织的全局元存储 ID + 工作区 ID + 联系人用户名(电子邮件地址)组成。 协作者可以位于任何云或区域中。
联系协作者以请求其共享标识符。
协作者可以使用“查找共享标识符”中的说明获取共享标识符。
步骤 2. 创建数据清洁房间
若要创建数据清洁房间,必须使用目录资源管理器。
在 Azure Databricks 工作区中,单击 “目录”。
在“快速访问”页上,单击“数据清洁房间 >”按钮。
或者,单击“目录”窗格顶部的 齿轮图标,并选择“数据清洁房间”。
单击“创建数据清洁房间”。
在“创建数据清洁房间”页上,为创建数据清洁房间输入易记名称。
不能在名称中使用空格、句点或正斜杠 (/)。
保存数据清洁房间名称后,无法更改该名称。 使用协作者认为有用且具有描述性的名称。
选择要在其中创建中央数据清洁房间的云提供商和区域。
云提供商必须与当前的工作区相同,但区域不必相同。 选择时,请考虑组织的数据驻留或其他策略。
(可选)添加注释。
输入协作者的 清理室共享标识符。
请参阅步骤 1:请求协作者的共享标识符。
记下分配给你(创建者)和合作者的目录名称。
所有添加到数据清洁房间的数据资产都将出现在中央数据清洁房间的该目录下,并且可以使用该目录在 Unity Catalog 三级命名空间 (
<catalog>.<schema>.<table-etc>
) 中进行引用。单击“创建数据清洁房间”。
步骤 3. 将数据资产和笔记本添加到数据清洁房间
数据清洁房间中的任何一方(创作者和合作者)都可以将表格、卷和笔记本添加到数据清洁房间。
所需的权限:
你必须是所有者,或者对数据清洁房间拥有
MODIFY CLEAN ROOM
特权。你和数据清洁房间所有者(如果你不是所有者)必须对表具有
SELECT
权限并对添加的任何卷具有READ VOLUME
权限,同时对父目录和构架具有USE CATALOG
和USE SCHEMA
权限。数据清洁房间所有者必须在数据清洁房间的整个使用寿命期间保留这些特权。
注意
以下说明假定你返回到已创建的数据清洁房间以添加资产。 如果刚首次创建了一个数据清洁房间,向导将引导你完成数据资产和笔记本的添加。 无论是否由向导指导,添加这些资产的实际 UI 都是相同的。
若要添加资产,请采取以下操作:
在 Azure Databricks 工作区中,单击 “目录”。
在“快速访问”页上,单击“数据清洁房间 >”按钮。
或者,单击“目录”窗格顶部的 齿轮图标,并选择“数据清洁房间”。
找到并单击要更新的数据清洁房间的名称。
若要添加数据资产(表和卷),请单击“+ 添加数据资产”按钮。
选择要共享的表和卷,然后单击“添加数据资产”。
共享表或卷时,可以选择添加别名。 别名将是在数据清洁房间中唯一可见的名称。
共享表时,可以选择添加分区子句,以便仅共享表格的一部分。 有关如何使用分区来限制共享内容的详细信息,请参阅指定要共享的表格分区。
若要添加笔记本,请单击“+ 添加笔记本”按钮并浏览要添加的笔记本。
可以选择为笔记本提供备用的笔记本名称。
在数据清洁房间中共享的笔记本会查询数据,并在你和其他协作者添加到数据清洁房间的表格和卷上运行数据分析工作负载。
笔记本以隐式审批原则运行:无法运行所创建的笔记本。 你创建协作者使用的笔记本,你的协作者也创建你使用的笔记本。
如果共享包含结果的笔记本,这些结果将与协作者共享。
可以使用笔记本创建 在运行笔记本时临时共享到协作者的元存储的输出表 。 请参阅 在 Databricks Clean Room 中创建和使用输出表。
重要
任何对添加到数据清洁房间的表格或卷的笔记本引用都必须使用创建数据清洁房间时获配的目录名称(数据清洁房间创建者添加的数据资产为“creator”,受邀协作者添加的数据资产为“collaborator”)。 例如,可以将创建者添加的表命名为
creator.sales.california
。同样,请确保笔记本使用分配给数据清洁房间中数据资产的任何别名。