创建数据清洁房间

本文介绍如何创建一个数据清洁房间、一个安全私密的环境,各方可以在其中协同处理企业的敏感数据,而不会直接访问彼此的数据。

开始之前

使用数据清洁房间所需的特权因任务而异:

  • 若要创建数据清洁房间,必须具有 CREATE CLEAN ROOM 特权或成为元存储管理员。系统自动将创建者指定为其 Unity Catalog 元存储中数据清洁房间的所有者。

  • 若要开始加入与你共享的数据清洁房间,你必须是元存储管理员。

    共享数据清洁房间时,协作者组织的元存储管理员会自动获配数据清洁房间的所有权。 元存储管理员可以将所有权重新分配给非元存储管理员。作为数据管理的最佳做法,Databricks 建议将所有权分配给组。

    如果工作区尚未分配元存储管理员,则必须分配角色。 请参阅分配元存储管理员管理 Unity Catalog 对象所有权

  • 要在数据清洁房间中添加和删除数据资产和笔记本,你必须是数据清洁房间的所有者,或者对数据清洁房间具有 MODIFY CLEAN ROOM 权限。 此外,你和清洁室的所有者(如果你不是所有者)必须对你添加的表和视图具有 SELECT 权限,并对你添加的卷具有 READ VOLUME 权限。

若要了解更新数据清洁房间和运行任务(笔记本)的权限要求,请参阅管理数据清洁房间在数据清洁房间中运行笔记本

每个元存储最多可以创建五个数据清洁房间。

步骤 1. 请求协作者的共享标识符

在创建清理室之前,必须具有要与之协作的组织的清理室共享标识符。 共享标识符是一个字符串,由组织的全局元存储 ID + 工作区 ID + 联系人用户名(电子邮件地址)组成。 协作者可以位于任何云或区域中。

联系协作者以请求其共享标识符。

协作者可以使用“查找共享标识符”中的说明获取共享标识符。

步骤 2. 创建数据清洁房间

若要创建数据清洁房间,必须使用目录资源管理器。

  1. 在 Azure Databricks 工作区中,单击 “目录”图标“目录”。

  2. 在“快速访问”页上,单击“数据清洁房间 >”按钮。

    或者,单击“目录”窗格顶部的 齿轮图标 齿轮图标,并选择“数据清洁房间”。

  3. 单击“创建数据清洁房间”

  4. 在“创建数据清洁房间”页上,为创建数据清洁房间输入易记名称。

    不能在名称中使用空格、句点或正斜杠 (/)。

    保存数据清洁房间名称后,无法更改该名称。 使用协作者认为有用且具有描述性的名称。

  5. 选择要在其中创建中央数据清洁房间的云提供商和区域。

    云提供商必须与当前的工作区相同,但区域不必相同。 选择时,请考虑组织的数据驻留或其他策略。

  6. (可选)添加注释。

  7. 输入协作者的 清理室共享标识符

    请参阅步骤 1:请求协作者的共享标识符

    在完整部署之前,您可以使用您的共享标识符或当前元存储中其他用户的标识符来测试您的洁净室。 这样做会在当前元存储中创建两个清洁室。 例如,如果创建标题为 test_clean_room的干净房间,则还会显示名为 test_clean_room_collaborator 的第二个干净房间。 在同一元存储中与协作者一起运行笔记本的效果等同于与外部协作者一起运行笔记本。 请参阅在清洁室中运行笔记本

  8. 记下分配给你(创建者)和合作者的目录名称。

    所有添加到数据清洁房间的数据资产都将出现在中央数据清洁房间的该目录下,并且可以使用该目录在 Unity Catalog 三级命名空间 (<catalog>.<schema>.<table-etc>) 中进行引用。

  9. 选择网络访问策略类型。 创建洁净室后,无法更改。

    注意

    受限访问 可能会延迟资产可用性长达 10 分钟,并且不支持 Google Cloud 协作者。

    创建干净房间后,可以在“安全”选项卡中查看网络访问策略。

  10. 单击“创建数据清洁房间”

如果当前工作区设置为 HIPAA 符合性安全配置文件,则创建一个干净房间时,该设置将应用于中心清理室。 合作伙伴需要从具有相同安全级别的工作区访问无尘室。 请参阅 合规性安全配置文件

步骤 3. 将数据资产和笔记本添加到数据清洁房间

清洁室中的任何一方(创建者和协作者)都可以向清洁室添加表、卷、视图和笔记本。

所需的权限:

  • 你必须是所有者,或者对数据清洁房间拥有 MODIFY CLEAN ROOM 特权。

  • 你和清洁室的所有者(如果你不是所有者)必须对任何表或视图具有 SELECT,对你添加的任何卷具有 READ VOLUME,并对父目录和架构具有 USE CATALOGUSE SCHEMA 权限。

    数据清洁房间所有者必须在数据清洁房间的整个使用寿命期间保留这些特权。

注意

以下说明假定你返回到已创建的清洁室以添加资产。 如果你刚刚首次创建了一个清洁室,向导将引导你添加数据资产和笔记本。 无论是否由向导指导,添加这些资产的实际 UI 都是相同的。

若要添加资产,请采取以下操作:

  1. 在 Azure Databricks 工作区中,单击 “目录”图标“目录”。

  2. 在“快速访问”页上,单击“数据清洁房间 >”按钮。

    或者,单击“目录”窗格顶部的 齿轮图标 齿轮图标,并选择“数据清洁房间”。

  3. 找到并单击要更新的数据清洁房间的名称。

  4. 单击“+ 添加数据资产”以添加表、卷或视图。

  5. 选择要共享的数据资产,然后单击 添加数据资产。

    你在共享表、卷或视图时,可以选择添加别名。 别名将是在数据清洁房间中唯一可见的名称。

    共享表时,可以选择添加分区子句,以便仅共享表格的一部分。 有关如何使用分区来限制共享内容的详细信息,请参阅指定要共享的表格分区

注意

若要参与联合表共享的专用预览版,请联系 Azure Databricks 帐户代表。 请参阅什么是 Lakehouse Federation?

  1. 若要添加笔记本,请单击“+ 添加笔记本”按钮并浏览要添加的笔记本。

    可以选择为笔记本提供备用的笔记本名称

    在清洁室中共享的笔记本会在你和其他协作者添加到清洁室的表、视图和卷上查询数据和运行数据分析工作负载。

    笔记本以隐式审批原则运行:无法运行所创建的笔记本。 你创建协作者使用的笔记本,你的协作者也创建你使用的笔记本。

    如果共享包含结果的笔记本,这些结果将与协作者共享。

    可以使用笔记本创建 在运行笔记本时临时共享到协作者的元存储的输出表 。 请参阅 在 Databricks Clean Room 中创建和使用输出表。

    若要使用测试数据集,请下载 示例笔记本

    重要

    笔记本对添加到清洁室的表、视图或卷的任何引用都必须使用创建清洁室时分配的目录名称(清洁室创建者添加的数据资产为“creator”,受邀协作者添加的数据资产为“collaborator”)。 例如,可以将创建者添加的表命名为 creator.sales.california

    同样,需要验证笔记本是否使用了分配给清洁室中数据资产的任何别名。