Microsoft Purview 域和集合体系结构和最佳做法
数据映射是 Microsoft Purview 统一治理解决方案的核心,是一项服务,可在整个数据资产中保留资产及其元数据的最新地图。 若要冻结数据映射,需要注册并扫描数据源。 在组织中,可能有数千个数据源由集中式或分散式业务部门、团队和环境管理和治理。 若要对此进行管理,可以使用 Microsoft Purview 中的域和集合。
注意
本文中的最佳做法建议适用于使用 租户级 帐户 () Microsoft Purview 帐户 https://purview.microsoft.com 。
域
在 Microsoft Purview 中, 域 是数据映射的基础元素,表示 Microsoft Purview 帐户中的顶级层次结构。 它们支持在组织内部进行职责分离、有效的组织和管理数据治理,尤其是在有独立运营但共享通用 Entra ID 租户的子公司或业务部门时。 通过使用域,组织可以实现多种功能,包括:
- 组织:域有助于对属于业务部门或区域的数据源、资产、扫描和安全相关资源等资源进行逻辑分组。
- 委派:域是集合之上的层次结构,允许Microsoft Purview 管理员将特定管理任务委托给特定业务部门或子组织的 Microsoft Purview 数据管理中的组件子集。
- 安全性:通过隔离域中的对象,管理员可以实施有针对性的安全措施并更有效地控制访问。 例如,连接、凭据和策略等资源对于特定域可以是特定且可见的。
- 生命周期管理:域有助于在同一租户中分离开发、测试、QA、预生产和生产资源。
- 资源隔离:由于区域、法律或法规要求,域有助于隔离资源。
集合
Microsoft Purview 中的集合支持元数据的组织或次组织映射。 通过使用集合,可以管理和维护层次结构中业务部门内的数据源、扫描和资产,而不是平面结构。 借助集合,可以根据组织计划如何使用 Microsoft Purview 来管理数据,生成数据布局的自定义分层模型。
集合还为数据映射中的元数据提供安全边界。 基于 Microsoft Purview 中的集合层次结构设置和维护对集合、数据源和元数据的访问,遵循最低特权模型:
- 用户具有执行其作业所需的最小访问权限。
- 用户无权访问他们不需要的敏感数据。
了解关系
-
域 更具战略性和以策略为中心,而 集合 更具操作性和以访问为中心。 例如,在具有多个细分市场(如医院、诊所、研究和管理)的大型医疗保健组织中,可以按如下所示定义同一Microsoft Entra ID租户、域和集合:
- 域:组织为每个细分创建域。 这些域以策略为中心,这意味着它们为每个细分市场定义高级治理策略、合规性要求和数据管理策略。 例如,“医院”域可能有与患者数据隐私和医疗保健法规相关的策略,而“研究”域可能侧重于临床试验的数据共享协议和道德准则。 每个域可以有自己的凭据集、扫描规则集、策略和连接集,以及集合、数据源、扫描和资产,这些集合对其他域中的用户和管理员不可见。
- 集合:在“医院”域中,需要管理多个操作任务。 组织为不同的运营单位(如紧急服务、住院护理和门诊服务)创建集合。 这些集合更具操作性和以访问为中心,这意味着它们组织数据源、资产和扫描特定于每个操作单元。 对这些集合的访问基于医院细分用户的角色和职责进行控制。 例如,只有急诊科人员可以访问紧急服务集合,而住院护理经理有权访问住院护理收集。
- 集合 可以存在于域中,继承在域级别设置的治理策略。
- 在 Microsoft Purview 数据治理中,域和集合具有不同的功能。 一个帐户可以有一个默认域和最多四个自定义域。 每个域可以有自己的集合层次结构。
- Purview 管理员角色的用户成员可以创建和管理域,并通过授予每个业务部门作为 Purview 域管理员角色的访问权限,以管理其自己的域。
定义层次结构
设计建议
根据组织的法律、安全要求以及组织的数据管理和治理结构,开始设计域和集合体系结构。 查看本文中建议 的原型 。
在 Microsoft Purview 中构建域和集合时,请将安全性和访问管理视为设计决策过程的一部分。
从默认域开始,并在默认域中生成集合层次结构。 如果满足以下任何要求,请使用其他域:
需要在同一租户下生成生产环境和非生产环境。
你有多个区域,需要从逻辑上分隔资源,并跨这些区域隔离责任。
组织在同一租户下有多个公司或业务部门,需要分离资源并分离管理和职责。
每个域或集合都有一个 name 属性和一个友好名称属性。 如果使用 Microsoft Purview 治理门户 部署域或集合,系统会自动分配一个随机的六字母名称以避免重复。
目前,域或集合名称最多可以包含 36 个字符,集合友好名称最多可以包含 100 个字符。
如果可以,请避免将组织结构复制到深层嵌套的集合层次结构中。 如果无法避免这样做,请确保对层次结构中的每个集合使用不同的名称,以使集合易于区分。
如果计划批量部署域和集合以及角色分配,请使用 API 自动部署域和集合。
使用专用服务主体名称 (SPN) 在数据映射上运行操作,以使用 API 管理域、集合和角色分配。 使用 SPN 可以减少具有提升权限并遵循最低特权准则的用户数。
设计注意事项
域仅适用于使用 租户级别帐户Microsoft Purview 帐户。
请考虑,除了默认域之外,Microsoft Purview 帐户最多可以有四个域。 作为合并当前 Microsoft Purview 帐户的一部分,现有数据映射的内容(包括集合、数据源、资产和扫描)将迁移到新域。
如果你计划在租户中加入具有不同法律要求的新组织,请创建新域。
以下资源部署在租户级别,并跨所有域可见:
- Typedefs
- 托管属性
- 术语表术语
- 分类和分类规则
- Metamodel
- 集成运行时
- 工作流
域提供以下资源的分离:
- 凭据
- 安全连接
- 自定义扫描规则集
- 高级资源集和模式规则
- 策略
- ADF 连接
- 集合和所有可限定为集合的资源
集合提供以下资源的分离:
- 数据源
- 扫描
- 资产
每个 Microsoft Purview 帐户都使用默认域创建。 默认域名与 Microsoft Purview 帐户名称相同。 无法删除默认域,但可以更改默认域的友好名称。
集合可以根据需要具有任意数量的子集合。 但每个集合只能有一个域和一个父集合。
Microsoft Purview 中的集合层次结构可以支持多达 256 个集合,最多支持 8 个深度级别。 这不包括根集合。
根据设计,无法在单个 Microsoft Purview 帐户中多次注册数据源。 此体系结构有助于避免将不同级别的访问控制分配给单个数据源的风险。 如果多个团队使用单个数据源的元数据,则可以在父集合中注册和管理数据源。 然后,可以在每个子集合下创建相应的扫描,以便相关资产显示在每个子集合下。
即使数据源在较低级别的集合中注册,沿袭连接和项目也会附加到默认域。
运行新扫描时,默认情况下,扫描部署在数据源所在的集合中。 可以选择选择其他子集合来运行扫描。 因此,资产属于子集合下。
如果域为空,则可以将其删除。
如果集合没有任何资产、关联的扫描、数据源或子集合,则可以删除该集合。
如果用户被授予源集合和目标集合的数据源管理员角色,则允许跨集合移动数据源。
如果用户被授予源集合和目标集合的数据策展人角色,则允许跨集合移动资产。
若要对集合执行移动和重命名操作,请查看以下建议和注意事项:
若要重命名集合,必须是集合管理员角色的成员。
若要移动集合,你必须是源集合和目标集合的集合管理员角色的成员。
定义授权模型
Microsoft Purview 包含 Microsoft Defender for Office 365 中的角色,以及存在于 Purview 数据平面Microsoft的角色。 部署 Microsoft Purview 帐户后,系统会自动创建默认域,Microsoft Purview 帐户的创建者将成为 Purview 管理员角色的一部分。 有关Microsoft Purview 数据映射和统一目录的权限的详细信息,请参阅角色和权限文档。
设计建议
请考虑为租户实施 紧急访问 或中断策略,以便在需要时恢复对 purview 默认域Microsoft的访问权限,以避免Microsoft Purview 帐户级锁定。 记录使用紧急帐户的过程。
尽量减少 Purview 管理员、域管理员和集合管理员的数量。 在默认域中最多分配三个域管理员用户,包括 SPN 和你的安全帐户。 将集合管理员角色分配给顶级集合或子集合。
将角色分配给组而不是单个用户,以减少管理开销和管理单个角色时出现的错误。
在根集合中分配服务主体以实现自动化。
若要提高安全性,请通过多重身份验证为 purview 管理员、域管理员和集合管理员、数据源管理员和数据策展人启用Microsoft Entra条件访问。 确保从条件访问策略中排除紧急帐户。
设计注意事项
Microsoft Purview 访问管理已迁移到 Microsoft Defender for Office 365 中的数据平面和角色。 不再使用 Azure 资源管理器角色,因此应使用 Microsoft Purview 来分配角色。
在 Microsoft Purview 中,可以将角色分配给用户、安全组和服务主体, (包括从部署 Microsoft Purview 帐户的同一Microsoft Entra租户上的Microsoft Entra ID) 托管标识。
必须先将来宾帐户作为 B2B 用户添加到Microsoft Entra租户,然后才能将Microsoft Purview 角色分配给外部用户。
默认情况下,域管理员还获取数据源管理员、数据读取者和数据策展人角色,以便他们有权读取或修改资产。
默认情况下,全局管理员作为集合管理员添加到默认域上。
默认情况下,所有角色分配都由所有子集合自动继承。 但是,可以对任何集合(根集合除外)启用 “限制继承权限 ”。 限制继承的权限 会从所有父集合中删除继承的角色,集合管理员角色除外。
对于Azure 数据工厂连接:若要连接到Azure 数据工厂,你必须是默认域的集合管理员。
如果需要连接到Azure 数据工厂进行世系,请在 Microsoft Purview 根集合级别向数据工厂的托管标识授予数据管理员角色。 将数据工厂连接到创作 UI 中的 Microsoft Purview 时,数据工厂会尝试自动添加这些角色分配。 如果在 Microsoft Purview 默认域中具有集合管理员角色,则此操作有效。
域和集合原型
可以根据集中式、分散式或混合数据管理和治理模型部署Microsoft Purview 域和集合。 此决策基于业务、法律和安全要求。
示例 1:具有单个环境和共享法律要求的单个组织
此结构适用于以下组织:
- 位于单个地理位置,并按照相同的法律要求运营。
- 拥有一个集中式数据管理和治理团队,其中下一级别的数据管理属于部门、团队或项目。
层次结构由以下垂直部分组成:
域:
- 默认域:Contoso
默认域下的集合:
- 部门为每个部门 (委托集合)
- 团队或项目 (基于项目) 进一步隔离
不需要更多域,因为没有具体的业务或法律要求来添加更多域。
在中心集合中注册和扫描组织级别的共享数据源。
部门级共享数据源在部门集合中注册和扫描。
每个数据源在其相应的集合中注册和扫描。 因此,资产也会出现在同一集合中。
示例 2:采用集中管理的单一多区域组织
此方案适用于组织:
- 这在多个区域中具有存在。
- 其中,数据治理团队在每个区域中集中或分散。
- 其中,数据管理团队分布在每个地理位置,并且还有集中式联合管理。
- 需要管理自己的数据源和资源的团队
域和集合层次结构由以下垂直部分组成:
域:
- 默认域:FourthCoffee
默认域下的集合:
- 根据数据源和数据所有者所在的地理位置,地理位置 (顶级集合)
- 部门为每个部门 (委托集合)
- 团队或项目 (基于项目) 进一步隔离
在此方案中,每个区域在 Microsoft Purview 帐户的默认域下都有自己的集合。 数据源在各自地理位置的相应集合中注册和扫描。 因此,资产也会显示在区域的集合层次结构中。
如果你有集中式数据管理和治理团队,则可以从默认域授予他们访问权限。 当你这样做时,他们会获得对数据映射中整个数据资产的监督。 (可选)集中式团队可以注册和扫描任何共享数据源。 集中式团队还可以管理安全资源,例如凭据和集成运行时。
基于区域的数据管理和治理团队可以从其相应的集合获取访问权限。
部门级共享数据源在部门集合中注册和扫描。
示例 3:具有多个环境的单个组织
对于所有类型的生产环境和非生产环境,并且需要尽可能隔离资源,则此方案非常有用。 可以转换数据以使其更有意义的数据科学家和数据工程师可以管理原始区域和精简区域。 然后,他们可以将数据移动到相应环境中的“生成”或“特选”区域。
域和集合层次结构由以下垂直部分组成:
域:
- 默认域:Fabrikam 生产
- 自定义域 1:开发和测试
- 自定义域 2:QA
每个域下的集合可以遵循以下任何垂直区域:
- 根据项目) ,部门、团队或项目 (进一步隔离
- 数据转换阶段 (原始、扩充、生成/策展、开发等 )
数据科学家和数据工程师可以在其相应的区域上拥有数据策展人角色,以便他们可以策展元数据。 可以向整个数据角色和业务用户授予对特选区域的数据读取者访问权限。
示例 4:多个组织或公司,使用具有分散式管理的同一 Entra ID 租户
此选项可用于多个公司共享同一 Entra ID 租户且每个组织需要组织元数据和管理自己的资源的情况
注意
如果租户中以前有多个 Microsoft Purview 帐户,则选择迁移的第一个帐户将成为默认域,可以将其他帐户升级到单独的域。
域和集合层次结构由以下垂直部分组成:
域:
- 默认域:父公司或组织,例如 Contoso
- 自定义域 1:FourthCoffee
- 自定义域 2:Fabrikam
每个域下的集合可以遵循以下任何垂直区域:
- 根据项目) ,部门、团队或项目 (进一步隔离
- 数据转换阶段 (原始、扩充、生成/策展、开发等 )
- 组织内的区域
每个组织都有自己的域,其集合层次结构位于 Microsoft Purview 帐户中。 安全资源在每个域中进行管理,并在相应的域中注册和扫描数据源。 资产将添加到特定域的子集合层次结构中。
如果你有集中式数据管理和治理组织,则可以作为默认域,以便他们可以管理共享资源,例如集成运行时、托管属性等。
组织数据管理和治理团队可以从其较低级别的相应集合获取访问权限,具体取决于每个域中的集中式或分散式管理。
注意
多个组织可以创建和使用共享的非生产域,每个组织在非生产域中都有自己的顶级集合。
访问管理选项
如果要在整个组织中实现数据大众化,请使用一个域,并将默认域中的数据读取者角色分配给数据管理、治理和业务用户。 将子集合级别的数据源管理员和数据策展人角色分配给相应的数据管理和治理团队。
如果需要限制对组织中元数据搜索和发现的访问,请在特定的集合级别分配数据读取者和数据策展人角色。 例如,可以限制美国员工,以便他们只能在美国集合级别读取数据,而不能在 LATAM 集合中读取数据。
仅当需要创建其他域时,例如分离 prod 和非专业环境、将多个帐户升级到一个统一帐户或在同一租户中拥有具有不同安全要求的多个公司时。
可以使用域和集合在 Microsoft Purview 数据映射中应用这些方案的组合。
将域管理员角色分配给默认集合中的集中式数据安全和管理团队。 将其他域和较低级别集合的进一步域或集合管理委托给相应的团队。