平台管理速查表
本文旨在针对建议的最佳做法为帐户和工作区管理员提供明确和有意见的指导。 帐户或工作区管理员应实施以下做法,帮助优化其 Azure Databricks 帐户中的成本、可观测性、数据治理和安全性。
有关详细的安全最佳做法,请参阅此 PDF:Azure Databricks 安全最佳做法和威胁模型。
最佳做法 | 影响 | Docs |
---|---|---|
启用 Unity Catalog | 数据治理:Unity Catalog 提供跨 Azure Databricks 工作区的集中访问控制、审核、世系和数据发现功能。 | - 设置和管理 Unity Catalog |
使用群集策略 | 成本:利用自动终止(用于全用途群集)、最大群集大小和实例类型限制来控制成本。 可观测性:在群集策略中设置 custom_tags 来强制实施标记。安全:将群集访问模式限制为仅允许用户创建启用了 Unity Catalog 的群集以强制实施数据权限。 |
- 创建和管理群集策略 - 使用标签监视群集使用情况 |
使用服务主体连接到第三方软件 | 安全:服务主体是一种 Databricks 标识类型,允许第三方服务直接对 Databricks 进行身份验证,无需通过单个用户的凭据。 如果单个用户的凭据出现问题,第三方服务也不会中断。 |
- 创建和管理服务主体 |
设置 SCIM 集成 | 安全:与标识提供者集成可以自动化用户预配和取消预配,无需将用户手动添加到 Databricks。 从标识提供者中删除用户时,也会自动从 Databricks 中删除相应用户。 | - 同步标识提供者中的用户和组 |
使用帐户级别组管理访问控制 | 数据治理:创建帐户级别组,以便可以批量控制对工作区、资源和数据的访问权限。 这样就不用为所有用户授予对所有内容的访问权限,或为单个用户授予特定权限。 还可以将组从标识提供者同步到 Databricks 组。 |
- 管理组 - 控制对资源的访问 - 将标识提供者中的组同步到 Databricks - 数据治理指南 |
为 IP 允许列表设置 IP 访问 | 安全:IP 访问列表阻止用户访问不安全网络中 Azure Databricks 资源。 从不安全的网络访问云服务会给企业带来安全风险,尤其是在用户可能已获得授权访问敏感数据或个人数据的情况下 请确保为帐户控制台和工作区设置 IP 访问列表。 |
- 为工作区创建 IP 访问列表 - 为帐户控制台创建 IP 访问列表 |
使用 Databricks 机密或云提供商机密管理器 | 安全:使用 Databricks 机密可以安全地存储外部数据源的凭据。 无需直接将凭据输入到笔记本中,只需引用机密即可向数据源进行身份验证。 | - 管理 Databricks 机密 |
设置个人访问令牌 (PAT) 的过期日期 | 安全:工作区管理员可以将用户、组和服务主体的 PAT。 设置 PAT 的过期日期可以降低丢失令牌的风险,或降低可能导致从工作区渗透数据的长效令牌的风险。 | - 管理个人访问令牌 |
使用系统表监视帐户使用情况 | 可观测性:系统表是帐户操作数据的分析存储,由 Databricks 托管,包括审核日志、数据世系和计费使用情况。 可以使用系统表在整个帐户中实现可观测性。 | - 使用系统表监视使用情况 |