生产作业安排速查表
本文旨在为生产作业安排提供明确和有观点的指导。 使用最佳做法有助于降低成本、提高性能并加强安全性。
最佳做法 | 影响 | Docs |
---|---|---|
将作业群集用于自动化工作流 | 成本:作业群集的计费费率低于交互式群集。 | - 创建群集 - 全用途和作业群集。 |
重启长时间运行的群集 | 安全性:重启群集以利用 Databricks Runtime 的补丁和 bug 修复。 | - 重启群集以使用最新映像更新该群集 |
使用服务主体而不是用户帐户来运行生产作业 | 安全性:如果作业由个人用户拥有,则当这些用户离开组织时,这些作业可能会停止运行。 | - 管理服务主体 |
尽可能使用 Databricks 作业运行业务流程 | 成本:如果只是在 Azure Databricks 上编排工作负载,则无需使用外部工具来编排。 | - 计划和编排工作流 |
使用 Databricks Runtime 的最新 LTS 版本 | 性能和成本:Azure Databricks 始终在改进 Databricks Runtime 以提高可用性、性能和安全性。 | - 计算 - Databricks 支持生命周期 |
不要在 DBFS 根目录中存储生产数据 | 安全性:当数据存储在 DBFS 根目录中时,所有用户都可以访问它。 | - 什么是 DBFS? - 有关使用 DBFS 根的建议 |