生产作业安排速查表

本文旨在为生产作业安排提供明确和有观点的指导。 使用最佳做法有助于降低成本、提高性能并加强安全性。

最佳做法 影响 Docs
将作业群集用于自动化工作流 成本:作业群集的计费费率低于交互式群集。 - 创建群集
- 全用途和作业群集
重启长时间运行的群集 安全性:重启群集以利用 Databricks Runtime 的补丁和 bug 修复。 - 重启群集以使用最新映像更新该群集
使用服务主体而不是用户帐户来运行生产作业 安全性:如果作业由个人用户拥有,则当这些用户离开组织时,这些作业可能会停止运行。 - 管理服务主体
尽可能使用 Databricks 作业运行业务流程 成本:如果只是在 Azure Databricks 上编排工作负载,则无需使用外部工具来编排。 - 计划和编排工作流
使用 Databricks Runtime 的最新 LTS 版本 性能和成本:Azure Databricks 始终在改进 Databricks Runtime 以提高可用性、性能和安全性。 - 计算
- Databricks 支持生命周期
不要在 DBFS 根目录中存储生产数据 安全性:当数据存储在 DBFS 根目录中时,所有用户都可以访问它。 - 什么是 DBFS?
- 有关使用 DBFS 根的建议