生產工作排程速查表
本文旨在針對生產作業排程提供明確和有意見的指引。 使用最佳做法有助於降低成本、改善效能,以及加強安全性。
最佳做法 | 影響 | 文件 |
---|---|---|
針對自動化工作流程使用作業叢集 | 成本:作業叢集的費率比互動式叢集低。 | - 建立叢集 - 所有用途叢集和作業叢集。 |
重新啟動長時間執行的叢集 | 安全性:重新啟動叢集以利用 Databricks Runtime 的修補程式和錯誤修正。 | - 重新啟動叢集以使用最新的影像進行更新 |
使用服務主體而非使用者帳戶來執行生產作業 | 安全性:如果作業是由個別使用者所擁有,當這些使用者離開組織時,這些作業可能會停止執行。 | - 管理服務主體 |
請盡可能使用 Databricks 作業進行協調流程 | 成本:如果您僅協調 Azure Databricks 上的工作負載,則無需使用外部工具來協調流程。 | - 排程及協調工作流程 |
使用 Databricks Runtime 的最新 LTS 版本 | 效能和成本:Azure Databricks 始終在改善 Databricks Runtime 來提高可用性、效能和安全性。 | - 計算 - Databricks 支援生命週期 |
請勿將生產資料儲存在 DBFS 根目錄中 | 安全性:當資料儲存在 DBFS 根目錄中時,所有使用者都可以存取資料。 | - 什麼是 DBFS? - 使用 DBFS 根的建議 |