生產工作排程速查表
本文旨在為生產作業排程提供明確且有主見的指導。 使用最佳做法有助於降低成本、改善效能,以及加強安全性。
最佳做法 | 影響 | 文件 |
---|---|---|
針對自動化工作流程使用作業叢集 | 成本:作業叢集的計費費率低於互動式叢集。 |
-
建立叢集 - 全用途叢集和作業叢集。 |
重新啟動長時間執行的叢集 | 安全性:重新啟動叢集以利用 Databricks Runtime 的修補程式和錯誤修復。 | - 重新啟動叢集,以使用最新的映像進行更新 |
使用服務主體而非使用者帳戶來執行生產作業 | 安全性:如果作業由個別使用者擁有,當這些使用者離開組織時,這些作業可能會停止執行。 | - 管理服務主體 |
盡可能使用 Databricks 作業執行協調流程 | 成本:如果您僅協調 Azure Databricks 上的工作負載,則無需使用外部工具來協調流程。 | - Databricks 上的協調流程概觀 |
使用 Databricks Runtime 的最新 LTS 版本 | 效能和成本:Azure Databricks 始終在改善 Databricks Runtime 來提高可用性、效能和安全性。 |
-
計算 - Databricks 支援生命週期 |
請勿將生產資料儲存在 DBFS 根目錄中 | 安全性:當資料儲存在 DBFS 根目錄中時,所有使用者都可以存取資料。 |
-
什麼是 DBFS? - 使用 DBFS 根的建議 |