設定和編輯 Databricks 作業
本文著重於使用工作流程工作區 UI 建立、設定和編輯作業的指示。 Azure Databricks 有其他進入點和設定工具,包括下列專案:
- 若要了解如何使用 Databricks CLI 建立和執行作業,請參閱什麼是 Databricks CLI?。
- 若要了解如何使用作業 API 來建立和執行作業,請參閱 REST API 參考中的作業。
- 若要了解如何直接在 Databricks 筆記本中執行及排程作業,請參閱建立和管理排程的筆記本作業。
提示
若要將作業檢視為 YAML,請按下作業的 [立即執行] 左側的 Kebab 功能表,然後按下 [切換至程式碼版本 (YAML)]。
建立新作業
本節說明建立新作業以使用工作區 UI 排程筆記本工作所需的最低設定。
作業包含一或多個工作。 您可以設定該作業的第一個工作,以建立新的作業。
注意
每個工作類型在工作區 UI 中都有動態組態選項。 請參閱設定和編輯 Databricks 工作。
- 按下側邊欄中的 [工作流程],然後按下 。
- 輸入 [工作名稱]。
- 選取 [路徑] 欄位的筆記本。
- 按一下 [建立工作]。
如果您的工作區未針對作業啟用無伺服器計算,您必須選取 [計算] 選項。 Databricks 建議在設定工作時一律使用作業計算。
新的作業以預設名稱 New Job <date> <time>
出現於工作區作業清單。
在工作區中選取要編輯的作業
若要使用工作區 UI 編輯參數,請進行下列步驟:
- 按一下側邊欄中的 [工作流程]。
- 在 [名稱] 資料行,按下工作名稱。
使用作業 UI 來執行下列動作:
- 編輯工作設定
- 重新命名、複製或刪除作業
- 將新工作新增至現有的作業
- 編輯工作設定
編輯工作設定
側邊面板包含 [工作詳細資料]。 您可以變更工作的觸發程序、計算組態、通知、並行執行數目上限,設定持續時間閾值,以及新增或變更標籤。 如果已啟用作業存取控制,也可以編輯作業權限。
為所有作業工作新增參數
在作業層級設定的參數傳遞至任何接受索引鍵/值參數的作業工作,包括設定為接受關鍵字引數的 Python Wheel 檔案。 請參閱參數化作業。
將標籤新增至作業
若要將標籤或 key:value 屬性新增至作業,可以在編輯作業時新增標籤。 您可以使用標籤在 [作業清單] 中篩選作業。 您可以使用 department
標籤篩選屬於特定部門的所有作業。
注意
由於作業標籤並非設計來儲存敏感性資訊,例如個人識別資訊或密碼,因此 Databricks 建議只針對非敏感性值使用標籤。
卷標也會傳播至執行作業時所建立的作業叢集,讓您能夠搭配現有的叢集監視使用標籤。
請按下 [作業詳細資料] 側面板中的 [+ 標籤] 以新增或編輯標籤。 您可將標記新增為索引鍵/值組或標籤。 若要新增標籤,請在 [索引鍵] 欄位中輸入標籤,並將 [值] 欄位留空。
將預算原則新增至作業
重要
這項功能目前處於公開預覽版。
如果您的工作區使用預算原則來將無伺服器使用量設為屬性,您可以使用 [工作詳細數據] 側面板中的 [預算原則] 設定來選取作業的預算原則。 請參閱 無伺服器使用與預算原則。
重新命名、複製或刪除作業
若要重新命名作業,請移至作業 UI,然後按下作業名稱。
您可以藉助複製現有的作業,快速建立新的作業。 複製作業會建立作業的相同複本,但作業識別碼除外。 若要複製作業,請執行下列動作:
- 移至作業的作業 UI。
- 按下 [立即執行] 按鈕旁的 。
- 從下拉式功能表中,選取 [複製作業]。
- 輸入複製作業的名稱。
- 按下 [複製]。
刪除作業
若要刪除作業,移至作業的頁面上,按下作業名稱旁的 ,然後從下拉式功能表中選取 [刪除作業]。
搭配作業使用 Git
如果您的作業包含任何支援使用遠端 Git 提供者的工作,則作業 UI 包含 [Git] 欄位,以及新增或編輯 Git 設定的選項。
您可以設定下列工作類型來使用遠端 Git 存放庫:
- Notebooks
- Python 指令碼
- SQL 檔案
- dbt
作業中的所有工作都必須參考遠端存放庫中的相同認可。 針對使用遠端存放庫的作業,您只能指定下列其中一項:
- [分支]:分支的名稱,例如
main
。 - [標籤]:標籤的名稱,例如
release-1.0.0
。 - [認可]:特定認可的雜湊,例如
e0056d01
。
作業執行開始時,Databricks 會擷取遠端存放庫的快照認可,以確保整個作業針對相同版本的程式碼執行。
當您檢視執行儲存在遠端 Git 存放庫中之程式碼的工作執行歷程記錄時,[工作執行詳細資料] 面板會包含 Git 詳細資料,包括與執行相關聯的認可 SHA。 請參閱檢視執行歷程記錄。
注意
設定為使用遠端 Git 存放庫的工作無法寫入工作區檔案。 這些任務必須將暫存數據寫入附加到設置為運行該任務的計算驅動節點的短暫存儲中,並將持久性數據寫入卷或數據表。
Databricks 建議只參考 Git 資料夾中的工作區路徑,以在開發期間快速反覆執行和測試。 當您將作業移至預備和生產環境時,Databricks 建議設定這些作業以參考遠端 Git 存放庫。 若要深入瞭解如何搭配 Databricks 作業使用遠端 Git 存放庫,請參閱下一節。
設定 Git 提供者
作業 UI 有一個對話方塊可設定遠端 Git 存放庫。 您可以從 [Git] 標題下的 [作業詳細資料] 面板,或在設定為使用 [Git 提供者]的任何工作中存取此對話方塊。
用來存取對話方塊的選項會根據工作類型而有所不同,以及是否已為作業設定 Git 參考。 啟動對話方塊的按鈕包括 [新增 Git 設定]、[編輯] 或 [新增 Git 參考]。
在 [Git 資訊] 對話方塊中 (在由 [作業詳細資料] 面板存取時,直接 標示為 [Git]),輸入以下詳細資訊:
- Git 存放庫 URL。
- 從下拉式清單中選取您的 [Git 提供者] 。
- 在 [Git 參考] 欄位中,輸入對應至您要執行之原始程式碼版本的分支、標記或認可識別碼。
- 從下拉式清單選取 [分支]、[標記] 或 [認可]。
注意
對話方塊可能會提示您輸入以下:遺漏此帳戶的 Git 認證。新增認證。 您必須先設定遠端 Git 存放庫,才能使用它作為參考。 請參閱設定 Databricks Git 資料夾 (Repos)。
設定作業執行持續時間或串流待辦專案計量的閾值
重要
Databricks 作業的串流監控目前在 公開預覽版。
您可以設定作業執行持續時間或串流待辦專案計量的選擇性閾值。 若要設定持續時間或串流計量閾值,請按一下 [持續時間和串流待辦專案閾值],它位於 [作業詳細數據] 面板中。
若要設定作業工期閾值,包括作業的預期和最大完成時間,請在 [計量] 下拉功能表中選取 [執行持續時間]。 若要設定任務的預期完成時間,請在 [警告] 欄位中輸入持續時間。 如果作業超過此閾值,就會觸發事件。 您可以使用此事件在作業執行緩慢時發出通知。 請參閱 超過臨界值時的通知設定。 若要設定工作的完成時間上限,請在 [逾時] 欄位中輸入最大持續時間。 如果作業未在此時間完成,Azure Databricks 會將其狀態設定為「逾時」。
若要設定串流待辦專案計量的臨界值,請選取 [計量] 下拉功能表中的計量,然後輸入閾值的值。 若要瞭解串流來源支援的特定計量,請參閱 檢視串流工作的計量。
如果因為超過臨界值而觸發事件,您可以使用 事件來傳送通知。 請參閱 在超過臨界值時設定通知。
您可以選擇性地指定工作的持續時間閾值。 請參閱 設定任務執行時間或串流積壓指標的門檻。