工作的筆記本任務
使用筆記本任務來部署 Databricks 筆記本。
設定筆記本任務
開始之前,您必須在使用者設定工作可存取的位置中具有筆記本。
注意
工作 UI 會根據其他已設定的設定動態顯示選項。
若要開始流程以設定 Notebook
任務:
- 流覽至 [工作 UI] 中的 [任務] 索引標籤。
- 在 [類型] 下拉式功能表中,選取
Notebook
。
設定來源
在 [來源] 下拉式功能表中,使用下列其中一個選項選取 Python 指令碼的位置。
工作區
透過完成下列步驟,使用 [工作區] 來設定儲存在工作區中的筆記本:
- 按一下 [路徑] 欄位。 [選取筆記本] 對話方塊隨即出現。
- 瀏覽至筆記本,按一下以反白顯示檔案,然後按一下 [確認]。
注意
您可以使用此選項來設定儲存在 Databricks Git 資料夾中筆記本的任務。 Databricks 建議將 [Git 提供者] 選項與遠端 Git 存放庫搭配使用,以對使用工作排程的資產進行版本設定。
Git 提供者
使用 [Git 提供者] 來設定儲存在遠端 Git 存放庫中的筆記本。
UI 所顯示的選項取決於您是否已在其他地方設定了 Git 提供者。 只有一個遠端 Git 存放庫可用於工作中的所有任務。 請參閱搭配工作使用 Git。
重要
從遠端 Git 存放庫執行的 Azure Databricks 工作所建立的筆記本是暫時的,無法用來追蹤 MLflow 執行、實驗或模型。 從工作建立筆記本時,請先使用工作區 MLflow 實驗 (而非筆記本 MLflow 實驗),並在工作區筆記本中呼叫 mlflow.set_experiment("/path/to/experiment")
,再執行任何 MLflow 追蹤程式碼。 如需詳細資料,請參閱防止 MLflow 實驗中的資料遺失。
[路徑] 欄位會出現在您設定 Git 參考之後。
輸入筆記本的相對路徑,例如 etl/bronze/ingest.py
。
重要
當您輸入相對路徑時,請勿以 /
或 ./
開頭。 例如,如果您想要存取之筆記本的絕對路徑是 /etl/bronze/ingest.py
,請在 [路徑] 字段中輸入 etl/bronze/ingest.py
。
設定計算和相依程式庫
- 使用 [計算] 來選取或設定在筆記本中支援邏輯的叢集。
- 如果您使用
Serverless
計算,請使用 [環境和程式庫] 欄位來選取、編輯或新增環境。 請參閱安裝筆記本相依性。 - 對於所有其他計算組態,按下 [相依程式庫] 下的 [+ 新增]。 此時 [新增相依程式庫] 對話方塊將隨即顯示。
- 可以選取現有的程式庫或上傳新的程式庫。
- 只能使用儲存在計算組態所支援位置的程式庫。 請參閱 Python 程式庫支援。
- 每個程式庫來源都有不同的程式庫選取或上傳流程。 請參閱程式庫。
完成工作組態
- (選擇性) 將 [參數] 設定為可在筆記本中使用
dbutils.widgets
存取的索引鍵/值組。 請參閱設定任務參數。 - 按一下 [儲存任務]。
限制
筆記本儲存格輸出總計 (所有筆記本儲存格的合併輸出) 受限於 20 MB 的大小限制。 此外,個別儲存格輸出受限於 8MB 大小限制。 如果儲存格總輸出超過大小 20 MB,或個別儲存格的輸出大於 8MB,則會被取消執行並標示為失敗。
如果您需要尋找接近或超出限制的儲存格,請針對通用叢集執行筆記本,並使用此筆記本自動儲存技術。