共用方式為


設定 Delta Live Tables 管線

本文說明使用工作區 UI 之 Delta Live Tables 管線的基本設定。

Databricks 建議使用無伺服器開發新的管線。 如需無伺服器管線的設定指示,請參閱 設定無伺服器差異實時數據表管線

本文中的組態指示使用 Unity 目錄。 如需使用舊版 Hive 中繼存放區設定管線的指示,請參閱 搭配舊版 Hive 中繼存放區使用 Delta Live Tables 管線。

注意

UI 有選項可在 JSON 中顯示和編輯設定。 您可以使用UI或 JSON 規格來設定大部分的設定。 某些進階選項只能使用 JSON 設定。

將管線部署到新環境或使用 CLI 或 REST API 時,JSON 設定檔也很有用。

如需 Delta Live Tables JSON 設定設定的完整參考,請參閱 Delta Live Tables 管線設定

設定新的 Delta Live Tables 管線

若要設定新的 Delta Live Tables 管線,請執行下列動作:

  1. 按兩下提要欄中的 [ 差異實時數據表 ]。
  2. 按兩下 [ 建立管線]。
  3. 提供唯 一的管線名稱
  4. (選擇性)使用檔案 檔案選擇器圖示 選擇器將筆記本和工作區檔案設定為 原始程式碼
    • 如果您未新增任何原始程式碼,則會為管線建立新的筆記本。 筆記本會在使用者目錄中的新目錄中建立,而且在您建立管線之後,[管線詳細數據] 窗格中的 [原始程式碼] 字段會顯示存取此筆記本的連結。
      • 建立管線之後,您可以使用 [管線詳細數據] 面板中 [原始程式碼] 字段顯示的 URL 來存取此筆記本。
    • 使用 [ 新增原始碼] 按鈕來新增其他原始程式碼資產。
  5. 選取 [記憶體選項] 下的 [Unity 目錄]。
  6. 選取目錄以發佈數據。
  7. 選取目錄中的架構。 管線中定義的所有串流數據表和具體化檢視都會在此架構中建立。
  8. 在 [計算]段中,核取 [使用 Photon 加速] 旁的方塊。 如需其他計算組態考慮,請參閱 計算組態選項
  9. 按一下 [建立]。

這些建議的組態會建立設定為以 觸發 模式執行的新管線,並使用 目前的 通道。 此組態建議用於許多使用案例,包括開發和測試,而且非常適合應該依排程執行的生產工作負載。 如需排程管線的詳細資訊,請參閱 作業的 Delta Live Tables 管線工作

計算組態選項

Databricks 建議一律使用 增強型自動調整。 其他計算組態的預設值適用於許多管線。

無伺服器管線會移除計算組態選項。 如需無伺服器管線的設定指示,請參閱 設定無伺服器差異實時數據表管線

使用下列設定來自定義計算群組態:

  • 工作區管理員可以設定 叢集原則。 計算原則可讓系統管理員控制使用者可用的計算選項。 請參閱 選取叢集原則

  • 您可以選擇性地設定 叢集模式 ,以使用 固定大小舊版自動調整來執行。 請參閱 使用增強型自動調整來優化差異實時數據表管線的叢集使用率。

  • 針對已啟用自動調整的工作負載,請設定 [最小背景工作角色] 和 [最大背景工作角色] 以設定調整行為的限制。 請參閱 設定 Delta Live Tables 管線的計算。

  • 您可以選擇性地關閉 Photon 加速。 請參閱什麼是 Photon?

  • 使用 叢集標籤來 協助監視與 Delta Live Tables 管線相關聯的成本。 請參閱 設定叢集標籤

  • 設定 實例類型 ,以指定用來執行管線的虛擬機類型。 請參閱 選取實例類型以執行管線

    • 選取針對管線中設定之工作負載優化的背景工作類型
    • 您可以選擇性地選取 與背景工作角色 類型不同的驅動程序類型。 這對於降低具有大型背景工作類型和低驅動程式計算使用率的管線成本,或選擇較大的驅動程序類型,以避免在具有許多小型背景工作角色的工作負載中發生記憶體不足問題很有用。

其他設定考慮

下列組態選項也適用於管線:

  • 產品版本可讓您存取所有 Delta Live Tables 功能。 您可以選擇性地使用 ProCore 產品版本來執行管線。 請參閱 選擇產品版本
  • 在生產環境中執行管線時,您可以選擇使用 連續 管線模式。 請參閱 觸發與連續管線模式
  • 如果您的工作區未針對 Unity 目錄設定,或您的工作負載需要使用舊版 Hive 中繼存放區,請參閱 搭配舊版 Hive 中繼存放區使用 Delta Live Tables 管線。
  • 根據成功或失敗條件新增電子郵件更新的通知。 請參閱新增管線事件的電子郵件通知
  • 使用 [ 組態 ] 欄位來設定管線的機碼/值組。 這些組態有兩個用途:
  • 使用預覽通道,針對暫止的 Delta Live Tables 運行時間變更和試用新功能來測試管線。

選擇產品版本

選取具有管線需求最佳功能的 Delta Live Tables 產品版本。 有下列產品版本可供使用:

  • Core 以執行串流內嵌工作負載。 Core如果您的管線不需要進階功能,例如異動資料擷取 (CDC) 或 Delta Live Tables 預期,請選取版本。
  • Pro 以執行串流內嵌和 CDC 工作負載。 Pro 產品版本支援所有 Core 功能,以及需要根據來源資料變更更新資料表的工作負載支援。
  • Advanced 以執行串流擷取工作負載、CDC 工作負載以及需要預期的工作負載。 Advanced產品版本支援 和 Pro 版本的功能Core,並包含具有 Delta Live Tables 預期的數據品質限制。

您可以在建立或編輯管線時選取產品版本。 您可以為每個管線選擇不同的版本。 請參閱 Delta Live Tables 產品頁面

注意:如果您的管線包含所選產品版本不支援的功能,例如預期,您會收到錯誤訊息,說明錯誤的原因。 然後,您可以編輯管線以選取適當的版本。

設定原始碼

您可以使用 Delta Live Tables UI 中的檔案選取器來設定定義管線的原始碼。 管線原始碼定義於 Databricks 筆記本或儲存在工作區檔案中的 SQL 或 Python 指令碼中。 當您建立或編輯管線時,您可以新增一或多個筆記本或工作區檔案,或筆記本和工作區檔案的組合。

因為 Delta Live Tables 會自動分析數據集相依性來建構管線的處理圖形,因此您可以依任何順序新增原始程式碼資產。

您可以修改 JSON 檔案,以包含 SQL 中定義的 Delta Live Tables 原始程式碼,以及儲存在工作區檔案中的 Python 腳本。 下列範例包含筆記本和工作區檔案:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

管理使用 Python 之管線的外部相依性

Delta Live Tables 支援在管線中使用外部相依性,例如 Python 套件和連結庫。 若要瞭解使用相依性的選項和建議,請參閱 管理 Delta Live Tables 管線的 Python 相依性。

使用儲存在 Azure Databricks 工作區中的 Python 模組

除了在 Databricks 筆記本中實作 Python 程式代碼之外,您還可以使用 Databricks Git 資料夾或工作區檔案,將您的程式代碼儲存為 Python 模組。 當您在相同管線的多個管線或筆記本中使用通用功能時,將程式代碼儲存為 Python 模組特別有用。 若要瞭解如何搭配管線使用 Python 模組,請參閱 從 Git 資料夾或工作區檔案匯入 Python 模組。