共用方式為


工作區特徵存放區 (舊版)

注意

本文件涵蓋工作區特徵存放區。 僅當您的工作區未啟用 Unity Catalog 時,才使用此頁面。

Databricks 建議使用 Unity Catalog 中的特徵工程。 工作區特徵存放區在未來將會遭取代。

為何使用工作區特徵存放區?

工作區特徵存放區已與 Azure Databricks 的其他元件完全整合。

  • 可探索性。 可從 Databricks 工作區存取的特徵存放區 UI 可讓您瀏覽和搜尋現有的特徵。
  • 譜系。 當您在 Azure Databricks 中建立特徵資料表時,即會儲存用來建立特徵資料表的資料來源並可供存取。 針對特徵資料表中的每個特徵,您也可以存取使用此特徵的模型、筆記本、工作和端點。
  • 與模型評分和服務整合。 當您使用特徵存放區的特徵來訓練模型時,模型會封裝為特徵中繼資料。 當您使用模型進行批次評分或線上推斷時,它會自動從特徵存放區擷取特徵。 呼叫者不需要知道它們,也不需要包含邏輯來查詢或聯結特徵以對新資料評分。 這可讓模型部署和更新變得更容易。
  • 時間點查詢。 特徵存放區支援需要時間點正確性的時間序列和事件型使用案例。

工作區特徵存放區如何運作?

使用特徵存放區的一般機器學習工作流程會遵循下列路徑:

  1. 撰寫程式碼,將未經處理資料轉換為特徵,並建立包含所需特徵的 Spark DataFrame。
  2. 將 DataFrame 寫入工作區特徵存放區中的特徵資料表
  3. 使用特徵存放區中的特徵來訓練模型。 當您這樣做時,模型會儲存用於訓練的特徵規格。 當模型用於推斷時,它會自動從適當的特徵資料表中聯結特徵。
  4. 模型登錄中註冊模型。

現在您可以使用模型從新資料中做出預測。 針對批次使用案例,模型會自動從特徵存放區擷取所需的特徵。

批次機器學習使用案例的特徵存放區工作流程。

針對即時服務使用案例,請將特徵發佈至線上存放區。 請參閱協力廠商線上存放區

在推斷時,模型會從線上存放區讀取預先計算的特徵,並將其與用戶端要求中提供的資料一起聯結至模型服務端點。

所服務的機器學習模型的特徵存放區流程。

開始使用工作區功能存放區

若要開始使用,請嘗試這些範例筆記本。 基本筆記本會逐步引導您建立特徵資料表、使用它來訓練模型,然後使用自動特徵查詢來執行批次評分。 它也會向您介紹特徵工程 UI,並示範如何使用它來搜尋特徵,並了解如何建立和使用特徵。

基本工作區特徵存放區範例筆記本

取得筆記本

計程車範例筆記本說明建立特徵、更新特徵以及將它們用於模型訓練和批次推斷的流程。

工作區特徵存放區計程車範例筆記本

取得筆記本

支援的資料類型

如需支援的資料類型,請參閱支援的資源類型