共用方式為


檢視、管理和分析基礎模型微調執行

重要

這項功能在下列區域開放公開預覽centraluseastuseastus2northcentraluswestus

本文說明如何使用 API 或使用 UI 來檢視、管理和分析基礎模型微調(現在是馬賽克 AI 模型訓練的一部分) 執行。

如需建立執行的資訊,請參閱 使用基礎模型微調 API 建立定型回合和使用 基礎模型微調 UI 建立定型執行。

使用基礎模型微調 API 來檢視和管理定型執行

基礎模型微調 API 提供下列功能來管理定型執行。

取得執行

使用函 get() 式傳回您啟動的名稱或執行物件來執行。

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

清單執行

使用函 list() 式來查看您已啟動的執行。 下表列出您可以指定的選擇性篩選。

選用篩選 定義
finetuning_runs 要獲取的運行列表。 默認為選取所有執行。
user_emails 如果您的工作區已啟用共用執行,您可以依據提交定型執行的使用者篩選結果。 預設為無使用者篩選。
before 要篩選之前執行的 datetime 或 datetime 字串。 預設為所有執行。
after 要篩選之後執行的 datetime 或 datetime 字串。 預設為所有執行。
from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

取消訓練執行

若要取消單一定型回合,請使用 函 cancel() 式並傳入執行名稱。

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

若要取消多個定型回合,請以清單的形式傳入特定的執行名稱。

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

若要取消實驗中的所有定型執行,請傳入實驗 ID。

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

檢閱定型執行的狀態

下表列出訓練過程生成的事件。 執行期間隨時使用函 get_events() 式來查看執行進度。

注意

基礎模型微調會限制最多只能有10個同時運行的執行。 這些執行是在佇列、執行中或完成中。 當執行處於 COMPLETED、FAILED 或 STOPPED 狀態之後,就不會再被視為作用中。

事件類型 範例事件訊息 定義
CREATED 執行已建立。 已建立定型回合。 如果資源可用,執行就會啟動。 否則,它會進入 Pending 狀態。
STARTED 執行開始。 資源已配置,且已啟動執行。
DATA_VALIDATED 已驗證定型資料。 驗證定型資料的格式正確。
MODEL_INITIALIZED 針對基底模型下載並初始化的模型 meta-llama/Llama-2-7b-chat-hf資料。 已下載基礎模型的權數,且訓練已準備好開始。
TRAIN_UPDATED [epoch=1/1][batch=50/56][ETA=5min] 火車損失:1.71 報告目前的定型批次、Epoch 或 Token,定型完成的估計時間(不包括檢查點上傳時間)和訓練遺失。 每個批次結束時都會更新此事件。 如果執行組態以max_durationtok單位指定,則會在令牌中報告進度。
TRAIN_FINISHED 訓練已完成。 訓練已完成。 檢查點上傳開始。
COMPLETED 執行已完成。 上傳的最終權數。 檢查點已上傳,且執行已完成。
CANCELED 已取消執行。 如果在 fm.cancel() 上面呼叫,則會取消執行。
FAILED 一或多個定型資料集範例具有未知的索引鍵。 請檢查文件以取得支援的資料格式。 執行失敗。 檢查 event_message 可採取動作的詳細資料,或連絡支援人員。
from databricks.model_training import foundation_model as fm

fm.get_events()

使用UI來檢視和管理執行

若要在 UI 中檢視執行:

  1. 按一下 左側導覽列中的實驗以顯示實驗頁面。

  2. 在數據表中,按兩下實驗的名稱以顯示實驗頁面。 實驗頁面會列出與實驗相關聯的所有執行。

    實驗頁面

  3. 若要在數據表中顯示其他資訊或度量,請點擊 [加號],然後從選單中選取要顯示的項目:

    新增計量到圖表

  4. 圖表索引標籤中提供了其他執行資訊:

    圖表索引標籤

  5. 您也可以按下執行的名稱以顯示執行畫面。 此畫面可讓您存取執行的其他詳細資料。

    執行頁面

檢查點

若要存取檢查點資料夾,請按一下執行畫面上的成品索引標籤 。 開啟實驗名稱,然後開啟 checkpoints 資料夾。 這些成品檢查點與定型回合結束時已註冊的模型不同。

成品索引標籤上的 checkpoint 資料夾

此資料夾中有幾個目錄:

  • Epoch 資料夾 (命名 ep<n>-xxx) 包含每個 Composer 檢查點的權數和模型狀態。 作曲工具檢查點會透過定型定期儲存,這些檢查點用於繼續微調定型執行,並繼續微調。 此檢查點是您傳入做為 custom_weights_path 從這些權數開始另一個訓練回合時傳入的檢查點,請參閱 建置自定義模型權數
  • 在資料夾中 huggingface,擁抱臉部檢查點也會透過訓練定期儲存。 下載此資料夾中的內容之後,您可以使用 載入這些檢查點,就像使用 AutoModelForCausalLM.from_pretrained(<downloaded folder>)任何其他擁抱臉部檢查點一樣。
  • checkpoints/latest-sharded-rank0.symlink是保存最新檢查點路徑的檔案,可用來繼續定型。

您也可以在使用 get_checkpoints(run)儲存之後,取得執行的 Composer 檢查點。 此函式會接受 run 物件做為輸入。 如果檢查點還不存在,系統會提示您在儲存檢查點之後再試一次。