檢視、管理和分析基礎模型微調執行

發行項
01/23/2025

重要

這項功能在下列區域開放公開預覽：centralus、eastus、eastus2、northcentralus 和 westus。

本文說明如何使用 API 或使用 UI 來檢視、管理和分析基礎模型微調（現在是馬賽克 AI 模型訓練的一部分）執行。

如需建立執行的資訊，請參閱使用基礎模型微調 API 建立定型回合和使用基礎模型微調 UI 建立定型執行。

使用基礎模型微調 API 來檢視和管理定型執行

基礎模型微調 API 提供下列功能來管理定型執行。

取得執行

使用函 get() 式傳回您啟動的名稱或執行物件來執行。

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

清單執行

使用函 list() 式來查看您已啟動的執行。下表列出您可以指定的選擇性篩選。

選用篩選	定義
`finetuning_runs`	要獲取的運行列表。默認為選取所有執行。
`user_emails`	如果您的工作區已啟用共用執行，您可以依據提交定型執行的使用者篩選結果。預設為無使用者篩選。
`before`	要篩選之前執行的 datetime 或 datetime 字串。預設為所有執行。
`after`	要篩選之後執行的 datetime 或 datetime 字串。預設為所有執行。

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

取消訓練執行

若要取消單一定型回合，請使用函 cancel() 式並傳入執行名稱。

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

若要取消多個定型回合，請以清單的形式傳入特定的執行名稱。

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

若要取消實驗中的所有定型執行，請傳入實驗 ID。

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

檢閱定型執行的狀態

下表列出訓練過程生成的事件。執行期間隨時使用函 get_events() 式來查看執行進度。

注意

基礎模型微調會限制最多只能有10個同時運行的執行。這些執行是在佇列、執行中或完成中。當執行處於 COMPLETED、FAILED 或 STOPPED 狀態之後，就不會再被視為作用中。

事件類型	範例事件訊息	定義
`CREATED`	執行已建立。	已建立定型回合。如果資源可用，執行就會啟動。否則，它會進入 `Pending` 狀態。
`STARTED`	執行開始。	資源已配置，且已啟動執行。
`DATA_VALIDATED`	已驗證定型資料。	驗證定型資料的格式正確。
`MODEL_INITIALIZED`	針對基底模型下載並初始化的模型 `meta-llama/Llama-2-7b-chat-hf`資料。	已下載基礎模型的權數，且訓練已準備好開始。
`TRAIN_UPDATED`	[epoch=1/1][batch=50/56][ETA=5min] 火車損失：1.71	報告目前的定型批次、Epoch 或 Token，定型完成的估計時間(不包括檢查點上傳時間)和訓練遺失。每個批次結束時都會更新此事件。如果執行組態以`max_durationtok`單位指定，則會在令牌中報告進度。
`TRAIN_FINISHED`	訓練已完成。	訓練已完成。檢查點上傳開始。
`COMPLETED`	執行已完成。上傳的最終權數。	檢查點已上傳，且執行已完成。
`CANCELED`	已取消執行。	如果在 `fm.cancel()` 上面呼叫，則會取消執行。
`FAILED`	一或多個定型資料集範例具有未知的索引鍵。請檢查文件以取得支援的資料格式。	執行失敗。檢查 `event_message` 可採取動作的詳細資料，或連絡支援人員。

from databricks.model_training import foundation_model as fm

fm.get_events()

使用UI來檢視和管理執行

若要在 UI 中檢視執行：

按一下 左側導覽列中的實驗以顯示實驗頁面。
在數據表中，按兩下實驗的名稱以顯示實驗頁面。實驗頁面會列出與實驗相關聯的所有執行。
若要在數據表中顯示其他資訊或度量，請點擊 []，然後從選單中選取要顯示的項目：
圖表索引標籤中提供了其他執行資訊：
您也可以按下執行的名稱以顯示執行畫面。此畫面可讓您存取執行的其他詳細資料。

檢查點

若要存取檢查點資料夾，請按一下執行畫面上的成品索引標籤 。開啟實驗名稱，然後開啟 checkpoints 資料夾。這些成品檢查點與定型回合結束時已註冊的模型不同。

成品索引標籤上的 checkpoint 資料夾

此資料夾中有幾個目錄：

Epoch 資料夾 (命名 ep<n>-xxx) 包含每個 Composer 檢查點的權數和模型狀態。作曲工具檢查點會透過定型定期儲存，這些檢查點用於繼續微調定型執行，並繼續微調。此檢查點是您傳入做為 custom_weights_path 從這些權數開始另一個訓練回合時傳入的檢查點，請參閱建置自定義模型權數。
在資料夾中 huggingface，擁抱臉部檢查點也會透過訓練定期儲存。下載此資料夾中的內容之後，您可以使用載入這些檢查點，就像使用 AutoModelForCausalLM.from_pretrained(<downloaded folder>)任何其他擁抱臉部檢查點一樣。
checkpoints/latest-sharded-rank0.symlink是保存最新檢查點路徑的檔案，可用來繼續定型。

您也可以在使用 get_checkpoints(run)儲存之後，取得執行的 Composer 檢查點。此函式會接受 run 物件做為輸入。如果檢查點還不存在，系統會提示您在儲存檢查點之後再試一次。

共用方式為