檢視、管理和分析基礎模型微調執行
重要
這項功能在下列區域開放公開預覽:centralus
、eastus
、eastus2
、northcentralus
和 westus
。
本文說明如何使用 API 或使用 UI 來檢視、管理和分析基礎模型微調(現在是馬賽克 AI 模型訓練的一部分) 執行。
如需建立執行的資訊,請參閱 使用基礎模型微調 API 建立定型回合和使用 基礎模型微調 UI 建立定型執行。
使用基礎模型微調 API 來檢視和管理定型執行
基礎模型微調 API 提供下列功能來管理定型執行。
取得執行
使用函 get()
式傳回您啟動的名稱或執行物件來執行。
from databricks.model_training import foundation_model as fm
fm.get('<your-run-name>')
清單執行
使用函 list()
式來查看您已啟動的執行。 下表列出您可以指定的選擇性篩選。
選用篩選 | 定義 |
---|---|
finetuning_runs |
要獲取的運行列表。 默認為選取所有執行。 |
user_emails |
如果您的工作區已啟用共用執行,您可以依據提交定型執行的使用者篩選結果。 預設為無使用者篩選。 |
before |
要篩選之前執行的 datetime 或 datetime 字串。 預設為所有執行。 |
after |
要篩選之後執行的 datetime 或 datetime 字串。 預設為所有執行。 |
from databricks.model_training import foundation_model as fm
fm.list()
# filtering example
fm.list(before='2023-01-01', limit=50)
取消訓練執行
若要取消單一定型回合,請使用 函 cancel()
式並傳入執行名稱。
from databricks.model_training import foundation_model as fm
run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)
若要取消多個定型回合,請以清單的形式傳入特定的執行名稱。
from databricks.model_training import foundation_model as fm
runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)
若要取消實驗中的所有定型執行,請傳入實驗 ID。
from databricks.model_training import foundation_model as fm
experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)
檢閱定型執行的狀態
下表列出訓練過程生成的事件。 執行期間隨時使用函 get_events()
式來查看執行進度。
注意
基礎模型微調會限制最多只能有10個同時運行的執行。 這些執行是在佇列、執行中或完成中。 當執行處於 COMPLETED、FAILED 或 STOPPED 狀態之後,就不會再被視為作用中。
事件類型 | 範例事件訊息 | 定義 |
---|---|---|
CREATED |
執行已建立。 | 已建立定型回合。 如果資源可用,執行就會啟動。 否則,它會進入 Pending 狀態。 |
STARTED |
執行開始。 | 資源已配置,且已啟動執行。 |
DATA_VALIDATED |
已驗證定型資料。 | 驗證定型資料的格式正確。 |
MODEL_INITIALIZED |
針對基底模型下載並初始化的模型 meta-llama/Llama-2-7b-chat-hf 資料。 |
已下載基礎模型的權數,且訓練已準備好開始。 |
TRAIN_UPDATED |
[epoch=1/1][batch=50/56][ETA=5min] 火車損失:1.71 | 報告目前的定型批次、Epoch 或 Token,定型完成的估計時間(不包括檢查點上傳時間)和訓練遺失。 每個批次結束時都會更新此事件。 如果執行組態以max_duration tok 單位指定,則會在令牌中報告進度。 |
TRAIN_FINISHED |
訓練已完成。 | 訓練已完成。 檢查點上傳開始。 |
COMPLETED |
執行已完成。 上傳的最終權數。 | 檢查點已上傳,且執行已完成。 |
CANCELED |
已取消執行。 | 如果在 fm.cancel() 上面呼叫,則會取消執行。 |
FAILED |
一或多個定型資料集範例具有未知的索引鍵。 請檢查文件以取得支援的資料格式。 | 執行失敗。 檢查 event_message 可採取動作的詳細資料,或連絡支援人員。 |
from databricks.model_training import foundation_model as fm
fm.get_events()
使用UI來檢視和管理執行
若要在 UI 中檢視執行:
按一下 左側導覽列中的實驗以顯示實驗頁面。
在數據表中,按兩下實驗的名稱以顯示實驗頁面。 實驗頁面會列出與實驗相關聯的所有執行。
若要在數據表中顯示其他資訊或度量,請點擊 [
],然後從選單中選取要顯示的項目:
圖表索引標籤中提供了其他執行資訊:
您也可以按下執行的名稱以顯示執行畫面。 此畫面可讓您存取執行的其他詳細資料。
檢查點
若要存取檢查點資料夾,請按一下執行畫面上的成品索引標籤 。 開啟實驗名稱,然後開啟 checkpoints 資料夾。 這些成品檢查點與定型回合結束時已註冊的模型不同。
此資料夾中有幾個目錄:
- Epoch 資料夾 (命名
ep<n>-xxx
) 包含每個 Composer 檢查點的權數和模型狀態。 作曲工具檢查點會透過定型定期儲存,這些檢查點用於繼續微調定型執行,並繼續微調。 此檢查點是您傳入做為custom_weights_path
從這些權數開始另一個訓練回合時傳入的檢查點,請參閱 建置自定義模型權數。 - 在資料夾中
huggingface
,擁抱臉部檢查點也會透過訓練定期儲存。 下載此資料夾中的內容之後,您可以使用 載入這些檢查點,就像使用AutoModelForCausalLM.from_pretrained(<downloaded folder>)
任何其他擁抱臉部檢查點一樣。 -
checkpoints/latest-sharded-rank0.symlink
是保存最新檢查點路徑的檔案,可用來繼續定型。
您也可以在使用 get_checkpoints(run)
儲存之後,取得執行的 Composer 檢查點。 此函式會接受 run 物件做為輸入。 如果檢查點還不存在,系統會提示您在儲存檢查點之後再試一次。