探索 Azure Machine Learning 中的微調基礎模型

已完成

若要從 Azure Machine Learning 中的模型目錄微調基礎模型,您可以使用工作室、Python SDK 或 Azure CLI 中提供的使用者介面。

準備您的資料和計算

您必須先準備定型資料並建立 GPU 計算叢集,才能微調基礎模型來改善模型效能。

提示

在 Azure Machine Learning 中建立 GPU 計算叢集時,系統會為您建立經過最佳化的 GPU 虛擬機器。 深入了解 Azure 中可用的 GPU 虛擬機器大小

定型資料可以是 JSON Line (JSONL)、CSV 或 TSV 格式。 資料需求會根據您想要微調模型的特定工作而有所不同。

Task 資料集需求
文字分類 兩個資料行:Sentence (字串) 和 Label (整數/字串)
詞元分類 兩個資料行:Token (字串) 和 Tag (字串)
問題解答 五個資料行:Question (字串)、Context (字串)、Answers(字串)、Answers_start (整數) 和 Answers_text (字串)
摘要 兩個資料行:Document (字串) 和 Summary (字串)
翻譯 兩個資料行:Source_language (字串) 和 Target_language (字串)

注意

您的資料集必須具備必要的需求。 不過,您仍可使用不同的資料行名稱,將資料行對應至適當的需求。

準備好資料集和計算叢集後,就可以在 Azure Machine Learning 中設定微調作業。

選擇基礎模型

瀏覽至 Azure Machine Learning 工作室中的模型目錄時,您可以探索所有的基礎模型。

Screenshot of model catalog in Azure Machine Learning.

您可以根據想要微調模型的工作篩選可用的模型。 每個工作都有數個選項可供基礎模型選擇。 決定工作的基礎模型時,您可以檢查模型的描述以及參考的模型卡片。

決定為基礎模型進行微調之前,您不妨考量以下事項:

  • 模型功能:評估基礎模型的功能及其與您工作的配合程度。 例如,BERT 之類的模型適合用來了解簡短文字。
  • 預先定型資料:請考慮用於預先定型基礎模型的資料集。 例如,GPT-2 會根據網際網路上未經篩選而容易造成偏差的內容進行定型。
  • 限制和偏差:請注意基礎模型中可能存在的任何限制或偏差。
  • 語言支援:探索哪些模型提供特定語言支援或多語系功能,可滿足您的使用案例所需。

提示

雖然 Azure Machine Learning 工作室提供模型目錄中每個基礎模型的描述,您仍可透過個別模型卡片進一步找到每個模型的詳細資訊。 模型卡片可在各模型概觀中參考,並裝載於 Hugging Face 網站

設定微調作業

若要使用 Azure Machine Learning 工作室設定微調作業,請執行下列步驟:

  1. 選擇基礎模型。
  2. 選取 [微調] 開啟可協助您設定作業的快顯視窗。
  3. 選取工作型別。
  4. 選取定型資料,將定型資料中的資料行對應至資料集需求。
  5. 讓 Azure Machine Learning 自動分割定型資料來建立驗證和測試資料集,或提供您自己的資料集。
  6. 選取 Azure Machine Learning 管理的 GPU 計算叢集。
  7. 選取 [完成] 提交微調作業。

提示

或者,您也可以探索進階設定,變更微調作業的名稱和工作參數 (例如學習率) 之類的設定。

Screenshot of fine-tuning job configuration.

提交微調作業之後,系統會建立管線作業來定型模型。 您可以檢閱所有輸入,並從作業輸出收集模型。

Screenshot of completed pipeline job that fine-tuned a foundation model.