共用方式為


概念 - 微調 AI 和機器學習工作流程的語言模型

在本文中,您將瞭解微調語言模型,包括一些常見的方法,以及套用微調結果如何改善 Azure Kubernetes Service (AKS) 上 AI 和機器學習工作流程的效能。

預先定型的語言模型

預先定型的語言模型 (PLM) 提供無障礙方式,以開始使用 AI 推斷,並廣泛使用於自然語言處理 (NLP)。 PLM 是使用深度神經網路從網際網路使用大規模文字主體進行定型,並可針對特定工作微調較小型的資料集。 這些模型通常包含數十億個參數,或權數,這些加權是在預先定型流程期間學習的。

PLM 可以學習通用語言表示法,以擷取自然語言的統計屬性,例如在指定內容中出現的單字或單字序列的可能性。 這些表示法可以透過微調特定工作資料集的模型,傳送至下游工作,例如文字分類、具名實體辨識及問答。

優缺點

下表列出在 AI 和機器學習工作流程中使用 PLM 的一些優缺點:

優點 缺點
• 在機器學習生命週期中快速開始部署。
• 避免與模型訓練相關聯的大量計算成本。
• 減少儲存大型標籤資料集的需求。
• 可能會根據預先定型資料來源提供一般化或過時的回應。
• 可能不適合所有工作或網域。
• 效能可能會因推斷內容而有所不同。

微調方法

參數高效微調

參數高效微調 (PEFT) 是一種在相對較小的資料集上微調 PLM 的方法,其計算資源有限。 PEFT 會使用加法和選擇性方法等技術組合來更新權數,以改善特定工作的模型效能。 PEFT 需要最少的計算資源和彈性的資料數量,使其適用於低資源設定。 此方法會保留原始預先定型模型的大部分權數,並更新其餘權數以符合內容特定、已標記的資料。

低階調適

低階調適 (LoRA) 是 PEFT 方法,通常用於自訂新工作的大型語言模型。 此方法會追蹤模型權數的變更,並有效率地儲存只代表模型可定型參數的較小權數矩陣,減少記憶體使用量和微調所需的計算能力。 LoRA 會建立微調結果,稱為配接器層,可以暫時儲存並提取到模型架構中以取得新的推斷作業。

量化低階調適 (QLoRA) 是 LoRA 的延伸模組,可藉由將量化引入配接器層來進一步減少記憶體使用量。 如需詳細資訊,請參閱使用 bitsandbites、4 位元量化及 QLoRA 更方便存取 LLM。

在 AKS 上實驗微調語言模型

Kubernetes AI 工具鏈運算子 (KAITO) 是開放原始碼運算子,可將 Kubernetes 叢集中的小型和大型語言模型部署自動化。 AI 工具鏈操作員附加元件利用 KAITO 來簡化上線、節省基礎結構成本,並減少 AKS 叢集上開放原始碼模型的推斷時間。 附加元件會自動佈建適當大小的 GPU 節點,並將相關聯的推斷伺服器設定為所選模型的端點伺服器。

透過 KAITO 0.3.0 版或更新版本,您可以使用下列功能,有效率地微調支援的 MIT 和 Apache 2.0 授權模型:

  • 將您的重新定型資料儲存為私人容器登錄中的容器映像。
  • 在私人容器登錄中裝載新的配接器層映像。
  • 有效率地提取映像,以在新案例中使用配接器層進行推斷。

如需開始使用 KAITO 微調的指引,請參閱 Kaito Tuning Workspace API 文件。 若要深入瞭解如何在 AKS 叢集中使用 KAITO 部署語言模型,請參閱 KAITO 模型 GitHub 存放庫

重要

整個 AKS 文件和範例都會提及開放原始碼的軟體。 您部署的軟體會從 AKS 服務等級協定、有限擔保和 Azure 支援 中排除。 當您搭配 AKS 使用開放原始碼技術時,請參閱個別社群和專案維護人員所提供的支援選項,以開發計畫。

例如,Ray GitHub 存放 描述數個因回應時間、用途和支援層級而異的平臺。

Microsoft負責建置我們在 AKS 上部署的開放原始碼套件。 該責任包括擁有組建、掃描、簽署、驗證和 Hotfix 程式的完整擁有權,以及控制容器映像中的二進位檔。 如需詳細資訊,請參閱 AKS 弱點管理AKS 支援涵蓋範圍

下一步

若要深入了解 AKS 上的容器化 AI 和機器學習工作負載,請參閱下列文章: