探索模型目錄中的語言模型

已完成

語言模型會影響生成式 AI 應用程式的運作表現,因此請務必慎重地為其選取合適的語言模型。 使用 Azure AI Foundry 開發生成式 AI 應用程式時,您會建置可以使用語言模型來進行數個用途的聊天應用程式:

  • 了解使用者問題。
  • 搜尋相關內容。
  • 產生使用者問題的解答。

在 Azure AI Foundry 入口網站內,您可以在模型目錄中瀏覽可用的語言模型。 讓我們探索模型目錄,以及可透過 Azure AI 取得的語言模型類型。

探索模型目錄

在 Azure AI Foundry 入口網站中,您可以瀏覽至模型目錄,以探索所有可用的語言模型。 此外,您可以將任何模型從 Hugging Face 開放原始碼程式庫匯入模型目錄。

提示

Hugging Face 是開放原始碼社群,讓模型可供大眾使用。 您可以在其 目錄中找到所有模型。 此外,您可以探索文件以深入了解個別模型的運作方式,例如 BERT

Azure AI Foundry 入口網站中模型目錄的螢幕擷取畫面。

Azure AI Foundry 模型目錄會與來自 Hugging Face 和其他來源的模型整合。 透過模型目錄,您可以探索、微調和部署模型。

重要

模型可用性會因位置而異,也稱為區域。 您的位置是在 AI 中心層級上指定。 建立新的 AI 中心時,您可以使用位置協助程式來指定您要部署的模型,以取得您可以在其中部署的位置清單。 您也可以探索模型摘要資料表和區域可用性,以深了解。

探索語言模型

模型目錄中可用的基礎或語言模型已預先定型。 您可以將語言模型部署至端點或微調模型,使其在特製化工作或領域特定知識上執行得更好。

您選取的模型取決於您的使用案例和部署喜好。 首先,您需要考慮您希望模型執行的工作。 例如:

  • 文字分類
  • 詞元分類
  • 問題解答
  • 摘要
  • 翻譯

一些通常用於各種工作的語言模型包括:

模型 描述
BERT (來自轉換器的雙向編碼器表示法) 著重於使用詞元前後的內容來編碼資訊 (雙向)。 當您想要微調模型以執行特定工作,例如 文字分類問題解答時,通常會使用。
GPT (生成式預先定型的轉換器) 定型以建立一致且內容相關的文字,最常用於 文字產生聊天完成等工作。
LLaMA (大型語言模型 Meta AI) Meta 所建立的模型系列。 定型 LLaMA 模型時,焦點一直放在提供比增加模型複雜度還多的定型資料。 您可以使用 LLaMA 模型來 產生文字聊天完成
Phi-3-mini (phi 模型的 3.8B 參數變化) 針對資源限制環境和本機推斷 (例如在手機上) 最佳化的輕量型最先進模型,支援最多 128000 個權杖的長內容提示。 其開發著重於來自人類意見反應的安全性、對應和增強式學習。

選取工作並篩選適合您目標的可用模型之後,您可以檢閱 Azure AI Foundry 中的模型摘要,以思考一些其他考量:

  • 模型功能:評估語言模型的功能,以及它們如何與您的工作對應。 例如,BERT 之類的模型適合用來了解簡短文字。
  • 預先定型資料:考慮用來預先定型語言模型的資料集。 例如,GPT-2 會根據網際網路上未經篩選而容易造成偏差的內容進行定型。
  • 限制和偏差:請注意語言模型中可能出現的任何限制或偏差。
  • 語言支援:探索哪些模型提供特定語言支援或多語系功能,可滿足您的使用案例所需。

提示

雖然 Azure AI Foundry 提供模型目錄中每個語言模型的描述,您仍可透過個別模型卡片進一步找到每個模型的詳細資訊。 模型卡片可在各模型概觀中參考,並裝載於 Hugging Face 網站

比較模型之間的基準

探索語言模型時,您也可以比較可用的模型基準,以在部署和整合模型之前評估模型的品質。 基準就像語言模型的成績單。 基準可使用特定測試或工作將模型與其他模型比較,以協助您了解模型的執行成效。 Azure AI Foundry 入口網站中的模型基準會根據基準計量,為指定的工作提供最佳執行模型的策劃清單。

Azure AI Foundry 入口網站中模型基準的螢幕擷取畫面。

評估語言模型效能的一些常用計量如下:

計量 說明
準確度 正確性分數可在資料集和模型層級取得。 在資料集層級,該分數是針對資料集中所有範例計算的正確性計量的平均值。 除了使用 pass@1 計量的 HumanEval 資料集之外,所使用的精確度計量在所有情況下都完全相符。 完全相符的項目會根據資料集比較模型產生的文字與正確的答案,如果產生的文字完全符合答案,則會報告一個,否則會報告為零。 pass@1 會測量在程式碼產生工作中通過一組單元測試的模型解決方案的比例。 在模型層級,正確性分數是每個模型的資料集層級正確性的平均值。
連貫性 連貫性會評估語言模型以順暢流動、自然閱讀,以及類似人類語言的方式產生輸出的成效。
流暢度 流暢度會評估生成式 AI 預測答案的語言能力。 會評估產生的文字遵守文法規則、語法結構,以及詞彙適當使用方式的成效,從而產生語言正確和聽起來很自然的回應。
GPT 相似性 GPTSimilarity 是一種量化真實句子(或文件)與 AI 模型產生的預測句子之間相似性的度量。 其計算方式是先使用內嵌 API 來計算句子層級內嵌,以取得基礎事實和模型的預測。 這些內嵌代表句子的高維度向量表示法,擷取其語意意義和內容。
基礎性 基礎性會測量語言模型產生的答案與輸入來源的資訊如何對應。
相關性 相關性會測量語言模型所產生回應的範圍,與給定的問題貼近且直接相關。

注意

開發和評估使用語言模型的應用程式時,請務必使用計量來測量模型的和應用程式的效能。 用於比較不同模型基準的相同計量,也可以用來評估開發期間個別模型的效能。 這些計量可協助您了解模型的運作情況,並找出改進的領域。

選取符合您需求的模型,可以是反覆程序。 接下來,您將了解如何部署模型,以便測試並針對模型如何針對您的使用案例最佳化模型進行試驗。