共用方式為


Azure AI Services 中的模型推斷端點

Azure AI 服務中的 Azure AI 模型推斷可讓客戶使用單一端點和認證,從旗艦模型提供者取用最強大的模型。 這表示您可以在模型之間切換,並從您的應用程式取用它們,而不需要變更單行程序代碼。

本文說明如何在服務內部組織模型,以及如何使用推斷端點來叫用模型。

部署

Azure AI 模型推斷會使用部署概念讓模型可供使用 部署是在特定組態下提供模型名稱的一種方式。 然後,您可以藉由在要求上指出其名稱來叫用這類模型組態。

部署擷取:

  • 模型名稱
  • 模型版本
  • 布建/容量類型1
  • 內容篩選組態1
  • 速率限制組態1

1 組態可能會根據選取的模型而有所不同。

Azure AI 服務資源可以視需要部署數個模型,除非對這些模型執行推斷,否則不會產生成本。 部署是 Azure 資源,因此會受限於 Azure 原則。

若要深入瞭解如何建立部署,請參閱 新增和設定模型部署

Azure AI 推斷端點

Azure AI 推斷端點可讓客戶使用具有相同驗證和架構的單一端點,為資源中已部署的模型產生推斷。 此端點遵循 Azure AI 模型推斷 API,Azure AI 模型推斷支援的所有模型。 它支援下列強制回應:

  • 文字內嵌
  • 影像內嵌
  • 聊天完成

您可以在概觀一節中看到端點 URL 和認證:

顯示如何取得與資源相關聯 URL 和金鑰的螢幕快照。

路由

推斷端點會將要求內的 參數 name 比對為部署名稱,將要求路由傳送至指定的部署。 這表示 部署會以特定組態下的指定模型別名的形式運作。 這種彈性可讓您在服務中多次部署指定的模型,但視需要在不同的組態下。

此圖顯示路由如何針對 Meta-llama-3.2-8b-指示模型運作,方法是在承載要求內的參數 'model' 中指出這類名稱。

例如,如果您建立名為 Mistral-large的部署,則可以將這類部署叫用為:

使用套件管理員安裝套件 azure-ai-inference,例如 pip:

pip install azure-ai-inference>=1.0.0b5

警告

Azure AI Services 資源需要適用於 Python 的版本 azure-ai-inference>=1.0.0b5

然後,您可以使用套件來取用模型。 下列範例會示範如何建立用戶端以取用聊天完成:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

探索我們的範例,並閱讀 API 參考文件 以開始使用。

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

提示

部署路由不區分大小寫。

SDK

多個 SDK 支援 Azure AI 模型推斷端點,包括 Azure AI 推斷 SDK、Azure AI Foundry SDKAzure OpenAI SDK;這些 SDK 適用於多種語言。 LangChain、LangGraph、Llama-Index、Semantic Kernel 和 AG2 等熱門架構也支援多個整合。 如需詳細資訊,請參閱 支援的程式設計語言和 SDK

Azure OpenAI 推斷端點

部署至 AI 服務的 Azure OpenAI 模型也支援 Azure OpenAI API。 此 API 會公開 OpenAI 模型的完整功能,並支援其他功能,例如助理、線程、檔案和批次推斷。

Azure OpenAI 推斷端點會在部署層級運作,而且它們有自己的 URL,且每個端點都有相關聯的 URL。 不過,您可以使用相同的驗證機制來取用它們。 在 Azure OpenAI API 的 參考頁面中深入瞭解

此圖顯示 Azure OpenAI 部署如何包含每個部署的單一 URL。

每個部署都有一個 URL,其為 Azure OpenAI 基底 URL 和路由/deployments/<model-deployment-name>的串連

重要

Azure OpenAI 端點沒有路由機制,因為每個 URL 對於每個模型部署都是獨佔的。

SDK

OpenAI SDK(AzureOpenAI類別)Azure OpenAI SDK 支援 Azure OpenAI 端點,這些 SDK 以多種語言提供。 如需詳細資訊,請參閱 支援的語言

下一步