Azure AI Services 中的模型推斷端點

發行項
01/30/2025

Azure AI 服務中的 Azure AI 模型推斷可讓客戶使用單一端點和認證，從旗艦模型提供者取用最強大的模型。這表示您可以在模型之間切換，並從您的應用程式取用它們，而不需要變更單行程序代碼。

本文說明如何在服務內部組織模型，以及如何使用推斷端點來叫用模型。

部署

Azure AI 模型推斷會使用部署概念讓模型可供使用。部署是在特定組態下提供模型名稱的一種方式。然後，您可以藉由在要求上指出其名稱來叫用這類模型組態。

部署擷取：

模型名稱
模型版本
布建/容量類型¹
內容篩選組態¹
速率限制組態¹

¹ 組態可能會根據選取的模型而有所不同。

Azure AI 服務資源可以視需要部署數個模型，除非對這些模型執行推斷，否則不會產生成本。部署是 Azure 資源，因此會受限於 Azure 原則。

若要深入瞭解如何建立部署，請參閱新增和設定模型部署。

Azure AI 推斷端點

Azure AI 推斷端點可讓客戶使用具有相同驗證和架構的單一端點，為資源中已部署的模型產生推斷。此端點遵循 Azure AI 模型推斷 API，Azure AI 模型推斷支援的所有模型。它支援下列強制回應：

文字內嵌
影像內嵌
聊天完成

您可以在概觀一節中看到端點 URL 和認證：

路由

推斷端點會將要求內的參數 name 比對為部署名稱，將要求路由傳送至指定的部署。這表示 部署會以特定組態下的指定模型別名的形式運作。這種彈性可讓您在服務中多次部署指定的模型，但視需要在不同的組態下。

例如，如果您建立名為 Mistral-large的部署，則可以將這類部署叫用為：

使用套件管理員安裝套件 azure-ai-inference，例如 pip：

pip install azure-ai-inference>=1.0.0b5

警告

Azure AI Services 資源需要適用於 Python 的版本 azure-ai-inference>=1.0.0b5 。

然後，您可以使用套件來取用模型。下列範例會示範如何建立用戶端以取用聊天完成：

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

探索我們的範例，並閱讀 API 參考文件以開始使用。

從 npm 安裝套件 @azure-rest/ai-inference：

npm install @azure-rest/ai-inference

然後，您可以使用套件來取用模型。下列範例會示範如何建立用戶端以取用聊天完成：

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    "https://<resource>.services.ai.azure.com/models", 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

探索我們的範例，並閱讀 API 參考文件以開始使用。

使用下列命令來安裝 Azure AI 推斷程式庫：

dotnet add package Azure.AI.Inference --prerelease

匯入下列命名空間：

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

然後，您可以使用套件來取用模型。下列範例會示範如何建立用戶端以取用聊天完成：

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri("https://<resource>.services.ai.azure.com/models"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

探索我們的範例，並閱讀 API 參考文件以開始使用。

將套件新增至您的專案：

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

然後，您可以使用套件來取用模型。下列範例會示範如何建立用戶端以取用聊天完成：

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

探索我們的範例，並閱讀 API 參考文件以開始使用。

使用參考區段來探索 API 設計和可用的參數。例如，聊天完成的參考區段會詳細說明如何使用路由/chat/completions，根據聊天格式的指示產生預測。請注意，URL 的根目錄包含路徑 /models ：

要求

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletions chatCompletions = client.complete(new ChatCompletionsOptions(chatMessages));

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

要求

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

提示

部署路由不區分大小寫。

SDK

多個 SDK 支援 Azure AI 模型推斷端點，包括 Azure AI 推斷 SDK、Azure AI Foundry SDK 和 Azure OpenAI SDK;這些 SDK 適用於多種語言。 LangChain、LangGraph、Llama-Index、Semantic Kernel 和 AG2 等熱門架構也支援多個整合。如需詳細資訊，請參閱支援的程式設計語言和 SDK 。

Azure OpenAI 推斷端點

部署至 AI 服務的 Azure OpenAI 模型也支援 Azure OpenAI API。此 API 會公開 OpenAI 模型的完整功能，並支援其他功能，例如助理、線程、檔案和批次推斷。

Azure OpenAI 推斷端點會在部署層級運作，而且它們有自己的 URL，且每個端點都有相關聯的 URL。不過，您可以使用相同的驗證機制來取用它們。在 Azure OpenAI API 的參考頁面中深入瞭解

每個部署都有一個 URL，其為 Azure OpenAI 基底 URL 和路由/deployments/<model-deployment-name>的串連。

重要

Azure OpenAI 端點沒有路由機制，因為每個 URL 對於每個模型部署都是獨佔的。

SDK

OpenAI SDK（AzureOpenAI類別）和 Azure OpenAI SDK 支援 Azure OpenAI 端點，這些 SDK 以多種語言提供。如需詳細資訊，請參閱支援的語言。

共用方式為

Azure AI Services 中的模型推斷端點

部署

Azure AI 推斷端點

路由

SDK

Azure OpenAI 推斷端點

SDK

下一步

意見反應

其他資源