使用 Azure AI 模型推斷端點來取用模型

發行項
01/30/2025

Azure AI 服務中的 Azure AI 模型推斷可讓客戶使用單一端點和認證，從旗艦模型提供者取用最強大的模型。這表示您可以在模型之間切換，並從您的應用程式取用它們，而不需要變更單行程序代碼。

本文說明如何使用推斷端點來叫用它們。

端點

Azure AI 服務會根據您要尋找的工作類型來公開多個端點：

Azure AI 模型推斷端點
Azure OpenAI 端點

Azure AI 推斷端點（通常是使用表單https://<resource-name>.services.ai.azure.com/models），可讓客戶使用具有相同驗證和架構的單一端點，為資源中已部署的模型產生推斷。所有模型都支援這項功能。此端點遵循 Azure AI 模型推斷 API。

部署至 AI 服務的 Azure OpenAI 模型也支援 Azure OpenAI API（通常是使用表單 https://<resource-name>.openai.azure.com）。此端點會公開 OpenAI 模型的完整功能，並支援更多功能，例如助理、線程、檔案和批次推斷。

若要深入瞭解如何套用 Azure OpenAI 端點 ，請參閱 Azure OpenAI 服務檔。

在 Azure AI 模型推斷端點中使用路由功能

推斷端點會將要求內的參數 name 比對為部署名稱，將要求路由傳送至指定的部署。這表示 部署會以特定組態下的指定模型別名的形式運作。這種彈性可讓您在服務中多次部署指定的模型，但視需要在不同的組態下。

例如，如果您建立名為 Mistral-large的部署，則可以將這類部署叫用為：

使用套件管理員安裝套件 azure-ai-inference，例如 pip：

pip install azure-ai-inference>=1.0.0b5

警告

Azure AI Services 資源需要適用於 Python 的版本 azure-ai-inference>=1.0.0b5 。

然後，您可以使用套件來取用模型。下列範例會示範如何建立用戶端以取用聊天完成：

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

探索我們的範例，並閱讀 API 參考文件以開始使用。

從 npm 安裝套件 @azure-rest/ai-inference：

npm install @azure-rest/ai-inference

然後，您可以使用套件來取用模型。下列範例會示範如何建立用戶端以取用聊天完成：

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    "https://<resource>.services.ai.azure.com/models", 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

探索我們的範例，並閱讀 API 參考文件以開始使用。

使用下列命令來安裝 Azure AI 推斷程式庫：

dotnet add package Azure.AI.Inference --prerelease

匯入下列命名空間：

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

然後，您可以使用套件來取用模型。下列範例會示範如何建立用戶端以取用聊天完成：

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri("https://<resource>.services.ai.azure.com/models"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

探索我們的範例，並閱讀 API 參考文件以開始使用。

將套件新增至您的專案：

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

然後，您可以使用套件來取用模型。下列範例會示範如何建立用戶端以取用聊天完成：

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

探索我們的範例，並閱讀 API 參考文件以開始使用。

使用參考區段來探索 API 設計和可用的參數。例如，聊天完成的參考區段會詳細說明如何使用路由/chat/completions，根據聊天格式的指示產生預測。請注意，URL 的根目錄包含路徑 /models ：

要求

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

針對聊天模型，您可以建立要求，如下所示：

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletions chatCompletions = client.complete(new ChatCompletionsOptions(chatMessages));

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

要求

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

如果您指定不符合任何指定模型部署的模型名稱，您會收到模型不存在的錯誤。您可以藉由建立模型部署來控制哪些模型可供使用者使用，如新增和設定模型部署中所述。

限制

Azure OpenAI Batch 無法與 Azure AI 模型推斷端點搭配使用。您必須使用專用的部署 URL，如 Azure OpenAI 檔中 Batch API 支援中所述。
推斷端點不支援即時 API。使用專用的部署URL。

共用方式為

使用 Azure AI 模型推斷端點來取用模型

端點

在 Azure AI 模型推斷端點中使用路由功能

限制

下一步

意見反應

其他資源