你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure AI 服务中的模型推理终结点

项目
02/04/2025

Azure AI 服务中的 Azure AI 模型推理允许客户使用单个终结点和凭据使用旗舰模型提供商提供的最强大模型。这意味着你可以在模型之间切换，并从应用程序中使用它们，并且一行代码都不需要修改。

本文解释了如何在服务内部组织模型，以及如何使用推理终结点来调用它们。

部署

Azure AI 模型推理使用部署概念来使模型可用。部署是在特定配置下为模型提供名称的方法。然后，你可以通过在请求中指示其名称来调用此类模型配置。

部署捕获：

模型名称
模型版本
预配/容量类型¹
内容筛选配置¹
速率限制配置¹

¹ 配置可能因所选模型而异。

Azure AI 服务资源可以根据需要具有尽可能多的模型部署，除非对这些模型进行推理，否则不会产生成本。部署是 Azure 资源，因此它们受 Azure 策略的约束。

若要详细了解如何创建部署，请参阅添加和配置模型部署。

Azure AI 推理终结点

Azure AI 推理终结点允许客户使用具有相同身份验证和模式的单一终结点为资源中部署的模型生成推理。此终结点遵循 Azure AI 模型推理 API，Azure AI 模型推理服务中的所有模型都支持该 API。它支持以下模式：

文本嵌入
图像嵌入
聊天完成

可以参阅“概述”部分中的终结点 URL 和凭据：

路由

推理终结点通过将请求内的参数 name 与部署名称进行匹配，将请求路由到给定部署。这意味着，部署在某些配置下充当给定模型的别名。这种灵活性允许你在服务中多次部署给定的模型，但如果需要，可以在不同的配置下部署。

例如，如果你创建一个名为 Mistral-large 的部署，则可以如下所示调用此类部署：

使用包管理器（例如 pip）安装包 azure-ai-inference：

pip install azure-ai-inference>=1.0.0b5

警告

Azure AI 服务资源需要 Python 版本 azure-ai-inference>=1.0.0b5。

然后，可以使用包来使用模型。以下示例演示如何创建客户端来使用聊天补全：

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

浏览我们的示例，并阅读 API 参考文档以开始使用。

使用 npm 安装包 @azure-rest/ai-inference：

npm install @azure-rest/ai-inference

然后，可以使用包来使用模型。以下示例演示如何创建客户端来使用聊天补全：

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    "https://<resource>.services.ai.azure.com/models", 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

浏览我们的示例，并阅读 API 参考文档以开始使用。

请使用以下命令安装 Azure AI 推理库：

dotnet add package Azure.AI.Inference --prerelease

导入下列命名空间：

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

然后，可以使用包来使用模型。以下示例演示如何创建客户端来使用聊天补全：

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri("https://<resource>.services.ai.azure.com/models"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

浏览我们的示例，并阅读 API 参考文档以开始使用。

将包添加到项目：

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

然后，可以使用包来使用模型。以下示例演示如何创建客户端来使用聊天补全：

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

浏览我们的示例，并阅读 API 参考文档以开始使用。

使用参考部分来探索 API 设计以及可用的参数。例如，聊天补全的参考部分详细介绍了如何使用路由 /chat/completions 根据聊天格式的指令生成预测。请注意，URL 的根目录包含路径 /models：

Request

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletions chatCompletions = client.complete(new ChatCompletionsOptions(chatMessages));

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

请求

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

提示

部署路由不区分大小写。

SDK

多个 SDK 支持 Azure AI 模型推理终结点，包括 Azure AI 推理 SDK、Azure AI Foundry SDK 和 Azure OpenAI SDK；这些 SDK 以多种语言提供。 LangChain、LangGraph、Llama-Index、Semantic Kernel 和 AG2 等常用框架也支持多个集成。有关详细信息，请参阅支持的编程语言和 SDK。

Azure OpenAI 推理终结点

部署到 AI 服务的 Azure OpenAI 模型还支持 Azure OpenAI API。此 API 公开 OpenAI 模型的完整功能，并支持助手、线程、文件和批推理等其他功能。

Azure OpenAI 推理终结点在部署级别工作，并且它们有自己的 URL，与其中每个终结点相关联。但是，可以使用相同的身份验证机制来使用它们。在 Azure OpenAI API 参考页中了解详细信息

每个部署都有一个 URL，该 URL 是 Azure OpenAI 基 URL 和路由 /deployments/<model-deployment-name> 的串联。

重要

Azure OpenAI 终结点没有路由机制，因为每个 URL 对于每个模型部署都是独占的。

SDK

Azure OpenAI 终结点受 OpenAI SDK（AzureOpenAI 类）和 Azure OpenAI SDK 的支持，这些 SDK 以多种语言提供。有关详细信息，请参阅支持的语言。

通过

Azure AI 服务中的模型推理终结点

部署

Azure AI 推理终结点

路由

SDK

Azure OpenAI 推理终结点

SDK

后续步骤

反馈

其他资源