你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI 服务中的模型推理终结点

Azure AI 服务中的 Azure AI 模型推理允许客户使用单个终结点和凭据使用旗舰模型提供商提供的最强大模型。 这意味着你可以在模型之间切换,并从应用程序中使用它们,并且一行代码都不需要修改。

本文解释了如何在服务内部组织模型,以及如何使用推理终结点来调用它们。

部署

Azure AI 模型推理使用部署概念来使模型可用。 部署是在特定配置下为模型提供名称的方法。 然后,你可以通过在请求中指示其名称来调用此类模型配置。

部署捕获:

  • 模型名称
  • 模型版本
  • 预配/容量类型1
  • 内容筛选配置1
  • 速率限制配置1

1 配置可能因所选模型而异。

Azure AI 服务资源可以根据需要具有尽可能多的模型部署,除非对这些模型进行推理,否则不会产生成本。 部署是 Azure 资源,因此它们受 Azure 策略的约束。

若要详细了解如何创建部署,请参阅添加和配置模型部署

Azure AI 推理终结点

Azure AI 推理终结点允许客户使用具有相同身份验证和模式的单一终结点为资源中部署的模型生成推理。 此终结点遵循 Azure AI 模型推理 API,Azure AI 模型推理服务中的所有模型都支持该 API。 它支持以下模式:

  • 文本嵌入
  • 图像嵌入
  • 聊天完成

可以参阅“概述”部分中的终结点 URL 和凭据:

屏幕截图显示了如何获取与资源关联的 URL 和密钥。

路由

推理终结点通过将请求内的参数 name 与部署名称进行匹配,将请求路由到给定部署。 这意味着,部署在某些配置下充当给定模型的别名。 这种灵活性允许你在服务中多次部署给定的模型,但如果需要,可以在不同的配置下部署。

一个图示,通过在有效负载请求内的参数“model”中指示 Meta-llama-3.2-8b-instruct 模型的名称,展示了路由的工作原理。

例如,如果你创建一个名为 Mistral-large 的部署,则可以如下所示调用此类部署:

使用包管理器(例如 pip)安装包 azure-ai-inference

pip install azure-ai-inference>=1.0.0b5

警告

Azure AI 服务资源需要 Python 版本 azure-ai-inference>=1.0.0b5

然后,可以使用包来使用模型。 以下示例演示如何创建客户端来使用聊天补全:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

浏览我们的示例,并阅读 API 参考文档以开始使用。

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

提示

部署路由不区分大小写。

SDK

多个 SDK 支持 Azure AI 模型推理终结点,包括 Azure AI 推理 SDK、Azure AI Foundry SDK 和 Azure OpenAI SDK;这些 SDK 以多种语言提供。 LangChain、LangGraph、Llama-Index、Semantic Kernel 和 AG2 等常用框架也支持多个集成。 有关详细信息,请参阅支持的编程语言和 SDK

Azure OpenAI 推理终结点

部署到 AI 服务的 Azure OpenAI 模型还支持 Azure OpenAI API。 此 API 公开 OpenAI 模型的完整功能,并支持助手、线程、文件和批推理等其他功能。

Azure OpenAI 推理终结点在部署级别工作,并且它们有自己的 URL,与其中每个终结点相关联。 但是,可以使用相同的身份验证机制来使用它们。 在 Azure OpenAI API 参考页中了解详细信息

一个图示,显示了 Azure OpenAI 部署如何为每个部署包含一个 URL。

每个部署都有一个 URL,该 URL 是 Azure OpenAI 基 URL 和路由 /deployments/<model-deployment-name> 的串联。

重要

Azure OpenAI 终结点没有路由机制,因为每个 URL 对于每个模型部署都是独占的。

SDK

Azure OpenAI 终结点受 OpenAI SDK(AzureOpenAI 类)Azure OpenAI SDK 的支持,这些 SDK 以多种语言提供。 有关详细信息,请参阅支持的语言

后续步骤