共用方式為


使用 Azure AI 模型推斷端點來取用模型

Azure AI 服務中的 Azure AI 模型推斷可讓客戶使用單一端點和認證,從旗艦模型提供者取用最強大的模型。 這表示您可以在模型之間切換,並從您的應用程式取用它們,而不需要變更單行程序代碼。

本文說明如何使用推斷端點來叫用它們。

端點

Azure AI 服務會根據您要尋找的工作類型來公開多個端點:

  • Azure AI 模型推斷端點
  • Azure OpenAI 端點

Azure AI 推斷端點(通常是使用表單https://<resource-name>.services.ai.azure.com/models),可讓客戶使用具有相同驗證和架構的單一端點,為資源中已部署的模型產生推斷。 所有模型都支援這項功能。 此端點遵循 Azure AI 模型推斷 API

部署至 AI 服務的 Azure OpenAI 模型也支援 Azure OpenAI API(通常是使用 表單 https://<resource-name>.openai.azure.com)。 此端點會公開 OpenAI 模型的完整功能,並支援更多功能,例如助理、線程、檔案和批次推斷。

若要深入瞭解如何套用 Azure OpenAI 端點 ,請參閱 Azure OpenAI 服務檔

在 Azure AI 模型推斷端點中使用路由功能

推斷端點會將要求內的 參數 name 比對為部署名稱,將要求路由傳送至指定的部署。 這表示 部署會以特定組態下的指定模型別名的形式運作。 這種彈性可讓您在服務中多次部署指定的模型,但視需要在不同的組態下。

此圖顯示路由如何針對 Meta-llama-3.2-8b-指示模型運作,方法是在承載要求內的參數 'model' 中指出這類名稱。

例如,如果您建立名為 Mistral-large的部署,則可以將這類部署叫用為:

使用套件管理員安裝套件 azure-ai-inference,例如 pip:

pip install azure-ai-inference>=1.0.0b5

警告

Azure AI Services 資源需要適用於 Python 的版本 azure-ai-inference>=1.0.0b5

然後,您可以使用套件來取用模型。 下列範例會示範如何建立用戶端以取用聊天完成:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

探索我們的範例,並閱讀 API 參考文件 以開始使用。

針對聊天模型,您可以建立要求,如下所示:

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

如果您指定不符合任何指定模型部署的模型名稱,您會收到模型不存在的錯誤。 您可以藉由建立模型部署來控制哪些模型可供使用者使用,如新增和設定模型部署中所述

限制

  • Azure OpenAI Batch 無法與 Azure AI 模型推斷端點搭配使用。 您必須使用專用的部署 URL,如 Azure OpenAI 檔中 Batch API 支援中所述
  • 推斷端點不支援即時 API。 使用專用的部署URL。

下一步