Modellslutpunkt för slutsatsdragning i Azure AI Services

Artikel
01/30/2025

Azure AI-modellinferens i Azure AI-tjänster gör det möjligt för kunder att använda de mest kraftfulla modellerna från flaggskeppsmodellleverantörer med en enda slutpunkt och autentiseringsuppgifter. Det innebär att du kan växla mellan modeller och använda dem från ditt program utan att ändra en enda kodrad.

Artikeln beskriver hur modeller organiseras i tjänsten och hur du använder slutpunkten för slutsatsdragning för att anropa dem.

Distributioner

Azure AI-modellinferens gör modeller tillgängliga med hjälp av distributionskonceptet. Distributioner är ett sätt att ge en modell ett namn under vissa konfigurationer. Sedan kan du anropa en sådan modellkonfiguration genom att ange namnet på dina begäranden.

Avbildning av distributioner:

Ett modellnamn
En modellversion
En etablering/kapacitetstyp¹
En innehållsfiltreringskonfiguration¹
En hastighetsbegränsningskonfiguration¹

¹ Konfigurationer kan variera beroende på den valda modellen.

En Azure AI-tjänstresurs kan ha så många modelldistributioner som behövs och de medför inte kostnader om inte slutsatsdragningen utförs för dessa modeller. Distributioner är Azure-resurser och därför omfattas de av Azure-principer.

Mer information om hur du skapar distributioner finns i Lägga till och konfigurera modelldistributioner.

Slutpunkt för Azure AI-slutsatsdragning

Med slutpunkten för Azure AI-slutsatsdragning kan kunder använda en enda slutpunkt med samma autentisering och schema för att generera slutsatsdragning för de distribuerade modellerna i resursen. Den här slutpunkten följer azure AI-modellinferens-API :et som alla modeller i Azure AI-modellinferens stöder. Det stöder följande modaliditer:

Text inbäddningar
Bildinbäddningar
Chatten har slutförts

Du kan se slutpunkts-URL:en och autentiseringsuppgifterna i avsnittet Översikt :

Routning

Slutpunkten för slutsatsdragning dirigerar begäranden till en viss distribution genom att matcha parametern name i begäran till namnet på distributionen. Det innebär att distributioner fungerar som ett alias för en viss modell under vissa konfigurationer. Med den här flexibiliteten kan du distribuera en viss modell flera gånger i tjänsten men under olika konfigurationer om det behövs.

Om du till exempel skapar en distribution med namnet Mistral-largekan en sådan distribution anropas som:

Installera paketet azure-ai-inference med hjälp av pakethanteraren, till exempel pip:

pip install azure-ai-inference>=1.0.0b5

Varning

Azure AI Services-resursen kräver versionen azure-ai-inference>=1.0.0b5 för Python.

Sedan kan du använda paketet för att använda modellen. I följande exempel visas hur du skapar en klient för att använda chattavslutningar:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Utforska våra exempel och läs API-referensdokumentationen för att komma igång.

Installera paketet @azure-rest/ai-inference med npm:

npm install @azure-rest/ai-inference

Sedan kan du använda paketet för att använda modellen. I följande exempel visas hur du skapar en klient för att använda chattavslutningar:

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    "https://<resource>.services.ai.azure.com/models", 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

Utforska våra exempel och läs API-referensdokumentationen för att komma igång.

Installera Azure AI-slutsatsdragningsbiblioteket med följande kommando:

dotnet add package Azure.AI.Inference --prerelease

Importera följande namnområden:

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

Sedan kan du använda paketet för att använda modellen. I följande exempel visas hur du skapar en klient för att använda chattavslutningar:

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri("https://<resource>.services.ai.azure.com/models"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

Utforska våra exempel och läs API-referensdokumentationen för att komma igång.

Lägg till paketet i projektet:

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

Sedan kan du använda paketet för att använda modellen. I följande exempel visas hur du skapar en klient för att använda chattavslutningar:

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

Utforska våra exempel och läs API-referensdokumentationen för att komma igång.

Använd referensavsnittet för att utforska API-designen och vilka parametrar som är tillgängliga. Referensavsnittet för chattavslut beskriver till exempel hur du använder vägen /chat/completions för att generera förutsägelser baserat på chattformaterade instruktioner. Observera att sökvägen /models ingår i URL:ens rot:

Begär

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletions chatCompletions = client.complete(new ChatCompletionsOptions(chatMessages));

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

Begär

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

Dricks

Distributionsroutning är inte skiftlägeskänslig.

SDK:er

Slutpunkten för Azure AI-modellens slutsatsdragning stöds av flera SDK:er, inklusive Azure AI Inference SDK, Azure AI Foundry SDK och Azure OpenAI SDK, som är tillgängliga på flera språk. Flera integreringar stöds också i populära ramverk som LangChain, LangGraph, Llama-Index, Semantic Kernel och AG2. Mer information finns i programmeringsspråk och SDK:er som stöds.

Slutpunkt för Azure OpenAI-slutsatsdragning

Azure OpenAI-modeller som distribueras till AI-tjänster stöder även Azure OpenAI API. Det här API:et visar alla funktioner i OpenAI-modeller och stöder ytterligare funktioner som assistenter, trådar, filer och batchinferens.

Slutpunkter för Azure OpenAI-slutsatsdragning fungerar på distributionsnivå och de har en egen URL som är associerad med var och en av dem. Samma autentiseringsmekanism kan dock användas för att använda dem. Läs mer på referenssidan för Azure OpenAI API

Varje distribution har en URL som är sammanlänkningarna av Azure OpenAI-bas-URL :en och vägen /deployments/<model-deployment-name>.

Viktigt!

Det finns ingen routningsmekanism för Azure OpenAI-slutpunkten eftersom varje URL är exklusiv för varje modelldistribution.

SDK:er

Azure OpenAI-slutpunkten stöds av OpenAI SDK (AzureOpenAI klass) och Azure OpenAI SDK:er, som är tillgängliga på flera språk. Mer information finns i språk som stöds.

Dela via

Modellslutpunkt för slutsatsdragning i Azure AI Services

Distributioner

Slutpunkt för Azure AI-slutsatsdragning

Routning

SDK:er

Slutpunkt för Azure OpenAI-slutsatsdragning

SDK:er

Nästa steg

Feedback

Ytterligare resurser