Endpoint di inferenza del modello in Servizi di intelligenza artificiale di Azure

Articolo
01/30/2025

L'inferenza del modello di intelligenza artificiale di Azure nei servizi di intelligenza artificiale di Azure consente ai clienti di usare i modelli più potenti dei provider di modelli di punta usando un singolo endpoint e credenziali. Ciò significa che è possibile passare da un modello all'altro e utilizzarli dall'applicazione senza modificare una singola riga di codice.

L'articolo illustra come i modelli sono organizzati all'interno del servizio e come usare l'endpoint di inferenza per richiamarli.

Deployments

L'inferenza del modello di intelligenza artificiale di Azure rende disponibili i modelli usando il concetto di distribuzione . Le distribuzioni sono un modo per assegnare un nome a un modello in determinate configurazioni. È quindi possibile richiamare tale configurazione del modello indicandone il nome nelle richieste.

Acquisizione delle distribuzioni:

Nome di un modello
Una versione del modello
Tipo di^{provisioning/capacità 1}
Configurazione del filtro del^{contenuto 1}
Configurazione di limitazione^{della frequenza 1}

¹ Le configurazioni possono variare a seconda del modello selezionato.

Una risorsa dei servizi di intelligenza artificiale di Azure può avere tutte le distribuzioni di modelli necessarie e non comporta costi a meno che non venga eseguita l'inferenza per tali modelli. Le distribuzioni sono risorse di Azure e quindi sono soggette ai criteri di Azure.

Per altre informazioni su come creare distribuzioni, vedere Aggiungere e configurare distribuzioni di modelli.

Endpoint di inferenza di Intelligenza artificiale di Azure

L'endpoint di inferenza di Intelligenza artificiale di Azure consente ai clienti di usare un singolo endpoint con lo stesso schema e autenticazione per generare inferenza per i modelli distribuiti nella risorsa. Questo endpoint segue l'API di inferenza del modello di intelligenza artificiale di Azure che supporta l'inferenza di tutti i modelli nel modello di intelligenza artificiale di Azure. Supporta le seguenti modalidità:

Incorporamenti di testo
Incorporamenti di immagini
Completamenti della chat

È possibile visualizzare l'URL dell'endpoint e le credenziali nella sezione Panoramica :

Routing

L'endpoint di inferenza instrada le richieste a una determinata distribuzione associando il parametro name all'interno della richiesta al nome della distribuzione. Ciò significa che le distribuzioni funzionano come alias di un determinato modello in determinate configurazioni. Questa flessibilità consente di distribuire più volte un determinato modello nel servizio, ma in configurazioni diverse, se necessario.

Ad esempio, se si crea una distribuzione denominata Mistral-large, tale distribuzione può essere richiamata come:

Installare il pacchetto azure-ai-inference usando la propria gestione pacchetti, come pip:

pip install azure-ai-inference>=1.0.0b5

Avviso

La risorsa di Servizi di intelligenza artificiale di Azure richiede la versione azure-ai-inference>=1.0.0b5 per Python.

Quindi, è possibile usare il pacchetto per utilizzare il modello. Gli esempi seguenti mostrano come creare un client per utilizzare i completamenti chat:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Esplorare gli esempi e leggere la documentazione di riferimento sulle API per iniziare.

Installare il pacchetto @azure-rest/ai-inference usando npm:

npm install @azure-rest/ai-inference

Quindi, è possibile usare il pacchetto per utilizzare il modello. Gli esempi seguenti mostrano come creare un client per utilizzare i completamenti chat:

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    "https://<resource>.services.ai.azure.com/models", 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

Esplorare gli esempi e leggere la documentazione di riferimento sulle API per iniziare.

Installare la libreria di inferenza di Azure per intelligenza artificiale con il comando seguente:

dotnet add package Azure.AI.Inference --prerelease

Importare gli spazi dei nomi seguenti:

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

Quindi, è possibile usare il pacchetto per utilizzare il modello. Gli esempi seguenti mostrano come creare un client per utilizzare i completamenti chat:

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri("https://<resource>.services.ai.azure.com/models"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

Esplorare gli esempi e leggere la documentazione di riferimento sulle API per iniziare.

Aggiungere il pacchetto al progetto:

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

Quindi, è possibile usare il pacchetto per utilizzare il modello. Gli esempi seguenti mostrano come creare un client per utilizzare i completamenti chat:

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

Esplorare gli esempi e leggere la documentazione di riferimento sulle API per iniziare.

Usare la sezione di riferimento per esplorare la progettazione API e quali parametri sono disponibili. Ad esempio, la sezione di riferimento per i completamenti di Chat illustra in dettaglio come usare la route /chat/completions per generare stime in base alle istruzioni in formato chat. Si noti che il percorso /models è incluso nella radice dell'URL:

Richiedi

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletions chatCompletions = client.complete(new ChatCompletionsOptions(chatMessages));

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

Richiedi

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

Suggerimento

Il routing della distribuzione non fa distinzione tra maiuscole e minuscole.

SDK

L'endpoint di inferenza del modello di intelligenza artificiale di Azure è supportato da più SDK, tra cui Azure AI Inference SDK, Azure AI Foundry SDK e Azure OpenAI SDK, disponibili in più lingue. Sono supportate anche più integrazioni nei framework più diffusi, ad esempio LangChain, LangGraph, Llama-Index, Semantic Kernel e AG2. Per informazioni dettagliate, vedere SDK e linguaggi di programmazione supportati.

Endpoint di inferenza OpenAI di Azure

I modelli OpenAI di Azure distribuiti nei servizi di intelligenza artificiale supportano anche l'API OpenAI di Azure. Questa API espone le funzionalità complete dei modelli OpenAI e supporta funzionalità aggiuntive come assistenti, thread, file e inferenza batch.

Gli endpoint di inferenza OpenAI di Azure funzionano a livello di distribuzione e hanno il proprio URL associato a ognuno di essi. Tuttavia, lo stesso meccanismo di autenticazione può essere usato per utilizzarli. Altre informazioni nella pagina di riferimento per l'API OpenAI di Azure

Ogni distribuzione ha un URL che corrisponde alle concatenazioni dell'URL di base OpenAI di Azure e della route /deployments/<model-deployment-name>.

Importante

Non esiste alcun meccanismo di routing per l'endpoint OpenAI di Azure, perché ogni URL è esclusivo per ogni distribuzione del modello.

SDK

L'endpoint OpenAI di Azure è supportato dagli SDK OpenAI (AzureOpenAI classe) e Azure OpenAI SDK, disponibili in più lingue. Per informazioni dettagliate, vedere le lingue supportate.

Condividi tramite

Endpoint di inferenza del modello in Servizi di intelligenza artificiale di Azure

Deployments

Endpoint di inferenza di Intelligenza artificiale di Azure

Routing

SDK

Endpoint di inferenza OpenAI di Azure

SDK

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive