Usare l'endpoint di inferenza del modello di intelligenza artificiale di Azure

Articolo
11/02/2024

Il servizio di inferenza di Intelligenza artificiale di Azure nei servizi di intelligenza artificiale di Azure consente ai clienti di usare i modelli più potenti dei provider di modelli di punta usando un singolo endpoint e credenziali. Ciò significa che è possibile passare da un modello all'altro e utilizzarli dall'applicazione senza modificare una singola riga di codice.

L'articolo illustra come i modelli sono organizzati all'interno del servizio e come usare l'endpoint di inferenza per richiamarli.

Deployments

Il servizio di inferenza del modello di intelligenza artificiale di Azure rende disponibili i modelli usando il concetto di distribuzione . Le distribuzioni sono un modo per assegnare un nome a un modello in determinate configurazioni. È quindi possibile richiamare tale configurazione del modello indicandone il nome nelle richieste.

Acquisizione delle distribuzioni:

Nome di un modello
Una versione del modello
Tipo di^{provisioning/capacità 1}
Configurazione del filtro del^{contenuto 1}
Configurazione di limitazione^{della frequenza 1}

¹ Le configurazioni possono variare a seconda del modello selezionato.

Una risorsa dei servizi di intelligenza artificiale di Azure può avere tutte le distribuzioni di modelli necessarie e non comporta costi a meno che non venga eseguita l'inferenza per tali modelli. Le distribuzioni sono risorse di Azure e quindi sono soggette ai criteri di Azure.

Per altre informazioni su come creare distribuzioni, vedere Aggiungere e configurare distribuzioni di modelli.

Endpoint di inferenza di Intelligenza artificiale di Azure

L'endpoint di inferenza di Intelligenza artificiale di Azure consente ai clienti di usare un singolo endpoint con lo stesso schema e autenticazione per generare inferenza per i modelli distribuiti nella risorsa. Questo endpoint segue l'API di inferenza del modello di intelligenza artificiale di Azure supportata da tutti i modelli nel servizio di inferenza del modello di intelligenza artificiale di Azure.

È possibile visualizzare l'URL dell'endpoint e le credenziali nella sezione Panoramica . L'endpoint ha in genere il formato https://<resource-name>.services.ai.azure.com/models:

È possibile connettersi all'endpoint usando Azure AI Inference SDK:

Installare il pacchetto azure-ai-inference usando la propria gestione pacchetti, come pip:

pip install azure-ai-inference>=1.0.0b5

Avviso

La risorsa di Servizi di intelligenza artificiale di Azure richiede la versione azure-ai-inference>=1.0.0b5 per Python.

Quindi, è possibile usare il pacchetto per utilizzare il modello. Gli esempi seguenti mostrano come creare un client per utilizzare i completamenti chat:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Esplorare gli esempi e leggere la documentazione di riferimento sulle API per iniziare.

Installare il pacchetto @azure-rest/ai-inference usando npm:

npm install @azure-rest/ai-inference

Quindi, è possibile usare il pacchetto per utilizzare il modello. Gli esempi seguenti mostrano come creare un client per utilizzare i completamenti chat:

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    process.env.AZUREAI_ENDPOINT_URL, 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

Esplorare gli esempi e leggere la documentazione di riferimento sulle API per iniziare.

Installare la libreria di inferenza di Azure per intelligenza artificiale con il comando seguente:

dotnet add package Azure.AI.Inference --prerelease

Importare gli spazi dei nomi seguenti:

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

Quindi, è possibile usare il pacchetto per utilizzare il modello. Gli esempi seguenti mostrano come creare un client per utilizzare i completamenti chat:

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri(Environment.GetEnvironmentVariable("AZURE_INFERENCE_ENDPOINT")),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

Esplorare gli esempi e leggere la documentazione di riferimento sulle API per iniziare.

Aggiungere il pacchetto al progetto:

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

Quindi, è possibile usare il pacchetto per utilizzare il modello. Gli esempi seguenti mostrano come creare un client per utilizzare i completamenti chat:

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

Esplorare gli esempi e leggere la documentazione di riferimento sulle API per iniziare.

Usare la sezione di riferimento per esplorare la progettazione API e quali parametri sono disponibili. Ad esempio, la sezione di riferimento per i completamenti di Chat illustra in dettaglio come usare la route /chat/completions per generare stime in base alle istruzioni in formato chat. Si noti che il percorso /models è incluso nella radice dell'URL:

Richiedi

POST models/chat/completions?api-version=2024-04-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

Per altri esempi di codice e risorse, vedere Linguaggi e SDK supportati.

Routing

L'endpoint di inferenza instrada le richieste a una determinata distribuzione associando il parametro name all'interno della richiesta al nome della distribuzione. Ciò significa che le distribuzioni funzionano come alias di un determinato modello in determinate configurazioni. Questa flessibilità consente di distribuire più volte un determinato modello nel servizio, ma in configurazioni diverse, se necessario.

Ad esempio, se si crea una distribuzione denominata Mistral-large, tale distribuzione può essere richiamata come:

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletionsOptions options = new ChatCompletionsOptions(chatMessages);
options.setModel("Mistral-large");

ChatCompletions response = client.complete(options);

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

Richiedi

POST models/chat/completions?api-version=2024-04-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

Suggerimento

Il routing della distribuzione non fa distinzione tra maiuscole e minuscole.

Linguaggi e SDK supportati

Tutti i modelli distribuiti nel servizio di inferenza del modello di intelligenza artificiale di Azure supportano l'API di inferenza del modello di intelligenza artificiale di Azure e la famiglia associata di SDK, disponibili nelle lingue seguenti:

Lingua	Documentazione	Pacchetto	Esempi
C#	Riferimento	azure-ai-inference (NuGet)	Esempi di C#
Java	Riferimento	azure-ai-inference (Maven)	Esempi di Java
JavaScript	Riferimento	@azure/ai-inference (npm)	Esempi di JavaScript
Python	Riferimento	azure-ai-inference (PyPi)	Esempi di Python

Endpoint di inferenza OpenAI di Azure

I modelli OpenAI di Azure supportano anche l'API OpenAI di Azure. Questa API espone le funzionalità complete dei modelli OpenAI e supporta funzionalità aggiuntive come assistenti, thread, file e inferenza batch.

Ogni distribuzione del modello OpenAI ha un proprio URL associato a tale distribuzione nell'endpoint di inferenza OpenAI di Azure. Tuttavia, lo stesso meccanismo di autenticazione può essere usato per utilizzarlo. Gli URL sono in genere sotto forma di https://<resource-name>.openai.azure.com/openai/deployments/<model-deployment-name>. Altre informazioni nella pagina di riferimento per l'API OpenAI di Azure

Ogni distribuzione ha un URL che corrisponde alle concatenazioni dell'URL di base OpenAI di Azure e della route /deployments/<model-deployment-name>.

Importante

Non esiste alcun meccanismo di routing per l'endpoint OpenAI di Azure, perché ogni URL è esclusivo per ogni distribuzione del modello.

Linguaggi e SDK supportati

L'endpoint OpenAI di Azure è supportato dagli SDK OpenAI (AzureOpenAIclasse) e Azure OpenAI SDK, disponibili in più lingue:

Lingua	Codice sorgente	Pacchetto	Esempi
C#	Codice sorgente	Azure.AI.OpenAI (NuGet)	Esempi di C#
Go	Codice sorgente	azopenai (Go)	Esempi di Go
Java	Codice sorgente	azure-ai-openai (Maven)	Esempi di Java
JavaScript	Codice sorgente	@azure/openai (npm)	Esempi di JavaScript
Python	Codice sorgente	openai (PyPi)	Esempi di Python

Passaggi successivi

Tipi di distribuzione

Condividi tramite

Usare l'endpoint di inferenza del modello di intelligenza artificiale di Azure

Deployments

Endpoint di inferenza di Intelligenza artificiale di Azure

Routing

Linguaggi e SDK supportati

Endpoint di inferenza OpenAI di Azure

Linguaggi e SDK supportati

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive