Utiliser le point de terminaison d'inférence de modèle Azure AI pour consommer des modèles

Article
01/29/2025

L’inférence de modèle Azure AI dans Azure AI services permet aux clients de consommer les modèles les plus puissants des fournisseurs de modèles phares à l’aide d’un point de terminaison unique et d’informations d’identification. Cela signifie que vous pouvez basculer entre les modèles et les consommer à partir de votre application sans modifier une seule ligne de code.

Cet article explique comment utiliser le point de terminaison d’inférence pour les appeler.

Points de terminaison

Azure AI Services exposent plusieurs points de terminaison en fonction du type de travail que vous recherchez :

Point de terminaison d’inférence de modèle Azure AI
Point de terminaison Azure OpenAI

Le point de terminaison d’inférence Azure AI (généralement sous la forme https://<resource-name>.services.ai.azure.com/models) permet aux clients d’utiliser un seul point de terminaison avec la même authentification et le même schéma pour générer l’inférence pour les modèles déployés dans la ressource. Tous les modèles prennent en charge cette capacité. Ce point d'accès suit l'API d'inférence de modèle Azure AI.

Les modèles Azure OpenAI déployés sur les services IA prennent également en charge l’API Azure OpenAI (généralement sous la forme https://<resource-name>.openai.azure.com). Ce point de terminaison expose les fonctionnalités complètes des modèles OpenAI et prend en charge des fonctionnalités supplémentaires telles que les Assistants, les threads, les fichiers et l’inférence par lots.

Pour en savoir plus sur l'application du point de terminaison Azure OpenAI, voir la documentation du service Azure OpenAI.

Utilisation de la fonctionnalité de routage dans le point de terminaison d’inférence du modèle Azure AI

Le point de terminaison d’inférence achemine les demandes vers un déploiement donné en faisant correspondre le paramètre name à l’intérieur de la requête au nom du déploiement. Cela signifie que les déploiements fonctionnent en tant qu’alias d’un modèle donné sous certaines configurations. Cette flexibilité vous permet de déployer un modèle donné plusieurs fois dans le service, mais sous différentes configurations si nécessaire.

Par exemple, si vous créez un déploiement nommé Mistral-large, ce déploiement peut être appelé comme suit :

Installez le package azure-ai-inference à l’aide de votre gestionnaire de package, par exemple pip :

pip install azure-ai-inference>=1.0.0b5

Avertissement

La ressource Azure AI Services nécessite la version azure-ai-inference>=1.0.0b5 de Python.

Vous pouvez ensuite utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer les complétions de conversation :

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

Installez le package @azure-rest/ai-inference à l’aide de npm :

npm install @azure-rest/ai-inference

Vous pouvez ensuite utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer les complétions de conversation :

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    "https://<resource>.services.ai.azure.com/models", 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

Installez la bibliothèque d’inférence Azure AI avec la commande suivante :

dotnet add package Azure.AI.Inference --prerelease

Importez les espaces de noms suivants :

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

Vous pouvez ensuite utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer les complétions de conversation :

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri("https://<resource>.services.ai.azure.com/models"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

Ajoutez le package à votre projet :

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

Vous pouvez ensuite utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer les complétions de conversation :

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

Utilisez la section de référence pour découvrir la conception de l’API et connaître les paramètres disponibles. Par exemple, la section de référence des saisies semi-automatiques de conversation explique en détail comment utiliser la route /chat/completions pour générer des prédictions basées sur des instructions dans un format de conversation. Notez que le chemin d’accès /models est inclus dans la racine de l’URL :

Requête

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

Pour un modèle de conversation, vous pouvez créer une requête comme suit :

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletions chatCompletions = client.complete(new ChatCompletionsOptions(chatMessages));

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

Requête

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

Si vous spécifiez un nom de modèle qui ne correspond à aucun modèle de déploiement donné, vous obtenez une erreur indiquant que le modèle n’existe pas. Vous pouvez contrôler les modèles disponibles pour les utilisateurs en créant des modèles de déploiements comme expliqué dans ajouter et configurer des déploiements de modèles.

Limites

Azure OpenAI Batch ne peut pas être utilisé avec le point de terminaison d’inférence du modèle Azure AI. Vous devez utiliser l’URL de déploiement dédiée comme expliqué dans Prise en charge de l’API Batch dans la documentation Azure OpenAI.
L’API en temps réel n’est pas prise en charge dans le point de terminaison d’inférence. Utilisez l’URL de déploiement dédiée.

Partager via

Utiliser le point de terminaison d'inférence de modèle Azure AI pour consommer des modèles

Points de terminaison

Utilisation de la fonctionnalité de routage dans le point de terminaison d’inférence du modèle Azure AI

Limites

Étapes suivantes

Commentaires

Ressources supplémentaires