Ponto de extremidade de inferência de modelo nos Serviços de IA do Azure

Artigo
01/30/2025

A inferência de modelo de IA do Azure nos serviços de IA do Azure permite que os clientes consumam os modelos mais poderosos de provedores de modelos principais usando um único ponto de extremidade e credenciais. Isso significa que você pode alternar entre modelos e consumi-los do seu aplicativo sem alterar uma única linha de código.

O artigo explica como os modelos são organizados dentro do serviço e como usar o ponto de extremidade de inferência para invocá-los.

Implementações

A inferência de modelo de IA do Azure disponibiliza modelos usando o conceito de implantação . As implantações são uma maneira de dar um nome a um modelo em determinadas configurações. Em seguida, você pode invocar essa configuração de modelo indicando seu nome em suas solicitações.

Captura de implantações:

Um nome de modelo
Uma versão do modelo
Um tipo^{de provisionamento/capacidade 1}
Uma configuração^{de filtragem de conteúdo 1}
Uma configuração^{limitadora de taxa 1}

1 As configurações podem variar dependendo do modelo selecionado.

Um recurso de serviços de IA do Azure pode ter quantas implantações de modelo forem necessárias e elas não incorrem em custo, a menos que a inferência seja executada para esses modelos. As implantações são recursos do Azure e, portanto, estão sujeitas às políticas do Azure.

Para saber mais sobre como criar implantações, consulte Adicionar e configurar implantações de modelo.

Ponto de extremidade de inferência da IA do Azure

O ponto de extremidade de inferência da IA do Azure permite que os clientes usem um único ponto de extremidade com a mesma autenticação e esquema para gerar inferência para os modelos implantados no recurso. Este ponto de extremidade segue a API de inferência de modelo de IA do Azure que todos os modelos na inferência de modelo de IA do Azure suportam. Suporta as seguintes modalidades:

Incorporações de texto
Incorporação de imagens
Conclusão do chat

Você pode ver a URL e as credenciais do ponto de extremidade na seção Visão geral :

Encaminhamento

O ponto de extremidade de inferência roteia solicitações para uma determinada implantação fazendo a correspondência entre o parâmetro name dentro da solicitação e o nome da implantação. Isso significa que as implantações funcionam como um alias de um determinado modelo em determinadas configurações. Essa flexibilidade permite que você implante um determinado modelo várias vezes no serviço, mas sob configurações diferentes, se necessário.

Por exemplo, se você criar uma implantação chamada Mistral-large, essa implantação poderá ser invocada como:

Instale o pacote azure-ai-inference usando seu gerenciador de pacotes, como pip:

pip install azure-ai-inference

Em seguida, você pode usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir finalizações de chat:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Explore nossos exemplos e leia a documentação de referência da API para começar.

Instale o pacote @azure-rest/ai-inference usando npm:

npm install @azure-rest/ai-inference

Em seguida, você pode usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir finalizações de chat:

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    "https://<resource>.services.ai.azure.com/models", 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

Explore nossos exemplos e leia a documentação de referência da API para começar.

Instale a biblioteca de inferência do Azure AI com o seguinte comando:

dotnet add package Azure.AI.Inference --prerelease

Importe os seguintes namespaces:

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

Em seguida, você pode usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir finalizações de chat:

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri("https://<resource>.services.ai.azure.com/models"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

Explore nossos exemplos e leia a documentação de referência da API para começar.

Adicione o pacote ao seu projeto:

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

Em seguida, você pode usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir finalizações de chat:

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

Explore nossos exemplos e leia a documentação de referência da API para começar.

Use a seção de referência para explorar o design da API e quais parâmetros estão disponíveis. Por exemplo, a seção de referência para Conclusão do bate-papo detalha como usar a rota /chat/completions para gerar previsões com base em instruções formatadas no chat. Observe que o caminho /models está incluído na raiz da URL:

Pedir

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
api-key: <api-key>
Content-Type: application/json

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletions chatCompletions = client.complete(new ChatCompletionsOptions(chatMessages));

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

Pedir

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
api-key: <api-key>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

Gorjeta

O roteamento de implantação não diferencia maiúsculas de minúsculas.

SDKs

O ponto de extremidade de inferência do modelo de IA do Azure é suportado por vários SDKs, incluindo o SDK de Inferência do Azure AI, o SDK do Azure AI Foundry e o SDK do Azure OpenAI, que estão disponíveis em vários idiomas. Várias integrações também são suportadas em frameworks populares como LangChain, LangGraph, Llama-Index, Semantic Kernel e AG2. Consulte linguagens de programação e SDKs suportados para obter detalhes.

Ponto de extremidade de inferência do Azure OpenAI

Os modelos do Azure OpenAI implantados em serviços de IA também dão suporte à API do Azure OpenAI. Esta API expõe todos os recursos dos modelos OpenAI e suporta recursos adicionais, como assistentes, threads, arquivos e inferência em lote.

Os pontos de extremidade de inferência do Azure OpenAI funcionam no nível de implantação e eles têm sua própria URL associada a cada um deles. No entanto, o mesmo mecanismo de autenticação pode ser usado para consumi-los. Saiba mais na página de referência da API OpenAI do Azure

Cada implantação tem uma URL que é as concatenações da URL base do Azure OpenAI e a rota /deployments/<model-deployment-name>.

Importante

Não há nenhum mecanismo de roteamento para o ponto de extremidade do Azure OpenAI, pois cada URL é exclusiva para cada implantação de modelo.

SDKs

O ponto de extremidade do Azure OpenAI é suportado pelo SDK do OpenAI (AzureOpenAIclasse) e pelos SDKs do Azure OpenAI, que estão disponíveis em vários idiomas. Consulte os idiomas suportados para obter detalhes.

Partilhar via

Ponto de extremidade de inferência de modelo nos Serviços de IA do Azure

Implementações

Ponto de extremidade de inferência da IA do Azure

Encaminhamento

SDKs

Ponto de extremidade de inferência do Azure OpenAI

SDKs

Próximos passos

Comentários

Recursos adicionais