Atualizar de modelos do GitHub para o serviço de inferência de modelo de IA do Azure

Artigo
12/12/2024

Se você deseja desenvolver um aplicativo de IA generativa, pode usar Modelos do GitHub para encontrar e experimentar modelos de IA gratuitamente. O playground e o uso gratuito da API são limitados por solicitações por minuto, solicitações por dia, tokens por solicitação e solicitações simultâneas. Se você tiver uma limitação de fluxo, precisará aguardar a redefinição do limite de fluxo atingido antes de fazer mais solicitações.

Quando estiver pronto para levar seu aplicativo para produção, você poderá atualizar sua experiência implantando um recurso dos Serviços de IA do Azure em uma assinatura do Azure e começar a usar o serviço de inferência de modelo de IA do Azure. Você não precisa adicionar ou alterar nada mais em seu código.

O artigo a seguir explica como começar a usar modelos do GitHub nos modelos de IA do Azure para serviços de IA do Azure.

Pré-requisitos

Para concluir este tutorial, você precisará de:

Uma conta do GitHub com acesso a Modelos do GitHub.
Uma assinatura do Azure. Se você não tiver uma, será solicitado que você crie ou atualize sua conta do Azure para uma conta paga conforme o uso quando estiver pronto para implantar seu modelo na produção.

Atualizar para os serviços de IA do Azure

Os limites de fluxo para o playground e o uso gratuito da API destinam-se a ajudá-lo a experimentar modelos e desenvolver seu aplicativo de IA. Quando estiver pronto para colocar seu aplicativo em produção,use uma chave e ponto de extremidade de uma conta paga do Azure. Você não precisa adicionar ou alterar nada mais em seu código.

Para obter a chave e o ponto de extremidade:

No playground do modelo, selecione Obter chave de API.
Selecione Obter chave de produção.
Se você não tiver uma conta do Azure, selecione Criar minha conta e siga as etapas para criar uma.
Se você tiver uma conta do Azure, selecione Entrar novamente.
Se sua conta existente for uma conta gratuita, primeiro você precisará atualizar para um plano Pagamento conforme o uso. Depois de atualizar, volte para o playground e selecione Obter chave de API novamente e entre com sua conta atualizada.
Depois de conectar sua conta do Azure, você será levado ao Azure AI Foundry.
Na parte superior da página, selecione Ir para seu recurso de IA do GitHub para acessar o Azure AI Foundry / Github](https://ai.azure.com/github). Pode levar um ou dois minutos para carregar os detalhes iniciais do modelo no portal do Azure AI Foundry.
A página é carregada com os detalhes do modelo. Selecione o botão Criar uma implantação para implantar o modelo em sua conta.
Depois de implantado, a Chave de API e o ponto de extremidade do modelo são mostrados na Visão Geral. Use esses valores em seu código para usar o modelo em seu ambiente de produção.

Neste ponto, o modelo selecionado está pronto para consumir.

Dica

Use o parâmetro model="<deployment-name> para rotear sua solicitação para essa implantação. As implantações funcionam como um alias de um determinado modelo em determinadas configurações. Consulte a página de conceito de Roteamento para saber como os Serviços de IA do Azure roteiam implantações.

Atualizar o código para usar o novo ponto de extremidade

Depois que o recurso dos Serviços de IA do Azure estiver configurado, você poderá começar a consumi-lo do código. Você precisa da URL do ponto de extremidade e da chave para ela, que podem ser encontradas na seção Visão geral:

Você pode usar qualquer um dos SDKs com suporte para obter previsões do ponto de extremidade. Os seguintes SDKs têm suporte oficial:

SDK de OpenAI
SDK do OpenAI do Azure
SDK de Inferência de IA do Azure

Consulte a seção de idiomas e SDKs com suporte para obter mais detalhes e exemplos. O exemplo a seguir mostra como usar o SDK de inferência do modelo de IA do Azure com o modelo recém-implantado:

Instale o pacote azure-ai-inference usando seu gerenciador de pacotes, como o pip:

pip install azure-ai-inference>=1.0.0b5

Aviso

O recurso dos Serviços de IA do Azure requer a versão azure-ai-inference>=1.0.0b5 para Python.

Em seguida, você poderá usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir conclusões de chat:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Explore nossos exemplos e leia a documentação de referência da API para começar.

Instalar o pacote @azure-rest/ai-inference usando o npm:

npm install @azure-rest/ai-inference

Em seguida, você poderá usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir conclusões de chat:

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    process.env.AZUREAI_ENDPOINT_URL, 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

Explore nossos exemplos e leia a Documentação de referência da API para começar.

Instale a biblioteca de inferência do IA do Azure com o seguinte comando:

dotnet add package Azure.AI.Inference --prerelease

Importe os seguintes namespaces:

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

Em seguida, você poderá usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir conclusões de chat:

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri(Environment.GetEnvironmentVariable("AZURE_INFERENCE_ENDPOINT")),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

Explore nossos exemplos e leia a Documentação de referência da API para começar.

Adicione o pacote ao seu projeto:

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

Em seguida, você poderá usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir conclusões de chat:

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

Explore nossos exemplos e leia a Documentação de referência da API para começar.

Use a seção de referência para explorar o design da API e quais parâmetros estão disponíveis. Por exemplo, a seção de referência para Conclusões de Chat detalha como usar a rota /chat/completions para gerar previsões com base em instruções formatadas para chat. Observe que o caminho /models é incluído na raiz da URL:

Solicitar

POST models/chat/completions?api-version=2024-04-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

Gere sua primeira conclusão de chat:

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletionsOptions options = new ChatCompletionsOptions(chatMessages);
options.setModel("Mistral-large");

ChatCompletions response = client.complete(options);

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

Solicitação

POST models/chat/completions?api-version=2024-04-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

Etapa 5: explorar mais recursos

A inferência do modelo de IA do Azure dá suporte a mais recursos não disponíveis nos Modelos do GitHub, incluindo:

Explorar o catálogo de modelos para ver outros modelos não disponíveis nos Modelos do GitHub.
Configurar os filtros de conteúdo.
Configure a limitação de taxa (para modelos específicos).
Explore mais SKUs de implantação (para modelos específicos).
Configure a rede privada.

Tem problemas?

Consulte a seção de perguntas frequentes para obter mais ajuda.

Próximas etapas

Adicionar mais modelos ao ponto de extremidade.
Explore o catálogo de modelos no portal do Azure AI Foundry.

Compartilhar via

Atualizar de modelos do GitHub para o serviço de inferência de modelo de IA do Azure

Pré-requisitos

Atualizar para os serviços de IA do Azure

Atualizar o código para usar o novo ponto de extremidade

Etapa 5: explorar mais recursos

Tem problemas?

Próximas etapas

Comentários

Recursos adicionais