Configure seu projeto de IA para usar a inferência de modelo de IA do Azure
Se você já tiver um projeto de IA em um Hub de IA existente, os modelos via "Modelos como um Serviço" são, por padrão, implantados dentro do seu projeto como pontos de extremidade autônomos. Cada implantação de modelo tem seu próprio conjunto de URI e credenciais para acessá-lo. Os modelos do Azure OpenAI são implantados no recurso Serviços de IA do Azure ou no recurso do Serviço OpenAI do Azure.
Você pode configurar o projeto de IA para se conectar com a inferência de modelo de IA do Azure nos serviços de IA do Azure. Uma vez configurados, as implantações de modelos como um serviço acontecem ao recurso conectado dos Serviços de IA do Azure em vez do próprio projeto, oferecendo um único conjunto de ponto de extremidade e credencial para acessar todos os modelos implantados no Azure AI Foundry.
Além disso, a implantação de modelos na inferência de modelo de IA do Azure traz os benefícios extras de:
- Capacidade de roteamento
- Filtros de conteúdo personalizados
- Implantação de capacidade global
- Suporte ao Entra ID e controle de acesso baseado em função
Neste artigo, você aprenderá a configurar seu projeto para usar modelos implantados na inferência de modelo de IA do Azure nos serviços de IA do Azure.
Pré-requisitos
Para concluir este tutorial, precisa de:
Uma subscrição do Azure. Se você estiver usando Modelos do GitHub, poderá atualizar sua experiência e criar uma assinatura do Azure no processo. Leia Atualização de modelos do GitHub para inferência de modelo de IA do Azure, se for o seu caso.
Um recurso de serviços de IA do Azure. Para obter mais informações, consulte Criar um recurso dos Serviços de IA do Azure.
Um projeto de IA do Azure e o Hub de IA do Azure.
Gorjeta
Quando seu hub de IA é provisionado, um recurso de serviços de IA do Azure é criado com ele e os dois recursos conectados. Para ver qual recurso de serviços de IA do Azure está conectado ao seu projeto, vá para o Portal do Azure AI Foundry Centro>de gerenciamento> Recursos conectados e localize as conexões do tipo AI Services.
Configurar o projeto para usar a inferência de modelo de IA do Azure
Para configurar o projeto para usar o recurso de inferência de modelo de IA do Azure nos Serviços de IA do Azure, siga estas etapas:
Vá para o portal do Azure AI Foundry.
Na barra de navegação superior, no canto direito, selecione o ícone Visualizar recursos . Uma lâmina contextual aparece à direita da tela.
Ative o recurso Implantar modelos no serviço de inferência de modelo de IA do Azure.
Feche o painel.
Na página inicial do seu projeto, identifique o recurso dos Serviços de IA do Azure conectado ao seu projeto. Use a lista suspensa para alterar o recurso ao qual você está conectado, se necessário.
Se nenhum recurso estiver listado na lista suspensa, seu Hub de IA não terá um recurso dos Serviços de IA do Azure conectado a ele. Crie uma nova conexão ao:
No canto inferior esquerdo da tela, selecione Centro de gerenciamento.
Na seção Conexões , selecione Nova conexão.
Selecione Serviços de IA do Azure.
No navegador, procure um recurso existente dos Serviços de IA do Azure em sua assinatura.
Selecione Adicionar ligação.
A nova conexão é adicionada ao seu Hub.
Volte à página de destino do projeto para continuar e agora selecione a nova conexão criada. Atualize a página se ela não aparecer imediatamente.
Em Recursos incluídos, selecione Inferência de IA do Azure. O URI do ponto de extremidade de inferência do modelo de IA do Azure é exibido junto com as credenciais para obter acesso a ele.
Gorjeta
Cada recurso de serviços de IA do Azure tem um único ponto de extremidade de inferência de modelo de IA do Azure que pode ser usado para acessar qualquer implantação de modelo nele. O mesmo ponto de extremidade serve vários modelos, dependendo de quais estão configurados. Saiba mais sobre como funciona o ponto de extremidade.
Anote a URL e as credenciais do ponto de extremidade.
Criar a implantação do modelo na inferência de modelo de IA do Azure
Para cada modelo que você deseja implantar na inferência de modelo de IA do Azure, siga estas etapas:
Vá para a seção Catálogo de modelos no portal do Azure AI Foundry.
Desloque-se para o modelo em que está interessado e selecione-o.
Você pode rever os detalhes do modelo no cartão modelo.
Selecione Implementar.
Para fornecedores de modelos que exigem mais termos de contrato, você é solicitado a aceitar esses termos. Aceite os termos nesses casos selecionando Assinar e implantar.
Você pode definir as configurações de implantação neste momento. Por padrão, a implantação recebe o nome do modelo que você está implantando. O nome da
model
implantação é usado no parâmetro para a solicitação de roteamento para essa implantação de modelo específico. Ele permite que você configure nomes específicos para seus modelos quando você anexa configurações específicas. Por exemplo,o1-preview-safe
para um modelo com um filtro de conteúdo de segurança de conteúdo rigoroso.Selecionamos automaticamente uma conexão dos Serviços de IA do Azure, dependendo do seu projeto, porque você ativou o recurso Implantar modelos no serviço de inferência de modelo de IA do Azure. Use a opção Personalizar para alterar a conexão com base em suas necessidades. Se você estiver implantando no tipo de implantação Padrão , os modelos precisarão estar disponíveis na região do recurso Serviços de IA do Azure.
Selecione Implementar.
Quando a implantação terminar, você verá a URL do ponto de extremidade e as credenciais para obter acesso ao modelo. Observe que agora a URL e as credenciais fornecidas são as mesmas exibidas na página de destino do projeto para o ponto de extremidade de inferência do modelo de IA do Azure.
Você pode visualizar todos os modelos disponíveis no recurso indo para a seção Modelos + pontos de extremidade e localizando o grupo para a conexão com seu recurso de Serviços de IA:
Atualize seu código com o novo ponto de extremidade
Depois que seu recurso dos Serviços de IA do Azure estiver configurado, você poderá começar a consumi-lo a partir do seu código. Você precisa da URL e da chave do ponto de extremidade para ele, que podem ser encontradas na seção Visão geral :
Você pode usar qualquer um dos SDKs suportados para obter previsões do ponto de extremidade. Os seguintes SDKs são oficialmente suportados:
- OpenAI SDK
- Azure OpenAI SDK
- Azure AI Inference SDK
- Azure AI Foundry SDK
Consulte a seção Idiomas suportados e SDKs para obter mais detalhes e exemplos. O exemplo a seguir mostra como usar o SDK de inferência de modelo de IA do Azure com o modelo recém-implantado:
Instale o pacote azure-ai-inference
usando seu gerenciador de pacotes, como pip:
pip install azure-ai-inference>=1.0.0b5
Aviso
O recurso Serviços de IA do Azure requer a versão azure-ai-inference>=1.0.0b5
para Python.
Em seguida, você pode usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir finalizações de chat:
import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential
model = ChatCompletionsClient(
endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)
Explore nossos exemplos e leia a documentação de referência da API para começar.
Gere sua primeira conclusão de bate-papo:
from azure.ai.inference.models import SystemMessage, UserMessage
response = client.complete(
messages=[
SystemMessage(content="You are a helpful assistant."),
UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
],
model="mistral-large"
)
print(response.choices[0].message.content)
Use o parâmetro model="<deployment-name>
para rotear sua solicitação para essa implantação.
As implantações funcionam como um alias de um determinado modelo em determinadas configurações. Consulte Página de conceito de roteamento para saber como os Serviços de IA do Azure encaminham implantações.
Mover de pontos de extremidade de API sem servidor para inferência de modelo de IA do Azure
Embora você tenha configurado o projeto para usar a inferência de modelo de IA do Azure, as implantações de modelo existentes continuam a sair dentro do projeto como pontos de extremidade de API sem servidor. Essas implantações não são movidas para você. Assim, você pode atualizar progressivamente qualquer código existente que faça referência a implantações de modelos anteriores. Para começar a mover as implantações de modelo, recomendamos o seguinte fluxo de trabalho:
Recrie a implantação do modelo na inferência de modelo de IA do Azure. Essa implantação de modelo pode ser acessada sob o ponto de extremidade de inferência do modelo de IA do Azure.
Atualize seu código para usar o novo ponto de extremidade.
Limpe o projeto removendo o ponto de extremidade da API sem servidor.
Atualize seu código com o novo ponto de extremidade
Depois que os modelos forem implantados nos Serviços de IA do Azure, você poderá atualizar seu código para usar o ponto de extremidade de inferência de modelo de IA do Azure. A principal diferença entre como os pontos de extremidade de API sem servidor e a inferência de modelo de IA do Azure funcionam reside na URL do ponto de extremidade e no parâmetro do modelo. Enquanto os pontos de extremidade de API sem servidor têm conjunto de URI e chave por cada implantação de modelo, a inferência de modelo de IA do Azure tem apenas um para todos eles.
A tabela a seguir resume as alterações que você precisa introduzir:
Property | Pontos de extremidade de API sem servidor | Inferência de modelo de IA do Azure |
---|---|---|
Ponto final | https://<endpoint-name>.<region>.inference.ai.azure.com |
https://<ai-resource>.services.ai.azure.com/models |
Credenciais | Um por modelo/ponto final. | Um por recurso dos Serviços de IA do Azure. Você também pode usar o Microsoft Entra ID. |
Parâmetro do modelo | Nenhum. | Obrigatório. Use o nome da implantação do modelo. |
Limpar pontos de extremidade de API sem servidor existentes do seu projeto
Depois de refatorar seu código, convém excluir os pontos de extremidade existentes da API sem servidor dentro do projeto (se houver).
Para cada modelo implantado como pontos de extremidade de API sem servidor, siga estas etapas:
Vá para o portal do Azure AI Foundry.
Selecione Modelos + pontos de extremidade.
Identifique os pontos de extremidade do tipo Serverless e selecione o que você deseja excluir.
Selecione a opção Excluir.
Aviso
Esta operação não pode ser revertida. Certifique-se de que o ponto de extremidade não é usado atualmente por nenhum outro usuário ou parte do código.
Confirme a operação selecionando Excluir.
Se você criou uma conexão de API sem servidor para esse ponto de extremidade de outros projetos, essas conexões não serão removidas e continuarão a apontar para o ponto de extremidade inexistente. Exclua qualquer uma dessas conexões para evitar erros.
Limitações
A inferência de modelo de IA do Azure nos Serviços de IA do Azure dá aos usuários acesso a modelos emblemáticos no catálogo de modelos de IA do Azure. No entanto, apenas os modelos que suportam faturação pré-paga (Modelos como Serviço) estão disponíveis para implementação.
Os modelos que exigem cota de computação de sua assinatura (Computação Gerenciada), incluindo modelos personalizados, só podem ser implantados em um determinado projeto como Pontos de Extremidade Online Gerenciados e continuam acessíveis usando seu próprio conjunto de URI e credenciais de ponto final.
Próximos passos
- Adicione mais modelos ao seu endpoint.