Escalone o chat do Azure OpenAI para Java usando RAG com as Aplicações de Contentor do Azure
Saiba como adicionar balanceamento de carga ao seu aplicativo para estender o aplicativo de chat além dos limites de token e cota de modelo do Serviço Azure OpenAI. Essa abordagem usa os Aplicativos de Contêiner do Azure para criar três pontos de extremidade do Azure OpenAI e um contêiner primário para direcionar o tráfego de entrada para um dos três pontos de extremidade.
Este artigo requer que você implante dois exemplos separados:
Aplicativo de bate-papo
Se você ainda não implantou o aplicativo de bate-papo, aguarde até que o exemplo de balanceador de carga seja implantado.
Se você já implantou o aplicativo de chat uma vez, altere a variável de ambiente para oferecer suporte a um ponto de extremidade personalizado para o balanceador de carga e reimplante-o novamente.
A aplicação de chat está disponível nos seguintes idiomas:
Aplicativo de balanceador de carga
Observação
Este artigo usa um ou mais modelos de aplicativo de IA como base para os exemplos e orientações no artigo. Os modelos de aplicativos de IA fornecem implementações de referência bem mantidas que são fáceis de implantar. Eles ajudam a garantir um ponto de partida de alta qualidade para seus aplicativos de IA.
Arquitetura para balanceamento de carga do Azure OpenAI com Aplicações em Contentores do Azure
Como o recurso do Azure OpenAI tem limites específicos de token e cota de modelo, um aplicativo de chat que usa um único recurso do Azure OpenAI é propenso a ter falhas de conversa devido a esses limites.
Para usar o aplicativo de bate-papo sem atingir esses limites, use uma solução com balanceamento de carga com Aplicativos de contêiner. Esta solução expõe de forma integrada um único ponto de extremidade dos Container Apps para o seu servidor de chat.
O aplicativo de contêiner fica na frente de um conjunto de recursos do Azure OpenAI. A aplicação de contêiner resolve dois cenários: normal e controlado. Durante um cenário normal em que a cota de tokens e modelos está disponível, o recurso OpenAI do Azure devolve um 200 através da aplicação de contentor e do servidor de aplicações.
Quando um recurso está em um cenário limitado devido aos limites de cota, o aplicativo contêiner pode tentar novamente um recurso diferente do Azure OpenAI imediatamente para atender à solicitação original do aplicativo de chat.
Pré-requisitos
Uma assinatura do Azure. Crie um gratuitamente
Acesso concedido ao Azure OpenAI na assinatura desejada do Azure. Atualmente, o acesso a este serviço é concedido apenas por aplicativo. Você pode solicitar acesso ao Azure OpenAI preenchendo o formulário em https://aka.ms/oai/access.
Contentores de desenvolvimento estão disponíveis para ambos os exemplos, com todas as dependências necessárias para concluir este artigo. Você pode executar os contêineres de desenvolvimento no GitHub Codespaces em um navegador ou localmente usando o Visual Studio Code.
- Codespaces (recomendado)
- de código do Visual Studio
- Uma conta do GitHub.
Abra um exemplo de aplicativo do balanceador de carga dos Aplicativos de Contêiner
- GitHub Codespaces (recomendado)
- de código do Visual Studio
GitHub Codespaces executa um contêiner de desenvolvimento gerenciado pelo GitHub com Visual Studio Code for the Web como interface do usuário. Para o ambiente de desenvolvimento mais simples, use o GitHub Codespaces para que você tenha as ferramentas de desenvolvedor corretas e as dependências pré-instaladas para concluir este artigo.
Importante
Todas as contas do GitHub podem usar o GitHub Codespaces por até 60 horas gratuitas por mês com duas instâncias principais. Para obter mais informações, consulte os Codespaces do GitHub incluem mensalmente o armazenamento e as horas principais.
Implantar o balanceador de carga de Aplicativos de Contêiner do Azure
Entre na CLI do Desenvolvedor do Azure para fornecer autenticação às etapas de provisionamento e implantação:
azd auth login --use-device-code
Defina uma variável de ambiente para usar a autenticação da CLI do Azure para a etapa de pós-provisão:
azd config set auth.useAzCliAuth "true"
Implante o aplicativo balanceador de carga:
azd up
Selecione uma assinatura e uma região para a implantação. Eles não precisam ter a mesma assinatura e região do aplicativo de bate-papo.
Aguarde a conclusão da implantação antes de continuar.
Obter o ponto de extremidade de implantação
Utilize o seguinte comando para mostrar o endpoint implementado para a aplicação de contentor.
azd env get-values
Copie o valor
CONTAINER_APP_URL
. Vai usá-lo na próxima seção.
Reimplantar a aplicação de chat com o endpoint do balanceador de carga
Esses exemplos são concluídos no exemplo de aplicativo de bate-papo.
Abra o contêiner de desenvolvimento do exemplo de aplicativo de bate-papo usando uma das opções a seguir.
Idioma Espaços de código do GitHub Código do Visual Studio .NET Javascript Python Entre na CLI do Desenvolvedor do Azure (
AZD
):azd auth login
Conclua as instruções de início de sessão.
Crie um ambiente
AZD
com um nome comochat-app
:azd env new <name>
Adicione a seguinte variável de ambiente, que informa ao back-end do aplicativo de chat para usar uma URL personalizada para as solicitações do Azure OpenAI:
azd env set OPENAI_HOST azure_custom
Adicione a seguinte variável de ambiente. Substitua
<CONTAINER_APP_URL>
pelo URL da seção anterior. Essa ação informa ao back-end do aplicativo de chat qual é o valor da URL personalizada para a solicitação do Azure OpenAI.azd env set AZURE_OPENAI_CUSTOM_URL <CONTAINER_APP_URL>
Implante o aplicativo de bate-papo:
azd up
Agora pode utilizar a aplicação de chat com a confiança de que está concebida para escalar para muitos utilizadores sem esgotar o limite.
Transmitir logs para ver os resultados do balanceador de carga
Na lista de recursos no grupo, selecione o recurso Aplicativos de Contêiner do Azure.
Selecione Monitoramento>fluxo de log para exibir o log.
Use o aplicativo de bate-papo para gerar tráfego no log.
Procure os logs que se referem aos recursos do Azure OpenAI. Cada um dos três recursos tem sua identidade numérica no comentário de log que começa com
Proxying to https://openai3
, onde3
indica o terceiro recurso do Azure OpenAI.
Quando o balanceador de carga recebe o status de que a solicitação excede a cota, ele gira automaticamente para outro recurso.
Configurar a cota do TPM
Por predefinição, cada uma das instâncias do Azure OpenAI no balanceador de carga é implantada com uma capacidade de 30.000 tokens por minuto (TPM). Você pode usar a aplicação de chat com a confiança de que ela foi criada para ser escalável para muitos utilizadores sem exceder a cota. Altere este valor quando:
- Ao encontrar erros de capacidade de implantação, diminua o valor.
- Você precisa de capacidade superior: aumente o valor.
Use o seguinte comando para alterar o valor:
azd env set OPENAI_CAPACITY 50
Reimplante o balanceador de carga:
azd up
Limpar recursos
Quando terminar de usar o aplicativo de bate-papo e o balanceador de carga, limpe os recursos. Os recursos do Azure criados neste artigo são cobrados na sua assinatura do Azure. Se você não espera precisar desses recursos no futuro, exclua-os para evitar incorrer em mais cobranças.
Limpar recursos do aplicativo de bate-papo
Volte ao artigo do aplicativo de bate-papo para limpar os recursos:
Limpar os recursos do balanceador de carga de upload
Execute o seguinte comando da CLI do Desenvolvedor do Azure para excluir os recursos do Azure e remover o código-fonte:
azd down --purge --force
Os interruptores fornecem:
-
purge
: Os recursos excluídos são imediatamente limpos para que você possa reutilizar os tokens do Serviço OpenAI do Azure por minuto. -
force
: A exclusão acontece silenciosamente, sem exigir o consentimento do usuário.
Limpar os Codespaces do GitHub e o Visual Studio Code
- GitHub Codespaces
- de código do Visual Studio
Excluir o ambiente do GitHub Codespaces garante que você possa maximizar a quantidade de direitos de horas gratuitas por núcleo que você obtém para sua conta.
Importante
Para obter mais informações sobre os direitos da sua conta do GitHub, consulte os Codespaces do GitHub incluem mensalmente o armazenamento e as horas principais.
Faça login no painel do GitHub Codespaces.
Localize seus espaços de código em execução que são originados do repositório azure-samples/openai-aca-lb GitHub.
Abra o menu de contexto para o espaço de código e, em seguida, selecione Excluir.
Obter ajuda
Se tiver problemas para implantar o balanceador de carga do Gerenciamento de API do Azure, adicione a sua questão à página de problemas do repositório
Código de exemplo
Os seguintes exemplos são usados neste artigo:
Próximo passo
- Use Teste de Carga do Azure para testar o carregamento da sua aplicação de chat.