Considerações de BCDR (Continuidade dos Negócios e Recuperação de Desastres) com o Serviço OpenAI do Azure
O OpenAI do Azure está disponível em várias regiões. Ao criar um recurso do OpenAI do Azure, você especifica uma região. A partir de então, seu recurso e todas as suas operações permanecerão associados a essa região do servidor do Azure.
É raro, mas não impossível, que um problema de rede atinja toda uma região. Se o seu serviço precisar estar sempre disponível, você deverá projetá-lo para fazer failover em outra região ou dividir a carga de trabalho entre duas ou mais regiões. Ambas as abordagens exigem pelo menos dois recursos do OpenAI do Azure em regiões diferentes. Este artigo fornece recomendações gerais sobre como implementar a BCDR (Continuidade dos Negócios e Recuperação de Desastres) para aplicativos do OpenAI do Azure.
A BCDR exige código personalizado
Hoje, os clientes chamarão o ponto de extremidade fornecido durante a implantação para fazer inferências. As operações de inferência são sem estado, portanto, nenhum dado é perdido se uma região ficar indisponível.
Se uma região não estiver operacional, os clientes deverão tomar medidas para certificar-se da continuidade do serviço.
BCDR para um modelo básico e um modelo personalizado
Se estiver utilizando os modelos básicos, configure o código do cliente para monitorar os erros e, se os erros persistirem, prepare-se para redirecionar para outra região de sua escolha na qual tenha uma assinatura do OpenAI do Azure.
Siga estas etapas para configurar o cliente para monitorar erros:
Utilize a página modelos para escolher os datacenters e as regiões mais adequados para você.
Selecione uma região primária e uma (ou mais) secundárias/backup na lista.
Crie recursos do OpenAI do Azure para cada uma das regiões selecionadas.
Para a região primária e as regiões de backup, o código precisará conhecer:
- URI base do recurso
- Chave de acesso regional ou acesso ao Microsoft Entra ID
Configure o código de modo a monitorar erros de conectividade (normalmente, tempos limite de conexão e erros de indisponibilidade de serviço).
- Como as redes apresentam erros transitórios, para ocorrências de problemas de conectividade únicos, a sugestão é tentar novamente.
- Para problemas persistentes de conectividade, redirecione o tráfego para o recurso de backup na(s) região(ões) que você criou.
Se tiver ajustado um modelo em sua região primária, será necessário treinar novamente o modelo básico na(s) região(ões) secundária(s) utilizando os mesmos dados de treinamento. Em seguida, siga as etapas acima.