Partilhar via


Considerações sobre continuidade de negócios e recuperação de desastres (BCDR) com o Serviço OpenAI do Azure

O Azure OpenAI está disponível em várias regiões. Ao criar um recurso do Azure OpenAI, você especifica uma região. A partir de então, seu recurso e todas as suas operações permanecem associados a essa região de servidor do Azure.

É raro, mas não impossível, encontrar um problema de rede que atinge uma região inteira. Se o seu serviço precisa estar sempre disponível, você deve projetá-lo para failover em outra região ou dividir a carga de trabalho entre duas ou mais regiões. Ambas as abordagens exigem pelo menos dois recursos do Azure OpenAI em regiões diferentes. Este artigo fornece recomendações gerais sobre como implementar a continuidade de negócios e recuperação de desastres (BCDR) para seus aplicativos Azure OpenAI.

BCDR requer código personalizado

Hoje, os clientes chamarão o ponto de extremidade fornecido durante a implantação para inferência. As operações de inferência são sem monitoração de estado, portanto, nenhum dado é perdido se uma região ficar indisponível.

Se uma região não estiver operacional, os clientes devem tomar medidas para garantir a continuidade do serviço.

BCDR para modelo base & modelo personalizado

Se você estiver usando os modelos base, deverá configurar o código do cliente para monitorar erros e, se os erros persistirem, estar preparado para redirecionar para outra região de sua escolha onde você tenha uma assinatura do Azure OpenAI.

Siga estas etapas para configurar seu cliente para monitorar erros:

  1. Use a página de modelos para escolher os datacenters e as regiões certas para você.

  2. Selecione uma região primária e uma (ou mais) secundária/de backup na lista.

  3. Crie recursos do Azure OpenAI para cada região selecionada.

  4. Para a região primária e quaisquer regiões de backup, seu código precisará saber:

    • URI de base para o recurso
    • Chave de acesso regional ou acesso ao Microsoft Entra ID
  5. Configure seu código para monitorar erros de conectividade (normalmente tempos limite de conexão e erros de indisponibilidade do serviço).

    • Dado que as redes produzem erros transitórios, para ocorrências de problemas de conectividade únicos, a sugestão é tentar novamente.
    • Para problemas de conectividade persistentes, redirecione o tráfego para o recurso de backup na(s) região(ões) que você criou.

Se você tiver ajustado um modelo em sua região primária, precisará treinar novamente o modelo base na(s) região(ões) secundária(s) usando os mesmos dados de treinamento. E, em seguida, siga os passos acima.