Compartir a través de


Consideraciones sobre continuidad empresarial y recuperación ante desastres (BCDR) con Azure OpenAI Service

Azure OpenAI está disponible en varias regiones. Cuando se crea un recurso Azure OpenAI, se especifica una región. A partir de ese momento, su recurso y todas sus operaciones permanecerán asociados a esa región de servidores Azure.

No suele ser habitual, aunque tampoco imposible, encontrar un problema de red que afecte a toda una región. Si su servicio tiene que estar siempre disponible, debe diseñarlo para que pueda conmutar por error a otra región o dividir la carga de trabajo entre dos o más regiones. Ambos enfoques requieren al menos dos cuentas de Azure OpenAI en diferentes regiones. En este artículo se proporcionan recomendaciones generales sobre cómo implementar la continuidad empresarial y recuperación ante desastres (BCDR) para las aplicaciones de Azure OpenAI.

BCDR requiere código personalizado

En la actualidad, los clientes llamarán al punto de conexión proporcionado durante la implementación para realizar inferencias. Las operaciones de inferencia no tienen estado, por lo que no se pierden datos si una región deja de estar disponible.

Si una región no está operativa, los clientes deben tomar medidas para garantizar la continuidad del servicio.

BCDR para el modelo base y el modelo personalizado

Si está utilizando los modelos base, debe configurar su código de cliente para supervisar los errores y, si estos persisten, estar preparado para redirigir a otra región de su elección en la que disponga de una suscripción a Azure OpenAI.

Para configurar el cliente para que supervise si hay errores, siga estos pasos:

  1. Utilice la página de modelos para elegir los centros de datos y las regiones que más le convengan.

  2. Seleccione una región primaria y una (o varias) secundarias/de reserva de la lista.

  3. Cree recursos Azure OpenAI para cada una de las regiones seleccionadas.

  4. Para la región primaria y las regiones de reserva, el código debe conocer lo siguiente:

    • El URI base del recurso.
    • Acceso a Microsoft Entra ID o clave de acceso regional
  5. Configure el código para supervisar los errores de conectividad (normalmente, los tiempos de espera de conexión y los errores de falta de disponibilidad del servicio).

    • Dado que las redes experimentan errores transitorios, en caso de que se produzcan problemas de conectividad únicos, la sugerencia es volver a intentarlo.
    • En caso de problemas persistentes de conectividad, redirija el tráfico al recurso de reserva de la región o regiones que haya creado.

Si ha afinado un modelo en su región primaria, tendrá que volver a entrenar el modelo base en las regiones secundarias utilizando los mismos datos de entrenamiento. Y luego siga los pasos anteriores.