Compartir a través de


Recuperación ante desastres habilitada para el cliente

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

Para maximizar su tiempo de actividad, planifique con antelación para mantener la continuidad del negocio y prepárese para la recuperación ante desastres con Azure AI Studio. Dado que Azure AI Studio se basa en la arquitectura de Azure Machine Learning, resulta beneficioso hacer referencia a la arquitectura básica.

Microsoft se esfuerza por garantizar que los servicios de Azure siempre estén disponibles. Sin embargo, es posible que se produzcan interrupciones no planeadas en el servicio. Se recomienda disponer de un plan de recuperación ante desastres para abordar las interrupciones de servicio en regiones. En este artículo aprenderá a:

  • Planifique una implementación multirregional de Azure AI Studio y los recursos asociados.
  • Maximice las posibilidades de recuperar registros, cuadernos, imágenes de Docker y otros metadatos.
  • Diseñar la alta disponibilidad para su solución.
  • Iniciar una conmutación por error a otra región.

Importante

Azure AI Studio por sí mismo no proporciona conmutación por error automática ni recuperación ante desastre.

Comprender los servicios de Azure para Azure AI Studio

Azure AI Studio depende de varios servicios de Azure. Algunos de estos servicios se aprovisionan en la suscripción. El usuario es responsable de la configuración de alta disponibilidad de estos servicios. Microsoft administra algunos servicios, que se crean en una suscripción de Microsoft.

Los servicios de Azure incluyen:

  • Infraestructura Azure AI Studio: un entorno administrado por Microsoft para el centro de conectividad y el proyecto Azure AI Studio. La [underlying architecture](Azure AI Studio architecture doc) es proporcionada por Azure Machine Learning.

  • Recursos asociados necesarios: recursos aprovisionados en su suscripción durante la creación del centro de conectividad y del proyecto de Azure AI Studio. Estos recursos incluyen Azure Storage y Azure Key Vault.

    • El almacenamiento predeterminado tiene datos como el modelo, los datos del registro de entrenamiento y las referencias a los recursos de datos.
    • Key Vault tiene credenciales para Azure Storage y conexiones.
  • Recursos asociados opcionales: recursos que puede adjuntar a su centro de conectividad de Azure AI Studio. Estos recursos incluyen Azure Container Registry y Application Insights.

    • Container Registry tiene una imagen de Docker para entornos de aprendizaje e inferencia.
    • Application Insights sirve para supervisar Azure AI Studio.
  • Instancia de computación: recurso que se crea tras la implementación del centro de conectividad. Entornos de desarrollo de modelos administrado por Microsoft.

  • Conexiones: Azure AI Studio puede conectarse a otros servicios. Usted es responsable de cofigurar su configuración de alta disponibilidad.

La siguiente tabla muestra los servicios Azure que administra Microsoft y los que administra usted. También se indican los servicios de alta disponibilidad, de forma predeterminada.

Servicio Administrado por Alta disponibilidad de forma predeterminada
Infraestructura de Azure AI Studio Microsoft
Recursos asociados
Azure Storage Los
Key Vault Los
Container Registry Los
Application Insights Los N/D
Recursos de proceso
Instancia de proceso Microsoft
Cualquier conexión a servicios externos como Azure AI Services Usted

En el resto de este artículo se describen las acciones que el usuario tiene que realizar para que cada uno de estos servicios sea de alta disponibilidad.

Planeamiento de la implementación multirregional

Una implementación multirregional se basa en la creación de Azure AI Studio y otros recursos (infraestructura) en dos regiones Azure. Si se produce una interrupción en una región, se puede cambiar a la otra. Cuando se plantee dónde implementar sus recursos, tenga en cuenta lo siguiente:

  • Disponibilidad regional: si es posible, use una región en la misma área geográfica, no necesariamente la más cercana. Para comprobar la disponibilidad regional de Azure AI Studio, consulte Productos Azure por región.

  • Regiones emparejadas de Azure: coordinan las actualizaciones de la plataforma y priorizan las iniciativas de recuperación según las necesidades. Sin embargo, no todas las regiones admiten regiones emparejadas. Para más información, consulte Regiones emparejadas de Azure.

  • Disponibilidad del servicio: determine si la disponibilidad de los recursos utilizados por la solución debe ser activa/activa, activa/en espera o activa/pasiva.

    • activa/activa: ambas regiones están activas al mismo tiempo y una de ellas se puede empezar a usar inmediatamente.
    • activa/en espera: la región primaria está activa y la secundaria tiene recursos críticos (por ejemplo, modelos implementados) preparados para iniciarse. Los recursos no críticos tendrían que implementarse manualmente en la región secundaria.
    • Activa/pasiva: la región primaria está activa, la región secundaria tiene Azure AI Studio y otros recursos implementados, junto con los datos necesarios. Recursos como los modelos, las implementaciones de modelos o las canalizaciones tendrían que implementarse manualmente.

Sugerencia

En función de sus requisitos empresariales, puede decidir tratar de forma diferente los distintos recursos de Azure AI Studio.

Azure AI Studio se basa en otros servicios. Algunos servicios se pueden configurar para la replicación en otras regiones. Otros servicios se deben crear manualmente en varias regiones. En la tabla siguiente se proporciona una lista de servicios responsables de la replicación y una descripción de la configuración:

Servicio de Azure Replicación geográfica Configuración
centro de conectividad y proyectos de AI Studio Usted Crear un centro de conectividad/proyectos en las regiones seleccionadas.
Proceso AI Studio Usted Cree los recursos de proceso en las regiones seleccionadas. En el caso de los recursos de proceso escalables de forma dinámica, asegúrese de que ambas regiones proporcionen una cuota de proceso suficiente en relación con sus necesidades.
Key Vault Microsoft Utilice la misma instancia de Key Vault con el centro de conectividad y los recursos de Azure AI Studio en ambas regiones. Key Vault conmuta por error de forma automática en una región secundaria. Para más información, consulte Redundancia y disponibilidad de Azure Key Vault.
Cuenta de almacenamiento Usted Azure Machine Learning no admite la conmutación por error en la cuenta de almacenamiento predeterminada por medio del almacenamiento con redundancia geográfica (GRS), el almacenamiento con redundancia de zona geográfica (GZRS), el almacenamiento con redundancia geográfica con acceso de lectura (RA-GRS) o el almacenamiento con redundancia de zona geográfica con acceso de lectura (RA-GZRS). Configure una cuenta de almacenamiento según sus necesidades y utilícela para el centro de conectividad. Todos los proyectos posteriores utilizan la cuenta de almacenamiento del centro de conectividad. Para más información, vea Redundancia de Azure Storage.
Container Registry Microsoft Configure la instancia de Registro de contenedores para georreplicar registros en la región emparejada para Azure AI Studio. Utilice la misma instancia para ambas instancias del centro de conectividad. Para más información, consulte Replicación geográfica en Azure Container Registry.
Application Insights Los Cree Application Insights para el centro de conectividad en ambas regiones. Para ajustar el período de retención de datos y los detalles consulte Recopilación, retención y almacenamiento de datos en Application Insights.

Para acelerar la recuperación y el reinicio en la región secundaria, se recomiendan los siguientes procedimientos de desarrollo:

  • Utilice plantillas de Azure Resource Manager. Las plantillas son "infraestructura como código" y permiten implementar rápidamente servicios en ambas regiones.
  • Para evitar el desvío entre las dos regiones, actualice las canalizaciones de integración e implementación continuas para que se implementen en ambas regiones.
  • Cree asignaciones de rol para los usuarios de ambas regiones.
  • Cree recursos de red, como las redes virtuales y los puntos de conexión privados de Azure, para ambas regiones. Asegúrese de que los usuarios tengan acceso a ambos entornos de red. Por ejemplo, las configuraciones de VPN y DNS para ambas redes virtuales.

Diseño para lograr alta disponibilidad

Zonas de disponibilidad

Algunos servicios de Azure admiten zonas de disponibilidad. En las regiones que admiten zonas de disponibilidad, si una zona se cae, cualquier proyecto se detiene y los datos deben guardarse. Sin embargo, los datos no están disponibles para actualizarse hasta que la zona vuelva a estar en línea.

Para obtener más información, consulte Servicio de zona de disponibilidad y compatibilidad regional.

Implementación de componentes críticos en varias regiones

Determine el nivel de continuidad empresarial que tiene como objetivo. El nivel puede diferir entre los componentes de la solución. Por ejemplo, tal vez desee usar una configuración activa/activa para las canalizaciones de producción o las implementaciones de modelos, y una configuración Activa/pasiva con fines de experimentación.

Inteligencia artificial de Azure Studio es un servicio regional que almacena datos tanto en el lado del servicio como en una cuenta de almacenamiento de su suscripción. Si se produce una catástrofe regional, los datos del servicio no pueden recuperarse. Pero puede recuperar los datos almacenados por el servicio en la cuenta de almacenamiento de su suscripción si se aplica la redundancia de almacenamiento. Los datos almacenados del lado del servicio son en su mayoría metadatos (etiquetas, nombres de activos, descripciones). En su cuenta de almacenamiento se almacenan normalmente no metadatos, por ejemplo, datos cargados.

Para las conexiones, recomendamos crear dos recursos separados en dos regiones distintas, y luego crear dos conexiones para el centro de conectividad. Por ejemplo, si los Servicios AI son un recurso crítico para la continuidad del negocio, crear dos recursos de Servicios AI y dos conexiones para el centro de conectividad, sería una buena estrategia para la continuidad del negocio. Con esta configuración, si una región se cae sigue habiendo una región operativa.

Para los centros esenciales para la continuidad de la actividad, implemente recursos en dos regiones.

Almacenamiento aislado

En el escenario en el que se conecta con datos para personalizar su aplicación de IA, normalmente sus conjuntos de datos podrían utilizarse en Azure AI pero también fuera de Azure AI. El volumen del conjunto de datos podría ser bastante grande, por lo que podría ser una buena práctica mantener estos datos en una cuenta de almacenamiento separada. Evalúe qué estrategia de replicación de datos tiene más sentido para su caso de uso.

En AI Studio, establece una conexión con sus datos. Si tiene varias instancias de AI Studio en distintas regiones, puede seguir apuntando a la misma cuenta de almacenamiento porque las conexiones funcionan en todas las regiones.

Inicio de una conmutación por error

Continuar el trabajo en el centro de conectividad por error

Cuando el centro de conectividad principal deja de estar disponible, puede pasar al secundario para continuar con el desarrollo. Azure AI Studio no envía automáticamente los trabajos al centro de conectividad secundario si se produce una interrupción. Actualice la configuración del código para que apunte al nuevo recurso de área de trabajo. Recomendamos evitar la codificación de referencias a centros de conectividad o proyectos.

Azure AI Studio no puede sincronizar ni recuperar artefactos o metadatos entre centros. Dependiendo de su estrategia de implementación de aplicaciones, es posible que tenga que mover o volver a crear artefactos en el centro de conectividad por error para poder continuar. En caso de que configure su centro de conectividad principal y su centro de conectividad secundario para compartir recursos asociados con la georreplicación activada, algunos objetos podrían estar directamente disponibles para el centro de conectividad de conmutación por error. Por ejemplo, si ambos centros de conectividad comparten las mismas imágenes Docker, los mismos almacenes de datos configurados y los mismos recursos de Azure Key Vault.

Nota:

Los trabajos que se estén ejecutando cuando se produzca una interrupción del servicio no pasarán automáticamente al centro de conectividad secundario. También es poco probable que los trabajos se reanuden y finalicen con éxito en el centro de conectividad principal una vez que se resuelva la interrupción. En su lugar, estos trabajos deben reenviarse, ya sea en el centro de conectividad secundario o en el principal (una vez resuelta la interrupción).

Opciones de recuperación

Eliminación de recursos

Si un centro de conectividad y sus recursos existentes se eliminan accidentalmente, hay algunos recursos que tienen activada la eliminación suave, lo que permite la recuperación de recursos. Los centros de conectividad y proyectos no admiten la eliminación temporal. Un centro de conectividad o proyecto borrado no puede recuperarse. Algunos recursos subyacentes podrían soportar la eliminación temporal, por lo que potencialmente podrían ser recuperados. Consulte la tabla para saber qué servicios disponen de una opción de borrado suave.

Service Eliminación temporal habilitada
Centro de conectivdad de Azure AI Studio No admitidas
Proyecto de Azure AI Studio No admitidas
Recurso Azure AI Services
Azure Storage Consulte Recuperar una cuenta de almacenamiento eliminada .
Azure Key Vault

Pasos siguientes