Recomendaciones para la administración de cargas de trabajo de IA en la infraestructura de Azure (IaaS)

Artículo
01/23/2025

En este artículo se dan una serie de recomendaciones de administración para las organizaciones que ejecuten cargas de trabajo de IA en la infraestructura de Azure (IaaS). La administración eficaz de las cargas de trabajo de IA en Azure requiere una supervisión continua, procedimientos de optimización y una sólida estrategia de copias de seguridad y recuperación. Estas tareas y acciones minimizan el tiempo de inactividad y garantizan la fiabilidad en las operaciones de IA.

Supervisión de infraestructura de IA

La supervisión de la infraestructura de IA implica el seguimiento y la evaluación del rendimiento, el estado y la disponibilidad de todos los componentes de una implementación de IA en IaaS de Azure. La supervisión proactiva permite a las organizaciones detectar y resolver posibles problemas antes de que afecten a las operaciones.

Aplique la supervisión de forma predeterminada. Implementar los agentes de Azure Monitor necesarios para máquinas virtuales y Azure Virtual Machine Scale Sets, incluidos los servidores conectados de Azure Arc. Conectar al área de trabajo central de Log Analytics en la suscripción de administración. Pruebe a usar Alertas de base de Azure Monitor. (AMBA).
Use el Administrador de actualizaciones de Azure. Puede supervisar el cumplimiento de actualizaciones de Windows y Linux en las máquinas de Azure y en el entorno local o en otras plataformas en la nube (conectadas mediante Azure Arc) desde un único panel de administración. También puede usar Update Manager para realizar actualizaciones en tiempo real o programarlas dentro de una ventana de mantenimiento definida.
Supervisión de máquinas virtuales.Supervise los datos de host de la máquina virtual (host físico) y los datos de invitado de la máquina virtual (sistema operativo y aplicación). Puede también usar VM Insights para hacer más sencilla la integración, acceder a las gráficas de rendimiento predefinidas y usar la asignación de dependencias. Realice un seguimiento de las expulsiones de máquinas virtuales de acceso puntual y las tareas de mantenimiento para administrar las interrupciones de forma eficaz. Obtenga más información sobre los eventos programados.
Supervisión de redes.Supervise y diagnostique problemas de red sin iniciar sesión en las máquinas virtuales. Consulte información del rendimiento en tiempo real en los paquetes. Solucione problemas de rendimiento con la herramienta Diagnóstico de rendimiento. Haga un seguimiento de la topología, el estado y las métricas de todos los recursos de red implementados.
Supervisión de almacenamiento. Supervise el rendimiento del almacenamiento, como SSD locales, discos conectados recursos compartidos de archivos y cuentas de almacenamiento de Azure.
Use las funcionalidades de supervisión del orquestador (si procede). Pruebe a usar las funcionalidades de supervisión integradas de orquestadores como Azure CycleCloud, Azure Batch y Azure Kubernetes Service (AKS). Siga las instrucciones del orquestador que haya elegido:
- Azure CycleCloud o Área de trabajo de Azure CycleCloud para Slurm: realice un seguimiento de las métricas de CPU, disco y red. Almacene datos de clústeres de Azure CycleCloud en Log Analytics y cree paneles de métricas personalizados. Para obtener más información, consulte Supervisión de Azure CycleCloud. Las comprobaciones de estado de nodo son una serie de pruebas automatizadas que permiten garantizar que el hardware de HPC/AI esté en buen estado. Puede ejecutar esta comprobación en Azure CycleCloud junto con la implementación del clúster o por separado a través de las instrucciones del repositorio de GitHub. Preste especial atención a la matriz de compatibilidad en la documentación. Ejecútelas siempre que corresponda para identificar los nodos incorrectos antes de ejecutar las cargas de trabajo de IA.
- Azure Batch: reúna métricas de tareas y trabajos, como tareas activas, duración de la tarea, hora de inicio del trabajo, duración y hora de inicio de la tarea. Recopile también métricas de grupo, como nodos inactivos, nodos en ejecución, uso de CPU, E/S de disco. Para o más información, consulte Supervisión de Azure Batch.
- Azure Kubernetes Service. Uso de Azure Monitor para contenedores. Supervise el rendimiento del pod, el estado del nodo y el uso de recursos. Crear alertas y paneles personalizados.

administrar la continuidad empresarial y la recuperación ante desastres

La administración de la continuidad empresarial y la recuperación ante desastres en las aplicaciones de IA en Azure garantiza que las organizaciones puedan recuperarse rápidamente frente a las interrupciones. Al implementar estrategias como la replicación en tiempo real, la recuperación automatizada y las copias de seguridad periódicas, las organizaciones pueden proteger su infraestructura de IA frente a la pérdida de datos y la inactividad operativa.

Use Azure Site Recovery. Site Recovery usa la replicación en tiempo real y la automatización de la recuperación para replicar cargas de trabajo entre regiones. Las funcionalidades integradas de la plataforma para cargas de trabajo de máquina virtual cumplen los requisitos bajos de RPO y RTO. Puede usar Site Recovery para ejecutar simulacros de recuperación sin que afecte a las cargas de trabajo de producción. También puede usar Azure Policy para habilitar la replicación y auditar la protección de máquinas virtuales.
Usar funcionalidades de orquestador (si procede). Use el orquestador para recuperar nodos de proceso con errores. Por ejemplo, configure Azure Batch para reintentar tareas automáticamente si se produce un error.
Programar copias de seguridad. Decida si necesita realizar copias de seguridad de los cambios graduales en conjuntos de datos y modelos diarios o semanales. Las copias de seguridad también pueden incluir bases de datos o conjuntos de datos completos.
Garantizar el cumplimiento de los datos. Asegúrese de que la estrategia de copia de seguridad cumple con las normativas de protección de datos. Cumpla con los requisitos de residencia de datos y almacene copias de seguridad en ubicaciones geográficas adecuadas.
Crear instantáneas. Puede usar las funcionalidades del programador para crear instantáneas. Por ejemplo, CycleCloud puede tomar instantáneas en un momento específico del almacén de datos de la aplicación subyacente como puntos de recuperación.

Paso siguiente

Protección de IA de IaaS

Compartir vía

Recomendaciones para la administración de cargas de trabajo de IA en la infraestructura de Azure (IaaS)

Supervisión de infraestructura de IA

administrar la continuidad empresarial y la recuperación ante desastres

Paso siguiente

Comentarios

Recursos adicionales