Compartir vía


Recomendaciones de administración para cargas de trabajo de IA en la infraestructura de Azure (IaaS)

En este artículo se proporcionan recomendaciones de administración para las organizaciones que ejecutan cargas de trabajo de IA en la infraestructura de Azure (IaaS). La administración eficaz de las cargas de trabajo de inteligencia artificial en Azure requiere supervisión continua, prácticas de optimización y una sólida estrategia de copia de seguridad y recuperación. Estos esfuerzos minimizan el tiempo de inactividad y garantizan la confiabilidad en las operaciones de inteligencia artificial.

Supervisión de la infraestructura de IA

La infraestructura de inteligencia artificial de supervisión implica el seguimiento y la evaluación del rendimiento, el estado y la disponibilidad de todos los componentes de una implementación de IA en IaaS de Azure. La supervisión proactiva permite a las organizaciones detectar y resolver posibles problemas antes de que afecten a las operaciones.

  • Asegúrese de la supervisión de forma predeterminada. Implementar los agentes de Azure Monitor necesarios para máquinas virtuales y Azure Virtual Machine Scale Sets, incluidos los servidores conectados de Azure Arc. Conectar al área de trabajo central de Log Analytics en la suscripción de administración. Considere la posibilidad de usar alertas de línea base de Azure Monitor (AMBA).

  • Use Azure Update Manager. Puede supervisar el cumplimiento de actualizaciones de Windows y Linux en las máquinas de Azure y en el entorno local o en otras plataformas en la nube (conectadas mediante Azure Arc) desde un único panel de administración. También puede usar Update Manager para realizar actualizaciones en tiempo real o programarlas dentro de una ventana de mantenimiento definida.

  • Supervisión de máquinas virtuales. Supervise los datos de host de máquina virtual (host físico) y los datos de invitado de máquina virtual (sistema operativo y aplicación). Considere la posibilidad de usar VM Insights para simplificar la incorporación, acceder a gráficos de rendimiento predefinidos y usar la asignación de dependencias. Realice un seguimiento de las expulsiones de máquinas virtuales de Spot y los eventos de mantenimiento para administrar las interrupciones de forma eficaz. Obtenga más información sobre los eventos programados.

  • Supervisión de redes. Supervise y diagnostique problemas de red sin iniciar sesión en las máquinas virtuales. Obtenga información de rendimiento en tiempo real en el nivel de paquete. Solución de problemas de rendimiento con la herramienta Diagnóstico de rendimiento. Realice un seguimiento de la topología, el estado y las métricas de todos los recursos de red implementados.

  • Supervisar el almacenamiento. Supervise el rendimiento del almacenamiento, como ssd locales, discos conectados, recursos compartidos de archivos y cuentas de almacenamiento de Azure.

  • Use las funcionalidades de supervisión del orquestador (si procede). Considere la posibilidad de usar las funcionalidades de supervisión integradas de orquestadores como Azure CycleCloud, Azure Batch y Azure Kubernetes Service (AKS). Siga las instrucciones del orquestador que eligió:

    • Área de trabajo de Azure CycleCloud o Azure CycleCloud para Slurm: realice un seguimiento de las métricas de CPU, disco y red. Almacene datos de clústeres de Azure CycleCloud en Log Analytics y cree paneles de métricas personalizados. Para más información, consulte Supervisión de Azure CycleCloud. Las comprobaciones de estado de node son un conjunto de pruebas automatizadas para asegurarse de que el hardware de HPC/AI es correcto. Puede ejecutar esta comprobación en Azure CycleCloud como parte de la implementación del clúster o por separado mediante las instrucciones del repositorio de GitHub. Asegúrese de prestar atención a la matriz de compatibilidad en la documentación. Ejecute siempre que corresponda para asegurarse de identificar los nodos incorrectos antes de ejecutar las cargas de trabajo de IA.

    • Azure Batch: recopile métricas de tareas y trabajos, como tareas activas, duración de la tarea, hora de inicio del trabajo, duración, hora de inicio de la tarea. Recopile también métricas de grupo, como nodos inactivos, nodos en ejecución, uso de CPU, E/S de disco. Para más información, consulte Supervisión de Azure Batch.

    • Azure Kubernetes Service. Use Azure Monitor para contenedores. Supervise el rendimiento del pod, el estado del nodo y el uso de recursos. Configurar alertas y paneles personalizados.

Administración de la continuidad empresarial y la recuperación ante desastres

La administración de la continuidad empresarial y la recuperación ante desastres para las aplicaciones de inteligencia artificial en Azure garantiza que las organizaciones puedan recuperarse rápidamente de las interrupciones. Al implementar estrategias como la replicación en tiempo real, la recuperación automatizada y las copias de seguridad periódicas, las organizaciones protegen su infraestructura de inteligencia artificial contra la pérdida de datos y el tiempo de inactividad operativo.

  • Use Azure Site Recovery. Site Recovery usa la replicación en tiempo real y la automatización de la recuperación para replicar cargas de trabajo entre regiones. Las funcionalidades integradas de la plataforma para cargas de trabajo de máquina virtual cumplen los requisitos bajos de RPO y RTO. Puede usar Site Recovery para ejecutar simulacros de recuperación sin que afecte a las cargas de trabajo de producción. También puede usar Azure Policy para habilitar la replicación y auditar la protección de máquinas virtuales.

  • Use funcionalidades de orquestador (si procede). Use el orquestador para recuperar nodos de proceso con errores. Por ejemplo, configure Azure Batch para reintentar automáticamente las tareas si se produce un error.

  • Programar copias de seguridad. Determine si necesita realizar copias de seguridad de los cambios incrementales en conjuntos de datos y modelos diarios o semanales. Las copias de seguridad también pueden incluir bases de datos o conjuntos de datos completos.

  • Garantizar el cumplimiento de los datos. Asegúrese de que la estrategia de copia de seguridad cumple con las normativas de protección de datos. Cumpla los requisitos de residencia de datos y almacene copias de seguridad en ubicaciones geográficas adecuadas.

  • Cree instantáneas. Puede usar las funcionalidades del programador para tomar instantáneas. Por ejemplo, CycleCloud puede tomar instantáneas a un momento dado del almacén de datos de la aplicación subyacente como puntos de recuperación.

Paso siguiente