Recomendaciones para la gobernanza de cargas de trabajo de IA en la infraestructura de Azure (IaaS)
En este artículo se dan una serie de recomendaciones de gobernanza para las organizaciones que ejecuten cargas de trabajo de IA en la infraestructura de Azure (IaaS). Estas recomendaciones ayudan a las organizaciones a establecer un marco estructurado para la administración de recursos, el control de costes, la seguridad y la eficiencia operativa. Siguiendo estas prácticas, puede escalar sus cargas de trabajo de IA de forma responsable y garantizar que cumplen los objetivos de cumplimiento, seguridad y financieros.
Gobernanza de recursos
La gobernanza de recursos establece reglas y normas para administrar los recursos de Azure. Al aplicar políticas de gobernanza, las organizaciones pueden garantizar el cumplimiento, estandarizar el uso de los recursos y controlar los costes, lo que respalda el escalado responsable de las operaciones de IA.
Imponga el uso de etiquetas. Utilice Azure Policy para aplicar reglas como la ubicación de recursos, SKU permitidos y etiquetas obligatorias. Por ejemplo, cree políticas para restringir el despliegue de determinadas máquinas virtuales de alto coste, ayudando a administrar los presupuestos de forma eficaz.
Aplique políticas de gobernanza para garantizar el cumplimiento y la estandarización. Utilice Azure Policy para aplicar reglas como la ubicación de los recursos, las SKU permitidas y las etiquetas obligatorias. Por ejemplo, cree políticas para restringir el despliegue de determinadas máquinas virtuales de alto coste para controlar el presupuesto.
Utilice grupos de recursos para la administración del ciclo de vida. Implemente recursos de IA dentro de grupos de recursos que compartan un ciclo de vida común. Los grupos de recursos permiten implementar, configurar y eliminar recursos de forma colectiva. También proporcionan límites adicionales de gobernanza (política), seguridad (RBAC) y costes (presupuesto).
Normalice las convenciones de nomenclatura. Aplicar una convención normalizada para la denominación de los recursos de IA. Esta práctica mejora el seguimiento y la administración. Utilice las normas y restricciones de denominación para cada recurso Azure y siga las abreviaturas recomendadas, ya que muchos recursos suelen tener restricciones de longitud de nombre.
Gobierne la infraestructura como código. Utilice Microsoft Defender for Cloud para supervisar y aplicar la seguridad de IaC. Esta herramienta ayuda a detectar las configuraciones erróneas de IaC y garantiza implementaciones seguras.
Administración de costos
La administración de costes supervisa y controla los gastos relacionados con las cargas de trabajo de IA en Azure. Una administración de costes eficaz permite a las organizaciones establecer presupuestos, realizar un seguimiento de los gastos y mantener la sostenibilidad financiera de los proyectos de IA.
Utilice etiquetas para asignar costes. Configure una definición de política de Azure para aplicar el etiquetado a los recursos. Utilice etiquetas para categorizar los recursos por proyecto, centro de costes, entorno y propietario para una mejor administración y facturación.
Utilice la herencia de etiquetas. Utilice la herencia de etiquetas en administración de costes para aplicar etiquetas de facturación, grupo de recursos y suscripción a registros de uso de recursos secundarios.
administre las cuentas de facturación. Utilice Microsoft Billing para supervisar las cuentas de facturación y administrar las facturas. Asigne una cuenta de facturación a cada proyecto o equipo de AI para facilitar un seguimiento preciso de los gastos.
Supervise los costes. Utilice Microsoft Cost Management para establecer alertas de presupuesto, alertas de anomalías en los costes y alertas programadas. Supervisar los costes de este modo ayuda a las organizaciones a mantener la disciplina financiera.
Vea los patrones de gasto. Utilice la herramienta de análisis de costes de Azure para revisar periódicamente los patrones de gasto. Este proceso identifica tendencias y revela áreas de ahorro potencial, especialmente en el uso de máquinas virtuales.
Permita SKU de máquinas virtuales específicas. Utilice la política de Azure para permitir únicamente las SKU de máquinas virtuales que se ajusten a su presupuesto de IA. La definición de políticas incorporada Permitir SKU de máquinas virtuales puede aplicar este control.
Considere el autoescalado. Utilice un conjunto de escalado de máquinas virtuales para ajustar dinámicamente los recuentos de máquinas virtuales en función de la demanda, optimizando los costes.
Configure el apagado automático de máquinas virtuales. Utilice la función de apagado automático para programar el apagado de las máquinas virtuales durante las horas de menor actividad, reduciendo así los costes innecesarios.
Gobernanza de la seguridad
La gobernanza de la seguridad aborda la necesidad de medidas de protección sólidas en las cargas de trabajo de IA. Mediante la implementación de políticas de seguridad y controles de acceso, las organizaciones pueden proteger los datos y recursos confidenciales. Reduce el riesgo y respalda un entorno de IA seguro en Azure.
Integración con Microsoft Entra ID. Utilice Microsoft Entra ID para la administración centralizada de identidades y las capacidades de inicio de sesión único (SSO) en todas las cargas de trabajo de IA.
Implemente controles de acceso distintos para cada entorno. Limite la identidad de cada pipeline de implementación a su entorno designado, reduciendo el riesgo de implementaciones accidentales.
Habilite Azure Defender. Active Azure Defender para una protección avanzada frente a amenazas. Azure Defender mejora la seguridad de las cargas de trabajo, incluidas las máquinas virtuales, las cuentas de almacenamiento y las bases de datos, promoviendo una postura de seguridad sólida para las cargas de trabajo de IA.
Gobierno operativo
La gobernanza operativa garantiza una supervisión y administración coherentes de las cargas de trabajo de IA. Mediante el uso de herramientas de supervisión, alertas e implementaciones automatizadas, las organizaciones pueden mantener el estado del sistema, detectar problemas de forma temprana y mejorar la eficiencia operativa, lo que contribuye a que las operaciones de IA sean fiables y estables.
Implementar agentes de supervisión. Asegúrese de que los agentes de Azure Monitor están desplegados por defecto para máquinas virtuales, Azure Virtual Machine Scale Sets y servidores conectados a Azure Arc. Conéctelos a un espacio de trabajo central de Log Analytics dentro de la suscripción de administración.
Configurar alertas Habilite las reglas de alerta recomendadas para recibir notificaciones de desviaciones de métricas.
Utilice un pipeline CI/CD. Implemente la integración continua y la entrega continua (CI/CD) para automatizar las pruebas de código y la implementación en diferentes entornos.